Upload
buitu
View
220
Download
0
Embed Size (px)
Citation preview
Artigo
A Tripartite Scorecard for the PayNo pay Decision-Making in the Retail Banking Industry
de
Maria Rocha Sousa e Joaquim Pinto da Costa
Analisado por Heacutelia Monteiro da Costa Seminaacuterio de Modelaccedilatildeo 20112012
18 de janeiro de 2012
1
Sumaacuterio
Recolha de dados
Minimizaccedilatildeo das perdas
Modelo binaacuterio
Modelo ternaacuterio
Discussatildeo
Bibliografia
Agenda
2
Enquadramento
Os bancos suportam a decisatildeo de creacutedito em modelos que preveem o incumprimento a 6 ou mais meses
O deacutebito ou natildeo de uma transaccedilatildeo bancaacuteria numa conta com saldo insuficiente deveria ser decidido com base na probabilidade de o cliente incumprir a 30 dias
Objetivo
Criar modelo para decidir se eacute efetuado ou natildeo o deacutebito de uma transaccedilatildeo numa conta bancaacuteria com saldo insuficiente minimizando as perdas
Processo
1 Modelos binaacuterios usar vaacuterios modelos para distribuir os clientes por duas classes MAU e BOM mediante a probabilidade de incumprirem
2 Modelos ternaacuterios usar vaacuterios modelos para distribuir os clientes por trecircs classes MAU BOM e para REVISAtildeO (decisatildeo manual)
Resultado
Obtida uma automatizaccedilatildeo de 87 que compara favoravelmente com 79 do processo anterior
Sumaacuterio
3
Sumaacuterio
Recolha de dados
Minimizaccedilatildeo das perdas
Modelo binaacuterio
Modelo ternaacuterio
Discussatildeo
Bibliografia
Agenda
4
Janela de observaccedilatildeo
Periacuteodo associado agrave informaccedilatildeo histoacuterica que permitiraacute caracterizar o cliente
Janela de decisatildeo
Periacuteodo associado agrave decisatildeo de deacutebito ou natildeo de uma transaccedilatildeo na conta com saldo insuficiente
Janela de performance
Periacuteodo durante o qual seraacute avaliada a capacidade de o cliente regularizar a conta a descoberto em 30 dias
Janela de decisatildeo
Janela de performance Janela de observaccedilatildeo
Janrsquo06 Fevrsquo06 Dezrsquo05 Novrsquo05 Outrsquo05
Recolha de dados
5
Atendendo agraves janelas definidas e usando o software SAS Enterprise Miner identificaram-se
187733 transacccedilotildees cujo lanccedilamento nas contas provocaria um descoberto e que requerem decisatildeo de aprovaccedilatildeo ou natildeo de deacutebito em conta
47 caracteriacutesticasatributos dos clientes e contas associadas agraves transacccedilotildees acima referidas
82 das transacccedilotildees eram de clientes que conseguiam regularizar as contas em menos de 30 dias
Para a criaccedilatildeo e validaccedilatildeo de modelos foi efetuada a seguinte distribuiccedilatildeo por conjuntos
187733 transaccedilotildees
70 (131413)
Conjunto de treino
20 (37547)
Conjunto de validaccedilatildeo
10 (18773)
Conjunto de teste
Recolha de dados
6
Sumaacuterio
Recolha de dados
Minimizaccedilatildeo das perdas
Modelo binaacuterio
Modelo ternaacuterio
Discussatildeo
Bibliografia
Agenda
7
Ao prever a classe do cliente (BOM ou MAU) podemos definir a matriz geneacuterica de perdas L
Para determinar os paracircmetros da matriz de perdas L tem-se em conta que
A aprovaccedilatildeo do deacutebito implica cobranccedila de comissotildees pelo serviccedilo e geraccedilatildeo aumento de descobertos
Os cheques recusados implicam tambeacutem a cobranccedila de uma comissatildeo e o montante meacutedio destas transaccedilotildees e comissotildees eacute superior ao das restantes
Natildeo existem perdas quando a classificaccedilatildeo eacute correta
Classificar como BOM quando eacute MAU gera um descoberto na conta que natildeo seraacute regularizado nos 30 dias seguintes e classificar como MAU quando eacute BOM conduz agrave perda de comissotildeesjuros do serviccedilo
PREVISAtildeO
MAU BOM R
EAL MAU l1 l2
BOM l3 l4
Minimizaccedilatildeo das perdas
8
Definimos entatildeo
M = montante (comissotildees mais juros) a pagar pela aprovaccedilatildeo de qualquer transaccedilatildeo
Pc = proporccedilatildeo de cheques
Po = 1- Pc = proporccedilatildeo de outras transacccedilotildees (natildeo cheques)
Lc = descoberto provocado pela aprovaccedilatildeo de cheques
Lo = descoberto provocado pela aprovaccedilatildeo de outras transacccedilotildees
F+ = comissatildeo adicional por cada aprovaccedilatildeo de cheque
F- = comissatildeo adicional por cada devoluccedilatildeo de cheque
Usando os paracircmetros anteriormente definidos obtemos a matriz
Minimizaccedilatildeo das perdas
PREVISAtildeO
MAU BOM
REA
L MAU 0 Pc Lc + (1 - Pc)Lo
BOM Pc(F+-F-) + M 0
9
Nestas condiccedilotildees o mais importante natildeo eacute minimizar o nuacutemero de erros mas sim minimizar as perdasprejuiacutezos
Usando uma amostra com decisotildees histoacutericas e as respectivas comissotildees e montantes chegou-se agrave matriz
A matriz de perdas obtida reflete os criteacuterios de negoacutecio atualmente em vigor No entanto deve ser sempre levada em conta a variabilidade destes criteacuterios na construccedilatildeo do modelo de decisatildeo
PREVISAtildeO
MAU BOM
REA
L MAU 0 49
BOM 1 0
Minimizaccedilatildeo das perdas
10
Sumaacuterio
Recolha de dados
Minimizaccedilatildeo das perdas
Modelo binaacuterio
Modelo ternaacuterio
Discussatildeo
Bibliografia
Agenda
11
Pretende-se que o resultado do modelo contenha
a divisatildeo da populaccedilatildeo em duas classes (BOM MAU)
a probabilidade agrave posteriori em cada classe
Na praacutetica pretende-se dividir a populaccedilatildeo em grupos e em funccedilatildeo da probabilidade associada agrave classe dominante em cada grupo definir como classificar os elementos desse grupo minimizando os custosperdas associadas a essa previsatildeo
100 transaccedilotildees
(80 BOM 20 MAU)
60 transaccedilotildees
(55 BOM 5 MAU)
40 transaccedilotildees
(25 BOM 15 MAU)
20 transaccedilotildees
(20 BOM 0 MAU)
20 transaccedilotildees
(5 BOM 15 MAU)
BOM 80
BOM 62
MAU 75 BOM 100
BOM 92
Modelo binaacuterio
12
Seratildeo abordadas duas estrateacutegias
Os dois tipos de erros tecircm o mesmo peso na decisatildeo e incorporar os conceitos do negoacutecio numa decisatildeo baseada na probabilidade agrave posteriori de cada classe
Vantagem faacutecil adaptaccedilatildeo do modelo a variaccedilotildees dos conceitos do negoacutecio
Desvantagem se os conceitos do negoacutecio conduzirem a tipos de erros muito assimeacutetricos poderaacute diminuir a performance do modelo inicial
Considerar diferentes pesos para os diferentes erros incorporando assim os conceitos do negoacutecio no modelo em si
Vantagem modelo mais adaptado aos conceitos do negoacutecio
Desvantagem variaccedilotildees nos conceito de negoacutecio implicam revisatildeo do modelo
A
B
PREVISAtildeO
MAU BOM
REA
L MAU 0 1
BOM 1 0
PREVISAtildeO
MAU BOM
REA
L MAU 0 49
BOM 1 0
Modelo binaacuterio
13
Dado que seratildeo usadas duas estrateacutegias e que iratildeo ser usados trecircs tipos de modelos regressatildeo logiacutestica aacutervores de classificaccedilatildeo e redes neuronais seraacute necessaacuterio analisar o poder discriminativo de cada modelo e comparar resultados Para tal define-se a matriz de confusatildeo C (ou tabela de contingecircncia) como sendo
Onde
P(RMPM) - probabilidade de o modelo prever MAU quando o cliente eacute MAU na realidade
P(RMPB) - probabilidade de o modelo prever BOM quando o cliente eacute MAU na realidade
P(RBPM) - probabilidade de o modelo prever MAU quando o cliente eacute BOM na realidade
P(RBPB) - probabilidade de o modelo prever BOM quando o cliente eacute BOM na realidade
PREVISAtildeO
MAU BOM
REA
L MAU P(RMPM) P(RMPB) P(RM)
BOM P(RBPM) P(RBPB) P(RB)
P(PM) P(PB) 1
Modelo binaacuterio
14
Usando as matrizes L e C definidas anteriormente
Podemos constatar que o valor esperado para as perdas resulta da soma dos pesos associados a cada tipo de perda (li) multiplicados pela probabilidade de ocorrerem ou seja
PREVISAtildeO
MAU BOM
REA
L MAU l1 l2
BOM l3 l4
PREVISAtildeO
MAU BOM
REA
L MAU P(RMPM) P(RMPB)
BOM P(RBPM) P(RBPB)
443221
4321
lP(RB)P(RB)
PB)P(RB1)l(lP(RB)l
P(RM)
PM)P(RM)l(lP(RM)
PB)P(RBlPM)P(RBlPB)P(RMlPM)P(RMlCLE
Sensibilidade 1- Especificidade
Modelo binaacuterio
15
Entatildeo E[LC] pode ser escrita como uma funccedilatildeo linear da forma
E[LC] = a (1 ndash Especificidade) + b (sensibilidade) + c
onde a b e c satildeo paracircmetros dependentes das entradas da matriz L e da proporccedilatildeo de clientes da classe MAU na amostra
A performance de um modelo pode entatildeo ser analisada num espaccedilo a duas dimensotildees
Para efetuar esta anaacutelise usaremos curvas ROC (Receiver Operating Characteristic)
Modelo binaacuterio
16
Ponto oacutetimo P = 90 P = 100 P = 0
Abaixo eacute apresentado um exemplo de curvas ROC para diferentes classificadores
A
Cada ponto da curva representa uma probabilidade a partir da qual classificamos o cliente como MAU Pontos no canto superior direito correspondem a probabilidades reduzidas e no canto inferior esquerdo correspondem a probabilidades elevadas
Modelo binaacuterio
17
Os resultados obtidos foram os seguintes Pesos iguais Pesos diferenciados atendendo aos conceitos do negoacutecio
Modelo binaacuterio
A
B
18
Sumaacuterio
Recolha de dados
Maximizaccedilatildeo do lucro
Modelo binaacuterio
Modelo ternaacuterio
Discussatildeo
Bibliografia
Agenda
19
Os modelos binaacuterios natildeo descriminam de forma satisfatoacuteria os clientes Para melhorar os resultados permitir-se-aacute uma terceira classe a REVISAtildeO Esta classe implica que as transaccedilotildees necessitaratildeo de anaacutelise manual com eventual recolha de dados adicionais
O nuacutemero de clientes nesta classe deve ser reduzido atendendo aos custos e tempo que tal processo exige
Em analogia ao que foi efetuado para o modelo binaacuterio pode-se entatildeo definir a matriz de confusatildeo
Objetivos
Minimizar P3 e P4 -gt Diminuir os erros e as perdas
Minimizar P2 e P5 -gt Aumentar a decisatildeo automaacutetica
PREVISAtildeO
MAU REVISAO BOM
REA
L MAU P1 P2 P3
BOM P4 P5 P6
Modelo ternaacuterio
20
Os resultados obtidos foram os seguintes
Maior equiliacutebrio entre Sensibilidade e Especificidade
Previsotildees mais assertivas
15 das transaccedilotildees satildeo decididas manualmente
Modelo ternaacuterio
P3P6 P3+P4
P1+P3 +P4+P6
PREVISAtildeO
MAU REVISAO BOM
REA
L MAU P1 P2 P3
BOM P4 P5 P6
21
Sumaacuterio
Recolha de dados
Maximizaccedilatildeo do lucro
Modelo binaacuterio
Modelo ternaacuterio
Discussatildeo
Bibliografia
Agenda
22
Com o objetivo de criar um modelo para decidir autorizar ou natildeo o deacutebito de transaccedilotildees em contas com saldo insuficiente foram desenvolvidos dois tipos de modelos binaacuterios e ternaacuterios
Os resultados apresentados com modelos de classificaccedilatildeo binaacuterios revelam que apesar do estudo intensivo efetuado nenhum dos modelos discriminou de forma satisfatoacuteria
Com pesos bastante assimeacutetricos para os dois tipos de erro a decisatildeo foca-se na mitigaccedilatildeo de erro associado agraves perdas mais elevadas
Com pesos iguais a decisatildeo foca-se apenas na previsatildeo da classe dominante
Para melhorar estes resultados construiacuteram-se modelos de classificaccedilatildeo ternaacuterios que possibilitavam a existecircncia da classe REVISAtildeO entre as classes BOM e MAU
O modelo final obtido permitia uma automatizaccedilatildeo de 87 com uma taxa de erro de 8
A incorporaccedilatildeo futura dos criteacuterios usados na revisatildeo manual poderaacute melhorar os resultados
Discussatildeo
23
Sumaacuterio
Recolha de dados
Maximizaccedilatildeo do lucro
Modelo binaacuterio
Modelo ternaacuterio
Discussatildeo
Bibliografia
Agenda
24
[1] Maria R SOUSA amp Joaquim P Costa A Tripartite Scorecard for the PayNo pay Decision-Making in the Retail Banking Industry Applications of Data Mining in E-Business and Finance C Soares et al (Eds) IOS Press 2008 doi103233978-1-58603-890-8-45
[2] Lyn C Thomas David B Edelman and Jonathan N Crook Credit Scoring and its applications SIAM 2002
[3] Roger M Stein The relationship between default prediction and lending profits Integrating roc analysis and loan pricing Journal of Banking amp Finance 291213ndash1236 2005
[4] J R Quinlan Induction of decision trees Machine Learning 1(1)81ndash106 1986
[5] BD Ripley Pattern Recognition and Neural Networks Cambridge University Press 1996
[6] C M Bishop Neural Networks for Pattern Recognition Oxford University Press 1995
[7] K B Schebesch and R Stecking Support vector machines for classifying and describing credit applicants detecting typical and critical regions Journal of the Operational Research Society 561082ndash1088 2005
[8] David J Hand So Young Sohn and Yoonseong Kim Optimal bipartite scorecards Expert Systems with Applications 29684ndash690 2005
Bibliografia
25
Questotildees
1
Sumaacuterio
Recolha de dados
Minimizaccedilatildeo das perdas
Modelo binaacuterio
Modelo ternaacuterio
Discussatildeo
Bibliografia
Agenda
2
Enquadramento
Os bancos suportam a decisatildeo de creacutedito em modelos que preveem o incumprimento a 6 ou mais meses
O deacutebito ou natildeo de uma transaccedilatildeo bancaacuteria numa conta com saldo insuficiente deveria ser decidido com base na probabilidade de o cliente incumprir a 30 dias
Objetivo
Criar modelo para decidir se eacute efetuado ou natildeo o deacutebito de uma transaccedilatildeo numa conta bancaacuteria com saldo insuficiente minimizando as perdas
Processo
1 Modelos binaacuterios usar vaacuterios modelos para distribuir os clientes por duas classes MAU e BOM mediante a probabilidade de incumprirem
2 Modelos ternaacuterios usar vaacuterios modelos para distribuir os clientes por trecircs classes MAU BOM e para REVISAtildeO (decisatildeo manual)
Resultado
Obtida uma automatizaccedilatildeo de 87 que compara favoravelmente com 79 do processo anterior
Sumaacuterio
3
Sumaacuterio
Recolha de dados
Minimizaccedilatildeo das perdas
Modelo binaacuterio
Modelo ternaacuterio
Discussatildeo
Bibliografia
Agenda
4
Janela de observaccedilatildeo
Periacuteodo associado agrave informaccedilatildeo histoacuterica que permitiraacute caracterizar o cliente
Janela de decisatildeo
Periacuteodo associado agrave decisatildeo de deacutebito ou natildeo de uma transaccedilatildeo na conta com saldo insuficiente
Janela de performance
Periacuteodo durante o qual seraacute avaliada a capacidade de o cliente regularizar a conta a descoberto em 30 dias
Janela de decisatildeo
Janela de performance Janela de observaccedilatildeo
Janrsquo06 Fevrsquo06 Dezrsquo05 Novrsquo05 Outrsquo05
Recolha de dados
5
Atendendo agraves janelas definidas e usando o software SAS Enterprise Miner identificaram-se
187733 transacccedilotildees cujo lanccedilamento nas contas provocaria um descoberto e que requerem decisatildeo de aprovaccedilatildeo ou natildeo de deacutebito em conta
47 caracteriacutesticasatributos dos clientes e contas associadas agraves transacccedilotildees acima referidas
82 das transacccedilotildees eram de clientes que conseguiam regularizar as contas em menos de 30 dias
Para a criaccedilatildeo e validaccedilatildeo de modelos foi efetuada a seguinte distribuiccedilatildeo por conjuntos
187733 transaccedilotildees
70 (131413)
Conjunto de treino
20 (37547)
Conjunto de validaccedilatildeo
10 (18773)
Conjunto de teste
Recolha de dados
6
Sumaacuterio
Recolha de dados
Minimizaccedilatildeo das perdas
Modelo binaacuterio
Modelo ternaacuterio
Discussatildeo
Bibliografia
Agenda
7
Ao prever a classe do cliente (BOM ou MAU) podemos definir a matriz geneacuterica de perdas L
Para determinar os paracircmetros da matriz de perdas L tem-se em conta que
A aprovaccedilatildeo do deacutebito implica cobranccedila de comissotildees pelo serviccedilo e geraccedilatildeo aumento de descobertos
Os cheques recusados implicam tambeacutem a cobranccedila de uma comissatildeo e o montante meacutedio destas transaccedilotildees e comissotildees eacute superior ao das restantes
Natildeo existem perdas quando a classificaccedilatildeo eacute correta
Classificar como BOM quando eacute MAU gera um descoberto na conta que natildeo seraacute regularizado nos 30 dias seguintes e classificar como MAU quando eacute BOM conduz agrave perda de comissotildeesjuros do serviccedilo
PREVISAtildeO
MAU BOM R
EAL MAU l1 l2
BOM l3 l4
Minimizaccedilatildeo das perdas
8
Definimos entatildeo
M = montante (comissotildees mais juros) a pagar pela aprovaccedilatildeo de qualquer transaccedilatildeo
Pc = proporccedilatildeo de cheques
Po = 1- Pc = proporccedilatildeo de outras transacccedilotildees (natildeo cheques)
Lc = descoberto provocado pela aprovaccedilatildeo de cheques
Lo = descoberto provocado pela aprovaccedilatildeo de outras transacccedilotildees
F+ = comissatildeo adicional por cada aprovaccedilatildeo de cheque
F- = comissatildeo adicional por cada devoluccedilatildeo de cheque
Usando os paracircmetros anteriormente definidos obtemos a matriz
Minimizaccedilatildeo das perdas
PREVISAtildeO
MAU BOM
REA
L MAU 0 Pc Lc + (1 - Pc)Lo
BOM Pc(F+-F-) + M 0
9
Nestas condiccedilotildees o mais importante natildeo eacute minimizar o nuacutemero de erros mas sim minimizar as perdasprejuiacutezos
Usando uma amostra com decisotildees histoacutericas e as respectivas comissotildees e montantes chegou-se agrave matriz
A matriz de perdas obtida reflete os criteacuterios de negoacutecio atualmente em vigor No entanto deve ser sempre levada em conta a variabilidade destes criteacuterios na construccedilatildeo do modelo de decisatildeo
PREVISAtildeO
MAU BOM
REA
L MAU 0 49
BOM 1 0
Minimizaccedilatildeo das perdas
10
Sumaacuterio
Recolha de dados
Minimizaccedilatildeo das perdas
Modelo binaacuterio
Modelo ternaacuterio
Discussatildeo
Bibliografia
Agenda
11
Pretende-se que o resultado do modelo contenha
a divisatildeo da populaccedilatildeo em duas classes (BOM MAU)
a probabilidade agrave posteriori em cada classe
Na praacutetica pretende-se dividir a populaccedilatildeo em grupos e em funccedilatildeo da probabilidade associada agrave classe dominante em cada grupo definir como classificar os elementos desse grupo minimizando os custosperdas associadas a essa previsatildeo
100 transaccedilotildees
(80 BOM 20 MAU)
60 transaccedilotildees
(55 BOM 5 MAU)
40 transaccedilotildees
(25 BOM 15 MAU)
20 transaccedilotildees
(20 BOM 0 MAU)
20 transaccedilotildees
(5 BOM 15 MAU)
BOM 80
BOM 62
MAU 75 BOM 100
BOM 92
Modelo binaacuterio
12
Seratildeo abordadas duas estrateacutegias
Os dois tipos de erros tecircm o mesmo peso na decisatildeo e incorporar os conceitos do negoacutecio numa decisatildeo baseada na probabilidade agrave posteriori de cada classe
Vantagem faacutecil adaptaccedilatildeo do modelo a variaccedilotildees dos conceitos do negoacutecio
Desvantagem se os conceitos do negoacutecio conduzirem a tipos de erros muito assimeacutetricos poderaacute diminuir a performance do modelo inicial
Considerar diferentes pesos para os diferentes erros incorporando assim os conceitos do negoacutecio no modelo em si
Vantagem modelo mais adaptado aos conceitos do negoacutecio
Desvantagem variaccedilotildees nos conceito de negoacutecio implicam revisatildeo do modelo
A
B
PREVISAtildeO
MAU BOM
REA
L MAU 0 1
BOM 1 0
PREVISAtildeO
MAU BOM
REA
L MAU 0 49
BOM 1 0
Modelo binaacuterio
13
Dado que seratildeo usadas duas estrateacutegias e que iratildeo ser usados trecircs tipos de modelos regressatildeo logiacutestica aacutervores de classificaccedilatildeo e redes neuronais seraacute necessaacuterio analisar o poder discriminativo de cada modelo e comparar resultados Para tal define-se a matriz de confusatildeo C (ou tabela de contingecircncia) como sendo
Onde
P(RMPM) - probabilidade de o modelo prever MAU quando o cliente eacute MAU na realidade
P(RMPB) - probabilidade de o modelo prever BOM quando o cliente eacute MAU na realidade
P(RBPM) - probabilidade de o modelo prever MAU quando o cliente eacute BOM na realidade
P(RBPB) - probabilidade de o modelo prever BOM quando o cliente eacute BOM na realidade
PREVISAtildeO
MAU BOM
REA
L MAU P(RMPM) P(RMPB) P(RM)
BOM P(RBPM) P(RBPB) P(RB)
P(PM) P(PB) 1
Modelo binaacuterio
14
Usando as matrizes L e C definidas anteriormente
Podemos constatar que o valor esperado para as perdas resulta da soma dos pesos associados a cada tipo de perda (li) multiplicados pela probabilidade de ocorrerem ou seja
PREVISAtildeO
MAU BOM
REA
L MAU l1 l2
BOM l3 l4
PREVISAtildeO
MAU BOM
REA
L MAU P(RMPM) P(RMPB)
BOM P(RBPM) P(RBPB)
443221
4321
lP(RB)P(RB)
PB)P(RB1)l(lP(RB)l
P(RM)
PM)P(RM)l(lP(RM)
PB)P(RBlPM)P(RBlPB)P(RMlPM)P(RMlCLE
Sensibilidade 1- Especificidade
Modelo binaacuterio
15
Entatildeo E[LC] pode ser escrita como uma funccedilatildeo linear da forma
E[LC] = a (1 ndash Especificidade) + b (sensibilidade) + c
onde a b e c satildeo paracircmetros dependentes das entradas da matriz L e da proporccedilatildeo de clientes da classe MAU na amostra
A performance de um modelo pode entatildeo ser analisada num espaccedilo a duas dimensotildees
Para efetuar esta anaacutelise usaremos curvas ROC (Receiver Operating Characteristic)
Modelo binaacuterio
16
Ponto oacutetimo P = 90 P = 100 P = 0
Abaixo eacute apresentado um exemplo de curvas ROC para diferentes classificadores
A
Cada ponto da curva representa uma probabilidade a partir da qual classificamos o cliente como MAU Pontos no canto superior direito correspondem a probabilidades reduzidas e no canto inferior esquerdo correspondem a probabilidades elevadas
Modelo binaacuterio
17
Os resultados obtidos foram os seguintes Pesos iguais Pesos diferenciados atendendo aos conceitos do negoacutecio
Modelo binaacuterio
A
B
18
Sumaacuterio
Recolha de dados
Maximizaccedilatildeo do lucro
Modelo binaacuterio
Modelo ternaacuterio
Discussatildeo
Bibliografia
Agenda
19
Os modelos binaacuterios natildeo descriminam de forma satisfatoacuteria os clientes Para melhorar os resultados permitir-se-aacute uma terceira classe a REVISAtildeO Esta classe implica que as transaccedilotildees necessitaratildeo de anaacutelise manual com eventual recolha de dados adicionais
O nuacutemero de clientes nesta classe deve ser reduzido atendendo aos custos e tempo que tal processo exige
Em analogia ao que foi efetuado para o modelo binaacuterio pode-se entatildeo definir a matriz de confusatildeo
Objetivos
Minimizar P3 e P4 -gt Diminuir os erros e as perdas
Minimizar P2 e P5 -gt Aumentar a decisatildeo automaacutetica
PREVISAtildeO
MAU REVISAO BOM
REA
L MAU P1 P2 P3
BOM P4 P5 P6
Modelo ternaacuterio
20
Os resultados obtidos foram os seguintes
Maior equiliacutebrio entre Sensibilidade e Especificidade
Previsotildees mais assertivas
15 das transaccedilotildees satildeo decididas manualmente
Modelo ternaacuterio
P3P6 P3+P4
P1+P3 +P4+P6
PREVISAtildeO
MAU REVISAO BOM
REA
L MAU P1 P2 P3
BOM P4 P5 P6
21
Sumaacuterio
Recolha de dados
Maximizaccedilatildeo do lucro
Modelo binaacuterio
Modelo ternaacuterio
Discussatildeo
Bibliografia
Agenda
22
Com o objetivo de criar um modelo para decidir autorizar ou natildeo o deacutebito de transaccedilotildees em contas com saldo insuficiente foram desenvolvidos dois tipos de modelos binaacuterios e ternaacuterios
Os resultados apresentados com modelos de classificaccedilatildeo binaacuterios revelam que apesar do estudo intensivo efetuado nenhum dos modelos discriminou de forma satisfatoacuteria
Com pesos bastante assimeacutetricos para os dois tipos de erro a decisatildeo foca-se na mitigaccedilatildeo de erro associado agraves perdas mais elevadas
Com pesos iguais a decisatildeo foca-se apenas na previsatildeo da classe dominante
Para melhorar estes resultados construiacuteram-se modelos de classificaccedilatildeo ternaacuterios que possibilitavam a existecircncia da classe REVISAtildeO entre as classes BOM e MAU
O modelo final obtido permitia uma automatizaccedilatildeo de 87 com uma taxa de erro de 8
A incorporaccedilatildeo futura dos criteacuterios usados na revisatildeo manual poderaacute melhorar os resultados
Discussatildeo
23
Sumaacuterio
Recolha de dados
Maximizaccedilatildeo do lucro
Modelo binaacuterio
Modelo ternaacuterio
Discussatildeo
Bibliografia
Agenda
24
[1] Maria R SOUSA amp Joaquim P Costa A Tripartite Scorecard for the PayNo pay Decision-Making in the Retail Banking Industry Applications of Data Mining in E-Business and Finance C Soares et al (Eds) IOS Press 2008 doi103233978-1-58603-890-8-45
[2] Lyn C Thomas David B Edelman and Jonathan N Crook Credit Scoring and its applications SIAM 2002
[3] Roger M Stein The relationship between default prediction and lending profits Integrating roc analysis and loan pricing Journal of Banking amp Finance 291213ndash1236 2005
[4] J R Quinlan Induction of decision trees Machine Learning 1(1)81ndash106 1986
[5] BD Ripley Pattern Recognition and Neural Networks Cambridge University Press 1996
[6] C M Bishop Neural Networks for Pattern Recognition Oxford University Press 1995
[7] K B Schebesch and R Stecking Support vector machines for classifying and describing credit applicants detecting typical and critical regions Journal of the Operational Research Society 561082ndash1088 2005
[8] David J Hand So Young Sohn and Yoonseong Kim Optimal bipartite scorecards Expert Systems with Applications 29684ndash690 2005
Bibliografia
25
Questotildees
2
Enquadramento
Os bancos suportam a decisatildeo de creacutedito em modelos que preveem o incumprimento a 6 ou mais meses
O deacutebito ou natildeo de uma transaccedilatildeo bancaacuteria numa conta com saldo insuficiente deveria ser decidido com base na probabilidade de o cliente incumprir a 30 dias
Objetivo
Criar modelo para decidir se eacute efetuado ou natildeo o deacutebito de uma transaccedilatildeo numa conta bancaacuteria com saldo insuficiente minimizando as perdas
Processo
1 Modelos binaacuterios usar vaacuterios modelos para distribuir os clientes por duas classes MAU e BOM mediante a probabilidade de incumprirem
2 Modelos ternaacuterios usar vaacuterios modelos para distribuir os clientes por trecircs classes MAU BOM e para REVISAtildeO (decisatildeo manual)
Resultado
Obtida uma automatizaccedilatildeo de 87 que compara favoravelmente com 79 do processo anterior
Sumaacuterio
3
Sumaacuterio
Recolha de dados
Minimizaccedilatildeo das perdas
Modelo binaacuterio
Modelo ternaacuterio
Discussatildeo
Bibliografia
Agenda
4
Janela de observaccedilatildeo
Periacuteodo associado agrave informaccedilatildeo histoacuterica que permitiraacute caracterizar o cliente
Janela de decisatildeo
Periacuteodo associado agrave decisatildeo de deacutebito ou natildeo de uma transaccedilatildeo na conta com saldo insuficiente
Janela de performance
Periacuteodo durante o qual seraacute avaliada a capacidade de o cliente regularizar a conta a descoberto em 30 dias
Janela de decisatildeo
Janela de performance Janela de observaccedilatildeo
Janrsquo06 Fevrsquo06 Dezrsquo05 Novrsquo05 Outrsquo05
Recolha de dados
5
Atendendo agraves janelas definidas e usando o software SAS Enterprise Miner identificaram-se
187733 transacccedilotildees cujo lanccedilamento nas contas provocaria um descoberto e que requerem decisatildeo de aprovaccedilatildeo ou natildeo de deacutebito em conta
47 caracteriacutesticasatributos dos clientes e contas associadas agraves transacccedilotildees acima referidas
82 das transacccedilotildees eram de clientes que conseguiam regularizar as contas em menos de 30 dias
Para a criaccedilatildeo e validaccedilatildeo de modelos foi efetuada a seguinte distribuiccedilatildeo por conjuntos
187733 transaccedilotildees
70 (131413)
Conjunto de treino
20 (37547)
Conjunto de validaccedilatildeo
10 (18773)
Conjunto de teste
Recolha de dados
6
Sumaacuterio
Recolha de dados
Minimizaccedilatildeo das perdas
Modelo binaacuterio
Modelo ternaacuterio
Discussatildeo
Bibliografia
Agenda
7
Ao prever a classe do cliente (BOM ou MAU) podemos definir a matriz geneacuterica de perdas L
Para determinar os paracircmetros da matriz de perdas L tem-se em conta que
A aprovaccedilatildeo do deacutebito implica cobranccedila de comissotildees pelo serviccedilo e geraccedilatildeo aumento de descobertos
Os cheques recusados implicam tambeacutem a cobranccedila de uma comissatildeo e o montante meacutedio destas transaccedilotildees e comissotildees eacute superior ao das restantes
Natildeo existem perdas quando a classificaccedilatildeo eacute correta
Classificar como BOM quando eacute MAU gera um descoberto na conta que natildeo seraacute regularizado nos 30 dias seguintes e classificar como MAU quando eacute BOM conduz agrave perda de comissotildeesjuros do serviccedilo
PREVISAtildeO
MAU BOM R
EAL MAU l1 l2
BOM l3 l4
Minimizaccedilatildeo das perdas
8
Definimos entatildeo
M = montante (comissotildees mais juros) a pagar pela aprovaccedilatildeo de qualquer transaccedilatildeo
Pc = proporccedilatildeo de cheques
Po = 1- Pc = proporccedilatildeo de outras transacccedilotildees (natildeo cheques)
Lc = descoberto provocado pela aprovaccedilatildeo de cheques
Lo = descoberto provocado pela aprovaccedilatildeo de outras transacccedilotildees
F+ = comissatildeo adicional por cada aprovaccedilatildeo de cheque
F- = comissatildeo adicional por cada devoluccedilatildeo de cheque
Usando os paracircmetros anteriormente definidos obtemos a matriz
Minimizaccedilatildeo das perdas
PREVISAtildeO
MAU BOM
REA
L MAU 0 Pc Lc + (1 - Pc)Lo
BOM Pc(F+-F-) + M 0
9
Nestas condiccedilotildees o mais importante natildeo eacute minimizar o nuacutemero de erros mas sim minimizar as perdasprejuiacutezos
Usando uma amostra com decisotildees histoacutericas e as respectivas comissotildees e montantes chegou-se agrave matriz
A matriz de perdas obtida reflete os criteacuterios de negoacutecio atualmente em vigor No entanto deve ser sempre levada em conta a variabilidade destes criteacuterios na construccedilatildeo do modelo de decisatildeo
PREVISAtildeO
MAU BOM
REA
L MAU 0 49
BOM 1 0
Minimizaccedilatildeo das perdas
10
Sumaacuterio
Recolha de dados
Minimizaccedilatildeo das perdas
Modelo binaacuterio
Modelo ternaacuterio
Discussatildeo
Bibliografia
Agenda
11
Pretende-se que o resultado do modelo contenha
a divisatildeo da populaccedilatildeo em duas classes (BOM MAU)
a probabilidade agrave posteriori em cada classe
Na praacutetica pretende-se dividir a populaccedilatildeo em grupos e em funccedilatildeo da probabilidade associada agrave classe dominante em cada grupo definir como classificar os elementos desse grupo minimizando os custosperdas associadas a essa previsatildeo
100 transaccedilotildees
(80 BOM 20 MAU)
60 transaccedilotildees
(55 BOM 5 MAU)
40 transaccedilotildees
(25 BOM 15 MAU)
20 transaccedilotildees
(20 BOM 0 MAU)
20 transaccedilotildees
(5 BOM 15 MAU)
BOM 80
BOM 62
MAU 75 BOM 100
BOM 92
Modelo binaacuterio
12
Seratildeo abordadas duas estrateacutegias
Os dois tipos de erros tecircm o mesmo peso na decisatildeo e incorporar os conceitos do negoacutecio numa decisatildeo baseada na probabilidade agrave posteriori de cada classe
Vantagem faacutecil adaptaccedilatildeo do modelo a variaccedilotildees dos conceitos do negoacutecio
Desvantagem se os conceitos do negoacutecio conduzirem a tipos de erros muito assimeacutetricos poderaacute diminuir a performance do modelo inicial
Considerar diferentes pesos para os diferentes erros incorporando assim os conceitos do negoacutecio no modelo em si
Vantagem modelo mais adaptado aos conceitos do negoacutecio
Desvantagem variaccedilotildees nos conceito de negoacutecio implicam revisatildeo do modelo
A
B
PREVISAtildeO
MAU BOM
REA
L MAU 0 1
BOM 1 0
PREVISAtildeO
MAU BOM
REA
L MAU 0 49
BOM 1 0
Modelo binaacuterio
13
Dado que seratildeo usadas duas estrateacutegias e que iratildeo ser usados trecircs tipos de modelos regressatildeo logiacutestica aacutervores de classificaccedilatildeo e redes neuronais seraacute necessaacuterio analisar o poder discriminativo de cada modelo e comparar resultados Para tal define-se a matriz de confusatildeo C (ou tabela de contingecircncia) como sendo
Onde
P(RMPM) - probabilidade de o modelo prever MAU quando o cliente eacute MAU na realidade
P(RMPB) - probabilidade de o modelo prever BOM quando o cliente eacute MAU na realidade
P(RBPM) - probabilidade de o modelo prever MAU quando o cliente eacute BOM na realidade
P(RBPB) - probabilidade de o modelo prever BOM quando o cliente eacute BOM na realidade
PREVISAtildeO
MAU BOM
REA
L MAU P(RMPM) P(RMPB) P(RM)
BOM P(RBPM) P(RBPB) P(RB)
P(PM) P(PB) 1
Modelo binaacuterio
14
Usando as matrizes L e C definidas anteriormente
Podemos constatar que o valor esperado para as perdas resulta da soma dos pesos associados a cada tipo de perda (li) multiplicados pela probabilidade de ocorrerem ou seja
PREVISAtildeO
MAU BOM
REA
L MAU l1 l2
BOM l3 l4
PREVISAtildeO
MAU BOM
REA
L MAU P(RMPM) P(RMPB)
BOM P(RBPM) P(RBPB)
443221
4321
lP(RB)P(RB)
PB)P(RB1)l(lP(RB)l
P(RM)
PM)P(RM)l(lP(RM)
PB)P(RBlPM)P(RBlPB)P(RMlPM)P(RMlCLE
Sensibilidade 1- Especificidade
Modelo binaacuterio
15
Entatildeo E[LC] pode ser escrita como uma funccedilatildeo linear da forma
E[LC] = a (1 ndash Especificidade) + b (sensibilidade) + c
onde a b e c satildeo paracircmetros dependentes das entradas da matriz L e da proporccedilatildeo de clientes da classe MAU na amostra
A performance de um modelo pode entatildeo ser analisada num espaccedilo a duas dimensotildees
Para efetuar esta anaacutelise usaremos curvas ROC (Receiver Operating Characteristic)
Modelo binaacuterio
16
Ponto oacutetimo P = 90 P = 100 P = 0
Abaixo eacute apresentado um exemplo de curvas ROC para diferentes classificadores
A
Cada ponto da curva representa uma probabilidade a partir da qual classificamos o cliente como MAU Pontos no canto superior direito correspondem a probabilidades reduzidas e no canto inferior esquerdo correspondem a probabilidades elevadas
Modelo binaacuterio
17
Os resultados obtidos foram os seguintes Pesos iguais Pesos diferenciados atendendo aos conceitos do negoacutecio
Modelo binaacuterio
A
B
18
Sumaacuterio
Recolha de dados
Maximizaccedilatildeo do lucro
Modelo binaacuterio
Modelo ternaacuterio
Discussatildeo
Bibliografia
Agenda
19
Os modelos binaacuterios natildeo descriminam de forma satisfatoacuteria os clientes Para melhorar os resultados permitir-se-aacute uma terceira classe a REVISAtildeO Esta classe implica que as transaccedilotildees necessitaratildeo de anaacutelise manual com eventual recolha de dados adicionais
O nuacutemero de clientes nesta classe deve ser reduzido atendendo aos custos e tempo que tal processo exige
Em analogia ao que foi efetuado para o modelo binaacuterio pode-se entatildeo definir a matriz de confusatildeo
Objetivos
Minimizar P3 e P4 -gt Diminuir os erros e as perdas
Minimizar P2 e P5 -gt Aumentar a decisatildeo automaacutetica
PREVISAtildeO
MAU REVISAO BOM
REA
L MAU P1 P2 P3
BOM P4 P5 P6
Modelo ternaacuterio
20
Os resultados obtidos foram os seguintes
Maior equiliacutebrio entre Sensibilidade e Especificidade
Previsotildees mais assertivas
15 das transaccedilotildees satildeo decididas manualmente
Modelo ternaacuterio
P3P6 P3+P4
P1+P3 +P4+P6
PREVISAtildeO
MAU REVISAO BOM
REA
L MAU P1 P2 P3
BOM P4 P5 P6
21
Sumaacuterio
Recolha de dados
Maximizaccedilatildeo do lucro
Modelo binaacuterio
Modelo ternaacuterio
Discussatildeo
Bibliografia
Agenda
22
Com o objetivo de criar um modelo para decidir autorizar ou natildeo o deacutebito de transaccedilotildees em contas com saldo insuficiente foram desenvolvidos dois tipos de modelos binaacuterios e ternaacuterios
Os resultados apresentados com modelos de classificaccedilatildeo binaacuterios revelam que apesar do estudo intensivo efetuado nenhum dos modelos discriminou de forma satisfatoacuteria
Com pesos bastante assimeacutetricos para os dois tipos de erro a decisatildeo foca-se na mitigaccedilatildeo de erro associado agraves perdas mais elevadas
Com pesos iguais a decisatildeo foca-se apenas na previsatildeo da classe dominante
Para melhorar estes resultados construiacuteram-se modelos de classificaccedilatildeo ternaacuterios que possibilitavam a existecircncia da classe REVISAtildeO entre as classes BOM e MAU
O modelo final obtido permitia uma automatizaccedilatildeo de 87 com uma taxa de erro de 8
A incorporaccedilatildeo futura dos criteacuterios usados na revisatildeo manual poderaacute melhorar os resultados
Discussatildeo
23
Sumaacuterio
Recolha de dados
Maximizaccedilatildeo do lucro
Modelo binaacuterio
Modelo ternaacuterio
Discussatildeo
Bibliografia
Agenda
24
[1] Maria R SOUSA amp Joaquim P Costa A Tripartite Scorecard for the PayNo pay Decision-Making in the Retail Banking Industry Applications of Data Mining in E-Business and Finance C Soares et al (Eds) IOS Press 2008 doi103233978-1-58603-890-8-45
[2] Lyn C Thomas David B Edelman and Jonathan N Crook Credit Scoring and its applications SIAM 2002
[3] Roger M Stein The relationship between default prediction and lending profits Integrating roc analysis and loan pricing Journal of Banking amp Finance 291213ndash1236 2005
[4] J R Quinlan Induction of decision trees Machine Learning 1(1)81ndash106 1986
[5] BD Ripley Pattern Recognition and Neural Networks Cambridge University Press 1996
[6] C M Bishop Neural Networks for Pattern Recognition Oxford University Press 1995
[7] K B Schebesch and R Stecking Support vector machines for classifying and describing credit applicants detecting typical and critical regions Journal of the Operational Research Society 561082ndash1088 2005
[8] David J Hand So Young Sohn and Yoonseong Kim Optimal bipartite scorecards Expert Systems with Applications 29684ndash690 2005
Bibliografia
25
Questotildees
3
Sumaacuterio
Recolha de dados
Minimizaccedilatildeo das perdas
Modelo binaacuterio
Modelo ternaacuterio
Discussatildeo
Bibliografia
Agenda
4
Janela de observaccedilatildeo
Periacuteodo associado agrave informaccedilatildeo histoacuterica que permitiraacute caracterizar o cliente
Janela de decisatildeo
Periacuteodo associado agrave decisatildeo de deacutebito ou natildeo de uma transaccedilatildeo na conta com saldo insuficiente
Janela de performance
Periacuteodo durante o qual seraacute avaliada a capacidade de o cliente regularizar a conta a descoberto em 30 dias
Janela de decisatildeo
Janela de performance Janela de observaccedilatildeo
Janrsquo06 Fevrsquo06 Dezrsquo05 Novrsquo05 Outrsquo05
Recolha de dados
5
Atendendo agraves janelas definidas e usando o software SAS Enterprise Miner identificaram-se
187733 transacccedilotildees cujo lanccedilamento nas contas provocaria um descoberto e que requerem decisatildeo de aprovaccedilatildeo ou natildeo de deacutebito em conta
47 caracteriacutesticasatributos dos clientes e contas associadas agraves transacccedilotildees acima referidas
82 das transacccedilotildees eram de clientes que conseguiam regularizar as contas em menos de 30 dias
Para a criaccedilatildeo e validaccedilatildeo de modelos foi efetuada a seguinte distribuiccedilatildeo por conjuntos
187733 transaccedilotildees
70 (131413)
Conjunto de treino
20 (37547)
Conjunto de validaccedilatildeo
10 (18773)
Conjunto de teste
Recolha de dados
6
Sumaacuterio
Recolha de dados
Minimizaccedilatildeo das perdas
Modelo binaacuterio
Modelo ternaacuterio
Discussatildeo
Bibliografia
Agenda
7
Ao prever a classe do cliente (BOM ou MAU) podemos definir a matriz geneacuterica de perdas L
Para determinar os paracircmetros da matriz de perdas L tem-se em conta que
A aprovaccedilatildeo do deacutebito implica cobranccedila de comissotildees pelo serviccedilo e geraccedilatildeo aumento de descobertos
Os cheques recusados implicam tambeacutem a cobranccedila de uma comissatildeo e o montante meacutedio destas transaccedilotildees e comissotildees eacute superior ao das restantes
Natildeo existem perdas quando a classificaccedilatildeo eacute correta
Classificar como BOM quando eacute MAU gera um descoberto na conta que natildeo seraacute regularizado nos 30 dias seguintes e classificar como MAU quando eacute BOM conduz agrave perda de comissotildeesjuros do serviccedilo
PREVISAtildeO
MAU BOM R
EAL MAU l1 l2
BOM l3 l4
Minimizaccedilatildeo das perdas
8
Definimos entatildeo
M = montante (comissotildees mais juros) a pagar pela aprovaccedilatildeo de qualquer transaccedilatildeo
Pc = proporccedilatildeo de cheques
Po = 1- Pc = proporccedilatildeo de outras transacccedilotildees (natildeo cheques)
Lc = descoberto provocado pela aprovaccedilatildeo de cheques
Lo = descoberto provocado pela aprovaccedilatildeo de outras transacccedilotildees
F+ = comissatildeo adicional por cada aprovaccedilatildeo de cheque
F- = comissatildeo adicional por cada devoluccedilatildeo de cheque
Usando os paracircmetros anteriormente definidos obtemos a matriz
Minimizaccedilatildeo das perdas
PREVISAtildeO
MAU BOM
REA
L MAU 0 Pc Lc + (1 - Pc)Lo
BOM Pc(F+-F-) + M 0
9
Nestas condiccedilotildees o mais importante natildeo eacute minimizar o nuacutemero de erros mas sim minimizar as perdasprejuiacutezos
Usando uma amostra com decisotildees histoacutericas e as respectivas comissotildees e montantes chegou-se agrave matriz
A matriz de perdas obtida reflete os criteacuterios de negoacutecio atualmente em vigor No entanto deve ser sempre levada em conta a variabilidade destes criteacuterios na construccedilatildeo do modelo de decisatildeo
PREVISAtildeO
MAU BOM
REA
L MAU 0 49
BOM 1 0
Minimizaccedilatildeo das perdas
10
Sumaacuterio
Recolha de dados
Minimizaccedilatildeo das perdas
Modelo binaacuterio
Modelo ternaacuterio
Discussatildeo
Bibliografia
Agenda
11
Pretende-se que o resultado do modelo contenha
a divisatildeo da populaccedilatildeo em duas classes (BOM MAU)
a probabilidade agrave posteriori em cada classe
Na praacutetica pretende-se dividir a populaccedilatildeo em grupos e em funccedilatildeo da probabilidade associada agrave classe dominante em cada grupo definir como classificar os elementos desse grupo minimizando os custosperdas associadas a essa previsatildeo
100 transaccedilotildees
(80 BOM 20 MAU)
60 transaccedilotildees
(55 BOM 5 MAU)
40 transaccedilotildees
(25 BOM 15 MAU)
20 transaccedilotildees
(20 BOM 0 MAU)
20 transaccedilotildees
(5 BOM 15 MAU)
BOM 80
BOM 62
MAU 75 BOM 100
BOM 92
Modelo binaacuterio
12
Seratildeo abordadas duas estrateacutegias
Os dois tipos de erros tecircm o mesmo peso na decisatildeo e incorporar os conceitos do negoacutecio numa decisatildeo baseada na probabilidade agrave posteriori de cada classe
Vantagem faacutecil adaptaccedilatildeo do modelo a variaccedilotildees dos conceitos do negoacutecio
Desvantagem se os conceitos do negoacutecio conduzirem a tipos de erros muito assimeacutetricos poderaacute diminuir a performance do modelo inicial
Considerar diferentes pesos para os diferentes erros incorporando assim os conceitos do negoacutecio no modelo em si
Vantagem modelo mais adaptado aos conceitos do negoacutecio
Desvantagem variaccedilotildees nos conceito de negoacutecio implicam revisatildeo do modelo
A
B
PREVISAtildeO
MAU BOM
REA
L MAU 0 1
BOM 1 0
PREVISAtildeO
MAU BOM
REA
L MAU 0 49
BOM 1 0
Modelo binaacuterio
13
Dado que seratildeo usadas duas estrateacutegias e que iratildeo ser usados trecircs tipos de modelos regressatildeo logiacutestica aacutervores de classificaccedilatildeo e redes neuronais seraacute necessaacuterio analisar o poder discriminativo de cada modelo e comparar resultados Para tal define-se a matriz de confusatildeo C (ou tabela de contingecircncia) como sendo
Onde
P(RMPM) - probabilidade de o modelo prever MAU quando o cliente eacute MAU na realidade
P(RMPB) - probabilidade de o modelo prever BOM quando o cliente eacute MAU na realidade
P(RBPM) - probabilidade de o modelo prever MAU quando o cliente eacute BOM na realidade
P(RBPB) - probabilidade de o modelo prever BOM quando o cliente eacute BOM na realidade
PREVISAtildeO
MAU BOM
REA
L MAU P(RMPM) P(RMPB) P(RM)
BOM P(RBPM) P(RBPB) P(RB)
P(PM) P(PB) 1
Modelo binaacuterio
14
Usando as matrizes L e C definidas anteriormente
Podemos constatar que o valor esperado para as perdas resulta da soma dos pesos associados a cada tipo de perda (li) multiplicados pela probabilidade de ocorrerem ou seja
PREVISAtildeO
MAU BOM
REA
L MAU l1 l2
BOM l3 l4
PREVISAtildeO
MAU BOM
REA
L MAU P(RMPM) P(RMPB)
BOM P(RBPM) P(RBPB)
443221
4321
lP(RB)P(RB)
PB)P(RB1)l(lP(RB)l
P(RM)
PM)P(RM)l(lP(RM)
PB)P(RBlPM)P(RBlPB)P(RMlPM)P(RMlCLE
Sensibilidade 1- Especificidade
Modelo binaacuterio
15
Entatildeo E[LC] pode ser escrita como uma funccedilatildeo linear da forma
E[LC] = a (1 ndash Especificidade) + b (sensibilidade) + c
onde a b e c satildeo paracircmetros dependentes das entradas da matriz L e da proporccedilatildeo de clientes da classe MAU na amostra
A performance de um modelo pode entatildeo ser analisada num espaccedilo a duas dimensotildees
Para efetuar esta anaacutelise usaremos curvas ROC (Receiver Operating Characteristic)
Modelo binaacuterio
16
Ponto oacutetimo P = 90 P = 100 P = 0
Abaixo eacute apresentado um exemplo de curvas ROC para diferentes classificadores
A
Cada ponto da curva representa uma probabilidade a partir da qual classificamos o cliente como MAU Pontos no canto superior direito correspondem a probabilidades reduzidas e no canto inferior esquerdo correspondem a probabilidades elevadas
Modelo binaacuterio
17
Os resultados obtidos foram os seguintes Pesos iguais Pesos diferenciados atendendo aos conceitos do negoacutecio
Modelo binaacuterio
A
B
18
Sumaacuterio
Recolha de dados
Maximizaccedilatildeo do lucro
Modelo binaacuterio
Modelo ternaacuterio
Discussatildeo
Bibliografia
Agenda
19
Os modelos binaacuterios natildeo descriminam de forma satisfatoacuteria os clientes Para melhorar os resultados permitir-se-aacute uma terceira classe a REVISAtildeO Esta classe implica que as transaccedilotildees necessitaratildeo de anaacutelise manual com eventual recolha de dados adicionais
O nuacutemero de clientes nesta classe deve ser reduzido atendendo aos custos e tempo que tal processo exige
Em analogia ao que foi efetuado para o modelo binaacuterio pode-se entatildeo definir a matriz de confusatildeo
Objetivos
Minimizar P3 e P4 -gt Diminuir os erros e as perdas
Minimizar P2 e P5 -gt Aumentar a decisatildeo automaacutetica
PREVISAtildeO
MAU REVISAO BOM
REA
L MAU P1 P2 P3
BOM P4 P5 P6
Modelo ternaacuterio
20
Os resultados obtidos foram os seguintes
Maior equiliacutebrio entre Sensibilidade e Especificidade
Previsotildees mais assertivas
15 das transaccedilotildees satildeo decididas manualmente
Modelo ternaacuterio
P3P6 P3+P4
P1+P3 +P4+P6
PREVISAtildeO
MAU REVISAO BOM
REA
L MAU P1 P2 P3
BOM P4 P5 P6
21
Sumaacuterio
Recolha de dados
Maximizaccedilatildeo do lucro
Modelo binaacuterio
Modelo ternaacuterio
Discussatildeo
Bibliografia
Agenda
22
Com o objetivo de criar um modelo para decidir autorizar ou natildeo o deacutebito de transaccedilotildees em contas com saldo insuficiente foram desenvolvidos dois tipos de modelos binaacuterios e ternaacuterios
Os resultados apresentados com modelos de classificaccedilatildeo binaacuterios revelam que apesar do estudo intensivo efetuado nenhum dos modelos discriminou de forma satisfatoacuteria
Com pesos bastante assimeacutetricos para os dois tipos de erro a decisatildeo foca-se na mitigaccedilatildeo de erro associado agraves perdas mais elevadas
Com pesos iguais a decisatildeo foca-se apenas na previsatildeo da classe dominante
Para melhorar estes resultados construiacuteram-se modelos de classificaccedilatildeo ternaacuterios que possibilitavam a existecircncia da classe REVISAtildeO entre as classes BOM e MAU
O modelo final obtido permitia uma automatizaccedilatildeo de 87 com uma taxa de erro de 8
A incorporaccedilatildeo futura dos criteacuterios usados na revisatildeo manual poderaacute melhorar os resultados
Discussatildeo
23
Sumaacuterio
Recolha de dados
Maximizaccedilatildeo do lucro
Modelo binaacuterio
Modelo ternaacuterio
Discussatildeo
Bibliografia
Agenda
24
[1] Maria R SOUSA amp Joaquim P Costa A Tripartite Scorecard for the PayNo pay Decision-Making in the Retail Banking Industry Applications of Data Mining in E-Business and Finance C Soares et al (Eds) IOS Press 2008 doi103233978-1-58603-890-8-45
[2] Lyn C Thomas David B Edelman and Jonathan N Crook Credit Scoring and its applications SIAM 2002
[3] Roger M Stein The relationship between default prediction and lending profits Integrating roc analysis and loan pricing Journal of Banking amp Finance 291213ndash1236 2005
[4] J R Quinlan Induction of decision trees Machine Learning 1(1)81ndash106 1986
[5] BD Ripley Pattern Recognition and Neural Networks Cambridge University Press 1996
[6] C M Bishop Neural Networks for Pattern Recognition Oxford University Press 1995
[7] K B Schebesch and R Stecking Support vector machines for classifying and describing credit applicants detecting typical and critical regions Journal of the Operational Research Society 561082ndash1088 2005
[8] David J Hand So Young Sohn and Yoonseong Kim Optimal bipartite scorecards Expert Systems with Applications 29684ndash690 2005
Bibliografia
25
Questotildees
4
Janela de observaccedilatildeo
Periacuteodo associado agrave informaccedilatildeo histoacuterica que permitiraacute caracterizar o cliente
Janela de decisatildeo
Periacuteodo associado agrave decisatildeo de deacutebito ou natildeo de uma transaccedilatildeo na conta com saldo insuficiente
Janela de performance
Periacuteodo durante o qual seraacute avaliada a capacidade de o cliente regularizar a conta a descoberto em 30 dias
Janela de decisatildeo
Janela de performance Janela de observaccedilatildeo
Janrsquo06 Fevrsquo06 Dezrsquo05 Novrsquo05 Outrsquo05
Recolha de dados
5
Atendendo agraves janelas definidas e usando o software SAS Enterprise Miner identificaram-se
187733 transacccedilotildees cujo lanccedilamento nas contas provocaria um descoberto e que requerem decisatildeo de aprovaccedilatildeo ou natildeo de deacutebito em conta
47 caracteriacutesticasatributos dos clientes e contas associadas agraves transacccedilotildees acima referidas
82 das transacccedilotildees eram de clientes que conseguiam regularizar as contas em menos de 30 dias
Para a criaccedilatildeo e validaccedilatildeo de modelos foi efetuada a seguinte distribuiccedilatildeo por conjuntos
187733 transaccedilotildees
70 (131413)
Conjunto de treino
20 (37547)
Conjunto de validaccedilatildeo
10 (18773)
Conjunto de teste
Recolha de dados
6
Sumaacuterio
Recolha de dados
Minimizaccedilatildeo das perdas
Modelo binaacuterio
Modelo ternaacuterio
Discussatildeo
Bibliografia
Agenda
7
Ao prever a classe do cliente (BOM ou MAU) podemos definir a matriz geneacuterica de perdas L
Para determinar os paracircmetros da matriz de perdas L tem-se em conta que
A aprovaccedilatildeo do deacutebito implica cobranccedila de comissotildees pelo serviccedilo e geraccedilatildeo aumento de descobertos
Os cheques recusados implicam tambeacutem a cobranccedila de uma comissatildeo e o montante meacutedio destas transaccedilotildees e comissotildees eacute superior ao das restantes
Natildeo existem perdas quando a classificaccedilatildeo eacute correta
Classificar como BOM quando eacute MAU gera um descoberto na conta que natildeo seraacute regularizado nos 30 dias seguintes e classificar como MAU quando eacute BOM conduz agrave perda de comissotildeesjuros do serviccedilo
PREVISAtildeO
MAU BOM R
EAL MAU l1 l2
BOM l3 l4
Minimizaccedilatildeo das perdas
8
Definimos entatildeo
M = montante (comissotildees mais juros) a pagar pela aprovaccedilatildeo de qualquer transaccedilatildeo
Pc = proporccedilatildeo de cheques
Po = 1- Pc = proporccedilatildeo de outras transacccedilotildees (natildeo cheques)
Lc = descoberto provocado pela aprovaccedilatildeo de cheques
Lo = descoberto provocado pela aprovaccedilatildeo de outras transacccedilotildees
F+ = comissatildeo adicional por cada aprovaccedilatildeo de cheque
F- = comissatildeo adicional por cada devoluccedilatildeo de cheque
Usando os paracircmetros anteriormente definidos obtemos a matriz
Minimizaccedilatildeo das perdas
PREVISAtildeO
MAU BOM
REA
L MAU 0 Pc Lc + (1 - Pc)Lo
BOM Pc(F+-F-) + M 0
9
Nestas condiccedilotildees o mais importante natildeo eacute minimizar o nuacutemero de erros mas sim minimizar as perdasprejuiacutezos
Usando uma amostra com decisotildees histoacutericas e as respectivas comissotildees e montantes chegou-se agrave matriz
A matriz de perdas obtida reflete os criteacuterios de negoacutecio atualmente em vigor No entanto deve ser sempre levada em conta a variabilidade destes criteacuterios na construccedilatildeo do modelo de decisatildeo
PREVISAtildeO
MAU BOM
REA
L MAU 0 49
BOM 1 0
Minimizaccedilatildeo das perdas
10
Sumaacuterio
Recolha de dados
Minimizaccedilatildeo das perdas
Modelo binaacuterio
Modelo ternaacuterio
Discussatildeo
Bibliografia
Agenda
11
Pretende-se que o resultado do modelo contenha
a divisatildeo da populaccedilatildeo em duas classes (BOM MAU)
a probabilidade agrave posteriori em cada classe
Na praacutetica pretende-se dividir a populaccedilatildeo em grupos e em funccedilatildeo da probabilidade associada agrave classe dominante em cada grupo definir como classificar os elementos desse grupo minimizando os custosperdas associadas a essa previsatildeo
100 transaccedilotildees
(80 BOM 20 MAU)
60 transaccedilotildees
(55 BOM 5 MAU)
40 transaccedilotildees
(25 BOM 15 MAU)
20 transaccedilotildees
(20 BOM 0 MAU)
20 transaccedilotildees
(5 BOM 15 MAU)
BOM 80
BOM 62
MAU 75 BOM 100
BOM 92
Modelo binaacuterio
12
Seratildeo abordadas duas estrateacutegias
Os dois tipos de erros tecircm o mesmo peso na decisatildeo e incorporar os conceitos do negoacutecio numa decisatildeo baseada na probabilidade agrave posteriori de cada classe
Vantagem faacutecil adaptaccedilatildeo do modelo a variaccedilotildees dos conceitos do negoacutecio
Desvantagem se os conceitos do negoacutecio conduzirem a tipos de erros muito assimeacutetricos poderaacute diminuir a performance do modelo inicial
Considerar diferentes pesos para os diferentes erros incorporando assim os conceitos do negoacutecio no modelo em si
Vantagem modelo mais adaptado aos conceitos do negoacutecio
Desvantagem variaccedilotildees nos conceito de negoacutecio implicam revisatildeo do modelo
A
B
PREVISAtildeO
MAU BOM
REA
L MAU 0 1
BOM 1 0
PREVISAtildeO
MAU BOM
REA
L MAU 0 49
BOM 1 0
Modelo binaacuterio
13
Dado que seratildeo usadas duas estrateacutegias e que iratildeo ser usados trecircs tipos de modelos regressatildeo logiacutestica aacutervores de classificaccedilatildeo e redes neuronais seraacute necessaacuterio analisar o poder discriminativo de cada modelo e comparar resultados Para tal define-se a matriz de confusatildeo C (ou tabela de contingecircncia) como sendo
Onde
P(RMPM) - probabilidade de o modelo prever MAU quando o cliente eacute MAU na realidade
P(RMPB) - probabilidade de o modelo prever BOM quando o cliente eacute MAU na realidade
P(RBPM) - probabilidade de o modelo prever MAU quando o cliente eacute BOM na realidade
P(RBPB) - probabilidade de o modelo prever BOM quando o cliente eacute BOM na realidade
PREVISAtildeO
MAU BOM
REA
L MAU P(RMPM) P(RMPB) P(RM)
BOM P(RBPM) P(RBPB) P(RB)
P(PM) P(PB) 1
Modelo binaacuterio
14
Usando as matrizes L e C definidas anteriormente
Podemos constatar que o valor esperado para as perdas resulta da soma dos pesos associados a cada tipo de perda (li) multiplicados pela probabilidade de ocorrerem ou seja
PREVISAtildeO
MAU BOM
REA
L MAU l1 l2
BOM l3 l4
PREVISAtildeO
MAU BOM
REA
L MAU P(RMPM) P(RMPB)
BOM P(RBPM) P(RBPB)
443221
4321
lP(RB)P(RB)
PB)P(RB1)l(lP(RB)l
P(RM)
PM)P(RM)l(lP(RM)
PB)P(RBlPM)P(RBlPB)P(RMlPM)P(RMlCLE
Sensibilidade 1- Especificidade
Modelo binaacuterio
15
Entatildeo E[LC] pode ser escrita como uma funccedilatildeo linear da forma
E[LC] = a (1 ndash Especificidade) + b (sensibilidade) + c
onde a b e c satildeo paracircmetros dependentes das entradas da matriz L e da proporccedilatildeo de clientes da classe MAU na amostra
A performance de um modelo pode entatildeo ser analisada num espaccedilo a duas dimensotildees
Para efetuar esta anaacutelise usaremos curvas ROC (Receiver Operating Characteristic)
Modelo binaacuterio
16
Ponto oacutetimo P = 90 P = 100 P = 0
Abaixo eacute apresentado um exemplo de curvas ROC para diferentes classificadores
A
Cada ponto da curva representa uma probabilidade a partir da qual classificamos o cliente como MAU Pontos no canto superior direito correspondem a probabilidades reduzidas e no canto inferior esquerdo correspondem a probabilidades elevadas
Modelo binaacuterio
17
Os resultados obtidos foram os seguintes Pesos iguais Pesos diferenciados atendendo aos conceitos do negoacutecio
Modelo binaacuterio
A
B
18
Sumaacuterio
Recolha de dados
Maximizaccedilatildeo do lucro
Modelo binaacuterio
Modelo ternaacuterio
Discussatildeo
Bibliografia
Agenda
19
Os modelos binaacuterios natildeo descriminam de forma satisfatoacuteria os clientes Para melhorar os resultados permitir-se-aacute uma terceira classe a REVISAtildeO Esta classe implica que as transaccedilotildees necessitaratildeo de anaacutelise manual com eventual recolha de dados adicionais
O nuacutemero de clientes nesta classe deve ser reduzido atendendo aos custos e tempo que tal processo exige
Em analogia ao que foi efetuado para o modelo binaacuterio pode-se entatildeo definir a matriz de confusatildeo
Objetivos
Minimizar P3 e P4 -gt Diminuir os erros e as perdas
Minimizar P2 e P5 -gt Aumentar a decisatildeo automaacutetica
PREVISAtildeO
MAU REVISAO BOM
REA
L MAU P1 P2 P3
BOM P4 P5 P6
Modelo ternaacuterio
20
Os resultados obtidos foram os seguintes
Maior equiliacutebrio entre Sensibilidade e Especificidade
Previsotildees mais assertivas
15 das transaccedilotildees satildeo decididas manualmente
Modelo ternaacuterio
P3P6 P3+P4
P1+P3 +P4+P6
PREVISAtildeO
MAU REVISAO BOM
REA
L MAU P1 P2 P3
BOM P4 P5 P6
21
Sumaacuterio
Recolha de dados
Maximizaccedilatildeo do lucro
Modelo binaacuterio
Modelo ternaacuterio
Discussatildeo
Bibliografia
Agenda
22
Com o objetivo de criar um modelo para decidir autorizar ou natildeo o deacutebito de transaccedilotildees em contas com saldo insuficiente foram desenvolvidos dois tipos de modelos binaacuterios e ternaacuterios
Os resultados apresentados com modelos de classificaccedilatildeo binaacuterios revelam que apesar do estudo intensivo efetuado nenhum dos modelos discriminou de forma satisfatoacuteria
Com pesos bastante assimeacutetricos para os dois tipos de erro a decisatildeo foca-se na mitigaccedilatildeo de erro associado agraves perdas mais elevadas
Com pesos iguais a decisatildeo foca-se apenas na previsatildeo da classe dominante
Para melhorar estes resultados construiacuteram-se modelos de classificaccedilatildeo ternaacuterios que possibilitavam a existecircncia da classe REVISAtildeO entre as classes BOM e MAU
O modelo final obtido permitia uma automatizaccedilatildeo de 87 com uma taxa de erro de 8
A incorporaccedilatildeo futura dos criteacuterios usados na revisatildeo manual poderaacute melhorar os resultados
Discussatildeo
23
Sumaacuterio
Recolha de dados
Maximizaccedilatildeo do lucro
Modelo binaacuterio
Modelo ternaacuterio
Discussatildeo
Bibliografia
Agenda
24
[1] Maria R SOUSA amp Joaquim P Costa A Tripartite Scorecard for the PayNo pay Decision-Making in the Retail Banking Industry Applications of Data Mining in E-Business and Finance C Soares et al (Eds) IOS Press 2008 doi103233978-1-58603-890-8-45
[2] Lyn C Thomas David B Edelman and Jonathan N Crook Credit Scoring and its applications SIAM 2002
[3] Roger M Stein The relationship between default prediction and lending profits Integrating roc analysis and loan pricing Journal of Banking amp Finance 291213ndash1236 2005
[4] J R Quinlan Induction of decision trees Machine Learning 1(1)81ndash106 1986
[5] BD Ripley Pattern Recognition and Neural Networks Cambridge University Press 1996
[6] C M Bishop Neural Networks for Pattern Recognition Oxford University Press 1995
[7] K B Schebesch and R Stecking Support vector machines for classifying and describing credit applicants detecting typical and critical regions Journal of the Operational Research Society 561082ndash1088 2005
[8] David J Hand So Young Sohn and Yoonseong Kim Optimal bipartite scorecards Expert Systems with Applications 29684ndash690 2005
Bibliografia
25
Questotildees
5
Atendendo agraves janelas definidas e usando o software SAS Enterprise Miner identificaram-se
187733 transacccedilotildees cujo lanccedilamento nas contas provocaria um descoberto e que requerem decisatildeo de aprovaccedilatildeo ou natildeo de deacutebito em conta
47 caracteriacutesticasatributos dos clientes e contas associadas agraves transacccedilotildees acima referidas
82 das transacccedilotildees eram de clientes que conseguiam regularizar as contas em menos de 30 dias
Para a criaccedilatildeo e validaccedilatildeo de modelos foi efetuada a seguinte distribuiccedilatildeo por conjuntos
187733 transaccedilotildees
70 (131413)
Conjunto de treino
20 (37547)
Conjunto de validaccedilatildeo
10 (18773)
Conjunto de teste
Recolha de dados
6
Sumaacuterio
Recolha de dados
Minimizaccedilatildeo das perdas
Modelo binaacuterio
Modelo ternaacuterio
Discussatildeo
Bibliografia
Agenda
7
Ao prever a classe do cliente (BOM ou MAU) podemos definir a matriz geneacuterica de perdas L
Para determinar os paracircmetros da matriz de perdas L tem-se em conta que
A aprovaccedilatildeo do deacutebito implica cobranccedila de comissotildees pelo serviccedilo e geraccedilatildeo aumento de descobertos
Os cheques recusados implicam tambeacutem a cobranccedila de uma comissatildeo e o montante meacutedio destas transaccedilotildees e comissotildees eacute superior ao das restantes
Natildeo existem perdas quando a classificaccedilatildeo eacute correta
Classificar como BOM quando eacute MAU gera um descoberto na conta que natildeo seraacute regularizado nos 30 dias seguintes e classificar como MAU quando eacute BOM conduz agrave perda de comissotildeesjuros do serviccedilo
PREVISAtildeO
MAU BOM R
EAL MAU l1 l2
BOM l3 l4
Minimizaccedilatildeo das perdas
8
Definimos entatildeo
M = montante (comissotildees mais juros) a pagar pela aprovaccedilatildeo de qualquer transaccedilatildeo
Pc = proporccedilatildeo de cheques
Po = 1- Pc = proporccedilatildeo de outras transacccedilotildees (natildeo cheques)
Lc = descoberto provocado pela aprovaccedilatildeo de cheques
Lo = descoberto provocado pela aprovaccedilatildeo de outras transacccedilotildees
F+ = comissatildeo adicional por cada aprovaccedilatildeo de cheque
F- = comissatildeo adicional por cada devoluccedilatildeo de cheque
Usando os paracircmetros anteriormente definidos obtemos a matriz
Minimizaccedilatildeo das perdas
PREVISAtildeO
MAU BOM
REA
L MAU 0 Pc Lc + (1 - Pc)Lo
BOM Pc(F+-F-) + M 0
9
Nestas condiccedilotildees o mais importante natildeo eacute minimizar o nuacutemero de erros mas sim minimizar as perdasprejuiacutezos
Usando uma amostra com decisotildees histoacutericas e as respectivas comissotildees e montantes chegou-se agrave matriz
A matriz de perdas obtida reflete os criteacuterios de negoacutecio atualmente em vigor No entanto deve ser sempre levada em conta a variabilidade destes criteacuterios na construccedilatildeo do modelo de decisatildeo
PREVISAtildeO
MAU BOM
REA
L MAU 0 49
BOM 1 0
Minimizaccedilatildeo das perdas
10
Sumaacuterio
Recolha de dados
Minimizaccedilatildeo das perdas
Modelo binaacuterio
Modelo ternaacuterio
Discussatildeo
Bibliografia
Agenda
11
Pretende-se que o resultado do modelo contenha
a divisatildeo da populaccedilatildeo em duas classes (BOM MAU)
a probabilidade agrave posteriori em cada classe
Na praacutetica pretende-se dividir a populaccedilatildeo em grupos e em funccedilatildeo da probabilidade associada agrave classe dominante em cada grupo definir como classificar os elementos desse grupo minimizando os custosperdas associadas a essa previsatildeo
100 transaccedilotildees
(80 BOM 20 MAU)
60 transaccedilotildees
(55 BOM 5 MAU)
40 transaccedilotildees
(25 BOM 15 MAU)
20 transaccedilotildees
(20 BOM 0 MAU)
20 transaccedilotildees
(5 BOM 15 MAU)
BOM 80
BOM 62
MAU 75 BOM 100
BOM 92
Modelo binaacuterio
12
Seratildeo abordadas duas estrateacutegias
Os dois tipos de erros tecircm o mesmo peso na decisatildeo e incorporar os conceitos do negoacutecio numa decisatildeo baseada na probabilidade agrave posteriori de cada classe
Vantagem faacutecil adaptaccedilatildeo do modelo a variaccedilotildees dos conceitos do negoacutecio
Desvantagem se os conceitos do negoacutecio conduzirem a tipos de erros muito assimeacutetricos poderaacute diminuir a performance do modelo inicial
Considerar diferentes pesos para os diferentes erros incorporando assim os conceitos do negoacutecio no modelo em si
Vantagem modelo mais adaptado aos conceitos do negoacutecio
Desvantagem variaccedilotildees nos conceito de negoacutecio implicam revisatildeo do modelo
A
B
PREVISAtildeO
MAU BOM
REA
L MAU 0 1
BOM 1 0
PREVISAtildeO
MAU BOM
REA
L MAU 0 49
BOM 1 0
Modelo binaacuterio
13
Dado que seratildeo usadas duas estrateacutegias e que iratildeo ser usados trecircs tipos de modelos regressatildeo logiacutestica aacutervores de classificaccedilatildeo e redes neuronais seraacute necessaacuterio analisar o poder discriminativo de cada modelo e comparar resultados Para tal define-se a matriz de confusatildeo C (ou tabela de contingecircncia) como sendo
Onde
P(RMPM) - probabilidade de o modelo prever MAU quando o cliente eacute MAU na realidade
P(RMPB) - probabilidade de o modelo prever BOM quando o cliente eacute MAU na realidade
P(RBPM) - probabilidade de o modelo prever MAU quando o cliente eacute BOM na realidade
P(RBPB) - probabilidade de o modelo prever BOM quando o cliente eacute BOM na realidade
PREVISAtildeO
MAU BOM
REA
L MAU P(RMPM) P(RMPB) P(RM)
BOM P(RBPM) P(RBPB) P(RB)
P(PM) P(PB) 1
Modelo binaacuterio
14
Usando as matrizes L e C definidas anteriormente
Podemos constatar que o valor esperado para as perdas resulta da soma dos pesos associados a cada tipo de perda (li) multiplicados pela probabilidade de ocorrerem ou seja
PREVISAtildeO
MAU BOM
REA
L MAU l1 l2
BOM l3 l4
PREVISAtildeO
MAU BOM
REA
L MAU P(RMPM) P(RMPB)
BOM P(RBPM) P(RBPB)
443221
4321
lP(RB)P(RB)
PB)P(RB1)l(lP(RB)l
P(RM)
PM)P(RM)l(lP(RM)
PB)P(RBlPM)P(RBlPB)P(RMlPM)P(RMlCLE
Sensibilidade 1- Especificidade
Modelo binaacuterio
15
Entatildeo E[LC] pode ser escrita como uma funccedilatildeo linear da forma
E[LC] = a (1 ndash Especificidade) + b (sensibilidade) + c
onde a b e c satildeo paracircmetros dependentes das entradas da matriz L e da proporccedilatildeo de clientes da classe MAU na amostra
A performance de um modelo pode entatildeo ser analisada num espaccedilo a duas dimensotildees
Para efetuar esta anaacutelise usaremos curvas ROC (Receiver Operating Characteristic)
Modelo binaacuterio
16
Ponto oacutetimo P = 90 P = 100 P = 0
Abaixo eacute apresentado um exemplo de curvas ROC para diferentes classificadores
A
Cada ponto da curva representa uma probabilidade a partir da qual classificamos o cliente como MAU Pontos no canto superior direito correspondem a probabilidades reduzidas e no canto inferior esquerdo correspondem a probabilidades elevadas
Modelo binaacuterio
17
Os resultados obtidos foram os seguintes Pesos iguais Pesos diferenciados atendendo aos conceitos do negoacutecio
Modelo binaacuterio
A
B
18
Sumaacuterio
Recolha de dados
Maximizaccedilatildeo do lucro
Modelo binaacuterio
Modelo ternaacuterio
Discussatildeo
Bibliografia
Agenda
19
Os modelos binaacuterios natildeo descriminam de forma satisfatoacuteria os clientes Para melhorar os resultados permitir-se-aacute uma terceira classe a REVISAtildeO Esta classe implica que as transaccedilotildees necessitaratildeo de anaacutelise manual com eventual recolha de dados adicionais
O nuacutemero de clientes nesta classe deve ser reduzido atendendo aos custos e tempo que tal processo exige
Em analogia ao que foi efetuado para o modelo binaacuterio pode-se entatildeo definir a matriz de confusatildeo
Objetivos
Minimizar P3 e P4 -gt Diminuir os erros e as perdas
Minimizar P2 e P5 -gt Aumentar a decisatildeo automaacutetica
PREVISAtildeO
MAU REVISAO BOM
REA
L MAU P1 P2 P3
BOM P4 P5 P6
Modelo ternaacuterio
20
Os resultados obtidos foram os seguintes
Maior equiliacutebrio entre Sensibilidade e Especificidade
Previsotildees mais assertivas
15 das transaccedilotildees satildeo decididas manualmente
Modelo ternaacuterio
P3P6 P3+P4
P1+P3 +P4+P6
PREVISAtildeO
MAU REVISAO BOM
REA
L MAU P1 P2 P3
BOM P4 P5 P6
21
Sumaacuterio
Recolha de dados
Maximizaccedilatildeo do lucro
Modelo binaacuterio
Modelo ternaacuterio
Discussatildeo
Bibliografia
Agenda
22
Com o objetivo de criar um modelo para decidir autorizar ou natildeo o deacutebito de transaccedilotildees em contas com saldo insuficiente foram desenvolvidos dois tipos de modelos binaacuterios e ternaacuterios
Os resultados apresentados com modelos de classificaccedilatildeo binaacuterios revelam que apesar do estudo intensivo efetuado nenhum dos modelos discriminou de forma satisfatoacuteria
Com pesos bastante assimeacutetricos para os dois tipos de erro a decisatildeo foca-se na mitigaccedilatildeo de erro associado agraves perdas mais elevadas
Com pesos iguais a decisatildeo foca-se apenas na previsatildeo da classe dominante
Para melhorar estes resultados construiacuteram-se modelos de classificaccedilatildeo ternaacuterios que possibilitavam a existecircncia da classe REVISAtildeO entre as classes BOM e MAU
O modelo final obtido permitia uma automatizaccedilatildeo de 87 com uma taxa de erro de 8
A incorporaccedilatildeo futura dos criteacuterios usados na revisatildeo manual poderaacute melhorar os resultados
Discussatildeo
23
Sumaacuterio
Recolha de dados
Maximizaccedilatildeo do lucro
Modelo binaacuterio
Modelo ternaacuterio
Discussatildeo
Bibliografia
Agenda
24
[1] Maria R SOUSA amp Joaquim P Costa A Tripartite Scorecard for the PayNo pay Decision-Making in the Retail Banking Industry Applications of Data Mining in E-Business and Finance C Soares et al (Eds) IOS Press 2008 doi103233978-1-58603-890-8-45
[2] Lyn C Thomas David B Edelman and Jonathan N Crook Credit Scoring and its applications SIAM 2002
[3] Roger M Stein The relationship between default prediction and lending profits Integrating roc analysis and loan pricing Journal of Banking amp Finance 291213ndash1236 2005
[4] J R Quinlan Induction of decision trees Machine Learning 1(1)81ndash106 1986
[5] BD Ripley Pattern Recognition and Neural Networks Cambridge University Press 1996
[6] C M Bishop Neural Networks for Pattern Recognition Oxford University Press 1995
[7] K B Schebesch and R Stecking Support vector machines for classifying and describing credit applicants detecting typical and critical regions Journal of the Operational Research Society 561082ndash1088 2005
[8] David J Hand So Young Sohn and Yoonseong Kim Optimal bipartite scorecards Expert Systems with Applications 29684ndash690 2005
Bibliografia
25
Questotildees
6
Sumaacuterio
Recolha de dados
Minimizaccedilatildeo das perdas
Modelo binaacuterio
Modelo ternaacuterio
Discussatildeo
Bibliografia
Agenda
7
Ao prever a classe do cliente (BOM ou MAU) podemos definir a matriz geneacuterica de perdas L
Para determinar os paracircmetros da matriz de perdas L tem-se em conta que
A aprovaccedilatildeo do deacutebito implica cobranccedila de comissotildees pelo serviccedilo e geraccedilatildeo aumento de descobertos
Os cheques recusados implicam tambeacutem a cobranccedila de uma comissatildeo e o montante meacutedio destas transaccedilotildees e comissotildees eacute superior ao das restantes
Natildeo existem perdas quando a classificaccedilatildeo eacute correta
Classificar como BOM quando eacute MAU gera um descoberto na conta que natildeo seraacute regularizado nos 30 dias seguintes e classificar como MAU quando eacute BOM conduz agrave perda de comissotildeesjuros do serviccedilo
PREVISAtildeO
MAU BOM R
EAL MAU l1 l2
BOM l3 l4
Minimizaccedilatildeo das perdas
8
Definimos entatildeo
M = montante (comissotildees mais juros) a pagar pela aprovaccedilatildeo de qualquer transaccedilatildeo
Pc = proporccedilatildeo de cheques
Po = 1- Pc = proporccedilatildeo de outras transacccedilotildees (natildeo cheques)
Lc = descoberto provocado pela aprovaccedilatildeo de cheques
Lo = descoberto provocado pela aprovaccedilatildeo de outras transacccedilotildees
F+ = comissatildeo adicional por cada aprovaccedilatildeo de cheque
F- = comissatildeo adicional por cada devoluccedilatildeo de cheque
Usando os paracircmetros anteriormente definidos obtemos a matriz
Minimizaccedilatildeo das perdas
PREVISAtildeO
MAU BOM
REA
L MAU 0 Pc Lc + (1 - Pc)Lo
BOM Pc(F+-F-) + M 0
9
Nestas condiccedilotildees o mais importante natildeo eacute minimizar o nuacutemero de erros mas sim minimizar as perdasprejuiacutezos
Usando uma amostra com decisotildees histoacutericas e as respectivas comissotildees e montantes chegou-se agrave matriz
A matriz de perdas obtida reflete os criteacuterios de negoacutecio atualmente em vigor No entanto deve ser sempre levada em conta a variabilidade destes criteacuterios na construccedilatildeo do modelo de decisatildeo
PREVISAtildeO
MAU BOM
REA
L MAU 0 49
BOM 1 0
Minimizaccedilatildeo das perdas
10
Sumaacuterio
Recolha de dados
Minimizaccedilatildeo das perdas
Modelo binaacuterio
Modelo ternaacuterio
Discussatildeo
Bibliografia
Agenda
11
Pretende-se que o resultado do modelo contenha
a divisatildeo da populaccedilatildeo em duas classes (BOM MAU)
a probabilidade agrave posteriori em cada classe
Na praacutetica pretende-se dividir a populaccedilatildeo em grupos e em funccedilatildeo da probabilidade associada agrave classe dominante em cada grupo definir como classificar os elementos desse grupo minimizando os custosperdas associadas a essa previsatildeo
100 transaccedilotildees
(80 BOM 20 MAU)
60 transaccedilotildees
(55 BOM 5 MAU)
40 transaccedilotildees
(25 BOM 15 MAU)
20 transaccedilotildees
(20 BOM 0 MAU)
20 transaccedilotildees
(5 BOM 15 MAU)
BOM 80
BOM 62
MAU 75 BOM 100
BOM 92
Modelo binaacuterio
12
Seratildeo abordadas duas estrateacutegias
Os dois tipos de erros tecircm o mesmo peso na decisatildeo e incorporar os conceitos do negoacutecio numa decisatildeo baseada na probabilidade agrave posteriori de cada classe
Vantagem faacutecil adaptaccedilatildeo do modelo a variaccedilotildees dos conceitos do negoacutecio
Desvantagem se os conceitos do negoacutecio conduzirem a tipos de erros muito assimeacutetricos poderaacute diminuir a performance do modelo inicial
Considerar diferentes pesos para os diferentes erros incorporando assim os conceitos do negoacutecio no modelo em si
Vantagem modelo mais adaptado aos conceitos do negoacutecio
Desvantagem variaccedilotildees nos conceito de negoacutecio implicam revisatildeo do modelo
A
B
PREVISAtildeO
MAU BOM
REA
L MAU 0 1
BOM 1 0
PREVISAtildeO
MAU BOM
REA
L MAU 0 49
BOM 1 0
Modelo binaacuterio
13
Dado que seratildeo usadas duas estrateacutegias e que iratildeo ser usados trecircs tipos de modelos regressatildeo logiacutestica aacutervores de classificaccedilatildeo e redes neuronais seraacute necessaacuterio analisar o poder discriminativo de cada modelo e comparar resultados Para tal define-se a matriz de confusatildeo C (ou tabela de contingecircncia) como sendo
Onde
P(RMPM) - probabilidade de o modelo prever MAU quando o cliente eacute MAU na realidade
P(RMPB) - probabilidade de o modelo prever BOM quando o cliente eacute MAU na realidade
P(RBPM) - probabilidade de o modelo prever MAU quando o cliente eacute BOM na realidade
P(RBPB) - probabilidade de o modelo prever BOM quando o cliente eacute BOM na realidade
PREVISAtildeO
MAU BOM
REA
L MAU P(RMPM) P(RMPB) P(RM)
BOM P(RBPM) P(RBPB) P(RB)
P(PM) P(PB) 1
Modelo binaacuterio
14
Usando as matrizes L e C definidas anteriormente
Podemos constatar que o valor esperado para as perdas resulta da soma dos pesos associados a cada tipo de perda (li) multiplicados pela probabilidade de ocorrerem ou seja
PREVISAtildeO
MAU BOM
REA
L MAU l1 l2
BOM l3 l4
PREVISAtildeO
MAU BOM
REA
L MAU P(RMPM) P(RMPB)
BOM P(RBPM) P(RBPB)
443221
4321
lP(RB)P(RB)
PB)P(RB1)l(lP(RB)l
P(RM)
PM)P(RM)l(lP(RM)
PB)P(RBlPM)P(RBlPB)P(RMlPM)P(RMlCLE
Sensibilidade 1- Especificidade
Modelo binaacuterio
15
Entatildeo E[LC] pode ser escrita como uma funccedilatildeo linear da forma
E[LC] = a (1 ndash Especificidade) + b (sensibilidade) + c
onde a b e c satildeo paracircmetros dependentes das entradas da matriz L e da proporccedilatildeo de clientes da classe MAU na amostra
A performance de um modelo pode entatildeo ser analisada num espaccedilo a duas dimensotildees
Para efetuar esta anaacutelise usaremos curvas ROC (Receiver Operating Characteristic)
Modelo binaacuterio
16
Ponto oacutetimo P = 90 P = 100 P = 0
Abaixo eacute apresentado um exemplo de curvas ROC para diferentes classificadores
A
Cada ponto da curva representa uma probabilidade a partir da qual classificamos o cliente como MAU Pontos no canto superior direito correspondem a probabilidades reduzidas e no canto inferior esquerdo correspondem a probabilidades elevadas
Modelo binaacuterio
17
Os resultados obtidos foram os seguintes Pesos iguais Pesos diferenciados atendendo aos conceitos do negoacutecio
Modelo binaacuterio
A
B
18
Sumaacuterio
Recolha de dados
Maximizaccedilatildeo do lucro
Modelo binaacuterio
Modelo ternaacuterio
Discussatildeo
Bibliografia
Agenda
19
Os modelos binaacuterios natildeo descriminam de forma satisfatoacuteria os clientes Para melhorar os resultados permitir-se-aacute uma terceira classe a REVISAtildeO Esta classe implica que as transaccedilotildees necessitaratildeo de anaacutelise manual com eventual recolha de dados adicionais
O nuacutemero de clientes nesta classe deve ser reduzido atendendo aos custos e tempo que tal processo exige
Em analogia ao que foi efetuado para o modelo binaacuterio pode-se entatildeo definir a matriz de confusatildeo
Objetivos
Minimizar P3 e P4 -gt Diminuir os erros e as perdas
Minimizar P2 e P5 -gt Aumentar a decisatildeo automaacutetica
PREVISAtildeO
MAU REVISAO BOM
REA
L MAU P1 P2 P3
BOM P4 P5 P6
Modelo ternaacuterio
20
Os resultados obtidos foram os seguintes
Maior equiliacutebrio entre Sensibilidade e Especificidade
Previsotildees mais assertivas
15 das transaccedilotildees satildeo decididas manualmente
Modelo ternaacuterio
P3P6 P3+P4
P1+P3 +P4+P6
PREVISAtildeO
MAU REVISAO BOM
REA
L MAU P1 P2 P3
BOM P4 P5 P6
21
Sumaacuterio
Recolha de dados
Maximizaccedilatildeo do lucro
Modelo binaacuterio
Modelo ternaacuterio
Discussatildeo
Bibliografia
Agenda
22
Com o objetivo de criar um modelo para decidir autorizar ou natildeo o deacutebito de transaccedilotildees em contas com saldo insuficiente foram desenvolvidos dois tipos de modelos binaacuterios e ternaacuterios
Os resultados apresentados com modelos de classificaccedilatildeo binaacuterios revelam que apesar do estudo intensivo efetuado nenhum dos modelos discriminou de forma satisfatoacuteria
Com pesos bastante assimeacutetricos para os dois tipos de erro a decisatildeo foca-se na mitigaccedilatildeo de erro associado agraves perdas mais elevadas
Com pesos iguais a decisatildeo foca-se apenas na previsatildeo da classe dominante
Para melhorar estes resultados construiacuteram-se modelos de classificaccedilatildeo ternaacuterios que possibilitavam a existecircncia da classe REVISAtildeO entre as classes BOM e MAU
O modelo final obtido permitia uma automatizaccedilatildeo de 87 com uma taxa de erro de 8
A incorporaccedilatildeo futura dos criteacuterios usados na revisatildeo manual poderaacute melhorar os resultados
Discussatildeo
23
Sumaacuterio
Recolha de dados
Maximizaccedilatildeo do lucro
Modelo binaacuterio
Modelo ternaacuterio
Discussatildeo
Bibliografia
Agenda
24
[1] Maria R SOUSA amp Joaquim P Costa A Tripartite Scorecard for the PayNo pay Decision-Making in the Retail Banking Industry Applications of Data Mining in E-Business and Finance C Soares et al (Eds) IOS Press 2008 doi103233978-1-58603-890-8-45
[2] Lyn C Thomas David B Edelman and Jonathan N Crook Credit Scoring and its applications SIAM 2002
[3] Roger M Stein The relationship between default prediction and lending profits Integrating roc analysis and loan pricing Journal of Banking amp Finance 291213ndash1236 2005
[4] J R Quinlan Induction of decision trees Machine Learning 1(1)81ndash106 1986
[5] BD Ripley Pattern Recognition and Neural Networks Cambridge University Press 1996
[6] C M Bishop Neural Networks for Pattern Recognition Oxford University Press 1995
[7] K B Schebesch and R Stecking Support vector machines for classifying and describing credit applicants detecting typical and critical regions Journal of the Operational Research Society 561082ndash1088 2005
[8] David J Hand So Young Sohn and Yoonseong Kim Optimal bipartite scorecards Expert Systems with Applications 29684ndash690 2005
Bibliografia
25
Questotildees
7
Ao prever a classe do cliente (BOM ou MAU) podemos definir a matriz geneacuterica de perdas L
Para determinar os paracircmetros da matriz de perdas L tem-se em conta que
A aprovaccedilatildeo do deacutebito implica cobranccedila de comissotildees pelo serviccedilo e geraccedilatildeo aumento de descobertos
Os cheques recusados implicam tambeacutem a cobranccedila de uma comissatildeo e o montante meacutedio destas transaccedilotildees e comissotildees eacute superior ao das restantes
Natildeo existem perdas quando a classificaccedilatildeo eacute correta
Classificar como BOM quando eacute MAU gera um descoberto na conta que natildeo seraacute regularizado nos 30 dias seguintes e classificar como MAU quando eacute BOM conduz agrave perda de comissotildeesjuros do serviccedilo
PREVISAtildeO
MAU BOM R
EAL MAU l1 l2
BOM l3 l4
Minimizaccedilatildeo das perdas
8
Definimos entatildeo
M = montante (comissotildees mais juros) a pagar pela aprovaccedilatildeo de qualquer transaccedilatildeo
Pc = proporccedilatildeo de cheques
Po = 1- Pc = proporccedilatildeo de outras transacccedilotildees (natildeo cheques)
Lc = descoberto provocado pela aprovaccedilatildeo de cheques
Lo = descoberto provocado pela aprovaccedilatildeo de outras transacccedilotildees
F+ = comissatildeo adicional por cada aprovaccedilatildeo de cheque
F- = comissatildeo adicional por cada devoluccedilatildeo de cheque
Usando os paracircmetros anteriormente definidos obtemos a matriz
Minimizaccedilatildeo das perdas
PREVISAtildeO
MAU BOM
REA
L MAU 0 Pc Lc + (1 - Pc)Lo
BOM Pc(F+-F-) + M 0
9
Nestas condiccedilotildees o mais importante natildeo eacute minimizar o nuacutemero de erros mas sim minimizar as perdasprejuiacutezos
Usando uma amostra com decisotildees histoacutericas e as respectivas comissotildees e montantes chegou-se agrave matriz
A matriz de perdas obtida reflete os criteacuterios de negoacutecio atualmente em vigor No entanto deve ser sempre levada em conta a variabilidade destes criteacuterios na construccedilatildeo do modelo de decisatildeo
PREVISAtildeO
MAU BOM
REA
L MAU 0 49
BOM 1 0
Minimizaccedilatildeo das perdas
10
Sumaacuterio
Recolha de dados
Minimizaccedilatildeo das perdas
Modelo binaacuterio
Modelo ternaacuterio
Discussatildeo
Bibliografia
Agenda
11
Pretende-se que o resultado do modelo contenha
a divisatildeo da populaccedilatildeo em duas classes (BOM MAU)
a probabilidade agrave posteriori em cada classe
Na praacutetica pretende-se dividir a populaccedilatildeo em grupos e em funccedilatildeo da probabilidade associada agrave classe dominante em cada grupo definir como classificar os elementos desse grupo minimizando os custosperdas associadas a essa previsatildeo
100 transaccedilotildees
(80 BOM 20 MAU)
60 transaccedilotildees
(55 BOM 5 MAU)
40 transaccedilotildees
(25 BOM 15 MAU)
20 transaccedilotildees
(20 BOM 0 MAU)
20 transaccedilotildees
(5 BOM 15 MAU)
BOM 80
BOM 62
MAU 75 BOM 100
BOM 92
Modelo binaacuterio
12
Seratildeo abordadas duas estrateacutegias
Os dois tipos de erros tecircm o mesmo peso na decisatildeo e incorporar os conceitos do negoacutecio numa decisatildeo baseada na probabilidade agrave posteriori de cada classe
Vantagem faacutecil adaptaccedilatildeo do modelo a variaccedilotildees dos conceitos do negoacutecio
Desvantagem se os conceitos do negoacutecio conduzirem a tipos de erros muito assimeacutetricos poderaacute diminuir a performance do modelo inicial
Considerar diferentes pesos para os diferentes erros incorporando assim os conceitos do negoacutecio no modelo em si
Vantagem modelo mais adaptado aos conceitos do negoacutecio
Desvantagem variaccedilotildees nos conceito de negoacutecio implicam revisatildeo do modelo
A
B
PREVISAtildeO
MAU BOM
REA
L MAU 0 1
BOM 1 0
PREVISAtildeO
MAU BOM
REA
L MAU 0 49
BOM 1 0
Modelo binaacuterio
13
Dado que seratildeo usadas duas estrateacutegias e que iratildeo ser usados trecircs tipos de modelos regressatildeo logiacutestica aacutervores de classificaccedilatildeo e redes neuronais seraacute necessaacuterio analisar o poder discriminativo de cada modelo e comparar resultados Para tal define-se a matriz de confusatildeo C (ou tabela de contingecircncia) como sendo
Onde
P(RMPM) - probabilidade de o modelo prever MAU quando o cliente eacute MAU na realidade
P(RMPB) - probabilidade de o modelo prever BOM quando o cliente eacute MAU na realidade
P(RBPM) - probabilidade de o modelo prever MAU quando o cliente eacute BOM na realidade
P(RBPB) - probabilidade de o modelo prever BOM quando o cliente eacute BOM na realidade
PREVISAtildeO
MAU BOM
REA
L MAU P(RMPM) P(RMPB) P(RM)
BOM P(RBPM) P(RBPB) P(RB)
P(PM) P(PB) 1
Modelo binaacuterio
14
Usando as matrizes L e C definidas anteriormente
Podemos constatar que o valor esperado para as perdas resulta da soma dos pesos associados a cada tipo de perda (li) multiplicados pela probabilidade de ocorrerem ou seja
PREVISAtildeO
MAU BOM
REA
L MAU l1 l2
BOM l3 l4
PREVISAtildeO
MAU BOM
REA
L MAU P(RMPM) P(RMPB)
BOM P(RBPM) P(RBPB)
443221
4321
lP(RB)P(RB)
PB)P(RB1)l(lP(RB)l
P(RM)
PM)P(RM)l(lP(RM)
PB)P(RBlPM)P(RBlPB)P(RMlPM)P(RMlCLE
Sensibilidade 1- Especificidade
Modelo binaacuterio
15
Entatildeo E[LC] pode ser escrita como uma funccedilatildeo linear da forma
E[LC] = a (1 ndash Especificidade) + b (sensibilidade) + c
onde a b e c satildeo paracircmetros dependentes das entradas da matriz L e da proporccedilatildeo de clientes da classe MAU na amostra
A performance de um modelo pode entatildeo ser analisada num espaccedilo a duas dimensotildees
Para efetuar esta anaacutelise usaremos curvas ROC (Receiver Operating Characteristic)
Modelo binaacuterio
16
Ponto oacutetimo P = 90 P = 100 P = 0
Abaixo eacute apresentado um exemplo de curvas ROC para diferentes classificadores
A
Cada ponto da curva representa uma probabilidade a partir da qual classificamos o cliente como MAU Pontos no canto superior direito correspondem a probabilidades reduzidas e no canto inferior esquerdo correspondem a probabilidades elevadas
Modelo binaacuterio
17
Os resultados obtidos foram os seguintes Pesos iguais Pesos diferenciados atendendo aos conceitos do negoacutecio
Modelo binaacuterio
A
B
18
Sumaacuterio
Recolha de dados
Maximizaccedilatildeo do lucro
Modelo binaacuterio
Modelo ternaacuterio
Discussatildeo
Bibliografia
Agenda
19
Os modelos binaacuterios natildeo descriminam de forma satisfatoacuteria os clientes Para melhorar os resultados permitir-se-aacute uma terceira classe a REVISAtildeO Esta classe implica que as transaccedilotildees necessitaratildeo de anaacutelise manual com eventual recolha de dados adicionais
O nuacutemero de clientes nesta classe deve ser reduzido atendendo aos custos e tempo que tal processo exige
Em analogia ao que foi efetuado para o modelo binaacuterio pode-se entatildeo definir a matriz de confusatildeo
Objetivos
Minimizar P3 e P4 -gt Diminuir os erros e as perdas
Minimizar P2 e P5 -gt Aumentar a decisatildeo automaacutetica
PREVISAtildeO
MAU REVISAO BOM
REA
L MAU P1 P2 P3
BOM P4 P5 P6
Modelo ternaacuterio
20
Os resultados obtidos foram os seguintes
Maior equiliacutebrio entre Sensibilidade e Especificidade
Previsotildees mais assertivas
15 das transaccedilotildees satildeo decididas manualmente
Modelo ternaacuterio
P3P6 P3+P4
P1+P3 +P4+P6
PREVISAtildeO
MAU REVISAO BOM
REA
L MAU P1 P2 P3
BOM P4 P5 P6
21
Sumaacuterio
Recolha de dados
Maximizaccedilatildeo do lucro
Modelo binaacuterio
Modelo ternaacuterio
Discussatildeo
Bibliografia
Agenda
22
Com o objetivo de criar um modelo para decidir autorizar ou natildeo o deacutebito de transaccedilotildees em contas com saldo insuficiente foram desenvolvidos dois tipos de modelos binaacuterios e ternaacuterios
Os resultados apresentados com modelos de classificaccedilatildeo binaacuterios revelam que apesar do estudo intensivo efetuado nenhum dos modelos discriminou de forma satisfatoacuteria
Com pesos bastante assimeacutetricos para os dois tipos de erro a decisatildeo foca-se na mitigaccedilatildeo de erro associado agraves perdas mais elevadas
Com pesos iguais a decisatildeo foca-se apenas na previsatildeo da classe dominante
Para melhorar estes resultados construiacuteram-se modelos de classificaccedilatildeo ternaacuterios que possibilitavam a existecircncia da classe REVISAtildeO entre as classes BOM e MAU
O modelo final obtido permitia uma automatizaccedilatildeo de 87 com uma taxa de erro de 8
A incorporaccedilatildeo futura dos criteacuterios usados na revisatildeo manual poderaacute melhorar os resultados
Discussatildeo
23
Sumaacuterio
Recolha de dados
Maximizaccedilatildeo do lucro
Modelo binaacuterio
Modelo ternaacuterio
Discussatildeo
Bibliografia
Agenda
24
[1] Maria R SOUSA amp Joaquim P Costa A Tripartite Scorecard for the PayNo pay Decision-Making in the Retail Banking Industry Applications of Data Mining in E-Business and Finance C Soares et al (Eds) IOS Press 2008 doi103233978-1-58603-890-8-45
[2] Lyn C Thomas David B Edelman and Jonathan N Crook Credit Scoring and its applications SIAM 2002
[3] Roger M Stein The relationship between default prediction and lending profits Integrating roc analysis and loan pricing Journal of Banking amp Finance 291213ndash1236 2005
[4] J R Quinlan Induction of decision trees Machine Learning 1(1)81ndash106 1986
[5] BD Ripley Pattern Recognition and Neural Networks Cambridge University Press 1996
[6] C M Bishop Neural Networks for Pattern Recognition Oxford University Press 1995
[7] K B Schebesch and R Stecking Support vector machines for classifying and describing credit applicants detecting typical and critical regions Journal of the Operational Research Society 561082ndash1088 2005
[8] David J Hand So Young Sohn and Yoonseong Kim Optimal bipartite scorecards Expert Systems with Applications 29684ndash690 2005
Bibliografia
25
Questotildees
8
Definimos entatildeo
M = montante (comissotildees mais juros) a pagar pela aprovaccedilatildeo de qualquer transaccedilatildeo
Pc = proporccedilatildeo de cheques
Po = 1- Pc = proporccedilatildeo de outras transacccedilotildees (natildeo cheques)
Lc = descoberto provocado pela aprovaccedilatildeo de cheques
Lo = descoberto provocado pela aprovaccedilatildeo de outras transacccedilotildees
F+ = comissatildeo adicional por cada aprovaccedilatildeo de cheque
F- = comissatildeo adicional por cada devoluccedilatildeo de cheque
Usando os paracircmetros anteriormente definidos obtemos a matriz
Minimizaccedilatildeo das perdas
PREVISAtildeO
MAU BOM
REA
L MAU 0 Pc Lc + (1 - Pc)Lo
BOM Pc(F+-F-) + M 0
9
Nestas condiccedilotildees o mais importante natildeo eacute minimizar o nuacutemero de erros mas sim minimizar as perdasprejuiacutezos
Usando uma amostra com decisotildees histoacutericas e as respectivas comissotildees e montantes chegou-se agrave matriz
A matriz de perdas obtida reflete os criteacuterios de negoacutecio atualmente em vigor No entanto deve ser sempre levada em conta a variabilidade destes criteacuterios na construccedilatildeo do modelo de decisatildeo
PREVISAtildeO
MAU BOM
REA
L MAU 0 49
BOM 1 0
Minimizaccedilatildeo das perdas
10
Sumaacuterio
Recolha de dados
Minimizaccedilatildeo das perdas
Modelo binaacuterio
Modelo ternaacuterio
Discussatildeo
Bibliografia
Agenda
11
Pretende-se que o resultado do modelo contenha
a divisatildeo da populaccedilatildeo em duas classes (BOM MAU)
a probabilidade agrave posteriori em cada classe
Na praacutetica pretende-se dividir a populaccedilatildeo em grupos e em funccedilatildeo da probabilidade associada agrave classe dominante em cada grupo definir como classificar os elementos desse grupo minimizando os custosperdas associadas a essa previsatildeo
100 transaccedilotildees
(80 BOM 20 MAU)
60 transaccedilotildees
(55 BOM 5 MAU)
40 transaccedilotildees
(25 BOM 15 MAU)
20 transaccedilotildees
(20 BOM 0 MAU)
20 transaccedilotildees
(5 BOM 15 MAU)
BOM 80
BOM 62
MAU 75 BOM 100
BOM 92
Modelo binaacuterio
12
Seratildeo abordadas duas estrateacutegias
Os dois tipos de erros tecircm o mesmo peso na decisatildeo e incorporar os conceitos do negoacutecio numa decisatildeo baseada na probabilidade agrave posteriori de cada classe
Vantagem faacutecil adaptaccedilatildeo do modelo a variaccedilotildees dos conceitos do negoacutecio
Desvantagem se os conceitos do negoacutecio conduzirem a tipos de erros muito assimeacutetricos poderaacute diminuir a performance do modelo inicial
Considerar diferentes pesos para os diferentes erros incorporando assim os conceitos do negoacutecio no modelo em si
Vantagem modelo mais adaptado aos conceitos do negoacutecio
Desvantagem variaccedilotildees nos conceito de negoacutecio implicam revisatildeo do modelo
A
B
PREVISAtildeO
MAU BOM
REA
L MAU 0 1
BOM 1 0
PREVISAtildeO
MAU BOM
REA
L MAU 0 49
BOM 1 0
Modelo binaacuterio
13
Dado que seratildeo usadas duas estrateacutegias e que iratildeo ser usados trecircs tipos de modelos regressatildeo logiacutestica aacutervores de classificaccedilatildeo e redes neuronais seraacute necessaacuterio analisar o poder discriminativo de cada modelo e comparar resultados Para tal define-se a matriz de confusatildeo C (ou tabela de contingecircncia) como sendo
Onde
P(RMPM) - probabilidade de o modelo prever MAU quando o cliente eacute MAU na realidade
P(RMPB) - probabilidade de o modelo prever BOM quando o cliente eacute MAU na realidade
P(RBPM) - probabilidade de o modelo prever MAU quando o cliente eacute BOM na realidade
P(RBPB) - probabilidade de o modelo prever BOM quando o cliente eacute BOM na realidade
PREVISAtildeO
MAU BOM
REA
L MAU P(RMPM) P(RMPB) P(RM)
BOM P(RBPM) P(RBPB) P(RB)
P(PM) P(PB) 1
Modelo binaacuterio
14
Usando as matrizes L e C definidas anteriormente
Podemos constatar que o valor esperado para as perdas resulta da soma dos pesos associados a cada tipo de perda (li) multiplicados pela probabilidade de ocorrerem ou seja
PREVISAtildeO
MAU BOM
REA
L MAU l1 l2
BOM l3 l4
PREVISAtildeO
MAU BOM
REA
L MAU P(RMPM) P(RMPB)
BOM P(RBPM) P(RBPB)
443221
4321
lP(RB)P(RB)
PB)P(RB1)l(lP(RB)l
P(RM)
PM)P(RM)l(lP(RM)
PB)P(RBlPM)P(RBlPB)P(RMlPM)P(RMlCLE
Sensibilidade 1- Especificidade
Modelo binaacuterio
15
Entatildeo E[LC] pode ser escrita como uma funccedilatildeo linear da forma
E[LC] = a (1 ndash Especificidade) + b (sensibilidade) + c
onde a b e c satildeo paracircmetros dependentes das entradas da matriz L e da proporccedilatildeo de clientes da classe MAU na amostra
A performance de um modelo pode entatildeo ser analisada num espaccedilo a duas dimensotildees
Para efetuar esta anaacutelise usaremos curvas ROC (Receiver Operating Characteristic)
Modelo binaacuterio
16
Ponto oacutetimo P = 90 P = 100 P = 0
Abaixo eacute apresentado um exemplo de curvas ROC para diferentes classificadores
A
Cada ponto da curva representa uma probabilidade a partir da qual classificamos o cliente como MAU Pontos no canto superior direito correspondem a probabilidades reduzidas e no canto inferior esquerdo correspondem a probabilidades elevadas
Modelo binaacuterio
17
Os resultados obtidos foram os seguintes Pesos iguais Pesos diferenciados atendendo aos conceitos do negoacutecio
Modelo binaacuterio
A
B
18
Sumaacuterio
Recolha de dados
Maximizaccedilatildeo do lucro
Modelo binaacuterio
Modelo ternaacuterio
Discussatildeo
Bibliografia
Agenda
19
Os modelos binaacuterios natildeo descriminam de forma satisfatoacuteria os clientes Para melhorar os resultados permitir-se-aacute uma terceira classe a REVISAtildeO Esta classe implica que as transaccedilotildees necessitaratildeo de anaacutelise manual com eventual recolha de dados adicionais
O nuacutemero de clientes nesta classe deve ser reduzido atendendo aos custos e tempo que tal processo exige
Em analogia ao que foi efetuado para o modelo binaacuterio pode-se entatildeo definir a matriz de confusatildeo
Objetivos
Minimizar P3 e P4 -gt Diminuir os erros e as perdas
Minimizar P2 e P5 -gt Aumentar a decisatildeo automaacutetica
PREVISAtildeO
MAU REVISAO BOM
REA
L MAU P1 P2 P3
BOM P4 P5 P6
Modelo ternaacuterio
20
Os resultados obtidos foram os seguintes
Maior equiliacutebrio entre Sensibilidade e Especificidade
Previsotildees mais assertivas
15 das transaccedilotildees satildeo decididas manualmente
Modelo ternaacuterio
P3P6 P3+P4
P1+P3 +P4+P6
PREVISAtildeO
MAU REVISAO BOM
REA
L MAU P1 P2 P3
BOM P4 P5 P6
21
Sumaacuterio
Recolha de dados
Maximizaccedilatildeo do lucro
Modelo binaacuterio
Modelo ternaacuterio
Discussatildeo
Bibliografia
Agenda
22
Com o objetivo de criar um modelo para decidir autorizar ou natildeo o deacutebito de transaccedilotildees em contas com saldo insuficiente foram desenvolvidos dois tipos de modelos binaacuterios e ternaacuterios
Os resultados apresentados com modelos de classificaccedilatildeo binaacuterios revelam que apesar do estudo intensivo efetuado nenhum dos modelos discriminou de forma satisfatoacuteria
Com pesos bastante assimeacutetricos para os dois tipos de erro a decisatildeo foca-se na mitigaccedilatildeo de erro associado agraves perdas mais elevadas
Com pesos iguais a decisatildeo foca-se apenas na previsatildeo da classe dominante
Para melhorar estes resultados construiacuteram-se modelos de classificaccedilatildeo ternaacuterios que possibilitavam a existecircncia da classe REVISAtildeO entre as classes BOM e MAU
O modelo final obtido permitia uma automatizaccedilatildeo de 87 com uma taxa de erro de 8
A incorporaccedilatildeo futura dos criteacuterios usados na revisatildeo manual poderaacute melhorar os resultados
Discussatildeo
23
Sumaacuterio
Recolha de dados
Maximizaccedilatildeo do lucro
Modelo binaacuterio
Modelo ternaacuterio
Discussatildeo
Bibliografia
Agenda
24
[1] Maria R SOUSA amp Joaquim P Costa A Tripartite Scorecard for the PayNo pay Decision-Making in the Retail Banking Industry Applications of Data Mining in E-Business and Finance C Soares et al (Eds) IOS Press 2008 doi103233978-1-58603-890-8-45
[2] Lyn C Thomas David B Edelman and Jonathan N Crook Credit Scoring and its applications SIAM 2002
[3] Roger M Stein The relationship between default prediction and lending profits Integrating roc analysis and loan pricing Journal of Banking amp Finance 291213ndash1236 2005
[4] J R Quinlan Induction of decision trees Machine Learning 1(1)81ndash106 1986
[5] BD Ripley Pattern Recognition and Neural Networks Cambridge University Press 1996
[6] C M Bishop Neural Networks for Pattern Recognition Oxford University Press 1995
[7] K B Schebesch and R Stecking Support vector machines for classifying and describing credit applicants detecting typical and critical regions Journal of the Operational Research Society 561082ndash1088 2005
[8] David J Hand So Young Sohn and Yoonseong Kim Optimal bipartite scorecards Expert Systems with Applications 29684ndash690 2005
Bibliografia
25
Questotildees
9
Nestas condiccedilotildees o mais importante natildeo eacute minimizar o nuacutemero de erros mas sim minimizar as perdasprejuiacutezos
Usando uma amostra com decisotildees histoacutericas e as respectivas comissotildees e montantes chegou-se agrave matriz
A matriz de perdas obtida reflete os criteacuterios de negoacutecio atualmente em vigor No entanto deve ser sempre levada em conta a variabilidade destes criteacuterios na construccedilatildeo do modelo de decisatildeo
PREVISAtildeO
MAU BOM
REA
L MAU 0 49
BOM 1 0
Minimizaccedilatildeo das perdas
10
Sumaacuterio
Recolha de dados
Minimizaccedilatildeo das perdas
Modelo binaacuterio
Modelo ternaacuterio
Discussatildeo
Bibliografia
Agenda
11
Pretende-se que o resultado do modelo contenha
a divisatildeo da populaccedilatildeo em duas classes (BOM MAU)
a probabilidade agrave posteriori em cada classe
Na praacutetica pretende-se dividir a populaccedilatildeo em grupos e em funccedilatildeo da probabilidade associada agrave classe dominante em cada grupo definir como classificar os elementos desse grupo minimizando os custosperdas associadas a essa previsatildeo
100 transaccedilotildees
(80 BOM 20 MAU)
60 transaccedilotildees
(55 BOM 5 MAU)
40 transaccedilotildees
(25 BOM 15 MAU)
20 transaccedilotildees
(20 BOM 0 MAU)
20 transaccedilotildees
(5 BOM 15 MAU)
BOM 80
BOM 62
MAU 75 BOM 100
BOM 92
Modelo binaacuterio
12
Seratildeo abordadas duas estrateacutegias
Os dois tipos de erros tecircm o mesmo peso na decisatildeo e incorporar os conceitos do negoacutecio numa decisatildeo baseada na probabilidade agrave posteriori de cada classe
Vantagem faacutecil adaptaccedilatildeo do modelo a variaccedilotildees dos conceitos do negoacutecio
Desvantagem se os conceitos do negoacutecio conduzirem a tipos de erros muito assimeacutetricos poderaacute diminuir a performance do modelo inicial
Considerar diferentes pesos para os diferentes erros incorporando assim os conceitos do negoacutecio no modelo em si
Vantagem modelo mais adaptado aos conceitos do negoacutecio
Desvantagem variaccedilotildees nos conceito de negoacutecio implicam revisatildeo do modelo
A
B
PREVISAtildeO
MAU BOM
REA
L MAU 0 1
BOM 1 0
PREVISAtildeO
MAU BOM
REA
L MAU 0 49
BOM 1 0
Modelo binaacuterio
13
Dado que seratildeo usadas duas estrateacutegias e que iratildeo ser usados trecircs tipos de modelos regressatildeo logiacutestica aacutervores de classificaccedilatildeo e redes neuronais seraacute necessaacuterio analisar o poder discriminativo de cada modelo e comparar resultados Para tal define-se a matriz de confusatildeo C (ou tabela de contingecircncia) como sendo
Onde
P(RMPM) - probabilidade de o modelo prever MAU quando o cliente eacute MAU na realidade
P(RMPB) - probabilidade de o modelo prever BOM quando o cliente eacute MAU na realidade
P(RBPM) - probabilidade de o modelo prever MAU quando o cliente eacute BOM na realidade
P(RBPB) - probabilidade de o modelo prever BOM quando o cliente eacute BOM na realidade
PREVISAtildeO
MAU BOM
REA
L MAU P(RMPM) P(RMPB) P(RM)
BOM P(RBPM) P(RBPB) P(RB)
P(PM) P(PB) 1
Modelo binaacuterio
14
Usando as matrizes L e C definidas anteriormente
Podemos constatar que o valor esperado para as perdas resulta da soma dos pesos associados a cada tipo de perda (li) multiplicados pela probabilidade de ocorrerem ou seja
PREVISAtildeO
MAU BOM
REA
L MAU l1 l2
BOM l3 l4
PREVISAtildeO
MAU BOM
REA
L MAU P(RMPM) P(RMPB)
BOM P(RBPM) P(RBPB)
443221
4321
lP(RB)P(RB)
PB)P(RB1)l(lP(RB)l
P(RM)
PM)P(RM)l(lP(RM)
PB)P(RBlPM)P(RBlPB)P(RMlPM)P(RMlCLE
Sensibilidade 1- Especificidade
Modelo binaacuterio
15
Entatildeo E[LC] pode ser escrita como uma funccedilatildeo linear da forma
E[LC] = a (1 ndash Especificidade) + b (sensibilidade) + c
onde a b e c satildeo paracircmetros dependentes das entradas da matriz L e da proporccedilatildeo de clientes da classe MAU na amostra
A performance de um modelo pode entatildeo ser analisada num espaccedilo a duas dimensotildees
Para efetuar esta anaacutelise usaremos curvas ROC (Receiver Operating Characteristic)
Modelo binaacuterio
16
Ponto oacutetimo P = 90 P = 100 P = 0
Abaixo eacute apresentado um exemplo de curvas ROC para diferentes classificadores
A
Cada ponto da curva representa uma probabilidade a partir da qual classificamos o cliente como MAU Pontos no canto superior direito correspondem a probabilidades reduzidas e no canto inferior esquerdo correspondem a probabilidades elevadas
Modelo binaacuterio
17
Os resultados obtidos foram os seguintes Pesos iguais Pesos diferenciados atendendo aos conceitos do negoacutecio
Modelo binaacuterio
A
B
18
Sumaacuterio
Recolha de dados
Maximizaccedilatildeo do lucro
Modelo binaacuterio
Modelo ternaacuterio
Discussatildeo
Bibliografia
Agenda
19
Os modelos binaacuterios natildeo descriminam de forma satisfatoacuteria os clientes Para melhorar os resultados permitir-se-aacute uma terceira classe a REVISAtildeO Esta classe implica que as transaccedilotildees necessitaratildeo de anaacutelise manual com eventual recolha de dados adicionais
O nuacutemero de clientes nesta classe deve ser reduzido atendendo aos custos e tempo que tal processo exige
Em analogia ao que foi efetuado para o modelo binaacuterio pode-se entatildeo definir a matriz de confusatildeo
Objetivos
Minimizar P3 e P4 -gt Diminuir os erros e as perdas
Minimizar P2 e P5 -gt Aumentar a decisatildeo automaacutetica
PREVISAtildeO
MAU REVISAO BOM
REA
L MAU P1 P2 P3
BOM P4 P5 P6
Modelo ternaacuterio
20
Os resultados obtidos foram os seguintes
Maior equiliacutebrio entre Sensibilidade e Especificidade
Previsotildees mais assertivas
15 das transaccedilotildees satildeo decididas manualmente
Modelo ternaacuterio
P3P6 P3+P4
P1+P3 +P4+P6
PREVISAtildeO
MAU REVISAO BOM
REA
L MAU P1 P2 P3
BOM P4 P5 P6
21
Sumaacuterio
Recolha de dados
Maximizaccedilatildeo do lucro
Modelo binaacuterio
Modelo ternaacuterio
Discussatildeo
Bibliografia
Agenda
22
Com o objetivo de criar um modelo para decidir autorizar ou natildeo o deacutebito de transaccedilotildees em contas com saldo insuficiente foram desenvolvidos dois tipos de modelos binaacuterios e ternaacuterios
Os resultados apresentados com modelos de classificaccedilatildeo binaacuterios revelam que apesar do estudo intensivo efetuado nenhum dos modelos discriminou de forma satisfatoacuteria
Com pesos bastante assimeacutetricos para os dois tipos de erro a decisatildeo foca-se na mitigaccedilatildeo de erro associado agraves perdas mais elevadas
Com pesos iguais a decisatildeo foca-se apenas na previsatildeo da classe dominante
Para melhorar estes resultados construiacuteram-se modelos de classificaccedilatildeo ternaacuterios que possibilitavam a existecircncia da classe REVISAtildeO entre as classes BOM e MAU
O modelo final obtido permitia uma automatizaccedilatildeo de 87 com uma taxa de erro de 8
A incorporaccedilatildeo futura dos criteacuterios usados na revisatildeo manual poderaacute melhorar os resultados
Discussatildeo
23
Sumaacuterio
Recolha de dados
Maximizaccedilatildeo do lucro
Modelo binaacuterio
Modelo ternaacuterio
Discussatildeo
Bibliografia
Agenda
24
[1] Maria R SOUSA amp Joaquim P Costa A Tripartite Scorecard for the PayNo pay Decision-Making in the Retail Banking Industry Applications of Data Mining in E-Business and Finance C Soares et al (Eds) IOS Press 2008 doi103233978-1-58603-890-8-45
[2] Lyn C Thomas David B Edelman and Jonathan N Crook Credit Scoring and its applications SIAM 2002
[3] Roger M Stein The relationship between default prediction and lending profits Integrating roc analysis and loan pricing Journal of Banking amp Finance 291213ndash1236 2005
[4] J R Quinlan Induction of decision trees Machine Learning 1(1)81ndash106 1986
[5] BD Ripley Pattern Recognition and Neural Networks Cambridge University Press 1996
[6] C M Bishop Neural Networks for Pattern Recognition Oxford University Press 1995
[7] K B Schebesch and R Stecking Support vector machines for classifying and describing credit applicants detecting typical and critical regions Journal of the Operational Research Society 561082ndash1088 2005
[8] David J Hand So Young Sohn and Yoonseong Kim Optimal bipartite scorecards Expert Systems with Applications 29684ndash690 2005
Bibliografia
25
Questotildees
10
Sumaacuterio
Recolha de dados
Minimizaccedilatildeo das perdas
Modelo binaacuterio
Modelo ternaacuterio
Discussatildeo
Bibliografia
Agenda
11
Pretende-se que o resultado do modelo contenha
a divisatildeo da populaccedilatildeo em duas classes (BOM MAU)
a probabilidade agrave posteriori em cada classe
Na praacutetica pretende-se dividir a populaccedilatildeo em grupos e em funccedilatildeo da probabilidade associada agrave classe dominante em cada grupo definir como classificar os elementos desse grupo minimizando os custosperdas associadas a essa previsatildeo
100 transaccedilotildees
(80 BOM 20 MAU)
60 transaccedilotildees
(55 BOM 5 MAU)
40 transaccedilotildees
(25 BOM 15 MAU)
20 transaccedilotildees
(20 BOM 0 MAU)
20 transaccedilotildees
(5 BOM 15 MAU)
BOM 80
BOM 62
MAU 75 BOM 100
BOM 92
Modelo binaacuterio
12
Seratildeo abordadas duas estrateacutegias
Os dois tipos de erros tecircm o mesmo peso na decisatildeo e incorporar os conceitos do negoacutecio numa decisatildeo baseada na probabilidade agrave posteriori de cada classe
Vantagem faacutecil adaptaccedilatildeo do modelo a variaccedilotildees dos conceitos do negoacutecio
Desvantagem se os conceitos do negoacutecio conduzirem a tipos de erros muito assimeacutetricos poderaacute diminuir a performance do modelo inicial
Considerar diferentes pesos para os diferentes erros incorporando assim os conceitos do negoacutecio no modelo em si
Vantagem modelo mais adaptado aos conceitos do negoacutecio
Desvantagem variaccedilotildees nos conceito de negoacutecio implicam revisatildeo do modelo
A
B
PREVISAtildeO
MAU BOM
REA
L MAU 0 1
BOM 1 0
PREVISAtildeO
MAU BOM
REA
L MAU 0 49
BOM 1 0
Modelo binaacuterio
13
Dado que seratildeo usadas duas estrateacutegias e que iratildeo ser usados trecircs tipos de modelos regressatildeo logiacutestica aacutervores de classificaccedilatildeo e redes neuronais seraacute necessaacuterio analisar o poder discriminativo de cada modelo e comparar resultados Para tal define-se a matriz de confusatildeo C (ou tabela de contingecircncia) como sendo
Onde
P(RMPM) - probabilidade de o modelo prever MAU quando o cliente eacute MAU na realidade
P(RMPB) - probabilidade de o modelo prever BOM quando o cliente eacute MAU na realidade
P(RBPM) - probabilidade de o modelo prever MAU quando o cliente eacute BOM na realidade
P(RBPB) - probabilidade de o modelo prever BOM quando o cliente eacute BOM na realidade
PREVISAtildeO
MAU BOM
REA
L MAU P(RMPM) P(RMPB) P(RM)
BOM P(RBPM) P(RBPB) P(RB)
P(PM) P(PB) 1
Modelo binaacuterio
14
Usando as matrizes L e C definidas anteriormente
Podemos constatar que o valor esperado para as perdas resulta da soma dos pesos associados a cada tipo de perda (li) multiplicados pela probabilidade de ocorrerem ou seja
PREVISAtildeO
MAU BOM
REA
L MAU l1 l2
BOM l3 l4
PREVISAtildeO
MAU BOM
REA
L MAU P(RMPM) P(RMPB)
BOM P(RBPM) P(RBPB)
443221
4321
lP(RB)P(RB)
PB)P(RB1)l(lP(RB)l
P(RM)
PM)P(RM)l(lP(RM)
PB)P(RBlPM)P(RBlPB)P(RMlPM)P(RMlCLE
Sensibilidade 1- Especificidade
Modelo binaacuterio
15
Entatildeo E[LC] pode ser escrita como uma funccedilatildeo linear da forma
E[LC] = a (1 ndash Especificidade) + b (sensibilidade) + c
onde a b e c satildeo paracircmetros dependentes das entradas da matriz L e da proporccedilatildeo de clientes da classe MAU na amostra
A performance de um modelo pode entatildeo ser analisada num espaccedilo a duas dimensotildees
Para efetuar esta anaacutelise usaremos curvas ROC (Receiver Operating Characteristic)
Modelo binaacuterio
16
Ponto oacutetimo P = 90 P = 100 P = 0
Abaixo eacute apresentado um exemplo de curvas ROC para diferentes classificadores
A
Cada ponto da curva representa uma probabilidade a partir da qual classificamos o cliente como MAU Pontos no canto superior direito correspondem a probabilidades reduzidas e no canto inferior esquerdo correspondem a probabilidades elevadas
Modelo binaacuterio
17
Os resultados obtidos foram os seguintes Pesos iguais Pesos diferenciados atendendo aos conceitos do negoacutecio
Modelo binaacuterio
A
B
18
Sumaacuterio
Recolha de dados
Maximizaccedilatildeo do lucro
Modelo binaacuterio
Modelo ternaacuterio
Discussatildeo
Bibliografia
Agenda
19
Os modelos binaacuterios natildeo descriminam de forma satisfatoacuteria os clientes Para melhorar os resultados permitir-se-aacute uma terceira classe a REVISAtildeO Esta classe implica que as transaccedilotildees necessitaratildeo de anaacutelise manual com eventual recolha de dados adicionais
O nuacutemero de clientes nesta classe deve ser reduzido atendendo aos custos e tempo que tal processo exige
Em analogia ao que foi efetuado para o modelo binaacuterio pode-se entatildeo definir a matriz de confusatildeo
Objetivos
Minimizar P3 e P4 -gt Diminuir os erros e as perdas
Minimizar P2 e P5 -gt Aumentar a decisatildeo automaacutetica
PREVISAtildeO
MAU REVISAO BOM
REA
L MAU P1 P2 P3
BOM P4 P5 P6
Modelo ternaacuterio
20
Os resultados obtidos foram os seguintes
Maior equiliacutebrio entre Sensibilidade e Especificidade
Previsotildees mais assertivas
15 das transaccedilotildees satildeo decididas manualmente
Modelo ternaacuterio
P3P6 P3+P4
P1+P3 +P4+P6
PREVISAtildeO
MAU REVISAO BOM
REA
L MAU P1 P2 P3
BOM P4 P5 P6
21
Sumaacuterio
Recolha de dados
Maximizaccedilatildeo do lucro
Modelo binaacuterio
Modelo ternaacuterio
Discussatildeo
Bibliografia
Agenda
22
Com o objetivo de criar um modelo para decidir autorizar ou natildeo o deacutebito de transaccedilotildees em contas com saldo insuficiente foram desenvolvidos dois tipos de modelos binaacuterios e ternaacuterios
Os resultados apresentados com modelos de classificaccedilatildeo binaacuterios revelam que apesar do estudo intensivo efetuado nenhum dos modelos discriminou de forma satisfatoacuteria
Com pesos bastante assimeacutetricos para os dois tipos de erro a decisatildeo foca-se na mitigaccedilatildeo de erro associado agraves perdas mais elevadas
Com pesos iguais a decisatildeo foca-se apenas na previsatildeo da classe dominante
Para melhorar estes resultados construiacuteram-se modelos de classificaccedilatildeo ternaacuterios que possibilitavam a existecircncia da classe REVISAtildeO entre as classes BOM e MAU
O modelo final obtido permitia uma automatizaccedilatildeo de 87 com uma taxa de erro de 8
A incorporaccedilatildeo futura dos criteacuterios usados na revisatildeo manual poderaacute melhorar os resultados
Discussatildeo
23
Sumaacuterio
Recolha de dados
Maximizaccedilatildeo do lucro
Modelo binaacuterio
Modelo ternaacuterio
Discussatildeo
Bibliografia
Agenda
24
[1] Maria R SOUSA amp Joaquim P Costa A Tripartite Scorecard for the PayNo pay Decision-Making in the Retail Banking Industry Applications of Data Mining in E-Business and Finance C Soares et al (Eds) IOS Press 2008 doi103233978-1-58603-890-8-45
[2] Lyn C Thomas David B Edelman and Jonathan N Crook Credit Scoring and its applications SIAM 2002
[3] Roger M Stein The relationship between default prediction and lending profits Integrating roc analysis and loan pricing Journal of Banking amp Finance 291213ndash1236 2005
[4] J R Quinlan Induction of decision trees Machine Learning 1(1)81ndash106 1986
[5] BD Ripley Pattern Recognition and Neural Networks Cambridge University Press 1996
[6] C M Bishop Neural Networks for Pattern Recognition Oxford University Press 1995
[7] K B Schebesch and R Stecking Support vector machines for classifying and describing credit applicants detecting typical and critical regions Journal of the Operational Research Society 561082ndash1088 2005
[8] David J Hand So Young Sohn and Yoonseong Kim Optimal bipartite scorecards Expert Systems with Applications 29684ndash690 2005
Bibliografia
25
Questotildees
11
Pretende-se que o resultado do modelo contenha
a divisatildeo da populaccedilatildeo em duas classes (BOM MAU)
a probabilidade agrave posteriori em cada classe
Na praacutetica pretende-se dividir a populaccedilatildeo em grupos e em funccedilatildeo da probabilidade associada agrave classe dominante em cada grupo definir como classificar os elementos desse grupo minimizando os custosperdas associadas a essa previsatildeo
100 transaccedilotildees
(80 BOM 20 MAU)
60 transaccedilotildees
(55 BOM 5 MAU)
40 transaccedilotildees
(25 BOM 15 MAU)
20 transaccedilotildees
(20 BOM 0 MAU)
20 transaccedilotildees
(5 BOM 15 MAU)
BOM 80
BOM 62
MAU 75 BOM 100
BOM 92
Modelo binaacuterio
12
Seratildeo abordadas duas estrateacutegias
Os dois tipos de erros tecircm o mesmo peso na decisatildeo e incorporar os conceitos do negoacutecio numa decisatildeo baseada na probabilidade agrave posteriori de cada classe
Vantagem faacutecil adaptaccedilatildeo do modelo a variaccedilotildees dos conceitos do negoacutecio
Desvantagem se os conceitos do negoacutecio conduzirem a tipos de erros muito assimeacutetricos poderaacute diminuir a performance do modelo inicial
Considerar diferentes pesos para os diferentes erros incorporando assim os conceitos do negoacutecio no modelo em si
Vantagem modelo mais adaptado aos conceitos do negoacutecio
Desvantagem variaccedilotildees nos conceito de negoacutecio implicam revisatildeo do modelo
A
B
PREVISAtildeO
MAU BOM
REA
L MAU 0 1
BOM 1 0
PREVISAtildeO
MAU BOM
REA
L MAU 0 49
BOM 1 0
Modelo binaacuterio
13
Dado que seratildeo usadas duas estrateacutegias e que iratildeo ser usados trecircs tipos de modelos regressatildeo logiacutestica aacutervores de classificaccedilatildeo e redes neuronais seraacute necessaacuterio analisar o poder discriminativo de cada modelo e comparar resultados Para tal define-se a matriz de confusatildeo C (ou tabela de contingecircncia) como sendo
Onde
P(RMPM) - probabilidade de o modelo prever MAU quando o cliente eacute MAU na realidade
P(RMPB) - probabilidade de o modelo prever BOM quando o cliente eacute MAU na realidade
P(RBPM) - probabilidade de o modelo prever MAU quando o cliente eacute BOM na realidade
P(RBPB) - probabilidade de o modelo prever BOM quando o cliente eacute BOM na realidade
PREVISAtildeO
MAU BOM
REA
L MAU P(RMPM) P(RMPB) P(RM)
BOM P(RBPM) P(RBPB) P(RB)
P(PM) P(PB) 1
Modelo binaacuterio
14
Usando as matrizes L e C definidas anteriormente
Podemos constatar que o valor esperado para as perdas resulta da soma dos pesos associados a cada tipo de perda (li) multiplicados pela probabilidade de ocorrerem ou seja
PREVISAtildeO
MAU BOM
REA
L MAU l1 l2
BOM l3 l4
PREVISAtildeO
MAU BOM
REA
L MAU P(RMPM) P(RMPB)
BOM P(RBPM) P(RBPB)
443221
4321
lP(RB)P(RB)
PB)P(RB1)l(lP(RB)l
P(RM)
PM)P(RM)l(lP(RM)
PB)P(RBlPM)P(RBlPB)P(RMlPM)P(RMlCLE
Sensibilidade 1- Especificidade
Modelo binaacuterio
15
Entatildeo E[LC] pode ser escrita como uma funccedilatildeo linear da forma
E[LC] = a (1 ndash Especificidade) + b (sensibilidade) + c
onde a b e c satildeo paracircmetros dependentes das entradas da matriz L e da proporccedilatildeo de clientes da classe MAU na amostra
A performance de um modelo pode entatildeo ser analisada num espaccedilo a duas dimensotildees
Para efetuar esta anaacutelise usaremos curvas ROC (Receiver Operating Characteristic)
Modelo binaacuterio
16
Ponto oacutetimo P = 90 P = 100 P = 0
Abaixo eacute apresentado um exemplo de curvas ROC para diferentes classificadores
A
Cada ponto da curva representa uma probabilidade a partir da qual classificamos o cliente como MAU Pontos no canto superior direito correspondem a probabilidades reduzidas e no canto inferior esquerdo correspondem a probabilidades elevadas
Modelo binaacuterio
17
Os resultados obtidos foram os seguintes Pesos iguais Pesos diferenciados atendendo aos conceitos do negoacutecio
Modelo binaacuterio
A
B
18
Sumaacuterio
Recolha de dados
Maximizaccedilatildeo do lucro
Modelo binaacuterio
Modelo ternaacuterio
Discussatildeo
Bibliografia
Agenda
19
Os modelos binaacuterios natildeo descriminam de forma satisfatoacuteria os clientes Para melhorar os resultados permitir-se-aacute uma terceira classe a REVISAtildeO Esta classe implica que as transaccedilotildees necessitaratildeo de anaacutelise manual com eventual recolha de dados adicionais
O nuacutemero de clientes nesta classe deve ser reduzido atendendo aos custos e tempo que tal processo exige
Em analogia ao que foi efetuado para o modelo binaacuterio pode-se entatildeo definir a matriz de confusatildeo
Objetivos
Minimizar P3 e P4 -gt Diminuir os erros e as perdas
Minimizar P2 e P5 -gt Aumentar a decisatildeo automaacutetica
PREVISAtildeO
MAU REVISAO BOM
REA
L MAU P1 P2 P3
BOM P4 P5 P6
Modelo ternaacuterio
20
Os resultados obtidos foram os seguintes
Maior equiliacutebrio entre Sensibilidade e Especificidade
Previsotildees mais assertivas
15 das transaccedilotildees satildeo decididas manualmente
Modelo ternaacuterio
P3P6 P3+P4
P1+P3 +P4+P6
PREVISAtildeO
MAU REVISAO BOM
REA
L MAU P1 P2 P3
BOM P4 P5 P6
21
Sumaacuterio
Recolha de dados
Maximizaccedilatildeo do lucro
Modelo binaacuterio
Modelo ternaacuterio
Discussatildeo
Bibliografia
Agenda
22
Com o objetivo de criar um modelo para decidir autorizar ou natildeo o deacutebito de transaccedilotildees em contas com saldo insuficiente foram desenvolvidos dois tipos de modelos binaacuterios e ternaacuterios
Os resultados apresentados com modelos de classificaccedilatildeo binaacuterios revelam que apesar do estudo intensivo efetuado nenhum dos modelos discriminou de forma satisfatoacuteria
Com pesos bastante assimeacutetricos para os dois tipos de erro a decisatildeo foca-se na mitigaccedilatildeo de erro associado agraves perdas mais elevadas
Com pesos iguais a decisatildeo foca-se apenas na previsatildeo da classe dominante
Para melhorar estes resultados construiacuteram-se modelos de classificaccedilatildeo ternaacuterios que possibilitavam a existecircncia da classe REVISAtildeO entre as classes BOM e MAU
O modelo final obtido permitia uma automatizaccedilatildeo de 87 com uma taxa de erro de 8
A incorporaccedilatildeo futura dos criteacuterios usados na revisatildeo manual poderaacute melhorar os resultados
Discussatildeo
23
Sumaacuterio
Recolha de dados
Maximizaccedilatildeo do lucro
Modelo binaacuterio
Modelo ternaacuterio
Discussatildeo
Bibliografia
Agenda
24
[1] Maria R SOUSA amp Joaquim P Costa A Tripartite Scorecard for the PayNo pay Decision-Making in the Retail Banking Industry Applications of Data Mining in E-Business and Finance C Soares et al (Eds) IOS Press 2008 doi103233978-1-58603-890-8-45
[2] Lyn C Thomas David B Edelman and Jonathan N Crook Credit Scoring and its applications SIAM 2002
[3] Roger M Stein The relationship between default prediction and lending profits Integrating roc analysis and loan pricing Journal of Banking amp Finance 291213ndash1236 2005
[4] J R Quinlan Induction of decision trees Machine Learning 1(1)81ndash106 1986
[5] BD Ripley Pattern Recognition and Neural Networks Cambridge University Press 1996
[6] C M Bishop Neural Networks for Pattern Recognition Oxford University Press 1995
[7] K B Schebesch and R Stecking Support vector machines for classifying and describing credit applicants detecting typical and critical regions Journal of the Operational Research Society 561082ndash1088 2005
[8] David J Hand So Young Sohn and Yoonseong Kim Optimal bipartite scorecards Expert Systems with Applications 29684ndash690 2005
Bibliografia
25
Questotildees
12
Seratildeo abordadas duas estrateacutegias
Os dois tipos de erros tecircm o mesmo peso na decisatildeo e incorporar os conceitos do negoacutecio numa decisatildeo baseada na probabilidade agrave posteriori de cada classe
Vantagem faacutecil adaptaccedilatildeo do modelo a variaccedilotildees dos conceitos do negoacutecio
Desvantagem se os conceitos do negoacutecio conduzirem a tipos de erros muito assimeacutetricos poderaacute diminuir a performance do modelo inicial
Considerar diferentes pesos para os diferentes erros incorporando assim os conceitos do negoacutecio no modelo em si
Vantagem modelo mais adaptado aos conceitos do negoacutecio
Desvantagem variaccedilotildees nos conceito de negoacutecio implicam revisatildeo do modelo
A
B
PREVISAtildeO
MAU BOM
REA
L MAU 0 1
BOM 1 0
PREVISAtildeO
MAU BOM
REA
L MAU 0 49
BOM 1 0
Modelo binaacuterio
13
Dado que seratildeo usadas duas estrateacutegias e que iratildeo ser usados trecircs tipos de modelos regressatildeo logiacutestica aacutervores de classificaccedilatildeo e redes neuronais seraacute necessaacuterio analisar o poder discriminativo de cada modelo e comparar resultados Para tal define-se a matriz de confusatildeo C (ou tabela de contingecircncia) como sendo
Onde
P(RMPM) - probabilidade de o modelo prever MAU quando o cliente eacute MAU na realidade
P(RMPB) - probabilidade de o modelo prever BOM quando o cliente eacute MAU na realidade
P(RBPM) - probabilidade de o modelo prever MAU quando o cliente eacute BOM na realidade
P(RBPB) - probabilidade de o modelo prever BOM quando o cliente eacute BOM na realidade
PREVISAtildeO
MAU BOM
REA
L MAU P(RMPM) P(RMPB) P(RM)
BOM P(RBPM) P(RBPB) P(RB)
P(PM) P(PB) 1
Modelo binaacuterio
14
Usando as matrizes L e C definidas anteriormente
Podemos constatar que o valor esperado para as perdas resulta da soma dos pesos associados a cada tipo de perda (li) multiplicados pela probabilidade de ocorrerem ou seja
PREVISAtildeO
MAU BOM
REA
L MAU l1 l2
BOM l3 l4
PREVISAtildeO
MAU BOM
REA
L MAU P(RMPM) P(RMPB)
BOM P(RBPM) P(RBPB)
443221
4321
lP(RB)P(RB)
PB)P(RB1)l(lP(RB)l
P(RM)
PM)P(RM)l(lP(RM)
PB)P(RBlPM)P(RBlPB)P(RMlPM)P(RMlCLE
Sensibilidade 1- Especificidade
Modelo binaacuterio
15
Entatildeo E[LC] pode ser escrita como uma funccedilatildeo linear da forma
E[LC] = a (1 ndash Especificidade) + b (sensibilidade) + c
onde a b e c satildeo paracircmetros dependentes das entradas da matriz L e da proporccedilatildeo de clientes da classe MAU na amostra
A performance de um modelo pode entatildeo ser analisada num espaccedilo a duas dimensotildees
Para efetuar esta anaacutelise usaremos curvas ROC (Receiver Operating Characteristic)
Modelo binaacuterio
16
Ponto oacutetimo P = 90 P = 100 P = 0
Abaixo eacute apresentado um exemplo de curvas ROC para diferentes classificadores
A
Cada ponto da curva representa uma probabilidade a partir da qual classificamos o cliente como MAU Pontos no canto superior direito correspondem a probabilidades reduzidas e no canto inferior esquerdo correspondem a probabilidades elevadas
Modelo binaacuterio
17
Os resultados obtidos foram os seguintes Pesos iguais Pesos diferenciados atendendo aos conceitos do negoacutecio
Modelo binaacuterio
A
B
18
Sumaacuterio
Recolha de dados
Maximizaccedilatildeo do lucro
Modelo binaacuterio
Modelo ternaacuterio
Discussatildeo
Bibliografia
Agenda
19
Os modelos binaacuterios natildeo descriminam de forma satisfatoacuteria os clientes Para melhorar os resultados permitir-se-aacute uma terceira classe a REVISAtildeO Esta classe implica que as transaccedilotildees necessitaratildeo de anaacutelise manual com eventual recolha de dados adicionais
O nuacutemero de clientes nesta classe deve ser reduzido atendendo aos custos e tempo que tal processo exige
Em analogia ao que foi efetuado para o modelo binaacuterio pode-se entatildeo definir a matriz de confusatildeo
Objetivos
Minimizar P3 e P4 -gt Diminuir os erros e as perdas
Minimizar P2 e P5 -gt Aumentar a decisatildeo automaacutetica
PREVISAtildeO
MAU REVISAO BOM
REA
L MAU P1 P2 P3
BOM P4 P5 P6
Modelo ternaacuterio
20
Os resultados obtidos foram os seguintes
Maior equiliacutebrio entre Sensibilidade e Especificidade
Previsotildees mais assertivas
15 das transaccedilotildees satildeo decididas manualmente
Modelo ternaacuterio
P3P6 P3+P4
P1+P3 +P4+P6
PREVISAtildeO
MAU REVISAO BOM
REA
L MAU P1 P2 P3
BOM P4 P5 P6
21
Sumaacuterio
Recolha de dados
Maximizaccedilatildeo do lucro
Modelo binaacuterio
Modelo ternaacuterio
Discussatildeo
Bibliografia
Agenda
22
Com o objetivo de criar um modelo para decidir autorizar ou natildeo o deacutebito de transaccedilotildees em contas com saldo insuficiente foram desenvolvidos dois tipos de modelos binaacuterios e ternaacuterios
Os resultados apresentados com modelos de classificaccedilatildeo binaacuterios revelam que apesar do estudo intensivo efetuado nenhum dos modelos discriminou de forma satisfatoacuteria
Com pesos bastante assimeacutetricos para os dois tipos de erro a decisatildeo foca-se na mitigaccedilatildeo de erro associado agraves perdas mais elevadas
Com pesos iguais a decisatildeo foca-se apenas na previsatildeo da classe dominante
Para melhorar estes resultados construiacuteram-se modelos de classificaccedilatildeo ternaacuterios que possibilitavam a existecircncia da classe REVISAtildeO entre as classes BOM e MAU
O modelo final obtido permitia uma automatizaccedilatildeo de 87 com uma taxa de erro de 8
A incorporaccedilatildeo futura dos criteacuterios usados na revisatildeo manual poderaacute melhorar os resultados
Discussatildeo
23
Sumaacuterio
Recolha de dados
Maximizaccedilatildeo do lucro
Modelo binaacuterio
Modelo ternaacuterio
Discussatildeo
Bibliografia
Agenda
24
[1] Maria R SOUSA amp Joaquim P Costa A Tripartite Scorecard for the PayNo pay Decision-Making in the Retail Banking Industry Applications of Data Mining in E-Business and Finance C Soares et al (Eds) IOS Press 2008 doi103233978-1-58603-890-8-45
[2] Lyn C Thomas David B Edelman and Jonathan N Crook Credit Scoring and its applications SIAM 2002
[3] Roger M Stein The relationship between default prediction and lending profits Integrating roc analysis and loan pricing Journal of Banking amp Finance 291213ndash1236 2005
[4] J R Quinlan Induction of decision trees Machine Learning 1(1)81ndash106 1986
[5] BD Ripley Pattern Recognition and Neural Networks Cambridge University Press 1996
[6] C M Bishop Neural Networks for Pattern Recognition Oxford University Press 1995
[7] K B Schebesch and R Stecking Support vector machines for classifying and describing credit applicants detecting typical and critical regions Journal of the Operational Research Society 561082ndash1088 2005
[8] David J Hand So Young Sohn and Yoonseong Kim Optimal bipartite scorecards Expert Systems with Applications 29684ndash690 2005
Bibliografia
25
Questotildees
13
Dado que seratildeo usadas duas estrateacutegias e que iratildeo ser usados trecircs tipos de modelos regressatildeo logiacutestica aacutervores de classificaccedilatildeo e redes neuronais seraacute necessaacuterio analisar o poder discriminativo de cada modelo e comparar resultados Para tal define-se a matriz de confusatildeo C (ou tabela de contingecircncia) como sendo
Onde
P(RMPM) - probabilidade de o modelo prever MAU quando o cliente eacute MAU na realidade
P(RMPB) - probabilidade de o modelo prever BOM quando o cliente eacute MAU na realidade
P(RBPM) - probabilidade de o modelo prever MAU quando o cliente eacute BOM na realidade
P(RBPB) - probabilidade de o modelo prever BOM quando o cliente eacute BOM na realidade
PREVISAtildeO
MAU BOM
REA
L MAU P(RMPM) P(RMPB) P(RM)
BOM P(RBPM) P(RBPB) P(RB)
P(PM) P(PB) 1
Modelo binaacuterio
14
Usando as matrizes L e C definidas anteriormente
Podemos constatar que o valor esperado para as perdas resulta da soma dos pesos associados a cada tipo de perda (li) multiplicados pela probabilidade de ocorrerem ou seja
PREVISAtildeO
MAU BOM
REA
L MAU l1 l2
BOM l3 l4
PREVISAtildeO
MAU BOM
REA
L MAU P(RMPM) P(RMPB)
BOM P(RBPM) P(RBPB)
443221
4321
lP(RB)P(RB)
PB)P(RB1)l(lP(RB)l
P(RM)
PM)P(RM)l(lP(RM)
PB)P(RBlPM)P(RBlPB)P(RMlPM)P(RMlCLE
Sensibilidade 1- Especificidade
Modelo binaacuterio
15
Entatildeo E[LC] pode ser escrita como uma funccedilatildeo linear da forma
E[LC] = a (1 ndash Especificidade) + b (sensibilidade) + c
onde a b e c satildeo paracircmetros dependentes das entradas da matriz L e da proporccedilatildeo de clientes da classe MAU na amostra
A performance de um modelo pode entatildeo ser analisada num espaccedilo a duas dimensotildees
Para efetuar esta anaacutelise usaremos curvas ROC (Receiver Operating Characteristic)
Modelo binaacuterio
16
Ponto oacutetimo P = 90 P = 100 P = 0
Abaixo eacute apresentado um exemplo de curvas ROC para diferentes classificadores
A
Cada ponto da curva representa uma probabilidade a partir da qual classificamos o cliente como MAU Pontos no canto superior direito correspondem a probabilidades reduzidas e no canto inferior esquerdo correspondem a probabilidades elevadas
Modelo binaacuterio
17
Os resultados obtidos foram os seguintes Pesos iguais Pesos diferenciados atendendo aos conceitos do negoacutecio
Modelo binaacuterio
A
B
18
Sumaacuterio
Recolha de dados
Maximizaccedilatildeo do lucro
Modelo binaacuterio
Modelo ternaacuterio
Discussatildeo
Bibliografia
Agenda
19
Os modelos binaacuterios natildeo descriminam de forma satisfatoacuteria os clientes Para melhorar os resultados permitir-se-aacute uma terceira classe a REVISAtildeO Esta classe implica que as transaccedilotildees necessitaratildeo de anaacutelise manual com eventual recolha de dados adicionais
O nuacutemero de clientes nesta classe deve ser reduzido atendendo aos custos e tempo que tal processo exige
Em analogia ao que foi efetuado para o modelo binaacuterio pode-se entatildeo definir a matriz de confusatildeo
Objetivos
Minimizar P3 e P4 -gt Diminuir os erros e as perdas
Minimizar P2 e P5 -gt Aumentar a decisatildeo automaacutetica
PREVISAtildeO
MAU REVISAO BOM
REA
L MAU P1 P2 P3
BOM P4 P5 P6
Modelo ternaacuterio
20
Os resultados obtidos foram os seguintes
Maior equiliacutebrio entre Sensibilidade e Especificidade
Previsotildees mais assertivas
15 das transaccedilotildees satildeo decididas manualmente
Modelo ternaacuterio
P3P6 P3+P4
P1+P3 +P4+P6
PREVISAtildeO
MAU REVISAO BOM
REA
L MAU P1 P2 P3
BOM P4 P5 P6
21
Sumaacuterio
Recolha de dados
Maximizaccedilatildeo do lucro
Modelo binaacuterio
Modelo ternaacuterio
Discussatildeo
Bibliografia
Agenda
22
Com o objetivo de criar um modelo para decidir autorizar ou natildeo o deacutebito de transaccedilotildees em contas com saldo insuficiente foram desenvolvidos dois tipos de modelos binaacuterios e ternaacuterios
Os resultados apresentados com modelos de classificaccedilatildeo binaacuterios revelam que apesar do estudo intensivo efetuado nenhum dos modelos discriminou de forma satisfatoacuteria
Com pesos bastante assimeacutetricos para os dois tipos de erro a decisatildeo foca-se na mitigaccedilatildeo de erro associado agraves perdas mais elevadas
Com pesos iguais a decisatildeo foca-se apenas na previsatildeo da classe dominante
Para melhorar estes resultados construiacuteram-se modelos de classificaccedilatildeo ternaacuterios que possibilitavam a existecircncia da classe REVISAtildeO entre as classes BOM e MAU
O modelo final obtido permitia uma automatizaccedilatildeo de 87 com uma taxa de erro de 8
A incorporaccedilatildeo futura dos criteacuterios usados na revisatildeo manual poderaacute melhorar os resultados
Discussatildeo
23
Sumaacuterio
Recolha de dados
Maximizaccedilatildeo do lucro
Modelo binaacuterio
Modelo ternaacuterio
Discussatildeo
Bibliografia
Agenda
24
[1] Maria R SOUSA amp Joaquim P Costa A Tripartite Scorecard for the PayNo pay Decision-Making in the Retail Banking Industry Applications of Data Mining in E-Business and Finance C Soares et al (Eds) IOS Press 2008 doi103233978-1-58603-890-8-45
[2] Lyn C Thomas David B Edelman and Jonathan N Crook Credit Scoring and its applications SIAM 2002
[3] Roger M Stein The relationship between default prediction and lending profits Integrating roc analysis and loan pricing Journal of Banking amp Finance 291213ndash1236 2005
[4] J R Quinlan Induction of decision trees Machine Learning 1(1)81ndash106 1986
[5] BD Ripley Pattern Recognition and Neural Networks Cambridge University Press 1996
[6] C M Bishop Neural Networks for Pattern Recognition Oxford University Press 1995
[7] K B Schebesch and R Stecking Support vector machines for classifying and describing credit applicants detecting typical and critical regions Journal of the Operational Research Society 561082ndash1088 2005
[8] David J Hand So Young Sohn and Yoonseong Kim Optimal bipartite scorecards Expert Systems with Applications 29684ndash690 2005
Bibliografia
25
Questotildees
14
Usando as matrizes L e C definidas anteriormente
Podemos constatar que o valor esperado para as perdas resulta da soma dos pesos associados a cada tipo de perda (li) multiplicados pela probabilidade de ocorrerem ou seja
PREVISAtildeO
MAU BOM
REA
L MAU l1 l2
BOM l3 l4
PREVISAtildeO
MAU BOM
REA
L MAU P(RMPM) P(RMPB)
BOM P(RBPM) P(RBPB)
443221
4321
lP(RB)P(RB)
PB)P(RB1)l(lP(RB)l
P(RM)
PM)P(RM)l(lP(RM)
PB)P(RBlPM)P(RBlPB)P(RMlPM)P(RMlCLE
Sensibilidade 1- Especificidade
Modelo binaacuterio
15
Entatildeo E[LC] pode ser escrita como uma funccedilatildeo linear da forma
E[LC] = a (1 ndash Especificidade) + b (sensibilidade) + c
onde a b e c satildeo paracircmetros dependentes das entradas da matriz L e da proporccedilatildeo de clientes da classe MAU na amostra
A performance de um modelo pode entatildeo ser analisada num espaccedilo a duas dimensotildees
Para efetuar esta anaacutelise usaremos curvas ROC (Receiver Operating Characteristic)
Modelo binaacuterio
16
Ponto oacutetimo P = 90 P = 100 P = 0
Abaixo eacute apresentado um exemplo de curvas ROC para diferentes classificadores
A
Cada ponto da curva representa uma probabilidade a partir da qual classificamos o cliente como MAU Pontos no canto superior direito correspondem a probabilidades reduzidas e no canto inferior esquerdo correspondem a probabilidades elevadas
Modelo binaacuterio
17
Os resultados obtidos foram os seguintes Pesos iguais Pesos diferenciados atendendo aos conceitos do negoacutecio
Modelo binaacuterio
A
B
18
Sumaacuterio
Recolha de dados
Maximizaccedilatildeo do lucro
Modelo binaacuterio
Modelo ternaacuterio
Discussatildeo
Bibliografia
Agenda
19
Os modelos binaacuterios natildeo descriminam de forma satisfatoacuteria os clientes Para melhorar os resultados permitir-se-aacute uma terceira classe a REVISAtildeO Esta classe implica que as transaccedilotildees necessitaratildeo de anaacutelise manual com eventual recolha de dados adicionais
O nuacutemero de clientes nesta classe deve ser reduzido atendendo aos custos e tempo que tal processo exige
Em analogia ao que foi efetuado para o modelo binaacuterio pode-se entatildeo definir a matriz de confusatildeo
Objetivos
Minimizar P3 e P4 -gt Diminuir os erros e as perdas
Minimizar P2 e P5 -gt Aumentar a decisatildeo automaacutetica
PREVISAtildeO
MAU REVISAO BOM
REA
L MAU P1 P2 P3
BOM P4 P5 P6
Modelo ternaacuterio
20
Os resultados obtidos foram os seguintes
Maior equiliacutebrio entre Sensibilidade e Especificidade
Previsotildees mais assertivas
15 das transaccedilotildees satildeo decididas manualmente
Modelo ternaacuterio
P3P6 P3+P4
P1+P3 +P4+P6
PREVISAtildeO
MAU REVISAO BOM
REA
L MAU P1 P2 P3
BOM P4 P5 P6
21
Sumaacuterio
Recolha de dados
Maximizaccedilatildeo do lucro
Modelo binaacuterio
Modelo ternaacuterio
Discussatildeo
Bibliografia
Agenda
22
Com o objetivo de criar um modelo para decidir autorizar ou natildeo o deacutebito de transaccedilotildees em contas com saldo insuficiente foram desenvolvidos dois tipos de modelos binaacuterios e ternaacuterios
Os resultados apresentados com modelos de classificaccedilatildeo binaacuterios revelam que apesar do estudo intensivo efetuado nenhum dos modelos discriminou de forma satisfatoacuteria
Com pesos bastante assimeacutetricos para os dois tipos de erro a decisatildeo foca-se na mitigaccedilatildeo de erro associado agraves perdas mais elevadas
Com pesos iguais a decisatildeo foca-se apenas na previsatildeo da classe dominante
Para melhorar estes resultados construiacuteram-se modelos de classificaccedilatildeo ternaacuterios que possibilitavam a existecircncia da classe REVISAtildeO entre as classes BOM e MAU
O modelo final obtido permitia uma automatizaccedilatildeo de 87 com uma taxa de erro de 8
A incorporaccedilatildeo futura dos criteacuterios usados na revisatildeo manual poderaacute melhorar os resultados
Discussatildeo
23
Sumaacuterio
Recolha de dados
Maximizaccedilatildeo do lucro
Modelo binaacuterio
Modelo ternaacuterio
Discussatildeo
Bibliografia
Agenda
24
[1] Maria R SOUSA amp Joaquim P Costa A Tripartite Scorecard for the PayNo pay Decision-Making in the Retail Banking Industry Applications of Data Mining in E-Business and Finance C Soares et al (Eds) IOS Press 2008 doi103233978-1-58603-890-8-45
[2] Lyn C Thomas David B Edelman and Jonathan N Crook Credit Scoring and its applications SIAM 2002
[3] Roger M Stein The relationship between default prediction and lending profits Integrating roc analysis and loan pricing Journal of Banking amp Finance 291213ndash1236 2005
[4] J R Quinlan Induction of decision trees Machine Learning 1(1)81ndash106 1986
[5] BD Ripley Pattern Recognition and Neural Networks Cambridge University Press 1996
[6] C M Bishop Neural Networks for Pattern Recognition Oxford University Press 1995
[7] K B Schebesch and R Stecking Support vector machines for classifying and describing credit applicants detecting typical and critical regions Journal of the Operational Research Society 561082ndash1088 2005
[8] David J Hand So Young Sohn and Yoonseong Kim Optimal bipartite scorecards Expert Systems with Applications 29684ndash690 2005
Bibliografia
25
Questotildees
15
Entatildeo E[LC] pode ser escrita como uma funccedilatildeo linear da forma
E[LC] = a (1 ndash Especificidade) + b (sensibilidade) + c
onde a b e c satildeo paracircmetros dependentes das entradas da matriz L e da proporccedilatildeo de clientes da classe MAU na amostra
A performance de um modelo pode entatildeo ser analisada num espaccedilo a duas dimensotildees
Para efetuar esta anaacutelise usaremos curvas ROC (Receiver Operating Characteristic)
Modelo binaacuterio
16
Ponto oacutetimo P = 90 P = 100 P = 0
Abaixo eacute apresentado um exemplo de curvas ROC para diferentes classificadores
A
Cada ponto da curva representa uma probabilidade a partir da qual classificamos o cliente como MAU Pontos no canto superior direito correspondem a probabilidades reduzidas e no canto inferior esquerdo correspondem a probabilidades elevadas
Modelo binaacuterio
17
Os resultados obtidos foram os seguintes Pesos iguais Pesos diferenciados atendendo aos conceitos do negoacutecio
Modelo binaacuterio
A
B
18
Sumaacuterio
Recolha de dados
Maximizaccedilatildeo do lucro
Modelo binaacuterio
Modelo ternaacuterio
Discussatildeo
Bibliografia
Agenda
19
Os modelos binaacuterios natildeo descriminam de forma satisfatoacuteria os clientes Para melhorar os resultados permitir-se-aacute uma terceira classe a REVISAtildeO Esta classe implica que as transaccedilotildees necessitaratildeo de anaacutelise manual com eventual recolha de dados adicionais
O nuacutemero de clientes nesta classe deve ser reduzido atendendo aos custos e tempo que tal processo exige
Em analogia ao que foi efetuado para o modelo binaacuterio pode-se entatildeo definir a matriz de confusatildeo
Objetivos
Minimizar P3 e P4 -gt Diminuir os erros e as perdas
Minimizar P2 e P5 -gt Aumentar a decisatildeo automaacutetica
PREVISAtildeO
MAU REVISAO BOM
REA
L MAU P1 P2 P3
BOM P4 P5 P6
Modelo ternaacuterio
20
Os resultados obtidos foram os seguintes
Maior equiliacutebrio entre Sensibilidade e Especificidade
Previsotildees mais assertivas
15 das transaccedilotildees satildeo decididas manualmente
Modelo ternaacuterio
P3P6 P3+P4
P1+P3 +P4+P6
PREVISAtildeO
MAU REVISAO BOM
REA
L MAU P1 P2 P3
BOM P4 P5 P6
21
Sumaacuterio
Recolha de dados
Maximizaccedilatildeo do lucro
Modelo binaacuterio
Modelo ternaacuterio
Discussatildeo
Bibliografia
Agenda
22
Com o objetivo de criar um modelo para decidir autorizar ou natildeo o deacutebito de transaccedilotildees em contas com saldo insuficiente foram desenvolvidos dois tipos de modelos binaacuterios e ternaacuterios
Os resultados apresentados com modelos de classificaccedilatildeo binaacuterios revelam que apesar do estudo intensivo efetuado nenhum dos modelos discriminou de forma satisfatoacuteria
Com pesos bastante assimeacutetricos para os dois tipos de erro a decisatildeo foca-se na mitigaccedilatildeo de erro associado agraves perdas mais elevadas
Com pesos iguais a decisatildeo foca-se apenas na previsatildeo da classe dominante
Para melhorar estes resultados construiacuteram-se modelos de classificaccedilatildeo ternaacuterios que possibilitavam a existecircncia da classe REVISAtildeO entre as classes BOM e MAU
O modelo final obtido permitia uma automatizaccedilatildeo de 87 com uma taxa de erro de 8
A incorporaccedilatildeo futura dos criteacuterios usados na revisatildeo manual poderaacute melhorar os resultados
Discussatildeo
23
Sumaacuterio
Recolha de dados
Maximizaccedilatildeo do lucro
Modelo binaacuterio
Modelo ternaacuterio
Discussatildeo
Bibliografia
Agenda
24
[1] Maria R SOUSA amp Joaquim P Costa A Tripartite Scorecard for the PayNo pay Decision-Making in the Retail Banking Industry Applications of Data Mining in E-Business and Finance C Soares et al (Eds) IOS Press 2008 doi103233978-1-58603-890-8-45
[2] Lyn C Thomas David B Edelman and Jonathan N Crook Credit Scoring and its applications SIAM 2002
[3] Roger M Stein The relationship between default prediction and lending profits Integrating roc analysis and loan pricing Journal of Banking amp Finance 291213ndash1236 2005
[4] J R Quinlan Induction of decision trees Machine Learning 1(1)81ndash106 1986
[5] BD Ripley Pattern Recognition and Neural Networks Cambridge University Press 1996
[6] C M Bishop Neural Networks for Pattern Recognition Oxford University Press 1995
[7] K B Schebesch and R Stecking Support vector machines for classifying and describing credit applicants detecting typical and critical regions Journal of the Operational Research Society 561082ndash1088 2005
[8] David J Hand So Young Sohn and Yoonseong Kim Optimal bipartite scorecards Expert Systems with Applications 29684ndash690 2005
Bibliografia
25
Questotildees
16
Ponto oacutetimo P = 90 P = 100 P = 0
Abaixo eacute apresentado um exemplo de curvas ROC para diferentes classificadores
A
Cada ponto da curva representa uma probabilidade a partir da qual classificamos o cliente como MAU Pontos no canto superior direito correspondem a probabilidades reduzidas e no canto inferior esquerdo correspondem a probabilidades elevadas
Modelo binaacuterio
17
Os resultados obtidos foram os seguintes Pesos iguais Pesos diferenciados atendendo aos conceitos do negoacutecio
Modelo binaacuterio
A
B
18
Sumaacuterio
Recolha de dados
Maximizaccedilatildeo do lucro
Modelo binaacuterio
Modelo ternaacuterio
Discussatildeo
Bibliografia
Agenda
19
Os modelos binaacuterios natildeo descriminam de forma satisfatoacuteria os clientes Para melhorar os resultados permitir-se-aacute uma terceira classe a REVISAtildeO Esta classe implica que as transaccedilotildees necessitaratildeo de anaacutelise manual com eventual recolha de dados adicionais
O nuacutemero de clientes nesta classe deve ser reduzido atendendo aos custos e tempo que tal processo exige
Em analogia ao que foi efetuado para o modelo binaacuterio pode-se entatildeo definir a matriz de confusatildeo
Objetivos
Minimizar P3 e P4 -gt Diminuir os erros e as perdas
Minimizar P2 e P5 -gt Aumentar a decisatildeo automaacutetica
PREVISAtildeO
MAU REVISAO BOM
REA
L MAU P1 P2 P3
BOM P4 P5 P6
Modelo ternaacuterio
20
Os resultados obtidos foram os seguintes
Maior equiliacutebrio entre Sensibilidade e Especificidade
Previsotildees mais assertivas
15 das transaccedilotildees satildeo decididas manualmente
Modelo ternaacuterio
P3P6 P3+P4
P1+P3 +P4+P6
PREVISAtildeO
MAU REVISAO BOM
REA
L MAU P1 P2 P3
BOM P4 P5 P6
21
Sumaacuterio
Recolha de dados
Maximizaccedilatildeo do lucro
Modelo binaacuterio
Modelo ternaacuterio
Discussatildeo
Bibliografia
Agenda
22
Com o objetivo de criar um modelo para decidir autorizar ou natildeo o deacutebito de transaccedilotildees em contas com saldo insuficiente foram desenvolvidos dois tipos de modelos binaacuterios e ternaacuterios
Os resultados apresentados com modelos de classificaccedilatildeo binaacuterios revelam que apesar do estudo intensivo efetuado nenhum dos modelos discriminou de forma satisfatoacuteria
Com pesos bastante assimeacutetricos para os dois tipos de erro a decisatildeo foca-se na mitigaccedilatildeo de erro associado agraves perdas mais elevadas
Com pesos iguais a decisatildeo foca-se apenas na previsatildeo da classe dominante
Para melhorar estes resultados construiacuteram-se modelos de classificaccedilatildeo ternaacuterios que possibilitavam a existecircncia da classe REVISAtildeO entre as classes BOM e MAU
O modelo final obtido permitia uma automatizaccedilatildeo de 87 com uma taxa de erro de 8
A incorporaccedilatildeo futura dos criteacuterios usados na revisatildeo manual poderaacute melhorar os resultados
Discussatildeo
23
Sumaacuterio
Recolha de dados
Maximizaccedilatildeo do lucro
Modelo binaacuterio
Modelo ternaacuterio
Discussatildeo
Bibliografia
Agenda
24
[1] Maria R SOUSA amp Joaquim P Costa A Tripartite Scorecard for the PayNo pay Decision-Making in the Retail Banking Industry Applications of Data Mining in E-Business and Finance C Soares et al (Eds) IOS Press 2008 doi103233978-1-58603-890-8-45
[2] Lyn C Thomas David B Edelman and Jonathan N Crook Credit Scoring and its applications SIAM 2002
[3] Roger M Stein The relationship between default prediction and lending profits Integrating roc analysis and loan pricing Journal of Banking amp Finance 291213ndash1236 2005
[4] J R Quinlan Induction of decision trees Machine Learning 1(1)81ndash106 1986
[5] BD Ripley Pattern Recognition and Neural Networks Cambridge University Press 1996
[6] C M Bishop Neural Networks for Pattern Recognition Oxford University Press 1995
[7] K B Schebesch and R Stecking Support vector machines for classifying and describing credit applicants detecting typical and critical regions Journal of the Operational Research Society 561082ndash1088 2005
[8] David J Hand So Young Sohn and Yoonseong Kim Optimal bipartite scorecards Expert Systems with Applications 29684ndash690 2005
Bibliografia
25
Questotildees
17
Os resultados obtidos foram os seguintes Pesos iguais Pesos diferenciados atendendo aos conceitos do negoacutecio
Modelo binaacuterio
A
B
18
Sumaacuterio
Recolha de dados
Maximizaccedilatildeo do lucro
Modelo binaacuterio
Modelo ternaacuterio
Discussatildeo
Bibliografia
Agenda
19
Os modelos binaacuterios natildeo descriminam de forma satisfatoacuteria os clientes Para melhorar os resultados permitir-se-aacute uma terceira classe a REVISAtildeO Esta classe implica que as transaccedilotildees necessitaratildeo de anaacutelise manual com eventual recolha de dados adicionais
O nuacutemero de clientes nesta classe deve ser reduzido atendendo aos custos e tempo que tal processo exige
Em analogia ao que foi efetuado para o modelo binaacuterio pode-se entatildeo definir a matriz de confusatildeo
Objetivos
Minimizar P3 e P4 -gt Diminuir os erros e as perdas
Minimizar P2 e P5 -gt Aumentar a decisatildeo automaacutetica
PREVISAtildeO
MAU REVISAO BOM
REA
L MAU P1 P2 P3
BOM P4 P5 P6
Modelo ternaacuterio
20
Os resultados obtidos foram os seguintes
Maior equiliacutebrio entre Sensibilidade e Especificidade
Previsotildees mais assertivas
15 das transaccedilotildees satildeo decididas manualmente
Modelo ternaacuterio
P3P6 P3+P4
P1+P3 +P4+P6
PREVISAtildeO
MAU REVISAO BOM
REA
L MAU P1 P2 P3
BOM P4 P5 P6
21
Sumaacuterio
Recolha de dados
Maximizaccedilatildeo do lucro
Modelo binaacuterio
Modelo ternaacuterio
Discussatildeo
Bibliografia
Agenda
22
Com o objetivo de criar um modelo para decidir autorizar ou natildeo o deacutebito de transaccedilotildees em contas com saldo insuficiente foram desenvolvidos dois tipos de modelos binaacuterios e ternaacuterios
Os resultados apresentados com modelos de classificaccedilatildeo binaacuterios revelam que apesar do estudo intensivo efetuado nenhum dos modelos discriminou de forma satisfatoacuteria
Com pesos bastante assimeacutetricos para os dois tipos de erro a decisatildeo foca-se na mitigaccedilatildeo de erro associado agraves perdas mais elevadas
Com pesos iguais a decisatildeo foca-se apenas na previsatildeo da classe dominante
Para melhorar estes resultados construiacuteram-se modelos de classificaccedilatildeo ternaacuterios que possibilitavam a existecircncia da classe REVISAtildeO entre as classes BOM e MAU
O modelo final obtido permitia uma automatizaccedilatildeo de 87 com uma taxa de erro de 8
A incorporaccedilatildeo futura dos criteacuterios usados na revisatildeo manual poderaacute melhorar os resultados
Discussatildeo
23
Sumaacuterio
Recolha de dados
Maximizaccedilatildeo do lucro
Modelo binaacuterio
Modelo ternaacuterio
Discussatildeo
Bibliografia
Agenda
24
[1] Maria R SOUSA amp Joaquim P Costa A Tripartite Scorecard for the PayNo pay Decision-Making in the Retail Banking Industry Applications of Data Mining in E-Business and Finance C Soares et al (Eds) IOS Press 2008 doi103233978-1-58603-890-8-45
[2] Lyn C Thomas David B Edelman and Jonathan N Crook Credit Scoring and its applications SIAM 2002
[3] Roger M Stein The relationship between default prediction and lending profits Integrating roc analysis and loan pricing Journal of Banking amp Finance 291213ndash1236 2005
[4] J R Quinlan Induction of decision trees Machine Learning 1(1)81ndash106 1986
[5] BD Ripley Pattern Recognition and Neural Networks Cambridge University Press 1996
[6] C M Bishop Neural Networks for Pattern Recognition Oxford University Press 1995
[7] K B Schebesch and R Stecking Support vector machines for classifying and describing credit applicants detecting typical and critical regions Journal of the Operational Research Society 561082ndash1088 2005
[8] David J Hand So Young Sohn and Yoonseong Kim Optimal bipartite scorecards Expert Systems with Applications 29684ndash690 2005
Bibliografia
25
Questotildees
18
Sumaacuterio
Recolha de dados
Maximizaccedilatildeo do lucro
Modelo binaacuterio
Modelo ternaacuterio
Discussatildeo
Bibliografia
Agenda
19
Os modelos binaacuterios natildeo descriminam de forma satisfatoacuteria os clientes Para melhorar os resultados permitir-se-aacute uma terceira classe a REVISAtildeO Esta classe implica que as transaccedilotildees necessitaratildeo de anaacutelise manual com eventual recolha de dados adicionais
O nuacutemero de clientes nesta classe deve ser reduzido atendendo aos custos e tempo que tal processo exige
Em analogia ao que foi efetuado para o modelo binaacuterio pode-se entatildeo definir a matriz de confusatildeo
Objetivos
Minimizar P3 e P4 -gt Diminuir os erros e as perdas
Minimizar P2 e P5 -gt Aumentar a decisatildeo automaacutetica
PREVISAtildeO
MAU REVISAO BOM
REA
L MAU P1 P2 P3
BOM P4 P5 P6
Modelo ternaacuterio
20
Os resultados obtidos foram os seguintes
Maior equiliacutebrio entre Sensibilidade e Especificidade
Previsotildees mais assertivas
15 das transaccedilotildees satildeo decididas manualmente
Modelo ternaacuterio
P3P6 P3+P4
P1+P3 +P4+P6
PREVISAtildeO
MAU REVISAO BOM
REA
L MAU P1 P2 P3
BOM P4 P5 P6
21
Sumaacuterio
Recolha de dados
Maximizaccedilatildeo do lucro
Modelo binaacuterio
Modelo ternaacuterio
Discussatildeo
Bibliografia
Agenda
22
Com o objetivo de criar um modelo para decidir autorizar ou natildeo o deacutebito de transaccedilotildees em contas com saldo insuficiente foram desenvolvidos dois tipos de modelos binaacuterios e ternaacuterios
Os resultados apresentados com modelos de classificaccedilatildeo binaacuterios revelam que apesar do estudo intensivo efetuado nenhum dos modelos discriminou de forma satisfatoacuteria
Com pesos bastante assimeacutetricos para os dois tipos de erro a decisatildeo foca-se na mitigaccedilatildeo de erro associado agraves perdas mais elevadas
Com pesos iguais a decisatildeo foca-se apenas na previsatildeo da classe dominante
Para melhorar estes resultados construiacuteram-se modelos de classificaccedilatildeo ternaacuterios que possibilitavam a existecircncia da classe REVISAtildeO entre as classes BOM e MAU
O modelo final obtido permitia uma automatizaccedilatildeo de 87 com uma taxa de erro de 8
A incorporaccedilatildeo futura dos criteacuterios usados na revisatildeo manual poderaacute melhorar os resultados
Discussatildeo
23
Sumaacuterio
Recolha de dados
Maximizaccedilatildeo do lucro
Modelo binaacuterio
Modelo ternaacuterio
Discussatildeo
Bibliografia
Agenda
24
[1] Maria R SOUSA amp Joaquim P Costa A Tripartite Scorecard for the PayNo pay Decision-Making in the Retail Banking Industry Applications of Data Mining in E-Business and Finance C Soares et al (Eds) IOS Press 2008 doi103233978-1-58603-890-8-45
[2] Lyn C Thomas David B Edelman and Jonathan N Crook Credit Scoring and its applications SIAM 2002
[3] Roger M Stein The relationship between default prediction and lending profits Integrating roc analysis and loan pricing Journal of Banking amp Finance 291213ndash1236 2005
[4] J R Quinlan Induction of decision trees Machine Learning 1(1)81ndash106 1986
[5] BD Ripley Pattern Recognition and Neural Networks Cambridge University Press 1996
[6] C M Bishop Neural Networks for Pattern Recognition Oxford University Press 1995
[7] K B Schebesch and R Stecking Support vector machines for classifying and describing credit applicants detecting typical and critical regions Journal of the Operational Research Society 561082ndash1088 2005
[8] David J Hand So Young Sohn and Yoonseong Kim Optimal bipartite scorecards Expert Systems with Applications 29684ndash690 2005
Bibliografia
25
Questotildees
19
Os modelos binaacuterios natildeo descriminam de forma satisfatoacuteria os clientes Para melhorar os resultados permitir-se-aacute uma terceira classe a REVISAtildeO Esta classe implica que as transaccedilotildees necessitaratildeo de anaacutelise manual com eventual recolha de dados adicionais
O nuacutemero de clientes nesta classe deve ser reduzido atendendo aos custos e tempo que tal processo exige
Em analogia ao que foi efetuado para o modelo binaacuterio pode-se entatildeo definir a matriz de confusatildeo
Objetivos
Minimizar P3 e P4 -gt Diminuir os erros e as perdas
Minimizar P2 e P5 -gt Aumentar a decisatildeo automaacutetica
PREVISAtildeO
MAU REVISAO BOM
REA
L MAU P1 P2 P3
BOM P4 P5 P6
Modelo ternaacuterio
20
Os resultados obtidos foram os seguintes
Maior equiliacutebrio entre Sensibilidade e Especificidade
Previsotildees mais assertivas
15 das transaccedilotildees satildeo decididas manualmente
Modelo ternaacuterio
P3P6 P3+P4
P1+P3 +P4+P6
PREVISAtildeO
MAU REVISAO BOM
REA
L MAU P1 P2 P3
BOM P4 P5 P6
21
Sumaacuterio
Recolha de dados
Maximizaccedilatildeo do lucro
Modelo binaacuterio
Modelo ternaacuterio
Discussatildeo
Bibliografia
Agenda
22
Com o objetivo de criar um modelo para decidir autorizar ou natildeo o deacutebito de transaccedilotildees em contas com saldo insuficiente foram desenvolvidos dois tipos de modelos binaacuterios e ternaacuterios
Os resultados apresentados com modelos de classificaccedilatildeo binaacuterios revelam que apesar do estudo intensivo efetuado nenhum dos modelos discriminou de forma satisfatoacuteria
Com pesos bastante assimeacutetricos para os dois tipos de erro a decisatildeo foca-se na mitigaccedilatildeo de erro associado agraves perdas mais elevadas
Com pesos iguais a decisatildeo foca-se apenas na previsatildeo da classe dominante
Para melhorar estes resultados construiacuteram-se modelos de classificaccedilatildeo ternaacuterios que possibilitavam a existecircncia da classe REVISAtildeO entre as classes BOM e MAU
O modelo final obtido permitia uma automatizaccedilatildeo de 87 com uma taxa de erro de 8
A incorporaccedilatildeo futura dos criteacuterios usados na revisatildeo manual poderaacute melhorar os resultados
Discussatildeo
23
Sumaacuterio
Recolha de dados
Maximizaccedilatildeo do lucro
Modelo binaacuterio
Modelo ternaacuterio
Discussatildeo
Bibliografia
Agenda
24
[1] Maria R SOUSA amp Joaquim P Costa A Tripartite Scorecard for the PayNo pay Decision-Making in the Retail Banking Industry Applications of Data Mining in E-Business and Finance C Soares et al (Eds) IOS Press 2008 doi103233978-1-58603-890-8-45
[2] Lyn C Thomas David B Edelman and Jonathan N Crook Credit Scoring and its applications SIAM 2002
[3] Roger M Stein The relationship between default prediction and lending profits Integrating roc analysis and loan pricing Journal of Banking amp Finance 291213ndash1236 2005
[4] J R Quinlan Induction of decision trees Machine Learning 1(1)81ndash106 1986
[5] BD Ripley Pattern Recognition and Neural Networks Cambridge University Press 1996
[6] C M Bishop Neural Networks for Pattern Recognition Oxford University Press 1995
[7] K B Schebesch and R Stecking Support vector machines for classifying and describing credit applicants detecting typical and critical regions Journal of the Operational Research Society 561082ndash1088 2005
[8] David J Hand So Young Sohn and Yoonseong Kim Optimal bipartite scorecards Expert Systems with Applications 29684ndash690 2005
Bibliografia
25
Questotildees
20
Os resultados obtidos foram os seguintes
Maior equiliacutebrio entre Sensibilidade e Especificidade
Previsotildees mais assertivas
15 das transaccedilotildees satildeo decididas manualmente
Modelo ternaacuterio
P3P6 P3+P4
P1+P3 +P4+P6
PREVISAtildeO
MAU REVISAO BOM
REA
L MAU P1 P2 P3
BOM P4 P5 P6
21
Sumaacuterio
Recolha de dados
Maximizaccedilatildeo do lucro
Modelo binaacuterio
Modelo ternaacuterio
Discussatildeo
Bibliografia
Agenda
22
Com o objetivo de criar um modelo para decidir autorizar ou natildeo o deacutebito de transaccedilotildees em contas com saldo insuficiente foram desenvolvidos dois tipos de modelos binaacuterios e ternaacuterios
Os resultados apresentados com modelos de classificaccedilatildeo binaacuterios revelam que apesar do estudo intensivo efetuado nenhum dos modelos discriminou de forma satisfatoacuteria
Com pesos bastante assimeacutetricos para os dois tipos de erro a decisatildeo foca-se na mitigaccedilatildeo de erro associado agraves perdas mais elevadas
Com pesos iguais a decisatildeo foca-se apenas na previsatildeo da classe dominante
Para melhorar estes resultados construiacuteram-se modelos de classificaccedilatildeo ternaacuterios que possibilitavam a existecircncia da classe REVISAtildeO entre as classes BOM e MAU
O modelo final obtido permitia uma automatizaccedilatildeo de 87 com uma taxa de erro de 8
A incorporaccedilatildeo futura dos criteacuterios usados na revisatildeo manual poderaacute melhorar os resultados
Discussatildeo
23
Sumaacuterio
Recolha de dados
Maximizaccedilatildeo do lucro
Modelo binaacuterio
Modelo ternaacuterio
Discussatildeo
Bibliografia
Agenda
24
[1] Maria R SOUSA amp Joaquim P Costa A Tripartite Scorecard for the PayNo pay Decision-Making in the Retail Banking Industry Applications of Data Mining in E-Business and Finance C Soares et al (Eds) IOS Press 2008 doi103233978-1-58603-890-8-45
[2] Lyn C Thomas David B Edelman and Jonathan N Crook Credit Scoring and its applications SIAM 2002
[3] Roger M Stein The relationship between default prediction and lending profits Integrating roc analysis and loan pricing Journal of Banking amp Finance 291213ndash1236 2005
[4] J R Quinlan Induction of decision trees Machine Learning 1(1)81ndash106 1986
[5] BD Ripley Pattern Recognition and Neural Networks Cambridge University Press 1996
[6] C M Bishop Neural Networks for Pattern Recognition Oxford University Press 1995
[7] K B Schebesch and R Stecking Support vector machines for classifying and describing credit applicants detecting typical and critical regions Journal of the Operational Research Society 561082ndash1088 2005
[8] David J Hand So Young Sohn and Yoonseong Kim Optimal bipartite scorecards Expert Systems with Applications 29684ndash690 2005
Bibliografia
25
Questotildees
21
Sumaacuterio
Recolha de dados
Maximizaccedilatildeo do lucro
Modelo binaacuterio
Modelo ternaacuterio
Discussatildeo
Bibliografia
Agenda
22
Com o objetivo de criar um modelo para decidir autorizar ou natildeo o deacutebito de transaccedilotildees em contas com saldo insuficiente foram desenvolvidos dois tipos de modelos binaacuterios e ternaacuterios
Os resultados apresentados com modelos de classificaccedilatildeo binaacuterios revelam que apesar do estudo intensivo efetuado nenhum dos modelos discriminou de forma satisfatoacuteria
Com pesos bastante assimeacutetricos para os dois tipos de erro a decisatildeo foca-se na mitigaccedilatildeo de erro associado agraves perdas mais elevadas
Com pesos iguais a decisatildeo foca-se apenas na previsatildeo da classe dominante
Para melhorar estes resultados construiacuteram-se modelos de classificaccedilatildeo ternaacuterios que possibilitavam a existecircncia da classe REVISAtildeO entre as classes BOM e MAU
O modelo final obtido permitia uma automatizaccedilatildeo de 87 com uma taxa de erro de 8
A incorporaccedilatildeo futura dos criteacuterios usados na revisatildeo manual poderaacute melhorar os resultados
Discussatildeo
23
Sumaacuterio
Recolha de dados
Maximizaccedilatildeo do lucro
Modelo binaacuterio
Modelo ternaacuterio
Discussatildeo
Bibliografia
Agenda
24
[1] Maria R SOUSA amp Joaquim P Costa A Tripartite Scorecard for the PayNo pay Decision-Making in the Retail Banking Industry Applications of Data Mining in E-Business and Finance C Soares et al (Eds) IOS Press 2008 doi103233978-1-58603-890-8-45
[2] Lyn C Thomas David B Edelman and Jonathan N Crook Credit Scoring and its applications SIAM 2002
[3] Roger M Stein The relationship between default prediction and lending profits Integrating roc analysis and loan pricing Journal of Banking amp Finance 291213ndash1236 2005
[4] J R Quinlan Induction of decision trees Machine Learning 1(1)81ndash106 1986
[5] BD Ripley Pattern Recognition and Neural Networks Cambridge University Press 1996
[6] C M Bishop Neural Networks for Pattern Recognition Oxford University Press 1995
[7] K B Schebesch and R Stecking Support vector machines for classifying and describing credit applicants detecting typical and critical regions Journal of the Operational Research Society 561082ndash1088 2005
[8] David J Hand So Young Sohn and Yoonseong Kim Optimal bipartite scorecards Expert Systems with Applications 29684ndash690 2005
Bibliografia
25
Questotildees
22
Com o objetivo de criar um modelo para decidir autorizar ou natildeo o deacutebito de transaccedilotildees em contas com saldo insuficiente foram desenvolvidos dois tipos de modelos binaacuterios e ternaacuterios
Os resultados apresentados com modelos de classificaccedilatildeo binaacuterios revelam que apesar do estudo intensivo efetuado nenhum dos modelos discriminou de forma satisfatoacuteria
Com pesos bastante assimeacutetricos para os dois tipos de erro a decisatildeo foca-se na mitigaccedilatildeo de erro associado agraves perdas mais elevadas
Com pesos iguais a decisatildeo foca-se apenas na previsatildeo da classe dominante
Para melhorar estes resultados construiacuteram-se modelos de classificaccedilatildeo ternaacuterios que possibilitavam a existecircncia da classe REVISAtildeO entre as classes BOM e MAU
O modelo final obtido permitia uma automatizaccedilatildeo de 87 com uma taxa de erro de 8
A incorporaccedilatildeo futura dos criteacuterios usados na revisatildeo manual poderaacute melhorar os resultados
Discussatildeo
23
Sumaacuterio
Recolha de dados
Maximizaccedilatildeo do lucro
Modelo binaacuterio
Modelo ternaacuterio
Discussatildeo
Bibliografia
Agenda
24
[1] Maria R SOUSA amp Joaquim P Costa A Tripartite Scorecard for the PayNo pay Decision-Making in the Retail Banking Industry Applications of Data Mining in E-Business and Finance C Soares et al (Eds) IOS Press 2008 doi103233978-1-58603-890-8-45
[2] Lyn C Thomas David B Edelman and Jonathan N Crook Credit Scoring and its applications SIAM 2002
[3] Roger M Stein The relationship between default prediction and lending profits Integrating roc analysis and loan pricing Journal of Banking amp Finance 291213ndash1236 2005
[4] J R Quinlan Induction of decision trees Machine Learning 1(1)81ndash106 1986
[5] BD Ripley Pattern Recognition and Neural Networks Cambridge University Press 1996
[6] C M Bishop Neural Networks for Pattern Recognition Oxford University Press 1995
[7] K B Schebesch and R Stecking Support vector machines for classifying and describing credit applicants detecting typical and critical regions Journal of the Operational Research Society 561082ndash1088 2005
[8] David J Hand So Young Sohn and Yoonseong Kim Optimal bipartite scorecards Expert Systems with Applications 29684ndash690 2005
Bibliografia
25
Questotildees
23
Sumaacuterio
Recolha de dados
Maximizaccedilatildeo do lucro
Modelo binaacuterio
Modelo ternaacuterio
Discussatildeo
Bibliografia
Agenda
24
[1] Maria R SOUSA amp Joaquim P Costa A Tripartite Scorecard for the PayNo pay Decision-Making in the Retail Banking Industry Applications of Data Mining in E-Business and Finance C Soares et al (Eds) IOS Press 2008 doi103233978-1-58603-890-8-45
[2] Lyn C Thomas David B Edelman and Jonathan N Crook Credit Scoring and its applications SIAM 2002
[3] Roger M Stein The relationship between default prediction and lending profits Integrating roc analysis and loan pricing Journal of Banking amp Finance 291213ndash1236 2005
[4] J R Quinlan Induction of decision trees Machine Learning 1(1)81ndash106 1986
[5] BD Ripley Pattern Recognition and Neural Networks Cambridge University Press 1996
[6] C M Bishop Neural Networks for Pattern Recognition Oxford University Press 1995
[7] K B Schebesch and R Stecking Support vector machines for classifying and describing credit applicants detecting typical and critical regions Journal of the Operational Research Society 561082ndash1088 2005
[8] David J Hand So Young Sohn and Yoonseong Kim Optimal bipartite scorecards Expert Systems with Applications 29684ndash690 2005
Bibliografia
25
Questotildees
24
[1] Maria R SOUSA amp Joaquim P Costa A Tripartite Scorecard for the PayNo pay Decision-Making in the Retail Banking Industry Applications of Data Mining in E-Business and Finance C Soares et al (Eds) IOS Press 2008 doi103233978-1-58603-890-8-45
[2] Lyn C Thomas David B Edelman and Jonathan N Crook Credit Scoring and its applications SIAM 2002
[3] Roger M Stein The relationship between default prediction and lending profits Integrating roc analysis and loan pricing Journal of Banking amp Finance 291213ndash1236 2005
[4] J R Quinlan Induction of decision trees Machine Learning 1(1)81ndash106 1986
[5] BD Ripley Pattern Recognition and Neural Networks Cambridge University Press 1996
[6] C M Bishop Neural Networks for Pattern Recognition Oxford University Press 1995
[7] K B Schebesch and R Stecking Support vector machines for classifying and describing credit applicants detecting typical and critical regions Journal of the Operational Research Society 561082ndash1088 2005
[8] David J Hand So Young Sohn and Yoonseong Kim Optimal bipartite scorecards Expert Systems with Applications 29684ndash690 2005
Bibliografia
25
Questotildees
25
Questotildees