111
I Marketing Preditivo Nuno Ricardo de Araújo Gil Exemplo de uma campanha de Crédito Pessoal Trabalho de Projeto apresentado como requisito parcial para obtenção do grau de Mestre em Gestão de Informação, Especialização em Gestão do Conhecimento e Business Intelligence

Tese v11 - final · Este é, hoje em dia, essencial para ganhar vantagem competitiva no mundo dos negócios e para ganhar conhecimento entre yottabytes de dados disponíveis. Especialmente

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Tese v11 - final · Este é, hoje em dia, essencial para ganhar vantagem competitiva no mundo dos negócios e para ganhar conhecimento entre yottabytes de dados disponíveis. Especialmente

I

Marketing Preditivo

Nuno Ricardo de Araújo Gil

Exemplo de uma campanha de Crédito Pessoal

Trabalho de Projeto apresentado como requisito parcial para

obtenção do grau de Mestre em Gestão de Informação,

Especialização em Gestão do Conhecimento e Business

Intelligence

Page 2: Tese v11 - final · Este é, hoje em dia, essencial para ganhar vantagem competitiva no mundo dos negócios e para ganhar conhecimento entre yottabytes de dados disponíveis. Especialmente

II

Página deixada Intencionalmente em branco

Page 3: Tese v11 - final · Este é, hoje em dia, essencial para ganhar vantagem competitiva no mundo dos negócios e para ganhar conhecimento entre yottabytes de dados disponíveis. Especialmente

III

NOVA Information Management School

Instituto Superior de Estatística e Gestão de Informação

Universidade Nova de Lisboa

MARKETING PREDITIVO

EXEMPLO DE UMA CAMPANHA DE CRÉDITO PESSOAL

por

Nuno Ricardo de Araújo Gil

Trabalho de Projeto apresentado como requisito parcial para a obtenção do grau de Mestre

em Gestão de Informação, Especialização em Gestão do Conhecimento e Business Intelligence

Orientador: Professor Doutor Roberto Henriques

Co-orientadora: Professora Doutora Patrícia Xufre

Setembro 2017

Page 4: Tese v11 - final · Este é, hoje em dia, essencial para ganhar vantagem competitiva no mundo dos negócios e para ganhar conhecimento entre yottabytes de dados disponíveis. Especialmente

IV

Página deixada Intencionalmente em branco

Page 5: Tese v11 - final · Este é, hoje em dia, essencial para ganhar vantagem competitiva no mundo dos negócios e para ganhar conhecimento entre yottabytes de dados disponíveis. Especialmente

V

“Unless a decision has “degenerated into work” it is not a decision;

it is at best a good intention.”

(Peter F. Drucker, 2002, p. 119)

Page 6: Tese v11 - final · Este é, hoje em dia, essencial para ganhar vantagem competitiva no mundo dos negócios e para ganhar conhecimento entre yottabytes de dados disponíveis. Especialmente

VI

Página deixada Intencionalmente em branco

Page 7: Tese v11 - final · Este é, hoje em dia, essencial para ganhar vantagem competitiva no mundo dos negócios e para ganhar conhecimento entre yottabytes de dados disponíveis. Especialmente

VII

AGRADECIMENTOS

Não posso deixar de agradecer aqueles que de uma forma direta contribuíram para a

realização deste trabalho de projeto. A estes o meu muito obrigado.

Aos meus orientadores, Professor Doutor Roberto Henriques e Professora Doutora Patrícia

Xufre, pelo apoio e disponibilidade demonstrada.

Ao meu colega de Mestrado Miguel Oliveira, sem o qual este percurso teria sido muito mais

difícil.

À minha Mãe, por me incentivar a fazer sempre mais e melhor.

À Marta, pelo incentivo, compreensão, paciência e encorajamento ao longo desta caminhada,

pelos dias sem a minha presença e pelas horas a ler e reler este documento.

À minha filha, pelos fins de semana que não estive com ela.

Ao Crédito Agrícola, por me disponibilizar os meios e dados para a realização deste trabalho.

Page 8: Tese v11 - final · Este é, hoje em dia, essencial para ganhar vantagem competitiva no mundo dos negócios e para ganhar conhecimento entre yottabytes de dados disponíveis. Especialmente

VIII

Página deixada Intencionalmente em branco

Page 9: Tese v11 - final · Este é, hoje em dia, essencial para ganhar vantagem competitiva no mundo dos negócios e para ganhar conhecimento entre yottabytes de dados disponíveis. Especialmente

IX

RESUMO

Considerando o ambiente atual de competitividade em quase todos os setores da nossa

sociedade de consumo, a importância do Marketing como um dos fatores de sucesso de um

negócio tem vindo a aumentar.

As alterações que tiveram lugar nos últimos anos no setor bancário ao nível concorrencial,

legal, tecnológico e até comportamental por parte dos consumidores fazem do Data Mining

obrigatório.

Este é, hoje em dia, essencial para ganhar vantagem competitiva no mundo dos negócios e

para ganhar conhecimento entre yottabytes de dados disponíveis. Especialmente

considerando que os clientes bancários estão mais informados, mais exigente nos serviços e,

sobretudo, mais cientes dos seus direitos e das suas reais necessidades financeiras. Assim

importa cada vez mais realizar comunicações relevantes e oportunas.

Este projeto consistiu na criação e desenvolvimento de um modelo preditivo, com base em

dados reais de uma campanha, por forma a tentar prever quais os clientes com maior

probabilidade em aceitar uma outra similar. Para identificar o melhor modelo, comparou-se

diversas famílias de algoritmos.

O objetivo prende-se com a comparação dos resultados obtidos pelo método de previsão com

os reais e verificar se existe espaço para melhoria dos processos existentes.

A correta identificação dos clientes com maior probabilidade de contratação do produto

permite aumentar a satisfação do cliente, pela oferta de um produto relevante para o mesmo

no momento oportuno e minimizar o custo da campanha, ao mesmo tempo que maximiza a

taxa de concretização.

PALAVRAS-CHAVE

Crédito Agrícola, Setor Bancário, Data Mining, Marketing, Confiança, Fidelização, Venda

Cruzada, Satisfação do Cliente.

Page 10: Tese v11 - final · Este é, hoje em dia, essencial para ganhar vantagem competitiva no mundo dos negócios e para ganhar conhecimento entre yottabytes de dados disponíveis. Especialmente

X

ABSTRACT

Considering the current competitive environment in almost all sectors of our society, the

importance of Marketing as one of the success factors of a business has been increasing.

The changes that have taken place in recent years in the banking sector at a competitive, legal,

technological and even behavioural level by consumers makes Data Mining mandatory.

Data Mining is, nowadays, essential for gaining competitive advantage in the business world

and for obtaining knowledge among yottabytes of available data. Especially considering that

bank customers are more informed, more demanding about services and, above all, more

aware of their rights and their real financial needs. Therefore, it is even more important to

make relevant and timely communications.

This project consisted in the creation and development of a predictive model, based on real

data from a campaign, in order to try to predict which clients are most likely to accept a similar

one. To identify the best model, several families of algorithms were compared.

The goal is to compare the results obtained by the forecast method with the actual ones from

the real campaign and to verify if there is room for improvement of the existing processes.

Properly identifying customers with a higher likelihood of hiring the product allows an increase

of customer satisfaction by offering a relevant offer at the right time and minimizing the cost

of the campaign, while maximizing the delivery rate.

KEYWORDS

Crédito Agrícola, Banking, Data Mining, Marketing, Confidence, Loyalty, Cross-Selling, Customer Satisfaction.

Page 11: Tese v11 - final · Este é, hoje em dia, essencial para ganhar vantagem competitiva no mundo dos negócios e para ganhar conhecimento entre yottabytes de dados disponíveis. Especialmente

XI

ÍNDICE

1. Introdução ........................................................................................................... 1

1.1. Enquadramento .................................................................................................... 1

1.2. Motivação e objetivos do estudo ......................................................................... 2

1.3. Relevância e importância...................................................................................... 3

1.4. Organização do documento.................................................................................. 3

2. Estado da Arte ..................................................................................................... 5

2.1. Do Marketing massificado ao relacional .............................................................. 5

2.2. Rentabilidade e conhecimento do cliente .......................................................... 10

2.3. Gestão de relação com o cliente (CRM) ............................................................. 11

2.4. Caracterização e evolução do cliente bancário .................................................. 14

2.5. Canais de comunicação ...................................................................................... 16

2.6. Business Intelligence e Data Mining ................................................................... 17

2.6.1. Técnicas de Data Mining ............................................................................. 19

2.6.2. Os passos do processo de Data Mining ....................................................... 26

2.6.3. Metodologias ............................................................................................... 28

2.6.4. Exemplos de aplicações de Data Mining no setor financeiro ..................... 31

2.7. Satisfação, Fidelização e Cross-Selling ................................................................ 37

2.8. Next Best Offer ................................................................................................... 38

3. Caso de Estudo - o Grupo Crédito AgrÍcola .......................................................... 41

3.1. História do Grupo Crédito Agrícola..................................................................... 41

3.2. Caracterização do Grupo Crédito Agrícola ......................................................... 42

4. Modelo prático desenvolvido ............................................................................. 44

4.1. Tarefas Realizadas............................................................................................... 44

4.2. Análise das variáveis ........................................................................................... 48

4.3. Criação do modelo .............................................................................................. 51

4.4. Escolha do modelo .............................................................................................. 55

4.5. Modelos adicionais ............................................................................................. 55

4.6. Validação do modelo escolhido .......................................................................... 56

5. Conclusão e Trabalho Futuro .............................................................................. 58

6. Limitações e Recomendações Futuras ................................................................ 60

7. Bibliografia ........................................................................................................ 61

8. ANEXOS ............................................................................................................. 70

Page 12: Tese v11 - final · Este é, hoje em dia, essencial para ganhar vantagem competitiva no mundo dos negócios e para ganhar conhecimento entre yottabytes de dados disponíveis. Especialmente

XII

ÍNDICE DE FIGURAS

Figura 1 - Modelo conceitual ligando satisfação, lealdade e proveitos ........................... 6

Figura 2 - O processo de Marketing simplificado ............................................................. 6

Figura 3 - Diferenças entre as perspetivas do Dep. de Marketing e de Vendas .............. 7

Figura 4 - Visão expandida do processo de Marketing .................................................... 7

Figura 5 - De orientado a produto para orientado a cliente............................................ 9

Figura 6 - Principais motivações para a Adoção de CRM............................................... 12

Figura 7 - Modelo de CRM desenvolvido por Adrian Payne.......................................... 13

Figura 8 - Distribuição de artigos por ano ...................................................................... 14

Figura 9 - Os passos na Descoberta de Conhecimento em Bases de Dados...................18

Figura 10 - Exemplo de uma Árvore de decisão ............................................................. 20

Figura 11 - Desenho genérico de um neurónio humano ............................................... 21

Figura 12 – Modelo típico de um neurónio .................................................................... 22

Figura 13 - Exemplo de um MLP (Multilayer Perceptron) .............................................. 24

Figura 14 - Distribuição de artigos relacionados com Redes neuronais por ano ........... 25

Figura 15 - Distribuição de artigos relacionados com Redes neuronais por área .......... 25

Figura 16 - Matriz de confusão ....................................................................................... 27

Figura 17 - Fases da Metodologia CRISP-DM ................................................................. 28

Figura 18 - Fases da Metodologia CRISP-DM ................................................................. 30

Figura 17 - A utilizações do Data Mining no sector bancário ........................................ 34

Figura 18 - Os diversos passos do processo da implementação do projeto .................. 39

Figura 21 – Nós de código criados no SAS Enterprise Miner ......................................... 50

Figura 22 – Exemplo de um dos nós de código criados no SAS Enterprise Miner ......... 50

Figura 23 – Algoritmos usados no projeto ..................................................................... 52

Figura 24 – Configuração da Rede Neuronal com um neutrão ...................................... 52

Figura 25 – Configuração da optimização da Rede Neuronal ........................................ 53

Figura 26 – Configuração da optimização da Rede AutoNeural .................................... 53

Figura 27 – Configuração da Regressão ......................................................................... 54

Figura 28 – Configuração da Árvore de Decisão ............................................................ 54

Figura 29 – Configuração do nó de Rule Induction......................................................... 54

Figura 30 – Configuração do nó de Ensemble ................................................................ 55

Figura 31 – Gráfico de ROC ............................................................................................. 55

Page 13: Tese v11 - final · Este é, hoje em dia, essencial para ganhar vantagem competitiva no mundo dos negócios e para ganhar conhecimento entre yottabytes de dados disponíveis. Especialmente

XIII

ÍNDICE DE TABELAS

Tabela 1 - Síntese de Indicadores do Sector Bancário ................................................... 16

Tabela 2 – Resumo das correspondências entre SEMMA e CRISP-DM .......................... 31

Tabela 3 - Síntese dos varios modelos testados ............................................................. 56

Page 14: Tese v11 - final · Este é, hoje em dia, essencial para ganhar vantagem competitiva no mundo dos negócios e para ganhar conhecimento entre yottabytes de dados disponíveis. Especialmente

XIV

ÍNDICE DE ANEXOS

Anexo 1 - Variáveis iniciais ............................................................................................. 70

Anexo 2 – Variáveis criadas no SAS Guide...................................................................... 71

Anexo 3 - Diagrama do projeto de SAS Guide ................................................................ 73

Anexo 4 - Diagrama do projeto de SAS Miner ............................................................... 74

Anexo 5 - Variáveis criadas e codificações realizadas no SAS Miner ............................ 75

Anexo 6 - Tratamento de Outliers .................................................................................. 83

Anexo 7 - Gráfico de Valor Inicial ................................................................................... 84

Anexo 8 - Matriz de Correlação Inicial............................................................................ 85

Anexo 9 - Gráfico de Valor .............................................................................................. 86

Anexo 10 - Matriz de Correlação .................................................................................... 87

Anexo 11 - Lista de variáveis com correlação acima ou igual a 0,7 ............................... 88

Anexo 12 - Matriz de Correlação Final ........................................................................... 89

Anexo 13 - Gráfico final de valor .................................................................................... 90

Anexo 14 – Lucro obtido com a aplicação da rede neuronal 4, com as 25 variaveis ..... 91

Anexo 15 – Analise da importância das variáveis e valor de lucro obtido com Rede

Neuronal 4 e com as sete variáveis (Melhor valor obtido) ......................... 92

Page 15: Tese v11 - final · Este é, hoje em dia, essencial para ganhar vantagem competitiva no mundo dos negócios e para ganhar conhecimento entre yottabytes de dados disponíveis. Especialmente

XV

LISTA DE SIGLAS E ABREVIATURAS

AMA American Marketing Association

BI Business Intelligence

CLTV Customer Lifetime Value

CRISP-DM Cross-Industry Standard Processed for Data Mining

CRM Customer Relationship Management

DM Data Mining

ETL Extract Transform Load

GCA Grupo Crédito Agrícola

KDD Knowledge Discovery in Databases

NBO Next Best Offer

NBA Next Best Action

ROI Return on Investment

RTE Real Time Enterprise

SEMMA Sample-Explore-Modify-Model-Assess

Page 16: Tese v11 - final · Este é, hoje em dia, essencial para ganhar vantagem competitiva no mundo dos negócios e para ganhar conhecimento entre yottabytes de dados disponíveis. Especialmente

XVI

GLOSSÁRIO

ALGORITMOS GENÉTICOS

Técnica de optimização da aprendizagem dos modelos inspirada na teoria Darwinista sobre a evolução das espécies; esta técnica procura a solução do problema através de um processo de evolução da população.

ÁRVORES DE DECISÃO

Ferramenta de classificação e previsão, organizada em estruturas que representam regras de decisão para classificar os dados de input.

ANÁLISE CLUSTER

Método de classificação por agrupamento de indivíduos com características homogéneas com base em um conjunto de variáveis

DATA

MINING Metodologia de descoberta de conhecimento em grandes bases de

dados; procura entre as variáveis encontrar padrões ocultos. As principais tarefas de Data Mining são: classificação, estimação, predição e clustering.

ETL Do inglês Extract Transform Load (Extração Transformação Carregamento), são ferramentas de software cuja função é a extração de dados de diversos sistemas, transformação desses dados conforme regras de negócios e por fim o carregamento dos dados geralmente para um Data Mart e/ou Data Warehouse.

MATRIZ CONFUSÃO

Matriz que avalia a qualidade do modelo preditivo indicando os resultados: falsos-positivos, falsos-negativos, verdadeiros-positivos e os verdadeiros-negativos.

MODELO DETERMINÍSTICO

Baseado em conhecimento, eminentemente preditivo, consistem em formular equações “fechadas” que definem deterministicamente a forma como os outputs são obtidos a partir dos inputs, sendo todas as restantes características constantes.

MODELO NÃO PARAMÉTRICO

Baseado nos dados, não faz uso de hipóteses estatísticas a priori, limita-se a encontrar as relações entre as variáveis de forma generalizada. Recorre normalmente a grandes bases de dados como fonte de informação. Este modelo pode ter ou não pré processamento dos dados.

MODELO PARAMÉTRICO

É baseado em pressupostos, faz uso de conhecimento a priori de hipóteses e preconceitos estatísticos como as distribuições e propriedades clássicas, recorre normalmente a fontes primárias de dados, recolhidos especialmente para o efeito pretendido, as equações matemáticas

MODELO PREDITIVO

Modelo baseado em regressão ou classificação, capaz de prever o nível de probabilidade do valor de determinada variável com base em dados passados.

Page 17: Tese v11 - final · Este é, hoje em dia, essencial para ganhar vantagem competitiva no mundo dos negócios e para ganhar conhecimento entre yottabytes de dados disponíveis. Especialmente

XVII

REDES NEURONAIS

Modelos preditivos não lineares inspirados nas redes neuronais biológicas; possuem um processo de aprendizagem supervisionada ou não supervisionada. Estas redes são baseadas em pesos atribuídos aos dados de input e retro propagação do erro como meio de optimização.

YOTTABYTE Unidade de medida informática. Equivale a 10 elevado à 24.ª

potência ou a 1000 Zettabytes, 1 000 000 Exabytes ou 1 000 000 000

Petabytes, sendo que 1 Petabyte equivale a 1000 Terabytes, ou

1.000.000 Gigabytes.

Page 18: Tese v11 - final · Este é, hoje em dia, essencial para ganhar vantagem competitiva no mundo dos negócios e para ganhar conhecimento entre yottabytes de dados disponíveis. Especialmente

XVIII

Página deixada Intencionalmente em branco

Page 19: Tese v11 - final · Este é, hoje em dia, essencial para ganhar vantagem competitiva no mundo dos negócios e para ganhar conhecimento entre yottabytes de dados disponíveis. Especialmente

1

1. INTRODUÇÃO

Este trabalho de projeto pretende apresentar o resultado de um trabalho baseado em dados

reais, no Grupo Crédito Agrícola, com o objetivo de aumentar a taxa de concretização numa

campanha de Crédito Pessoal.

1.1. ENQUADRAMENTO

Considerando o ambiente atual de competitividade em quase todos os setores da nossa

sociedade de consumo, a importância do Marketing como um dos fatores de sucesso de um

negócio tem vindo a aumentar. O próprio Marketing tem evoluído ao longo dos tempos, de

uma visão centrada no produto, onde se pretendia vender um produto igual para todos com

enfoque no seu baixo custo, para uma visão centrada nos clientes (Kotler, Kartajaya, &

Setiawan, 2010).

Estes clientes, com o acesso global e facilitado à informação, estão muito mais informados e

conscientes do valor do produto e são os próprios que o definem. Assistimos atualmente ao

nascimento de uma nova perspetiva - a era dos valores - onde o cliente não é tratado só como

consumidor mas como indivíduo como um todo, com preocupações, valores e vontades, que

procura não apenas uma solução funcional mas, com o aparecimento de temas como

responsabilidade social e sustentabilidade, passa a exigir das empresas uma postura ética e

alinhada com os valores da sociedade (Kotler et al., 2010).

A banca tem sofrido nos últimos anos profundas alterações a variados níveis: concorrencial,

legal, tecnológico e até comportamental por parte dos consumidores. Há décadas que o setor

financeiro não apresentava tanta fragilidade, havendo mesmo entidades a declarar falência.

Esta conjetura leva, naturalmente, a que seja dada uma grande importância à obtenção de

informação correta em tempo oportuno. É necessário adequar as campanhas de Marketing

para que fiquem mais focadas em promover os produtos certos para os clientes certos, no

timing e forma mais eficazes.

Os clientes são um dos fatores principais de sucesso de qualquer empresa, pelo que novas

captações são fundamentais para permitir aos Bancos rejuvenescer a sua base, mas a procura

de novos clientes é sinónimo de elevados custos. Dependendo do estudo e da indústria em

causa, obter um novo cliente pode custar entre 5 e 25 vezes mais que manter um já existente

(Gallo, 2014). Infelizmente, muitos dos marketers foram ensinados a focarem-se na angariação

de novos clientes ao invés de cativar e reter os existentes (Artun & Levin, 2015).

O consumidor bancário de hoje não é o mesmo de há alguns anos; está mais informado, mais

exigente nos serviços e, sobretudo, mais ciente dos seus direitos e das suas reais necessidades

financeiras. Hoje em dia, não basta por isso ter um produto e vendê-lo. Deste modo, o

Marketing Bancário tem também de evoluir, passar do Marketing tradicional com o conceito

de um produto para todos, para a individualização do cliente e um enfoque nas suas

necessidades específicas, o chamado Marketing Relacional. Esta alteração de visão, por forma

a estabelecer, desenvolver e manter uma relação bem sucedida e estável com o cliente

(Morgan & Hunt, 1994), é uma enorme alteração de metodologia.

Page 20: Tese v11 - final · Este é, hoje em dia, essencial para ganhar vantagem competitiva no mundo dos negócios e para ganhar conhecimento entre yottabytes de dados disponíveis. Especialmente

2

Já foi realizado algum caminho nesse sentido, com a criação da figura do gestor de clientes,

uma pessoa especializada nas necessidades do seu grupo de clientes. Há, no entanto, um

longo caminho ainda para percorrer no sentido de melhor analisar e compreender as

necessidades e expectativas dos clientes e idealmente antecipá-las, mas, se tal não for

possível, pelo menos identificá-las em tempo útil.

A identificação dessas necessidades e a apresentação do produto solução irão permitir

aumentar o valor percebido do mesmo, elevando a satisfação do cliente e, naturalmente, a sua

retenção na Instituição.

Por outro lado, há muitos anos que os Bancos possuem uma grande quantidade de informação

transacional sobre os seus clientes, mas a questão é como usar essa mesma informação por

forma a gerar conhecimento específico relativamente ao cliente e aos seus hábitos e

necessidades.

Infelizmente, a qualidade e relevância do conhecimento não é diretamente proporcional à

quantidade de informação disponível. Para isso é necessário a utilização de técnicas de Data

Mining, as quais permitem a extração de conhecimento - previamente desconhecido e

potencialmente útil - a partir dos dados (Witten & Frank, 2005) ou, dito de outra forma,

técnicas que permitem descobrir padrões desconhecidos a priori (Witten & Frank, 2005).

O Grupo Crédito Agrícola tem como vantagem competitiva, em relação à Banca tradicional, a

sua ligação próxima ao cliente. É um grupo financeiro com base cooperativa enraizado nas

comunidades onde atua, mais próximo do cliente e que valoriza esse relacionamento (CA |

Crédito Agrícola - Missão e Valores). O enfoque será capitalizar essa proximidade, conhecendo

ainda melhor o cliente, identificando as suas necessidades, suprimindo-as com produtos

direcionados, aumentando o seu valor percebido, a sua ligação ao Banco e,

consequentemente, incrementando a sua rentabilidade.

Pretende-se com este projeto conceber e implementar um modelo preditivo aplicado ao

Grupo Crédito Agrícola por forma a identificar um conjunto de clientes de elevada propensão à

contratualização de um crédito pessoal e avaliar o desempenho deste sistema face ao método

tradicional.

1.2. MOTIVAÇÃO E OBJETIVOS DO ESTUDO

Este projeto surge para tentar dar resposta a duas dificuldades existentes na instituição: (1) na

elaboração das campanhas - a seleção de um conjunto de clientes com a maior propensão de

contratualização do produto em campanha; (2) o desenvolvimento de um processo de

otimização que permita identificar a solução ideal para propor aos diferentes clientes a cada

momento, por forma a aumentar a satisfação dos mesmos, incrementando a sua retenção e

maximizando a venda cruzada e, consequentemente, a sua rentabilidade.

Para tal, torna-se necessário cumprir os sub-objetivos:

• Analisar e investigar o estado da arte e boas práticas na aplicação de tecnologias Data

Mining em Entidades Bancárias;

Page 21: Tese v11 - final · Este é, hoje em dia, essencial para ganhar vantagem competitiva no mundo dos negócios e para ganhar conhecimento entre yottabytes de dados disponíveis. Especialmente

3

• Fazer o levantamento, análise, conceção e implementação dos requisitos identificados,

recorrendo a uma solução e metodologia adequadas para a criação do modelo

preditivo;

• Avaliar o cumprimento dos requisitos e obter o desempenho deste modelo face a outros tradicionais, i.e., comparando o desempenho obtido;

• Analisar, descrever os resultados obtidos e retirar boas práticas para futuras soluções

similares.

1.3. RELEVÂNCIA E IMPORTÂNCIA

Ling & Li (1998) dizem no seu artigo que as respostas positivas numa campanha de Marketing

massificada são geralmente bastante baixas, na ordem de 1%. O Marketing Relacional e a

lealdade do cliente são estratégias chaves para vingar no mercado concorrencial atual (Beck,

Chapman, & Palmatier, 2015).

Devido às profundas alterações que a banca tem sofrido nos últimos anos, estas estratégias

tornam-se ainda mais fundamentais e, tal como em qualquer outro setor, é exigida uma maior

racionalização dos custos, i.e., para um número menor de contactos (menor custo por

campanha) espera-se uma maior adesão à mesma (maior taxa de sucesso).

Todos os anos o Grupo Crédito Agrícola investe uma verba elevada para implementar

estratégias de Marketing definidas. No entanto, estas têm por base um conjunto de

campanhas, centradas em produtos, pensadas por segmento de cliente, por tipo de cliente,

etc. Sendo esse orçamento limitado, deveria ser otimizado por forma a permitir aumentar o

retorno desse investimento. Com esse objetivo, serão implementados neste projeto modelos

preditivos, usando dados históricos e técnicas de Data Mining.

A relevância deste projeto centra-se na necessidade da correta e atempada identificação das

necessidades dos clientes bancários do Grupo Crédito Agrícola, por forma a ser possível: (1)

aumentar a satisfação do cliente, cross-selling e consequentemente a retenção, lealdade e

rentabilidade do mesmo; (2) minimizar o custo de cada campanha.

1.4. ORGANIZAÇÃO DO DOCUMENTO

Este documento está estruturado de acordo com os seguintes capítulos:

• O capítulo dois: Estado da Arte - apresenta o estado da arte atual em termos de

conceitos relacionados com o Marketing e técnicas de Data Mining relacionadas.

• O capítulo três: O Grupo Crédito Agrícola - faz uma apresentação breve do Grupo

Crédito Agrícola e as suas principais diferenças para a banca comercial.

• O capítulo quatro: Modelo prático desenvolvido – descreve quais os vários passos da

criação do modelo de Data Mining, desde a recolha e seleção dos dados, à sua limpeza

e transformação, à criação do projeto preditivo com os vários algoritmos usados e à

validação dos resultados.

• O capítulo cinco: Conclusão e Recomendações para Trabalhos Futuros - indica quais as

conclusões do presente trabalho e sugere trabalho futuro.

Page 22: Tese v11 - final · Este é, hoje em dia, essencial para ganhar vantagem competitiva no mundo dos negócios e para ganhar conhecimento entre yottabytes de dados disponíveis. Especialmente

4

• O capítulo seis: Limitações e Recomendações para Trabalhos Futuros - indica quais as

limitações do presente trabalho e sugere algumas recomendações futuras.

Page 23: Tese v11 - final · Este é, hoje em dia, essencial para ganhar vantagem competitiva no mundo dos negócios e para ganhar conhecimento entre yottabytes de dados disponíveis. Especialmente

5

2. ESTADO DA ARTE

Neste capítulo é efetuado um levantamento dos diversos conceitos relacionados, desde o

Marketing e a sua evolução ao longo do tempo, passando por conceitos como rentabilidade,

satisfação, fidelização, cross-selling, conhecimento do cliente e evolução do cliente bancário,

introduzindo-se ainda conceitos como Business Intelligence e Data Mining e referindo algumas

das suas aplicações no setor bancário. Termina-se apresentando o conceito de Next Best Offer.

2.1. DO MARKETING MASSIFICADO AO RELACIONAL

A American Marketing Association, em 2013, definiu Marketing como sendo a atividade e o

processo de criar, comunicar, promover e distribuir ideias, bens e serviços que tenham valor

para clientes, consumidores, parceiros e sociedade em geral

Esta definição descreve o que é comumente conhecido como o Marketing tradicional ou

massificado, caracterizado pelos 4 P’s: Produto (Product), Preço (Price), Ponto de Venda (Place;

distribuição) e Promoção (Promotion). Na base da definição de Marketing tradicional assentam

ainda três pressupostos: (1) a existência de um grande número de potenciais clientes, (2) que

as suas necessidades são homogéneas e (3) que será fácil substituir um cliente perdido por um

novo (Hollensen, 2010).

Muitas vezes o preço é ainda utilizado como instrumento para ir buscar indiscriminadamente

clientes. No entanto, tal implica a aquisição de muitos clientes que se revelam pouco ou nada

rentáveis. Hoje em dia poucas entidades fazem realmente Marketing massificado, i.e., vendem

o mesmo produto de uma forma standard a todos os clientes (Kotler & Armstrong, 2012).

Quando uma empresa identifica os clientes chave, os seus “20%” 1, deve procurar aumentar o

seu envolvimento, construindo sobre o conhecimento que detém sobre estes, criando

produtos e serviços que satisfaçam as suas necessidades (Reichheld, 1993), sendo que se não o

fazem, abrem a porta para outras empresas o façam. E se antes podíamos ver os clientes como

um conjunto, sabemos atualmente que cada cliente tem as suas necessidades específicas e

quer ser visto como ser individual, quer sentir que foi criado um produto à sua medida.

O cliente é uma das chaves de qualquer negócio, mas nem todos são iguais. As empresas

devem procurar os clientes certos e não os fáceis ou mais rentáveis no curto prazo (Reichheld,

1993).

Nos anos oitenta começou-se a verificar uma mudança na filosofia do Marketing, uma

mudança em direção a um Marketing Relacional (Morgan & Hunt, 1994). No centro desta nova

filosofia está o desenvolvimento e manutenção de uma relação duradoura com um cliente,

tendo por base a satisfação do mesmo e, naturalmente, o incremento do seu valor (Berger &

Nasr, 1998).

1 O princípio de Pareto (também conhecido como regra do 80/20) afirma que 80% das

consequências decorrem de 20% das causas, i.e., no caso em apreço: 20% dos clientes são responsáveis por mais de 80% dos lucros de uma determinada empresa.

Page 24: Tese v11 - final · Este é, hoje em dia, essencial para ganhar vantagem competitiva no mundo dos negócios e para ganhar conhecimento entre yottabytes de dados disponíveis. Especialmente

6

No Marketing, o conceito de satisfação é o mais estudado na literatura. Segundo Kotler &

Keller (2012) este reflete o julgamento individual da pessoa entre o valor percebido e a

expetativa criada. Oliver (2010) defende que a satisfação provoca efeitos a longo prazo, que

contribui para a lealdade do cliente e, ainda segundo o mesmo autor - Oliver (1999) - estes

dois sentimentos estão profundamente interligados, mas não andam necessariamente a par e

passo, i.e., um cliente leal é normalmente um cliente satisfeito, mas um cliente satisfeito pode

não ser um cliente leal.

Um cliente leal é um cliente mais rentável, que provavelmente trará consigo outros novos

clientes (Hitchner, 1996) e que terá uma relação mais longa com a empresa (Figura 1)

(Edvardsson, Johnson, Gustafsson, & Strandvik, 2000). A fidelização é uma conquista contínua

mas se uma entidade conseguir manter os clientes fieis à sua marca, esta possui um diferencial

competitivo (Silva & Kaercher, n.d.).

Figura 1 - Modelo conceitual ligando satisfação, lealdade e proveitos (adaptado de Edvardsson et al., 2000)

Hoje em dia, o Marketing pode ser definido como o processo pelo qual as empresas criam

valor e relações de longo termo com o cliente, com o objetivo de capturar valor destes (Kotler

& Armstrong, 2012), assumindo por isso um papel crucial na área de negócio (Figura 2).

Figura 2 - O processo de Marketing simplificado

(adaptado de Kotler & Armstrong, 2012)

Page 25: Tese v11 - final · Este é, hoje em dia, essencial para ganhar vantagem competitiva no mundo dos negócios e para ganhar conhecimento entre yottabytes de dados disponíveis. Especialmente

7

É importante realçar que o objetivo de um departamento de Marketing é diferente de um

departamento de vendas (Figura 3). Apesar de ambos procurarem a rentabilidade do cliente,

um procura-o através do incremento das vendas e o outro através da satisfação do cliente.

Figura 3 - Diferenças entre as perspetivas do Dep. de Marketing e de Vendas

(adaptado de Kotler & Armstrong, 2012)

Muitas vezes, o próprio cliente não sabe o quer ou qual a melhor solução para o seu

problema/necessidade e é principalmente nestas situações que o conhecimento sobre o

cliente é importante, ao criar um produto que vai ao encontro das necessidades do cliente,

mas em linha com as suas capacidades, conforme ilustrado na Figura 4.

Figura 4 - Visão expandida do processo de Marketing

(adaptado de Kotler & Armstrong, 2012)

Page 26: Tese v11 - final · Este é, hoje em dia, essencial para ganhar vantagem competitiva no mundo dos negócios e para ganhar conhecimento entre yottabytes de dados disponíveis. Especialmente

8

Atrair clientes pode ser uma tarefa difícil, pois estes são confrontados diariamente com uma

imensidão de produtos e serviços. Um cliente compra à entidade que lhe dá o maior valor

percebido (Kotler & Armstrong, 2012), ou seja, é uma avaliação individual, subjetiva e

normalmente não apenas limitada aos custos/ benefícios e é aqui que o conhecimento sobre o

mesmo pode fazer toda a diferença. Perder um cliente não é apenas perder uma venda, é

perder todas as vendas que poderiam ser feitas a esse cliente ao longo do tempo (Kotler &

Armstrong, 2012).

Por exemplo, para uns o fator diferenciador é o preço, para outros é a segurança mesmo que

tenham de despender um valor ligeiramente superior. A maior parte dos estudos indicam que

uma maior satisfação do cliente significa uma maior fidelização (Kotler & Armstrong, 2012) e a

fidelização dos clientes e a venda cruzada são vistos como uma base imperativa para as

estratégias comerciais dos Bancos. Assim, com uma retenção de apenas mais 5% dos seus

clientes, as empresas podem aumentar os seus lucros em quase 100% (Reichheld & Sasser Jr.,

1990), pois em geral, o valor de um cliente aumenta proporcionalmente à sua antiguidade na

empresa (Reichheld, 1996).

“The new rules of competitions require recognition of the importance

of consumers and the necessity to address the needs through

innovative products supported by new technology.” (KV Kamath et

al., 2003)

O próximo passo será o Marketing em Tempo Real que pretende ser um processo de geração e

disponibilização de informação em tempo útil permitindo criar uma estratégia com base na

trend atual e feedback dos clientes. Este conceito surge devido à constante inovação

tecnológica e globalização a que assistimos. Hoje em dia, à distancia de um clique, 24/7,

podemos consultar catálogos de produtos e/ou serviços e realizar compras ou assinar serviços.

Estas melhorias tecnológicas permitem às organizações criar e disponibilizar novos ou

existentes produtos e serviços a uma velocidade antes não possível.

Hoje, um cliente pode receber um e-mail no seu telemóvel, ver na Internet as suas condições

e, sem sair do mesmo local, subscrever um serviço ou comprar um produto, tudo em poucos

minutos. Isto implica que a capacidade de resposta das empresas tem de ser rápida e flexível.

O Marketing em Tempo Real surge assim como uma evolução do Marketing Relacional, mas

tendo ainda como objetivo a satisfação dos clientes. Em teoria, numa RTE, ou Empresa em

Tempo Real (Real Time Entreprise), a maioria do software reside na cloud (internet) e,

independentemente do meio utilizado (telefone, tablet, televisão ou qualquer outro

equipamento), o contacto com a entidade funciona de forma correta e personalizada, ou seja,

numa RTE qualquer tipo de informação é atualizada e contextualizada ao momento,

permitindo um aumento na qualidade do serviço, na produtividade, um melhor apoio à

decisão e um aumento da satisfação e lealdade dos clientes (Goldenberg, 2008).

Page 27: Tese v11 - final · Este é, hoje em dia, essencial para ganhar vantagem competitiva no mundo dos negócios e para ganhar conhecimento entre yottabytes de dados disponíveis. Especialmente

9

Hoje em dia a tecnologia já permite a geração e contextualização de eventos com base em

acontecimentos internos, i.e., que acontecem dentro da esfera da Instituição Bancária. Refiro-

me a eventos relacionais como dar os parabéns ao cliente no seu aniversário, eventos

comerciais, verificar que se atingiu a maturidade de um depósito a prazo e propor um novo

depósito ou outro investimento de acordo com o perfil de cliente. Mas, independentemente

do produto oferecido, o mesmo é sempre centrado no cliente, específico para ele, relevante e

com significado ou seja, ou invés de simplesmente vender o produto, adapta-se o produto ao

cliente. Podemos observar essa mudança de paradigma na Figura 5.

Figura 5 - De orientado a produto para orientado a cliente

(adaptado de Artun & Levin, 2015)

Um estudo de três anos levado a cabo pela empresa Viacom2 nos EUA (“The Millennial

Disruption Index,” n.d.), incidindo sobre 10.000 milenais3, retirou algumas conclusões sobre

como eles encaram o setor bancário:

• 53% pensam que o seu Banco não oferece nada de diferente dos outros Bancos;

• 71% preferem ir ao dentista que ouvir o seu Banco;

2 Empresa que detém algumas das principais marcas de entretenimento que se conectam ao público através

de conteúdo em plataformas de televisão, cinema, plataformas e redes móveis em mais de 160 países e territórios (MTV, VH1, CMT, Logo, BET, CENTRIC, Nickelodeon, Nick Jr., TeenNick, Nicktoons, Nick at Nite, COMEDY CENTRAL, TV Land, SPIKE, Tr3s, Paramount Channel and VIVA.) http://www.viacom.com/

3 Geração nascida entre 1981 e 2000, também conhecida como Geração Y, geração do milênio ou geração

da internet.

Page 28: Tese v11 - final · Este é, hoje em dia, essencial para ganhar vantagem competitiva no mundo dos negócios e para ganhar conhecimento entre yottabytes de dados disponíveis. Especialmente

10

• 73% achariam mais interessante receber ofertas de serviços financeiros de empresas

como a Google, Amazon, Apple, Paypal ou Square do que do seu Banco.

Um outro estudo realizado pela BNY Mellon4 em 2014, com entrevistas a 1178 milenais em

sete países, em colaboração com a SAID Business School e com a University of Oxford, indica

que:

• Os Milenais preferem recorrer aos seus pais para conselhos financeiros (52%) do que

aos seus Bancos (24%);

• 59% dos milenais acreditam que não existem produtos que os tenham como objetivo;

• 40% preferem o on-line ou e-mail como forma de contacto do seu prestador de

serviços financeiros.

Como podemos ver, é urgente repensar a estratégia, os meios, a forma e a relevância da

comunicação.

2.2. RENTABILIDADE E CONHECIMENTO DO CLIENTE

Sendo o cliente um dos principais pilares para o sucesso e rentabilidade de qualquer negócio, a

satisfação do mesmo é da máxima importância, tornando-se assim necessário avaliar e

compreender as necessidades e expetativas dos clientes. A construção de relações fortes entre

o cliente e a empresa e a lealdade são muitas vezes a explicação para uma empresa ser mais

rentável que outra (Reichheld, 1993), e é reconhecido que a lealdade dos clientes é ganha

através da entrega consistente de valor acrescentado (Reichheld, 1993).

Ao longo do tempo as instituições financeiras têm apostado cada vez mais em processos,

métricas e ferramentas que permitam um melhor modelo de gestão de relacionamento com o

cliente e um aumento do conhecimento sobre o mesmo, potenciando o seu valor ao longo do

tempo. É necessário que as empresas tenham a capacidade de antecipar as necessidades do

cliente (Narver, Slater, & MacLachlan, 2004).

Como qualquer empresa, os Bancos assentam num conceito de maximizar os lucros e

minimizar os custos, assegurando assim o mais elevado ROI (Return on Investiment) possível.

No entanto para maximizar o retorno de um cliente é necessário primeiro quantificar o seu

valor.

O CLTV (Customer Lifetime Value) foi definido como o valor presente de todos os cash-flows

futuros gerados pelo cliente (Farris, 2006). Através deste cálculo, é possível saber qual o valor

de um dado cliente, permitindo desta forma agrupar e ordenar os mesmos tendo a conta a sua

rentabilidade e possibilitando o desenvolvimento de estratégias especificas para cada

segmento, por forma a maximizar o valor dos clientes ao longo do tempo.

4 Banco de investimento financeiros, com sede em Nova Iorque, que atua em mais de 100 mercados

https://www.bnymellon.com

Page 29: Tese v11 - final · Este é, hoje em dia, essencial para ganhar vantagem competitiva no mundo dos negócios e para ganhar conhecimento entre yottabytes de dados disponíveis. Especialmente

11

O princípio básico da otimização do CLTV é o mesmo para todos os estágios da vida do cliente

e pode ser resumido em três palavras: Dar para receber (Artun & Levin, 2015), pois os clientes

muito mais facilmente irão adquirir produtos ou serviços nas entidades onde já tem uma

relação. A melhor forma de desenvolver uma relação é entregar valor acrescentado.

A definição do valor a entregar ao cliente varia, obviamente, de empresa para empresa; para

umas pode ser o retorno financeiro e para outras o produto ou o serviço mas,

independentemente da definição, se os clientes não obtiverem esse valor, irão procura-lo

noutro lado.

Esta definição de valor difere de cliente para cliente e mesmo no mesmo cliente, entre os

diferentes estágios da sua vida pessoal e entre os diferentes estágios da sua vida enquanto

cliente.

Todas as empresas terão sempre três tipos de clientes: baixo, médio e alto valor. O truque está

em identificar em que grupo se encaixa cada um dos clientes. Não só para avaliar numa

primeira fase (aquisição do cliente) se este trará valor para a empresa ao longo do tempo e se

valerá a pena a empresa investir nele como, caso valha o investimento, se deve realizar cross e

up selling, quais os produtos que irão trazer valor ao cliente e o que este mais valoriza.

Segundo Artun e Levin (2015), se um cliente fizer uma segunda compra no retalho, o Rácio de

Churn, i.e., a probabilidade de perder o cliente, diminuí de 70% para 30%.

2.3. GESTÃO DE RELAÇÃO COM O CLIENTE (CRM)

A expressão Gestão de Relação com o Cliente, Customer Relation Manager – CRM, apareceu

no início dos anos 90 e representa o processo de gerir todas as interações de uma empesa com

um cliente, incluindo prospeção, venda e pós-venda. Aplicações CRM normalmente permitem,

num só dashboard, ter uma visão 360 graus do cliente (Buttle, 2009).

A ideia original por detrás de um CRM é melhorar a satisfação do cliente através da análise de

informações e das interações com o mesmo (Wang, Hu, & Yu, 2010), por forma a ajudar a

construir uma longa e rentável relação com os clientes (Bahari & Elayidom, 2015). Estes são

recursos valiosos e saber como obter, reter e aumentar o seu retorno é crucial para as

empresas (Wang et al., 2010).

Varajão & Cruz-Cunha (2016) indica os 5 motivos principais para a adoção de CRM nas

empresas portuguesas (Figura 6): (1) reduzir custos; (2) aumentar a satisfação do Cliente (3)

melhorar os processos; (4) ganhar vantagens competitivas; (5) melhorar a qualidade da

informação.

Page 30: Tese v11 - final · Este é, hoje em dia, essencial para ganhar vantagem competitiva no mundo dos negócios e para ganhar conhecimento entre yottabytes de dados disponíveis. Especialmente

12

Figura 6 - Principais motivações para a Adoção de CRM (adaptado de Varajão & Cruz-Cunha, 2016)

Existem quatro tipos diferentes de CRM - estratégico, operacional, analítico e colaborativo -

com enfoque em características diferentes: (1) Estratégico – centrado no cliente, procura

ganhar e manter clientes rentáveis oferecendo para tal mais valor que a concorrência; (2)

Operacional – centrado na automação de serviços criados para o cliente, como Marketing,

venda e pós-venda; (3) Analítico – centrado na captura, armazenamento, análise, visualização

e interpretação dos dados dos clientes com o objetivo de aumentar o valor da empresa e do

cliente; (4) Colaborativo – centrado na otimização da empresa e valor do cliente, procura

alinhar a parte estratégica e operacional da empresa (Buttle, 2009).

Existem também diversos modelos de CRM, sendo que um deles foi desenvolvido por Adrian

Payne (Figura 7) e, como podemos observar, implica documentar, analisar e retirar

conhecimento de todas as interações com o cliente.

Page 31: Tese v11 - final · Este é, hoje em dia, essencial para ganhar vantagem competitiva no mundo dos negócios e para ganhar conhecimento entre yottabytes de dados disponíveis. Especialmente

13

Figura 7 - Modelo de CRM desenvolvido por Adrian Payne (adaptado de Buttle, 2009)

Tudo isto representa a procura das empresas em aproximar-se dos seus clientes e em

conhece-los mais profundamente. Qualquer decisão de um sistema CRM deve passar por um

processo de 2 passos: (1) conhecer o cliente e (2) determinar e executar a melhor ação, sendo

que essa decisão deriva de um conjunto de parâmetros de modelo pré-definido (Sun, Li, &

Zhou, 2006) e é este um dos pontos em que o CRM pode falhar, pois falta a capacidade de

aprendizagem e adaptação num modelo fits-all. Um outro ponto que leva muitas vezes a que o

CRM falhe é a falta de motivação da força de vendas. A tecnologia é apenas um habilitador;

sem pessoas que o usem, que o implementem e que falem com os clientes irá sempre falhar

(Jarrar & Neely, 2002). Um estudo realizado por Polonsky et al. em (2000), confirma o que já se

calculava, i.e. que se o cliente perceber que a força de vendas não está realmente interessada

nas suas necessidades e apenas tenta vender porque está treinada para isso, é pouco provável

que a venda se realize e pode levar à perda do cliente.

O CRM pretende-se adaptável por forma a poder determinar a melhor ação de acordo com

necessidades individuais e únicas de cada cliente (Sun et al., 2006). Um CRM pró-ativo e

adaptativo deverá funcionar em 5 vetores: o primeiro é, logicamente, conhecer o cliente, pois

esta é a única forma de desenvolver uma relação e maximizar o cross-selling; o segundo é

perceber em que estado de maturidade o cliente se encontra, sendo que esta informação

pode ser obtida através dos pontos de contacto com o cliente, sejam campanhas, reclamações,

etc.; o terceiro é conhecer o CLTV (Customer Lifetime Value), para saber em que clientes

devemos investir mais o nosso tempo; o quarto é perceber quais os meios de contactos a

utilizar para cada cliente, pois todos têm a sua preferência e é necessário respeitá-la e, por

Page 32: Tese v11 - final · Este é, hoje em dia, essencial para ganhar vantagem competitiva no mundo dos negócios e para ganhar conhecimento entre yottabytes de dados disponíveis. Especialmente

14

último, o quinto é entender a sensibilidade atual do cliente do rácio preço/ qualidade, pois

este rácio muda ao longo do tempo (Sun et al., 2006).

Ngai, Xiu e Chau (2009), dizem no seu artigo, ter identificado entre 2000 e 2006, 87 artigos

relacionando técnicas de Data Mining com CRM. A maioria dos artigos refere-se à retenção de

clientes. Destes, 28 são referentes a Marketing individual e 24 são relacionados com

programas fidelização. Adicionalmente identificam quais as famílias de algoritmos usadas,

sendo as três mais utilizadas: redes neuronais (30), Árvores de decisão (23) e regras de

associação (18).

Podemos verificar que a utilização de técnicas de DM, na relação com o cliente, é algo com

cada vez mais relevância, conforme confirmamos pela distribuição de artigos por ano (Figura

8).

Figura 8 - Distribuição de artigos por ano (adaptado de Ngai et al., 2009)

CRM é hoje em dia uma ferramenta essencial no sector da banca. Quanto mais eficiente for o

uso da informação acerca dos nossos clientes na procura da satisfação das suas necessidades,

mais rentável o sector poderá ser (Ogwueleka, 2009).

2.4. CARACTERIZAÇÃO E EVOLUÇÃO DO CLIENTE BANCÁRIO

Antes de mais, importa definir produto e serviço. Produto: qualquer coisa que possa ser

oferecida para atenção, aquisição, uso ou consumo e que possa satisfazer uma necessidade.

Serviço: atividade ou satisfação que é essencialmente intangível e que não resulta da uma

tomada de posse (Kotler & Armstrong, 2012).

Efetivamente, quem é que quer uma conta à ordem? Ou um empréstimo pessoal ou à

habitação? Ou outros tantos produtos? Os Bancos são uma necessidade, são algo que

necessitamos para obter o benefício que pretendemos, seja poder ir às compras apenas com

um cartão no bolso, a televisão que sempre quisemos ou a casa/ carro por que sempre

ansiámos. Hoje, numa época em que as taxas estão esmagadas, a diferenciação não pode ser

Page 33: Tese v11 - final · Este é, hoje em dia, essencial para ganhar vantagem competitiva no mundo dos negócios e para ganhar conhecimento entre yottabytes de dados disponíveis. Especialmente

15

feita pelo preço, tem de ser feita pelo valor percebido, pela experiência, pela atenção, ou seja,

por algo intangível, mas que nos faz preferir a entidade X à Y.

Em outubro de 2016, o Conselho Nacional de Supervisores Financeiros publicou os resultados

do 2.º Inquérito à Literacia Financeira da População Portuguesa, realizado em 2015 no âmbito

do Plano Nacional de Formação Financeira. Este permite conhecer os níveis de literacia

financeira da população nas suas três dimensões: atitudes, comportamentos e conhecimentos

financeiros.

Os resultados deste 2º inquérito mostram uma melhoria face a 2010. No entanto, quando

questionados em questões sobre numeracia, apenas 58,4% acertam no cálculo de juros

simples e apenas 39,5% reconhecem o efeito dos juros compostos. Nos produtos bancários,

82% identificam corretamente o saldo de uma conta de depósito à ordem num extrato

bancário, mas apenas 21,4% sabem o que é o spread e 10,5% o que é a Euribor. Nos seguros,

62,7% sabem o que é o prémio de seguro e 46,2% o que é a franquia de um seguro. Nos

produtos de investimento, há algum conhecimento sobre ações, mas apenas 4% sabem o

significado de capital garantido num valor mobiliário.

Page 34: Tese v11 - final · Este é, hoje em dia, essencial para ganhar vantagem competitiva no mundo dos negócios e para ganhar conhecimento entre yottabytes de dados disponíveis. Especialmente

16

Tabela 1 - Síntese de Indicadores do Sector Bancário (adaptado de APB - Associação Portuguesa de Bancos, 2016)

2.5. CANAIS DE COMUNICAÇÃO

Em 2000, 80% dos Bancos nos Estados Unidos da América já disponibilizavam o on-line como

canal de comunicação. Em 2001, o Bank of America atingiu a marca dos 3 milhões de

utilizadores de clientes de on-line (Sharma, 2016). A Accenture refere, no seu estudo realizado

em 2015, que 20% dos clientes bancários já são unicamente digitais (Accenture, 2015).

Hoje em dia, os contactos com as entidades bancárias passam cada vez menos pelo canal

físico, por uma deslocação ao balcão, e cada vez mais pelos canais móveis como o telefone, as

aplicações e o on-line. Um estudo realizado pela Bain & Company, em (2012), indica uma

utilização do canal mobilie de 32% nos Estados Unidos, 47% na Coreia do Sul, 37% na Índia e

16% na Alemanha. O Instituto Nacional de Estatística (INE), no seu Inquérito à Utilização de

Tecnologias da Informação e da Comunicação pelas Famílias realizado em (2014), refere que

entre os utilizadores de internet, mais de metade (57%) acede em mobilidade, ou seja, fora de

casa e do local de trabalho em equipamentos portáteis, com tendência para aumentar.

A internet é hoje tão essencial que foi considerada em 2016 como direito humano pelas

Nações Unidas5.

Claro que nem todas as operações são passíveis de serem efetuadas nos canais on-line mas

estes permitem que os clientes sejam atendidos independentemente da hora e do local onde

estejam, sem esperar na fila e sem custos de deslocação. Esta tecnologia tem aspetos positivos

(conveniência, mobilidade, usabilidade) mas também tem aspetos negativos, sendo um deles a

perca de relação/proximidade com a entidade bancária. Enquanto na Banca tradicional existe

a possibilidade de interagir com o cliente, aprender as suas necessidades e desejos, no on-line

o cliente não é visto, perdendo-se assim conhecimento do mesmo.

A gamificação, aplicação de elementos e princípios de jogos de vídeo em situações fora do

contexto dos mesmos, tem sido identificada como tendo um papel importante na relação com

o cliente nesta era do e-banking, nomeadamente na lealdade e na sua atitude perante o setor

financeiro (Rodrigues, Oliveira & Costa, 2016). Esta relação é especialmente importante

considerando o nível geral de conhecimento financeiros e de numeracia da população.

Os clientes não usam os produtos ou canais isolados uns dos outros. No mundo do canal

OmniChanel é expetável que o cliente mude de canal conforme a informação necessária,

disponibilidade e necessidade. Se hoje formos aos balcões das entidades bancárias, podemos

5 http://www2.ohchr.org/english/bodies/hrcouncil/docs/17session/A.HRC.17.27_en.pdf

Page 35: Tese v11 - final · Este é, hoje em dia, essencial para ganhar vantagem competitiva no mundo dos negócios e para ganhar conhecimento entre yottabytes de dados disponíveis. Especialmente

17

já observar essa mudança: tornaram-se muito mais tecnológicos e apresentam muito mais

montras de produtos.

2.6. BUSINESS INTELLIGENCE E DATA MINING

Quem nunca ouviu a máxima “conhecimento é poder” 6 ? Em quanto aumentaria a

rentabilidade das empresas se conseguíssemos tomar decisões com um certo grau de certeza?

Um dos fatores de sucesso de qualquer empresa moderna é a capacidade de atuar sobre a

informação disponível (Angelis, Polzonetti & Re, 2011). Os Bancos têm acesso direto aos

comportamentos dos seus clientes através dos movimentos dos seus cartões de

débito/crédito, transferências realizadas, autorizações de débito, etc. e têm vindo a acumular

essa informação. Considerando o reduzido custo de storage, o desafio hoje em dia não é a

acumulação desta informação mas sim o tomar partido dela, analisando-a e gerando

conhecimento útil.

Esse desafio torna-se mais complicado quanto mais informação se gera e se armazena e é

ainda agravado pelo aumento do número de pessoas que necessitam de informações distintas

dentro da empresa (Angelis et al., 2011). Estima-se que a quantidade de informação

armazenada nas diversas bases de dados no mundo inteiro duplique a cada 18 (Maheshwari,

2015) ou 20 meses (Witten & Frank, 2005).

Hoje em dia o setor bancário tem um conjunto de desafios: (1) canal de comunicação, dado

que os clientes recebem diversas comunicações e de diversos canais, quer da sua entidade

bancária como da concorrência; (2) interação e personalização, pois os clientes exigem que,

seja qual for o canal e/ou pessoa que esteja do outro lado, os conheçam e às suas

necessidades; (3) número de interações, uma vez que os clientes valorizam o seu tempo e não

querem ser incomodados por propostas não adequadas às suas necessidades.

Para responder aos desafios atuais, não basta guardar informação, mas sim desenvolver uma

capacidade analítica cada vez maior, onde se deve conseguir analisar o mercado, tendências e,

idealmente fazer previsões. Os sistemas de Business Intelligence (BI) são parte fundamental

nesse processo. Sobre os dados, normalmente com grande volume e velocidade, são criados

tipicamente DataMarts como repositórios/agregadores de informação e é sobre estes que se

realizam as análises. Business Intelligence não é mais que um nome agregador que engloba as

arquiteturas, ferramentas, bases de dados, aplicações e metodologias com o objetivo de

analisarem dados para servirem de suporte à decisão (Turban, Aronson & Liang, 2005).

Data Mining é, na sua definição mais simples, a capacidade de detetar de forma automática

padrões nos dados disponíveis (Srivastava & Han, 2011) e é uma etapa no processo na

Descoberta de Conhecimento em Bases de Dados (Figura 9) (Fayyad, Piatetsky-Shapiro &

Smyth, 1996).

6 Frase atribuída a Sir Francis Bacon (1597)

Page 36: Tese v11 - final · Este é, hoje em dia, essencial para ganhar vantagem competitiva no mundo dos negócios e para ganhar conhecimento entre yottabytes de dados disponíveis. Especialmente

18

Figura 9 - Os passos na Descoberta de Conhecimento em Bases de Dados

(adaptado de Fayyad et al., 1996)

Assim, importa definir melhor o que é Data Mining, especialmente porque este conceito é

relativamente recente, tendo emergido apenas nos anos 90 (Nisbet, Elder, & Miner, 2009).

Data Mining é:

• “...a extração não trivial de conhecimento útil implícito e previamente desconhecido a

partir de dados.” (William J. Frawley, Gregory Piatetsky-Shapiro, & Christopher J.

Matheus, 1992, pág. 58);

• “...a aplicação de algoritmos específicos que permitem extrair padrões de dados”

(Fayyad et al., 1996, pág. 39);

• “...o processo de descobrir padrões em dados”(Witten & Frank, 2005, pág. 5);

• “...técnicas que permitem extrair conhecimento útil, previamente escondido nos

dados. Data Mining, permite a descoberta de tendências e padrões em largos

conjuntos de dados.” (Goldenberg, 2008, pág. 159).

• “...o processo de descobrir padrões e tendências, entre grandes volumes de dados

”(Larose & Larose, 2014, pag. 2)

Em suma, Data Mining consiste na extração de conhecimento útil em grandes quantidades de

dados, permitindo às organizações tomar decisões fundamentadas nos mesmos e tem-se

mostrado bastante útil nas mais diversas áreas, como medicina, finanças, comércio,

Marketing, telecomunicações, meteorologia, agropecuária, bioinformáticas, entre outras

(Galvão & Marin, 2009).

As instituições financeiras procuram criar valor para o cliente através do conhecimento gerado

pela análise de dados pois esta permite uma aproximação e uma individualização nunca antes

Page 37: Tese v11 - final · Este é, hoje em dia, essencial para ganhar vantagem competitiva no mundo dos negócios e para ganhar conhecimento entre yottabytes de dados disponíveis. Especialmente

19

possível desta forma massificada. Verifica-se, no entanto, que o principal objetivo do BI nas

entidades bancárias não é a descoberta de conhecimento, mas sim a previsão, mostrando

assim a importância de estimar o futuro como ferramenta de suporte à decisão (Moro, Cortez

& Rita, 2015).

2.6.1. Técnicas de Data Mining

As diferentes técnicas de Data Mining variam entre a sua utilização de objetivos, pressupostos,

conhecimento do problema e dados. Quanto maior for o nosso conhecimento do problema,

maior a nossa capacidade de criar modelos baseados nesse conhecimento. Infelizmente, para

muitos dos problemas existentes, não temos o conhecimento de todas as variáveis nem de

todos os pressupostos.

As técnicas de Data Mining caem normalmente em duas categorias: (1) descritivas e (2)

preditivas. A primeira engloba normalmente técnicas de clustering ou simplesmente de

resumo dos dados, enquanto a segunda pode ser dividida em dois grupos, classificação ou

regressão, dependendo do que tentamos prever. No caso da classificação, tentamos analisar e

enquadrar um novo elemento num conjunto predefinido de classes e na regressão tentamos

atribuir um valor a uma variável continua que é desconhecida.

Existem duas grandes categorias de algoritmos em Data Mining, os supervisionados e os não

supervisionados. Nos primeiros, existe um processo de aprendizagem baseado numa variável

target conhecida, onde se tenta explicar o comportamento dessa variável com o

comportamento das outras variáveis independentes e depois aplicar esse conhecimento para

tentar prever o comportamento de novos elementos. Os não supervisionados têm como

principal objetivo a descrição e a deteção de padrões (Chitra & Subashini, 2013).

Algumas das técnicas de Data Mining são:

• Regressão

Regressão é um modelo estatístico bem conhecido (Maheshwari, 2015), relativamente simples

e popular. Segundo Aggarwal (2014), é provável que cerca de 90% das aplicações reais tenham

começado com uma simples regressão como primeiro modelo. O objetivo é definir uma curva

que “encaixe” nos dados e dessa forma conseguir efetuar previsões (Maheshwari, 2015), i.e.,

uma equação para se estimar a condicional (valor esperado) de uma variável y, dados os

valores de algumas outras variáveis x.

• Árvores de Decisão

As Árvores de decisão são uma família de algoritmos de classificação mais popular (Abdelhalim

& Traore, 2009) (Maheshwari, 2015) e uma forma simples para analisar diversas variáveis. Têm

como principal característica o facto de se obter uma clara representação de como o conjunto

inicial se vai dividindo sendo, assim, um meio importante de comunicação (Maheshwari,

2015). As Árvores de decisão usam a estratégia de dividir para reinar ou seja, a raiz da Árvore

apresenta o atributo mais relevante enquanto os menos relevantes são mostrados nos nós

Page 38: Tese v11 - final · Este é, hoje em dia, essencial para ganhar vantagem competitiva no mundo dos negócios e para ganhar conhecimento entre yottabytes de dados disponíveis. Especialmente

20

subsequentes, com o objetivo de dividir o conjunto de dados em subgrupos pequenos/simples

e homogéneos (Prezepiorski Lemos, Arns Steiner & Nievola, 2005). Normalmente são usadas

para responder a simples questões binárias (Maheshwari, 2015) e os algoritmos mais

populares são: C4.5, CART e CHAID.

Por exemplo, com base na Figura 10, podem-se obter as seguintes regras:

• Se montante = médio e salário = baixo então classe = não.

• Se montante = médio e salário = alto então classe = sim.

Figura 10 - Exemplo de uma Árvore de decisão (adaptado de Prezepiorski Lemos et al., 2005)

• Ensemble

Um modelo ensemble não é mais que a combinação de 2 ou mais modelos (Dean, 2014) por

forma a obter uma melhor solução (Augusty & Izudheen, 2013). Uma analogia que pode ser

feita é um caso de uma junta médica, onde um conjunto de médicos, cada um com os seus

testes, tomam juntos uma decisão única.

Existem diversos tipos como o Baggind, Boosting, por maioria/democrática e o do valor médio.

Com o ensemble ganha-se capacidade preditiva perdendo-se, no entanto, capacidade

explicativa.

o Baggind ou Bootstrap Aggregating, é um método simples mas eficaz para criar

diversas amostras dos dados originais. Estas amostras são feitas

uniformemente mas geralmente contêm duplicados. Estas diferentes amostras

irão criar diversidade no modelo (Flach, 2012).

Page 39: Tese v11 - final · Este é, hoje em dia, essencial para ganhar vantagem competitiva no mundo dos negócios e para ganhar conhecimento entre yottabytes de dados disponíveis. Especialmente

21

o Boosting, é uma técnica de ensemble parecida com o Baggind mas que usa

uma técnica mais sofisticada para criar os diversos conjuntos de amostra

(Flach, 2012).

• Redes Neuronais

As redes neuronais artificiais são uma família de algoritmos data-driven, auto-adaptáveis e

com poucas presunções feitas a priori, aprendendo por exemplo e, como tal, capturando as

relações subtis e desconhecidas entre os dados. São ideais quando temos falta de

conhecimento sobre o problema ou quando este é difícil de especificar, mas temos dados

suficientes (Zhang, Patuwo, & Hu, 1998). Já existe uma extensa bibliografia da sua utilização,

desde a previsão de falências de negócios, taxas de câmbio, cotações de ações, entre outras.

Têm como principal desvantagem o facto de serem uma “caixa negra” ou seja, são de difícil

explicação.

Estas redes são inspiradas no cérebro humano, com vários elementos de processamento

chamados neurónios. Estes são a base de toda e qualquer atividade cerebral, têm como

principal função receber, processar e propagar sinais e têm como principais componentes: a

membrana celular, as dendrites e o axónio. (Figura 11). Normalmente, as redes neuronais são

usadas quando são problemas complexos, com muitos dados e é expectável que o modelo

aprenda ao longo do tempo (Maheshwari, 2015).

Figura 11 - Desenho genérico de um neurónio humano, onde se pode observar os seus constituintes principais (corpo celular, dendritos e axónios). Pode ainda observar-se as terminações sinápticas que fazem a ligação entre o axónio de um neurónio e as dendrites de outros neurónios

Quando um neurónio se torna ativo, a corrente elétrica propaga-se desde o seu corpo celular

ao longo do seu axónio. Quando esta atinge as sinapses, libertam-se as substâncias químicas

conhecidas como neurotransmissores. Estes, por sua vez e consoante o tipo de sinapse,

determinam o grau de transmissão do impulso para o próximo neurónio. O corpo celular do

próximo neurónio decide, com base nos diversos impulsos que lhe chegam, se passa ou não a

corrente ao próximo.

Page 40: Tese v11 - final · Este é, hoje em dia, essencial para ganhar vantagem competitiva no mundo dos negócios e para ganhar conhecimento entre yottabytes de dados disponíveis. Especialmente

22

Muitas das características dos neurónios biológicos foram transportas para os artificiais.

Alguns destes exemplos são:

o Um neurónio pode receber muitos sinais de outros neurónios;

o Uma saída de um neurónio pode estar ligada a muitos outros;

o A intensidade de chegada é controlada por parâmetros numéricos chamados pesos.

Esta função é realizada pelas sinapses nos neurónios biológicos;

o Em ambos os casos, o valor de saída do neurónio pode ser diferente do de entrada no

próximo;

o Tolerância ao ruido: tanto a rede biológica como a artificial são capazes de processar

informação corretamente, mesmo que esta tenha sofrido alterações face à

apresentada na fase de aprendizagem.

Na Figura 12 podemos observar as 3 partes que compõem um modelo típico: o conjunto de

pesos, a função aditiva e a função de ativação. Cada sinal (Xx) é integrado num neurónio e

multiplicado por um peso (Wk), sendo o valor resultante somado com os restantes produtos. O

valor dessa soma é sujeito a uma função de ativação (geralmente não linear) que restringe

superior e inferiormente o valor obtido, por norma limitado aos intervalos [0,1] e [-1,1]. O

valor de Bias (b) permite adequar o valor final obtido.

Figura 12 – Modelo típico de um neurónio

Existem diversos tipos de funções de ativação, sendo alguns das mais comuns:

o Função de ativação Linear

É a função mais básica mas ainda assim bastante usada. A saída linear com p=1,

simplesmente repete o valor de entrada.

Page 41: Tese v11 - final · Este é, hoje em dia, essencial para ganhar vantagem competitiva no mundo dos negócios e para ganhar conhecimento entre yottabytes de dados disponíveis. Especialmente

23

o Função de ativação Binária (threshold)

Função básica, gerando apenas dois valores como resultado: 0 e 1

o Função de ativação Sigmóide

Função muito usada em redes com propagação para a frente, que precisam ter como

saída apenas números positivos. Tem duas vantagens, (1) a introdução de não-

linearidade no modelo e (2) uma função derivada simples.

Os neurónios de uma Rede Neuronal devem estar ligados entre si e dispostos em camada, como podemos observar na Figura 13. Existem três camadas: a de entrada, a de saída e a camada escondida.

• A camada de entrada serve para introduzir os valores e, como tal, o número de nós de entrada é igual ao número de variáveis usadas.

• A camada de saída está relacionada com o nosso problema e, por norma, é também apenas um neurónio, retornando um valor. Por exemplo, numa classificação pode retornar a tipologia do cliente (Cliente Platina, Dourado, etc.) e numa regressão retorna um valor (Sheela & Deepa, 2013). No caso deste projeto, retorna a probabilidade de compra do produto.

• A grande questão está na camada escondida, na escolha do número de camadas e neurónios a usar nestas. Diversos pesquisadores já propuseram abordagens diferentes para este problema, sendo que estas caem normalmente em duas classificações: uma onde se começa com poucos neurónios e vamos aumentando e a segunda onde começamos com demasiados e vamos diminuindo. Não existe um método para a obtenção do número ideal, para além da tentativa/ erro (Sheela & Deepa, 2013). No entanto, quanto ao número de camadas escondidas, a opção é mais fácil do que quanto ao número de neurónios. Isto porque o número de problemas que obtêm ganhos com o uso de mais do que uma camada é muito reduzido. Assim, apenas uma camada escondida é suficiente para a grande maioria dos problemas (Macukow, 2016). Relativamente aos neurónios, se usarmos a mais, corremos o risco de obtermos um modelo com overfitting ou seja, demasiado próximo aos dados da aprendizagem e perdendo assim capacidade preditiva, pois tem mais erro ao generalizar. Por outro lado, se usarmos neurónios a menos podemos correr o risco de underfitting, i.e., o modelo terá demasiados erros e também irá perder capacidade preditiva. Deste modo e de acordo com diversos estudos realizados, para a grande maioria dos problemas e como regra geral, este número está entre um e sete.

Page 42: Tese v11 - final · Este é, hoje em dia, essencial para ganhar vantagem competitiva no mundo dos negócios e para ganhar conhecimento entre yottabytes de dados disponíveis. Especialmente

24

Figura 13 - Exemplo de um MLP (Multilayer Perceptron)

Existem dois tipos de redes: com e sem realimentação. Nas redes sem realimentação, o sinal

percorre a rede apenas numa direção e os neurónios da mesma camada não estão ligados; nas

redes com realimentação o sinal percorre nos dois sentidos e os valores de saída de alguns

neurónios alimentam outros da mesma camada ou anteriores. Esta metodologia pretende

perceber quais os pesos que mais contribuíram para o erro gerado e ajustá-los por forma a

melhorar o modelo (Rojas, 1996).

Tkáč e Verner fizeram em 2016 um levantamento das diversas pesquisas relacionadas com as

Redes Neuronais entre 1994 e 2015, tendo identificado 412 artigos publicados (Figura 14). Mas

mais importantes que o número de artigos são as suas áreas de referência. Conforme

podemos observar na Figura 15, as publicações têm-se focado em problemas financeiros e

falências no mercado financeiro, suporte à decisão e análise de crédito, i.e., em diversos

problemas complexos. Da análise dos tipos de redes neuronais referidas, verificou-se que

diversos tipos foram usados, mas o mais frequente foi o multicamada com apenas uma

direção.

O que se nota é que a resistência de usar as redes neuronais, gerada em parte pelo facto de

serem consideradas “caixas negras”, tem vindo a diminuir e, como tal, começa a haver cada

vez mais pesquisas e artigos com base nestas.

Page 43: Tese v11 - final · Este é, hoje em dia, essencial para ganhar vantagem competitiva no mundo dos negócios e para ganhar conhecimento entre yottabytes de dados disponíveis. Especialmente

25

Figura 14 - Distribuição de artigos relacionados com Redes neuronais por ano (retirado de Tkáč e Verner, 2016)

Figura 15 - Distribuição de artigos relacionados com Redes neuronais por área (Retirado de Tkáč e Verner, 2016)

As redes neuronais têm sido usadas com sucesso para resolver muitos problemas de previsão,

especialmente o MLP (multilayer perceptron) (Zhang et al., 1998). Existem ainda outras

Page 44: Tese v11 - final · Este é, hoje em dia, essencial para ganhar vantagem competitiva no mundo dos negócios e para ganhar conhecimento entre yottabytes de dados disponíveis. Especialmente

26

famílias de algoritmos, tais como: algoritmos genéticos, algoritmo de otimização baseado na

teoria da evolução; Fuzzy Set, algoritmos que lidam com a incerteza das variáveis (Bhardwaj,

2016) mas, não tendo sido usados neste projeto, optou-se por não se descrever os mesmos.

2.6.2. Os passos do processo de Data Mining

Qualquer processo de Data Mining tem que passar obrigatoriamente por alguns passos,

nomeadamente: recolha e seleção dos dados, limpeza e transformação dos dados, a

modelação propriamente dita e a validação dos resultados

• Recolha e seleção dos dados

Para se poder trabalhar sobre os dados é necessário, primeiramente, recolhê-los.

Considerando que é uma tarefa demorada e muitas vezes complexa, especialmente se

estivermos a falar de vários tipos de dados e/ou de fontes, muitas das empresas já

desenvolveram data warehouses para facilitar esta tarefa.

Depois, há que saber selecioná-los. Sabemos já que a informação duplica a cada 18 meses,

pelo que é necessário saber selecionar os dados. Estes devem ser relevantes para a tarefa

em mãos.

• Limpeza e transformação dos dados

A qualidade dos dados é fundamental para o sucesso de qualquer projeto de Data Mining

e esta qualidade normalmente depende muito da fonte e da sua natureza. Se

compararmos dados internos com dados de, por exemplo, redes sociais é fácil

compreender essa diferença. Os primeiros serão inevitavelmente mais precisos e

consistentes.

Por norma, esta fase é a mais demorada no projeto de Data Mining, podendo ocupar até

60% ou 70% do tempo total.

Alguns exemplos são:

o Remover duplicados: muitas vezes, pode receber-se a mesma informação de

fontes diferentes e quando se juntam diferentes fontes é necessário fazer essa

validação e remoção.

o Tratamento de valores omissos: O não tratamento dos valores omissos pode

afetar a capacidade preditiva do modelo, assim é necessário validar e definir como

tratar os valores omissos, sendo que para essa definição muito impacta quais as

variáveis afetadas e a quantidade de omissos. Existem para isso diversas formas,

desde a simples remoção dos registos com valores omissos à sua imputação com

valores médios ou de default, entre outros.

o Criação de novas variáveis: algumas variáveis podem ser combinadas por forma a

criar novas e assim diminuir o número total de variáveis. Por exemplo, o cálculo do

valor do saldo médio ao invés de vários valores ao longo do tempo.

o Transformação de variáveis continuas: algumas variáveis podem ser combinadas

em conjuntos para facilitar a análise, Por exemplo, o valor do rendimento pode ser

combinado em três conjuntos: alto, médio e baixo.

Page 45: Tese v11 - final · Este é, hoje em dia, essencial para ganhar vantagem competitiva no mundo dos negócios e para ganhar conhecimento entre yottabytes de dados disponíveis. Especialmente

27

o Transformação de elementos para permitir a comparação: por vezes os diversos

elementos estão em escalas diferentes e é necessário transformá-los para a

mesma escala de modo a permitir a comparação. Dois exemplos simples são

comparar moedas (Euro versus Iene) ou escalas diferentes (Euro versus Milhares

de Euro).

o Valores extremos ou isolados (outliers): estes valores devem ser revistos e

possivelmente removidos.

o Deve-se garantir que a amostra é representativa do fenómeno que se irá estudar,

não havendo tendências (bias). Dados a menos, no todo ou em parte, podem

implicar na capacidade de previsão do modelo porque este fica demasiado

específico e perde a capacidade de generalizar.

• Validação dos resultados

Existem dois grandes tipos de processos de Data Mining: supervisionados e não

supervisionados. Nos supervisionados (grupo onde se encontra este projeto), constrói-se o

modelo com base em informação passada, por forma a prever eventos futuros. Assim

conseguimos validar quantos casos o nosso projeto classifica corretamente. Ou seja, por

norma dividem-se os dados da amostra em, pelo menos, 2 grupos (ainda se pode criar um

3º grupo): o primeiro grupo que serve de base para a aprendizagem e o segundo grupo

para validação. Este segundo grupo é constituído também por informação passada, logo

conseguimos dizer com toda a certeza quantos casos foram bem ou mal classificados,

construindo assim o que se chama matriz de confusão (Figura 16) e que afere a capacidade

de previsão/generalização do modelo criado.

Algumas medidas comuns são:

• Capacidade de Previsão = (VP+VN) / # de Predições Totais

• Erro = (FP+FN) / # de Predições Totais

• Precisão = VP / (VP+FP)

Figura 16 - Matriz de confusão (adaptado de Maheshwari, 2015)

Page 46: Tese v11 - final · Este é, hoje em dia, essencial para ganhar vantagem competitiva no mundo dos negócios e para ganhar conhecimento entre yottabytes de dados disponíveis. Especialmente

28

Outras medidas de comparação são o Lift e o ganho. Ambas são medidas de efetividade do

modelo pois comparam os resultados obtidos com uma versão aleatória ou com o resultado de

outro modelo. São ainda ferramentas visuais importantes na escolha entre modelos e

permitem, adicionalmente, saber qual o ponto em que o modelo se torna menos útil, i.e., se,

por exemplo, ao analisar o gráfico verificamos que a campanha só irá ser efetiva em 70% do

nosso público alvo, podemos ajustar o nosso universo. O gráfico de ganhos está relacionado

com o do Lift mas incorpora o valor de lucro de cada modelo.

2.6.3. Metodologias

Nesta seção apresentam-se duas das metodologias mais usadas para a implementação de

projetos de Data Mining, CRISP-DM e SEMMA, indicando a que se irá usar neste projeto.

2.6.3.1. CRISP-DM

Esta metodologia foi criada em 1996, por um consortium originalmente composto pela

DaimlerChryrler (Daimler-Benz, na altura), SPSS (ISL na altura) e NCR, significando “Cross-

Industry Standard Process for Data Mining” (Ncr et al., 1999, p. 0). É composto por 6 fases

(Figura 17 e Figura 18) e tem como principal vantagem ser independente do setor e da

ferramenta de análise de dados utilizada.

Figura 17 - Fases da Metodologia CRISP-DM (adaptado de Wirth e Hipp, 2000)

Page 47: Tese v11 - final · Este é, hoje em dia, essencial para ganhar vantagem competitiva no mundo dos negócios e para ganhar conhecimento entre yottabytes de dados disponíveis. Especialmente

29

(1) Análise e conhecimento do negócio

Será provavelmente a mais importante, pois uma incorreta análise pode colocar em causa

todo o projeto e, consequentemente, as suas conclusões. Pretende-se com esta fase inicial

entender o negócio do ponto de vista lógico, perceber qual o seu estado atual, objetivos e

necessidades e converter esse conhecimento em definições que possam ser usados no projeto.

(2) Compreender os dados

Nesta fase, realiza-se uma recolha e análise inicial de dados, por forma a nos familiarizarmos e

a entendermos os mesmos, para identificar problemas de qualidade de dados e tentar

descobrir os primeiros insights. Deve-se assim, recolher informação acerca dos dados, dos

campos, realizar alguma exploração e descrição dos mesmos e determinar se os dados que

temos disponíveis têm qualidade, são suficientes e adequados para a obtenção dos objetivos

definidos na primeira fase.

(3) Preparação dos dados

Nesta fase, com o conhecimento criado nas duas anteriores, é construído o dataset final para

análise. Nesta fase, que inclui todas as atividades até a obtenção do dataset final incluem-se,

entre outras, a seleção, integração, limpeza e transformação dos dados. Isto pode significar

perder atributos e/ou variáveis que se definiram como não importantes para a análise em

questão e criação de novos atributos ou métricas. Um exemplo de criação de novos atributos é

a transformação de atributos contínuos em categóricos.

(4) Modelação

Esta fase divide-se em quatro subfases: a seleção das técnicas de modelação; a geração do

design de teste; a criação do modelo e a avaliação do mesmo.

Normalmente, esta avaliação faz-se comparando os resultados dos diversos modelos

escolhidos face ao conhecimento do negócio e aos objetivos definidos.

(5) Avaliação do modelo

Nesta fase é realizada uma avaliação mais detalhada, realiza-se uma revisão ao processo e

determina-se, caso necessário, os próximos passos.

(6) Implementação

Esta é a ultima fase e é onde planificado e realizado o processo de implementação do modelo.

Como última tarefa deve-se ainda realizar uma revisão do projeto total, onde devem ser

identificados os pontos positivos e negativos, bem como os de melhoria a implementar no

futuro e realizar o relatório final (Shearer, 2000).

Page 48: Tese v11 - final · Este é, hoje em dia, essencial para ganhar vantagem competitiva no mundo dos negócios e para ganhar conhecimento entre yottabytes de dados disponíveis. Especialmente

30

Figura 18 - Fases da Metodologia CRISP-DM (adaptado de Wirth e Hipp, 2000)

2.6.3.2. SEMMA

SEMMA (Sample, Explore, Modify, Model and Assess) foi desenvolvido pela SAS e a grande

diferença (desvantagem para alguns) em relação à metodologia CRISP-DM, é deixar de fora o

entendimento do negócio e focar-se mais na modelação dos dados. Foi desenhado para ser

usado especificamente com o SAS Enterprise Miner, que é o software utilizado neste trabalho

de projeto e, como tal, será esta a metodologia usada. Tem, tal como o nome indica, 5 fases:

- Sample (Amostra) – Esta etapa consiste na criação e categorização de uma amostra dos

dados, sendo que esta deve ser pequena o suficiente para manipular rapidamente, mas conter

informações suficientes e ser representativa da amostra total;

- Explore (Explorar) – Nesta etapa dá-se uma exploração dos dados, procurando ligações e

tendências com o intuito de tentar compreender os mesmos;

- Modify (Modificar) – Esta etapa consiste em modificar os dados, retirando variáveis que não

trazem valor acrescentado e/ou criando novas para incorporar a lógica de negócio e aumentar

o poder preditivo;

- Model (Modelar) – Nesta etapa modelam-se os dados e, para tal, devemos selecionar e

aplicar o melhor modelo para a situação em causa;

- Assess (Verificar) - Esta etapa consiste na avaliação dos resultados obtidos.

2.6.3.3. CRISP-DM versus SEMMA

Numa primeira abordagem, se compararmos a metodologia SEMMA com a CRISP-DM,

podemos até dizer que são equivalentes. No entanto, se analisarmos as duas com mais

atenção e as comparamos verifica-se que a metodologia CRIS-DM dá uma importância

particular a compreensão do negócio, enquanto a metodologia SEMMA é mais baseada nos

Page 49: Tese v11 - final · Este é, hoje em dia, essencial para ganhar vantagem competitiva no mundo dos negócios e para ganhar conhecimento entre yottabytes de dados disponíveis. Especialmente

31

dados. Sendo esta uma das principais razões que originou a utilizou a utilização desta

metodologia neste trabalho.

Podemos verificar na Tabela 2 um resumo das correspondências.

Tabela 2 – Resumo das correspondências entre SEMMA e CRISP-DM

(adaptado de Azevedo e Santos, 2008)

2.6.4. Exemplos de aplicações de Data Mining no setor financeiro

No Setor Financeiro existem inúmeras tarefas que podem ganhar com a utilização de técnicas

de Data Mining, nomeadamente gestão de risco de crédito, segmentação de clientes, retenção

de clientes, deteção de fraudes e deteção de lavagem de dinheiro. Segundo Maditinos e

Chatzoglou (2004), este é um dos sectores onde mais se usam redes neuronais para previsão.

Malhotra e Malhotra realizaram em 2003 um estudo sobre a avaliação de crédito pessoal com

redes neuronais, em que avaliaram empréstimos de 12 entidades bancárias (Credit Unions).

Nesse estudo, composto por 1078 observações e 6 variáveis: (1) se tem ou não casa própria,

(2) há quantos anos vive na casa, (3) se tem ou não cartão de crédito, (4) rácio entre o total de

pagamentos e o (5) rendimento e o rácio entre o total de dívidas e o (6) rating do crédito, foi

utilizado um modelo com back propagation, tendo conseguido obter uma melhoria de 5% na

identificação de maus empréstimos e de cerca de 1% nos bons.

Hormozi & Giles no seu artigo em 2004, referem o Data Mining como uma arma na

competição entre Bancos e indicam como utilizações:

• O Marketing, onde o Data Mining pode identificar grupos de clientes, agrupando-os por

interesses, rendimentos ou hábitos de consumo, por forma a identificar quais os produtos

a oferecer aos clientes;

• A Retenção de Clientes, onde se poderá identificar quais os clientes em que existe risco de

perder;

• A gestão de risco, onde se considera risco não apenas a fraude, mas também a

competição;

Page 50: Tese v11 - final · Este é, hoje em dia, essencial para ganhar vantagem competitiva no mundo dos negócios e para ganhar conhecimento entre yottabytes de dados disponíveis. Especialmente

32

• Aquisição e retenção de clientes.

Segundo Bhasin (2006), factores como a redução do custo de armazenamentos de dados, a

criação de melhores processadores a custos também mais reduzidos e o desencolvimentos de

mais e melhores algoritmos, fazem com que as empresas olhem com cada vez mais interesse

para o Data Mining. Atualmente, este começa a ser reconhecido como ferramenta de suporte

à decisão, que pode ajudar a criar novas oportunidades de negócio, a servir melhor os clientes

e a aumentar a efectividade da organização. Refere ainda que a criação da Banca Online e a

sua aceitação e utilização cada vez mais generalizada, vieram facilitar a recolha de dados para

tratamento e análise. Mas, por outro lado, e devido ao aumento dessa quantidade de

informação, há uma maior dificuldade na análise e é assim necessária a implementação de

técnicas que permitam análises de grandes quantidade de dados em pouco tempo. O autor

identifcas as seguintes areas/actividades como as que têm principalmente a ganhar com a

utilização de técnicas de Data Mining.

• Marketing, a capacidade de usar os dados para identificar as necessidades individuais de

cada cliente, por forma a oferecer o produto certo, i.e., os produtos que os clientes

realmente querem e necessitam;

• Cross-Selling, utilizar o conhecido adquirido para aumentar a carteira de produtos detidos

pelo cliente e, consequentemente, a sua retenção;

• Gestão de Risco, identificar créditos em risco de incumprimento e utilizar o credit scoring

como apoio à decisão;

• Deteção de Fraudes, que começa a ser cada vez mais uma preocupação das entidades

bancárias e identifica duas abordagens diferentes: (1) fazendo a ligação com a base de

dados de um terceiro e, após análise das tendências desta, compara-as com as da sua base

de dados e (2) utilizando apenas dados internos;

• Aquisição e retenção de clientes, identificar novos clientes e quais os clientes atuais em

risco de saírem.

Yeh e Lien realizaram, em 2009, uma comparação entre diversas famílias de algoritmos com o

objetivo de prever a possibilidade de contas de cartão de crédito entrarem em incumprimento.

Concluiriam que entre as 6 famílias que testaram - K-Nearest Neigbor, Regressão logística,

análise discriminante, Naı v̈e Bayesian, Árvores de Decisão e Redes Neuronais - foram estas

últimas que obtiveram os melhores resultados. Dizem ainda que é preferível calcular a

probabilidade do cliente entrar em incumprimento ao invés de classificar o crédito apenas,

como em risco ou não. Consideram portanto, que as redes neuronais devem usadas para

realizar scoring ao invés das outras técnicas.

Em 2009, Martinez, da Hora, Palotti, Meira e Pappa realizaram um estudo com duas ações na

bolsa de BM&FBOVESPA (Bolsa de Valores, Mercadorias e Futuros de São Paulo). A intenção

era criar um sistema de day-trading e compará-lo com os que estavam implementados na

altura. Assim, a rede neuronal tinha alguns dados históricos (últimos valores de abertura e

fecho, valores mais altos e mais baixos dos últimos dias) e recebia, a cada 15 minutos, o valor

de mercado dando um conselho de como agir (comprar ou vender). O resultado das redes

Page 51: Tese v11 - final · Este é, hoje em dia, essencial para ganhar vantagem competitiva no mundo dos negócios e para ganhar conhecimento entre yottabytes de dados disponíveis. Especialmente

33

neuronais teve cerca de 50% menos erros que os outros métodos existentes, duplicando o

capital do investidor.

Ainda em 2009, Bakar & Tahir compararam duas técnicas (Redes neuronais e Regressão linear)

para tentar prever a performance de 13 Bancos Malásios, usando para tal dados entre 2001 e

2006. Concluíram que a rede neuronal obtinha os melhores resultados, apesar de se perder a

capacidade de explicação.

Pulakkazhy e Balan (2013) identificam como áreas onde o sector bancário tem usado técnicas

de Data Mining:

• Gestão de Risco e de Incumprimento - como forma de fazer Credit Scoring e de identificar

quais os créditos que vão entrar em incumprimento;

• Marketing - na gestão do cliente, por forma a analisar o comportamento dos clientes e

equipar o Banco do conhecimento dos fatores que influenciaram o cliente no passado e

das suas necessidades futuras;

Na segmentação dos clientes, por forma a criar campanhas orientadas ao segmento e no

Cross-selling por regras de associação;

• Deteção de Fraudes - os Bancos perdem anualmente milhões devido a fraudes,

especialmente em movimentos em cartões de crédito. Assim, e como forma de mitigar

estes movimentos, deve-se analisar e identificar os que saem dos padrões conhecidos e

auditar esses movimentos.

• Lavagem de dinheiro - com o aumento da legislação sobre o assunto é necessária a

implementação de métodos cada vez mais robustos e rápidos para identificar estes

movimentos pois de outro modo as entidades bancárias incorrem em multas avultadas.

Na publicação, os autores identificam algumas das famílias de algoritmos que usam: K-Means,

Árvores de Decisão, Regressão Logística e Redes Neuronais são as mais usadas.

Chitra e Subashini (2013) identificam o Data Mining como um fator de suporte à decisão cada

vez mais estratégico nas empresas, especialmente considerando que começa a haver, na

opinião dos autores, a mudança de foco da aquisição de novos clientes para a sua retenção e,

como tal, é necessário saber identificar quais os clientes mais e menos rentáveis. Referem três

grandes utilizações (Figura 19):

• A retenção de clientes, onde usam Árvores de Decisão para classificar os clientes como

“seguros” e “não seguros”. Após esse passo, tentam identificar quais os motivos que estão

a causar a saída do cliente, por forma a agir proactivamente, tentando evitar a perca

destes.

• A prevenção de fraudes, na aprovação automática de cartões de crédito, usando para tal

três famílias diferentes: Árvores de decisão, suport vector machines e regressão logística;

• A deteção de fraudes, fazendo clustering das transações para identificar os padrões e

analisando os movimentos que não se enquadram nestes.

Page 52: Tese v11 - final · Este é, hoje em dia, essencial para ganhar vantagem competitiva no mundo dos negócios e para ganhar conhecimento entre yottabytes de dados disponíveis. Especialmente

34

Figura 19 - A utilizações do Data Mining no sector bancário

(adaptado de Chitra e Subashini, 2013)

Jahnavi e Katyayani (2014) indicam como utilização do Data Mining:

• No Marketing, para determinar o comportamento do consumidor em referência ao

produto, preço e canal de distribuição e, desta forma, analisar as melhores formas de

promover os produtos, de melhorar a qualidade do mesmo e o serviço prestado como

forma de ganhar vantagem competitiva.

Analisar histórico como forma de detetar tendências futuras e antecipar comportamentos.

Segmentar clientes, por forma a identificar os clientes rentáveis ou não rentáveis.

Cross-Selling, identificando as necessidades dos clientes e oferecendo produtos por forma

a aumentar a carteira de produtos detidos, fomentando a retenção desses.

• Na Gestão de Risco, por forma a analisar a carteira de crédito e agir proativamente nos

que forem identificados como problemáticos.

• Na Gestão de Portfólio, como forma de aplicar capital entre diversos instrumentos para

maximizar o retorno.

• Na Deteção de Fraudes e Lavagem de dinheiro, de forma a analisar os movimentos para

detetar os que poderão ser fraudulentos ou provenientes de lavagem de dinheiro e agir

proativamente, por exemplo não autorizando esses movimentos ou bloqueando mesmo as

contas de crédito associadas.

• Na Retenção de Clientes, por forma a identificar quais os clientes leais e quais os que irão

mudar de Banco, por forma a proativamente contactá-los, aumentando assim a taxa de

retenção e de rentabilidade dos mesmos.

• Nas Taxas de Câmbio, a estabilidade das taxas tem um papel importante no balanço de

muitas economias e/ou empresas. Assim, pode-se analisar os padrões históricos das taxas

e tentar antever situações em que estas saiam dos intervalos ideais para, novamente, se

poder atuar proativamente.

• No Trading, tal como na gestão de portfólios, estimar os melhores investimentos no curto

prazo, por forma a maximizar o lucro.

Page 53: Tese v11 - final · Este é, hoje em dia, essencial para ganhar vantagem competitiva no mundo dos negócios e para ganhar conhecimento entre yottabytes de dados disponíveis. Especialmente

35

Um outro estudo, de Moro, Cortez, e Rita (2014), realizado numa entidade Bancária

Portuguesa - onde o problema era a otimização de uma campanha de telemarketing para a

subscrição de um depósito a longo prazo -, considerou dados entre 2008 e 2013, com um total

de 52.994 registos. Entre os quatro modelos comparados (Regressão, Árvores de Decisão,

Redes Neuronais e Support Vector Machines), os melhores resultados foram obtidos pelas

redes neuronais, com uma melhoria de 29% versus o praticado na altura.

Ainda em 2014, Chen, Han, Hu, Lu, e Sun tendo como problema saber se um cliente subscreve

ou não um deposito a termo, compararam a capacidade de previsão de 4 modelos (Regressão

Logistica, Rede Neuronal, Árvore de decisão e K-NN). Os dados usados são de acesso publico7 e

dizem respeito a uma entidade do setor bancario português, datados entre maio de 2008 e

novembro de 2010. Concluiu-se que o melhor modelo foi o da rede neuronal, neste caso

usando uma rede neuronal com backpropagation, testando 275 combinações de parâmetros

diferentes (número de camadas, rácio de convergência, diferentes valores iniciais de peso,

entre outros) com um máximo de 500 interações.

Thapliyal, (2015) refere como utilizações de Data Mining:

• No Marketing, analisar as tendências para tentar prever a procura e o comportamento dos

clientes e ainda identificar os clientes mais e menos rentáveis;

• No Cross-Selling, identificar quais os produtos que se devem tentar propor aos clientes,

por forma a aumentar os produtos detidos pelos clientes e, consequentemente, a sua

retenção;

• Na Gestão de Risco, identificar os clientes com maior risco para se poder atuar

preventivamente e assim diminuir o risco na sua globalidade; deteção de fraudes,

identificar de forma proativa os movimentos fraudulentos, por exemplo nos cartões de

crédito dos seus clientes, diminuindo o risco e aumentando o valor percebido e a

satisfação do cliente e consequentemente a sua retenção;

• Na aquisição e retenção de clientes, não só permite identificar novos clientes, como

permite identificar os clientes que estamos em risco de perder e assim agir

proactivamente na sua retenção.

Em 2017, Batmaz, Danışoğlu, Yazıcı, e Kartal-Koç, compararam 7 algoritmos diferentes, tendo

como objetivo a identificação de qual destes se comportava melhor na identificação das taxas

de depósito num Banco na Turquia. Para tal usaram dados entre janeiro de 2010 e julho de

2012. Os três mais bem-sucedidos foram: MARS, Redes neuronais e Árvores de Decisão.

O artigo de Zhuang, Zhang, Yan e Liu (2016), acerca da utilização de Data Mining para melhorar

as campanhas de marketing de um Banco tem grande importância para este projeto. Não só

7 http://archive.ics.uci.edu/ml/datasets/Bank+Marketing

Page 54: Tese v11 - final · Este é, hoje em dia, essencial para ganhar vantagem competitiva no mundo dos negócios e para ganhar conhecimento entre yottabytes de dados disponíveis. Especialmente

36

porque o Banco em causa é português, como indica explicitamente todas as variáveis usadas.

Especificamente, este artigo procurar melhorar o resultado de uma campanha de subscrição

de um depósito, usando para tal três modelos diferentes: Support vector machines, Árvores de

decisão e gradient descent.

Zhuang, Zhang, Yan e Liu usaram como base para a sua análise 17 campanhas ocorridas entre

maio de 2008 e novembro de 2010 e 17 variáveis divididas em três grupos: (1) dados do

cliente, (2) informação do último contacto na campanha e (3) outros dados de contacto em

campanhas. O DataSet incial era de 79.354 registos; no entanto, optaram por retirar os

registos com valores em falta, resultando assim num DataSet final de 45.211 registos.

As variáveis escolhidas foram:

1. Dados do Cliente

• Idade

• Trabalho (Tipo de Trabalho)

• Estado Matrimonial (Casado, Divorciado, Solteiro)

• Educação (Desconhecido, Secundário, Primário, Superior)

• Default (se tem valores em incumprimento)

• Saldo (valor médio anual do saldo – em euros)

• Se tem casa propria (sim/não)

• Se tem empréstimos (sim/não)

2. Informação do último contacto na campanha

• Canal de Comunicação (Desconhecido, telefone fixo, telefone móvel)

• Mês do último contacto

• Duração (duração do contacto em segundos)

3. Outros dados de contacto em campanhas

• Número de contactos nesta campanha

• Número de dias passados desde o contacto na companha anterior (-1 se não tiver

sido contactado)

• Número de contactos desde sempre a este cliente

• Variável target: se subscreveu o deposito (sim/não)

Os autores usaram como método de comparação entre modelos o erro médio entre o falso

positivo e o verdadeiro positivo, conseguindo atingir o melhor resultado com as Árvores de

decisão: 15%.

Verifica-se ao longo do tempo um incremento da utilização do Data Mining no sector bancário

e uma evolução nas suas utilizações. Cada vez mais empresas do sector financeiro têm usado

técnicas de Data Mining para identificar ofertas para oferecer aos clientes, por forma a

fomentar o cross e up-selling e aumentar a retenção dos clientes (Hormazi & Giles, 2004)(Hu,

2005) (Van den Poel & Lariviere, 2003).

Page 55: Tese v11 - final · Este é, hoje em dia, essencial para ganhar vantagem competitiva no mundo dos negócios e para ganhar conhecimento entre yottabytes de dados disponíveis. Especialmente

37

Atualmente, o Data Mining tem um papel obrigatório em muitas organizações. No atual

cenário, uma entidade bancária gera grandes volumes de dados e é crucial que os utilize em

prol da retenção do cliente, deteção e prevenção de fraudes, análise de risco e gestão de

marketing (Preethi & Vijayalakshmi, 2017).

2.7. SATISFAÇÃO, FIDELIZAÇÃO E CROSS-SELLING

Não sendo objeto deste trabalho o estudo ou a avaliação destes conceitos, estes são peças

fundamentais nas empresas. Atualmente, a competitividade das empresas é grandemente

determinada pela sua capacidade de satisfazer as necessidades dos seus clientes da melhor

maneira possível. Isto significa fornecer ao cliente os produtos ou serviços que vão ao

encontro das suas necessidades, seja a nível temporal, de qualidade e de preço (Rogalewicz &

Sika, 2016).

Um estudo realizado em 2014, no sector de serviços da Malásia, sustenta que uma boa

qualidade de serviço, pode causar um aumento no valor percebido e na confiança depositada,

logo conduzir a um incremento de clientes fidelizados. Sendo que é genericamente aceite que

um incremento no valor percebido pode ser uma vantagem competitiva para a empresa

(Rasheed & Abadi, 2014).

A satisfação do cliente é a peça central do conceito do Marketing (Fournier & Mick, 1999). No

entanto, essa satisfação reflete o julgamento individual da pessoa entre o valor percebido e a

expetativa criada (Kotler & Keller, 2012). Esse julgamento pessoal depende de muitos fatores,

entre eles a relação existente (lealdade) com a entidade, pois é mais natural criar sentimentos

positivos com uma marca com a qual já existe uma relação de confiança (Kotler & Keller,

2012). Como referido pelo mesmo autor, obter clientes leais é a chave para qualquer negócio.

É preciso realçar que a ligação entre um cliente satisfeito e um cliente fidelizado não é linear

(Kotler & Keller, 2012). No entanto, um cliente altamente satisfeito permanecerá leal mais

tempo, comprará mais, gerará publicidade positiva, será menos sensível a propostas

concorrentes, quer a nível de preço ou de produto e custa menos a ser atendido (Kotler &

Keller, 2012).

Ouvir os clientes é fundamental à relação da empresa com estes (Kotler & Keller, 2012),

podendo-se ainda criar programas de fidelização onde se recompensam clientes mais

frequentes ou com valores mais altos, como outra forma de criar uma relação com estes.

Um estudo realizado sobre a ligação entre cross-selling e fidelização indica que esta é muito

importante antes de se realizar cross-selling, pois o objetivo deve ser sempre a satisfação do

cliente e o seu valor percebido e não apenas a venda (Drèze & Bonfrer, 2008). Adicionalmente,

o mesmo estudo indica que as estratégias de cross-selling não devem focar-se apenas em

quantos produtos o cliente tem, mas sim em diferentes tipos, i.e., diversificar a carteira do

cliente.

Desde há muito, esta tem sido identificada como uma estratégia efetiva para o aumento de

retenção dos clientes (Drèze & Bonfrer, 2008) e está intimamente ligada ao aumento de

vendas (Zboja & Hartline, 2012). É importante notar que grande parte dos clientes de uma

Page 56: Tese v11 - final · Este é, hoje em dia, essencial para ganhar vantagem competitiva no mundo dos negócios e para ganhar conhecimento entre yottabytes de dados disponíveis. Especialmente

38

instituição bancária, normalmente utiliza apenas um ou dois serviços dessa instituição (Knott,

Hayes, & Neslin, 2002).

Mack (1997) indica haver quatro razões fundamentais para a prática de cross-selling: (1) o

facto de querer fazer cross-selling, obriga a uma análise das coberturas de cada cliente,

permitindo criar recomendações específicas para cada um; (2) a retenção de clientes com

cross-selling aumenta em 61% comparativamente com os que não tem; (3) clientes com cross-

selling geram mais 31% de receitas que os que não têm; (4) os agentes têm mais hipóteses de

vender a um cliente existente do que a um novo cliente (Mack, 1997).

Na perspetiva do cliente, Soureli, Lewis e Karantinou, no seu artigo em 2008, indicam que a

intenção de cross-buy do cliente não depende de apenas um aspeto, mas sim de 4: (1)

Imagem, (2) Confiança, (3) Satisfação e (4) Valor percebido.

K.-N. Lau, Chow e Liu (2004) referem os 5 principais objetivos do Marketing no setor bancário:

(1) cross-selling, (2) retenção de clientes, (3) aumentar a utilização, (4) compra ou subscrição

de novos produtos e (5) custos/qualidade de serviço. Li, Sun e Wilcox (2005) examinaram

padrões entre clientes bancários e sugeriram, com base no seu estudo empírico, que o melhor

target para cross-selling são homens, com maior nível de educação e maior rendimento.

Rosen (2004) aponta 5 pontos principais para as estratégias de cross-selling falharem: (1)

Compreensão do risco, (2) Gestão de Informação, (3) Formação, (4) Coaching e (5) Motivação.

“Cross-selling has become, for many banks and financial institutions,

the equivalent of losing weight or exercising. Everybody wants to do

it, spends a lot of time and energy planning to do it, but, at the end of

the day, the results fall far short of the goal” (Rosen, 2004).

“Cross-selling happens only when we thoroughly understand the

banking needs of the customer. This identification of needs is a

function of the degree of customer relationship” (KV Kamath et al., 2003).

“Marketing Is Dead, and Loyalty Killed It” (Jutkowitz, 2015)

2.8. NEXT BEST OFFER

E se a organização conseguisse antecipar a necessidade do cliente, antes mesmo deste saber

dessa necessidade? Ou simplesmente, dar uma resposta no momento de um pedido de um

produto de crédito? Ou ainda propor-lhe produtos em campanha que são da sua necessidade

e não apenas porque faz parte do segmento alvo. Não aumentaria a sua satisfação e a sua

retenção? E, consequentemente, também a sua rentabilidade?

Enquanto no modelo atual de campanhas no sistema bancário, os clientes são selecionados

pelo seu valor para serem alvo da comunicação de um produto específico, o modelo Next Best

Offer, doravante NBO, seleciona o melhor produto para satisfazer as necessidades do cliente

Page 57: Tese v11 - final · Este é, hoje em dia, essencial para ganhar vantagem competitiva no mundo dos negócios e para ganhar conhecimento entre yottabytes de dados disponíveis. Especialmente

39

(Lau, Sheila Wong, Margaret Ma & Connie Liu, 2003). Esta visão centrada no cliente baseia-se

na compreensão das suas necessidades, objetivos e valores para a tomada de decisão e é uma

vantagem competitiva face às outras entidades bancárias.

O conceito de NBO não é recente. É uma abordagem diferente, significa conhecer e

compreender o cliente por forma a antecipar as suas necessidades. A questão é que no

passado isso significava que alguém teria de pessoalmente procurar essa informação o que por

si não é um problema quando falamos de um negócio convencional, com umas dezenas de

clientes, como numa loja de bairro onde a pessoa da loja conhece os seus clientes pelo nome e

sabe as suas preferências. No entanto, tal deixa de ser possível quando falamos de lojas com

um grande número de clientes. É aqui que entra a tecnologia, como capacitador.

Lau, Wong, Ma e Liu (2003) relatam, na sua publicação, a implementação do primeiro sistema

NBO em Hong Kong e, entre os diversos passos de implementação do seu projeto (Figura 20),

referem quatro componentes principais: (1) compreender os clientes - o desafio não é obter

informação acerca do cliente mas usar essa informação da melhor forma; (2) tratamento dos

dados - o desafio aqui é o tratamento, standardização, classificação e reorganização dos dados,

para que estes possam ser utilizados; (3) integração com os objetivos da entidade - identificar,

alinhando com os objetivos da entidade, qual o produto que dever ser oferecido, com que

características e através de qual canal; (4) feedback - de forma a monitorizar o sistema, deve

ser criado um sistema de feedback para analisar as respostas dos clientes e, se necessário,

redefinir ou afinar a estratégia.

Figura 20 - Os diversos passos do processo da implementação do projeto (adaptado de K. Lau, Wong, Ma e Liu (2003)

A implantação de um modelo NBO implica a criação e implementação de um conjunto de

modelos preditivos (1 para cada produto ou família de produto alvo) e selecionar para cada

cliente o(s) produto(s) com maior taxa de propensão. Efetivamente, um modelo de NBO serve

para dois fins: (1) utilizar os modelos individuais como suporte à criação de campanhas de

Page 58: Tese v11 - final · Este é, hoje em dia, essencial para ganhar vantagem competitiva no mundo dos negócios e para ganhar conhecimento entre yottabytes de dados disponíveis. Especialmente

40

orientadas a produtos; (2) utilizando o score das propensões dos produtos por forma a

oferecer ao cliente o(s) produto(s) mais orientados as suas necessidades.

Idealmente dever-se-iam conjugar a melhor ação, o melhor produto, com o melhor canal e

com a melhor altura, que é a definição de “Next Best Action”. A melhor ação pode ser um

contacto relacional, pode ser enviar uma mensagem por app. O que é importante é que todas

as mensagens vindas do Banco sejam no mesmo sentido e contextualizadas. Isto é

especialmente importante quando o Banco de Portugal já autorizou aberturas de contas por

videoconferência (“Banco de Portugal,” n.d.), pois indica que o caminho a seguir é cada vez

mais o afastamento do meio de contacto tradicional (deslocação ao balcão) e o incremento

dos canais digitais. A interação com o Banco deve ser uma experiência consistente

independentemente do meio de acesso (Agência, Contact Center, ATM, Mobile, On-Line) e

este deve oferecer uma experiência contextualizada, orientada e com relevância por forma a

fomentar o relacionamento e a satisfação.

Page 59: Tese v11 - final · Este é, hoje em dia, essencial para ganhar vantagem competitiva no mundo dos negócios e para ganhar conhecimento entre yottabytes de dados disponíveis. Especialmente

41

3. CASO DE ESTUDO - O GRUPO CRÉDITO AGRÍCOLA

O presente capítulo pretende fazer uma resenha histórica do Grupo Crédito Agrícola e uma

breve caracterização atual do mesmo. A informação histórica foi recolhida no site institucional.

3.1. HISTÓRIA DO GRUPO CRÉDITO AGRÍCOLA

A origem das Caixas de Crédito Agrícola está associada à Santa Casa da Misericórdia, fundada

em 1498 sob a égide da Rainha D. Leonor e aos celeiros comuns criados em 1576 por D.

Sebastião.

Em 1778, a Misericórdia de Lisboa foi a primeira a conceder empréstimos aos agricultores.

Tendo o exemplo sido seguido por outras Misericórdias, gerando a decisão do Ministro das

Obras Públicas, Andrade Corvo, de publicar em 1866 e 1867 leis orientadas para a

transformação das Confrarias e Misericórdias em instituições de crédito agrícola e industrial

(Bancos Agrícolas ou Misericórdias-Bancos).

Por outro lado, os Celeiros Comuns, fundados por iniciativa particular ou por intervenção dos

Reis, dos municípios ou das paróquias, constituíam, desde o século XVI, estabelecimentos de

crédito destinados a socorrer os agricultores em anos de escassa produção, através de um

adiantamento em género (sementes) mediante o pagamento de um determinado juro,

também liquidado em géneros. A importância dos Celeiros Comuns foi diminuindo com o

aumento das taxas de juro, pelo que, em 1862, avançou-se para a sua reforma, no sentido de

substituir gradualmente a forma de pagamento – de géneros para monetária – para um

funcionamento pleno como instituições de crédito.

Coube ao Ministro do Fomento Brito Camacho fundar o verdadeiro Crédito Agrícola, por

decreto a 1 de março de 1911, mas seria através da Lei n.º 215, de 1914, regulamentada em

1919 pelo Decreto n.º 5219 que, finalmente, ficaram definidas as atividades das Caixas de

Crédito Agrícola Mútuo.

Nos anos 20, o número de Caixas de Crédito Agrícola Mútuo aumentou, graças ao esforço de

inúmeros agricultores, mas a crise bancária e económica dos anos 30 provocou uma

estagnação no ritmo da evolução e a consequente passagem das Caixas para a tutela da Caixa

Geral de Depósitos.

A transformação do sistema político português, a partir de abril de 1974, contribuiu para o

aparecimento de um movimento das Caixas existentes no sentido de se autonomizarem,

expandirem a respetiva implantação e alargarem a atividade, à luz do modelo de

desenvolvimento do crédito agrícola mútuo em muitos países europeus.

Esse movimento acabaria por resultar na criação, em 1978, da Federação Nacional das Caixas

de Crédito Agrícola Mútuo – FENACAM, cuja missão central era o apoio e representação,

nacional e internacional das suas Associadas.

Em 1982, com a publicação do Decreto-lei nº 231/82 – que incluí, em anexo, um Regime

Jurídico Específico para o Crédito Agrícola Mútuo – as Caixas deixaram de estar sob alçada da

Caixa Geral de Depósitos, prevendo-se a criação de uma Caixa Central, orientada para regular a

Page 60: Tese v11 - final · Este é, hoje em dia, essencial para ganhar vantagem competitiva no mundo dos negócios e para ganhar conhecimento entre yottabytes de dados disponíveis. Especialmente

42

atividade creditícia das Caixas suas associadas, que acaba por ser criada dois anos depois – a

20 de junho de 1984.

Já em 2015, e com mais de um século de história, o Grupo Crédito Agrícola é galardoado com

seis distinções em diversas áreas: banca, seguros e fundos de investimento.

O Banco foi considerado, pela revista britânica The Banker no seu estudo “Top 1000 World

Banks”, o terceiro mais sólido a operar em Portugal e o primeiro de capitais exclusivamente

nacionais.

O Prémio Cinco Estrelas 2015, promovido pela U-Scoot com base num estudo de mercado

realizado pela Ipsos APEME, foi atribuído ao Crédito Agrícola na categoria “Banca, serviço de

atendimento ao cliente”.

A CA Seguros, a seguradora não vida do Grupo Crédito Agrícola, foi eleita, pela quinta vez,

como a Melhor Seguradora Não Vida do seu segmento. Esta distinção resulta de um estudo

realizado pela revista EXAME em parceria com a Deloitte e com a Informa D&B.

O Fundo de Investimento Mobiliário Aberto de Obrigações CA Rendimento, gerido pela Crédito

Agrícola Gest – Sociedade Gestora de Fundos de Investimento Mobiliário, S.A. (CA Gest), foi

distinguido com o prémio “Gestão Nacional de Organismos de Investimento Coletivo”, na

categoria “Fundos de Obrigações de Taxa Indexada”. Trata-se de um prémio da autoria da

Associação Portuguesa de Fundos de Investimento, Pensões e Patrimónios (APFIPP) e do Diário

Económico. O CA Monetário foi, também, considerado pela APFIPP, pelo sexto ano

consecutivo, como o fundo mais rentável na classe “Fundos de Mercados Monetários Euro”. A

mesma entidade distinguiu, ainda, o CA Flexível, como o fundo que apresentou a melhor

rentabilidade em 2014, na categoria “Fundos Flexíveis”.

3.2. CARACTERIZAÇÃO DO GRUPO CRÉDITO AGRÍCOLA

O Crédito Agrícola é um grupo financeiro cooperativo enraizado nas comunidades locais, onde

os membros são simultaneamente clientes e donos, tendo controlo democrático e estando

envolvidos nas decisões. Contrapondo, a banca comercial que tem como principal objetivo

maximizar o lucro, a banca cooperativa tenta maximizar os membros/clientes bem-estar e

providenciar o melhor serviço possível (Ferreiro, Lagoa, & Pina, 2014).

É uma instituição que valoriza o relacionamento com o cliente, orientada para a participação

no desenvolvimento socioeconómico de todo o país, suportada pela atuação de cada uma das

suas caixas a nível regional, num equilíbrio entre a captação de poupanças e a concessão de

crédito às famílias e empresas, e no apoio às Instituições sem fins lucrativos, destacando-se

simultaneamente na missão de contribuir em diversos níveis – económico, social, cultural e

desportivo – para o progresso das comunidades locais em que é instituição de referência.

O Crédito Agrícola conta atualmente com uma rede de 82 caixas e mais de 660 balcões,

distribuídos por todo o território nacional. Cada caixa é um banco local que controla 1 ou mais

balcões na sua área de influência, com autonomia de decisão e de gestão. Existe ainda uma

entidade a nível nacional que tem competências de supervisão, orientação e

acompanhamento das Caixas, criando e desenvolvendo uma estratégia financeira e agindo,

Page 61: Tese v11 - final · Este é, hoje em dia, essencial para ganhar vantagem competitiva no mundo dos negócios e para ganhar conhecimento entre yottabytes de dados disponíveis. Especialmente

43

simultaneamente, como Banco Universal em concurso com os maiores Bancos Portugueses. Os

Órgãos Sociais da Caixa Central são compostos por um Conselho de Administração Executivo

que é atualmente constituído por cinco administradores nomeados. Trata-se de um órgão que

dirige 26 departamentos/gabinetes, indicado pelo Conselho Geral e de Supervisão, onde estão

representadas nove Caixas de Crédito Agrícola Mútuo. (CA | Caixa Central)

Page 62: Tese v11 - final · Este é, hoje em dia, essencial para ganhar vantagem competitiva no mundo dos negócios e para ganhar conhecimento entre yottabytes de dados disponíveis. Especialmente

44

4. MODELO PRÁTICO DESENVOLVIDO

Como já referido, pretende-se com este projeto a conceção e implementação de um modelo

preditivo por forma a identificar um conjunto de clientes de elevada propensão à

contratualização de um crédito pessoal em uma campanha, avaliando o desempenho deste

modelo face ao modelo tradicional de definição de clientes alvo.

Ou seja, iremos desenvolver um modelo de previsão, baseado em dados reais de contratação

de crédito pessoal e iremos aplicar esse modelo ao conjunto de todos os clientes (elegíveis

para o efeito) do banco, por forma a definir um subconjunto de clientes com a maior

propensão de contratação. A taxa efectiva de concretização deste subgrupo será confrontada

com a taxa de concretização do subgrupo de clientes obtido pelo modelo tradicional, i.e.,

comparou-se com os resultados de uma campanha igual e real.

4.1. TAREFAS REALIZADAS

Primeiramente é necessário definir as tarefas a realizar:

• Definir o que consideraremos como cliente bancário;

• Definição de campanha e forma de acompanhamento da mesma;

• Definição do que será considerado como variável target;

• O que consideramos como valor de custo e de lucro por contracto realizado;

• Quais as fontes, metodologia e ferramentas que irão ser usadas;

• O universo de amostra (lista de clientes), por forma a fazer a extração com as variáveis que

iremos identificar;

• O método de cálculo das variáveis e contexto temporal;

• Definir de todas as variáveis existentes nos DataMarts quais as consideradas relevantes

para o projeto e identificar outras que, não existindo ainda, consideremos igualmente

importantes e que possam ser criadas;

• Criar o modelo preditivo;

• Realizar a extração do universo de todos os clientes do Banco, elegíveis para a análise, com

as variáveis previamente identificadas e aplicar o modelo gerado, por forma a identificar

os que tenham o maior nível de probabilidade de concretização;

• Realizar a identificação e extração dos clientes alvo (e respetiva concretização)

identificados pelo método tradicional, da segunda campanha. Esta servirá como baseline

para comparação dos valores de concretização do modelo gerado.

• Comparar os resultados obtidos pelo modelo preditivo com o que foi gerado pelo modelo

tradicional.

Page 63: Tese v11 - final · Este é, hoje em dia, essencial para ganhar vantagem competitiva no mundo dos negócios e para ganhar conhecimento entre yottabytes de dados disponíveis. Especialmente

45

• Definir o que consideraremos como cliente bancário

Importa, antes de começarmos a realizar recolha de dados, contextualizar a informação

necessária, i.e., definir o nosso universo de pesquisa bem como os dados que

consideramos relevantes para o projeto. Como tal, nada é mais fundamental do que a

definição do que se considerou como cliente bancário, ou seja, a nossa unidade.

Assim, e considerando que o produto base de um Banco é a conta de depósito à ordem,

para definição de cliente considerou-se o titular de conta DO (Depósito à Ordem). Excluiu-

se deste conjunto: clientes com crédito vencido, insolventes e com incidentes de crédito

em OIC’s.

• Definição de campanha e forma de acompanhamento da mesma

Campanha, para o projeto em estudo, é um espaço de tempo definido e limitado (com

início e fim) onde é dado especial enfoque pela área comercial na comercialização de um

determinado produto. Adicionalmente, como suporte à venda, é criado atualmente uma

lista de clientes com maior apetência ao mesmo. As campanhas são acompanhadas,

naturalmente, pela sua taxa de concretização.

No caso deste projeto, e visto que o que pretendemos é validar se a lista de alvos obtida

pelo processo preditivo tem mais, menos ou igual taxa de concretização, iremos limitar o

acompanhamento da campanha às listas de alvos gerados (pelo modelo preditivo e pelo

método tradicional).

Doravante, iremos chamar campanha 1 à campanha que utilizaremos para criar o modelo

e campanha 2 à campanha com que iremos realizar a comparação do nosso modelo.

• Definição do que será considerado como variável target

Considerando que se pretende aferir a concretização, considerou-se para a variável target

a contratação ou não, do produto no período da campanha.

• Definição do valor de custo e de ganho (lucro)

É difícil aferir um valor de custo considerando todos os fatores, sejam eles os custos

diretos, i.e., por exemplo o custo da chamada telefónica; o custo do fator humano, i.e., o

tempo usado por exemplo nas chamadas (in ou outbond) ou presencialmente com o

cliente; sejam as taxas de utilização do capital, para além dos outros custos mais

processuais. Visto não ser objeto deste estudo a aferição deste valor, considerou-se que

estes custos estavam incorporados na atividade normal do balcão, chegando-se assim a

um valor único de custo para todos os contractos de crédito.

Page 64: Tese v11 - final · Este é, hoje em dia, essencial para ganhar vantagem competitiva no mundo dos negócios e para ganhar conhecimento entre yottabytes de dados disponíveis. Especialmente

46

Por forma a poder selecionar corretamente o melhor modelo é importante o cálculo do

lucro gerado. Assim, calculou-se o valor médio de juros pagos ou a pagar até à sua

maturidade (caso ainda esta ativo), de todos os créditos pessoais iniciados desde

01/01/2012, i.e., dentro do cenário da crise económica.

• Fontes, Ferramentas e Metodologia Utilizada

Como já referido, este projeto assenta em dados reais do Banco Crédito Agrícola, pelo que

foram realizadas extrações de dados dos DataMarts, i.e., dos repositórios de dados. Tendo

sido utilizado o SAS Enterprise Guide.

Adicionalmente: (1) visto que as ferramentas à disposição serem SAS, (2) por ser uma

metodologia que se baseia nos dados e nas relações entre eles em detrimento do

conhecimento, a priori, do problema e (3) visto o conhecimento deste ser diminuto optou-

se pela metodologia SEMMA, que assenta no SAS Enterprise Miner.

Será ainda utilizado o Microsoft Excel, para uma primeira análise descritiva dos dados e

como elo de ligação entre os dois programas SAS.

• Definir o universo de amostra (lista de clientes) por forma a fazer a extração com as

variáveis que iremos identificar;

Naturalmente parte deste universo terá de ser a lista de alvos identificados pelo método

tradicional para a campanha 1, visto que foram os que tiveram especial enfoque de

esforço de venda.

Adicionalmente, e por forma a tornar o modelo mais robusto e menos susceptível a

underfitting/overfiting ou mesmo a alguma tendência, identificaram-se todos os clientes

que, apesar de não terem sido alvo da campanha, demonstraram interesse no produto

durante o tempo da mesma, independentemente da contratualização ou não do produto.

Assim, a nossa amostra inicial é o conjunto destes dois grupos de clientes e é com base

nesta amostra que iremos gerar o modelo preditivo.

• Definição do tratamento inicial das variáveis e contexto temporal;

As variáveis que irão ser identificadas vão inevitavelmente cair em três tipos.

1. Variável de extração direta

Referimo-nos a variáveis como por exemplo o estado marital, onde não existe

tratamento a posteriori.

2. Variáveis de tratamento simples

Page 65: Tese v11 - final · Este é, hoje em dia, essencial para ganhar vantagem competitiva no mundo dos negócios e para ganhar conhecimento entre yottabytes de dados disponíveis. Especialmente

47

Referimo-nos a variáveis como número de cartões de crédito ou saldo de crédito

usados nestes. O tratamento destas variáveis é a soma ou o count dos diversos

valores ou contractos ativos.

3. Variáveis de tratamento complexo

Referimo-nos neste caso a valores de saldo médio, onde é necessária uma

avaliação dos valores ao longo de diversos espaços temporais.

Para efeitos deste projeto as variáveis de tipo um ou dois, i.e., contextuais ou de

tratamento simples tem referência à data de início da respetiva campanha e as variáveis

de tipo três, tem como referência os valores de fecho dos seis meses anteriores ao início

da campanha.

Como exemplo, se a campanha tivesse início a 1 de julho, os dados de idade, estado

marital, número de cartões de crédito, etc., teriam referência a essa data e os dados de

valores médios, seriam calculados com valores de fecho dos meses de janeiro a junho.

Exta contextualização temporal das variáveis será realizada para os dados das duas

campanhas.

• Identificar todas as variáveis existentes nos DataMarts consideradas relevantes para o

projeto e identificar outras que, não existindo ainda, consideremos igualmente

importantes e que possam ser criadas;

Para a seleção inicial de variáveis usou-se o conhecimento pessoal e os artigos sobre a

aplicação de Data Mining no setor Bancário, como por exemplo o de Dejana, Marija e

Sonja (2014), o estudo sobre classificação dos clientes do Mellat Bank (Farid, Sadeghi,

Hajigol & Parirooy, 2016) e o de (Zhuang et al., 2016), entre outros.

Foram assim identificadas diversas variáveis de caracterização sociodemográfica, como por

exemplo: idade, antiguidade enquanto cliente, género, estado marital, vínculo laboral,

nível de educação, tipo de cliente, localidade de residência e variáveis económicas como

ciclo de vida, segmento, número de DO’s, número de Crédito Habitação, número de

Crédito Pessoal, número de cartões de crédito bem como o seu valor ativo para serem alvo

de extração.

Algumas destas variáveis, como por exemplo o estado marital, é uma variável de extração

direta, ou seja, não existe alteração nem tratamento da mesma no projeto de extração

nem de modelação

No entanto existem outras que obrigaram a cálculos: uns mais simples, como o número de

cartões de crédito, que é realizar o count e somar esse valor e outros são valores médios

ou seja, obrigaram a extrair os valores ao longo dos seis meses anteriores por forma a

conseguir-se calcular o valor.

Page 66: Tese v11 - final · Este é, hoje em dia, essencial para ganhar vantagem competitiva no mundo dos negócios e para ganhar conhecimento entre yottabytes de dados disponíveis. Especialmente

48

No Anexo 1 estão indicadas e descritas todas as variáveis iniciais ou de extração direta e no

Anexo 2 estão indicadas e descritas todas a variáveis criadas no SAS Guide e que exigiram

cálculos. Pode-se ainda observar no Anexo 3 o projeto de SAS Guide usado para a

extração.

4.2. ANÁLISE DAS VARIÁVEIS

Como já referido, é necessário realizar algumas tarefas antes da criação do modelo preditivo.

• Seleção, Limpeza, Transformação e Análise Inicial das Variáveis

A qualidade dos dados é fundamental para qualquer projeto de Data Mining (Maheshwari,

2015). No caso em análise não existem registos duplicados pois isso foi previsto logo no

projeto de extração de dados, mas existem alguns valores missings que foram preenchidos

com os valores médios (nas variáveis intervalares) e pelos mais comuns/frequentes (nas

variáveis de classes), sendo esta uma das formas mais típicas de tratamento (Trianni,

2008)(Garcia, Luengo, & Herrera, 2015). Tendo em conta as variáveis e a quantidade de

missings em causa, considerou-se que este tratamento não acrescentava ruído (Bramer,

2016).

Adicionalmente, sendo a fonte um repositório central de dados, não existe o problema de

inconsistência, entre diversas fontes, sendo que todo o processo de ETL (Extract Transform

Load) já é realizado a montante.

Foi realizada ainda uma análise das variáveis para se verificar se alguma teria

características distintas. Para tal, compararam-se os 2 grupos (alvos e não alvos de

campanha) versus a concretização do contracto subjacente (variável target), não se tendo

obtido algum tipo de insight distintivo.

Essa análise foi realizada ao nível de diversas variáveis tais como idade, antiguidade,

tipologia e género de cliente, estado marital, vínculo laborar, tipo de residência, nível de

educação, segmento, entre outros.

No SAS Miner (Anexo 4), foram ainda criadas novas variáveis e realizada a categorização de

algumas variáveis contínuas, com o intuito de tentar facilitar/melhorar o posterior processo de

modelação, como por exemplo:

Patrimonio_Financeiro = Dep_Ordem_Avg + Dep_Prazo_Avg + Poupancas_Avg;

Responsabilidades_Amt = Cre_Habitacao_Avg + Outro_Créditos_Avg + Crédito_Pessoal_Avg + Crédito_Multiusos_Avg;

Patri_Liquido_Amt = Patrimonio_Financeiro - Responsabilidades_Amt;

Page 67: Tese v11 - final · Este é, hoje em dia, essencial para ganhar vantagem competitiva no mundo dos negócios e para ganhar conhecimento entre yottabytes de dados disponíveis. Especialmente

49

Valor_Patrimonio_total = Patrimonio_Mob_Amt + Patrimonio_Imob_Amt;

Responsabilidades_Amt_Cod = "";

IF Responsabilidades_Amt = 0 THEN Responsabilidades_Amt_Cod = "1";

ELSE IF Responsabilidades_Amt > 0 AND Responsabilidades_Amt <= 2000 THEN Responsabilidades_Amt_Cod = "2";

ELSE IF Responsabilidades_Amt > 2000 AND Responsabilidades_Amt <= 5000 THEN Responsabilidades_Amt_Cod = "3";

ELSE IF Responsabilidades_Amt > 5000 AND Responsabilidades_Amt <= 15000 THEN Responsabilidades_Amt_Cod = "4";

ELSE IF Responsabilidades_Amt > 15000 AND Responsabilidades_Amt <= 50000 THEN Responsabilidades_Amt_Cod = "5";

ELSE IF Responsabilidades_Amt > 50000 AND Responsabilidades_Amt <= 100000 THEN Responsabilidades_Amt_Cod = "6";

ELSE IF Responsabilidades_Amt > 100000 AND Responsabilidades_Amt <= 200000 THEN Responsabilidades_Amt_Cod = "7";

ELSE Responsabilidades_Amt_Cod = "8";

Patri_Liquido_Amt_Cod = "";

IF Patri_Liquido_Amt < 0 THEN Patri_Liquido_Amt_Cod = "1";

ELSE IF Patri_Liquido_Amt = 0 THEN Patri_Liquido_Amt_Cod = "2";

ELSE IF Patri_Liquido_Amt > 0 AND Patri_Liquido_Amt <= 2000 THEN Patri_Liquido_Amt_Cod = "3";

ELSE IF Patri_Liquido_Amt > 2000 AND Patri_Liquido_Amt <= 5000 THEN Patri_Liquido_Amt_Cod = "4";

ELSE IF Patri_Liquido_Amt > 5000 AND Patri_Liquido_Amt <= 15000 THEN Patri_Liquido_Amt_Cod = "5";

ELSE IF Patri_Liquido_Amt > 15000 AND Patri_Liquido_Amt <= 50000 THEN Patri_Liquido_Amt_Cod = "6";

ELSE IF Patri_Liquido_Amt > 50000 AND Patri_Liquido_Amt <= 100000 THEN Patri_Liquido_Amt_Cod = "7";

ELSE IF Patri_Liquido_Amt > 100000 AND Patri_Liquido_Amt <= 200000 THEN Patri_Liquido_Amt_Cod = "8";

ELSE Patri_Liquido_Amt_Cod = "9";

Encontra-se no Anexo 5 o detalhe completo do código criado nos três nós de código criados

SAS Enterprise Miner (Figura 21). Pode observar-se na Figura 22 um exemplo de um destes

nós.

Page 68: Tese v11 - final · Este é, hoje em dia, essencial para ganhar vantagem competitiva no mundo dos negócios e para ganhar conhecimento entre yottabytes de dados disponíveis. Especialmente

50

Figura 21 – Nós de código criados no SAS Enterprise Miner

Figura 22 – Exemplo de um dos nós de código criados no SAS Enterprise Miner

No total foram criadas 40 novas variáveis: 35 no SAS Guide no momento da extração e 5 no

SAS Miner, tendo sido neste ainda codificadas mais 28 variáveis, dando um total final de quase

100 variáveis.

Foi ainda realizado o tratamento dos valores ouliers, no caso em apreço, tendo sido excluídos

262 registos, após aplicação de dois filtros (Anexo 6).

• Exclusão de variáveis

Neste momento o dataset é composto por quase cem variáveis, o que é francamente demais;

idealmente, e de acordo com os vários artigos existentes, deveria terminar-se o modelo com

um máximo de 20.

Page 69: Tese v11 - final · Este é, hoje em dia, essencial para ganhar vantagem competitiva no mundo dos negócios e para ganhar conhecimento entre yottabytes de dados disponíveis. Especialmente

51

Assim, como primeiro passo, realizou-se a análise dos gráficos iniciais de Worth (Anexo 7) e

Dendrograma (Anexo 8), para excluir logo as variáveis cuja contribuição para a resolução do

problema é diminuta.

De seguida, excluíram-se as variáveis com menos valor entre os pares das codificadas, ficando-

se assim com um data set de 28 variáveis (Anexo 9).

Seguidamente analisou-se a matriz de correlação das remanescentes (Anexo 10) e exclui-se as

variáveis com correlação igual ou superior a 0.7 (Anexo 11).

Assim, temos neste momento 25 variáveis no dataset final (Anexo 12 e Anexo 13).

Por fim, foram criados 2 datasets: um de treino (70%) e um de validação (30%) pois o teste irá

ser a comparação com a campanha com dados reais. Foi utilizado para essa divisão o método

Stratifed, por forma a garantir uma boa distribuição da amostra.

4.3. CRIAÇÃO DO MODELO

Existem diversos benefícios em usar modelos preditivos, tais como (1) velocidade, a

capacidade de analisar milhares de clientes por segundo; (2) a capacidade de fazer melhores

previsões que o ser humano; (3) a consistência, o facto de, com as mesmas regras obter o

mesmo resultado, coisa que o ser humano é incapaz, pois a sua disposição, hora do dia, etc.

podem interferir com a sua decisão (Finlay, 2014). No caso deste projeto, foram utilizados

vários modelos para se poder analisar qual tinha o melhor comportamento.

Neste subcapítulo irão ser descritos os passos realizados para escolher o modelo final e os

vários que foram considerados para a comparação.

• Modelos usados

Foram considerados neste projeto 12 modelos diferentes, 9 configurações diferentes de

Redes neuronais, uma Regressão, uma Árvore de decisão e um modelo Ensemble (Figura

23).

Page 70: Tese v11 - final · Este é, hoje em dia, essencial para ganhar vantagem competitiva no mundo dos negócios e para ganhar conhecimento entre yottabytes de dados disponíveis. Especialmente

52

Figura 23 – Algoritmos usados no projeto

o Redes neuronais

Conforme já referido anteriormente, para a resolução da maior parte dos

problemas basta apenas uma camada escondida e um número entre 1 e 7

neutrões. Assim, optou-se pela utilização de um MLP, Feed Forward, com

inicialização aleatória dos pesos (Figura 24), com um máximo de 50 iterações ou 4

horas (Figura 25) e testou-se com valores entre 1 e 7 neutrões.

Figura 24 – Configuração da Rede Neuronal com um neutrão

Page 71: Tese v11 - final · Este é, hoje em dia, essencial para ganhar vantagem competitiva no mundo dos negócios e para ganhar conhecimento entre yottabytes de dados disponíveis. Especialmente

53

Figura 25 – Configuração da optimização da Rede Neuronal

Utilizou-se ainda um nó do SAS Miner, que cria uma rede neuronal automática

(AutoNeural). Neste caso, escolhe-se apenas a arquitetura de uma forma geral e o

próprio SAS tenta encontrar a melhor solução. Foi escolhido a arquitetura Single

Layer, i.e., os nós são acrescentados de forma paralela. Como forma de paragem

foram definidas 10 iterações ou overfitting, o que acontecer primeiro (Figura 26).

Figura 26 – Configuração da optimização da Rede AutoNeural

o Regressão Linear

A regressão é uma técnica estatística que tem como objectivo criar, a partir de um

conjunto de observações, um modelo que permita a predição. Foi usada uma

regressão logística mas com uma transformação Logit, cujo objetivo é a

linearização do modelo (Figura 27). Utilizou-se o modelo StepWise pois, tal como

indicado neste estudo, este reforça o nó de regressão em comparação com outros

(Shtatland, Kleinman, & Cain, 2008).

Page 72: Tese v11 - final · Este é, hoje em dia, essencial para ganhar vantagem competitiva no mundo dos negócios e para ganhar conhecimento entre yottabytes de dados disponíveis. Especialmente

54

Figura 27 – Configuração da Regressão

o Árvore de Decisão

Conforme já referido, as Árvores de decisão são um dos modelos mais práticos e

mais usados. No caso deste projeto usou-se uma árvore de decisão em que o

modelo de decisão de corte foi a entropia, com uma profundidade máxima de 6

(Figura 28).

Figura 28 – Configuração da Árvore de Decisão

o Rule Induction

Este modelo existente no SAS Miner, é baseado nas Árvores de decisão e é

especialmente útil quando temos eventos raros nos dados. O limite de corte foi

definido nos 100% e com um máximo de 16 cortes (Figura 29).

Figura 29 – Configuração do nó de Rule Induction

o Ensemble

Tal como já referido, este modelo combina 2 ou mais modelos por forma a obter

uma predição mais robusta (Maldonado, Dean, Czika & Haller, 2014). Neste caso

foi usado o valor médio como seleção (Figura 30).

Page 73: Tese v11 - final · Este é, hoje em dia, essencial para ganhar vantagem competitiva no mundo dos negócios e para ganhar conhecimento entre yottabytes de dados disponíveis. Especialmente

55

Figura 30 – Configuração do nó de Ensemble

4.4. ESCOLHA DO MODELO

Para escolher o melhor modelo podem ser utilizadas diversas medidas, tais como curva de

ROC, Lift, Ganho, Critério de Akaike, Critério de Informação Bayesiana e Kolmogorov-Smirnov

(Dean, 2014). No caso em análise, usou-se o valor de ganho (Anexo 14) e a curva de ROC

(Figura 31). Esta é uma representação gráfica dos pares sensibilidade ou Falsos Positivos

(ordenadas) e 1-Especificidade ou verdadeiros positivos (abcissas).

Com base nesses critérios, o algoritmo que acabou por ser escolhido como óptimo foi uma

Rede Neuronal Artificial (ANN - Artificial Neural Network), MLP sendo que é um dos algoritmos

mais utilizados para o efeito (Bramer, 2016). Neste caso, o melhor algoritmo foi a rede

neuronal com 4 hidden units, tendo o modelo final 25 variáveis (Anexo 15).

Figura 31 – Gráfico de ROC

4.5. MODELOS ADICIONAIS

Tendo este modelo por base, realizaram-se mais alguns modelos de teste, usando o conhecimento intrínseco do negócio.

Conseguiu-se obter um modelo tendo apenas 7 variáveis (uma redução de aproximadamente

70%) com um incremento face ao valor inicial de ± 3,5%. Apesar do baixo incremento

Page 74: Tese v11 - final · Este é, hoje em dia, essencial para ganhar vantagem competitiva no mundo dos negócios e para ganhar conhecimento entre yottabytes de dados disponíveis. Especialmente

56

financeiro, obteve-se uma grande redução de variáveis, simplificando bastante o modelo. Assim, este foi considerado o modelo final (Anexo 15). O algoritmo usado manteve-se.

Teste # Variáveis % de Lucro (*) Algoritmo

Teste 1 23 0,00% NN2

Teste 2 21 -0,06% NN2

Teste 3 19 -0,08% NN4

Teste 4 16 -0,09% NN4

Teste 5 15 -0,03% NN2

Teste 6 14 0,02% NN2

Teste 7 13 0,03% NN4

…… …… …… ……

Teste 8 7 3,55% NN4

(*) Face ao valor original

Tabela 3 - Síntese dos varios modelos testados

4.6. VALIDAÇÃO DO MODELO ESCOLHIDO

Neste momento já se encontra o modelo identificado e as respetivas variáveis. Resta-nos

testá-lo e compará-lo com a segunda campanha. Esta é uma campanha igual à primeira,

apenas desfasada temporalmente.

Realizaram-se quatro extrações:

• Os clientes alvo da segunda campanha, com a informação da contratualização ou não do

produto e cuja concretização irá servir como base de comparação (Extração 1).

• Todos os clientes, alvo ou não, que contrataram o produto no período da campanha

(Extração 2).

• Todos os clientes que contrataram o produto nos 3 meses subsequentes à campanha

(Extração 3).

• Todos os clientes ilegíveis para submissão ao projeto criado e as respetivas variáveis,

previamente identificadas e contextualizadas temporalmente, i.e., as variáveis de saldo

são à data de início da segunda campanha e as de saldo médio são com valores dos seis

meses anteriores (Extração 4).

Aplicou-se o modelo identificado anteriormente ao grupo de todos os clientes (Extração 4),

fazendo-se uma ordenação por probabilidade e selecionando um número de clientes igual ao

do grupo alvo real, tendo assim um grupo de clientes alvo alternativos ao original.

Neste caso, optou-se por limitar o número de clientes, não pela probabilidade mas por

número, por forma a podermos realizar uma comparação direta com os resultados da seleção

Page 75: Tese v11 - final · Este é, hoje em dia, essencial para ganhar vantagem competitiva no mundo dos negócios e para ganhar conhecimento entre yottabytes de dados disponíveis. Especialmente

57

normal (Extração 1), i.e., se o grupo de clientes alvo original era de 10.000 clientes, limitámos

também a 10.000.

Após esta seleção, cruzou-se este conjunto de clientes com a Extração 2, i.e., obteve-se a

informação de quantos clientes selecionados pelo modelo de previsão contrataram o produto.

Quando comparados os dois modelos (baseline e modelo preditivo) face à sua concretização,

observamos que o segundo obteve um incremento de 70% face ao primeiro.

É preciso, no entanto, ressalvar que, dos clientes identificados pelo modelo preditivo, apenas

cerca de 25% fazem parte do grupo inicialmente identificado pelo método normal, i.e., apenas

25% foram alvo de uma tentativa proativa de venda. O que significa que 75% dos clientes

identificados pelo modelo preditivo, não foram contactados proactivamente.

Para efeitos deste projeto, considerou-se que, caso esses clientes tivessem realizado um

crédito pessoal nos 3 meses seguintes ao término da campanha, teriam possivelmente

contractado o mesmo dentro do período desta, se tivessem sido contactados. Com a

introdução dessas vendas obteve-se ainda um incremento de mais 72% sobre o número já

obtido.

Page 76: Tese v11 - final · Este é, hoje em dia, essencial para ganhar vantagem competitiva no mundo dos negócios e para ganhar conhecimento entre yottabytes de dados disponíveis. Especialmente

58

5. CONCLUSÃO E TRABALHO FUTURO

Considerando a agitação, a concorrência, a competitividade e as reduzidas taxas praticadas

atualmente, é de todo o interesse das entidades bancárias a implementação de processos que

permitam uma melhor gestão do relacionamento com os clientes, aumentando o

conhecimento detido sobre eles, para desta forma fomentar o cross e up selling e a satisfação

do mesmo.

Por outro lado, considerando a saturação e a falta de interesse dos clientes nas campanhas,

interessa que o produto oferecido seja relevante e oportuno, sob pena de se perder a janela

de oportunidade.

Este projeto baseou-se em dados reais do Banco Crédito Agrícola, especificamente numa

campanha de crédito pessoal. Procurou-se obter um modelo com o qual se poderiam

classificar os clientes, tendo como base a sua propensão para o produto e assim, ao ordenar-se

por essa propensão, escolher um subsegmento de clientes com alta probabilidade de compra

e, consequentemente optimizar uma campanha futura.

Hoje em dia, com o aumento do poder computacional, é possível, em milissegundos, analisar

um cliente e sugerir um produto ideal ou, de outra forma, criar um modelo e analisar os

milhões de clientes existentes selecionando, com base nesse modelo, o subsegmento com a

maior propensão de contratualização do mesmo.

Face ao problema identificado, desenvolveu-se um modelo tendo por base uma campanha

existente e foram selecionadas, criadas e codificadas um conjunto de variáveis demográficas e

socioeconómicas. Foi aplicado o modelo obtido ao conjunto de todos os clientes do Banco, por

forma a obter-se um subsegmento de número definido de clientes com alta propensão de

contratualização do produto e comparou-se esse subsegmento com os resultados de uma

campanha igual, real e com dados reais de contratação.

Os objetivos propostos foram atingidos, i.e., realizou-se a análise e investigação do estado da

arte e das boas práticas na aplicação de tecnologias Data Mining em entidades bancárias, o

que permitiu realizar o levantamento e posterior implementação da solução e metodologia

adequada para a criação do modelo preditivo. Por fim, comparou-se o resultado obtido dessa

implementação com o resultado do método tradicional (atualmente usado na organização),

tendo-se obtido uma melhoria significativa.

A realização deste trabalho veio demonstrar que existe ainda uma grande possibilidade de

melhoria de processos e métodos nesta área. A alteração de paradigma, i.e., a alteração da

análise de clientes do segmento geral para o individual, vem aumentar o conhecimento sobre

eles e, como tal, incrementar a sua rentabilidade.

Para trabalho futuro considera-se que, idealmente e numa primeira fase dever-se-ia aumentar

a base de cálculo do modelo, não só em termos de campanhas como também em variáveis

possíveis.

Page 77: Tese v11 - final · Este é, hoje em dia, essencial para ganhar vantagem competitiva no mundo dos negócios e para ganhar conhecimento entre yottabytes de dados disponíveis. Especialmente

59

Após a estabilização de um novo modelo dever-se-ia testá-lo em condições reais. Para tal,

dever-se-ia criar um segmento de clientes a contactar para uma outra campanha. Para a

criação do segmento, metade seria criado pelos métodos normais e os restantes por via deste

modelo, por forma a poder-se medir realmente o seu sucesso.

Numa segunda fase, dever-se-iam implementar diversos modelos, um para cada família de

produto. Isto serviria não só para uso nas campanhas, onde se utilizaria o modelo específico do

produto em campanha, como também para a implementação de um sistema de NBO por

forma a fazer valer cada contacto com o cliente, i.e., ao realizar-se a ordenação das

preferências do cliente pelos produtos, teríamos o produto mais relevante para o mesmo, a

cada contacto com ele. É preciso ressalvar que a utilização de modelos preditivos não se

esgota aqui; podemos usar estes para cálculo do churn, de atribuição de crédito, entre outros.

Numa terceira fase, dever-se-ia tentar aumentar a informação sobre eventos dos clientes,

desde as redes sociais, a mudança de casa à de emprego. O simples browsing no site

institucional procurando informações acerca de um produto, por forma a obter uma visão

360º e identificar os eventos o mais cedo possível, consequentemente aumentando a

possibilidade de influenciar a contratualização de serviços associados à mudança.

Esta visão, centrada no cliente, nas suas necessidades e interesses, onde tentamos adaptar o

produto existente às suas necessidades do momento, onde cada contacto é contextualizado e

relevante, onde se leva em conta todas as interações realizadas independentemente do canal,

é o caminho a seguir, especialmente quando olhamos para as características das próximas

gerações e aos desafios que estas irão proporcionar.

As diversas técnicas e métodos utilizados neste trabalho não foram abordadas

exaustivamente, sendo que não era esse o propósito do mesmo. Pretendia-se sim realizar uma

comparação entre os dados reais de uma campanha e o output gerado por um modelo

preditivo.

Page 78: Tese v11 - final · Este é, hoje em dia, essencial para ganhar vantagem competitiva no mundo dos negócios e para ganhar conhecimento entre yottabytes de dados disponíveis. Especialmente

60

6. LIMITAÇÕES E RECOMENDAÇÕES FUTURAS

Uma limitação é o facto deste documento, por ser baseado em dados reais e por questões de

confidencialidade, ter de ser obrigatoriamente vago nos resultados obtidos.

Sugere-se que em investigações futuras, para uma maior precisão e eficiência do modelo,

sejam utilizadas como base diversas campanhas e que seja alargado o número de variáveis

iniciais, usando para tal todos os instrumentos e dados disponíveis na entidade. Desta forma,

será possível obter uma visão mais alargada do cliente. Adicionalmente, e visto que as escolhas

de algoritmos e metodologias possíveis não se esgotaram com este projeto, seria interessante

analisar os resultados com outros algoritmos e metodologias.

Page 79: Tese v11 - final · Este é, hoje em dia, essencial para ganhar vantagem competitiva no mundo dos negócios e para ganhar conhecimento entre yottabytes de dados disponíveis. Especialmente

61

7. BIBLIOGRAFIA

Abdelhalim, A., & Traore, I. (2009). A New Method for Learning Decision Trees from Rules (pp.

693–698). IEEE. https://doi.org/10.1109/ICMLA.2009.25

Accenture. (2015). Banking Customer 2020: Rising Expectations Point to the Everyday Bank (p.

12). Retrieved from https://www.accenture.com/t20150710T130243__w__/us-

en/_acnmedia/Accenture/Conversion-

Assets/DotCom/Documents/Global/PDF/Dualpub_17/Accenture-Banking-Consumer-Pulse.pdf

Aggarwal, C. C. (2014). Data classification: algorithms and applications. CRC Press. Retrieved

from

https://books.google.com/books?hl=en&lr=&id=qm_SBQAAQBAJ&oi=fnd&pg=PP1&dq=%22LE

ARNING+AND+KNOWLEDGE+DISCOVERY%22+%22Wu+and+Stephen%22+%22OF+PREDICTIVE

%22+%22page+intentionally+left%22+%22N.+Srivastava+and+Jiawei%22+%22IN+MACHINE+LE

ARNING+AND+DATA+MINING+FOR%22+%22Alan+Zhao+and+Huan%22+&ots=CRK_hh6JwF&si

g=8t0_gOvx44Jv01-Vz_WHLJQzTxM

American Marketing Association. (2013, July). Definition of Marketing. Retrieved May 19,

2016, from https://www.ama.org/AboutAMA/Pages/Definition-of-Marketing.aspx

Angelis, F. D., Polzonetti, A., & Re, B. (2011). Optimising Performance with Business

Intelligence, 6.

APB - Associação Portuguesa de Bancos. (2016). Sintese de Indicadores do Sector Bancário |

Comparação entre 2007 e 2010-2016 (p. 2). Retrieved from

http://www.apb.pt/content/files/2016.10.14_-_Sntese_de_Indicadores.pdf

Artun, O., & Levin, D. (2015). Predictive marketing: easy ways every marketer can use customer

analytics and big data. Hoboken, New Jersey: Wiley.

Augusty, S. M., & Izudheen, S. (2013). A survey: evaluation of ensemble classifiers and data

level methods to deal with imbalanced data problem in protein-protein interactions. Review of

Bioinformatics and Biometrics. Retrieved from http://dpi-

journals.com/index.php/RBB/article/view/1112

Azevedo, A. I. R. L., & Santos, M. F. (2008). KDD, SEMMA AND CRISP-DM: A PARALLEL

OVERVIEW. IADS-DM. Retrieved from https://recipp.ipp.pt/handle/10400.22/135

Bahari, T. F., & Elayidom, M. S. (2015). An Efficient CRM-Data Mining Framework for the

Prediction of Customer Behaviour. Procedia Computer Science, 46, 725–731.

https://doi.org/10.1016/j.procs.2015.02.136

Bain & Company. (2012). Customer Loyalty in Retail Banking (p. 60). Retrieved from

http://www.bain.com/Images/BAIN_REPORT_Customer_loyalty_in_retail_banking.pdf

Bakar, N. M. A., & Tahir, I. M. (2009). Applying multiple linear regression and neural network to

predict bank performance. International Business Research, 2(4), 176.

Page 80: Tese v11 - final · Este é, hoje em dia, essencial para ganhar vantagem competitiva no mundo dos negócios e para ganhar conhecimento entre yottabytes de dados disponíveis. Especialmente

62

Banco de Portugal. (n.d.). Retrieved June 26, 2017, from

https://www.bportugal.pt/comunicado/banco-de-portugal-aprova-utilizacao-de-

videoconferencia-para-abertura-de-contas-de

Batmaz, İ., Danışoğlu, S., Yazıcı, C., & Kartal-Koç, E. (2017). A data mining application to deposit

pricing: Main determinants and prediction models. Applied Soft Computing.

https://doi.org/10.1016/j.asoc.2017.07.047

Beck, J. T., Chapman, K., & Palmatier, R. W. (2015). Understanding Relationship Marketing and

Loyalty Program Effectiveness in Global Markets. Journal of International Marketing, 23(3), 1–

21.

Berger, P. D., & Nasr, N. I. (1998). Customer lifetime value: Marketing models and applications.

Journal of Interactive Marketing, 12(1), 17–30. https://doi.org/10.1002/(SICI)1520-

6653(199824)12:1<17::AID-DIR3>3.0.CO;2-K

Bhardwaj, D. (2016). ANALYSIS OF DATA MINING TRENDS, APPLICATIONS, BENEFITS AND

ISSUES. ANALYSIS, 5(1). Retrieved from http://static.ijcsce.org/wp-

content/uploads/2016/02/IJCSCE170116.pdf

Bramer, M. (2016). Principles of Data Mining. London: Springer London.

https://doi.org/10.1007/978-1-4471-7307-6

Buttle, F. (2009). Customer relationship management: concepts and technologies (2. ed.,

reprinted). Amsterdam: Elsevier/Butterworth-Heinemann.

CA | Caixa Central. (n.d.). Retrieved February 28, 2017, from

http://www.creditoagricola.pt/CAI/Institucional/EstruturadoGrupo/CaixaCentral/

CA | Crédito Agrícola - Missão e Valores. (n.d.). Retrieved April 10, 2016, from

http://www.creditoagricola.pt/CAI/Institucional/GrupoCA/QuemSomos/MissaoeValores/

Chen, J., Han, Y., Hu, Z., Lu, Y., & Sun, M. (2014). Who Will Subscribe A Term Deposit?

Advanced Data Analysis, Department of Statistics, Columbia University, 14.

Chitra, K., & Subashini, B. (2013). Data mining techniques and its applications in banking

sector. International Journal of Emerging Technology and Advanced Engineering, 3(8), 219–

226.

Dean, J. (2014). Big data, data mining, and machine learning: value creation for business

leaders and practitioners. Hoboken, NJ: Wiley.

Dejana, P., Marija, R., & Sonja, J. (2014). Application of data mining in direct marketing in

banking sector. Industrija, 42(1), 189–201.

Drèze, X., & Bonfrer, A. (2008). An empirical investigation of the impact of communication

timing on customer equity. Journal of Interactive Marketing, 22(1), 36–50.

https://doi.org/10.1002/dir.20103

Page 81: Tese v11 - final · Este é, hoje em dia, essencial para ganhar vantagem competitiva no mundo dos negócios e para ganhar conhecimento entre yottabytes de dados disponíveis. Especialmente

63

Edvardsson, B., Johnson, M. D., Gustafsson, A., & Strandvik, T. (2000). The effects of

satisfaction and loyalty on profits and growth: Products versus services. Total Quality

Management, 11(7), 917–927. https://doi.org/10.1080/09544120050135461

Farid, D., Sadeghi, H., Hajigol, E., & Parirooy, N. Z. (2016). Classification of Bank Customers by

Data Mining: a Case Study of Mellat Bank branches in Shiraz. International Journal of

Management, Accounting & Economics, 3(8), 534–543.

Farris, P. W. (Ed.). (2006). Marketing metrics: 50+ metrics every executive should master.

Upper Saddle River, N.J: Wharton School Pub.

Fayyad, U., Piatetsky-Shapiro, G., & Smyth, P. (1996). From Data Mining to Knowledge

Discovery in Databases. AI Magazine, 17(3), 37.

Ferreiro, M. de F., Lagoa, S., & Pina, L. (2014). Cooperative Financial Institutions and Regional

and Rural Development: The Portuguese Case. In 20th APDR Congress (pp. 340–350).

Universidade de Évora: APDR. Retrieved from http://recipp.ipp.pt/handle/10400.22/5144

Finlay, S. (2014). Predictive Analytics, Data Mining and Big Data. London: Palgrave Macmillan

UK. https://doi.org/10.1057/9781137379283

Flach, P. A. (2012). Machine learning: the art and science of algorithms that make sense of

data. Cambridge ; New York: Cambridge University Press.

Fournier, S., & Mick, D. G. (1999). Rediscovering Satisfaction. Journal of Marketing, 63(4), 5.

https://doi.org/10.2307/1251971

Gallo, A. (2014, October 29). The Value of Keeping the Right Customers. Harvard Business

Review. Retrieved from https://hbr.org/2014/10/the-value-of-keeping-the-right-customers/

Galvão, N. D., & Marin, H. de F. (2009). Data mining: a literature review. Acta Paulista de

Enfermagem, 22(5), 686–690.

Garcia, S., Luengo, J., & Herrera, F. (2015). Data Preprocessing in Data Mining (Vol. 72). Cham:

Springer International Publishing. https://doi.org/10.1007/978-3-319-10247-4

Goldenberg, B. J. (2008). CRM in Real Time: Empowering Customer Relationships. Medford, N.J:

CyberAge Books.

Hitchner, E. (1996). Loyalists, Unite!. The loyalty effect: The Hidden Force Behind Growth,

Profits, and Lasting Value by Frederick F. Reichheld, Boston: Harvard Business School Press,

1996. 323 pages; $24.95. National Productivity Review, 15(3), 117–123.

https://doi.org/10.1002/npr.4040150312

Hollensen, S. (2010). Marketing management: a relationship approach (2. ed). Harlow:

Financial Times Prentice Hall.

Hormazi, A. M., & Giles, S. (2004). Data Mining: A Competitive Weapon for Bancking and Retail

Industries. Information Systems Management, 10.

Page 82: Tese v11 - final · Este é, hoje em dia, essencial para ganhar vantagem competitiva no mundo dos negócios e para ganhar conhecimento entre yottabytes de dados disponíveis. Especialmente

64

Hormozi, A. M., & Giles, S. (2004). Data Mining: A Competitive Weapon for Banking and Retail

Industries. Information Systems Management, 21(2), 62–71.

Hu, X. (2005). A data mining approach for retailing bank customer attrition analysis. Applied

Intelligence, 22(1), 47–60.

INE. (2014). Inquérito à Utilização de Tecnologias da Informação e da Comunicação pelas

Famílias - 2014 (p. 10). Retrieved from

https://www.ine.pt/xportal/xmain?xpid=INE&xpgid=ine_destaques&DESTAQUESdest_boui=21

1422735&DESTAQUESmodo=2&xlang=pt

Jahnavi, M., & Katyayani, J. (2014). Data Mining Applications in Banking and Financial Sectors.

CLEAR International Journal of Research in Commerce & Management, 5(1), 6–10.

Jarrar, Y. F., & Neely, A. (2002). Cross-selling in the financial sector: Customer profitability is

key. Journal of Targeting, Measurement and Analysis for Marketing, 10(3), 282–296.

Jutkowitz, A. (2015, February 16). Marketing Is Dead, and Loyalty Killed It. Retrieved August 15,

2017, from https://hbr.org/2015/02/marketing-is-dead-and-loyalty-killed-it

Knott, A., Hayes, A., & Neslin, S. A. (2002). Next-product-to-buy models for cross-selling

applications. Journal of Interactive Marketing, 16(3), 59–75. https://doi.org/10.1002/dir.10038

Kotler, P., & Armstrong, G. (2012). Principles of marketing (14th ed). Boston: Pearson Prentice

Hall.

Kotler, P., Kartajaya, H., & Setiawan, I. (2010). Marketing 3.0: From Products to Customers to

the Human Spirit. Hoboken, N.J: Wiley.

Kotler, P., & Keller, K. L. (2012). Marketing management (14th ed.). Upper Saddle River, N.J:

Prentice Hall.

KV Kamath, SS Kohli, PS Shenoy, Ranjana Kumar, RM Nayak, & PT Kuppuswamy. (2003). Indian

Banking Sector: Challenges and Opportunities (Vol. 28 (3), pp. 83–99). Vikalpa. Retrieved from

http://vikalpa.com/pdf/articles/2003/2003_july_sep_83_99.pdf

Larose, D. T., & Larose, C. D. (2014). Discovering knowledge in data: an introduction to data

mining (Second edition). Hoboken: Wiley.

Lau, K., Wong, S., Ma, M., & Liu, C. (2003). “Next product to offer” for bank marketers. Journal

of Database Marketing, 10(4), 353.

Lau, K.-N., Chow, H., & Liu, C. (2004). A database approach to cross selling in the banking

industry: Practices, strategies and challenges. Journal of Database Marketing & Customer

Strategy Management, 11(3), 216–234.

Ling, C. X., & Li, C. (1998). Data Mining for Direct Marketing: Problems and Solutions. In KDD

(Vol. 98, pp. 73–79). Retrieved from http://www.csd.uwo.ca/~cling/papers/kdd98.pdf

Page 83: Tese v11 - final · Este é, hoje em dia, essencial para ganhar vantagem competitiva no mundo dos negócios e para ganhar conhecimento entre yottabytes de dados disponíveis. Especialmente

65

Mack, E. E. (1997). Cross-selling by any name makes good business sense. (Vol. 98). Retrieved

from http://search.ebscohost.com/login.aspx?direct=true&site=eds-

live&db=bth&AN=9710241492

Macukow, B. (2016). Neural Networks – State of Art, Brief History, Basic Models and

Architecture. In K. Saeed & W. Homenda (Eds.), Computer Information Systems and Industrial

Management (Vol. 9842, pp. 3–14). Cham: Springer International Publishing.

https://doi.org/10.1007/978-3-319-45378-1_1

Maheshwari, A. K. (2015). Business intelligence and data mining. New York: Business Expert

Press.

Maldonado, M., Dean, J., Czika, W., & Haller, S. (2014). Leveraging ensemble models in SAS®

Enterprise MinerTM. In Proceedings of the SAS Global Forum 2014 Conference. Cary, NC: SAS

Institute Inc. Retrieved from

https://pdfs.semanticscholar.org/49e5/4a711f001e93b626bc97c158de14abe14ed1.pdf

Malhotra, R., & Malhotra, D. . (2003). Evaluating consumer loans using neural networks.

Omega, 31(2), 83–96. https://doi.org/10.1016/S0305-0483(03)00016-1

Martinez, L. C., da Hora, D. N., Palotti, J. R. de M., Meira, W., & Pappa, G. L. (2009). From an

artificial neural network to a stock market day-trading system: A case study on the BM&F

BOVESPA. In Neural Networks, 2009. IJCNN 2009. International Joint Conference on (pp. 2006–

2013). IEEE. Retrieved from http://ieeexplore.ieee.org/abstract/document/5179050/

Morgan, R. M., & Hunt, S. D. (1994). The Commitment-Trust Theory of Relationship Marketing.

Journal of Marketing, 58(3), 20–38. https://doi.org/10.2307/1252308

Moro, S., Cortez, P., & Rita, P. (2014). A data-driven approach to predict the success of bank

telemarketing. Decision Support Systems, 62, 22–31.

Moro, S., Cortez, P., & Rita, P. (2015). Business intelligence in banking: A literature analysis

from 2002 to 2013 using text mining and latent Dirichlet allocation. Expert Systems with

Applications, 42(3), 1314–1324. https://doi.org/10.1016/j.eswa.2014.09.024

Narver, J. C., Slater, S. F., & MacLachlan, D. L. (2004). Responsive and Proactive Market

Orientation and New-Product Success. Journal of Product Innovation Management, 21(5), 334–

347. https://doi.org/10.1111/j.0737-6782.2004.00086.x

Ncr, P. C., Clinton, J., Ncr, R. K., Khabaza, T., Reinartz, T., Shearer, C., & Wirth, R. (1999). CRISP-

DM 1.0. Retrieved from

https://pdfs.semanticscholar.org/751a/9844dad60e3682906c6a2fe34be8148f6a23.pdf

Ngai, E. W. T., Xiu, L., & Chau, D. C. K. (2009). Application of data mining techniques in

customer relationship management: A literature review and classification. Expert Systems with

Applications, 36(2), 2592–2602. https://doi.org/10.1016/j.eswa.2008.02.021

Nisbet, R., Elder, J., & Miner, G. (2009). Handbook of Statistical Analysis and Data Mining

Applications. Amsterdam ; Boston: Academic Press/Elsevier.

Page 84: Tese v11 - final · Este é, hoje em dia, essencial para ganhar vantagem competitiva no mundo dos negócios e para ganhar conhecimento entre yottabytes de dados disponíveis. Especialmente

66

Ogwueleka, F. N. (2009). Potential value of data mining for customer relationship marketing in

the banking industry. Advances in Natural and Applied Sciences, 3, 73–78.

Oliver, R. L. (1999). Whence Consumer Loyalty? Journal of Marketing, 63, 33.

https://doi.org/10.2307/1252099

Oliver, R. L. (2010). Satisfaction: a behavioral perspective on the consumer (2nd ed). Armonk,

N.Y: M.E. Sharpe.

Peter F. Drucker. (2002). The Effective Executive. New York: HarperCollins Publishers.

Polonsky, M. J., Cameron, H., Halstead, S., Ratcliffe, A., Stilo, P., & Watt, G. (2000). Exploring

companion selling: does the situation affect customers’ perceptions? International Journal of

Retail & Distribution Management, 28(1), 37–45.

https://doi.org/10.1108/09590550010306764

Preethi, M., & Vijayalakshmi, M. (2017). Data Mining In Banking Sector. International Journal of

Advanced Networking & Applications, 8(5), 1–4.

Prezepiorski Lemos, E., Arns Steiner, M. T., & Nievola, J. C. (2005). Análise de crédito bancário

por meio de redes neurais e árvores de decisão: uma aplicação simples de data mining. Revista

de Administração-RAUSP, 40(3). Retrieved from

http://www.redalyc.org/html/2234/223417392002/

Pulakkazhy, S., & Balan, R. V. S. (2013). DATA MINING IN BANKING AND ITS APPLICATIONS-A

REVIEW. Journal of Computer Science, 9(10), 1252–1259.

https://doi.org/10.3844/jcssp.2013.1252.1259

Rasheed, F. A., & Abadi, M. F. (2014). Impact of Service Quality, Trust and Perceived Value on

Customer Loyalty in Malaysia Services Industries. Procedia - Social and Behavioral Sciences,

164, 298–304. https://doi.org/10.1016/j.sbspro.2014.11.080

Reichheld, F. F. (1993, March 1). Loyalty-Based Management. Retrieved April 12, 2016, from

https://hbr.org/1993/03/loyalty-based-management

Reichheld, F. F. (1996). Learning from Customer Defections. Harvard Business Review, pp. 56–

69.

Reichheld, F. F., & Sasser Jr., W. E. (1990). Zero Defections: Quality Comes to Services, 68.

Retrieved from http://eds.b.ebscohost.com/eds/pdfviewer/pdfviewer?vid=1&sid=1858a8b9-

63fa-45b4-b2be-1f8bbd1ef303%40sessionmgr107&hid=127

Rodrigues, L. F., Oliveira, A., & Costa, C. J. (2016). Does ease-of-use contributes to the

perception of enjoyment? A case of gamification in e-banking. Computers in Human Behavior,

61, 114–126. https://doi.org/10.1016/j.chb.2016.03.015

Rogalewicz, M., & Sika, R. (2016). Methodologies of Knowledge Discovery from Data and Data

Mining Methods in Mechanical Engineering. Management and Production Engineering Review,

7(4). https://doi.org/10.1515/mper-2016-0040

Page 85: Tese v11 - final · Este é, hoje em dia, essencial para ganhar vantagem competitiva no mundo dos negócios e para ganhar conhecimento entre yottabytes de dados disponíveis. Especialmente

67

Rojas, R. (1996). Neural networks: a systematic introduction. Springer Science & Business

Media. Retrieved from

https://books.google.com/books?hl=en&lr=&id=4rESBwAAQBAJ&oi=fnd&pg=PA3&dq=%22usi

ng+formalisms+based+on+increasingly+sophisticated+models+of%22+%22in+computer+scienc

e+and+mathematics.+This+is+a+revised%22+%22them+to+other+computational+formalisms.+

Proofs+are+rigorous,+but%22+&ots=VzlggX1VuW&sig=FJDRXCPLU-CEyakVqE1OKEmswAI

Rosen, T. A. (2004). Why your bank will fail at cross-selling. Com. Lending Rev., 19, 41.

Sharma, S. (2016). A detail comparative study on e-banking VS traditional banking. IJAR, 2(7),

302–307.

Shearer, C. (2000). The CRISP-DM model: the new blueprint for data mining. Journal of Data

Warehousing, 5(4), 13–22.

Sheela, K. G., & Deepa, S. N. (2013). Review on Methods to Fix Number of Hidden Neurons in

Neural Networks. Mathematical Problems in Engineering, 2013, 1–11.

https://doi.org/10.1155/2013/425740

Shibo Li, Baohong Sun, & Ronald T. Wilcox. (2005). Cross-Selling Sequentially Ordered

Products: An Application to Consumer Banking Services. Journal of Marketing Research, 42(2),

233–239.

Shtatland, E. S., Kleinman, K., & Cain, E. M. (2008). Stepwise methods in using sas R proc

logistic and sas R enterpise minertm for prediction. SAS Institute. Retrieved from

https://www.researchgate.net/profile/Ken_Kleinman/publication/228410230_Stepwise_Meth

ods_in_Using_SAS_PROC_LOGISTIC_and_SAS_ENTERPRISE_MINER_for_Prediction/links/0fcfd5

10926a60e7c2000000.pdf

Silva, N. A. do N., & Kaercher, M. A. L. N. (n.d.). A IMPORTÂNCIA DO MARKETING DE

RELACIONAMENTO PARA A FIDELIZAÇÃO DE CLIENTES. Retrieved from

http://www.andrekaercher.com.br/artigos/a-importancia-do-marketing-de-relacionamento-

para-a-fidelizacao-de-clientes-novo.pdf

Soureli, M., Lewis, B. R., & Karantinou, K. M. (2008). Factors that affect consumers’ cross-

buying intention: A model for financial services. Journal of Financial Services Marketing, 13(1),

5–16. https://doi.org/10.1057/fsm.2008.1

Srivastava, A. N., & Han, J. (2011). Machine learning and knowledge discovery for engineering

systems health management. CRC Press. Retrieved from

https://books.google.com/books?hl=en&lr=&id=vJDJlb3oeWkC&oi=fnd&pg=PP1&dq=%22OF+

EDUCATIONAL+DATA%22+%22DISCOVERY+FOR+COUNTERTERRORISM%22+%22Zhang+and+R

uofei%22+%22DISTRIBUTED+KNOWLEDGE%22+%22C.+M.+Fung,+Ke+Wang,+Ada+Wai-

Chee+Fu,+and+Philip+S.%22+%22Li,+Mitsunori+Ogihara,+and+George%22+&ots=eiuYZMagct&

sig=XMGX7ackz218_q5_-23F_Tn2zrw

Page 86: Tese v11 - final · Este é, hoje em dia, essencial para ganhar vantagem competitiva no mundo dos negócios e para ganhar conhecimento entre yottabytes de dados disponíveis. Especialmente

68

Sun, B., Li, S., & Zhou, C. (2006). “Adaptive” learning and “proactive” customer relationship

management. Journal of Interactive Marketing, 20(3–4), 82–96.

https://doi.org/10.1002/dir.20069

Thapliyal, M. P. (2015). Data Mining: A Tool for Banking Industry. Nternational Journal of

Emerging Research in Management &Technology.

The Millennial Disruption Index. (n.d.). Retrieved June 27, 2017, from

http://www.millennialdisruptionindex.com/

Tkáč, M., & Verner, R. (2016). Artificial neural networks in business: Two decades of research.

Applied Soft Computing, 38, 788–804. https://doi.org/10.1016/j.asoc.2015.09.040

Trianni, V. (2008). Evolutionary swarm robotics: evolving self-organising behaviours in groups

of autonomous robots. Berlin: Springer.

Turban, E., Aronson, J. E., & Liang, T.-P. (2005). Decision support systems and intelligent

systems. New Delhi: Prentice-Hall of India.

Van den Poel, D., & Lariviere, B. (2003). Customer attrition analysis for financial services using

proportional hazard models. European Journal of Operational Research, 157(1), 196–217.

Varajão, J., & Cruz-Cunha, M. M. (2016). Main Motivations for CRM Adoption by Large

Portuguese companies – A Principal Component Analysis. Procedia Computer Science, 100,

1269–1279. https://doi.org/10.1016/j.procs.2016.09.165

Wang, F., Hu, F., & Yu, L. (2010). The Application of Customer Relationship Management in

Investment Banks. Asian Social Science, 6(10), 178. https://doi.org/10.5539/ass.v6n10p178

William J. Frawley, Gregory Piatetsky-Shapiro, & Christopher J. Matheus. (1992). Knowledge

Discovery in Databases: An Overview. AI Magazine, 13(3). Retrieved from

http://aaaipress.org/ojs/index.php/aimagazine/article/viewFile/1011/929

Wirth, R., & Hipp, J. (2000). CRISP-DM: Towards a standard process model for data mining. In

Proceedings of the 4th international conference on the practical applications of knowledge

discovery and data mining (pp. 29–39). Citeseer. Retrieved from

http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.198.5133&rep=rep1&type=pdf

Witten, I. H., & Frank, E. (2005). Data mining: Practical Machine Learning Tools and Techniques

(2nd ed). Amsterdam ; Boston, MA: Morgan Kaufman.

Yeh, I.-C., & Lien, C. (2009). The comparisons of data mining techniques for the predictive

accuracy of probability of default of credit card clients. Expert Systems with Applications, 36(2),

2473–2480. https://doi.org/10.1016/j.eswa.2007.12.020

Zboja, J. J., & Hartline, M. D. (2012). An Examination of High-Frequency Cross-Selling. Journal

of Relationship Marketing, 11(1), 41–55. https://doi.org/10.1080/15332667.2012.653327

Zhang, G., Patuwo, B. E., & Hu, M. Y. (1998). Forecasting with artificial neural networks:: The

state of the art. International Journal of Forecasting, 14(1), 35–62.

Page 87: Tese v11 - final · Este é, hoje em dia, essencial para ganhar vantagem competitiva no mundo dos negócios e para ganhar conhecimento entre yottabytes de dados disponíveis. Especialmente

69

Zhuang, T., Zhang, Y., Yan, S., & Liu, X. (2016). Using Data Mining to Improve E iciency For Bank

Direct Marketing Compaigns. Retrieved from https://cseweb.ucsd.edu/classes/wi17/cse258-

a/reports/a103.pdf

Page 88: Tese v11 - final · Este é, hoje em dia, essencial para ganhar vantagem competitiva no mundo dos negócios e para ganhar conhecimento entre yottabytes de dados disponíveis. Especialmente

70

8. ANEXOS

Anexo 1 - Variáveis iniciais

Variável Descrição

Client_Id Id Do Cliente

Alvos Se Faz Parte Ou Não Da Lista Original De Alvos

Venda Adquiriu Ou Não o Crédito Na Campanha

Customer_Type Tipo De Cliente

Gender_Type Género

Marital_Status Estado Civil

Employment_Status Situação Profissional

Resident_Status Tipo De Residência

Education_Level Nível De Educação

Distrito Distrito

Market_Segment Segmento

Life_Cycle_Stage Estágio Da Vida Do Cliente

Relation_Cycle Estado Da Relação Com O Cliente

Credit_Risk Risco De Crédito

Dependents_Cnt Número De Dependentes

Global_Balance_Amt Envolvimento Financeiro Do Cliente

Retired_Flg Flag De Reformado

Patrimonio_Mob_Amt Valor Do Património Mobiliário

Patrimonio_Imob_Amt Valor Do Património Imobiliário

Internal_Rate Rate interno

Domicilied_Salary_Flg Flag De Domiciliação De Ordenado

Gross_Individual_Income_Amt Valor Bruto De Rendimento Individual

Gross_House_Hold_Income_Amt Valor Bruto De Rendimento Familiar

Personal_Credit_Score_No Valor De Score Individual

Pre_Approv_Grt_Personal_Cred_Amt Valor De Crédito Pré Aprovado

Customer_Bdp_Incident_Flg Flag De Incidentes No BP

Page 89: Tese v11 - final · Este é, hoje em dia, essencial para ganhar vantagem competitiva no mundo dos negócios e para ganhar conhecimento entre yottabytes de dados disponíveis. Especialmente

71

Anexo 2 – Variáveis criadas no SAS Guide

Variável Descrição

Anos_Antiguidade Anos De Antiguidade Enquanto Cliente

Age Idade do cliente à data da campanha

Ano Do Último Contracto Aberto Ano Do Último Contracto Aberto Antes Do Início Da Campanha

Campain_Cnt Nº De Vezes Que Foi Alvo De Campanha Desde Sempre

Past_Due_Amt_Avg Avg De Valor Em Divida não Contratada (6 Meses)

Past_Due_Days_Cnt Avg De Nº De Dias Em Divida não contratada (6 Meses)

Dep_Ordem_Cnt Nº De Contractos De Do'S

Dep_Ordem_Avg Avg De Contractos De Do'S (6 Meses) (Valor Pontual De Fecho De Mês)

Dep_Prazo_Cnt Nº De Contractos De Dp'S

Dep_Prazo_Avg Avg De Contractos De Dp'S (6 Meses) (Valor Pontual De Fecho De Mês)

Poupanças_Cnt Nº De Contractos De Poupanças

Poupanças_Avg Avg De Contractos De Poupanças (6 Meses) (Valor Pontual De Fecho De Mês)

Last_6M_Credit_Card_Movement_Cnt Nº De Movimentos No CC Nos Últimos 6 Meses

Cartao_Crédito_Cnt N+ De Contas Cartão

Cartao_Crédito_Avg Avg Do Saldo Das Contas Cartão (6 Meses) (Valor Pontual De Fecho De Mês)

Cre_Habitacao_Cnt Nº De Contractos De Crédito Habitação

Cre_Habitacao_Avg Avg De Contractos De Outros Habitação (6 Meses)

Cre_Habitacao_Atual_V_Inicial Valor Do Crédito Pedido Atualmente Aberto

Outro_Créditos_Cnt Nº De Contractos De Outros Créditos

Outro_Créditos_Avg Avg De Contractos De Outros Créditos (6 Meses)

Outro_Crédito_Atual_V_Inicial Valor Do Crédito Pedido Atualmente Aberto

Crédito_Pessoal_Cnt Nº De Contractos De Crédito Pessoal

Crédito_Pessoal_Avg Avg De Contractos De Crédito Pessoal (6 Meses)

Crédito_Pessoal_Atual_V_Inicial Valor Do Crédito Pedido Atualmente Aberto

Crédito_Multiusos_Cnt Nº De Contractos De Crédito Multiusos

Crédito_Multiusos_Avg Avg De Contractos De Crédito Multiusos (6 Meses)

Crédito_Multiusos_Atual_V_Inicial Valor Do Crédito Pedido Atualmente Aberto

Direct_Debits_Cnt Nº De Débitos Diretos ativos - No Mês Antes Do Início Da Campanhas

Direct_Debits_Amt Valor Dos Débitos Diretos - No Mês Antes Do Início Da Campanhas

Descoberto_Autorixado_Amt Limite De Descoberto Autorizado

Crédito_Aberto_Oic_Amt Valor Do Crédito Aberto No Resto Da Banca

Total_Descobertos_Amt Total De Descobertos

Contractos_Crédito_Cnt Nº de Créditos Realizados Desde Sempre no CA

Valor_Total_Crédito_Realizado Valor Do Crédito Realizado Desde Sempre no CA

Valor_Total_Crédito_Ja Pago Valor total já pago em créditos

Page 90: Tese v11 - final · Este é, hoje em dia, essencial para ganhar vantagem competitiva no mundo dos negócios e para ganhar conhecimento entre yottabytes de dados disponíveis. Especialmente

72

Custo_Contacto Valor Calculado De Custo Por Contracto De Crédito Pessoal

Juro_Médio_Pago Valor Calculado De Juros Pagos Por Contracto De Crédito Pessoal

Page 91: Tese v11 - final · Este é, hoje em dia, essencial para ganhar vantagem competitiva no mundo dos negócios e para ganhar conhecimento entre yottabytes de dados disponíveis. Especialmente

73

Anexo 3 - Diagrama do projeto de SAS Guide

Page 92: Tese v11 - final · Este é, hoje em dia, essencial para ganhar vantagem competitiva no mundo dos negócios e para ganhar conhecimento entre yottabytes de dados disponíveis. Especialmente

74

Anexo 4 - Diagrama do projeto de SAS Miner

Page 93: Tese v11 - final · Este é, hoje em dia, essencial para ganhar vantagem competitiva no mundo dos negócios e para ganhar conhecimento entre yottabytes de dados disponíveis. Especialmente

75

Anexo 5 - Variáveis criadas e codificações realizadas no SAS Miner

Anos_Antig_Cod = "";

IF Anos_Antiguidade = 0 THEN Anos_Antig_Cod = "1";

ELSE IF Anos_Antiguidade > 0 AND Anos_Antiguidade <= 5 THEN Anos_Antig_Cod = "2";

ELSE IF Anos_Antiguidade > 5 AND Anos_Antiguidade <= 10 THEN Anos_Antig_Cod = "3";

ELSE Anos_Antig_Cod = "4";

Age_Cod = "";

IF Age < 25 THEN Age_Cod = "1";

ELSE IF Age > 25 AND Age <= 35 THEN Age_Cod = "2";

ELSE IF Age > 35 AND Age <= 45 THEN Age_Cod = "3";

ELSE IF Age > 45 AND Age <= 65 THEN Age_Cod = "4";

ELSE Age_Cod = "5";

Ano_Último_Contracto_Aberto_Cod = "";

IF Ano_Último_Contracto_Aberto >= 2015 THEN Ano_Último_Contracto_Aberto_Cod = "1";

ELSE IF Ano_Último_Contracto_Aberto >= 2005 AND Ano_Último_Contracto_Aberto < 2015 THEN

Ano_Último_Contracto_Aberto_Cod = "2";

ELSE IF Ano_Último_Contracto_Aberto >= 1995 AND Ano_Último_Contracto_Aberto < 2005 THEN

Ano_Último_Contracto_Aberto_Cod = "3";

ELSE Ano_Último_Contracto_Aberto_Cod = "4";

Marital_Status_Cod = "";

IF Marital_Status = "CASADO(A)" THEN Marital_Status_Cod = "1";

ELSE IF Marital_Status = "UNIÃO DE FACTO" THEN Marital_Status_Cod = "2";

ELSE IF Marital_Status = "" THEN Marital_Status_Cod = "";

ELSE Marital_Status_Cod = "3";

Resident_Status_Cod = "";

IF(Resident_Status = "ARRENDADA") THEN Resident_Status_Cod = "1";

ELSE IF Resident_Status = "EMPRESA" THEN Resident_Status_Cod = "2";

ELSE IF Resident_Status = "FAMILIARES /OUTROS" THEN Resident_Status_Cod = "3";

ELSE IF Resident_Status = "" THEN Resident_Status_Cod = "";

ELSE Resident_Status_Cod = "4";

Education_Level_Cod = "";

IF Education_Level = "SEM INSTRUÇÃO" THEN Education_Level_Cod = "1";

ELSE IF Education_Level = "MESTRADO" THEN Education_Level_Cod = "2";

ELSE IF Education_Level = "LICENCIATURA" THEN Education_Level_Cod = "2";

ELSE IF Education_Level = "DOUTORAMENTO" THEN Education_Level_Cod = "2";

ELSE IF Education_Level = "BACHARELATO" THEN Education_Level_Cod = "2";

ELSE IF Education_Level = "ENSINO COMPLEMENTAR" THEN Education_Level_Cod = "3";

ELSE IF Education_Level = "ENSINO MÉDIO PROFISSIONAL" THEN Education_Level_Cod = "3";

ELSE IF Education_Level = "ENSINO PRIMÁRIO" THEN Education_Level_Cod = "3";

Page 94: Tese v11 - final · Este é, hoje em dia, essencial para ganhar vantagem competitiva no mundo dos negócios e para ganhar conhecimento entre yottabytes de dados disponíveis. Especialmente

76

ELSE IF Education_Level = "ENSINO SECUNDÁRIO" THEN Education_Level_Cod = "3";

ELSE IF Education_Level = "" THEN Education_Level_Cod = "";

ELSE Education_Level_Cod = "4";

Dependents_Cnt_Cod = "";

IF Dependents_Cnt=0 THEN Dependents_Cnt_Cod = "1";

ELSE IF Dependents_Cnt >0 THEN Dependents_Cnt_Cod = "2";

ELSE IF Dependents_Cnt = "" THEN Dependents_Cnt_Cod = "";

ELSE Dependents_Cnt_Cod = "3";

Campain_Cnt_Cod = "";

IF Campain_Cnt= 0 THEN Campain_Cnt_Cod = "1";

ELSE IF Campain_Cnt > 0 AND Campain_Cnt <= 5 THEN Campain_Cnt_Cod = "2";

ELSE IF Campain_Cnt > 5 AND Campain_Cnt < 15 THEN Campain_Cnt_Cod = "3";

ELSE IF Campain_Cnt > 15 AND Campain_Cnt <= 30 THEN Campain_Cnt_Cod = "4";

ELSE Campain_Cnt_Cod = "5";

Campain_Avg = (Campain_Cnt / Anos_Antiguidade);

Past_Due_Amt_Cod = "";

IF Past_Due_Days_Cnt = 0 THEN Past_Due_Amt_Cod = "1";

ELSE Past_Due_Amt_Cod = "2";

Dep_Ordem_Avg_Cod = "";

IF Dep_Ordem_Avg < 0 THEN Dep_Ordem_Avg_Cod = "1";

ELSE IF Dep_Ordem_Avg = 0 THEN Dep_Ordem_Avg_Cod = "2";

ELSE IF Dep_Ordem_Avg > 0 AND Dep_Ordem_Avg <= 2000 THEN Dep_Ordem_Avg_Cod = "3";

ELSE IF Dep_Ordem_Avg > 2000 AND Dep_Ordem_Avg <= 5000 THEN Dep_Ordem_Avg_Cod = "4";

ELSE IF Dep_Ordem_Avg > 5000 AND Dep_Ordem_Avg <= 15000 THEN Dep_Ordem_Avg_Cod = "5";

ELSE IF Dep_Ordem_Avg > 15000 AND Dep_Ordem_Avg <= 50000 THEN Dep_Ordem_Avg_Cod = "6";

ELSE Dep_Ordem_Avg_Cod = "7";

Dep_Prazo_Avg_Cod = "";

IF Dep_Prazo_Avg = 0 THEN Dep_Prazo_Avg_Cod = "1";

ELSE IF Dep_Prazo_Avg > 0 AND Dep_Prazo_Avg <= 2000 THEN Dep_Prazo_Avg_Cod = "2";

ELSE IF Dep_Prazo_Avg > 2000 AND Dep_Prazo_Avg <= 5000 THEN Dep_Prazo_Avg_Cod = "3";

ELSE IF Dep_Prazo_Avg > 5000 AND Dep_Prazo_Avg <= 15000 THEN Dep_Prazo_Avg_Cod = "4";

ELSE IF Dep_Prazo_Avg > 15000 AND Dep_Prazo_Avg <= 50000 THEN Dep_Prazo_Avg_Cod = "5";

ELSE Dep_Prazo_Avg_Cod = "6";

Poupancas_Avg_Cod = "";

IF Poupancas_Avg = 0 THEN Poupancas_Avg_Avg_Cod = "1";

ELSE IF Poupancas_Avg > 0 AND Poupancas_Avg <= 2000 THEN Poupancas_Avg_Cod = "2";

ELSE IF Poupancas_Avg > 2000 AND Poupancas_Avg <= 5000 THEN Poupancas_Avg_Cod = "3";

ELSE IF Poupancas_Avg > 5000 AND Poupancas_Avg <= 15000 THEN Poupancas_Avg_Cod = "4";

ELSE IF Poupancas_Avg > 15000 AND Poupancas_Avg <= 50000 THEN Poupancas_Avg_Cod = "5";

ELSE Poupancas_Avg_Cod = "6";

Page 95: Tese v11 - final · Este é, hoje em dia, essencial para ganhar vantagem competitiva no mundo dos negócios e para ganhar conhecimento entre yottabytes de dados disponíveis. Especialmente

77

Outro_Créditos_Avg_Cod = "";

IF Outro_Créditos_Avg = 0 THEN Outro_Créditos_Avg_Cod = "1";

ELSE IF Outro_Créditos_Avg > 0 AND Outro_Créditos_Avg <= 5000 THEN Outro_Créditos_Avg_Cod = "2";

ELSE IF Outro_Créditos_Avg > 5000 AND Outro_Créditos_Avg <= 15000 THEN Outro_Créditos_Avg_Cod

= "3";

ELSE IF Outro_Créditos_Avg > 15000 AND Outro_Créditos_Avg <= 30000 THEN Outro_Créditos_Avg_Cod

= "4";

ELSE IF Outro_Créditos_Avg > 30000 AND Outro_Créditos_Avg <= 50000 THEN Outro_Créditos_Avg_Cod

= "5";

ELSE IF Outro_Créditos_Avg > 50000 AND Outro_Créditos_Avg <= 100000 THEN

Outro_Créditos_Avg_Cod = "6";

ELSE IF Outro_Créditos_Avg > 100000 AND Outro_Créditos_Avg <= 200000 THEN

Outro_Créditos_Avg_Cod = "7";

ELSE IF Outro_Créditos_Avg > 200000 AND Outro_Créditos_Avg <= 300000 THEN

Outro_Créditos_Avg_Cod = "8";

ELSE Outro_Créditos_Avg_Cod = "9";

Crédito_Pessoal_Avg_Cod = "";

IF Crédito_Pessoal_Avg = 0 THEN Crédito_Pessoal_Avg_Cod = "1";

ELSE IF Crédito_Pessoal_Avg > 0 AND Crédito_Pessoal_Avg <= 5000 THEN Crédito_Pessoal_Avg_Cod =

"2";

ELSE IF Crédito_Pessoal_Avg > 5000 AND Crédito_Pessoal_Avg <= 15000 THEN

Crédito_Pessoal_Avg_Cod = "3";

ELSE IF Crédito_Pessoal_Avg > 15000 AND Crédito_Pessoal_Avg <= 30000 THEN

Crédito_Pessoal_Avg_Cod = "4";

ELSE IF Crédito_Pessoal_Avg > 30000 AND Crédito_Pessoal_Avg <= 50000 THEN

Crédito_Pessoal_Avg_Cod = "5";

ELSE IF Crédito_Pessoal_Avg > 50000 AND Crédito_Pessoal_Avg <= 100000 THEN

Crédito_Pessoal_Avg_Cod = "6";

ELSE IF Crédito_Pessoal_Avg > 100000 AND Crédito_Pessoal_Avg <= 200000 THEN

Crédito_Pessoal_Avg_Cod = "7";

ELSE Crédito_Pessoal_Avg_Cod = "8";

Crédito_Multiusos_Avg_Cod = "";

IF Crédito_Multiusos_Avg = 0 THEN Crédito_Multiusos_Avg_Cod = "1";

ELSE IF Crédito_Multiusos_Avg > 0 AND Crédito_Multiusos_Avg <= 5000 THEN

Crédito_Multiusos_Avg_Cod = "2";

ELSE IF Crédito_Multiusos_Avg > 5000 AND Crédito_Multiusos_Avg <= 15000 THEN

Crédito_Multiusos_Avg_Cod = "3";

ELSE IF Crédito_Multiusos_Avg > 15000 AND Crédito_Multiusos_Avg <= 30000 THEN

Crédito_Multiusos_Avg_Cod = "4";

ELSE IF Crédito_Multiusos_Avg > 30000 AND Crédito_Multiusos_Avg <= 50000 THEN

Crédito_Multiusos_Avg_Cod = "5";

ELSE IF Crédito_Multiusos_Avg > 50000 AND Crédito_Multiusos_Avg <= 100000 THEN

Crédito_Multiusos_Avg_Cod = "6";

ELSE Crédito_Multiusos_Avg_Cod = "7";

Direct_Debits_Amt_Cod = "";

IF Direct_Debits_Amt = 0 THEN Direct_Debits_Amt_Cod = "1";

ELSE IF Direct_Debits_Amt > 0 AND Direct_Debits_Amt <= 300 THEN Direct_Debits_Amt_Cod = "2";

Page 96: Tese v11 - final · Este é, hoje em dia, essencial para ganhar vantagem competitiva no mundo dos negócios e para ganhar conhecimento entre yottabytes de dados disponíveis. Especialmente

78

ELSE IF Direct_Debits_Amt > 300 AND Direct_Debits_Amt <= 1000 THEN Direct_Debits_Amt_Cod = "3";

ELSE IF Direct_Debits_Amt > 1000 AND Direct_Debits_Amt <= 2000 THEN Direct_Debits_Amt_Cod = "4";

ELSE IF Direct_Debits_Amt > 2000 AND Direct_Debits_Amt <= 5000 THEN Direct_Debits_Amt_Cod = "5";

ELSE IF Direct_Debits_Amt > 5000 AND Direct_Debits_Amt <= 10000 THEN Direct_Debits_Amt_Cod =

"6";

ELSE Direct_Debits_Amt_Cod = "7";

Crédito_Aberto_Oic_Amt_Cod = "";

IF Crédito_Aberto_Oic_Amt = 0 THEN Crédito_Aberto_Oic_Amt_Cod = "1";

ELSE IF Crédito_Aberto_Oic_Amt > 0 AND Crédito_Aberto_Oic_Amt <= 500 THEN

Crédito_Aberto_Oic_Amt_Cod = "2";

ELSE IF Crédito_Aberto_Oic_Amt > 500 AND Crédito_Aberto_Oic_Amt <= 1000 THEN

Crédito_Aberto_Oic_Amt_Cod = "3";

ELSE IF Crédito_Aberto_Oic_Amt > 1000 AND Crédito_Aberto_Oic_Amt <= 5000 THEN

Crédito_Aberto_Oic_Amt_Cod = "4";

ELSE IF Crédito_Aberto_Oic_Amt > 5000 AND Crédito_Aberto_Oic_Amt <= 10000 THEN

Crédito_Aberto_Oic_Amt_Cod = "5";

ELSE IF Crédito_Aberto_Oic_Amt > 10000 AND Crédito_Aberto_Oic_Amt <= 50000 THEN

Crédito_Aberto_Oic_Amt_Cod = "6";

ELSE IF Crédito_Aberto_Oic_Amt > 50000 AND Crédito_Aberto_Oic_Amt <= 100000 THEN

Crédito_Aberto_Oic_Amt_Cod = "7";

ELSE IF Crédito_Aberto_Oic_Amt > 100000 AND Crédito_Aberto_Oic_Amt <= 200000 THEN

Crédito_Aberto_Oic_Amt_Cod = "8";

ELSE IF Crédito_Aberto_Oic_Amt > 200000 AND Crédito_Aberto_Oic_Amt <= 500000 THEN

Crédito_Aberto_Oic_Amt_Cod = "9";

ELSE Crédito_Aberto_Oic_Amt_Cod = "10";

Total_Descobertos_Amt_Cod = "";

IF Total_Descobertos_Amt = 0 THEN Total_Descobertos_Amt_Cod = "1";

ELSE IF Total_Descobertos_Amt > 0 AND Total_Descobertos_Amt <= 500 THEN

Total_Descobertos_Amt_Cod = "2";

ELSE IF Total_Descobertos_Amt > 500 AND Total_Descobertos_Amt <= 1000 THEN

Total_Descobertos_Amt_Cod = "3";

ELSE IF Total_Descobertos_Amt > 1000 AND Total_Descobertos_Amt <= 5000 THEN

Total_Descobertos_Amt_Cod = "4";

ELSE IF Total_Descobertos_Amt > 5000 AND Total_Descobertos_Amt <= 10000 THEN

Total_Descobertos_Amt_Cod = "5";

ELSE IF Total_Descobertos_Amt > 10000 AND Total_Descobertos_Amt <= 50000 THEN

Total_Descobertos_Amt_Cod = "6";

ELSE Total_Descobertos_Amt_Cod = "7";

Valor_Total_Crédito_Ja_Pago_Cod = "";

IF Valor_Total_Crédito_Ja_Pago = 0 THEN Valor_Total_Crédito_Ja_Pago_Cod = "1";

ELSE IF Valor_Total_Crédito_Ja_Pago > 0 AND Valor_Total_Crédito_Ja_Pago <= 500 THEN

Valor_Total_Crédito_Ja_Pago_Cod = "2";

ELSE IF Valor_Total_Crédito_Ja_Pago > 500 AND Valor_Total_Crédito_Ja_Pago <= 1000 THEN

Valor_Total_Crédito_Ja_Pago_Cod = "3";

ELSE IF Valor_Total_Crédito_Ja_Pago > 1000 AND Valor_Total_Crédito_Ja_Pago <= 5000 THEN

Valor_Total_Crédito_Ja_Pago_Cod = "4";

Page 97: Tese v11 - final · Este é, hoje em dia, essencial para ganhar vantagem competitiva no mundo dos negócios e para ganhar conhecimento entre yottabytes de dados disponíveis. Especialmente

79

ELSE IF Valor_Total_Crédito_Ja_Pago > 5000 AND Valor_Total_Crédito_Ja_Pago <= 10000 THEN

Valor_Total_Crédito_Ja_Pago_Cod = "5";

ELSE IF Valor_Total_Crédito_Ja_Pago > 10000 AND Valor_Total_Crédito_Ja_Pago <= 50000 THEN

Valor_Total_Crédito_Ja_Pago_Cod = "6";

ELSE IF Valor_Total_Crédito_Ja_Pago > 50000 AND Valor_Total_Crédito_Ja_Pago <= 100000 THEN

Valor_Total_Crédito_Ja_Pago_Cod = "7";

ELSE IF Valor_Total_Crédito_Ja_Pago > 100000 AND Valor_Total_Crédito_Ja_Pago <= 200000 THEN

Valor_Total_Crédito_Ja_Pago_Cod = "8";

ELSE IF Valor_Total_Crédito_Ja_Pago > 200000 AND Valor_Total_Crédito_Ja_Pago <= 500000 THEN

Valor_Total_Crédito_Ja_Pago_Cod = "9";

ELSE Valor_Total_Crédito_Ja_Pago_Cod = "10";

Patrimonio_Financeiro = Dep_Ordem_Avg + Dep_Prazo_Avg + Poupancas_Avg;

Responsabilidades_Amt = Cre_Habitacao_Avg + Outro_Créditos_Avg + Crédito_Pessoal_Avg +

Crédito_Multiusos_Avg;

Patri_Liquido_Amt = Patrimonio_Financeiro - Responsabilidades_Amt;

Valor_Patrimonio_total = Patrimonio_Mob_Amt + Patrimonio_Imob_Amt;

Responsabilidades_Amt_Cod = "";

IF Responsabilidades_Amt = 0 THEN Responsabilidades_Amt_Cod = "1";

ELSE IF Responsabilidades_Amt > 0 AND Responsabilidades_Amt <= 2000 THEN

Responsabilidades_Amt_Cod = "2";

ELSE IF Responsabilidades_Amt > 2000 AND Responsabilidades_Amt <= 5000 THEN

Responsabilidades_Amt_Cod = "3";

ELSE IF Responsabilidades_Amt > 5000 AND Responsabilidades_Amt <= 15000 THEN

Responsabilidades_Amt_Cod = "4";

ELSE IF Responsabilidades_Amt > 15000 AND Responsabilidades_Amt <= 50000 THEN

Responsabilidades_Amt_Cod = "5";

ELSE IF Responsabilidades_Amt > 50000 AND Responsabilidades_Amt <= 100000 THEN

Responsabilidades_Amt_Cod = "6";

ELSE IF Responsabilidades_Amt > 100000 AND Responsabilidades_Amt <= 200000 THEN

Responsabilidades_Amt_Cod = "7";

ELSE Responsabilidades_Amt_Cod = "8";

Patri_Liquido_Amt_Cod = "";

IF Patri_Liquido_Amt < 0 THEN Patri_Liquido_Amt_Cod = "1";

ELSE IF Patri_Liquido_Amt = 0 THEN Patri_Liquido_Amt_Cod = "2";

ELSE IF Patri_Liquido_Amt > 0 AND Patri_Liquido_Amt <= 2000 THEN Patri_Liquido_Amt_Cod = "3";

ELSE IF Patri_Liquido_Amt > 2000 AND Patri_Liquido_Amt <= 5000 THEN Patri_Liquido_Amt_Cod = "4";

ELSE IF Patri_Liquido_Amt > 5000 AND Patri_Liquido_Amt <= 15000 THEN Patri_Liquido_Amt_Cod = "5";

ELSE IF Patri_Liquido_Amt > 15000 AND Patri_Liquido_Amt <= 50000 THEN Patri_Liquido_Amt_Cod =

"6";

ELSE IF Patri_Liquido_Amt > 50000 AND Patri_Liquido_Amt <= 100000 THEN Patri_Liquido_Amt_Cod =

"7";

ELSE IF Patri_Liquido_Amt > 100000 AND Patri_Liquido_Amt <= 200000 THEN Patri_Liquido_Amt_Cod =

"8";

ELSE Patri_Liquido_Amt_Cod = "9";

Page 98: Tese v11 - final · Este é, hoje em dia, essencial para ganhar vantagem competitiva no mundo dos negócios e para ganhar conhecimento entre yottabytes de dados disponíveis. Especialmente

80

Global_Balance_Amt_Cod = "";

IF Global_Balance_Amt < 0 THEN Global_Balance_Amt_Cod = "1";

ELSE IF Global_Balance_Amt = 0 THEN Global_Balance_Amt_Cod = "2";

ELSE IF Global_Balance_Amt > 0 AND Global_Balance_Amt <= 2000 THEN Global_Balance_Amt_Cod =

"3";

ELSE IF Global_Balance_Amt > 2000 AND Global_Balance_Amt <= 5000 THEN Global_Balance_Amt_Cod

= "4";

ELSE IF Global_Balance_Amt > 5000 AND Global_Balance_Amt <= 15000 THEN

Global_Balance_Amt_Cod = "5";

ELSE IF Global_Balance_Amt > 15000 AND Global_Balance_Amt <= 50000 THEN

Global_Balance_Amt_Cod = "6";

ELSE IF Global_Balance_Amt > 50000 AND Global_Balance_Amt <= 100000 THEN

Global_Balance_Amt_Cod = "7";

ELSE IF Global_Balance_Amt > 100000 AND Global_Balance_Amt <= 200000 THEN

Global_Balance_Amt_Cod = "8";

ELSE Global_Balance_Amt_Cod = "9";

Valor_Patrimonio_total_Cod = "";

IF Valor_Patrimonio_total = 0 THEN Valor_Patrimonio_total_Cod = "1";

ELSE IF Valor_Patrimonio_total > 0 AND Valor_Patrimonio_total <= 2000 THEN

Valor_Patrimonio_total_Cod = "2";

ELSE IF Valor_Patrimonio_total > 2000 AND Valor_Patrimonio_total <= 5000 THEN

Valor_Patrimonio_total_Cod = "3";

ELSE IF Valor_Patrimonio_total > 5000 AND Valor_Patrimonio_total <= 15000 THEN

Valor_Patrimonio_total_Cod = "4";

ELSE IF Valor_Patrimonio_total > 15000 AND Valor_Patrimonio_total <= 50000 THEN

Valor_Patrimonio_total_Cod = "5";

ELSE IF Valor_Patrimonio_total > 50000 AND Valor_Patrimonio_total <= 100000 THEN

Valor_Patrimonio_total_Cod = "6";

ELSE IF Valor_Patrimonio_total > 100000 AND Valor_Patrimonio_total <= 200000 THEN

Valor_Patrimonio_total_Cod = "7";

ELSE Valor_Patrimonio_total_Cod = "8";

Gross_House_Hold_Income_Amt_Cod = "";

IF Gross_House_Hold_Income_Amt = "" THEN Gross_House_Hold_Income_Amt_Cod = "1";

ELSE IF Gross_House_Hold_Income_Amt = 0 THEN Gross_House_Hold_Income_Amt_Cod = "2";

ELSE IF Gross_House_Hold_Income_Amt > 0 AND Gross_House_Hold_Income_Amt <= 10000 THEN

Gross_House_Hold_Income_Amt_Cod = "3";

ELSE IF Gross_House_Hold_Income_Amt > 10000 AND Gross_House_Hold_Income_Amt <= 30000 THEN

Gross_House_Hold_Income_Amt_Cod = "4";

ELSE IF Gross_House_Hold_Income_Amt > 30000 AND Gross_House_Hold_Income_Amt <= 60000 THEN

Gross_House_Hold_Income_Amt_Cod = "5";

ELSE IF Gross_House_Hold_Income_Amt > 60000 AND Gross_House_Hold_Income_Amt <= 100000

THEN Gross_House_Hold_Income_Amt_Cod = "6";

ELSE Gross_House_Hold_Income_Amt_Cod = "7";

Patri_Finan_Cod = "";

IF Patrimonio_Financeiro < 0 THEN Patri_Finan_Cod = "1";

ELSE IF Patrimonio_Financeiro = 0 THEN Patri_Financeiro_Cod = "2";

ELSE IF Patrimonio_Financeiro > 0 AND Patrimonio_Financeiro <= 2000 THEN Patri_Finan_Cod = "3";

Page 99: Tese v11 - final · Este é, hoje em dia, essencial para ganhar vantagem competitiva no mundo dos negócios e para ganhar conhecimento entre yottabytes de dados disponíveis. Especialmente

81

ELSE IF Patrimonio_Financeiro > 2000 AND Patrimonio_Financeiro <= 5000 THEN Patri_Finan_Cod = "4";

ELSE IF Patrimonio_Financeiro > 5000 AND Patrimonio_Financeiro <= 15000 THEN Patri_Finan_Cod =

"5";

ELSE IF Patrimonio_Financeiro > 15000 AND Patrimonio_Financeiro <= 50000 THEN Patri_Finan_Cod =

"6";

ELSE IF Patrimonio_Financeiro > 50000 AND Patrimonio_Financeiro <= 100000 THEN Patri_Finan_Cod =

"7";

ELSE IF Patrimonio_Financeiro > 100000 AND Patrimonio_Financeiro <= 200000 THEN Patri_Finan_Cod =

"8";

ELSE Patri_Finan_Cod = "9";

Outro_C_Atual_V_Ini_Cod = "";

IF Outro_Crédito_Atual_V_Inicial = 0 THEN Outro_C_Atual_V_Ini_Cod = "1";

ELSE IF Outro_Crédito_Atual_V_Inicial > 0 AND Outro_Crédito_Atual_V_Inicial <= 5000 THEN

Outro_Crédito_Atual_V_Ini_Cod = "2";

ELSE IF Outro_Crédito_Atual_V_Inicial > 5000 AND Outro_Crédito_Atual_V_Inicial <= 15000 THEN

Outro_C_Atual_V_Ini_Cod = "3";

ELSE IF Outro_Crédito_Atual_V_Inicial > 15000 AND Outro_Crédito_Atual_V_Inicial <= 30000 THEN

Outro_C_Atual_V_Ini_Cod = "4";

ELSE IF Outro_Crédito_Atual_V_Inicial > 30000 AND Outro_Crédito_Atual_V_Inicial <= 50000 THEN

Outro_C_Atual_V_Ini_Cod = "5";

ELSE IF Outro_Crédito_Atual_V_Inicial > 50000 AND Outro_Crédito_Atual_V_Inicial <= 100000 THEN

Outro_C_Atual_V_Ini_Cod = "6";

ELSE IF Outro_Crédito_Atual_V_Inicial > 100000 AND Outro_Crédito_Atual_V_Inicial <= 200000 THEN

Outro_C_Atual_V_Ini_Cod = "7";

ELSE IF Outro_Crédito_Atual_V_Inicial > 200000 AND Outro_Crédito_Atual_V_Inicial <= 300000 THEN

Outro_C_Atual_V_Ini_Cod = "8";

ELSE Outro_C_Atual_V_Ini_Cod = "9";

Valor_Total_Crédito_Real_Cod = "";

IF Valor_Total_Crédito_Realizado = 0 THEN Valor_Total_Crédito_Real_Cod = "1";

ELSE IF Valor_Total_Crédito_Realizado > 0 AND Valor_Total_Crédito_Realizado <= 500 THEN

Valor_Total_Crédito_Real_Cod = "2";

ELSE IF Valor_Total_Crédito_Realizado > 500 AND Valor_Total_Crédito_Realizado <= 1000 THEN

Valor_Total_Crédito_Real_Cod = "3";

ELSE IF Valor_Total_Crédito_Realizado > 1000 AND Valor_Total_Crédito_Realizado <= 5000 THEN

Valor_Total_Crédito_Real_Cod = "4";

ELSE IF Valor_Total_Crédito_Realizado > 5000 AND Valor_Total_Crédito_Realizado <= 10000 THEN

Valor_Total_Crédito_Real_Cod = "5";

ELSE IF Valor_Total_Crédito_Realizado > 10000 AND Valor_Total_Crédito_Realizado <= 50000 THEN

Valor_Total_Crédito_Real_Cod = "6";

ELSE IF Valor_Total_Crédito_Realizado > 50000 AND Valor_Total_Crédito_Realizado <= 100000 THEN

Valor_Total_Crédito_Real_Cod = "7";

ELSE IF Valor_Total_Crédito_Realizado > 100000 AND Valor_Total_Crédito_Realizado <= 200000 THEN

Valor_Total_Crédito_Real_Cod = "8";

ELSE IF Valor_Total_Crédito_Realizado > 200000 AND Valor_Total_Crédito_Realizado <= 500000 THEN

Valor_Total_Crédito_Real_Cod = "9";

ELSE Valor_Total_Crédito_Real_Cod = "10";

Valor_Med_cred_pedido_Cod = "";

Page 100: Tese v11 - final · Este é, hoje em dia, essencial para ganhar vantagem competitiva no mundo dos negócios e para ganhar conhecimento entre yottabytes de dados disponíveis. Especialmente

82

IF Valor_Médio_crédito_pedido = 0 THEN Valor_Med_cred_pedido_Cod = "1";

ELSE IF Valor_Médio_crédito_pedido > 0 AND Valor_Médio_crédito_pedido <= 500 THEN

Valor_Med_cred_pedido_Cod = "2";

ELSE IF Valor_Médio_crédito_pedido > 500 AND Valor_Médio_crédito_pedido <= 1000 THEN

Valor_Med_cred_pedido_Cod = "3";

ELSE IF Valor_Médio_crédito_pedido > 1000 AND Valor_Médio_crédito_pedido <= 5000 THEN

Valor_Med_cred_pedido_Cod = "4";

ELSE IF Valor_Médio_crédito_pedido > 5000 AND Valor_Médio_crédito_pedido <= 10000 THEN

Valor_Med_cred_pedido_Cod = "5";

ELSE IF Valor_Médio_crédito_pedido > 10000 AND Valor_Médio_crédito_pedido <= 50000 THEN

Valor_Med_cred_pedido_Cod = "6";

ELSE IF Valor_Médio_crédito_pedido > 50000 AND Valor_Médio_crédito_pedido <= 100000 THEN

Valor_Med_cred_pedido_Cod = "7";

ELSE IF Valor_Médio_crédito_pedido > 100000 AND Valor_Médio_crédito_pedido <= 200000 THEN

Valor_Med_cred_pedido_Cod = "8";

ELSE IF Valor_Médio_crédito_pedido > 200000 AND Valor_Médio_crédito_pedido <= 500000 THEN

Valor_Med_cred_pedido_Cod = "9";

ELSE Valor_Med_cred_pedido_Cod = "10";

Page 101: Tese v11 - final · Este é, hoje em dia, essencial para ganhar vantagem competitiva no mundo dos negócios e para ganhar conhecimento entre yottabytes de dados disponíveis. Especialmente

83

Anexo 6 - Tratamento de Outliers

Page 102: Tese v11 - final · Este é, hoje em dia, essencial para ganhar vantagem competitiva no mundo dos negócios e para ganhar conhecimento entre yottabytes de dados disponíveis. Especialmente

84

Anexo 7 - Gráfico de Valor Inicial

Page 103: Tese v11 - final · Este é, hoje em dia, essencial para ganhar vantagem competitiva no mundo dos negócios e para ganhar conhecimento entre yottabytes de dados disponíveis. Especialmente

85

Anexo 8 - Matriz de Correlação Inicial

Page 104: Tese v11 - final · Este é, hoje em dia, essencial para ganhar vantagem competitiva no mundo dos negócios e para ganhar conhecimento entre yottabytes de dados disponíveis. Especialmente

86

Anexo 9 - Gráfico de Valor

Page 105: Tese v11 - final · Este é, hoje em dia, essencial para ganhar vantagem competitiva no mundo dos negócios e para ganhar conhecimento entre yottabytes de dados disponíveis. Especialmente

87

Anexo 10 - Matriz de Correlação

Page 106: Tese v11 - final · Este é, hoje em dia, essencial para ganhar vantagem competitiva no mundo dos negócios e para ganhar conhecimento entre yottabytes de dados disponíveis. Especialmente

88

Anexo 11 - Lista de variáveis com correlação acima ou igual a 0,7

Age Age 1.0

Patrimonio_Imob_Amt Valor_Patrimonio_total (*) 0.9943814768810855

Crédito_Pessoal_Atual_V_Inicial (*) Crédito_Pessoal_Avg 0.8813930838972943

Responsabilidades_Amt (*) Patri_Liquido_Amt -0.94188882854801

Page 107: Tese v11 - final · Este é, hoje em dia, essencial para ganhar vantagem competitiva no mundo dos negócios e para ganhar conhecimento entre yottabytes de dados disponíveis. Especialmente

89

Anexo 12 - Matriz de Correlação Final

Page 108: Tese v11 - final · Este é, hoje em dia, essencial para ganhar vantagem competitiva no mundo dos negócios e para ganhar conhecimento entre yottabytes de dados disponíveis. Especialmente

90

Anexo 13 - Gráfico final de valor

Page 109: Tese v11 - final · Este é, hoje em dia, essencial para ganhar vantagem competitiva no mundo dos negócios e para ganhar conhecimento entre yottabytes de dados disponíveis. Especialmente

91

Anexo 14 – Lucro obtido com a aplicação da rede neuronal 4, com as 25 variáveis

Page 110: Tese v11 - final · Este é, hoje em dia, essencial para ganhar vantagem competitiva no mundo dos negócios e para ganhar conhecimento entre yottabytes de dados disponíveis. Especialmente

92

Anexo 15 – Analise da importância das variáveis e valor de lucro obtido com Rede Neuronal 4 e com as sete variáveis

(Melhor valor obtido)

Page 111: Tese v11 - final · Este é, hoje em dia, essencial para ganhar vantagem competitiva no mundo dos negócios e para ganhar conhecimento entre yottabytes de dados disponíveis. Especialmente

93