Upload
others
View
1
Download
0
Embed Size (px)
Citation preview
UNIVERSIDADE FEDERAL DO SUL E SUDESTE DO PARA
INSTITUTO DE GEOCIENCIAS E ENGENHARIAS
Faculdade de Computacao e Engenharia Eletrica
Bacharelado em Sistemas de Informacao
DETECCAO DE FRAUDES EM CARTAO DE CREDITO ATRAVES DE
APRENDIZAGEM AUTOMATICA
Wellerson Bruno da Silva Santos
Maraba-PA
2018
Wellerson Bruno da Silva Santos
DETECCAO DE FRAUDES EM CARTAO DE CREDITO ATRAVES DE
APRENDIZAGEM AUTOMATICA
Trabalho de Conclusao de Curso, apresentadoa Universidade Federal do Sul e Sudeste doPara, como parte dos requisitos necessariospara obtencao do Tıtulo de Bacharel emSistemas de Informacao.
Orientador:Prof. Dr. Adam Dreyton Ferreira dos Santos
Maraba-PA
2018
Dados Internacionais de Catalogação-na-Publicação (CIP)
Biblioteca II da UNIFESSPA. CAMAR.
Santos, Wellérson Bruno da Silva Detecção de fraudes em cartão de crédito através de aprendizagem automática / Wellérson Bruno da Silva Santos; orientador, Adam Dreyton Ferreira dos Santos. — 2018. Trabalho de Conclusão de Curso (Graduação) - Universidade Federal do Sul e Sudeste do Pará, Campus Universitário de Marabá, Instituto de Geociências e Engenharias, Faculdade de Computação e Engenharia Elétrica, Curso de Bacharelado em Sistemas de Informação, Marabá, 2018. 1. Mineração de dados (Computação). 2. Análise por agrupamento - Processamento de dados. 3. Fraude no cartão de
crédito. 4. Fraude na Internet. 5. Cartões de crédito. 6. Inteligência
artificial. 7. Algorítmos computacionais. I. Santos, Adam Dreyton Ferreira dos. II. Universidade Federal do Sul e Sudeste do Pará. III. Título.
CDD: 22. ed.: 006.33
Elaborada por Nádia Lopes Serrão– CRB-2/575
Agradeco em primeiro lugar a Deus que ilumi-
nou o meu caminho durante esta caminhada.
AGRADECIMENTOS
Agradeco a Deus por ter me fortalecido ao ponto de superar as dificuldades e
tambem por toda saude que me deu e que permitiu alcancar esta etapa tao importante da
minha vida.
Ao meu orientador professor Adam Dreyton, pela orientacao, apoio e confianca,
pelo empenho dedicado a elaboracao deste trabalho pelas suas correcoes, incentivos e pela
extrema disponibilidade.
Meus agradecimentos aos amigos, Lizandra Julia, uma das pessoas que mais me
acompanhou durante o curso, Rayron Santos, Marcos Vinicius, Edson Freire, Willdemberg
Oliveira e Weverton DLucas por saber que sao meus grandes amigos e que posso sempre
contar com voces, irmaos na amizade, a todo pessoal da minha turma SI2014 que fizeram
parte da minha formacao e que vao continuar presentes em minha vida concerteza e a
todos da Biblioteca pelo carinhoso apoio.
Aos meus pais, Boaventura e Vanda, pela etica, sabedoria e pela paciencia que
estiveram comigo por muitos anos, acompanharam todo o trajeto, por todo o apoio e
suporte nas horas em que mais precisei. A minha mae, que nunca poupou esforcos para
dar do melhor e direcionar para uma vida reta e produtiva.
A todos que direta ou indiretamente fizeram parte da minha formacao, o meu
muito obrigado.
“Atingir a perfeicao e impossıvel.
Mas aproximar-se cada vez mais dela,
nao.”.
(Tele Santana)
RESUMO
Os cartoes, sejam de credito ou debito, sao meios de pagamento altamente utilizados.Esse fato desperta o interesse de fraudadores. O mercado de cartoes enxerga as fraudescomo custos operacionais, que sao repassados para os consumidores e para a sociedadeem geral. Alem disso, o alto volume de transacoes e a necessidade de combater as fraudesabrem espaco para a aplicacao de tecnicas de aprendizagem automatica, entre elas, assupervisionadas e nao-supervisionadas. Nesse contexto, a deteccao de fraude consisteem diferenciar as transacoes fraudulentas daquelas que sao legıtimas. Entretanto, estee um desafio tecnico devido a diversidade de estrategias utilizadas pelos fraudadores, onumero relativamente pequeno de fraudes em relacao ao numero total de transacoes e aconstante evolucao das praticas de mercado e tecnologia associada. Este trabalho propoeuma metodologia para deteccao de fraude em cartoes de creditos, passando pela avaliacaodas tecnicas mais promissoras, das quais sao: Redes neurais, Random forest e Support vectormachines (supervisionadas); e k-means e Gaussian mixture models (nao supervisionadas).O principal objetivo deste trabalho e mensurar o desempenho das diversas abordagens deforma qualitativa e quantitativa a fim de obter aquela que pode ser considerada a maisindicada para o problema em questao. Nos experimentos realizados o maior exito foi obtidocom o Random forest, resultando em 99,9930% de acerto no treino e 99,9719% de acertono teste, devido a sua configuracao no formato de conjunto de arvores. Ressalta-se quetodos os algoritmos testados nesta pesquisa obtiveram resultados considerados satisfatorios,obtendo classificacao correta acima de 99%.
Palavras-chave: Deteccao de fraudes, cartao de credito, aprendizagem automatica.
ABSTRACT
The credit or debit cards are highly used as a means of payment. This fact arises theinterest of fraudsters. The card market sees fraud as operating costs, which are passed onto consumers and to society as a whole. In addition, the high volume of transactions andthe need to combat fraud make it possible to apply machine learning techniques, includingsupervised and unsupervised ones. In this context, fraud detection consists in differentiatingfraudulent transactions from those that are legitimate. However, this is a technical challengedue to the diversity of strategies used by fraudsters, the relatively small number of fraudsin relation to the total number of transactions, and the constant evolution of marketpractices and associated technology. This work proposes a methodology for detecting fraudin credit cards, through the evaluation of the most promising techniques, of which are:Neural networks, Random forest and Support vector machines (supervised); and k-meansand Gaussian mixture models (unsupervised). The main objective of this work is to measurethe performance of the various approaches in a qualitative and quantitative way in order toobtain the one that can be considered the most appropriate for the problem in question. Inthe experiments carried out the most successful was obtained with Random forest, resultingin 99.9930% of correctness in the training and 99.9719% of success in the test, due toits configuration in the set of trees. It is emphasized that all the algorithms tested in thisresearch obtained satisfactory results, obtaining correct classification above 99%.
Keywords: Fraud detection, credit card, machine learning.
LISTA DE ILUSTRACOES
Figura 1 – Diagrama de fluxo da metodologia geral. . . . . . . . . . . . . . . . . . 20
Figura 2 – Diagrama de fluxo da abordagem supervisionada. . . . . . . . . . . . . 23
Figura 3 – Linha de separacao (classificador linear). . . . . . . . . . . . . . . . . . 24
Figura 4 – Curva de separacao (classificador nao-linear). . . . . . . . . . . . . . . 25
Figura 5 – Ideia basica da SVM. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
Figura 6 – Ilustracao da logica por tras do algoritmo RF. . . . . . . . . . . . . . . 26
Figura 7 – Constituintes da celula neuronal. . . . . . . . . . . . . . . . . . . . . . 27
Figura 8 – Representacao simplificada de uma rede neural artificial. . . . . . . . . 28
Figura 9 – Diagrama de fluxo da abordagem nao-supervisionada. . . . . . . . . . . 29
Figura 10 – Passos de aplicacao do algoritmo k-means. . . . . . . . . . . . . . . . . 30
Figura 11 – Deteccao de anomalias. . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
Figura 12 – Deteccao de anomalias apos clusterizacao do k-means. . . . . . . . . . 38
Figura 13 – Deteccao de anomalias apos clusterizacao do GMM. . . . . . . . . . . . 39
LISTA DE TABELAS
Tabela 1 – Parametros utilizados para cada teste do RF. . . . . . . . . . . . . . . 35
Tabela 2 – Parametros utilizados para cada teste da RNA. . . . . . . . . . . . . . 36
Tabela 3 – Parametros utilizados para cada teste do SVM. . . . . . . . . . . . . . 37
Tabela 4 – Acuracia (%) nos treinos e testes dos algoritmos supervisionados . . . . 37
Tabela 5 – Acuracia (%) nos treinos dos algoritmos . . . . . . . . . . . . . . . . . 39
Tabela 6 – Acuracia (%) nos testes dos algoritmos . . . . . . . . . . . . . . . . . . 39
LISTA DE ABREVIATURAS E SIGLAS
BIC Bayesian Information Criterion
CH Calinski-Harabasz
CNP Cartao nao presente
EM Expectativa-maximizacao
GMM Gaussian mixture models
RF Random forest
RNA Redes neurais artificiais
SVM Support vector machines
PCA Principal component analysis
ULB Universite Libre de Bruxelles
SUMARIO
1 INTRODUCAO . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.1 OBJETIVOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.2 JUSTIFICATIVA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2 TRABALHOS CORRELATOS . . . . . . . . . . . . . . . . . . . 17
3 METODOLOGIA . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.1 PRE-PROCESSAMENTO . . . . . . . . . . . . . . . . . . . . . . . 21
3.1.1 Analise de componentes principais . . . . . . . . . . . . . . . . . . . . . 21
3.2 APRENDIZAGEM SUPERVISIONADA E NAO-SUPERVISIONADA 22
3.3 ALGORITMOS SUPERVISIONADOS . . . . . . . . . . . . . . . 23
3.3.1 Maquinas de vetores de suporte . . . . . . . . . . . . . . . . . . . . . . 24
3.3.2 Random forest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3.3.3 Redes neurais artificiais . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.4 ALGORITMOS NAO-SUPERVISIONADOS . . . . . . . . . . . 28
3.4.1 k-means . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.4.2 Modelo de misturas Gaussianas (GMMs) . . . . . . . . . . . . . . . . . 31
3.5 DETECCAO DE ANOMALIAS . . . . . . . . . . . . . . . . . . . . 31
4 RESULTADOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
4.1 Balanceamento dos dados . . . . . . . . . . . . . . . . . . . . . . . . 33
4.2 Analise dos resultados . . . . . . . . . . . . . . . . . . . . . . . . . . 34
5 CONSIDERACOES FINAIS . . . . . . . . . . . . . . . . . . . . 41
REFERENCIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
14
1 INTRODUCAO
Em sistemas tecnologicos, atividades fraudulentas tem ocorrido em diversas areas,
tais como redes de comunicacao, comunicacao movel, banking on-line e comercio eletronico.
As fraudes estao crescendo de forma acentuada com a expansao da tecnologia moderna e
comunicacao global, resultando em perdas substanciais nos mais variados negocios (KOU
et al., 2004).
Neste contexto, a fraude em cartao de credito e um desafio para lojistas virtuais.
E nıtido que essas sao proporcionalmente mais frequentes em negocios realizados pela
Internet que em estabelecimentos fısicos e causam um maior prejuızo direto. As transacoes
com cartao de credito atraves da Internet sao consideradas pelos bancos e administradoras
como CNP (cartao nao presente). Como nao ha a assinatura do comprador para validar a
compra neste tipo de transacao, a responsabilidade pela operacao fica a cargo do lojista e
nao do banco emissor ou da administradora do cartao. As fraudes com cartao de credito
podem ocasionar prejuızos para o comerciante, bem como podem levar ao cancelamento
do convenio do estabelecimento com as administradoras de cartao (FCONTROL, 2015).
Os cartoes, sejam de credito ou debito, sao meios de pagamento altamente utilizados
no comercio em geral. Esses fatores despertam o interesse de fraudadores. Numa primeira
analise, quando uma fraude e bem-sucedida, poderia se dizer que as empresas envolvidas
arcam com os custos, mas, na verdade, essa perda operacional encarece os precos para o
consumidor final. Logo, combater fraudes nesse meio de pagamento traz benefıcios para
toda a sociedade. Essa tarefa, devido a sua complexidade e tamanho, tem que ser feita de
uma forma concomitantemente eficaz e confiavel. Logo, ha oportunidade para a aplicacao
de tecnicas de aprendizagem automatica (do ingles machine learning).
Os cartoes, tambem conhecidos como meios eletronicos de pagamento, sao uma
importante forma de pagamento mundialmente utilizada em transacoes presenciais ou
naquelas que o portador nao esta fisicamente diante do terminal no qual a transacao e
realizada. O uso desse meio cresce a taxas substanciais ano apos ano. Ha varias razoes para
esse crescimento: para quem utiliza o cartao como forma de pagamento, ele e pratico e,
sob determinadas condicoes, o credito e instantaneo, os gastos sao concentrados na fatura
e os cartoes sao um instrumento aceito em muitos estabelecimentos; por outro lado as
instituicoes que recebem pagamentos com cartoes, tem o menor risco de inadimplencia, o
controle das vendas e facilitado e ha muitas pessoas dispostas a pagarem suas compras
com eles.
Entretanto, um requisito fundamental para esse sistema de pagamentos e a
seguranca. Por se tratar de um meio de pagamento, ou seja, estar intimamente ligado
aos dados financeiros dos usuarios, caso as fraudes sejam muito frequentes e envolvam
muitos custos, o cartao perdera seu apelo de uso por parte das pessoas. Alem disso, quanto
15
maiores os volumes financeiros envolvidos nas fraudes, maiores serao as perdas financeiras
das empresas participantes desse mercado, o que pode inviabilizar a manutencao desse
sistema de pagamentos.
Neste estudo serao apresentadas tecnicas baseadas em inteligencia computacional
para identificar fraudes em transacoes eletronicas, mais especificamente em operacoes
envolvendo cartao de credito. Para validar a metodologia, sera utilizada uma base de dados
com transacoes desse meio eletronico de pagamento para avaliar as tecnicas utilizadas.
A mineracao de dados tem apresentado grandes contribuicoes nesta area. De acordo
com Tan et al. (TAN; STEINBACK; KUMAR, 2009), a mineracao de dados consiste em
um conjunto de tecnicas organizadas para analisar grandes bancos de dados com o intuito
de descobrir padroes uteis e recentes que poderiam, de outra forma, permanecer ignorados.
Neste cenario, com o crescente volume de transacoes e a necessidade de prevenir
e detectar fraudes, cria-se a oportunidade para aplicacao de tecnicas de aprendizagem
automatica no combate as anomalias em cartoes, pois o alto numero de transacoes impede
que cada uma delas seja analisada por um recurso humano. Assim, esses metodos podem
ser aplicados para que as transacoes, na iminencia de acontecerem, sejam classificadas entre
fraudulentas ou legıtimas, impedindo-se a realizacao daquelas apontadas como fraudulentas.
Inclusive este claramente nao e um problema de classificacao facil de resolver.
Classificar os dados significa construir modelos com base em um conjunto de treinamento e
nos valores (rotulos) do atributo classificador. Alem do grande volume de dados envolvidos,
as transacoes de fraude nao ocorrem com frequencia. Ha uma necessidade de teorias
computacionais e ferramentas para ajudar os seres humanos nessa tarefa.
Portanto o objetivo deste trabalho e apresentar um apanhado das metodologias
de aprendizagem automatica, abordagens supervisionadas e nao-supervisionadas, para
detectar tentativas de fraude nas transacoes com cartao de credito de forma rapida e
eficiente. O restante deste trabalho esta organizado da seguinte forma. A secao 1.1 apresenta
os objetivos gerais e especıficos. Ja a secao 1.2 descreve a justificativa do pre-projeto. O
capıtulo 2 demonstra os trabalhos correlatos ao tema de pesquisa do qual sao analisados. O
capıtulo 3 descreve a metodologia apresentando uma breve descricao sobre a base de dados
utilizada e as tecnicas empregadas neste trabalho. No capıtulo 4, os resultados obtidos
sao discutidos e buscam evidenciar a melhor tecnica para resolver a problematica desta
pesquisa. Finalmente, no capıtulo 5, este estudo e sintetizado na forma de consideracoes
finais.
16
1.1 OBJETIVOS
Este trabalho tem como objetivo geral a aplicacao de metodos baseados em
aprendizagem automatica para deteccao de fraudes em cartoes de credito.
Para atingir o objetivo geral proposto, se faz necessario considerar os seguintes
objetivos especıficos:
- Aplicar tres abordagens baseadas em aprendizagem supervisionada e duas nao-
supervisionada para deteccao de anomalias em transacoes com cartoes de credito;
- Mensurar o desempenho das diversas abordagens de forma qualitativa e quanti-
tativa a fim de classificar aquela que pode ser considerada a mais indicada para o problema
em questao;
- Verificar o efeito causado nas abordagens testadas quando do desbalanceamento
em bases de dados reais.
1.2 JUSTIFICATIVA
Com o advento e a maturidade da Internet, as empresas perceberam a oportunidade
de explorar mais um canal para encontrar seus consumidores e comercializar seus produtos
e servicos. Porem, ao se disporem a participar do comercio eletronico (e-commerce), as
empresas tem que preparar sua infraestrutura em termos de tecnologia da informacao
(TI). Com relacao aos meios de pagamento das vendas no e-commerce de acordo com as
estimativas contidas em (ECOMMERCE, 2015), os cartoes de credito sao utilizados por
76% dos compradores.
Existem diversas maneiras de conseguir dados de cartoes de credito de forma
ilegal. A mais difundida e explorar as vulnerabilidades de um site comercial para extrair a
base de dados que contem as informacoes de cartoes de credito de seus usuarios. Tambem
e comum ver cibercriminosos criando falsas paginas que se assemelham a e-commerces
famosos com o unico intuito de “pescar” alguns dados bancarios. (TECMUNDO, 2016).
De acordo com uma pesquisa publicada pela Fcontrol (TECMUNDO, 2016),
empresa especialista em solucoes para o comercio eletronico, houve um aumento de 1,32%
nas tentativas de fraudes no primeiro trimestre de 2016 em relacao ao mesmo perıodo
no ano anterior. E importante ressaltar que por conta da crise economica, as transacoes
diminuıram em cerca de 11%. Isso significa que, mesmo comprando menos, o brasileiro
continua exposto aos impostores digitais.
Dentro desse cenario em meio as tentativas de barrar a acao de fraudadores no
comercio eletronico, pode-se considerar a aprendizagem automatica. Essa tecnologia e um
subcampo da inteligencia artificial que emula essa habilidade por meio do desenvolvimento
de algoritmos e tecnicas que permitem que o computador analise os dados de uma atividade
17
realizada, crie padroes mais refinados e aplique-os em novas oportunidades.
Com esse intuito o trabalho e proposto atraves da aprendizagem automatica, onde
a mesma assimila informacao de maneira rapida e eficiente para a identificacao de padroes,
com a aplicacao de algoritmos supervisionados e nao-supervisionados para fazer a deteccao,
para alcancar os objetivos do estudo. A deteccao de fraudes refere-se a habilidade de
detectar o evento fraudulento, buscando padroes e reconhecendo a ocorrencia do evento,
na qual os algoritmos sao baseados em estatısticas e tem como principal objetivo detectar
possıveis anomalias nos dados ou no proprio modelo, para verificar essas transacoes.
18
2 TRABALHOS CORRELATOS
Existem diversas pesquisas sobre metodos para deteccao de fraude, onde cada qual
tem suas caracterısticas, dependendo do tipo de fraude que desejasse prevenir. Entretanto,
podemos perceber que tecnicas baseadas em mineracao de dados estao sendo muito
utilizadas e desempenham um importante papel nesta tarefa. Isso e factıvel devido a
mineracao de dados permitir extrair informacoes necessarias para resolucao do problema a
partir de um vasto conjunto de dados.
Alguns trabalhos relacionados a deteccao de fraudes em operacoes de cartao de
credito sao relacionados ao longo desta secao.
Ghosh e Reilly (GHOSH; REILLY, 1994) aplicaram um detector de fraude baseado
em redes neurais. A rede foi treinada usando exemplos de cartoes perdidos, cartoes roubados,
cartoes falsificados e com fraude em correspondencias. A rede detectou significativamente
a quantidade de fraudes, com uma baixa taxa de falsos positivos. O sistema foi instalado
em um IBM 3090 no Mellon Bank.
Aleskerov, Freisleben e Rao (ALESKEROV; FREISLEBEN; RAO, 1997) desenvol-
veram um sistema chamado CARDWATCH, um sistema de mineracao de dados utilizado
para a deteccao de fraudes de cartao de credito. O sistema foi baseado em redes neurais e
forneceu uma interface para uma variedade de bases de dados comerciais e possui uma
interface grafica bem confortavel. Os resultados dos testes obtidos para dados de cartoes de
credito sinteticamente gerados mostram taxas de deteccao de fraude muito bem-sucedidas,
que chegam a 85% de acerto. No entanto, conjuntos de dados reais nao foram utilizados
para posterior validacao.
Bolton e Hand (BOLTON; HAND et al., 2001) propuseram uma tecnica de deteccao
de fraudes nao-supervisionada usando analise de ponto de interrupcao para identificar
mudancas no comportamento de gastos. Um ponto de interrupcao e uma observacao em
funcao do tempo em que se detecta o comportamento anomalo. Um exemplo de anomalia
e o aumento repentino no numero de transacoes, isso pode indicar o comportamento
fraudulento. Uma vantagem desse algoritmo e nao ser necessario o uso de dados com
periodicidade fixa. Os resultados obtidos foram promissores em termos de acuracia. Os
autores pretendem continuar incorporando informacoes mais relevantes que simplesmente
o valor gasto.
Chen et al. (CHEN et al., 2005) aplicaram duas tecnicas, maquinas de vetores de
suporte (Support vector machines - SVM) e redes neurais artificiais (RNA), para investigar o
problema de fraude variavel no tempo. Os desempenhos de RNA e SVM foram comparados.
Os resultados mostraram que RNA e SVM nao puderam ser efetivamente comparados na
deteccao de fraudes. RNA supera SVM em termos de precisao no treinamento. No entanto,
SVM pode oferecer melhor performance quando a quantidade de informacao e menor.
19
Phua et al. (PHUA et al., 2010) realizaram amplo estudo e publicaram diversos
artigos relacionados com deteccao de fraude, usando mineracao de dados e suas tecni-
cas derivadas para solucionar o problema. O autor discute diferentes estrategias para
solucionar o problema, baseando-se em algoritmos de treinamento nao-supervisionado ou
supervisionado aplicados em dados desbalanceados, isto e, dados cujo a variavel a ser
analisada contem uma quantidade muito maior de registros em uma das suas classes. No
treinamento supervisionado o algoritmo analisa cada transacao para que matematicamente
determine o padrao de uma transacao de fraude e possa estimar seu risco. No treinamento
nao-supervisionado nao se tem conhecimento previo de quais transacoes resultaram em
fraude ou nao fraude. Essa pesquisa apenas define claramente os problemas e abrange
tipos, metodos e tecnicas de fraude, nao definindo qual seria a melhor abordagem utilizada
para tais problemas.
Duman e Ozcelik (DUMAN; OZCELIK, 2011) desenvolveram um metodo com
uma combinacao de duas abordagens de metaheurıstica bem conhecidas, os algoritmos
geneticos e a busca randomica. O metodo foi aplicado a dados reais de um banco e os
resultados foram muito bem-sucedidos em comparacao com a pratica atual de se utilizar
apenas uma abordagem ou tecnica.
Para Pun e Lawryshyn (PUN; LAWRYSHYN, 2012), uma das questoes que os
sistemas de deteccao de fraude em cartao de credito enfrentam e que uma porcentagem
significativa das transacoes identificadas como fraudulentas sao de fato legıtimas. Assim
esses alarmes falsos retardam a deteccao de transacoes fraudulentas e podem causar
problemas desnecessarios para os clientes e empresas. Dessa forma, os autores apresentam
um modelo meta-classificador, que foi aplicado as operacoes depois de ser analisado por
um algoritmo de deteccao de fraude existente. Esse modelo de meta-classificador consiste
em tres classificadores: arvore de decisao, rede bayesianas, e k-vizinhos mais proximos.
Os resultados dessa pesquisa mostraram que quando o meta-classificador foi utilizado
em conjunto com o algoritmo de deteccao de fraudes existentes, e possıvel melhorar os
resultados em cerca de 28%.
Caldeira et al. (CALDEIRA et al., 2012) aplicaram tecnicas de inteligencia com-
putacional para detectar fraudes em transacoes eletronicas. As tecnicas utilizadas foram
random forest (RF), RNAs, SVM e sistemas imunologicos artificiais. Dados reais do UOL
Pag-Seguro foram utilizados para fazer a classificacao. Para comparar os modelos, os auto-
res utilizaram o conceito de eficiencia economica. A tecnica que obteve melhores resultados
foi a rede neural. Alem disso, a tecnica apresentou ganhos superiores ao praticado pela
corporacao atualmente. Porem, o trabalho mostra que as classes desbalanceadas, impactam
diretamente a qualidade de predicao.
Kultur e Caglayan (KULTUR; CAGLAYAN, 2017) propuseram o uso de seis
modelos conhecidos, nomeadamente, arvore de decisao, floresta aleatoria, rede bayesiana,
20
Naıve Bayes, maquina de vetor de suporte e modelos K*, para formar um conjunto para
a deteccao de fraude de cartao de credito. Foram utilizados mecanismos de votacao pelo
conjunto, sendo estrategias de votacao otimistas, pessimistas e ponderadas. Os resultados
mostraram que a estrategia de votacao otimista permite a deteccao de 31,59% das transacoes
fraudulentas com uma taxa de falso alarme de apenas 0,10%, a estrategia de votacao
pessimista detecta 93,92% das transacoes fraudulentas com uma taxa de falso alarme de
13,72% e a votacao ponderada detecta 64,02% das transacoes fraudulentas com uma taxa
de falso alarme de 0,75%.
Pozzolo et al. (POZZOLO et al., 2017) citam que detectar fraudes em transacoes
com cartao de credito e talvez um dos melhores testes para algoritmos de inteligencia
computacional. Na verdade, esse problema envolve varios desafios relevantes, a saber: desvio
de conceito (os habitos dos clientes evoluem e os fraudadores mudam suas estrategias ao
longo do tempo), desequilıbrio de classe (transacoes sem fraudes superam em muito as
fraudes) e latencia de verificacao (apenas um pequeno conjunto de transacoes sao verificados
oportunamente pelos investigadores). Em seus experimentos, os autores demonstraram o
impacto do desequilıbrio de classes e do desvio de conceito em um fluxo de dados, os quais
sao requeridos para avaliar a eficacia da estrategia de aprendizagem proposta.
Os trabalhos aqui brevemente descritos sugerem a crescente necessidade de prover
mecanismo que sejam capazes de detectar fraudes em bases desbalanceadas, para que
assim usuarios possam utilizar com seguranca os servicos relacionados com cartoes de
credito. No proximo capıtulo sera abordada em detalhes a metodologia empregada para
tal tarefa nesta pesquisa.
21
3 METODOLOGIA
Neste trabalho sera utilizada uma metodologia baseada em tecnicas de mineracao
de dados e aprendizagem automatica aplicadas a deteccao de fraude, sendo a aprendizagem
dividida em duas grandes categorias da literatura: supervisionada e nao-supervisionada.
Nos metodos supervisionados, modelos sao estimados baseados em amostras de transacoes
legıtimas e fraudulentas, a fim de se classificar novas transacoes em uma dessas duas classes,
contendo uma entrada e uma saıda. Nos metodos nao-supervisionados, a classificacao e
efetuada com base em observacao e descoberta. Nao sao definidas classes, daqui resulta
um conjunto de descricoes de classes, uma para cada classe descoberta no ambiente, isto e,
na base de dados. Ambos os metodos tentam estimar a probabilidade de fraude em uma
dada transacao (BHATTACHARYYA et al., 2011).
Sob esse ponto de vista, a Figura 1 apresenta a metodologia geral que sera utilizada
neste trabalho. Primeiramente, considerando-se uma entrada de dados desbalanceada (com
mais dados de transacoes legıtimas), e entao realizada uma etapa de pre-processamento que
pode contar com o algoritmo de analise de componentes principais (Principal component
analysis - PCA) e possivelmente com uma selecao de caracterısticas, entre outros. Em
seguida, se a abordagem supervisionada for escolhida, deve-se aplicar um pos-processamento
na forma de um balanceamento das classes, para que entao a classificacao binaria seja
executada. Por outro lado, se a abordagem nao-supervisionada for considerada, primeiro
executa-se uma etapa de descoberta de agrupamentos dos dados de transacoes legıtimas
e depois classificam-se novos dados anomalos ou nao. Para mensurar o desempenho de
deteccao de fraude, independentemente da abordagem escolhida, pretende-se medir a
acuracia dos algoritmos na etapa de teste.
22
Figura 1 – Diagrama de fluxo da metodologia geral.
Fonte: Propria (2018).
Nas subsecoes a seguir as etapas da metodologia geral sao descritas com maior
grau de detalhamento, apresentando os algoritmos e procedimentos a serem aplicados em
cada etapa.
3.1 PRE-PROCESSAMENTO
Nesta fase busca-se aprimorar a qualidade dos dados coletados. Frequentemente,
os dados apresentam diversos problemas, tais como grande quantidade de valores desconhe-
cidos, ruıdo (atributos com valores incorretos), atributos de baixo valor preditivo, grande
desproporcao entre o numero de exemplos de cada classe, entre outros.
A etapa de pre-processamento compreende todas as funcoes relacionadas com a
capacitacao, a organizacao e o tratamento de dados (GOLDSCHMIDT; PASSOS, 2017).
Essa etapa tem como objetivo a preparacao dos dados para os algoritmos que serao
aplicados na etapa de mineracao de dados. Tecnicas de pre-processamento e transformacao
de dados sao aplicadas para aumentar a qualidade e o poder de expressao dos dados a
serem minerados.
As principais funcoes de pre-processamento dos dados encontram-se sucintamente
descritas abaixo:
• Limpeza dos Dados: Preenche valores faltantes, suaviza dados ruidosos, identifica ou
23
remove “outliers” e resolve inconsistencias;
• Integracao: Dados de origens diferentes devem ser integrados;
• Transformacao: Normalizacao e agregacao;
• Reducao: Tenta reduzir o volume com pouca alteracao no resultado final;
• Discretizacao: Faz parte do processo de reducao, mas tem papel importante, especi-
almente com dados numericos.
3.1.1 Analise de componentes principais
A PCA e uma tecnica proveniente da Estatıstica para simplificar um conjunto de
dados, ou seja, uma tecnica multivariada de modelagem da estrutura de covariancia. Foi
desenvolvido por Pearson (PEARSON, 1901) e uma descricao de metodos computacionais
praticos veio muito mais tarde com Hottelling (HOTELLING, 1933). O objetivo do metodo
e reduzir a dimensionalidade dos dados multivariados, preservando a maior parte da
informacao relevante possıvel. E uma forma de aprendizagem sem supervisao na medida
em que se baseia inteiramente nos dados de entrada em si sem referencia aos dados alvo
correspondentes no qual o criterio a ser maximizado e a variancia.
A principal ideia da PCA e o de reduzir a dimensionalidade de um conjunto de
dados consistindo de muitas variaveis correlacionadas umas com as outras, quer fortemente
ou ligeiramente, enquanto retendo a variacao presente no conjunto de dados, ate a extensao
maxima. Tal metodo e realizado atraves da transformacao das variaveis para um novo
conjunto de variaveis, que sao conhecidos como os componentes principais e sao ortogonais,
ordenados de modo que a retencao da variancia presente nas variaveis originais diminui a
medida que o espaco e reduzido. Intuitivamente, a PCA pode fornecer ao usuario uma
imagem de menor dimensao, uma projecao ou “sombra” desse objeto quando visto a partir
do ponto de vista mais informativo.
A PCA e a tecnica mais conhecida e esta associada a ideia de reducao de massa
de dados, com menor perda possıvel da informacao, contudo e importante ter uma visao
conjunta de todas ou quase todas as tecnicas da estatıstica multivariada para resolver a
maioria dos problemas praticos. Procura-se redistribuir a variacao observada nos eixos
originais de forma a se obter um conjunto de eixos ortogonais nao correlacionados (MANLY;
ALBERTO, 2016) (HONGYU, 2015). A reducao de dados significa sumarizar os dados que
contem muitas variaveis por um conjunto menor de variaveis derivadas a partir do conjunto
original. Sendo assim consiste em transformar um conjunto de variaveis originais em
outro conjunto de variaveis de mesma (ou menor) dimensao denominadas de componentes
principais.
24
Para efeito de esclarecimento, a tecnica PCA permite manter a informacao integral
dos dados ao mesmo tempo que retira sua interpretabilidade. No caso deste estudo, a tecnica
PCA foi utilizada para manter o sigilo das informacoes bancarias de cada cliente, ou seja,
informacoes sensıveis do cliente sao transformadas/codificadas na forma de componentes
principais que podem garantir a retencao de informacoes relevantes sem perder o sigilo.
3.2 APRENDIZAGEM SUPERVISIONADA E NAO-SUPERVISIONADA
A aprendizagem automatica pode ser definida como a area que pesquisa, estuda
e propoe um conjunto de tecnicas para, automaticamente, detectar padroes em dados e
utilizar esses padroes descobertos para predizer acontecimentos futuros, ou ate mesmo
para realizar outros tipos de tomada de decisao relacionados a eventos nao determinısticos
(ROBERT, 2014). Como visto anteriormente, e possıvel segmentar os algoritmos estudados
em aprendizagem automatica supervisionada e nao-supervisionada.
Os algoritmos supervisionados utilizam a tecnica na qual o algoritmo (indutor)
recebe um conjunto de dados (exemplos de treinamento) com o objetivo de realizar
previsoes. Cada exemplo usado para treinamento e rotulado com o valor de seu interesse.
No aprendizado supervisionado, quando se e treinado o algoritmo, utiliza-se um
conjunto de dados que ja sao mapeados para categorias desejadas. O algoritmo devera
ter a capacidade de verificar o resultado previsto e o resultado esperado e, conforme a
diferenca de resultados, ajustar seus parametros internos ate obter o resultado esperado.
Neste tipo de aprendizado, cada exemplo de treinamento e descrito por um
conjunto de atributos que servem como dados de entrada, geralmente como forma de vetor,
que sao associados a um valor de saıda, tambem chamado de sinal de controle. A partir de
um conjunto de entradas e saıdas, o algoritmo que produz uma funcao de transferencia
capaz de gerar uma saıda adequada a partir de uma nova entrada. Assim o aprendizado
supervisionado e a tecnica mais comum para treinamento.
No aprendizado nao-supervisionado, os pontos de dados nao tem rotulos associados
a eles. Em vez disso, a meta de um algoritmo de aprendizado sem supervisao e organizar
os dados de alguma forma ou descrever sua estrutura. Isso pode significar agrupa-los em
clusters ou encontrar diferentes maneiras de consultar dados complexos para que eles
parecam mais simples ou mais organizados. Com isso, e possıvel descobrir similaridades e
diferencas entre os padroes existentes, assim como inferir conclusoes uteis a respeito deles.
A clusterizacao e uma tecnica que atraves de metodos numericos e a partir somente
das informacoes das variaveis de cada caso, tem por objetivo agrupar automaticamente
por aprendizado nao supervisionado os n casos da base de dados em k grupos, geralmente
disjuntos, denominados clusters ou agrupamentos (VALE, 2005). A clusterizacao e o
processo de agrupar um conjunto de objetos fısicos ou abstratos em classes de objetos
25
similares. Um cluster e uma colecao de objetos que sao similares uns aos outros (de acordo
com algum criterio de similaridade pre-definido) e dissimilares a objetos pertencentes a
outros clusters. A vantagem do uso das tecnicas de clusterizacao e que, ao agrupar dados
similares, pode-se descrever de forma mais eficaz as caracterısticas peculiares de cada um
dos grupos identificados.
A area de deteccao de outliers (ou deteccao de anomalias) possui um papel
fundamental na descoberta de padroes em dados que podem ser considerados excepcionais
sob alguma perspectiva. Detectar tais padroes e relevante de maneira geral porque, em
muitas aplicacoes de mineracao de dados, tais padroes representam comportamentos
extraordinarios que merecem uma atencao especial.
O objetivo a ser alcancado com os algoritmos supervisionados ou nao-supervisionados
e a deteccao ou classificacao de fraudes com maior acuracia. Para atingir este objetivo de
forma supervisionada serao utilizados os algoritmos baseados em RNAs, SVM e random
forest (RF). De forma nao-supervisionada, e para a etapa de clusterizacao, sao utilizados os
algoritmos k-means e modelos de misturas Gaussianas (Gaussian mixture models - GMMs).
Todos esses algoritmos sao descritos brevemente a seguir, uma vez que a literatura da area
citada neste trabalho ja os detalhou suficientemente bem.
3.3 ALGORITMOS SUPERVISIONADOS
Atualmente existem varios metodos para a deteccao de fraudes em cartoes de
credito, cada um utiliza uma tecnica diferente para determinar a funcao de aprendizado e
adequando-se melhor de acordo com o tipo de problema. Neste trabalho, serao abordados
tres metodos: SVM, RF e RNAs.
As tecnicas de deteccao supervisionadas citadas recebem os dados ja processados,
passando para a etapa de balanceamento como descrito anteriormente na Figura 1, com a
geracao de dados. Em seguida, atraves da divisao de conjuntos de dados para as etapas
de treinamento e teste, e possıvel obter o desempenho de classificacao de um algoritmo
supervisionado nessas etapas, conforme ilustra a Figura 2.
26
Figura 2 – Diagrama de fluxo da abordagem supervisionada.
Fonte: Propria (2018).
3.3.1 Maquinas de vetores de suporte
As SVM constituem uma tecnica de aprendizagem supervisionada que vem re-
cebendo crescente atencao da comunidade de aprendizagem automatica (MICHALSKI;
CARBONELL; MITCHELL, 2013). A teoria sobre SVM foi proposta inicialmente por
Vapnik (VAPNIK, 1963), como um metodo eficiente para a identificacao de padroes.
Este algoritmo possui muitas vantagens na resolucao de problemas com poucas amos-
tras, nao-lineares e com um grande numero de dimensoes. Sao embasadas pela teoria de
aprendizado estatıstico, estabelecendo uma serie de princıpios que devem ser seguidos na
obtencao de classificadores com boa generalizacao, definida como a sua capacidade de
prever corretamente a classe de novos dados do mesmo domınio em que o aprendizado
ocorreu.
Tal algoritmo e principalmente baseado nas seguintes consideracoes:
• Maximizar a distancia entre classes (encontrar o hiperplano de classificacao otimo)
para realizar o controle e dimensao, que pode ser garantido por um teorema da
estatıstica;
• Utilizar funcoes de kernel para trabalhar num espaco de maior dimensao (projetado),
porem linear. (YONG-FENG; YAN-PING, 2004).
As SVM sao baseadas no conceito de planos de decisao que definem limites de
decisao. Um plano de decisao e aquele que separa um conjunto de objetos com diferentes
associacoes de classe. Um exemplo esquematico e mostrado na Figura 3. Nesse exemplo,
os objetos pertencem a classe verde ou vermelha. A linha de separacao define um limite
no lado direito do qual todos os objetos sao verdes e a esquerda para objetos vermelhos.
Qualquer novo objeto que tenda para a direita e rotulado, ou seja, classificado, como verde
ou classificado como vermelho se tender para a esquerda da linha separadora.
27
Figura 3 – Linha de separacao (classificador linear).
Fonte: (STATSOFT, 2018).
O exemplo acima e classico de um classificador linear, ou seja, um classificador
que separa um conjunto de objetos em seus respectivos grupos (verde e vermelho neste
caso) com uma linha. A maioria das tarefas de classificacao, no entanto, nao e tao simples,
e muitas vezes sao necessarias estruturas mais complexas para fazer uma separacao ideal,
ou seja, classificar corretamente novos objetos (casos de teste) com base nos exemplos
disponıveis (casos de treino). Essa situacao e descrita na Figura 4. Comparado com o
esquema anterior, e claro que uma separacao completa dos objetos verde e vermelho exigiria
uma curva. As tarefas de classificacao baseadas em linhas de separacao para distinguir
entre objetos de diferentes classes sao conhecidas como classificadores de hiperplanos.
Figura 4 – Curva de separacao (classificador nao-linear).
Fonte: (STATSOFT, 2018).
Um hiperplano e uma linha que divide o espaco variavel de entrada. Na SVM,
um hiperplano e selecionado para melhor separar os pontos no espaco de entrada por sua
classe.
28
A Figura 5 mostra a ideia basica da SVM. E possıvel observar os objetos originais
(lado esquerdo do esquema) mapeados, ou seja, rearranjados, usando um conjunto de
funcoes matematicas, conhecidas como kernels. O processo de rearranjo dos objetos e
conhecido como mapeamento (transformacao). Nota-se que nesta nova configuracao, os
objetos mapeados (lado direito do esquema) sao linearmente separaveis. Entao, a operacao
do algoritmo SVM baseia-se na busca do hiperplano que estima a maior distancia entre os
exemplos de treinamento de classes diferentes.
Figura 5 – Ideia basica da SVM.
Fonte: (STATSOFT, 2018).
3.3.2 Random forest
O RF e um algoritmo classificador que faz uso das arvores de decisao, criado por
Breiman (BREIMAN, 2001) possibilitando a mineracao dos dados. Essa tecnica possui
uma ideia um pouco diferente dos algoritmos de arvores de decisao, famılia a qual pertence.
Enquanto uma arvore possui o objetivo de construcao total de uma estrutura a partir de
uma base de dados, o RF tem o objetivo de efetuar a criacao de varias arvores de decisao
usando um subconjunto de atributos selecionados aleatoriamente a partir do conjunto
original, contendo todos os atributos e que esses possuem um tipo de amostragem chamado
de bootstrap com reposicao, possibilitando assim melhor analise dos dados (NETO et al.,
2013).
Apos a criacao dos conjuntos de arvores e possıvel efetuar a classificacao de qual
possui melhor ganho de conhecimento para a solucao de determinado problema, para isto
e necessario escolher um subconjunto de arvores de decisao que possui melhor logica e
vantagens para a tomada de decisao. Para cada subconjunto e dado um voto sobre qual
classe o atributo chave deve pertencer, esse voto possui um “peso” onde o mesmo e afetado
pela igualdade entre as arvores, sendo que quanto menor a similaridade entre duas arvores,
melhor e pela forca que cada arvore tem individualmente, ou seja, quanto mais precisa
uma arvore for, melhor sera sua nota (NETO et al., 2013).
RFs, conforme verificado anteriormente, possuem a caracterıstica de dividir-
29
para–conquistar, e isto possibilita algumas caracterısticas que se destacam referentes as
outras tecnicas, algumas delas sao:
• Algoritmo mais poderoso quando comparado somente a uma arvore de decisao;
• Possui boa taxa de acerto quando testado em diferentes conjuntos de dados;
• Menos sensıveis a ruıdos;
• Classificacao aleatoria das arvores sem intervencao humana.
A seguir e sintetizado o funcionamento do metodo de classificacao RF atraves da
Figura 6.
Figura 6 – Ilustracao da logica por tras do algoritmo RF.
Fonte: (LEE, 2017).
Na figura 6 e possıvel verificar que partindo de um elemento X, no caso uma
base de dados, gerou-se varias RFs, neste ponto cada uma gera varias regras e nelas a
possibilidade de descoberta de novos padroes que poderao ser decisivos na tomada de
decisao correta. Com as florestas criadas o proximo passo e calcular qual delas contem as
regras mais exatas para a mineracao. Com a escolha feita, sao entao aplicadas as regras a
base de dados e assim chegando a um resultado Y.
3.3.3 Redes neurais artificiais
Uma RNA (ou simplesmente uma rede neural ou rede) e um modelo computacional
biologicamente inspirado, constituıdo por elementos de processamento simples (neuronios
artificiais) que aplicam uma determinada funcao matematica aos dados (funcao de ativacao)
gerando uma unica resposta, sao dispostos em camadas e ligados entre si, sendo essas
conexoes, geralmente, associadas a coeficientes denominados de pesos e que adquirem
conhecimento atraves da experiencia. Uma grande RNA pode ter centenas ou milhares
30
de unidades de processamento, ja o cerebro de um mamıfero pode ter muitos bilhoes de
neuronios. Uma RNA e uma tecnologia que imita o funcionamento de um cerebro humano
de forma que computadores possam aprender e tomar decisoes de forma semelhante a dos
humanos. Essas redes podem entao aprender a partir da experiencia, forma semelhante
utilizada pelos seres humanos (SANDRI, 2016).
O sistema nervoso e formado por um conjunto bem complexo de celulas, os
neuronios, como ilustrado na Figura 7. Eles tem um papel ativo na determinacao do
funcionamento e comportamento do corpo humano e do raciocınio. Os neuronios sao
formados pelos dendritos, que sao um conjunto de terminais de entrada, pelo corpo central,
e pelos axonios que sao longos terminais de saıda (CARVALHO, 2009).
Figura 7 – Constituintes da celula neuronal.
Fonte: (CARPINO, 2018).
Combinando diversos neuronios computacionais, forma-se uma RNA. As RNAs
sao modelos que buscam simular o processamento de informacao do cerebro humano. Sao
compostas por unidades de processamentos simples, os neuronios, que se unem por meio de
conexoes sinapticas. De uma forma simplificada, uma RNA pode ser vista como um grafo
onde os nos sao os neuronios e as ligacoes fazem a funcao das sinapses, como exemplificado
na Figura 8.
31
Figura 8 – Representacao simplificada de uma rede neural artificial.
Fonte: (FERNEDA, 2006).
As RNAs se diferenciam pela sua arquitetura e pela forma como os pesos associados
as conexoes sao ajustados durante o processo de aprendizado. A arquitetura de uma rede
neural restringe o tipo de problema no qual a rede podera ser utilizada, e e definida pelo
numero de camadas (camada unica ou multiplas camadas), pelo numero de nos em cada
camada, pelo tipo de conexao entre os nos (feedback) e por sua topologia (HAYKIN, 2007).
As RNAs sao comumente utilizadas na resolucao de problemas complexos, onde
o comportamento das variaveis nao e rigorosamente conhecido. Uma de suas principais
caracterısticas e a capacidade de aprender por meio de exemplos e de generalizar a
informacao aprendida, gerando um modelo nao-linear, tornando sua aplicacao bastante
eficiente (SPORL; CASTRO; LUCHIARI, 2011).
Em termos de topologia, para implementar uma RNA deve-se definir diferentes
variaveis, dentre as quais: a) o numero de nos na camada de entrada (tal variavel corresponde
ao numero de variaveis que serao usadas para alimentar a rede neural, sendo normalmente
as variaveis de maior importancia para o problema em estudo), b) o numero de camadas
escondidas e o numero de neuronios a serem colocados nessas camadas e, c) o numero de
neuronios na camada de saıda (SANTOS et al., 2005).
Uma das propriedades mais importantes de uma RNA e a capacidade de apren-
der por intermedio de exemplos e fazer inferencias sobre o que aprendeu, melhorando
gradativamente o seu desempenho. As redes neurais utilizam um algoritmo de aprendiza-
gem/otimizacao para ajustar os pesos de suas conexoes (BRAGA et al., 2000).
O ajuste dos pesos e realizado por um processo chamado treinamento ou aprendi-
zado, sendo responsavel pela extracao das caracterısticas dos dados e armazenamento de
conhecimento da rede. A aplicacao de uma RNA consiste no processo de generalizacao,
i.e., uma rede treinada dar respostas para dados ineditos (BRAGA et al., 2000).
32
3.4 ALGORITMOS NAO-SUPERVISIONADOS
No aprendizado nao-supervisionado, tambem conhecido por aprendizado por
observacao e descoberta, a tarefa do algoritmo e agrupar exemplos que nao possuem o
atributo classe especıfico. Nesse caso, e possıvel utilizar algoritmos de aprendizado para
descobrir padroes nos dados a partir de alguma caracterizacao de regularidade. Neste
trabalho serao abordados dois metodos de clusterizacao: k-means e GMM.
Nesta etapa de metodos nao-supervisionados, os algoritmos propostos vao ter
dados ja processados como entrada, atraves da fase de pre-processamento, como citado no
diagrama da metodologia geral (Figura 1). Em seguida, a fase de treinamento e realizada
apenas com dados normais (isto e, sem fraude), conforme Figura 9. Ainda com o uso de
dados normais, o limiar de classificacao e automaticamente estimado. Na fase de teste,
novos dados serao classificados por intermedio do limiar previamente definido; exemplos
que ficam abaixo do limiar sao considerados sem fraude e exemplos que ficam acima
do limiar sao considerados fraudes. Finalmente, com o objetivo de determinar o melhor
algoritmo aplicado a este problema, a acuracia nos dados de teste e mensurada.
Figura 9 – Diagrama de fluxo da abordagem nao-supervisionada.
Fonte: Propria (2018).
3.4.1 k-means
Proposto por MacQueen (MACQUEEN et al., 1967), o algoritmo k-means e um
dos mais conhecidos e utilizados, alem de ser o que possui o maior numero de variacoes. O
algoritmo inicia com a escolha de k elementos que formaram as sementes iniciais.
Para Prass (PRASS F., 2013), essa escolha pode ser feita de muitas formas, entre
elas:
• selecionando as k primeiras observacoes;
• selecionando k observacoes aleatoriamente;
33
• escolhendo k observacoes de modo que seus valores sejam bastante diferentes.
A ideia do algoritmo k-means e fornecer uma classificacao de informacoes de
acordo com os proprios dados. Essa classificacao e baseada em analise e comparacoes entre
os valores numericos dos dados. Dessa maneira, o algoritmo automaticamente vai fornecer
uma classificacao automatica sem a necessidade de nenhuma supervisao humana, ou seja,
sem nenhuma pre-classificacao existente.
O k de k-means, e a quantidade de centroides (pontos centrais dos grupos) que
serao criados e favorecerao a estimacao de similaridade dos dados. Uma das formas de
iniciar o processo e o algoritmo inserir os k pontos iniciais de forma aleatoria no plano.
Para gerar as classes e classificar as ocorrencias, o algoritmo faz uma comparacao
entre cada valor das ocorrencias por meio da distancia. Geralmente utiliza-se a distancia
Euclidiana para calcular o quao longe uma ocorrencia esta da outra. A maneira de calcular
essa distancia vai depender da quantidade de atributos fornecidos. A escolha da metrica de
distancia tem grande impacto no resultado final: grupos descobertos. Apos o calculo das
distancias o algoritmo calcula centroides para cada uma das classes. Conforme o algoritmo
vai iterando, o valor de cada centroide e refinado pela media dos valores de cada atributo de
cada ocorrencia que pertence ao referido centroide. Com isso, o algoritmo gera k centroides
e coloca as ocorrencias conforme sua distancia dos centroides.
Segundo Carpi (CARPI, 2010), o funcionamento do algoritmo k-means pode ser
descrito pelos seguintes cinco passos:
• Fornecer valores para os centroides.
• Gerar uma matriz de distancia entre cada ponto e os centroides;
• Colocar cada ponto nas classes de acordo com a sua distancia do centroide da classe;
• Calcular os novos centroides para cada classe;
• Repetir ate a convergencia.
A Figura 10 demonstra o funcionamento desse algoritmo.
34
Figura 10 – Passos de aplicacao do algoritmo k-means.
Fonte: (PIECH, 2013).
Nota-se que dessa maneira se tem uma classificacao que coloca cada ponto em
apenas uma classe. Assim, se uma nova observacao for incluıda, o algoritmo podera
classifica-la em um dos grupos descobertos na etapa de treinamento.
3.4.2 Modelo de misturas Gaussianas (GMMs)
Os GMMs sao modelos probabilısticos para representar subpopulacoes normal-
mente distribuıdas dentro de uma populacao geral. Os modelos de mistura em geral nao
exigem saber a qual subpopulacao pertence uma observacao permitindo que o modelo
aprenda as subpopulacoes de forma automatica (MCLACHLAN; PEEL, 2000).
Embora, em geral um GMM possa ter mais de dois componentes, um GMM e
uma funcao de densidade de probabilidade parametrica representada como uma soma
ponderada de gaussianas de densidades dos componentes (REYNOLDS, 1993).
Os GMMs sao frequentemente utilizados para o agrupamento de dados. Normal-
mente, o algoritmo atribui as observacoes aos componentes normais multivariados que
maximizam a probabilidade posterior do componente.
Um GMM e parametrizado por dois tipos de valores, os pesos dos componentes
da mistura e a matriz de covariancia do componente. Para um GMM com componentes,
o componente tem uma media e variancia para o caso univariado e uma media e matriz
de covariancia para o caso multivariado. Se o numero de componentes for conhecido, o
algoritmo interativo de expectativa-maximizacao (EM) e a tecnica mais utilizada para
estimar os parametros do GMM (DEMPSTER; LAIRD; RUBIN, 1977).
Este algoritmo consiste em duas etapas principais: uma etapa de expectativa
35
(etapa E), seguida por uma etapa de maximizacao (etapa M). A etapa de expectativa
e com respeito as variaveis desconhecidas, usando a estimativa atual dos parametros e
condicionadas as observacoes. A etapa de maximizacao produz entao uma nova estimativa
dos parametros, sendo que o algoritmo e iterado ate que a estimativa do parametro tenha
convergido, ou seja, quando nao ha mais alteracoes na estimativa (PAULA, 2013).
Dado um GMM, o objetivo do EM e maximizar a funcao de verossimilhanca em
relacao aos parametros compreendendo os pesos, as medias e as matrizes de covariancia de
cada componente (MCLACHLAN; PEEL, 2000).
3.5 DETECCAO DE ANOMALIAS
No contexto de deteccao nao-supervisionada, um outlier pode ser descrito como
um fato que desvia tanto de outros fatos a ponto de gerar suspeitas de que foi gerado por
um mecanismo diferente (HAWKINS, 1980). A deteccao de anomalias oferece um metodo
estatıstico para determinar como uma determinada metrica foi alterada com relacao aos
dados anteriores.
Uma tarefa que possui um papel fundamental na descoberta de padroes e a
deteccao de outliers. Conseguir determinar se uma dada instancia e apenas um ruıdo que se
deseja eliminar em uma etapa de pre-processamento, ou se essa mesma instancia possui um
padrao nunca analisado antes, o qual possa representar um comportamento extraordinario
e, portanto, passıvel de estudo e atencao especial, e uma tarefa relevante para a area de
mineracao de dados. Por exemplo, detectar tais padroes pode estar associado a deteccao
de fraudes de cartoes de credito, onde o comportamento de compras de alguem que nao e
o proprietario de um cartao de credito e provavelmente diferente daquele do proprietario
do cartao.
Os algoritmos para deteccao de outliers propostos inicialmente tinham como
objetivo encontrar anomalias em um contexto global (RAMASWAMY; RASTOGI; SHIM,
2000), em que todas as instancias sao tratadas da mesma forma, independente da regiao
do espaco de atributos em que se encontram, o que em muitos casos pode gerar problemas
na presenca de outliers em regioes do espaco com diferentes densidades de dados. Para
contornar tal situacao, algoritmos de deteccao local de outliers foram desenvolvidos a
partir do trabalho pioneiro de Breunig et al. (BREUNIG et al., 2000). Existe, portanto,
uma distincao entre algoritmos de deteccao global e local de anomalias no que diz respeito
ao escopo da base de dados em busca do score de outlier para cada observacao. Os
primeiros assumem que apenas um mecanismo gerou todos os dados, nao importando a
localizacao do ponto que esta sendo observado em questao. Ja algoritmos de deteccao local
consideram que nao ha um numero exato de mecanismos que geraram os dados, analisando
o comportamento da vizinhanca ao redor de um ponto.
A Figura 11 ilustra um exemplo de deteccao de anomalias. Primeiramente, se tem
36
um limiar de classificacao, sendo que os dados que ficam abaixo do limiar (ou threshold)
sao considerados casos normais, enquanto que os dados que ficam acima deste limiar sao
assumidos como casos anormais (outliers). Nota-se entao, atraves das cores originais, que
os dados no intervalo de 1–450 sao todos normais e que os dados no intervalo 451–1250
sao todos anormais. Entretanto, o algoritmos de deteccao de anomalias nao realizou uma
classificacao perfeita, observando-se erros em ambos intervalos. Os erros no intervalo
1–450 sao considerados erros falso-positivos, i.e., observacoes normais que sao classificadas
como anormais. Os erros no intervalo 451–1250 sao considerados erros falso-negativos, i.e.,
observacoes anormais que sao classificadas como normais. Em casos gerais, a definicao do
limiar e realizada pressupondo-se um grau de confianca de 95% nos dados normais, ou
seja, dentro do intervalo de dados normais (neste exemplo 1–450) 5% de erro deve-se a
estimativa do limiar, e o restante (se houver) deve-se a capacidade de generalizacao do
algoritmo de deteccao de anomalias.
Figura 11 – Deteccao de anomalias.
1 450 1250
5
10
15
20
25
Test number
DI
BC (Test)
DC
Outliers
Threshold
Fonte: (Propria, 2018).
37
4 RESULTADOS
Os capıtulos anteriores permitiram uma detalhada compreensao dos conceitos abor-
dados neste trabalho. As fraudes em transacoes com cartao de credito foram amplamente
discutidas, juntamente com toda a metodologia adotada.
Esta etapa consiste na avaliacao dos resultados quando da aplicacao das tecnicas
de aprendizagem automatica nos dados. Para isso, conforme mostrado no capıtulo 4, sao
utilizadas metricas para indicar a qualidade dos resultados obtidos pelas diversas tecnicas.
A execucao dos algoritmos foi feita considerando a metodologia de avaliacao proposta e
ilustrada pela Figura 1.
4.1 Balanceamento dos dados
A base de dados utilizada consiste em transacoes efetuadas por cartoes de credito
em setembro de 2013 por portadores de cartaos europeus. O conjunto de dados foi coletado
e analisado durante uma colaboracao de pesquisa da Worldline e do Machine Learning
Group da ULB (Universite Libre de Bruxelles) sobre mineracao de dados e deteccao de
fraudes. Esses dados apresentam transacoes que ocorreram em dois dias, onde temos 492
fraudes de um total de 284.807 transacoes. O conjunto de dados e altamente desequilibrado,
a classe positiva (fraudes) representa apenas 0,172% de todas as transacoes.
Os dados apresentam apenas variaveis numericas que sao resultantes de uma
transformacao via PCA. Devido a problemas de confidencialidade, nao e possıvel fornecer as
variaveis originais e mais informacoes basica sobre os dados. As variaveis ou caracterısticas
V1, V2, ... V28 sao os componentes principais obtidos com o PCA. As unicas variaveis que
nao foram transformados com o PCA sao “Tempo” e “Valor”. A variavel “Tempo” contem
os segundos decorridos entre cada transacao e a primeira transacao no conjunto de dados.
A variavel “Valor” e o montante da transacao. “Classe” e a variavel de resposta e lhe e
atribuıda o valor 1 em caso de fraude e 0 caso contrario. As variaveis “Tempo” e “Valor”
nao foram utilizadas neste estudo.
Muitos algoritmos tem sua performance prejudicada quando o numero de obser-
vacoes por classe difere abruptamente, como e o caso da base de dados utilizada nesta
pesquisa. De forma a minimizar esse efeito indesejado, ou seja, igualar a quantidade de
observacoes das classes sem fraude e fraude, novos dados foram gerados para a classe
anomala. Para essa geracao de dados foi utilizado o sistema Pearson (MATHWORKS,
1994-2018). Tal sistema inclui uma distribuicao de probabilidade unica correspondente a
todas as combinacoes validas de media, desvio padrao, assimetria e curtose (momentos
estatısticos). Assim, torna-se possıvel gerar novas observacoes pseudo-aleatorias a partir
da estimativa dos quatro primeiros momentos estatısticos para cada variavel da parte do
conjunto de dados com fraude.
38
Sendo assim as amostras ficaram balanceadas em 284.315 para cada classe. Para
poder serem feitas as avaliacoes de treino e teste para os algoritmos supervisionados foram
divididas as classes pela metade cada, sendo utilizados 50% de amostras sem fraudes e
50% de amostras com fraudes para treino e teste de modo disjunto, isto e, nao se tem
nenhuma amostra em comum.
Ja de modo nao-supervisionado as avaliacoes foram realizadas com o treino dos
algoritmos somente com 50% dos dados sem fraudes e de forma disjunta para teste os 50%
dos dados sem fraudes mais 100% de dados com fraudes.
E importante destacar que objetiva-se comparar abordagens supervisionadas e
nao-supervisionadas, logo os experimentos foram conduzidos apenas com a base balanceada
de forma a garantir um comparativo igualitario entre as referidas abordagens.
4.2 Analise dos resultados
Esta secao apresenta os resultados dos experimentos comparando acuracia dos
algoritmos supervisionados (RF, RNA e SVM) e dos nao-supervisionados (k-means e
GMM) quando aplicados nos dados de treinamento e teste. Essa fase dos experimentos
consiste na aplicacao da etapa da metodologia, conforme apresentada nas secoes 4.3 e 4.4.
Cada algoritmo utiliza uma forma ou representacao para descrever a hipotese
induzida. Por exemplo, RNA representa uma hipotese por um conjunto de valores reais,
associados aos pesos de suas conexoes da rede. A RF, por precisar alternar as amostras
durante o treinamento precisam de uma quantidade consideravel de dados para apresentar
resultados competitivos, mas, geralmente, o aumento da quantidade de dados melhora seu
desempenho de predicao. As SVMs possuem um tempo de treinamento mais lento que os
anteriores, mas seu processo de predicao tambem e rapido o suficiente para ser utilizado
em problemas de processamento de tempo real.
Uma RF e um meta estimador que se ajusta a varios classificadores de arvore
de decisao em varias sub amostras do conjunto de dados e usa a media para melhorar a
precisao preditiva e controlar o ajuste excessivo. Os parametros basicos para o classificador
do random forest podem ser o numero total de arvores a serem geradas e os parametros
relacionados a arvore de decisao, como divisao mınima, criterios de divisao, etc. Os
parametros utilizados para cada avaliacao estao descritos na Tabela 1. Cada RF foi
configurada com 10 arvores, sendo a profundidade dessas arvores alterada durante as
avaliacoes.
39
Tabela 1 – Parametros utilizados para cada teste do RF.
RFAvaliacao Parametros
1o (max depth=2, random state=0, verbose=True)2o (max depth=4, random state=0, verbose=True)3o (max depth=6, random state=0, verbose=True)4o (max depth=8, random state=0, verbose=True)5o (max depth=10, random state=0, verbose=True)6o (max depth=20, random state=0, verbose=True)7o (max depth=25, random state=0, verbose=True)8o (max depth=30, random state=0, verbose=True9o (max depth=40, random state=0, verbose=True)10o (max depth=50, random state=0, verbose=True)
Na Tabela 2, por sua vez, sao apresentados os principais parametros da RNA,
sendo que o numero de neuronios e o numero de camadas escondidas foram alterados
durante as execucoes.
40
Tabela 2 – Parametros utilizados para cada teste da RNA.
RNAAvaliacao Parametros
1o (hidden layer sizes=(50,), verbose=True, random state=0)2o (hidden layer sizes=(20, 20, 10 ), verbose=True, random state=0)3o hidden layer sizes=(30, 20, ), verbose=True, random state=0)4o (hidden layer sizes=(15, 15, 10, 10, ), verbose=True, random state=0)5o (hidden layer sizes=(15, 15, 20, ), verbose=True, random state=0)6o (hidden layer sizes=(30, 10, 10, ), verbose=True, random state=0)7o (hidden layer sizes=(10, 10, 10, 20, ), verbose=True, random state=0)8o (hidden layer sizes=(10, 10, 10, 10, 10, ), verbose=True, random state=0)9o (hidden layer sizes=(25, 25, ), verbose=True, random state=0)10o (hidden layer sizes=(25, 15, 10, ), verbose=True, random state=0)
Na Tabela 3 a variacao de parametros para o SVM e descrita. Nesse caso, o
termo de penalidade C e o numero maximo de iteracoes do algoritmo de otimizacao sao as
configuracoes que foram alteradas ao longo das avaliacoes.
41
Tabela 3 – Parametros utilizados para cada teste do SVM.
SVMAvaliacao Parametros
1o (C=1, random state=0, max iter=200, verbose=True)2o (C=1, random state=0, max iter=300, verbose=True)3o (C=1, random state=0, max iter=400, verbose=True)4o (C=2, random state=0, max iter=500, verbose=True)5o (C=5, random state=0, max iter=500, verbose=True)6o (C=5, random state=0, max iter=600, verbose=True)7o (C=5, random state=0, max iter=700, verbose=True)8o (C=5, random state=0, max iter=900, verbose=True)9o (C=1, random state=0, max iter=1000, verbose=True)10o (C=5, random state=0, max iter=1000, verbose=True)
Para os algoritmos nao-supervisionados, foram utilizados metodos automaticos de
selecao do numero de clusters. Ao trabalhar com o k-means, utilizou-se o ındice Calinski-
Harabasz (CH) (CALINSKI; HARABASZ, 1974), o qual gerou um total de 14 clusters.
Ja o GMM que assume uma distribuicao gaussiana (multivariada), usando Bayesian
Information Criterion (BIC) (BOX; JENKINS; REINSEL, 2008) apresentou 13 clusters.
Foram realizadas 10 simulacoes para cada abordagem supervisionada, como mostra
a Tabela 4, no qual estao destacadas em negrito as consideradas melhores acuracias
em relacao a treino e teste de cada algoritmo de acordo os parametros apresentados
anteriormente.
Tabela 4 – Acuracia (%) nos treinos e testes dos algoritmos supervisionados
Algoritmos supervisionadosRF RNA SVM
Treino Teste Treino Teste Treino Teste99,3500 99,3430 99,9747 99,9705 99,9863 99,956099,8801 99,8836 99,9736 99,9683 99,9863 99,955099,9247 99,9212 99,9715 99,9652 99,9849 99,954399,9634 99,9529 99,9698 99,9666 99,9866 99,946999,9683 99,9620 99,9743 99,9719 99,9905 99,947299,9810 99,9698 99,9659 99,9599 99,9905 99,943099,9866 99,9673 99,9680 99,9676 99,9902 99,938499,9926 99,9722 99,9652 99,9613 99,9905 99,928299,9930 99,9719 99,9722 99,9683 99,9814 99,918899,9930 99,9719 99,9712 99,9652 99,9905 99,9251
Considera-se entao que o RF demonstrou um desempenho geral melhor. Tal
desempenho pode ser atribuıdo ao funcionamento deste algoritmo, que difere bastante
da RNA e do SVM. O RF basicamente se apropria do que existe de melhor dentre um
conjunto de varias possibilidades (arvores), proporcionando assim um resultado combinado
mais eficaz. Alem disso, se considerassemos a base de dados desbalanceada, e do estado da
42
arte da literatura de aprendizagem automatica que o RF comporta-se melhor que os seus
competidores em bases desequilibradas, dada a possibilidade de formacao de diferentes
arvores com distintas profundidades.
As Figuras 12 e 13 representam os resultados das deteccoes de anomalias obtidos
apos o processo de clusterizacao dos algoritmos k-means e GMM, respectivamente. Para
ambos, o limiar foi estimado atraves de um grau de confianca de 95% nos dados de
treinamento, pelo que e aceitavel que 5% das observacoes consideradas normais fiquem
acima do limiar, representando erros falso-positivos, i.e., observacoes normais que errone-
amente foram classificadas como anormais. Entretanto, varias observacoes fraudulentas
encontram-se classificadas abaixo do limiar, produzindo uma quantidade grande de erros
falso-negativos, ou seja, observacoes fraudulentas que erroneamente foram classificadas
como normais. De forma geral, esse fato deve-se ao processo de treinamento dos algoritmos
nao-supervisionados, uma vez que o mesmo considera apenas observacoes normais para
estimar o modelo de aprendizagem. Assim, se comparados aos algoritmos supervisionados,
aqueles nao-supervisionados possuem maior probabilidade de obter erros na fase de teste,
pois estarao diante de novos dados nunca vistos antes, principalmente no que diz respeito
a classe anomala.
Figura 12 – Deteccao de anomalias apos clusterizacao do k-means.
Fonte: Propria (2018).
43
Figura 13 – Deteccao de anomalias apos clusterizacao do GMM.
Fonte: Propria (2018).
Adicionalmente, vale frisar que o GMM obteve melhor desempenho que o k-means
porque o primeiro tem a capacidade de estimar e modelar agrupamentos que levam em
consideracao a probabilidade de uma dada observacao pertencer a um agrupamento,
enquanto que o segundo define exatamente a qual cluster a observacao pertence. Por tal
motivo, o GMM consegue gerar clusters de diferentes formas (mas sempre modelados como
Gaussianas para este estudo) com maior representabilidade, o que contribui positivamente
para a fase de teste que e a deteccao de anomalias.
Diante disso foram selecionados os dois melhores algoritmos supervisionados (RF
e RNA) para a comparacao da acuracia com os nao-supervisionados (k-means e GMM)
tanto para treino, quanto para teste, como pode ser observado nas Tabelas 5 e 6.
Tabela 5 – Acuracia (%) nos treinos dos algoritmos
AlgoritmosSupervisionados Nao-supervisionadosRF RNA K-MEANS GMM
99,9930 99,9743 99,4915 99,4924
Tabela 6 – Acuracia (%) nos testes dos algoritmos
AlgoritmosSupervisionados Nao-supervisionadosRF RNA K-MEANS GMM
99,9719 99,9719 99,6441 99,6502
44
A partir das tabelas, numa analise geral, o RF obteve os melhores resultados com
apenas 0,007% e 0,0281% de erros de classificacao para treino e teste, respectivamente.
Alem disso, e possıvel notar que a RNA obtive praticamente a mesma acuracia que o
RF, exceto pela diferenca de 0,0187% de acertos no treinamento. Quanto ao k-means e
GMM ambos obtiveram desempenhos num patamar abaixo dos supervisionados, mas ainda
mantendo certo nıvel de competitividade uma vez que apresentaram erros de classificacao
menores que 1% no treinamento e teste.
Em uma analise mais especıfica, os melhores resultados foram obtidos na seguinte
ordem, para treinamento e teste, respectivamente: RF com taxas de erro de 0,007% e
0,0281%; RNA com taxas de erro de 0,0257% e 0,0281%; GMM com taxas de erro de
0,50760% e 0,34980%; e por fim k-means com taxas de erro de 0,50850% e 0,35590%.
Demonstra-se entao que, para a base de dados utilizada nesta pesquisa, os algoritmos
supervisionados obtiveram desempenho superior aos seus concorrentes nao-supervisionados.
Sumarizando, o RF se destacou devido o algoritmo ser executado por meio de um
conjunto de arvores de decisao, quando da classificacao de um novo objeto e analisado por
cada uma das arvores da floresta. Cada arvore da uma saıda de classificacao ou voto para
uma classe. O RF classifica o novo objeto para a classe que obtiver mais votos. Ao analisar
o desempenho de todas as abordagens, elas mostraram um desempenho satisfatorio de
identificacao de fraudes, todos acima de 90%. Feito o comparativo entre os algoritmos, como
as classes estao balanceadas e comum que os algoritmos supervisionados sejam melhores do
que os nao-supervisionados, pois os algoritmos supervisionados sao treinados com os dados
das duas classes o que facilita a etapa de teste, pois as classes estao balanceadas, existindo
uma relacao entre a entrada e a saıda. Por outro lado, os algoritmos nao-supervisionados
sao treinados so com a classe normal, necessitando identificar novos padroes nos dados
que talvez representem comportamentos anomalos em relacao ao que foi aprendido no
treinamento.
45
5 CONSIDERACOES FINAIS
No Brasil e no mundo, as perdas com fraudes em comercio eletronico atingem
ındices elevados. Tem crescido o numero de pessoas com cartao de credito usado em fraudes
ligadas a essa modalidade de compra. So no Instituto de Promocao e Defesa do Cidadao e
Consumidor (Procon), chegaram mais de 600 reclamacoes de consumidores maranhenses
de 2015 ate a atualidade. A clonagem do cartao e um dos crimes mais comuns. O aumento
da demanda de credito por parte do consumidor resulta tambem em um alerta para quem
utiliza essa modalidade de pagamento. (G1, 2017).
Devido aos prejuızos financeiros causados pelas fraudes em pagamentos online com
cartao de credito, neste trabalho foram aplicadas tecnicas de aprendizagem automatica
para detectar preventivamente fraudes em transacoes, mais especificamente em transacoes
de comercio eletronico que utilizam cartao de credito. Utilizou-se diferentes tecnicas de
inteligencia computacional, dando destaque neste trabalho a um comparativo entre as
tecnicas supervisionadas e nao-supervisionadas, para a especificacao da tecnica mais eficaz
para o combate a fraude numa base de dados especıfica.
Para comparacao desses modelos, foi utilizado um conjunto de dados de transacoes
de cartoes de credito europeus coletado e analisado durante uma colaboracao de pesquisa
da Worldline e do Machine Learning da ULB. Notou-se nesta pesquisa o desbalanceamento
das classes de fraude e nao fraude, o que ocorre com grande frequencia nessa area. Devido
a uma proporcao muito maior de transacoes validas, as tecnicas em geral encontram
dificuldades para reconhecer o padrao de nao fraude, levando assim a necessidade de
balanceamento das classes.
Os passos da metodologia foram seguidos, dentre os quais foram extraıdos da base
de dados um conjunto de dados contendo atributos considerados relevantes para deteccao
de fraude. Esse conjunto passou por um pre-processamento onde informacoes irrelevantes
foram retiradas, e o sigilo de informacoes pessoais foi mantido. Por fim, os dados foram
transformados e novas caracterısticas foram criadas formando um base de dados final que
foi utilizada para execucao das tecnicas de mineracao de dados. Todas as tecnicas sugeridas
pela metodologia foram treinadas e testadas baseadas no metodo de avaliacao proposto.
Do ponto de vista pratico, o trabalho demonstrou sua viabilidade tecnica nas
fases de avaliacao, assim, para atingir o objetivo proposto, fazendo a comparacao entre
as abordagens, obtendo a considerada a mais indicada para o problema em questao.
Neste quesito, o RF se destacou perante as demais principalmente pelo fato de ser um
algoritmo que combina varias arvores que podem modelar o problema em questao de
varias formas. O RF foi seguido entao pela RNA, GMM e k-means. Logo, notou-se que
os algoritmos supervisionados obtiveram melhores resultados num ambito geral dado o
seu treinamento com as duas classes (transacoes normais e transacoes fraudulentas) e
46
posterior teste tambem com essas duas classes. Apesar disso, ha a ressalva de que todos os
algoritmos testados nesta pesquisa obtiveram resultados considerados satisfatorios, obtendo
classificacao correta acima de 99% para treino e teste. Portanto, para a base de dados
especıfica utilizada neste trabalho, o RF mostrou-se a melhor abordagem, mas as outra
tecnicas tambem podem ser aplicadas para resolver o problema em questao sem deixar a
desejar em termos de acertos.
Como trabalhos futuros, destacam-se: identificacao de uma metodologia que
permita comparar algoritmos supervisionados e nao-supervisionados de forma igualitaria
em bases de dados desbalanceadas; criar outras configuracoes do RF atraves de aumento do
numero de arvores da floresta; e verificar o desempenho de RNAs profundas no problema
em questao de forma supervisionada e nao-supervisionada.
47
REFERENCIAS
ALESKEROV, E.; FREISLEBEN, B.; RAO, B. Cardwatch: A neural network baseddatabase mining system for credit card fraud detection. In: IEEE. ComputationalIntelligence for Financial Engineering (CIFEr), 1997., Proceedings of theIEEE/IAFE 1997. [S.l.], 1997. p. 220–226.
BHATTACHARYYA, S. et al. Data mining for credit card fraud: A comparative study.Decision Support Systems, Elsevier, v. 50, n. 3, p. 602–613, 2011.
BOLTON, R. J.; HAND, D. J. et al. Unsupervised profiling methods for fraud detection.Credit Scoring and Credit Control VII, Citeseer, p. 235–255, 2001.
BOX, G. E. P.; JENKINS, G. M.; REINSEL, G. C. Time Series Analysis: Forecastingand Control. 4th. ed. United States: John Wiley & Sons, Inc., 2008.
BRAGA, A. et al. Redes neurais: teoria e aplicacoes. Redes neurais artificiais, LTCRio de Janeiro, 2000.
BREIMAN, L. Random forests. Machine learning, Springer, v. 45, n. 1, p. 5–32, 2001.
BREUNIG, M. M. et al. Lof: identifying density-based local outliers. In: ACM. ACMsigmod record. [S.l.], 2000. v. 29, n. 2, p. 93–104.
CALDEIRA, E. et al. Characterizing and evaluating fraud in electronic transactions. In:IEEE. Web Congress (LA-WEB), 2012 Eighth Latin American. [S.l.], 2012. p.115–122.
CALINSKI, T.; HARABASZ, J. A dendrite method for cluster analysis. Communicationsin Statistics-theory and Methods, Taylor & Francis, v. 3, n. 1, p. 1–27, 1974.
CARPI, R. Data Mining na Pratica: Algoritmo K-Means. 2010. Acces-sado: 25 jan. 2018. Disponıvel em: <https://rogeriocarpi.wordpress.com/2010/07/09/dicas-de-datamining-2-algoritmo-k-means/>.
CARPINO, P. L. G. Inteligencia artificial aplicada ao direito – Fundamentose perspectivas dos sistemas especialistas legais, com enfase em direito previ-denciario. 2018. Accessado: 11 fev. 2018. Disponıvel em: <http://br.monografias.com/trabalhos2/inteligencia-artificial/inteligencia-artificial2.shtml>.
CARVALHO, A. P. L. Redes Neurais Artificiais. 2009. Accessado: 25 jan. 2018. Dispo-nıvel em: <http://conteudo.icmc.usp.br/pessoas/andre/research/neural/>.
CHEN, R.-C. et al. Personalized approach based on svm and ann for detecting credit cardfraud. In: IEEE. Neural Networks and Brain, 2005. ICNN&B’05. InternationalConference on. [S.l.], 2005. v. 2, p. 810–815.
DEMPSTER, A. P.; LAIRD, N. M.; RUBIN, D. B. Maximum Likelihood from IncompleteData via the EM Algorithm. Journal of the Royal Statistical Society. Series B(Methodological), v. 39, n. 1, p. 1–38, 1977.
DUMAN, E.; OZCELIK, M. H. Detecting credit card fraud by genetic algorithm and scattersearch. Expert Systems with Applications, Elsevier, v. 38, n. 10, p. 13057–13063,2011.
48
ECOMMERCE. Meios de pagamento no ecommerce. 2015. Accessado: 20 fev. 2018.Disponıvel em: <www.e-commerce.org.br/meios-de-pagamento-ecommerce/>.
FCONTROL. Solucao definitiva contra fraudes. 2015. Accessado: 20 fev. 2018. Dis-ponıvel em: <www.e-commerce.org.br/meios-de-pagamento-ecommerce/>.
FERNEDA, E. Redes neurais e sua aplicacao em sistemas de recuperacao deinformacao. 2006. Accessado: 11 fev. 2018. Disponıvel em: <http://www.scielo.br/pdf/ci/v35n1/v35n1a03.pdf>.
G1. Cresce numero de pessoas lesadas com fraudes de cartoes de credito noMA. 2017. Accessado: 08 jul. 2018. Disponıvel em: <https://g1.globo.com/ma/maranhao/noticia/cresce-numero-de-pessoas-lesadas-com-fraudes-de-cartoes-de-credito-no-ma.ghtml>.
GHOSH, S.; REILLY, D. L. Credit card fraud detection with a neural-network. In: IEEE.System Sciences, 1994. Proceedings of the Twenty-Seventh Hawaii Internati-onal Conference on. [S.l.], 1994. v. 3, p. 621–630.
GOLDSCHMIDT, R.; PASSOS, E. Data Mining. [S.l.]: Elsevier Brasil, 2017.
HAWKINS, D. M. Identification of outliers. [S.l.]: Springer, 1980. v. 11.
HAYKIN, S. Redes neurais: princıpios e pratica. [S.l.]: Bookman Editora, 2007.
HONGYU, K. Comparacao do GGE biplot-ponderado e AMMI-ponderado comoutros modelos de interacao genotipo x ambiente. Tese (Doutorado) — Universi-dade de Sao Paulo, 2015.
HOTELLING, H. Analysis of a complex of statistical variables into principal components.Journal of educational psychology, Warwick & York, v. 24, n. 6, p. 417, 1933.
KOU, Y. et al. Survey of fraud detection techniques. In: IEEE. Networking, sensingand control, 2004 IEEE international conference on. [S.l.], 2004. v. 2, p. 749–754.
KULTUR, Y.; CAGLAYAN, M. U. Hybrid approaches for detecting credit card fraud.Expert Systems, Wiley Online Library, v. 34, n. 2, 2017.
LEE, C. Feature Importance Measures for Tree Models. 2017. Ac-cessado: 11 fev. 2018. Disponıvel em: <https://medium.com/@ceshine/feature-importance-measures-for-tree-models-part-i-47f187c1a2c3>.
MACQUEEN, J. et al. Some methods for classification and analysis of multivariate obser-vations. In: OAKLAND, CA, USA. Proceedings of the fifth Berkeley symposiumon mathematical statistics and probability. [S.l.], 1967. v. 1, n. 14, p. 281–297.
MANLY, B. F.; ALBERTO, J. A. N. Multivariate statistical methods: a primer.[S.l.]: CRC Press, 2016.
MATHWORKS, I. Pearson. 1994–2018. Accessado: 22 jun. 2018. Disponıvel em: <https://www.mathworks.com/help/stats/pearsrnd.html>.
MCLACHLAN, G. J.; PEEL, D. Finite Mixture Models. United States: John Wiley &Sons, Inc., Wiley Series in Probability and Statistics, 2000.
49
MICHALSKI, R. S.; CARBONELL, J. G.; MITCHELL, T. M. Machine learning: Anartificial intelligence approach. [S.l.]: Springer Science & Business Media, 2013.
NETO, C. D. G. et al. Potencial de tecnicas de mineracao de dados para modelos de alertada ferrugem do cafeeiro. In: IN: CONGRESSO BRASILEIRO DE AGROINFORMATICA,9., 2013, CUIABA. AGROINFORMATICA: INOVACAO PARA A SUSTENTABILIDADEDO AGRONEGOCIO BRASILEIRO: ANAIS. CUIABA: UNIVERSIDADE FEDERALDE MATO GROSSO, 2013. Embrapa Informatica Agropecuaria-Artigo em anaisde congresso (ALICE). [S.l.], 2013.
PAULA, A. V. d. Determinacao de parametros que caracterizam o fenomeno da biestabili-dade em escoamentos turbulentos. 2013.
PEARSON, K. Liii. on lines and planes of closest fit to systems of points in space.The London, Edinburgh, and Dublin Philosophical Magazine and Journal ofScience, Taylor & Francis, v. 2, n. 11, p. 559–572, 1901.
PHUA, C. et al. A comprehensive survey of data mining-based fraud detection research.arXiv preprint arXiv:1009.6119, 2010.
PIECH, C. Artificial Intelligence: Principles and Techniques. 2013. Accessado: 12fev. 2018. Disponıvel em: <http://stanford.edu/˜cpiech/cs221/handouts/kmeans.html>.
POZZOLO, A. D. et al. Credit card fraud detection: a realistic modeling and a novellearning strategy. IEEE transactions on neural networks and learning systems,IEEE, 2017.
PRASS F., S. Algoritmo de k-means. 2013. Accessado: 10 fev. 2018. Disponıvel em:<http://fp2.com.br/blog/index.php/2013/algoritmo-de-k-means/>.
PUN, J.; LAWRYSHYN, Y. Improving credit card fraud detection using a meta-classification strategy. International Journal of Computer Applications, Foundationof Computer Science, v. 56, n. 10, 2012.
RAMASWAMY, S.; RASTOGI, R.; SHIM, K. Efficient algorithms for mining outliers fromlarge data sets. In: ACM. ACM Sigmod Record. [S.l.], 2000. v. 29, n. 2, p. 427–438.
REYNOLDS, D. A. A gaussian mixture modeling approach to text-independent speakeridentification. 1993.
ROBERT, C. Machine learning, a probabilistic perspective. [S.l.]: Taylor & Francis,2014.
SANDRI, A. Deteccao de fraude e prevencao utilizando inteligencia artificial. Ciencia daComputacao – Centro Universitario La Salle (UNILASALLE), p. 1–9, 2016.
SANTOS, A. M. d. et al. Usando redes neurais artificiais e regressao logıstica na predicaoda hepatite a. Revista Brasileira de Epidemiologia, SciELO Public Health, v. 8, p.117–126, 2005.
SPORL, C.; CASTRO, E.; LUCHIARI, A. Aplicacao de redes neurais artificiais na cons-trucao de modelos de fragilidade ambiental. Revista do Departamento de Geografia,v. 21, p. 113–135, 2011.
50
STATSOFT. Support Vector Machines. 2018. Accessado: 12 fev. 2018. Disponıvel em:<http://www.statsoft.com/Textbook/Support-Vector-Machines>.
TAN, P.; STEINBACK, M.; KUMAR, V. Introducao ao datamining: mineracao de dados.Editora Ciencia Moderna, Rio de Janeiro, 2009.
TECMUNDO. Fraudes digitais: como elas ocorrem e o que esta sendo feitopara barra-las. 2016. Accessado: 20 fev. 2018. Disponıvel em: <www.tecmundo.com.br/golpes-e-fraudes/110134-fraudes-digitais-elas-ocorrem-sendo-feito-barra-las.htm>.
VALE, M. N. do. Agrupamentos de dados: Avaliacao de Metodos e Desenvol-vimento de Aplicativo para Analise de Grupos. Tese (Doutorado) — PUC-Rio,2005.
VAPNIK, V. Pattern recognition using generalized portrait method. Automation andremote control, v. 24, p. 774–780, 1963.
YONG-FENG, S.; YAN-PING, Z. Comparison of text categorization algorithms. Wuhanuniversity Journal of natural sciences, Springer, v. 9, n. 5, p. 798–804, 2004.