50
UNIVERSIDADE FEDERAL DO SUL E SUDESTE DO PAR ´ A INSTITUTO DE GEOCI ˆ ENCIAS E ENGENHARIAS Faculdade de Computa¸ ao e Engenharia El´ etrica Bacharelado em Sistemas de Informa¸ ao DETEC ¸ C ˜ AO DE FRAUDES EM CART ˜ AO DE CR ´ EDITO ATRAV ´ ES DE APRENDIZAGEM AUTOM ´ ATICA Well´ erson Bruno da Silva Santos Marab´ a-PA 2018

UNIVERSIDADE FEDERAL DO SUL E SUDESTE DO PARAcomo CNP (cartao~ nao presente). Como nao ha a assinatura do comprador para validar a compra neste tipo de transac~ao, a responsabilidade

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: UNIVERSIDADE FEDERAL DO SUL E SUDESTE DO PARAcomo CNP (cartao~ nao presente). Como nao ha a assinatura do comprador para validar a compra neste tipo de transac~ao, a responsabilidade

UNIVERSIDADE FEDERAL DO SUL E SUDESTE DO PARA

INSTITUTO DE GEOCIENCIAS E ENGENHARIAS

Faculdade de Computacao e Engenharia Eletrica

Bacharelado em Sistemas de Informacao

DETECCAO DE FRAUDES EM CARTAO DE CREDITO ATRAVES DE

APRENDIZAGEM AUTOMATICA

Wellerson Bruno da Silva Santos

Maraba-PA

2018

Page 2: UNIVERSIDADE FEDERAL DO SUL E SUDESTE DO PARAcomo CNP (cartao~ nao presente). Como nao ha a assinatura do comprador para validar a compra neste tipo de transac~ao, a responsabilidade

Wellerson Bruno da Silva Santos

DETECCAO DE FRAUDES EM CARTAO DE CREDITO ATRAVES DE

APRENDIZAGEM AUTOMATICA

Trabalho de Conclusao de Curso, apresentadoa Universidade Federal do Sul e Sudeste doPara, como parte dos requisitos necessariospara obtencao do Tıtulo de Bacharel emSistemas de Informacao.

Orientador:Prof. Dr. Adam Dreyton Ferreira dos Santos

Maraba-PA

2018

Page 3: UNIVERSIDADE FEDERAL DO SUL E SUDESTE DO PARAcomo CNP (cartao~ nao presente). Como nao ha a assinatura do comprador para validar a compra neste tipo de transac~ao, a responsabilidade

Dados Internacionais de Catalogação-na-Publicação (CIP)

Biblioteca II da UNIFESSPA. CAMAR.

Santos, Wellérson Bruno da Silva Detecção de fraudes em cartão de crédito através de aprendizagem automática / Wellérson Bruno da Silva Santos; orientador, Adam Dreyton Ferreira dos Santos. — 2018. Trabalho de Conclusão de Curso (Graduação) - Universidade Federal do Sul e Sudeste do Pará, Campus Universitário de Marabá, Instituto de Geociências e Engenharias, Faculdade de Computação e Engenharia Elétrica, Curso de Bacharelado em Sistemas de Informação, Marabá, 2018. 1. Mineração de dados (Computação). 2. Análise por agrupamento - Processamento de dados. 3. Fraude no cartão de

crédito. 4. Fraude na Internet. 5. Cartões de crédito. 6. Inteligência

artificial. 7. Algorítmos computacionais. I. Santos, Adam Dreyton Ferreira dos. II. Universidade Federal do Sul e Sudeste do Pará. III. Título.

CDD: 22. ed.: 006.33

Elaborada por Nádia Lopes Serrão– CRB-2/575

Page 4: UNIVERSIDADE FEDERAL DO SUL E SUDESTE DO PARAcomo CNP (cartao~ nao presente). Como nao ha a assinatura do comprador para validar a compra neste tipo de transac~ao, a responsabilidade
Page 5: UNIVERSIDADE FEDERAL DO SUL E SUDESTE DO PARAcomo CNP (cartao~ nao presente). Como nao ha a assinatura do comprador para validar a compra neste tipo de transac~ao, a responsabilidade

Agradeco em primeiro lugar a Deus que ilumi-

nou o meu caminho durante esta caminhada.

Page 6: UNIVERSIDADE FEDERAL DO SUL E SUDESTE DO PARAcomo CNP (cartao~ nao presente). Como nao ha a assinatura do comprador para validar a compra neste tipo de transac~ao, a responsabilidade

AGRADECIMENTOS

Agradeco a Deus por ter me fortalecido ao ponto de superar as dificuldades e

tambem por toda saude que me deu e que permitiu alcancar esta etapa tao importante da

minha vida.

Ao meu orientador professor Adam Dreyton, pela orientacao, apoio e confianca,

pelo empenho dedicado a elaboracao deste trabalho pelas suas correcoes, incentivos e pela

extrema disponibilidade.

Meus agradecimentos aos amigos, Lizandra Julia, uma das pessoas que mais me

acompanhou durante o curso, Rayron Santos, Marcos Vinicius, Edson Freire, Willdemberg

Oliveira e Weverton DLucas por saber que sao meus grandes amigos e que posso sempre

contar com voces, irmaos na amizade, a todo pessoal da minha turma SI2014 que fizeram

parte da minha formacao e que vao continuar presentes em minha vida concerteza e a

todos da Biblioteca pelo carinhoso apoio.

Aos meus pais, Boaventura e Vanda, pela etica, sabedoria e pela paciencia que

estiveram comigo por muitos anos, acompanharam todo o trajeto, por todo o apoio e

suporte nas horas em que mais precisei. A minha mae, que nunca poupou esforcos para

dar do melhor e direcionar para uma vida reta e produtiva.

A todos que direta ou indiretamente fizeram parte da minha formacao, o meu

muito obrigado.

Page 7: UNIVERSIDADE FEDERAL DO SUL E SUDESTE DO PARAcomo CNP (cartao~ nao presente). Como nao ha a assinatura do comprador para validar a compra neste tipo de transac~ao, a responsabilidade

“Atingir a perfeicao e impossıvel.

Mas aproximar-se cada vez mais dela,

nao.”.

(Tele Santana)

Page 8: UNIVERSIDADE FEDERAL DO SUL E SUDESTE DO PARAcomo CNP (cartao~ nao presente). Como nao ha a assinatura do comprador para validar a compra neste tipo de transac~ao, a responsabilidade

RESUMO

Os cartoes, sejam de credito ou debito, sao meios de pagamento altamente utilizados.Esse fato desperta o interesse de fraudadores. O mercado de cartoes enxerga as fraudescomo custos operacionais, que sao repassados para os consumidores e para a sociedadeem geral. Alem disso, o alto volume de transacoes e a necessidade de combater as fraudesabrem espaco para a aplicacao de tecnicas de aprendizagem automatica, entre elas, assupervisionadas e nao-supervisionadas. Nesse contexto, a deteccao de fraude consisteem diferenciar as transacoes fraudulentas daquelas que sao legıtimas. Entretanto, estee um desafio tecnico devido a diversidade de estrategias utilizadas pelos fraudadores, onumero relativamente pequeno de fraudes em relacao ao numero total de transacoes e aconstante evolucao das praticas de mercado e tecnologia associada. Este trabalho propoeuma metodologia para deteccao de fraude em cartoes de creditos, passando pela avaliacaodas tecnicas mais promissoras, das quais sao: Redes neurais, Random forest e Support vectormachines (supervisionadas); e k-means e Gaussian mixture models (nao supervisionadas).O principal objetivo deste trabalho e mensurar o desempenho das diversas abordagens deforma qualitativa e quantitativa a fim de obter aquela que pode ser considerada a maisindicada para o problema em questao. Nos experimentos realizados o maior exito foi obtidocom o Random forest, resultando em 99,9930% de acerto no treino e 99,9719% de acertono teste, devido a sua configuracao no formato de conjunto de arvores. Ressalta-se quetodos os algoritmos testados nesta pesquisa obtiveram resultados considerados satisfatorios,obtendo classificacao correta acima de 99%.

Palavras-chave: Deteccao de fraudes, cartao de credito, aprendizagem automatica.

Page 9: UNIVERSIDADE FEDERAL DO SUL E SUDESTE DO PARAcomo CNP (cartao~ nao presente). Como nao ha a assinatura do comprador para validar a compra neste tipo de transac~ao, a responsabilidade

ABSTRACT

The credit or debit cards are highly used as a means of payment. This fact arises theinterest of fraudsters. The card market sees fraud as operating costs, which are passed onto consumers and to society as a whole. In addition, the high volume of transactions andthe need to combat fraud make it possible to apply machine learning techniques, includingsupervised and unsupervised ones. In this context, fraud detection consists in differentiatingfraudulent transactions from those that are legitimate. However, this is a technical challengedue to the diversity of strategies used by fraudsters, the relatively small number of fraudsin relation to the total number of transactions, and the constant evolution of marketpractices and associated technology. This work proposes a methodology for detecting fraudin credit cards, through the evaluation of the most promising techniques, of which are:Neural networks, Random forest and Support vector machines (supervised); and k-meansand Gaussian mixture models (unsupervised). The main objective of this work is to measurethe performance of the various approaches in a qualitative and quantitative way in order toobtain the one that can be considered the most appropriate for the problem in question. Inthe experiments carried out the most successful was obtained with Random forest, resultingin 99.9930% of correctness in the training and 99.9719% of success in the test, due toits configuration in the set of trees. It is emphasized that all the algorithms tested in thisresearch obtained satisfactory results, obtaining correct classification above 99%.

Keywords: Fraud detection, credit card, machine learning.

Page 10: UNIVERSIDADE FEDERAL DO SUL E SUDESTE DO PARAcomo CNP (cartao~ nao presente). Como nao ha a assinatura do comprador para validar a compra neste tipo de transac~ao, a responsabilidade

LISTA DE ILUSTRACOES

Figura 1 – Diagrama de fluxo da metodologia geral. . . . . . . . . . . . . . . . . . 20

Figura 2 – Diagrama de fluxo da abordagem supervisionada. . . . . . . . . . . . . 23

Figura 3 – Linha de separacao (classificador linear). . . . . . . . . . . . . . . . . . 24

Figura 4 – Curva de separacao (classificador nao-linear). . . . . . . . . . . . . . . 25

Figura 5 – Ideia basica da SVM. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

Figura 6 – Ilustracao da logica por tras do algoritmo RF. . . . . . . . . . . . . . . 26

Figura 7 – Constituintes da celula neuronal. . . . . . . . . . . . . . . . . . . . . . 27

Figura 8 – Representacao simplificada de uma rede neural artificial. . . . . . . . . 28

Figura 9 – Diagrama de fluxo da abordagem nao-supervisionada. . . . . . . . . . . 29

Figura 10 – Passos de aplicacao do algoritmo k-means. . . . . . . . . . . . . . . . . 30

Figura 11 – Deteccao de anomalias. . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

Figura 12 – Deteccao de anomalias apos clusterizacao do k-means. . . . . . . . . . 38

Figura 13 – Deteccao de anomalias apos clusterizacao do GMM. . . . . . . . . . . . 39

Page 11: UNIVERSIDADE FEDERAL DO SUL E SUDESTE DO PARAcomo CNP (cartao~ nao presente). Como nao ha a assinatura do comprador para validar a compra neste tipo de transac~ao, a responsabilidade

LISTA DE TABELAS

Tabela 1 – Parametros utilizados para cada teste do RF. . . . . . . . . . . . . . . 35

Tabela 2 – Parametros utilizados para cada teste da RNA. . . . . . . . . . . . . . 36

Tabela 3 – Parametros utilizados para cada teste do SVM. . . . . . . . . . . . . . 37

Tabela 4 – Acuracia (%) nos treinos e testes dos algoritmos supervisionados . . . . 37

Tabela 5 – Acuracia (%) nos treinos dos algoritmos . . . . . . . . . . . . . . . . . 39

Tabela 6 – Acuracia (%) nos testes dos algoritmos . . . . . . . . . . . . . . . . . . 39

Page 12: UNIVERSIDADE FEDERAL DO SUL E SUDESTE DO PARAcomo CNP (cartao~ nao presente). Como nao ha a assinatura do comprador para validar a compra neste tipo de transac~ao, a responsabilidade

LISTA DE ABREVIATURAS E SIGLAS

BIC Bayesian Information Criterion

CH Calinski-Harabasz

CNP Cartao nao presente

EM Expectativa-maximizacao

GMM Gaussian mixture models

RF Random forest

RNA Redes neurais artificiais

SVM Support vector machines

PCA Principal component analysis

ULB Universite Libre de Bruxelles

Page 13: UNIVERSIDADE FEDERAL DO SUL E SUDESTE DO PARAcomo CNP (cartao~ nao presente). Como nao ha a assinatura do comprador para validar a compra neste tipo de transac~ao, a responsabilidade

SUMARIO

1 INTRODUCAO . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

1.1 OBJETIVOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

1.2 JUSTIFICATIVA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

2 TRABALHOS CORRELATOS . . . . . . . . . . . . . . . . . . . 17

3 METODOLOGIA . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

3.1 PRE-PROCESSAMENTO . . . . . . . . . . . . . . . . . . . . . . . 21

3.1.1 Analise de componentes principais . . . . . . . . . . . . . . . . . . . . . 21

3.2 APRENDIZAGEM SUPERVISIONADA E NAO-SUPERVISIONADA 22

3.3 ALGORITMOS SUPERVISIONADOS . . . . . . . . . . . . . . . 23

3.3.1 Maquinas de vetores de suporte . . . . . . . . . . . . . . . . . . . . . . 24

3.3.2 Random forest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

3.3.3 Redes neurais artificiais . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

3.4 ALGORITMOS NAO-SUPERVISIONADOS . . . . . . . . . . . 28

3.4.1 k-means . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

3.4.2 Modelo de misturas Gaussianas (GMMs) . . . . . . . . . . . . . . . . . 31

3.5 DETECCAO DE ANOMALIAS . . . . . . . . . . . . . . . . . . . . 31

4 RESULTADOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

4.1 Balanceamento dos dados . . . . . . . . . . . . . . . . . . . . . . . . 33

4.2 Analise dos resultados . . . . . . . . . . . . . . . . . . . . . . . . . . 34

5 CONSIDERACOES FINAIS . . . . . . . . . . . . . . . . . . . . 41

REFERENCIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

Page 14: UNIVERSIDADE FEDERAL DO SUL E SUDESTE DO PARAcomo CNP (cartao~ nao presente). Como nao ha a assinatura do comprador para validar a compra neste tipo de transac~ao, a responsabilidade

14

1 INTRODUCAO

Em sistemas tecnologicos, atividades fraudulentas tem ocorrido em diversas areas,

tais como redes de comunicacao, comunicacao movel, banking on-line e comercio eletronico.

As fraudes estao crescendo de forma acentuada com a expansao da tecnologia moderna e

comunicacao global, resultando em perdas substanciais nos mais variados negocios (KOU

et al., 2004).

Neste contexto, a fraude em cartao de credito e um desafio para lojistas virtuais.

E nıtido que essas sao proporcionalmente mais frequentes em negocios realizados pela

Internet que em estabelecimentos fısicos e causam um maior prejuızo direto. As transacoes

com cartao de credito atraves da Internet sao consideradas pelos bancos e administradoras

como CNP (cartao nao presente). Como nao ha a assinatura do comprador para validar a

compra neste tipo de transacao, a responsabilidade pela operacao fica a cargo do lojista e

nao do banco emissor ou da administradora do cartao. As fraudes com cartao de credito

podem ocasionar prejuızos para o comerciante, bem como podem levar ao cancelamento

do convenio do estabelecimento com as administradoras de cartao (FCONTROL, 2015).

Os cartoes, sejam de credito ou debito, sao meios de pagamento altamente utilizados

no comercio em geral. Esses fatores despertam o interesse de fraudadores. Numa primeira

analise, quando uma fraude e bem-sucedida, poderia se dizer que as empresas envolvidas

arcam com os custos, mas, na verdade, essa perda operacional encarece os precos para o

consumidor final. Logo, combater fraudes nesse meio de pagamento traz benefıcios para

toda a sociedade. Essa tarefa, devido a sua complexidade e tamanho, tem que ser feita de

uma forma concomitantemente eficaz e confiavel. Logo, ha oportunidade para a aplicacao

de tecnicas de aprendizagem automatica (do ingles machine learning).

Os cartoes, tambem conhecidos como meios eletronicos de pagamento, sao uma

importante forma de pagamento mundialmente utilizada em transacoes presenciais ou

naquelas que o portador nao esta fisicamente diante do terminal no qual a transacao e

realizada. O uso desse meio cresce a taxas substanciais ano apos ano. Ha varias razoes para

esse crescimento: para quem utiliza o cartao como forma de pagamento, ele e pratico e,

sob determinadas condicoes, o credito e instantaneo, os gastos sao concentrados na fatura

e os cartoes sao um instrumento aceito em muitos estabelecimentos; por outro lado as

instituicoes que recebem pagamentos com cartoes, tem o menor risco de inadimplencia, o

controle das vendas e facilitado e ha muitas pessoas dispostas a pagarem suas compras

com eles.

Entretanto, um requisito fundamental para esse sistema de pagamentos e a

seguranca. Por se tratar de um meio de pagamento, ou seja, estar intimamente ligado

aos dados financeiros dos usuarios, caso as fraudes sejam muito frequentes e envolvam

muitos custos, o cartao perdera seu apelo de uso por parte das pessoas. Alem disso, quanto

Page 15: UNIVERSIDADE FEDERAL DO SUL E SUDESTE DO PARAcomo CNP (cartao~ nao presente). Como nao ha a assinatura do comprador para validar a compra neste tipo de transac~ao, a responsabilidade

15

maiores os volumes financeiros envolvidos nas fraudes, maiores serao as perdas financeiras

das empresas participantes desse mercado, o que pode inviabilizar a manutencao desse

sistema de pagamentos.

Neste estudo serao apresentadas tecnicas baseadas em inteligencia computacional

para identificar fraudes em transacoes eletronicas, mais especificamente em operacoes

envolvendo cartao de credito. Para validar a metodologia, sera utilizada uma base de dados

com transacoes desse meio eletronico de pagamento para avaliar as tecnicas utilizadas.

A mineracao de dados tem apresentado grandes contribuicoes nesta area. De acordo

com Tan et al. (TAN; STEINBACK; KUMAR, 2009), a mineracao de dados consiste em

um conjunto de tecnicas organizadas para analisar grandes bancos de dados com o intuito

de descobrir padroes uteis e recentes que poderiam, de outra forma, permanecer ignorados.

Neste cenario, com o crescente volume de transacoes e a necessidade de prevenir

e detectar fraudes, cria-se a oportunidade para aplicacao de tecnicas de aprendizagem

automatica no combate as anomalias em cartoes, pois o alto numero de transacoes impede

que cada uma delas seja analisada por um recurso humano. Assim, esses metodos podem

ser aplicados para que as transacoes, na iminencia de acontecerem, sejam classificadas entre

fraudulentas ou legıtimas, impedindo-se a realizacao daquelas apontadas como fraudulentas.

Inclusive este claramente nao e um problema de classificacao facil de resolver.

Classificar os dados significa construir modelos com base em um conjunto de treinamento e

nos valores (rotulos) do atributo classificador. Alem do grande volume de dados envolvidos,

as transacoes de fraude nao ocorrem com frequencia. Ha uma necessidade de teorias

computacionais e ferramentas para ajudar os seres humanos nessa tarefa.

Portanto o objetivo deste trabalho e apresentar um apanhado das metodologias

de aprendizagem automatica, abordagens supervisionadas e nao-supervisionadas, para

detectar tentativas de fraude nas transacoes com cartao de credito de forma rapida e

eficiente. O restante deste trabalho esta organizado da seguinte forma. A secao 1.1 apresenta

os objetivos gerais e especıficos. Ja a secao 1.2 descreve a justificativa do pre-projeto. O

capıtulo 2 demonstra os trabalhos correlatos ao tema de pesquisa do qual sao analisados. O

capıtulo 3 descreve a metodologia apresentando uma breve descricao sobre a base de dados

utilizada e as tecnicas empregadas neste trabalho. No capıtulo 4, os resultados obtidos

sao discutidos e buscam evidenciar a melhor tecnica para resolver a problematica desta

pesquisa. Finalmente, no capıtulo 5, este estudo e sintetizado na forma de consideracoes

finais.

Page 16: UNIVERSIDADE FEDERAL DO SUL E SUDESTE DO PARAcomo CNP (cartao~ nao presente). Como nao ha a assinatura do comprador para validar a compra neste tipo de transac~ao, a responsabilidade

16

1.1 OBJETIVOS

Este trabalho tem como objetivo geral a aplicacao de metodos baseados em

aprendizagem automatica para deteccao de fraudes em cartoes de credito.

Para atingir o objetivo geral proposto, se faz necessario considerar os seguintes

objetivos especıficos:

- Aplicar tres abordagens baseadas em aprendizagem supervisionada e duas nao-

supervisionada para deteccao de anomalias em transacoes com cartoes de credito;

- Mensurar o desempenho das diversas abordagens de forma qualitativa e quanti-

tativa a fim de classificar aquela que pode ser considerada a mais indicada para o problema

em questao;

- Verificar o efeito causado nas abordagens testadas quando do desbalanceamento

em bases de dados reais.

1.2 JUSTIFICATIVA

Com o advento e a maturidade da Internet, as empresas perceberam a oportunidade

de explorar mais um canal para encontrar seus consumidores e comercializar seus produtos

e servicos. Porem, ao se disporem a participar do comercio eletronico (e-commerce), as

empresas tem que preparar sua infraestrutura em termos de tecnologia da informacao

(TI). Com relacao aos meios de pagamento das vendas no e-commerce de acordo com as

estimativas contidas em (ECOMMERCE, 2015), os cartoes de credito sao utilizados por

76% dos compradores.

Existem diversas maneiras de conseguir dados de cartoes de credito de forma

ilegal. A mais difundida e explorar as vulnerabilidades de um site comercial para extrair a

base de dados que contem as informacoes de cartoes de credito de seus usuarios. Tambem

e comum ver cibercriminosos criando falsas paginas que se assemelham a e-commerces

famosos com o unico intuito de “pescar” alguns dados bancarios. (TECMUNDO, 2016).

De acordo com uma pesquisa publicada pela Fcontrol (TECMUNDO, 2016),

empresa especialista em solucoes para o comercio eletronico, houve um aumento de 1,32%

nas tentativas de fraudes no primeiro trimestre de 2016 em relacao ao mesmo perıodo

no ano anterior. E importante ressaltar que por conta da crise economica, as transacoes

diminuıram em cerca de 11%. Isso significa que, mesmo comprando menos, o brasileiro

continua exposto aos impostores digitais.

Dentro desse cenario em meio as tentativas de barrar a acao de fraudadores no

comercio eletronico, pode-se considerar a aprendizagem automatica. Essa tecnologia e um

subcampo da inteligencia artificial que emula essa habilidade por meio do desenvolvimento

de algoritmos e tecnicas que permitem que o computador analise os dados de uma atividade

Page 17: UNIVERSIDADE FEDERAL DO SUL E SUDESTE DO PARAcomo CNP (cartao~ nao presente). Como nao ha a assinatura do comprador para validar a compra neste tipo de transac~ao, a responsabilidade

17

realizada, crie padroes mais refinados e aplique-os em novas oportunidades.

Com esse intuito o trabalho e proposto atraves da aprendizagem automatica, onde

a mesma assimila informacao de maneira rapida e eficiente para a identificacao de padroes,

com a aplicacao de algoritmos supervisionados e nao-supervisionados para fazer a deteccao,

para alcancar os objetivos do estudo. A deteccao de fraudes refere-se a habilidade de

detectar o evento fraudulento, buscando padroes e reconhecendo a ocorrencia do evento,

na qual os algoritmos sao baseados em estatısticas e tem como principal objetivo detectar

possıveis anomalias nos dados ou no proprio modelo, para verificar essas transacoes.

Page 18: UNIVERSIDADE FEDERAL DO SUL E SUDESTE DO PARAcomo CNP (cartao~ nao presente). Como nao ha a assinatura do comprador para validar a compra neste tipo de transac~ao, a responsabilidade

18

2 TRABALHOS CORRELATOS

Existem diversas pesquisas sobre metodos para deteccao de fraude, onde cada qual

tem suas caracterısticas, dependendo do tipo de fraude que desejasse prevenir. Entretanto,

podemos perceber que tecnicas baseadas em mineracao de dados estao sendo muito

utilizadas e desempenham um importante papel nesta tarefa. Isso e factıvel devido a

mineracao de dados permitir extrair informacoes necessarias para resolucao do problema a

partir de um vasto conjunto de dados.

Alguns trabalhos relacionados a deteccao de fraudes em operacoes de cartao de

credito sao relacionados ao longo desta secao.

Ghosh e Reilly (GHOSH; REILLY, 1994) aplicaram um detector de fraude baseado

em redes neurais. A rede foi treinada usando exemplos de cartoes perdidos, cartoes roubados,

cartoes falsificados e com fraude em correspondencias. A rede detectou significativamente

a quantidade de fraudes, com uma baixa taxa de falsos positivos. O sistema foi instalado

em um IBM 3090 no Mellon Bank.

Aleskerov, Freisleben e Rao (ALESKEROV; FREISLEBEN; RAO, 1997) desenvol-

veram um sistema chamado CARDWATCH, um sistema de mineracao de dados utilizado

para a deteccao de fraudes de cartao de credito. O sistema foi baseado em redes neurais e

forneceu uma interface para uma variedade de bases de dados comerciais e possui uma

interface grafica bem confortavel. Os resultados dos testes obtidos para dados de cartoes de

credito sinteticamente gerados mostram taxas de deteccao de fraude muito bem-sucedidas,

que chegam a 85% de acerto. No entanto, conjuntos de dados reais nao foram utilizados

para posterior validacao.

Bolton e Hand (BOLTON; HAND et al., 2001) propuseram uma tecnica de deteccao

de fraudes nao-supervisionada usando analise de ponto de interrupcao para identificar

mudancas no comportamento de gastos. Um ponto de interrupcao e uma observacao em

funcao do tempo em que se detecta o comportamento anomalo. Um exemplo de anomalia

e o aumento repentino no numero de transacoes, isso pode indicar o comportamento

fraudulento. Uma vantagem desse algoritmo e nao ser necessario o uso de dados com

periodicidade fixa. Os resultados obtidos foram promissores em termos de acuracia. Os

autores pretendem continuar incorporando informacoes mais relevantes que simplesmente

o valor gasto.

Chen et al. (CHEN et al., 2005) aplicaram duas tecnicas, maquinas de vetores de

suporte (Support vector machines - SVM) e redes neurais artificiais (RNA), para investigar o

problema de fraude variavel no tempo. Os desempenhos de RNA e SVM foram comparados.

Os resultados mostraram que RNA e SVM nao puderam ser efetivamente comparados na

deteccao de fraudes. RNA supera SVM em termos de precisao no treinamento. No entanto,

SVM pode oferecer melhor performance quando a quantidade de informacao e menor.

Page 19: UNIVERSIDADE FEDERAL DO SUL E SUDESTE DO PARAcomo CNP (cartao~ nao presente). Como nao ha a assinatura do comprador para validar a compra neste tipo de transac~ao, a responsabilidade

19

Phua et al. (PHUA et al., 2010) realizaram amplo estudo e publicaram diversos

artigos relacionados com deteccao de fraude, usando mineracao de dados e suas tecni-

cas derivadas para solucionar o problema. O autor discute diferentes estrategias para

solucionar o problema, baseando-se em algoritmos de treinamento nao-supervisionado ou

supervisionado aplicados em dados desbalanceados, isto e, dados cujo a variavel a ser

analisada contem uma quantidade muito maior de registros em uma das suas classes. No

treinamento supervisionado o algoritmo analisa cada transacao para que matematicamente

determine o padrao de uma transacao de fraude e possa estimar seu risco. No treinamento

nao-supervisionado nao se tem conhecimento previo de quais transacoes resultaram em

fraude ou nao fraude. Essa pesquisa apenas define claramente os problemas e abrange

tipos, metodos e tecnicas de fraude, nao definindo qual seria a melhor abordagem utilizada

para tais problemas.

Duman e Ozcelik (DUMAN; OZCELIK, 2011) desenvolveram um metodo com

uma combinacao de duas abordagens de metaheurıstica bem conhecidas, os algoritmos

geneticos e a busca randomica. O metodo foi aplicado a dados reais de um banco e os

resultados foram muito bem-sucedidos em comparacao com a pratica atual de se utilizar

apenas uma abordagem ou tecnica.

Para Pun e Lawryshyn (PUN; LAWRYSHYN, 2012), uma das questoes que os

sistemas de deteccao de fraude em cartao de credito enfrentam e que uma porcentagem

significativa das transacoes identificadas como fraudulentas sao de fato legıtimas. Assim

esses alarmes falsos retardam a deteccao de transacoes fraudulentas e podem causar

problemas desnecessarios para os clientes e empresas. Dessa forma, os autores apresentam

um modelo meta-classificador, que foi aplicado as operacoes depois de ser analisado por

um algoritmo de deteccao de fraude existente. Esse modelo de meta-classificador consiste

em tres classificadores: arvore de decisao, rede bayesianas, e k-vizinhos mais proximos.

Os resultados dessa pesquisa mostraram que quando o meta-classificador foi utilizado

em conjunto com o algoritmo de deteccao de fraudes existentes, e possıvel melhorar os

resultados em cerca de 28%.

Caldeira et al. (CALDEIRA et al., 2012) aplicaram tecnicas de inteligencia com-

putacional para detectar fraudes em transacoes eletronicas. As tecnicas utilizadas foram

random forest (RF), RNAs, SVM e sistemas imunologicos artificiais. Dados reais do UOL

Pag-Seguro foram utilizados para fazer a classificacao. Para comparar os modelos, os auto-

res utilizaram o conceito de eficiencia economica. A tecnica que obteve melhores resultados

foi a rede neural. Alem disso, a tecnica apresentou ganhos superiores ao praticado pela

corporacao atualmente. Porem, o trabalho mostra que as classes desbalanceadas, impactam

diretamente a qualidade de predicao.

Kultur e Caglayan (KULTUR; CAGLAYAN, 2017) propuseram o uso de seis

modelos conhecidos, nomeadamente, arvore de decisao, floresta aleatoria, rede bayesiana,

Page 20: UNIVERSIDADE FEDERAL DO SUL E SUDESTE DO PARAcomo CNP (cartao~ nao presente). Como nao ha a assinatura do comprador para validar a compra neste tipo de transac~ao, a responsabilidade

20

Naıve Bayes, maquina de vetor de suporte e modelos K*, para formar um conjunto para

a deteccao de fraude de cartao de credito. Foram utilizados mecanismos de votacao pelo

conjunto, sendo estrategias de votacao otimistas, pessimistas e ponderadas. Os resultados

mostraram que a estrategia de votacao otimista permite a deteccao de 31,59% das transacoes

fraudulentas com uma taxa de falso alarme de apenas 0,10%, a estrategia de votacao

pessimista detecta 93,92% das transacoes fraudulentas com uma taxa de falso alarme de

13,72% e a votacao ponderada detecta 64,02% das transacoes fraudulentas com uma taxa

de falso alarme de 0,75%.

Pozzolo et al. (POZZOLO et al., 2017) citam que detectar fraudes em transacoes

com cartao de credito e talvez um dos melhores testes para algoritmos de inteligencia

computacional. Na verdade, esse problema envolve varios desafios relevantes, a saber: desvio

de conceito (os habitos dos clientes evoluem e os fraudadores mudam suas estrategias ao

longo do tempo), desequilıbrio de classe (transacoes sem fraudes superam em muito as

fraudes) e latencia de verificacao (apenas um pequeno conjunto de transacoes sao verificados

oportunamente pelos investigadores). Em seus experimentos, os autores demonstraram o

impacto do desequilıbrio de classes e do desvio de conceito em um fluxo de dados, os quais

sao requeridos para avaliar a eficacia da estrategia de aprendizagem proposta.

Os trabalhos aqui brevemente descritos sugerem a crescente necessidade de prover

mecanismo que sejam capazes de detectar fraudes em bases desbalanceadas, para que

assim usuarios possam utilizar com seguranca os servicos relacionados com cartoes de

credito. No proximo capıtulo sera abordada em detalhes a metodologia empregada para

tal tarefa nesta pesquisa.

Page 21: UNIVERSIDADE FEDERAL DO SUL E SUDESTE DO PARAcomo CNP (cartao~ nao presente). Como nao ha a assinatura do comprador para validar a compra neste tipo de transac~ao, a responsabilidade

21

3 METODOLOGIA

Neste trabalho sera utilizada uma metodologia baseada em tecnicas de mineracao

de dados e aprendizagem automatica aplicadas a deteccao de fraude, sendo a aprendizagem

dividida em duas grandes categorias da literatura: supervisionada e nao-supervisionada.

Nos metodos supervisionados, modelos sao estimados baseados em amostras de transacoes

legıtimas e fraudulentas, a fim de se classificar novas transacoes em uma dessas duas classes,

contendo uma entrada e uma saıda. Nos metodos nao-supervisionados, a classificacao e

efetuada com base em observacao e descoberta. Nao sao definidas classes, daqui resulta

um conjunto de descricoes de classes, uma para cada classe descoberta no ambiente, isto e,

na base de dados. Ambos os metodos tentam estimar a probabilidade de fraude em uma

dada transacao (BHATTACHARYYA et al., 2011).

Sob esse ponto de vista, a Figura 1 apresenta a metodologia geral que sera utilizada

neste trabalho. Primeiramente, considerando-se uma entrada de dados desbalanceada (com

mais dados de transacoes legıtimas), e entao realizada uma etapa de pre-processamento que

pode contar com o algoritmo de analise de componentes principais (Principal component

analysis - PCA) e possivelmente com uma selecao de caracterısticas, entre outros. Em

seguida, se a abordagem supervisionada for escolhida, deve-se aplicar um pos-processamento

na forma de um balanceamento das classes, para que entao a classificacao binaria seja

executada. Por outro lado, se a abordagem nao-supervisionada for considerada, primeiro

executa-se uma etapa de descoberta de agrupamentos dos dados de transacoes legıtimas

e depois classificam-se novos dados anomalos ou nao. Para mensurar o desempenho de

deteccao de fraude, independentemente da abordagem escolhida, pretende-se medir a

acuracia dos algoritmos na etapa de teste.

Page 22: UNIVERSIDADE FEDERAL DO SUL E SUDESTE DO PARAcomo CNP (cartao~ nao presente). Como nao ha a assinatura do comprador para validar a compra neste tipo de transac~ao, a responsabilidade

22

Figura 1 – Diagrama de fluxo da metodologia geral.

Fonte: Propria (2018).

Nas subsecoes a seguir as etapas da metodologia geral sao descritas com maior

grau de detalhamento, apresentando os algoritmos e procedimentos a serem aplicados em

cada etapa.

3.1 PRE-PROCESSAMENTO

Nesta fase busca-se aprimorar a qualidade dos dados coletados. Frequentemente,

os dados apresentam diversos problemas, tais como grande quantidade de valores desconhe-

cidos, ruıdo (atributos com valores incorretos), atributos de baixo valor preditivo, grande

desproporcao entre o numero de exemplos de cada classe, entre outros.

A etapa de pre-processamento compreende todas as funcoes relacionadas com a

capacitacao, a organizacao e o tratamento de dados (GOLDSCHMIDT; PASSOS, 2017).

Essa etapa tem como objetivo a preparacao dos dados para os algoritmos que serao

aplicados na etapa de mineracao de dados. Tecnicas de pre-processamento e transformacao

de dados sao aplicadas para aumentar a qualidade e o poder de expressao dos dados a

serem minerados.

As principais funcoes de pre-processamento dos dados encontram-se sucintamente

descritas abaixo:

• Limpeza dos Dados: Preenche valores faltantes, suaviza dados ruidosos, identifica ou

Page 23: UNIVERSIDADE FEDERAL DO SUL E SUDESTE DO PARAcomo CNP (cartao~ nao presente). Como nao ha a assinatura do comprador para validar a compra neste tipo de transac~ao, a responsabilidade

23

remove “outliers” e resolve inconsistencias;

• Integracao: Dados de origens diferentes devem ser integrados;

• Transformacao: Normalizacao e agregacao;

• Reducao: Tenta reduzir o volume com pouca alteracao no resultado final;

• Discretizacao: Faz parte do processo de reducao, mas tem papel importante, especi-

almente com dados numericos.

3.1.1 Analise de componentes principais

A PCA e uma tecnica proveniente da Estatıstica para simplificar um conjunto de

dados, ou seja, uma tecnica multivariada de modelagem da estrutura de covariancia. Foi

desenvolvido por Pearson (PEARSON, 1901) e uma descricao de metodos computacionais

praticos veio muito mais tarde com Hottelling (HOTELLING, 1933). O objetivo do metodo

e reduzir a dimensionalidade dos dados multivariados, preservando a maior parte da

informacao relevante possıvel. E uma forma de aprendizagem sem supervisao na medida

em que se baseia inteiramente nos dados de entrada em si sem referencia aos dados alvo

correspondentes no qual o criterio a ser maximizado e a variancia.

A principal ideia da PCA e o de reduzir a dimensionalidade de um conjunto de

dados consistindo de muitas variaveis correlacionadas umas com as outras, quer fortemente

ou ligeiramente, enquanto retendo a variacao presente no conjunto de dados, ate a extensao

maxima. Tal metodo e realizado atraves da transformacao das variaveis para um novo

conjunto de variaveis, que sao conhecidos como os componentes principais e sao ortogonais,

ordenados de modo que a retencao da variancia presente nas variaveis originais diminui a

medida que o espaco e reduzido. Intuitivamente, a PCA pode fornecer ao usuario uma

imagem de menor dimensao, uma projecao ou “sombra” desse objeto quando visto a partir

do ponto de vista mais informativo.

A PCA e a tecnica mais conhecida e esta associada a ideia de reducao de massa

de dados, com menor perda possıvel da informacao, contudo e importante ter uma visao

conjunta de todas ou quase todas as tecnicas da estatıstica multivariada para resolver a

maioria dos problemas praticos. Procura-se redistribuir a variacao observada nos eixos

originais de forma a se obter um conjunto de eixos ortogonais nao correlacionados (MANLY;

ALBERTO, 2016) (HONGYU, 2015). A reducao de dados significa sumarizar os dados que

contem muitas variaveis por um conjunto menor de variaveis derivadas a partir do conjunto

original. Sendo assim consiste em transformar um conjunto de variaveis originais em

outro conjunto de variaveis de mesma (ou menor) dimensao denominadas de componentes

principais.

Page 24: UNIVERSIDADE FEDERAL DO SUL E SUDESTE DO PARAcomo CNP (cartao~ nao presente). Como nao ha a assinatura do comprador para validar a compra neste tipo de transac~ao, a responsabilidade

24

Para efeito de esclarecimento, a tecnica PCA permite manter a informacao integral

dos dados ao mesmo tempo que retira sua interpretabilidade. No caso deste estudo, a tecnica

PCA foi utilizada para manter o sigilo das informacoes bancarias de cada cliente, ou seja,

informacoes sensıveis do cliente sao transformadas/codificadas na forma de componentes

principais que podem garantir a retencao de informacoes relevantes sem perder o sigilo.

3.2 APRENDIZAGEM SUPERVISIONADA E NAO-SUPERVISIONADA

A aprendizagem automatica pode ser definida como a area que pesquisa, estuda

e propoe um conjunto de tecnicas para, automaticamente, detectar padroes em dados e

utilizar esses padroes descobertos para predizer acontecimentos futuros, ou ate mesmo

para realizar outros tipos de tomada de decisao relacionados a eventos nao determinısticos

(ROBERT, 2014). Como visto anteriormente, e possıvel segmentar os algoritmos estudados

em aprendizagem automatica supervisionada e nao-supervisionada.

Os algoritmos supervisionados utilizam a tecnica na qual o algoritmo (indutor)

recebe um conjunto de dados (exemplos de treinamento) com o objetivo de realizar

previsoes. Cada exemplo usado para treinamento e rotulado com o valor de seu interesse.

No aprendizado supervisionado, quando se e treinado o algoritmo, utiliza-se um

conjunto de dados que ja sao mapeados para categorias desejadas. O algoritmo devera

ter a capacidade de verificar o resultado previsto e o resultado esperado e, conforme a

diferenca de resultados, ajustar seus parametros internos ate obter o resultado esperado.

Neste tipo de aprendizado, cada exemplo de treinamento e descrito por um

conjunto de atributos que servem como dados de entrada, geralmente como forma de vetor,

que sao associados a um valor de saıda, tambem chamado de sinal de controle. A partir de

um conjunto de entradas e saıdas, o algoritmo que produz uma funcao de transferencia

capaz de gerar uma saıda adequada a partir de uma nova entrada. Assim o aprendizado

supervisionado e a tecnica mais comum para treinamento.

No aprendizado nao-supervisionado, os pontos de dados nao tem rotulos associados

a eles. Em vez disso, a meta de um algoritmo de aprendizado sem supervisao e organizar

os dados de alguma forma ou descrever sua estrutura. Isso pode significar agrupa-los em

clusters ou encontrar diferentes maneiras de consultar dados complexos para que eles

parecam mais simples ou mais organizados. Com isso, e possıvel descobrir similaridades e

diferencas entre os padroes existentes, assim como inferir conclusoes uteis a respeito deles.

A clusterizacao e uma tecnica que atraves de metodos numericos e a partir somente

das informacoes das variaveis de cada caso, tem por objetivo agrupar automaticamente

por aprendizado nao supervisionado os n casos da base de dados em k grupos, geralmente

disjuntos, denominados clusters ou agrupamentos (VALE, 2005). A clusterizacao e o

processo de agrupar um conjunto de objetos fısicos ou abstratos em classes de objetos

Page 25: UNIVERSIDADE FEDERAL DO SUL E SUDESTE DO PARAcomo CNP (cartao~ nao presente). Como nao ha a assinatura do comprador para validar a compra neste tipo de transac~ao, a responsabilidade

25

similares. Um cluster e uma colecao de objetos que sao similares uns aos outros (de acordo

com algum criterio de similaridade pre-definido) e dissimilares a objetos pertencentes a

outros clusters. A vantagem do uso das tecnicas de clusterizacao e que, ao agrupar dados

similares, pode-se descrever de forma mais eficaz as caracterısticas peculiares de cada um

dos grupos identificados.

A area de deteccao de outliers (ou deteccao de anomalias) possui um papel

fundamental na descoberta de padroes em dados que podem ser considerados excepcionais

sob alguma perspectiva. Detectar tais padroes e relevante de maneira geral porque, em

muitas aplicacoes de mineracao de dados, tais padroes representam comportamentos

extraordinarios que merecem uma atencao especial.

O objetivo a ser alcancado com os algoritmos supervisionados ou nao-supervisionados

e a deteccao ou classificacao de fraudes com maior acuracia. Para atingir este objetivo de

forma supervisionada serao utilizados os algoritmos baseados em RNAs, SVM e random

forest (RF). De forma nao-supervisionada, e para a etapa de clusterizacao, sao utilizados os

algoritmos k-means e modelos de misturas Gaussianas (Gaussian mixture models - GMMs).

Todos esses algoritmos sao descritos brevemente a seguir, uma vez que a literatura da area

citada neste trabalho ja os detalhou suficientemente bem.

3.3 ALGORITMOS SUPERVISIONADOS

Atualmente existem varios metodos para a deteccao de fraudes em cartoes de

credito, cada um utiliza uma tecnica diferente para determinar a funcao de aprendizado e

adequando-se melhor de acordo com o tipo de problema. Neste trabalho, serao abordados

tres metodos: SVM, RF e RNAs.

As tecnicas de deteccao supervisionadas citadas recebem os dados ja processados,

passando para a etapa de balanceamento como descrito anteriormente na Figura 1, com a

geracao de dados. Em seguida, atraves da divisao de conjuntos de dados para as etapas

de treinamento e teste, e possıvel obter o desempenho de classificacao de um algoritmo

supervisionado nessas etapas, conforme ilustra a Figura 2.

Page 26: UNIVERSIDADE FEDERAL DO SUL E SUDESTE DO PARAcomo CNP (cartao~ nao presente). Como nao ha a assinatura do comprador para validar a compra neste tipo de transac~ao, a responsabilidade

26

Figura 2 – Diagrama de fluxo da abordagem supervisionada.

Fonte: Propria (2018).

3.3.1 Maquinas de vetores de suporte

As SVM constituem uma tecnica de aprendizagem supervisionada que vem re-

cebendo crescente atencao da comunidade de aprendizagem automatica (MICHALSKI;

CARBONELL; MITCHELL, 2013). A teoria sobre SVM foi proposta inicialmente por

Vapnik (VAPNIK, 1963), como um metodo eficiente para a identificacao de padroes.

Este algoritmo possui muitas vantagens na resolucao de problemas com poucas amos-

tras, nao-lineares e com um grande numero de dimensoes. Sao embasadas pela teoria de

aprendizado estatıstico, estabelecendo uma serie de princıpios que devem ser seguidos na

obtencao de classificadores com boa generalizacao, definida como a sua capacidade de

prever corretamente a classe de novos dados do mesmo domınio em que o aprendizado

ocorreu.

Tal algoritmo e principalmente baseado nas seguintes consideracoes:

• Maximizar a distancia entre classes (encontrar o hiperplano de classificacao otimo)

para realizar o controle e dimensao, que pode ser garantido por um teorema da

estatıstica;

• Utilizar funcoes de kernel para trabalhar num espaco de maior dimensao (projetado),

porem linear. (YONG-FENG; YAN-PING, 2004).

As SVM sao baseadas no conceito de planos de decisao que definem limites de

decisao. Um plano de decisao e aquele que separa um conjunto de objetos com diferentes

associacoes de classe. Um exemplo esquematico e mostrado na Figura 3. Nesse exemplo,

os objetos pertencem a classe verde ou vermelha. A linha de separacao define um limite

no lado direito do qual todos os objetos sao verdes e a esquerda para objetos vermelhos.

Qualquer novo objeto que tenda para a direita e rotulado, ou seja, classificado, como verde

ou classificado como vermelho se tender para a esquerda da linha separadora.

Page 27: UNIVERSIDADE FEDERAL DO SUL E SUDESTE DO PARAcomo CNP (cartao~ nao presente). Como nao ha a assinatura do comprador para validar a compra neste tipo de transac~ao, a responsabilidade

27

Figura 3 – Linha de separacao (classificador linear).

Fonte: (STATSOFT, 2018).

O exemplo acima e classico de um classificador linear, ou seja, um classificador

que separa um conjunto de objetos em seus respectivos grupos (verde e vermelho neste

caso) com uma linha. A maioria das tarefas de classificacao, no entanto, nao e tao simples,

e muitas vezes sao necessarias estruturas mais complexas para fazer uma separacao ideal,

ou seja, classificar corretamente novos objetos (casos de teste) com base nos exemplos

disponıveis (casos de treino). Essa situacao e descrita na Figura 4. Comparado com o

esquema anterior, e claro que uma separacao completa dos objetos verde e vermelho exigiria

uma curva. As tarefas de classificacao baseadas em linhas de separacao para distinguir

entre objetos de diferentes classes sao conhecidas como classificadores de hiperplanos.

Figura 4 – Curva de separacao (classificador nao-linear).

Fonte: (STATSOFT, 2018).

Um hiperplano e uma linha que divide o espaco variavel de entrada. Na SVM,

um hiperplano e selecionado para melhor separar os pontos no espaco de entrada por sua

classe.

Page 28: UNIVERSIDADE FEDERAL DO SUL E SUDESTE DO PARAcomo CNP (cartao~ nao presente). Como nao ha a assinatura do comprador para validar a compra neste tipo de transac~ao, a responsabilidade

28

A Figura 5 mostra a ideia basica da SVM. E possıvel observar os objetos originais

(lado esquerdo do esquema) mapeados, ou seja, rearranjados, usando um conjunto de

funcoes matematicas, conhecidas como kernels. O processo de rearranjo dos objetos e

conhecido como mapeamento (transformacao). Nota-se que nesta nova configuracao, os

objetos mapeados (lado direito do esquema) sao linearmente separaveis. Entao, a operacao

do algoritmo SVM baseia-se na busca do hiperplano que estima a maior distancia entre os

exemplos de treinamento de classes diferentes.

Figura 5 – Ideia basica da SVM.

Fonte: (STATSOFT, 2018).

3.3.2 Random forest

O RF e um algoritmo classificador que faz uso das arvores de decisao, criado por

Breiman (BREIMAN, 2001) possibilitando a mineracao dos dados. Essa tecnica possui

uma ideia um pouco diferente dos algoritmos de arvores de decisao, famılia a qual pertence.

Enquanto uma arvore possui o objetivo de construcao total de uma estrutura a partir de

uma base de dados, o RF tem o objetivo de efetuar a criacao de varias arvores de decisao

usando um subconjunto de atributos selecionados aleatoriamente a partir do conjunto

original, contendo todos os atributos e que esses possuem um tipo de amostragem chamado

de bootstrap com reposicao, possibilitando assim melhor analise dos dados (NETO et al.,

2013).

Apos a criacao dos conjuntos de arvores e possıvel efetuar a classificacao de qual

possui melhor ganho de conhecimento para a solucao de determinado problema, para isto

e necessario escolher um subconjunto de arvores de decisao que possui melhor logica e

vantagens para a tomada de decisao. Para cada subconjunto e dado um voto sobre qual

classe o atributo chave deve pertencer, esse voto possui um “peso” onde o mesmo e afetado

pela igualdade entre as arvores, sendo que quanto menor a similaridade entre duas arvores,

melhor e pela forca que cada arvore tem individualmente, ou seja, quanto mais precisa

uma arvore for, melhor sera sua nota (NETO et al., 2013).

RFs, conforme verificado anteriormente, possuem a caracterıstica de dividir-

Page 29: UNIVERSIDADE FEDERAL DO SUL E SUDESTE DO PARAcomo CNP (cartao~ nao presente). Como nao ha a assinatura do comprador para validar a compra neste tipo de transac~ao, a responsabilidade

29

para–conquistar, e isto possibilita algumas caracterısticas que se destacam referentes as

outras tecnicas, algumas delas sao:

• Algoritmo mais poderoso quando comparado somente a uma arvore de decisao;

• Possui boa taxa de acerto quando testado em diferentes conjuntos de dados;

• Menos sensıveis a ruıdos;

• Classificacao aleatoria das arvores sem intervencao humana.

A seguir e sintetizado o funcionamento do metodo de classificacao RF atraves da

Figura 6.

Figura 6 – Ilustracao da logica por tras do algoritmo RF.

Fonte: (LEE, 2017).

Na figura 6 e possıvel verificar que partindo de um elemento X, no caso uma

base de dados, gerou-se varias RFs, neste ponto cada uma gera varias regras e nelas a

possibilidade de descoberta de novos padroes que poderao ser decisivos na tomada de

decisao correta. Com as florestas criadas o proximo passo e calcular qual delas contem as

regras mais exatas para a mineracao. Com a escolha feita, sao entao aplicadas as regras a

base de dados e assim chegando a um resultado Y.

3.3.3 Redes neurais artificiais

Uma RNA (ou simplesmente uma rede neural ou rede) e um modelo computacional

biologicamente inspirado, constituıdo por elementos de processamento simples (neuronios

artificiais) que aplicam uma determinada funcao matematica aos dados (funcao de ativacao)

gerando uma unica resposta, sao dispostos em camadas e ligados entre si, sendo essas

conexoes, geralmente, associadas a coeficientes denominados de pesos e que adquirem

conhecimento atraves da experiencia. Uma grande RNA pode ter centenas ou milhares

Page 30: UNIVERSIDADE FEDERAL DO SUL E SUDESTE DO PARAcomo CNP (cartao~ nao presente). Como nao ha a assinatura do comprador para validar a compra neste tipo de transac~ao, a responsabilidade

30

de unidades de processamento, ja o cerebro de um mamıfero pode ter muitos bilhoes de

neuronios. Uma RNA e uma tecnologia que imita o funcionamento de um cerebro humano

de forma que computadores possam aprender e tomar decisoes de forma semelhante a dos

humanos. Essas redes podem entao aprender a partir da experiencia, forma semelhante

utilizada pelos seres humanos (SANDRI, 2016).

O sistema nervoso e formado por um conjunto bem complexo de celulas, os

neuronios, como ilustrado na Figura 7. Eles tem um papel ativo na determinacao do

funcionamento e comportamento do corpo humano e do raciocınio. Os neuronios sao

formados pelos dendritos, que sao um conjunto de terminais de entrada, pelo corpo central,

e pelos axonios que sao longos terminais de saıda (CARVALHO, 2009).

Figura 7 – Constituintes da celula neuronal.

Fonte: (CARPINO, 2018).

Combinando diversos neuronios computacionais, forma-se uma RNA. As RNAs

sao modelos que buscam simular o processamento de informacao do cerebro humano. Sao

compostas por unidades de processamentos simples, os neuronios, que se unem por meio de

conexoes sinapticas. De uma forma simplificada, uma RNA pode ser vista como um grafo

onde os nos sao os neuronios e as ligacoes fazem a funcao das sinapses, como exemplificado

na Figura 8.

Page 31: UNIVERSIDADE FEDERAL DO SUL E SUDESTE DO PARAcomo CNP (cartao~ nao presente). Como nao ha a assinatura do comprador para validar a compra neste tipo de transac~ao, a responsabilidade

31

Figura 8 – Representacao simplificada de uma rede neural artificial.

Fonte: (FERNEDA, 2006).

As RNAs se diferenciam pela sua arquitetura e pela forma como os pesos associados

as conexoes sao ajustados durante o processo de aprendizado. A arquitetura de uma rede

neural restringe o tipo de problema no qual a rede podera ser utilizada, e e definida pelo

numero de camadas (camada unica ou multiplas camadas), pelo numero de nos em cada

camada, pelo tipo de conexao entre os nos (feedback) e por sua topologia (HAYKIN, 2007).

As RNAs sao comumente utilizadas na resolucao de problemas complexos, onde

o comportamento das variaveis nao e rigorosamente conhecido. Uma de suas principais

caracterısticas e a capacidade de aprender por meio de exemplos e de generalizar a

informacao aprendida, gerando um modelo nao-linear, tornando sua aplicacao bastante

eficiente (SPORL; CASTRO; LUCHIARI, 2011).

Em termos de topologia, para implementar uma RNA deve-se definir diferentes

variaveis, dentre as quais: a) o numero de nos na camada de entrada (tal variavel corresponde

ao numero de variaveis que serao usadas para alimentar a rede neural, sendo normalmente

as variaveis de maior importancia para o problema em estudo), b) o numero de camadas

escondidas e o numero de neuronios a serem colocados nessas camadas e, c) o numero de

neuronios na camada de saıda (SANTOS et al., 2005).

Uma das propriedades mais importantes de uma RNA e a capacidade de apren-

der por intermedio de exemplos e fazer inferencias sobre o que aprendeu, melhorando

gradativamente o seu desempenho. As redes neurais utilizam um algoritmo de aprendiza-

gem/otimizacao para ajustar os pesos de suas conexoes (BRAGA et al., 2000).

O ajuste dos pesos e realizado por um processo chamado treinamento ou aprendi-

zado, sendo responsavel pela extracao das caracterısticas dos dados e armazenamento de

conhecimento da rede. A aplicacao de uma RNA consiste no processo de generalizacao,

i.e., uma rede treinada dar respostas para dados ineditos (BRAGA et al., 2000).

Page 32: UNIVERSIDADE FEDERAL DO SUL E SUDESTE DO PARAcomo CNP (cartao~ nao presente). Como nao ha a assinatura do comprador para validar a compra neste tipo de transac~ao, a responsabilidade

32

3.4 ALGORITMOS NAO-SUPERVISIONADOS

No aprendizado nao-supervisionado, tambem conhecido por aprendizado por

observacao e descoberta, a tarefa do algoritmo e agrupar exemplos que nao possuem o

atributo classe especıfico. Nesse caso, e possıvel utilizar algoritmos de aprendizado para

descobrir padroes nos dados a partir de alguma caracterizacao de regularidade. Neste

trabalho serao abordados dois metodos de clusterizacao: k-means e GMM.

Nesta etapa de metodos nao-supervisionados, os algoritmos propostos vao ter

dados ja processados como entrada, atraves da fase de pre-processamento, como citado no

diagrama da metodologia geral (Figura 1). Em seguida, a fase de treinamento e realizada

apenas com dados normais (isto e, sem fraude), conforme Figura 9. Ainda com o uso de

dados normais, o limiar de classificacao e automaticamente estimado. Na fase de teste,

novos dados serao classificados por intermedio do limiar previamente definido; exemplos

que ficam abaixo do limiar sao considerados sem fraude e exemplos que ficam acima

do limiar sao considerados fraudes. Finalmente, com o objetivo de determinar o melhor

algoritmo aplicado a este problema, a acuracia nos dados de teste e mensurada.

Figura 9 – Diagrama de fluxo da abordagem nao-supervisionada.

Fonte: Propria (2018).

3.4.1 k-means

Proposto por MacQueen (MACQUEEN et al., 1967), o algoritmo k-means e um

dos mais conhecidos e utilizados, alem de ser o que possui o maior numero de variacoes. O

algoritmo inicia com a escolha de k elementos que formaram as sementes iniciais.

Para Prass (PRASS F., 2013), essa escolha pode ser feita de muitas formas, entre

elas:

• selecionando as k primeiras observacoes;

• selecionando k observacoes aleatoriamente;

Page 33: UNIVERSIDADE FEDERAL DO SUL E SUDESTE DO PARAcomo CNP (cartao~ nao presente). Como nao ha a assinatura do comprador para validar a compra neste tipo de transac~ao, a responsabilidade

33

• escolhendo k observacoes de modo que seus valores sejam bastante diferentes.

A ideia do algoritmo k-means e fornecer uma classificacao de informacoes de

acordo com os proprios dados. Essa classificacao e baseada em analise e comparacoes entre

os valores numericos dos dados. Dessa maneira, o algoritmo automaticamente vai fornecer

uma classificacao automatica sem a necessidade de nenhuma supervisao humana, ou seja,

sem nenhuma pre-classificacao existente.

O k de k-means, e a quantidade de centroides (pontos centrais dos grupos) que

serao criados e favorecerao a estimacao de similaridade dos dados. Uma das formas de

iniciar o processo e o algoritmo inserir os k pontos iniciais de forma aleatoria no plano.

Para gerar as classes e classificar as ocorrencias, o algoritmo faz uma comparacao

entre cada valor das ocorrencias por meio da distancia. Geralmente utiliza-se a distancia

Euclidiana para calcular o quao longe uma ocorrencia esta da outra. A maneira de calcular

essa distancia vai depender da quantidade de atributos fornecidos. A escolha da metrica de

distancia tem grande impacto no resultado final: grupos descobertos. Apos o calculo das

distancias o algoritmo calcula centroides para cada uma das classes. Conforme o algoritmo

vai iterando, o valor de cada centroide e refinado pela media dos valores de cada atributo de

cada ocorrencia que pertence ao referido centroide. Com isso, o algoritmo gera k centroides

e coloca as ocorrencias conforme sua distancia dos centroides.

Segundo Carpi (CARPI, 2010), o funcionamento do algoritmo k-means pode ser

descrito pelos seguintes cinco passos:

• Fornecer valores para os centroides.

• Gerar uma matriz de distancia entre cada ponto e os centroides;

• Colocar cada ponto nas classes de acordo com a sua distancia do centroide da classe;

• Calcular os novos centroides para cada classe;

• Repetir ate a convergencia.

A Figura 10 demonstra o funcionamento desse algoritmo.

Page 34: UNIVERSIDADE FEDERAL DO SUL E SUDESTE DO PARAcomo CNP (cartao~ nao presente). Como nao ha a assinatura do comprador para validar a compra neste tipo de transac~ao, a responsabilidade

34

Figura 10 – Passos de aplicacao do algoritmo k-means.

Fonte: (PIECH, 2013).

Nota-se que dessa maneira se tem uma classificacao que coloca cada ponto em

apenas uma classe. Assim, se uma nova observacao for incluıda, o algoritmo podera

classifica-la em um dos grupos descobertos na etapa de treinamento.

3.4.2 Modelo de misturas Gaussianas (GMMs)

Os GMMs sao modelos probabilısticos para representar subpopulacoes normal-

mente distribuıdas dentro de uma populacao geral. Os modelos de mistura em geral nao

exigem saber a qual subpopulacao pertence uma observacao permitindo que o modelo

aprenda as subpopulacoes de forma automatica (MCLACHLAN; PEEL, 2000).

Embora, em geral um GMM possa ter mais de dois componentes, um GMM e

uma funcao de densidade de probabilidade parametrica representada como uma soma

ponderada de gaussianas de densidades dos componentes (REYNOLDS, 1993).

Os GMMs sao frequentemente utilizados para o agrupamento de dados. Normal-

mente, o algoritmo atribui as observacoes aos componentes normais multivariados que

maximizam a probabilidade posterior do componente.

Um GMM e parametrizado por dois tipos de valores, os pesos dos componentes

da mistura e a matriz de covariancia do componente. Para um GMM com componentes,

o componente tem uma media e variancia para o caso univariado e uma media e matriz

de covariancia para o caso multivariado. Se o numero de componentes for conhecido, o

algoritmo interativo de expectativa-maximizacao (EM) e a tecnica mais utilizada para

estimar os parametros do GMM (DEMPSTER; LAIRD; RUBIN, 1977).

Este algoritmo consiste em duas etapas principais: uma etapa de expectativa

Page 35: UNIVERSIDADE FEDERAL DO SUL E SUDESTE DO PARAcomo CNP (cartao~ nao presente). Como nao ha a assinatura do comprador para validar a compra neste tipo de transac~ao, a responsabilidade

35

(etapa E), seguida por uma etapa de maximizacao (etapa M). A etapa de expectativa

e com respeito as variaveis desconhecidas, usando a estimativa atual dos parametros e

condicionadas as observacoes. A etapa de maximizacao produz entao uma nova estimativa

dos parametros, sendo que o algoritmo e iterado ate que a estimativa do parametro tenha

convergido, ou seja, quando nao ha mais alteracoes na estimativa (PAULA, 2013).

Dado um GMM, o objetivo do EM e maximizar a funcao de verossimilhanca em

relacao aos parametros compreendendo os pesos, as medias e as matrizes de covariancia de

cada componente (MCLACHLAN; PEEL, 2000).

3.5 DETECCAO DE ANOMALIAS

No contexto de deteccao nao-supervisionada, um outlier pode ser descrito como

um fato que desvia tanto de outros fatos a ponto de gerar suspeitas de que foi gerado por

um mecanismo diferente (HAWKINS, 1980). A deteccao de anomalias oferece um metodo

estatıstico para determinar como uma determinada metrica foi alterada com relacao aos

dados anteriores.

Uma tarefa que possui um papel fundamental na descoberta de padroes e a

deteccao de outliers. Conseguir determinar se uma dada instancia e apenas um ruıdo que se

deseja eliminar em uma etapa de pre-processamento, ou se essa mesma instancia possui um

padrao nunca analisado antes, o qual possa representar um comportamento extraordinario

e, portanto, passıvel de estudo e atencao especial, e uma tarefa relevante para a area de

mineracao de dados. Por exemplo, detectar tais padroes pode estar associado a deteccao

de fraudes de cartoes de credito, onde o comportamento de compras de alguem que nao e

o proprietario de um cartao de credito e provavelmente diferente daquele do proprietario

do cartao.

Os algoritmos para deteccao de outliers propostos inicialmente tinham como

objetivo encontrar anomalias em um contexto global (RAMASWAMY; RASTOGI; SHIM,

2000), em que todas as instancias sao tratadas da mesma forma, independente da regiao

do espaco de atributos em que se encontram, o que em muitos casos pode gerar problemas

na presenca de outliers em regioes do espaco com diferentes densidades de dados. Para

contornar tal situacao, algoritmos de deteccao local de outliers foram desenvolvidos a

partir do trabalho pioneiro de Breunig et al. (BREUNIG et al., 2000). Existe, portanto,

uma distincao entre algoritmos de deteccao global e local de anomalias no que diz respeito

ao escopo da base de dados em busca do score de outlier para cada observacao. Os

primeiros assumem que apenas um mecanismo gerou todos os dados, nao importando a

localizacao do ponto que esta sendo observado em questao. Ja algoritmos de deteccao local

consideram que nao ha um numero exato de mecanismos que geraram os dados, analisando

o comportamento da vizinhanca ao redor de um ponto.

A Figura 11 ilustra um exemplo de deteccao de anomalias. Primeiramente, se tem

Page 36: UNIVERSIDADE FEDERAL DO SUL E SUDESTE DO PARAcomo CNP (cartao~ nao presente). Como nao ha a assinatura do comprador para validar a compra neste tipo de transac~ao, a responsabilidade

36

um limiar de classificacao, sendo que os dados que ficam abaixo do limiar (ou threshold)

sao considerados casos normais, enquanto que os dados que ficam acima deste limiar sao

assumidos como casos anormais (outliers). Nota-se entao, atraves das cores originais, que

os dados no intervalo de 1–450 sao todos normais e que os dados no intervalo 451–1250

sao todos anormais. Entretanto, o algoritmos de deteccao de anomalias nao realizou uma

classificacao perfeita, observando-se erros em ambos intervalos. Os erros no intervalo

1–450 sao considerados erros falso-positivos, i.e., observacoes normais que sao classificadas

como anormais. Os erros no intervalo 451–1250 sao considerados erros falso-negativos, i.e.,

observacoes anormais que sao classificadas como normais. Em casos gerais, a definicao do

limiar e realizada pressupondo-se um grau de confianca de 95% nos dados normais, ou

seja, dentro do intervalo de dados normais (neste exemplo 1–450) 5% de erro deve-se a

estimativa do limiar, e o restante (se houver) deve-se a capacidade de generalizacao do

algoritmo de deteccao de anomalias.

Figura 11 – Deteccao de anomalias.

1 450 1250

5

10

15

20

25

Test number

DI

BC (Test)

DC

Outliers

Threshold

Fonte: (Propria, 2018).

Page 37: UNIVERSIDADE FEDERAL DO SUL E SUDESTE DO PARAcomo CNP (cartao~ nao presente). Como nao ha a assinatura do comprador para validar a compra neste tipo de transac~ao, a responsabilidade

37

4 RESULTADOS

Os capıtulos anteriores permitiram uma detalhada compreensao dos conceitos abor-

dados neste trabalho. As fraudes em transacoes com cartao de credito foram amplamente

discutidas, juntamente com toda a metodologia adotada.

Esta etapa consiste na avaliacao dos resultados quando da aplicacao das tecnicas

de aprendizagem automatica nos dados. Para isso, conforme mostrado no capıtulo 4, sao

utilizadas metricas para indicar a qualidade dos resultados obtidos pelas diversas tecnicas.

A execucao dos algoritmos foi feita considerando a metodologia de avaliacao proposta e

ilustrada pela Figura 1.

4.1 Balanceamento dos dados

A base de dados utilizada consiste em transacoes efetuadas por cartoes de credito

em setembro de 2013 por portadores de cartaos europeus. O conjunto de dados foi coletado

e analisado durante uma colaboracao de pesquisa da Worldline e do Machine Learning

Group da ULB (Universite Libre de Bruxelles) sobre mineracao de dados e deteccao de

fraudes. Esses dados apresentam transacoes que ocorreram em dois dias, onde temos 492

fraudes de um total de 284.807 transacoes. O conjunto de dados e altamente desequilibrado,

a classe positiva (fraudes) representa apenas 0,172% de todas as transacoes.

Os dados apresentam apenas variaveis numericas que sao resultantes de uma

transformacao via PCA. Devido a problemas de confidencialidade, nao e possıvel fornecer as

variaveis originais e mais informacoes basica sobre os dados. As variaveis ou caracterısticas

V1, V2, ... V28 sao os componentes principais obtidos com o PCA. As unicas variaveis que

nao foram transformados com o PCA sao “Tempo” e “Valor”. A variavel “Tempo” contem

os segundos decorridos entre cada transacao e a primeira transacao no conjunto de dados.

A variavel “Valor” e o montante da transacao. “Classe” e a variavel de resposta e lhe e

atribuıda o valor 1 em caso de fraude e 0 caso contrario. As variaveis “Tempo” e “Valor”

nao foram utilizadas neste estudo.

Muitos algoritmos tem sua performance prejudicada quando o numero de obser-

vacoes por classe difere abruptamente, como e o caso da base de dados utilizada nesta

pesquisa. De forma a minimizar esse efeito indesejado, ou seja, igualar a quantidade de

observacoes das classes sem fraude e fraude, novos dados foram gerados para a classe

anomala. Para essa geracao de dados foi utilizado o sistema Pearson (MATHWORKS,

1994-2018). Tal sistema inclui uma distribuicao de probabilidade unica correspondente a

todas as combinacoes validas de media, desvio padrao, assimetria e curtose (momentos

estatısticos). Assim, torna-se possıvel gerar novas observacoes pseudo-aleatorias a partir

da estimativa dos quatro primeiros momentos estatısticos para cada variavel da parte do

conjunto de dados com fraude.

Page 38: UNIVERSIDADE FEDERAL DO SUL E SUDESTE DO PARAcomo CNP (cartao~ nao presente). Como nao ha a assinatura do comprador para validar a compra neste tipo de transac~ao, a responsabilidade

38

Sendo assim as amostras ficaram balanceadas em 284.315 para cada classe. Para

poder serem feitas as avaliacoes de treino e teste para os algoritmos supervisionados foram

divididas as classes pela metade cada, sendo utilizados 50% de amostras sem fraudes e

50% de amostras com fraudes para treino e teste de modo disjunto, isto e, nao se tem

nenhuma amostra em comum.

Ja de modo nao-supervisionado as avaliacoes foram realizadas com o treino dos

algoritmos somente com 50% dos dados sem fraudes e de forma disjunta para teste os 50%

dos dados sem fraudes mais 100% de dados com fraudes.

E importante destacar que objetiva-se comparar abordagens supervisionadas e

nao-supervisionadas, logo os experimentos foram conduzidos apenas com a base balanceada

de forma a garantir um comparativo igualitario entre as referidas abordagens.

4.2 Analise dos resultados

Esta secao apresenta os resultados dos experimentos comparando acuracia dos

algoritmos supervisionados (RF, RNA e SVM) e dos nao-supervisionados (k-means e

GMM) quando aplicados nos dados de treinamento e teste. Essa fase dos experimentos

consiste na aplicacao da etapa da metodologia, conforme apresentada nas secoes 4.3 e 4.4.

Cada algoritmo utiliza uma forma ou representacao para descrever a hipotese

induzida. Por exemplo, RNA representa uma hipotese por um conjunto de valores reais,

associados aos pesos de suas conexoes da rede. A RF, por precisar alternar as amostras

durante o treinamento precisam de uma quantidade consideravel de dados para apresentar

resultados competitivos, mas, geralmente, o aumento da quantidade de dados melhora seu

desempenho de predicao. As SVMs possuem um tempo de treinamento mais lento que os

anteriores, mas seu processo de predicao tambem e rapido o suficiente para ser utilizado

em problemas de processamento de tempo real.

Uma RF e um meta estimador que se ajusta a varios classificadores de arvore

de decisao em varias sub amostras do conjunto de dados e usa a media para melhorar a

precisao preditiva e controlar o ajuste excessivo. Os parametros basicos para o classificador

do random forest podem ser o numero total de arvores a serem geradas e os parametros

relacionados a arvore de decisao, como divisao mınima, criterios de divisao, etc. Os

parametros utilizados para cada avaliacao estao descritos na Tabela 1. Cada RF foi

configurada com 10 arvores, sendo a profundidade dessas arvores alterada durante as

avaliacoes.

Page 39: UNIVERSIDADE FEDERAL DO SUL E SUDESTE DO PARAcomo CNP (cartao~ nao presente). Como nao ha a assinatura do comprador para validar a compra neste tipo de transac~ao, a responsabilidade

39

Tabela 1 – Parametros utilizados para cada teste do RF.

RFAvaliacao Parametros

1o (max depth=2, random state=0, verbose=True)2o (max depth=4, random state=0, verbose=True)3o (max depth=6, random state=0, verbose=True)4o (max depth=8, random state=0, verbose=True)5o (max depth=10, random state=0, verbose=True)6o (max depth=20, random state=0, verbose=True)7o (max depth=25, random state=0, verbose=True)8o (max depth=30, random state=0, verbose=True9o (max depth=40, random state=0, verbose=True)10o (max depth=50, random state=0, verbose=True)

Na Tabela 2, por sua vez, sao apresentados os principais parametros da RNA,

sendo que o numero de neuronios e o numero de camadas escondidas foram alterados

durante as execucoes.

Page 40: UNIVERSIDADE FEDERAL DO SUL E SUDESTE DO PARAcomo CNP (cartao~ nao presente). Como nao ha a assinatura do comprador para validar a compra neste tipo de transac~ao, a responsabilidade

40

Tabela 2 – Parametros utilizados para cada teste da RNA.

RNAAvaliacao Parametros

1o (hidden layer sizes=(50,), verbose=True, random state=0)2o (hidden layer sizes=(20, 20, 10 ), verbose=True, random state=0)3o hidden layer sizes=(30, 20, ), verbose=True, random state=0)4o (hidden layer sizes=(15, 15, 10, 10, ), verbose=True, random state=0)5o (hidden layer sizes=(15, 15, 20, ), verbose=True, random state=0)6o (hidden layer sizes=(30, 10, 10, ), verbose=True, random state=0)7o (hidden layer sizes=(10, 10, 10, 20, ), verbose=True, random state=0)8o (hidden layer sizes=(10, 10, 10, 10, 10, ), verbose=True, random state=0)9o (hidden layer sizes=(25, 25, ), verbose=True, random state=0)10o (hidden layer sizes=(25, 15, 10, ), verbose=True, random state=0)

Na Tabela 3 a variacao de parametros para o SVM e descrita. Nesse caso, o

termo de penalidade C e o numero maximo de iteracoes do algoritmo de otimizacao sao as

configuracoes que foram alteradas ao longo das avaliacoes.

Page 41: UNIVERSIDADE FEDERAL DO SUL E SUDESTE DO PARAcomo CNP (cartao~ nao presente). Como nao ha a assinatura do comprador para validar a compra neste tipo de transac~ao, a responsabilidade

41

Tabela 3 – Parametros utilizados para cada teste do SVM.

SVMAvaliacao Parametros

1o (C=1, random state=0, max iter=200, verbose=True)2o (C=1, random state=0, max iter=300, verbose=True)3o (C=1, random state=0, max iter=400, verbose=True)4o (C=2, random state=0, max iter=500, verbose=True)5o (C=5, random state=0, max iter=500, verbose=True)6o (C=5, random state=0, max iter=600, verbose=True)7o (C=5, random state=0, max iter=700, verbose=True)8o (C=5, random state=0, max iter=900, verbose=True)9o (C=1, random state=0, max iter=1000, verbose=True)10o (C=5, random state=0, max iter=1000, verbose=True)

Para os algoritmos nao-supervisionados, foram utilizados metodos automaticos de

selecao do numero de clusters. Ao trabalhar com o k-means, utilizou-se o ındice Calinski-

Harabasz (CH) (CALINSKI; HARABASZ, 1974), o qual gerou um total de 14 clusters.

Ja o GMM que assume uma distribuicao gaussiana (multivariada), usando Bayesian

Information Criterion (BIC) (BOX; JENKINS; REINSEL, 2008) apresentou 13 clusters.

Foram realizadas 10 simulacoes para cada abordagem supervisionada, como mostra

a Tabela 4, no qual estao destacadas em negrito as consideradas melhores acuracias

em relacao a treino e teste de cada algoritmo de acordo os parametros apresentados

anteriormente.

Tabela 4 – Acuracia (%) nos treinos e testes dos algoritmos supervisionados

Algoritmos supervisionadosRF RNA SVM

Treino Teste Treino Teste Treino Teste99,3500 99,3430 99,9747 99,9705 99,9863 99,956099,8801 99,8836 99,9736 99,9683 99,9863 99,955099,9247 99,9212 99,9715 99,9652 99,9849 99,954399,9634 99,9529 99,9698 99,9666 99,9866 99,946999,9683 99,9620 99,9743 99,9719 99,9905 99,947299,9810 99,9698 99,9659 99,9599 99,9905 99,943099,9866 99,9673 99,9680 99,9676 99,9902 99,938499,9926 99,9722 99,9652 99,9613 99,9905 99,928299,9930 99,9719 99,9722 99,9683 99,9814 99,918899,9930 99,9719 99,9712 99,9652 99,9905 99,9251

Considera-se entao que o RF demonstrou um desempenho geral melhor. Tal

desempenho pode ser atribuıdo ao funcionamento deste algoritmo, que difere bastante

da RNA e do SVM. O RF basicamente se apropria do que existe de melhor dentre um

conjunto de varias possibilidades (arvores), proporcionando assim um resultado combinado

mais eficaz. Alem disso, se considerassemos a base de dados desbalanceada, e do estado da

Page 42: UNIVERSIDADE FEDERAL DO SUL E SUDESTE DO PARAcomo CNP (cartao~ nao presente). Como nao ha a assinatura do comprador para validar a compra neste tipo de transac~ao, a responsabilidade

42

arte da literatura de aprendizagem automatica que o RF comporta-se melhor que os seus

competidores em bases desequilibradas, dada a possibilidade de formacao de diferentes

arvores com distintas profundidades.

As Figuras 12 e 13 representam os resultados das deteccoes de anomalias obtidos

apos o processo de clusterizacao dos algoritmos k-means e GMM, respectivamente. Para

ambos, o limiar foi estimado atraves de um grau de confianca de 95% nos dados de

treinamento, pelo que e aceitavel que 5% das observacoes consideradas normais fiquem

acima do limiar, representando erros falso-positivos, i.e., observacoes normais que errone-

amente foram classificadas como anormais. Entretanto, varias observacoes fraudulentas

encontram-se classificadas abaixo do limiar, produzindo uma quantidade grande de erros

falso-negativos, ou seja, observacoes fraudulentas que erroneamente foram classificadas

como normais. De forma geral, esse fato deve-se ao processo de treinamento dos algoritmos

nao-supervisionados, uma vez que o mesmo considera apenas observacoes normais para

estimar o modelo de aprendizagem. Assim, se comparados aos algoritmos supervisionados,

aqueles nao-supervisionados possuem maior probabilidade de obter erros na fase de teste,

pois estarao diante de novos dados nunca vistos antes, principalmente no que diz respeito

a classe anomala.

Figura 12 – Deteccao de anomalias apos clusterizacao do k-means.

Fonte: Propria (2018).

Page 43: UNIVERSIDADE FEDERAL DO SUL E SUDESTE DO PARAcomo CNP (cartao~ nao presente). Como nao ha a assinatura do comprador para validar a compra neste tipo de transac~ao, a responsabilidade

43

Figura 13 – Deteccao de anomalias apos clusterizacao do GMM.

Fonte: Propria (2018).

Adicionalmente, vale frisar que o GMM obteve melhor desempenho que o k-means

porque o primeiro tem a capacidade de estimar e modelar agrupamentos que levam em

consideracao a probabilidade de uma dada observacao pertencer a um agrupamento,

enquanto que o segundo define exatamente a qual cluster a observacao pertence. Por tal

motivo, o GMM consegue gerar clusters de diferentes formas (mas sempre modelados como

Gaussianas para este estudo) com maior representabilidade, o que contribui positivamente

para a fase de teste que e a deteccao de anomalias.

Diante disso foram selecionados os dois melhores algoritmos supervisionados (RF

e RNA) para a comparacao da acuracia com os nao-supervisionados (k-means e GMM)

tanto para treino, quanto para teste, como pode ser observado nas Tabelas 5 e 6.

Tabela 5 – Acuracia (%) nos treinos dos algoritmos

AlgoritmosSupervisionados Nao-supervisionadosRF RNA K-MEANS GMM

99,9930 99,9743 99,4915 99,4924

Tabela 6 – Acuracia (%) nos testes dos algoritmos

AlgoritmosSupervisionados Nao-supervisionadosRF RNA K-MEANS GMM

99,9719 99,9719 99,6441 99,6502

Page 44: UNIVERSIDADE FEDERAL DO SUL E SUDESTE DO PARAcomo CNP (cartao~ nao presente). Como nao ha a assinatura do comprador para validar a compra neste tipo de transac~ao, a responsabilidade

44

A partir das tabelas, numa analise geral, o RF obteve os melhores resultados com

apenas 0,007% e 0,0281% de erros de classificacao para treino e teste, respectivamente.

Alem disso, e possıvel notar que a RNA obtive praticamente a mesma acuracia que o

RF, exceto pela diferenca de 0,0187% de acertos no treinamento. Quanto ao k-means e

GMM ambos obtiveram desempenhos num patamar abaixo dos supervisionados, mas ainda

mantendo certo nıvel de competitividade uma vez que apresentaram erros de classificacao

menores que 1% no treinamento e teste.

Em uma analise mais especıfica, os melhores resultados foram obtidos na seguinte

ordem, para treinamento e teste, respectivamente: RF com taxas de erro de 0,007% e

0,0281%; RNA com taxas de erro de 0,0257% e 0,0281%; GMM com taxas de erro de

0,50760% e 0,34980%; e por fim k-means com taxas de erro de 0,50850% e 0,35590%.

Demonstra-se entao que, para a base de dados utilizada nesta pesquisa, os algoritmos

supervisionados obtiveram desempenho superior aos seus concorrentes nao-supervisionados.

Sumarizando, o RF se destacou devido o algoritmo ser executado por meio de um

conjunto de arvores de decisao, quando da classificacao de um novo objeto e analisado por

cada uma das arvores da floresta. Cada arvore da uma saıda de classificacao ou voto para

uma classe. O RF classifica o novo objeto para a classe que obtiver mais votos. Ao analisar

o desempenho de todas as abordagens, elas mostraram um desempenho satisfatorio de

identificacao de fraudes, todos acima de 90%. Feito o comparativo entre os algoritmos, como

as classes estao balanceadas e comum que os algoritmos supervisionados sejam melhores do

que os nao-supervisionados, pois os algoritmos supervisionados sao treinados com os dados

das duas classes o que facilita a etapa de teste, pois as classes estao balanceadas, existindo

uma relacao entre a entrada e a saıda. Por outro lado, os algoritmos nao-supervisionados

sao treinados so com a classe normal, necessitando identificar novos padroes nos dados

que talvez representem comportamentos anomalos em relacao ao que foi aprendido no

treinamento.

Page 45: UNIVERSIDADE FEDERAL DO SUL E SUDESTE DO PARAcomo CNP (cartao~ nao presente). Como nao ha a assinatura do comprador para validar a compra neste tipo de transac~ao, a responsabilidade

45

5 CONSIDERACOES FINAIS

No Brasil e no mundo, as perdas com fraudes em comercio eletronico atingem

ındices elevados. Tem crescido o numero de pessoas com cartao de credito usado em fraudes

ligadas a essa modalidade de compra. So no Instituto de Promocao e Defesa do Cidadao e

Consumidor (Procon), chegaram mais de 600 reclamacoes de consumidores maranhenses

de 2015 ate a atualidade. A clonagem do cartao e um dos crimes mais comuns. O aumento

da demanda de credito por parte do consumidor resulta tambem em um alerta para quem

utiliza essa modalidade de pagamento. (G1, 2017).

Devido aos prejuızos financeiros causados pelas fraudes em pagamentos online com

cartao de credito, neste trabalho foram aplicadas tecnicas de aprendizagem automatica

para detectar preventivamente fraudes em transacoes, mais especificamente em transacoes

de comercio eletronico que utilizam cartao de credito. Utilizou-se diferentes tecnicas de

inteligencia computacional, dando destaque neste trabalho a um comparativo entre as

tecnicas supervisionadas e nao-supervisionadas, para a especificacao da tecnica mais eficaz

para o combate a fraude numa base de dados especıfica.

Para comparacao desses modelos, foi utilizado um conjunto de dados de transacoes

de cartoes de credito europeus coletado e analisado durante uma colaboracao de pesquisa

da Worldline e do Machine Learning da ULB. Notou-se nesta pesquisa o desbalanceamento

das classes de fraude e nao fraude, o que ocorre com grande frequencia nessa area. Devido

a uma proporcao muito maior de transacoes validas, as tecnicas em geral encontram

dificuldades para reconhecer o padrao de nao fraude, levando assim a necessidade de

balanceamento das classes.

Os passos da metodologia foram seguidos, dentre os quais foram extraıdos da base

de dados um conjunto de dados contendo atributos considerados relevantes para deteccao

de fraude. Esse conjunto passou por um pre-processamento onde informacoes irrelevantes

foram retiradas, e o sigilo de informacoes pessoais foi mantido. Por fim, os dados foram

transformados e novas caracterısticas foram criadas formando um base de dados final que

foi utilizada para execucao das tecnicas de mineracao de dados. Todas as tecnicas sugeridas

pela metodologia foram treinadas e testadas baseadas no metodo de avaliacao proposto.

Do ponto de vista pratico, o trabalho demonstrou sua viabilidade tecnica nas

fases de avaliacao, assim, para atingir o objetivo proposto, fazendo a comparacao entre

as abordagens, obtendo a considerada a mais indicada para o problema em questao.

Neste quesito, o RF se destacou perante as demais principalmente pelo fato de ser um

algoritmo que combina varias arvores que podem modelar o problema em questao de

varias formas. O RF foi seguido entao pela RNA, GMM e k-means. Logo, notou-se que

os algoritmos supervisionados obtiveram melhores resultados num ambito geral dado o

seu treinamento com as duas classes (transacoes normais e transacoes fraudulentas) e

Page 46: UNIVERSIDADE FEDERAL DO SUL E SUDESTE DO PARAcomo CNP (cartao~ nao presente). Como nao ha a assinatura do comprador para validar a compra neste tipo de transac~ao, a responsabilidade

46

posterior teste tambem com essas duas classes. Apesar disso, ha a ressalva de que todos os

algoritmos testados nesta pesquisa obtiveram resultados considerados satisfatorios, obtendo

classificacao correta acima de 99% para treino e teste. Portanto, para a base de dados

especıfica utilizada neste trabalho, o RF mostrou-se a melhor abordagem, mas as outra

tecnicas tambem podem ser aplicadas para resolver o problema em questao sem deixar a

desejar em termos de acertos.

Como trabalhos futuros, destacam-se: identificacao de uma metodologia que

permita comparar algoritmos supervisionados e nao-supervisionados de forma igualitaria

em bases de dados desbalanceadas; criar outras configuracoes do RF atraves de aumento do

numero de arvores da floresta; e verificar o desempenho de RNAs profundas no problema

em questao de forma supervisionada e nao-supervisionada.

Page 47: UNIVERSIDADE FEDERAL DO SUL E SUDESTE DO PARAcomo CNP (cartao~ nao presente). Como nao ha a assinatura do comprador para validar a compra neste tipo de transac~ao, a responsabilidade

47

REFERENCIAS

ALESKEROV, E.; FREISLEBEN, B.; RAO, B. Cardwatch: A neural network baseddatabase mining system for credit card fraud detection. In: IEEE. ComputationalIntelligence for Financial Engineering (CIFEr), 1997., Proceedings of theIEEE/IAFE 1997. [S.l.], 1997. p. 220–226.

BHATTACHARYYA, S. et al. Data mining for credit card fraud: A comparative study.Decision Support Systems, Elsevier, v. 50, n. 3, p. 602–613, 2011.

BOLTON, R. J.; HAND, D. J. et al. Unsupervised profiling methods for fraud detection.Credit Scoring and Credit Control VII, Citeseer, p. 235–255, 2001.

BOX, G. E. P.; JENKINS, G. M.; REINSEL, G. C. Time Series Analysis: Forecastingand Control. 4th. ed. United States: John Wiley & Sons, Inc., 2008.

BRAGA, A. et al. Redes neurais: teoria e aplicacoes. Redes neurais artificiais, LTCRio de Janeiro, 2000.

BREIMAN, L. Random forests. Machine learning, Springer, v. 45, n. 1, p. 5–32, 2001.

BREUNIG, M. M. et al. Lof: identifying density-based local outliers. In: ACM. ACMsigmod record. [S.l.], 2000. v. 29, n. 2, p. 93–104.

CALDEIRA, E. et al. Characterizing and evaluating fraud in electronic transactions. In:IEEE. Web Congress (LA-WEB), 2012 Eighth Latin American. [S.l.], 2012. p.115–122.

CALINSKI, T.; HARABASZ, J. A dendrite method for cluster analysis. Communicationsin Statistics-theory and Methods, Taylor & Francis, v. 3, n. 1, p. 1–27, 1974.

CARPI, R. Data Mining na Pratica: Algoritmo K-Means. 2010. Acces-sado: 25 jan. 2018. Disponıvel em: <https://rogeriocarpi.wordpress.com/2010/07/09/dicas-de-datamining-2-algoritmo-k-means/>.

CARPINO, P. L. G. Inteligencia artificial aplicada ao direito – Fundamentose perspectivas dos sistemas especialistas legais, com enfase em direito previ-denciario. 2018. Accessado: 11 fev. 2018. Disponıvel em: <http://br.monografias.com/trabalhos2/inteligencia-artificial/inteligencia-artificial2.shtml>.

CARVALHO, A. P. L. Redes Neurais Artificiais. 2009. Accessado: 25 jan. 2018. Dispo-nıvel em: <http://conteudo.icmc.usp.br/pessoas/andre/research/neural/>.

CHEN, R.-C. et al. Personalized approach based on svm and ann for detecting credit cardfraud. In: IEEE. Neural Networks and Brain, 2005. ICNN&B’05. InternationalConference on. [S.l.], 2005. v. 2, p. 810–815.

DEMPSTER, A. P.; LAIRD, N. M.; RUBIN, D. B. Maximum Likelihood from IncompleteData via the EM Algorithm. Journal of the Royal Statistical Society. Series B(Methodological), v. 39, n. 1, p. 1–38, 1977.

DUMAN, E.; OZCELIK, M. H. Detecting credit card fraud by genetic algorithm and scattersearch. Expert Systems with Applications, Elsevier, v. 38, n. 10, p. 13057–13063,2011.

Page 48: UNIVERSIDADE FEDERAL DO SUL E SUDESTE DO PARAcomo CNP (cartao~ nao presente). Como nao ha a assinatura do comprador para validar a compra neste tipo de transac~ao, a responsabilidade

48

ECOMMERCE. Meios de pagamento no ecommerce. 2015. Accessado: 20 fev. 2018.Disponıvel em: <www.e-commerce.org.br/meios-de-pagamento-ecommerce/>.

FCONTROL. Solucao definitiva contra fraudes. 2015. Accessado: 20 fev. 2018. Dis-ponıvel em: <www.e-commerce.org.br/meios-de-pagamento-ecommerce/>.

FERNEDA, E. Redes neurais e sua aplicacao em sistemas de recuperacao deinformacao. 2006. Accessado: 11 fev. 2018. Disponıvel em: <http://www.scielo.br/pdf/ci/v35n1/v35n1a03.pdf>.

G1. Cresce numero de pessoas lesadas com fraudes de cartoes de credito noMA. 2017. Accessado: 08 jul. 2018. Disponıvel em: <https://g1.globo.com/ma/maranhao/noticia/cresce-numero-de-pessoas-lesadas-com-fraudes-de-cartoes-de-credito-no-ma.ghtml>.

GHOSH, S.; REILLY, D. L. Credit card fraud detection with a neural-network. In: IEEE.System Sciences, 1994. Proceedings of the Twenty-Seventh Hawaii Internati-onal Conference on. [S.l.], 1994. v. 3, p. 621–630.

GOLDSCHMIDT, R.; PASSOS, E. Data Mining. [S.l.]: Elsevier Brasil, 2017.

HAWKINS, D. M. Identification of outliers. [S.l.]: Springer, 1980. v. 11.

HAYKIN, S. Redes neurais: princıpios e pratica. [S.l.]: Bookman Editora, 2007.

HONGYU, K. Comparacao do GGE biplot-ponderado e AMMI-ponderado comoutros modelos de interacao genotipo x ambiente. Tese (Doutorado) — Universi-dade de Sao Paulo, 2015.

HOTELLING, H. Analysis of a complex of statistical variables into principal components.Journal of educational psychology, Warwick & York, v. 24, n. 6, p. 417, 1933.

KOU, Y. et al. Survey of fraud detection techniques. In: IEEE. Networking, sensingand control, 2004 IEEE international conference on. [S.l.], 2004. v. 2, p. 749–754.

KULTUR, Y.; CAGLAYAN, M. U. Hybrid approaches for detecting credit card fraud.Expert Systems, Wiley Online Library, v. 34, n. 2, 2017.

LEE, C. Feature Importance Measures for Tree Models. 2017. Ac-cessado: 11 fev. 2018. Disponıvel em: <https://medium.com/@ceshine/feature-importance-measures-for-tree-models-part-i-47f187c1a2c3>.

MACQUEEN, J. et al. Some methods for classification and analysis of multivariate obser-vations. In: OAKLAND, CA, USA. Proceedings of the fifth Berkeley symposiumon mathematical statistics and probability. [S.l.], 1967. v. 1, n. 14, p. 281–297.

MANLY, B. F.; ALBERTO, J. A. N. Multivariate statistical methods: a primer.[S.l.]: CRC Press, 2016.

MATHWORKS, I. Pearson. 1994–2018. Accessado: 22 jun. 2018. Disponıvel em: <https://www.mathworks.com/help/stats/pearsrnd.html>.

MCLACHLAN, G. J.; PEEL, D. Finite Mixture Models. United States: John Wiley &Sons, Inc., Wiley Series in Probability and Statistics, 2000.

Page 49: UNIVERSIDADE FEDERAL DO SUL E SUDESTE DO PARAcomo CNP (cartao~ nao presente). Como nao ha a assinatura do comprador para validar a compra neste tipo de transac~ao, a responsabilidade

49

MICHALSKI, R. S.; CARBONELL, J. G.; MITCHELL, T. M. Machine learning: Anartificial intelligence approach. [S.l.]: Springer Science & Business Media, 2013.

NETO, C. D. G. et al. Potencial de tecnicas de mineracao de dados para modelos de alertada ferrugem do cafeeiro. In: IN: CONGRESSO BRASILEIRO DE AGROINFORMATICA,9., 2013, CUIABA. AGROINFORMATICA: INOVACAO PARA A SUSTENTABILIDADEDO AGRONEGOCIO BRASILEIRO: ANAIS. CUIABA: UNIVERSIDADE FEDERALDE MATO GROSSO, 2013. Embrapa Informatica Agropecuaria-Artigo em anaisde congresso (ALICE). [S.l.], 2013.

PAULA, A. V. d. Determinacao de parametros que caracterizam o fenomeno da biestabili-dade em escoamentos turbulentos. 2013.

PEARSON, K. Liii. on lines and planes of closest fit to systems of points in space.The London, Edinburgh, and Dublin Philosophical Magazine and Journal ofScience, Taylor & Francis, v. 2, n. 11, p. 559–572, 1901.

PHUA, C. et al. A comprehensive survey of data mining-based fraud detection research.arXiv preprint arXiv:1009.6119, 2010.

PIECH, C. Artificial Intelligence: Principles and Techniques. 2013. Accessado: 12fev. 2018. Disponıvel em: <http://stanford.edu/˜cpiech/cs221/handouts/kmeans.html>.

POZZOLO, A. D. et al. Credit card fraud detection: a realistic modeling and a novellearning strategy. IEEE transactions on neural networks and learning systems,IEEE, 2017.

PRASS F., S. Algoritmo de k-means. 2013. Accessado: 10 fev. 2018. Disponıvel em:<http://fp2.com.br/blog/index.php/2013/algoritmo-de-k-means/>.

PUN, J.; LAWRYSHYN, Y. Improving credit card fraud detection using a meta-classification strategy. International Journal of Computer Applications, Foundationof Computer Science, v. 56, n. 10, 2012.

RAMASWAMY, S.; RASTOGI, R.; SHIM, K. Efficient algorithms for mining outliers fromlarge data sets. In: ACM. ACM Sigmod Record. [S.l.], 2000. v. 29, n. 2, p. 427–438.

REYNOLDS, D. A. A gaussian mixture modeling approach to text-independent speakeridentification. 1993.

ROBERT, C. Machine learning, a probabilistic perspective. [S.l.]: Taylor & Francis,2014.

SANDRI, A. Deteccao de fraude e prevencao utilizando inteligencia artificial. Ciencia daComputacao – Centro Universitario La Salle (UNILASALLE), p. 1–9, 2016.

SANTOS, A. M. d. et al. Usando redes neurais artificiais e regressao logıstica na predicaoda hepatite a. Revista Brasileira de Epidemiologia, SciELO Public Health, v. 8, p.117–126, 2005.

SPORL, C.; CASTRO, E.; LUCHIARI, A. Aplicacao de redes neurais artificiais na cons-trucao de modelos de fragilidade ambiental. Revista do Departamento de Geografia,v. 21, p. 113–135, 2011.

Page 50: UNIVERSIDADE FEDERAL DO SUL E SUDESTE DO PARAcomo CNP (cartao~ nao presente). Como nao ha a assinatura do comprador para validar a compra neste tipo de transac~ao, a responsabilidade

50

STATSOFT. Support Vector Machines. 2018. Accessado: 12 fev. 2018. Disponıvel em:<http://www.statsoft.com/Textbook/Support-Vector-Machines>.

TAN, P.; STEINBACK, M.; KUMAR, V. Introducao ao datamining: mineracao de dados.Editora Ciencia Moderna, Rio de Janeiro, 2009.

TECMUNDO. Fraudes digitais: como elas ocorrem e o que esta sendo feitopara barra-las. 2016. Accessado: 20 fev. 2018. Disponıvel em: <www.tecmundo.com.br/golpes-e-fraudes/110134-fraudes-digitais-elas-ocorrem-sendo-feito-barra-las.htm>.

VALE, M. N. do. Agrupamentos de dados: Avaliacao de Metodos e Desenvol-vimento de Aplicativo para Analise de Grupos. Tese (Doutorado) — PUC-Rio,2005.

VAPNIK, V. Pattern recognition using generalized portrait method. Automation andremote control, v. 24, p. 774–780, 1963.

YONG-FENG, S.; YAN-PING, Z. Comparison of text categorization algorithms. Wuhanuniversity Journal of natural sciences, Springer, v. 9, n. 5, p. 798–804, 2004.