52
KARINA TIEMI KATO SISTEMA OFF-LINE DE VISÃO COMPUTACIONAL FUNDAMENTADO NA GRAFOSCOPIA PARA A VERIFICAÇÃO DE ASSINATURAS LONDRINA–PR 2017

SISTEMAOFF-LINEDEVISÃOCOMPUTACIONAL ...€¦ · KATO,K.T.Sistemaoff-linedevisãocomputacionalfundamentadonagrafos- copiaparaaverificaçãodeassinaturas.50p.TrabalhodeConclusãodeCurso(Ba

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

  • KARINA TIEMI KATO

    SISTEMA OFF-LINE DE VISÃO COMPUTACIONALFUNDAMENTADO NA GRAFOSCOPIA PARA A

    VERIFICAÇÃO DE ASSINATURAS

    LONDRINA–PR

    2017

  • KARINA TIEMI KATO

    SISTEMA OFF-LINE DE VISÃO COMPUTACIONALFUNDAMENTADO NA GRAFOSCOPIA PARA A

    VERIFICAÇÃO DE ASSINATURAS

    Trabalho de Conclusão de Curso apresentadoao curso de Bacharelado em Ciência da Com-putação da Universidade Estadual de Lon-drina para obtenção do título de Bacharel emCiência da Computação.

    Orientador: Prof. Dr. Alan Salvany Felinto

    LONDRINA–PR

    2017

  • Karina Tiemi KatoSistema off-line de visão computacional fundamentado na grafoscopia para a

    verificação de assinaturas/ Karina Tiemi Kato. – Londrina–PR, 2017-50 p. : il. (algumas color.) ; 30 cm.

    Orientador: Prof. Dr. Alan Salvany Felinto

    – Universidade Estadual de Londrina, 2017.

    1. Verificação de Assinatura. 2. Grafoscopia. 3. Sistema Off-line. I. Prof.Dr. Alan Salvany Felinto. II. Universidade Estadual de Londrina. III. Ciênciada Computação. IV. Sistema off-line de visão computacional fundamentado nagrafoscopia para a verificação de assinaturas

    CDU 02:141:005.7

  • KARINA TIEMI KATO

    SISTEMA OFF-LINE DE VISÃO COMPUTACIONALFUNDAMENTADO NA GRAFOSCOPIA PARA A

    VERIFICAÇÃO DE ASSINATURAS

    Trabalho de Conclusão de Curso apresentadoao curso de Bacharelado em Ciência da Com-putação da Universidade Estadual de Lon-drina para obtenção do título de Bacharel emCiência da Computação.

    BANCA EXAMINADORA

    Prof. Dr. Alan Salvany FelintoUniversidade Estadual de Londrina

    Orientador

    Prof. Dr. Segundo Membro da BancaUniversidade/Instituição do Segundo

    Membro da Banca

    Prof. Dr. Terceiro Membro da BancaUniversidade/Instituição do Terceiro

    Membro da Banca

    Prof. Ms. Quarto Membro da BancaUniversidade/Instituição do Quarto

    Membro da Banca

    Londrina–PR, 24 de novembro de 2017

  • Este trabalho é dedicado a todas as pessoas que já foram vítimas de fraudes e é umainiciativa para diminuir o número de casos futuros.

  • AGRADECIMENTOS

    Primeiramente os agradecimentos são direcionados à minha família; em especialaos meus pais, pelo apoio e incentivo. Também aos meus amigos e professores. Princi-palmente ao meu orientador Prof. Dr. Alan Felinto, pela confiança depositada e por semanter acessível em casos de dificuldades. Bem como, gostaria de agradecer a Prof(a).Dr(a). Jandira Guenka por ter me auxiliado em diversos projetos durante a graduação.Finalmente, sou muito grata ao meu namorado, pois esteve comigo em todos os momentos,como parceiro, sócio, aluno, professor e um excelente amigo.

  • “Eu acredito em intuição e inspiração. A imaginação é mais importante que oconhecimento. O conhecimento é limitado, enquanto a imaginação engloba o mundo

    inteiro, estimulando o progresso, dando origem à evolução. É, a rigor, um fator concretona pesquisa científica.” (Albert Einstein)

  • KATO, K. T. Sistema off-line de visão computacional fundamentado na grafos-copia para a verificação de assinaturas. 50 p. Trabalho de Conclusão de Curso (Ba-charelado em Ciência da Computação) – Universidade Estadual de Londrina, Londrina–PR, 2017.

    RESUMO

    Em virtude da rapidez, facilidade de utilização, baixo custo com equipamentos e não serintrusiva; a assinatura continua sendo um método popular de autenticação. Logo, deve-se aplicar critérios rigorosos na verificação de sua autenticidade para evitar fraudes. Agrafoscopia, geralmente utilizada na criminologia, é uma ciência que estuda característi-cas morfológicas; a gênese gráfica ou método de construção e qualidade da escrita paradeterminar o autor ou a autenticidade de uma assinatura. Tais particularidades compõeo sistema off-line de visão computacional proposto, pois são utilizadas como critérios dedecisão em várias etapas do trabalho e para a escolha de atributos que auxiliam diferentestécnicas de aprendizado de máquina (Naive Bayes, Logistic Regression, Random Forest eMultilayer Perceptron) a determinar automaticamente a autenticidade de assinaturas ma-nuscritas mesmo com a introdução de apenas fraudes do tipo elaboradas. Para a validaçãodo método, testou-se com 1287 assinaturas holandesas e 487 chinesas da base SigComp2011. A partir das classificações obtidas, mediu-se a taxa de erro e comparou-se com osresultados dos participantes do SigComp 2011. Os resultados do método proposto em am-bas as nacionalidades foram melhores que a média dos competidores. Para as assinaturasholandesas, o método proposto foi o que obteve o melhor resultado, taxa de erro EER deapenas 0.23%.

    Palavras-chave: Verificação de Assinaturas. Grafoscopia . Sistema Off-line. Visão Com-putacional

  • KATO, K. T. Offline computer vision system based on graphometry for signa-ture verification. 50 p. Final Project (Bachelor of Science in Computer Science) – StateUniversity of Londrina, Londrina–PR, 2017.

    ABSTRACT

    Because of its speed, usability, affordability and non-intrusiviness; signing is a popularmethod of authentication. Therefore, strict criteria should be applied in the verificationprocess to avoid forgery. Graphometry, generally used in forensics, is a science that studiesmorphological features; the graphical genesis or construction method and quality of writ-ing to determine the author or authenticity of a signature. All particularities mentionedbefore make the proposed computer vision offline system, since they are used as criteria inseveral stages of the work and for the selection of attributes that help different machinelearning algorithms (Naive Bayes, Logistic Regression, Random Forest and MultilayerPerceptron) to automatically determine the authenticity of handwritten signatures evenwhen only skilled forgeries are used as forgery. For the validation of the method, 1287Dutch and 487 Chinese signatures of the SigComp 2011 database were tested. The re-sults of the classifications were used to mesure the equal error rate, which were comparedwith the results of SigComp 2011 participants. The method proposed was better in bothnationalities than the average of the contestants. For the Dutch signatures, the proposedmethod was the one that obtained the best result, EER was only 0.23%.

    Keywords: Signature Verification. Graphometric . Offline System. Computer Vision

  • LISTA DE ILUSTRAÇÕES

    Figura 1 – Representação do Random Forest . . . . . . . . . . . . . . . . . . . . . 30Figura 2 – Representação do Multilayer Perceptron . . . . . . . . . . . . . . . . . 31Figura 3 – Representação do Sistema . . . . . . . . . . . . . . . . . . . . . . . . . 39

  • LISTA DE TABELAS

    Tabela 1 – Assinaturas da Base SigComp2011 . . . . . . . . . . . . . . . . . . . . 37Tabela 2 – Representação das Características da Grafoscopia . . . . . . . . . . . . 38Tabela 3 – Resultados dos testes do método proposto com as assinaturas holandesas 43Tabela 4 – Resultados dos testes do método proposto com as assinaturas chinesas 43Tabela 5 – Resultados das matrizes de confusão para as assinaturas holandesas . . 44Tabela 6 – Resultados das matrizes de confusão para as assinaturas chinesas . . . 44Tabela 7 – Resultados da SigComp2011 para assinaturas off-lines holandesas . . . 44Tabela 8 – Resultados da SigComp2011 para assinaturas off-lines chinesas . . . . . 44

  • LISTA DE ABREVIATURAS E SIGLAS

    MAP Maximum A Posteriori

    MLP Multilayer Perceptron

    SigComp2011 Signature Verification Competition 2011

    EER Equal Error Rate

    CNNs Convolutional Neural Networks

    FRR False Rejection Rate

    FAR False Acceptance Rate

    SVM Support Vector Machines

    ROC Receiver Operating Characteristics

    TP True Positive

    FP False Positive

    TR True Rejection

    FR False Rejection

  • SUMÁRIO

    1 INTRODUÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

    2 FUNDAMENTAÇÃO TEÓRICA . . . . . . . . . . . . . . . . . 252.1 Processamento de Imagens e Visão Computacional . . . . . . . 252.1.1 Pré-Processamento . . . . . . . . . . . . . . . . . . . . . . . . . . . 252.1.2 Segmentação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 262.1.3 Representação e Descrição . . . . . . . . . . . . . . . . . . . . . . 262.2 Aprendizado de Máquina . . . . . . . . . . . . . . . . . . . . . . . 272.2.1 Naive Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 282.2.2 Logistic Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . 282.2.3 Random Forest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 292.2.4 Multilayer Perceptron . . . . . . . . . . . . . . . . . . . . . . . . . 302.3 Biometria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 312.3.1 Tipos de Sistemas . . . . . . . . . . . . . . . . . . . . . . . . . . . 322.4 Grafoscopia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 322.4.1 Elementos Analisados . . . . . . . . . . . . . . . . . . . . . . . . . 332.5 Trabalhos Correlatos . . . . . . . . . . . . . . . . . . . . . . . . . . 33

    3 PROCEDIMENTOS METODOLÓGICOS . . . . . . . . . . . . 373.1 Base de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 373.2 Método Desenvolvido . . . . . . . . . . . . . . . . . . . . . . . . . 383.2.1 Estrutura do Sistema . . . . . . . . . . . . . . . . . . . . . . . . . 383.2.2 Decisões de Projeto . . . . . . . . . . . . . . . . . . . . . . . . . . 403.3 Formas de Validação . . . . . . . . . . . . . . . . . . . . . . . . . . 40

    4 RESULTADOS E DISCUSSÃO . . . . . . . . . . . . . . . . . . 434.1 Comparação dos Resultados dos Algoritmos Testados . . . . . 434.2 Avaliação Total do Método Desenvolvido . . . . . . . . . . . . . 45

    5 CONCLUSÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

    REFERÊNCIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

  • 23

    1 INTRODUÇÃO

    A assinatura manuscrita é um clássico da biometria. Embora tenham surgido for-mas de autenticação mais modernas tanto comportamentais quanto físicas, o métodoainda é muito popular devido à sua rapidez, facilidade de utilização, baixo custo comequipamentos e o fato de não ser intrusivo [1]. As assinaturas são aceitas até em transa-ções governamentais, legais ou comerciais como formas de autenticação [2]. Sendo assim,deve-se aplicar critérios rigorosos na verificação de sua autenticidade.

    Crimes relativos a falsificação de assinaturas ainda são comuns atualmente e umadas causas é que tanto instituições públicas quanto privadas empregam amadores ouinexperientes para a análise das assinaturas [3], os quais fundamentam-se muitas vezesem regras equivocadas, como a semelhança no formato.[4]. Contudo, a verificação nãoé um trabalho fácil nem aos especialistas, pois a escrita é decorrente de um processocomportamental (pode ser influenciada por condições físicas e emocionais) e alguns in-divíduos apresentam grandes variações nas próprias assinaturas [4, 2]. Logo, exige nãoapenas conhecimentos técnicos, como também, muita experiência e atenção.

    A grafoscopia permite determinar o autor de uma assinatura ou verificar se amesma é genuína [4], para tal, avaliam-se características morfológicas (aparência geral), agênese gráfica ou método de construção e aspectos que demonstram a qualidade da escrita[5]. Estudos que realizaram uma análise comparativa da opinião de peritos grafotécnicoscom a de leigos comprovaram taxas de erros significativamente menores por parte dosespecialistas [6, 7] . Para o primeiro estudo, 4.34% de erro dos peritos e 12.16% dos leigos.Já para o segundo, 3.9% e 19.3%, respectivamente.

    Por consequência, o presente trabalho desenvolve um sistema automático off-linefundamentado no estudo da grafoscopia aliado a métodos de processamento de imagens ealgoritmos de aprendizado de máquina para auxiliar na decisão da autenticidade de umaassinatura manuscrita, ou seja, é um sistema biométrico que avalia se a assinatura é dedeterminado autor ou se é uma falsificação desenvolvida por terceiros.

    Um dos diferenciais do método proposto em relação a alguns sistemas biométricosde assinaturas é o critério de escolha das características que são analisadas, as quais nãosão apenas morfológicas, como também considerarão a gênese gráfica e a qualidade daescrita [5] como descritores. Além disso, o sistema também processa diversas limitaçõese necessidades reais: treinamento sem a utilização de assinaturas falsas de cada autor e averificação de autenticidade focadas em fraudes mais elaboradas.

    Para torná-lo um sistema de visão computacional robusto, são analisados diferentesclassificadores com aprendizado de máquina (Naive Bayes, Logistic Regression, Random

  • 24

    Forest e Multilayer Perceptron) para identificar os padrões significativos de um determi-nado autor, isto é, sua variação intrapessoal. Em seguida, os resultados das técnicas foramcomparados e avaliou-se qual algoritmo de aprendizado é o mais promissor para o métodoproposto através dos resultados ao julgar as autenticidades das assinaturas.

    O estudo foi segmentado em 6 partes: o capítulo atual abordou uma introduçãodo trabalho e os objetivos; em 2 são apresentados conceitos incorporados para o desenvol-vimento, como também, analisam-se pesquisas relacionadas ao tema proposto; por outrolado, no capítulo 3 evidenciam-se a estrutura do sistema, técnicas e formas de validaçãoempregadas para alcançar os objetivos; em 4 são discutidos os resultados dos classifica-dores com cada algoritmo de aprendizado de máquina e a comparação com os estudos daliteratura; por fim, em 5, quais são as conclusões e contribuições do trabalho.

  • 25

    2 FUNDAMENTAÇÃO TEÓRICA

    Considerando a interdisciplinaridade do trabalho, o capítulo atual tem como obje-tivo a evidenciação dos conceitos incorporados para uma melhor compreensão do estudo.Ademais, são apresentadas algumas pesquisas relacionadas que contribuíram com o em-basamento teórico para o desenvolvimento.

    2.1 Processamento de Imagens e Visão Computacional

    Há uma linha tênue entre o processamento de imagens e a visão computacional. Em[8], a distinção é feita considerando 3 tipos de categorias computacionais: baixa, média ealta. A primeira envolve operações mais simples em que tanto a entrada como a saída sãoimagens, por exemplo: o pré-processamento para a redução de ruídos, realçar o contrasteou o aguçamento da imagem.

    Para o nível médio, pode-se citar a segmentação (separar a imagem em regiões ouobjetos); a representação e descrição dos atributos. Neste nível, geralmente as entradassão imagens e a saída são características (atributos) extraídas.

    No nível alto, considera-se que é dado um sentido aos objetos reconhecidos e até arealização de funções cognitivas relativas à visão, geralmente esta categoria engloba ativi-dades de reconhecimento, detecção ou identificação. Assim, o processamento de imagensabrange os níveis baixo e médio. Já a visão computacional, o nível alto.

    2.1.1 Pré-Processamento

    Neste trabalho, o termo pré-processamento denota os processos realizados apósa aquisição das imagens, mas antes da segmentação. Desse modo, compreendem-se astécnicas empregadas na conversão de cores, realce e restauração. Nota-se que em todos oscasos as entradas e as saídas são imagens, mas a saída consiste na versão aprimorada daentrada.

    Uma imagem digital é composta por elementos pictóricos finitos, os quais sãodenominados pixels. A representação da imagem pode ser dada através de uma funçãobidimensional discretizada espacialmente e em amplitude, ou seja, 𝑓(𝑥, 𝑦), sendo que 𝑥 e 𝑦representam as coordenadas espaciais e o 𝑓 nos pares de coordenadas (𝑥, 𝑦) é a intensidadeno ponto [9, 8].

    O realce é compreendido como a manipulação dos pixels para uma forma maisadequada a um determinado contexto. Logo, é subjetivo ao tipo de problema sendo re-solvido, por exemplo: realces em imagens de raios X podem não ser úteis em imagens de

  • 26

    satélite capturadas na banda infravermelha do espectro eletromagnético. Como exemplode técnicas de realce, pode-se citar o ajuste de contraste [8].

    Em aplicações reais, é comum o surgimento de ruídos durante a aquisição outransmissão, isto é, podem aparecer degradações na imagem. A restauração é um processoobjetivo que busca a recuperação de informações baseadas em conhecimentos heurísticossobre a degradação. Consequentemente, muitas aplicações usam filtros lineares ou nãolineares para restaurar as imagens, reduzindo assim pequenos detalhes e facilitando aextração de objetos [8].

    2.1.2 Segmentação

    O processo de segmentação é caracterizado pela divisão da imagem digital empartes ou objetos que a constituem. Uma segmentação adequada pode auxiliar méto-dos futuros usados para a identificação dos objetos individuais. É importante ressaltarque o nível de especificidade da subdivisão também é relativo ao problema. A título deexemplo, ao realizar uma inspeção automatizada de componentes eletrônicos, o objetivoé achar anomalias como a falta de componentes ou conexões interrompidas. Logo, não hánecessidade de segmentação que ultrapasse os níveis de detalhamentos para tais análises[9, 8].

    Basicamente, há duas formas de segmentar uma imagem: descontinuidade ou simi-laridade. A primeira categoria consiste na divisão a partir da descontinuidade dos níveisde intensidade, como exemplo: as bordas dos objetos. Já a segunda, fundamenta-se nadivisão das partes de interesse a partir de critérios pré-definidos. Dentre os exemplos demétodos desta categoria, tem-se: limiarização, crescimento de região e a divisão e fusãode regiões [9, 8].

    2.1.3 Representação e Descrição

    A representação tem como objetivo encontrar informações relevantes para dife-renciar o objeto de interesse. Por exemplo, em um problema que deseja-se classificar umobjeto como sendo maçã, uma das possíveis representações poderia ser em relação à cor[9, 8].

    A fase de descrição, também denominada “extração de características”, tem comoobjetivo extrair atributos que resultem em alguma informação de interesse para discrimi-nação entre classes de objetos do problema. Portanto, os atributos são descritos de acordocom o tipo de representação escolhido [9, 8]

    Em resumo, a representação e a descrição são procedimentos utilizados na con-versão de dados para uma forma mais adequada aos próximos processos computacionais.Embora a entrada seja a imagem, a saída consiste no conjunto de dados correspondentes

  • 27

    à entrada, isto é, um vetor de atributos [9, 8].

    2.2 Aprendizado de Máquina

    O aprendizado de máquina ou aprendizado automático, de forma geral, é uma áreada inteligência artificial que visa a criação de algoritmos que ensinam a máquina a con-verter a experiência em conhecimento, sem comandos explícitos. Mais especificamente, aexperiência refere-se aos dados de treinamento e o conhecimento é gerado através da aná-lise desses dados, conferindo a máquina a capacidade de resolver algum tipo de problema[10].

    Dois aspectos importantes que auxiliam na decisão sobre a utilização do apren-dizado de máquina são: a complexidade do problema e a necessidade de adaptação. Acomplexidade pode estar relacionada a atividades naturais de humanos ou animais, masque são complicadas de serem expressas para a definição de um programa. Outro exemploé encontrar relacionamentos e correlações complexas em grandes quantidades de dados.Já em relação a adaptação, algumas ferramentas de aprendizado de máquina ajustam-sede acordo com os dados de entrada. Ou seja, muito úteis para a resolução de problemasreais dinâmicos, pois não há a necessidade de serem reescritos constantemente [10].

    Dentre os algoritmos de aprendizado de máquina há vários tipos de separações quepodem ser feitas. Geralmente, a divisão relativa à forma da interação do aprendizado é:supervisionado, não supervisionado e por reforço. A primeira forma caracteriza-se pelaexistência de informações extras, como a saída. Desse modo, o algoritmo mapeia a entradapara obter os resultados desejados, por exemplo rotular e-mails como spam e não spam,tendo exemplos de instâncias com rótulos no treinamento [10, 11].

    O aprendizado não supervisionado, por outro lado, não possui exemplos de saída,apenas de entrada. Logo, não há diferenças entre os conjuntos de treino e teste. O al-goritmo processa os dados de entrada com o objetivo de apresentar algum resumo ouversão comprimida como conhecimento gerado, isto é, fazendo a clusterização dos dadosem subconjuntos similares [10].

    Por fim, o aprendizado por reforço pode ser considerado uma versão intermediáriadas duas formas anteriores. Em um jogo de xadrez, seria como aprender uma função quedescreve para cada configuração do jogo um valor numérico afim de comparar e deduzirqual é a melhor jogada a ser tomada para que as posições das peças brancas sejam melhoresque as pretas, sendo que há a disposição só informações sobre as posições de outros jogose quem foi o vencedor [10].

    No presente estudo, são utilizados apenas algoritmos com aprendizado supervisio-nado. Foram escolhidos: o Naive Bayes, Logistic Regression, Random Forest e MultilayerPerceptron para a classificação de falsificações elaboradas e assinaturas genuínas; pois são

  • 28

    algoritmos bem conhecidos, com boas performances e distintos entre si.

    2.2.1 Naive Bayes

    Antes de descrever o funcionamento do algoritmo Naive Bayes, serão esclarecidosos conceitos do Teorema de Bayes. O Teorema de Bayes é utilizado para calcular a proba-bilidade condicional de determinado evento baseado no conhecimento a priori de situaçõesrelacionadas, a fórmula de probabilidade condicional [12, 10] é representada a seguir:

    𝑃 (ℎ|𝐴) = 𝑃 (𝐴|ℎ)𝑃 (ℎ)𝑃 (𝐴)

    O 𝑃 (ℎ), conhecido como probabilidade a priori, representa a probabilidade inicialda hipótese ℎ. Similarmente, o 𝑃 (𝐴) é a probabilidade a priori da evidência (independenteda hipótese). Já o 𝑃 (𝐴|ℎ) é a probabilidade de obter-se 𝐴 tendo a hipótese ℎ comoverdadeira. Denota-se por 𝑃 (ℎ|𝐴) a probabilidade de ℎ dado 𝐴, também conhecida comoprobabilidade posterior [12, 10].

    Em problemas de aprendizado de máquina, há interesse em optar pela hipótesemais provável de um espaço 𝐻 com os atributos 𝐴 observados. Desse modo, deseja-sedescobrir qual é o ℎ (ℎ ∈ 𝐻) que após receber os dados de treinamento e os atributos 𝐴apresenta a maior probabilidade, tal hipótese denomina-se maximum a posteriori (MAP)[12].

    Assim, para determinar o maximum a posteriori, utiliza-se o Teorema de Bayes eencontra-se a probabilidade posterior de cada uma das hipóteses candidatas. Assumindoque ℎ𝑀𝐴𝑃 é a hipótese MAP, o 𝑃 (𝐴) pode ser desconsiderado, pois o termo é independentedos valores das hipóteses [12]. Logo, obtém-se a fórmula simplicada:

    ℎ𝑀𝐴𝑃 = 𝑎𝑟𝑔𝑚𝑎𝑥ℎ∈𝐻

    𝑃 (𝐴|ℎ)𝑃 (ℎ)

    Em resumo, o Naive Bayes é um classificador estatístico que aplica o Teorema deBayes com suposições de independência nos atributos. Portanto, dado um conjunto deatributos 𝑎1, 𝑎2...𝑎𝑛, calcula-se o ℎ𝑀𝐴𝑃 da seguinte maneira [12]:

    ℎ𝑀𝐴𝑃 = 𝑎𝑟𝑔𝑚𝑎𝑥ℎ∈𝐻

    𝑃 (ℎ)𝑛∏︁

    𝑖=1𝑃 (𝑎𝑖|ℎ)

    2.2.2 Logistic Regression

    O Logistic Regression é um classificador do tipo linear, isto é, considera que oespaço do problema é linearmente separável por uma função. O objetivo do algoritmo éencontrar a hipótese ℎ ∈ 𝐻, tal que a probabilidade condicional de 𝑃 (ℎ|𝐴) seja a maior

  • 29

    do conjunto 𝐻 [10, 13]. Em problemas de classificação binários, pode-se achar apenas umahipótese ℎ1, uma vez que a outra é calculada pela expressão: ℎ0 = 1 − ℎ1.

    Para o cálculo da probabilidade condicional, é necessário que os valores de 𝑃 (ℎ|𝐴)estejam no intervalo de 0 a 1 e que haja uma distribuição adequada da probabilidade.Consequentemente, utiliza-se a função sigmoide. Por motivos de simplificação, assume-seque 𝑃 (ℎ|𝐴) é 𝑝 e há apenas um atributo 𝑥. Logo, 𝛽0 e 𝛽1 representam os pesos da seguinteequação [10, 13]:

    𝑝 = 11 + 𝑒−(𝛽0+𝑥𝛽)

    Dessa forma, a hipótese ℎ1 é verdadeira se 𝑝 ≥ 0.5. Por outro lado, ℎ0 é verdadeirose 𝑝 < 0.5. Analogamente, caso o resultado de 𝛽0 + 𝑥𝛽 for positivo, tem-se que ℎ1 éverdadeiro, caso contrário, ℎ0 [10, 13].

    2.2.3 Random Forest

    O Random Forest é um algoritmo que trabalha com um conjunto de árvores dedecisão. A árvore de decisão é um método prático de inferência indutiva; em um problemade classificação binário, geralmente cada nó filho representa um atributo e as folhas daárvore denotam os rótulos das classes [10].

    Mais especificamente, uma maneira de desenvolver o Random Forest para a classi-ficação é selecionando amostras com reposição, isto é, gera-se um subconjunto 𝑆 ′ aleatórioa cada iteração a partir do conjunto de dados de entrada 𝑆. Similarmente para cada ár-vore, selecionam-se 𝑚′ atributos dos 𝑚 atributos iniciais. Assim, cada árvore apresentaum subconjunto de 𝑆 ′ dados com 𝑚′ atributos [10, 14].

    Desse modo, pode-se encontrar para cada árvore os limiares de valores ideais dosatributos para a melhor divisão de ramificações dos nós, ou seja, escolhe-se um atributopara a separação do nó pai em nós filhos, maximizando a separação das classes atravésdo coeficiente de Gini ou do ganho de informação. Itera-se novamente para cada nó filhoa seleção do atributo, até que as folhas denotem as classes ou um critério de parada sejasatisfeito [10, 14].

    O resultado gerado pela Random Forest é o voto majoritário dos rótulos das árvoresde decisões, isto é, escolhe-se a classe presente na maioria dos nós folhas das árvores [10].A Figura 1 ilustra a estrutura de uma Random Forest.

  • 30

    Figura 1 – Representação do Random Forest

    2.2.4 Multilayer Perceptron

    O Multilayer Perceptron (MLP) é umas das redes neurais mais populares atual-mente [11], constituído de um conjunto de perceptrons que representam neurônios, o algo-ritmo é inspirado no funcionamento de um cérebro. Assim, diversas camadas de neurôniossão ligadas entre si por sinapses com pesos [12].

    Mais especificamente, a arquitetura pode ser descrita como uma rede de múltiplascamadas fortemente conectadas com conexões feedfoward, isto é, cada camada é formadapor neurônios que alimentam todos os neurônios da camada seguinte. As únicas camadasobrigatórias são a primeira e a última, as quais são compostas pelo conjunto de entradae de saída, respectivamente. Todas as demais são conhecidas como camadas escondidas(hidden layers). Não há limite de neurônios e nem de camadas intermediárias [15]. AFigura 2 representa a estrutura de uma rede neural Multilayer Perceptron.

    Um neurônio não é muito útil sozinho, devido a sua capacidade limitada de ma-peamento (linear). Cada neurônio possui uma função de ativação (logistic sigmoid ouhyperbolic tangent) que recebe como entrada as saídas da camada anterior multiplicadaspor seus respectivos pesos e por sua vez alimenta a camada seguinte [15].

    O treinamento de uma MLP é geralmente realizado por um algoritmo de apren-dizado supervisionado conhecido como backpropagation, o qual consiste em apresentarexemplos do problema e atualizar o peso das arestas que ligam os neurônios em cada umadas camadas do fim até o início com base na resposta apresentada pela rede. Vale ressaltarque o treinamento não altera a sua topologia, a qual deve ser previamente definida paraa resolução do problema [15].

  • 31

    Figura 2 – Representação do Multilayer Perceptron

    2.3 Biometria

    A biometria é a ciência que analisa estatisticamente características biológicas. Sis-temas biométricos podem ser descritos como um modo de identificação baseado em "quemvocê é ou o que você faz", fatos que os tornam mais seguros, eficientes e precisos que téc-nicas fundamentadas em "o que você tem"ou "o que você sabe". Os métodos baseados em"o que você tem", como um cartão ou documento, não são eficientes devido a possibilidadede perda ou roubo dos identificadores. Já as abordagens baseadas em "o que você sabe",como senhas, podem ser esquecidas ou descobertas por engenharia social [1, 2].

    Geralmente, os sistemas biométricos são utilizados para serviços de segurança etem como propósito a identificação ou verificação de um indivíduo segundo seus aspectos:físicos ou comportamentais. Um sistema de verificação é aquele que verifica se a pessoa équem ela afirma ser. Por outro lado, a identificação visa reconhecer o indivíduo apresen-tado [1]. As características mais utilizadas nos sistemas de biometria físicos baseiam-seem partes do corpo como: face, impressão digital, geometria da mão, padrões da palmada mão e íris. Já os sistemas comportamentais procuram padrões únicos em: assinaturas,vozes e gestos [2].

    De forma genérica, a identificação na biometria segue 3 passos. Inicialmente, ousuário a ser reconhecido providencia ao sistema a característica necessária. Desta ma-neira, os dados são processados para adquirir um padrão e compará-lo com uma grandebase de dados que contém padrões de outros usuários. Finalmente, o sistema responde sea pessoa em questão está ou não registrada na base de dados. Analogamente, um sistemabiométrico de verificação pode ser descrito como: o usuário a ser verificado providencia

  • 32

    algum identificador; o sistema captura as suas características biométricas; as característi-cas são processadas e comparadas com as do usuário presente no documento identificadorapresentado e no final, sabe-se se o usuário em questão é ou não quem alega ser [1].

    A importância de sistemas biométricos aumenta gradativamente, tal como suasaplicações, mas para ser considerado ideal, deve-se atender aos requisitos: apresentaruniversalidade, singularidade e permanência; ser coletável e acessível [16].

    ∙ Universalidade: todos os indivíduos devem apresentar esta informação.

    ∙ Singularidade: há diferenças das características de um usuário para outro.

    ∙ Permanência: durante a vida toda do usuário a identificação deve existir.

    ∙ Coletável: deve ser colhido com facilidade.

    ∙ Acessível: caracteriza-se por ser acessível o uso aos clientes.

    2.3.1 Tipos de Sistemas

    Há duas possíveis classificações para os sistemas que utilizam métodos de verifica-ção para as assinaturas de acordo com a categoria dos dados de entrada: on-line e off-line.O primeiro também é conhecido como sistema dinâmico, pois utiliza dispositivos sensí-veis à pressão que o permitem capturar características durante o processo de assinatura:posição, trajetória ou até a pressão em relação ao tempo [2]. Isto é, são precisos, masnecessitam da presença do dispositivo (geralmente tablets) no momento que a assinaturafor realizada. Logo, restringem as aplicações; o cheque é um exemplo [2, 1].

    Por outro lado, os sistemas off-lines baseiam-se em assinaturas físicas, as quaissão escaneadas para o sistema. Assim, são simples de serem empregados em diferentespropósitos e ambientes, porém o processo de extração de características é mais complexoque nos sistemas on-line e alguns atributos dinâmicos não podem ser simulados [2, 1].

    Outra classificação é em relação ao tipo de treinamento adotado, o qual podeser dividido em duas categorias: dependente ou independente de autor. Quando há adependência do autor, significa que há um modelo gerado para cada um dos donos daassinatura. Em contrapartida, um sistema independente lida apenas com um modelo paratodos os autores, o qual é capaz de determinar se uma assinatura é verdadeira ou falsaindependente de quem é o dono da assinatura.

    2.4 Grafoscopia

    A grafoscopia, também denominada: grafotecnia, grafística, grafotécnica, grafocrí-tica, perícia gráfica, entre outros; pode ser definida - no âmbito da criminologia - como a

  • 33

    ciência que estuda a autoria ou a verificação da autenticidade de um documento escrito,principalmente as assinaturas. Todavia, a grafoscopia não é equivalente à grafologia, aqual objetiva o estudo da personalidade do indivíduo através de sua escrita [4, 3].

    Dentre os processos para a análise de autenticidade de uma assinatura estão: oespecialista inicia a verificação com uma quantidade confiável de exemplares do indivíduoalegado e as estuda para observar a variação natural do sujeito. Desse modo, são avaliadoso conjunto geral da escrita e, posteriormente, o ritmo, pressão, dinamismo, calibre, in-clinação axial, espaçamentos intervocabulares, interliterais e interlineares, os movimentosda pena e as ligações do grama. Outros elementos observados são os genéticos: ataque,desenvolvimento e remate das letras [17, 4].

    As assinaturas são produzidas pela força do hábito. Assim que é iniciado o processode escrita, o hábito comanda os movimentos da caneta e a movimentação da mão temum padrão personalizado de ritmos de escrita à medida que os caracteres são formados.A dinâmica é tão natural ao ponto de surgirem características não conscientes que sãobalanceadas no próprio padrão: velocidade da caneta, a proporção dos movimentos e apressão [17].

    Os peritos grafotécnicos analisam a combinação de características morfológicas(aparência da assinatura) com as características presentes para a criação do padrão demovimentação (gênese gráfica). Se a assinatura em questão apresentar variações inexplicá-veis e significativamente maiores na gênese gráfica ou nas características morfológicas quea variação natural identificada, a assinatura em questão é falsa. Logo, quando uma assina-tura é forjada, há esforços conscientes para imitar as características morfológicas e conse-quentemente perda na qualidade da gênese gráfica. Tal como, caso o forjador concentre-sena gênese gráfica, haverá prejuízo na qualidade dos atributos morfológicos.[17]

    2.4.1 Elementos Analisados

    As características analisadas podem ser divididas em: genéricas (morfologia da assi-natura) e genéticas (gênese gráfica). Em relação as características morfológicas, observam-se: inclinação axial, espaçamentos, calibre, comportamentos em relação às linhas de basee de pauta, relação de proporcionalidade gráfica, valores angulares e curvilíneos [3].

    Para os elementos dinâmicos -aqueles derivados do estudo do gesto do autor- sãoverificados: pressão, progressão, ataque, desenvolvimento, remate, mínimos gráficos e mo-mentos gráficos.

    2.5 Trabalhos Correlatos

    Um dos objetos de interesse do presente estudo foi a grafoscopia como parte dosistema biométrico, ou seja, empregar as técnicas já comprovadas e usadas por peritos

  • 34

    grafotécnicos ao validar ou não uma assinatura e adaptá-las ao meio computacional. Con-sequentemente, alguns estudos foram feitos para assimilar melhor tais procedimentos.

    Bird et al. [6] e Sita et al. [7] realizaram análises comparativas das opiniões de pe-ritos grafotécnicos com as de leigos sobre a autenticidade de documentos e comprovaramcomo o conhecimento técnico dos profissionais associados à experiência os influenciarama terem taxas de erro significativamente menores que os leigos. Quanto ao primeiro es-tudo, 4.34% de erro dos especialistas e 12.16% dos leigos. Para o segundo, 3.9% e 19.3%,respectivamente.

    No trabalho de perícia grafotécnica [5], é elaborada uma investigação a cerca dequais características são mais frequentes em disfarces de assinaturas, objetivando facili-tar o discernimento entre uma simulação (assinatura falsificada por outro indivíduo) eo processo de disfarce gráfico (autofalsificação). O estudo também menciona o métodode verificação e quais características são importantes na análise grafotécnica. Por conse-guinte, os atributos verificados e os criteriosos procedimentos aplicados nos processos daspesquisas citadas auxiliaram o presente estudo.

    À medida que foram analisados diferentes casos na literatura de sistemas biomé-tricos de assinatura, pode-se observar a heterogeneidade de soluções propostas; os quaisapresentam variações quanto ao pré-processamento, atributos escolhidos, forma de com-paração, teste e treinamento. Porém, muitas das soluções oferecidas lidam apenas comassinaturas do tipo aleatória (o falsário não tem conhecimento da assinatura real do au-tor) que não devem ser o cerne para aplicações reais. Por consequência, como trabalhoscorrelatos serão apresentados apenas aqueles que tiveram testes de falsificações elaboradasou havendo a divisão entre ambas as classes na avaliação de resultados.

    Em [18, 19, 20] são mostrados estudos que empregaram em seus sistemas off-linea mesma base de dados que o trabalho atual usa: a SigComp 2011. Kennard et al. [18]propõe a utilização da deformação 2D geométrica das assinaturas questionadas para sealinharem as assinaturas de cada referência do autor. Depois, medem-se as distâncias dadiferença entre as assinaturas e calcula-se a média. Se a diferença média for maior que umlimiar gerado através das diferenças dos modelos de referência do autor, a assinatura éconsiderada falsa; caso contrário, autêntica. A precisão geral foi de 80% para as assinaturasholandesas; 74%, nas chinesas.

    Por outro lado, em [19] são utilizadas CNNs (Convolutional Neural Networks)para a extração de características isto é, a seleção de atributos é indireta. Assim, não háa necessidade de escolher minuciosamente características significativas para a resoluçãodo problema. Inicialmente, cria-se um extrator de atributos independente de autor comas CNNs usando o conjunto de treinamento. Em seguida, para cada autor, os pesos daúltima camada das CNNs são atualizados ao usar o conjunto de referências. Por fim, omodelo foi testado para as assinaturas questionadas e o resultado foi de aproximadamente

  • 35

    84% de precisão geral.

    Do mesmo modo, Alvarez et al. [20] aplica CNNs para a extração de atributos.Realizam-se o treinamento independente e o dependente de autor para comparar os re-sultados. Também são aplicados duas formas de treinamento independente: tendo posse(durante o treino) das falsificações dos autores que serão testados, isto é, considera-seuma situação imaginária ideal; e um treinamento mais ousado não incluindo os autorescujas assinaturas usadas no treinamento estão nos testes. Para o primeiro caso, obteve-se94% de precisão geral para as assinaturas holandesas e 88% para as chinesas. Já para osegundo; testou-se apenas nas assinaturas holandesas e atingiu-se 76% de precisão geral.Por fim, adaptando o método para um sistema dependente de autor, mediu-se novamenteapenas para as holandesas, 67,1% de precisão geral na validação.

    Outras pesquisas também foram realizadas com a SigComp 2011 após a compe-tição; no entanto, optaram pelo desenvolvimento de sistemas on-line: [21, 22]. Em [21],para conseguir comparar duas assinaturas, calculou-se a diferença máxima entre as fun-ções de distribuição cumulativa através do teste Kolmogorov-Smirnov. Durante o treino,mensurou-se os valores máximos e mínimos das diferenças para cada atributo e gerou-se amédia. No teste foram realizadas comparações dos valores obtidos das questionadas comos resultados das referências. Os resultados de FAR foi de 7.86% e FRR de 8.02%

    Parodi et al. [22] sugere uma nova forma de extração de atributos; para isso,são utilizados os coeficientes das séries ortogonais polinomiais que são empregadas nasaproximações das funções temporais associadas ao processo da assinatura. Posteriormente,comparam-se as respostas obtidas com os algoritmos Support Vector Machines e RandomForests para as classificações das assinaturas. As Random Forests tiveram desempenhosuperior em relação ao algoritmo SVM, independente do estilo de assinatura.

    É interessante ressaltar que a aplicação explícita de critérios da grafoscopia comofundamento para o desenvolvimento de sistemas off-line não é tão frequente quanto outrasmetodologias. Desse modo, não foram encontrados trabalhos desse gênero que testassempara a mesma base, mas há pesquisas que fizeram experimentos com fraudes elaboradas eempregaram a grafoscopia (não apenas nos quesitos relacionados ao formato) para outrasbases, tem-se como exemplos: [23, 24, 25].

    O trabalho de Oliveira et al. [23] tem como objetivo a verificação de assinaturafundamentada no conjunto de intersecção de características da grafologia e grafoscopia.É necessário ressaltar que a grafologia não é o mesmo estudo que a grafoscopia, masapresenta algumas características similares, as quais são empregadas no método propostopelo autor. Ademais, utiliza-se o modelo estatístico Hidden Markov como classificador.Finalmente, medem-se os resultados obtidos com cada atributo para 3 tipos de fraudesdiferentes: simples, aleatória e elaborada. A característica que obteve melhor resultadofoi a inclinação da assinatura, sendo 0.72% de erro do tipo falso positivo para as fraudes

  • 36

    aleatórias, 2.50% para as simples e 32.33% para as elaboradas.

    A proposta de Franco et al. [24] consiste em dois métodos para a classificaçãode assinaturas provenientes de uma base de dados própria. Ambas as abordagens usamredes neurais, mas variam em parâmetros, pré-processamento e extração de atributos. Aprimeira, utiliza algoritmos automáticos de pré-processamento e 500 atributos, os quaisrepresentam o somatório de cada linha e coluna da imagem. Já na segunda, realizam-setécnicas manuais para a remoção de ruídos e aumento do contraste. Também adiciona-se400 atributos que representam os pixels de uma miniatura da imagem e mais um para aproporção, totalizando 901 atributos. A base contém 3 autores, sendo 180 assinaturas aotodo (60 verdadeiras e 120 falsificadas). A primeira técnica resultou em erro de 20%; asegunda, 5.83%, mas a abordagem manual e o tamanho reduzido da base inviabilizam ageneralização da técnica.

    Um último exemplo de pesquisa relacionada é vista no trabalho de Amaral [25], oqual demonstra o uso da grafoscopia com o propósito não de verificação de autenticidade,e sim de identificação do autor de uma assinatura. Os experimentos são conduzidos coma base Brazilian Forensic Letter Database, que contém 534 autores e 3 amostras de cartasde cada, contudo, usou-se só 60 amostras de 20 autores. Os atributos selecionados são:número de linhas, proporção de pixels pretos, posições nas margens e altura da primeirapalavra. Assim, o algoritmo SVM é aplicado na classificação e compara-se os resultadosobtidos com outros trabalhos similares de identificação de autor.

  • 37

    3 PROCEDIMENTOS METODOLÓGICOS

    Este capítulo relata as especificações da base de dados escolhida, os procedimentosutilizados para a criação do sistema off-line de verificação de assinaturas fundamentadona grafoscopia, especifica como foram desenvolvidos os testes para a validação e para acomparação entre os algoritmos de aprendizado de máquina. No capítulo 4 serão discutidose apresentados os resultados dos experimentos.

    3.1 Base de Dados

    Com o intuito de testar o sistema proposto, é necessário ter uma base de dados comuma quantidade significativa de assinaturas de diferentes autores e versões de assinaturasfalsas para serem testadas. Ademais, para provar o uso do método proposto em situaçõesreais, é fundamental que a base contenha um grande conjunto de testes com falsificaçõeselaboradas (o falsário tendo conhecimento da assinatura do autor original). Sendo assim,foi utilizado a base da SigComp2011, a qual detém de assinaturas holandesas e chinesasdisponíveis para testar sistemas off-line ou on-line.

    A SigComp 2011 é uma competição de verificação de assinaturas que possui umabase de dados própria, a qual é reconhecida por apresentar assinaturas relevantes para aanálise forense. Os participantes tinham a liberdade de escolher entre criar um sistemaoff-line, on-line ou ambos [26]. A tabela 1 expõe a quantidade de assinaturas chinesas eholandesas presentes na base de dados; a parcela de assinaturas off-line e on-line dedicadaspara treino e teste; o número de autores genuínos contidos em cada caso.

    No total foram 13 sistemas submetidos na competição, sendo de 5 instituições di-ferentes. Para o sistema proposto no presente estudo, utiliza-se unicamente as assinaturasoff-line e os resultados também são comparados com os participantes da competição queempregaram tais escolhas.

    Tabela 1 – Assinaturas da Base SigComp2011

    Chinesas Treino TesteOff-line 575 659On-line 602 680

    Número de Autores 10 10

    Holandesas Treino TesteOff-line 362 1933On-line 449 1907

    Número de Autores 10 54

  • 38

    3.2 Método Desenvolvido

    O método criado une técnicas de processamento de imagens a diferentes algorit-mos de aprendizado de máquina para classificar as assinaturas. Inicialmente é descritoa estrutura do sistema desenvolvido e depois, os motivos de diversas decisões de projetotomadas.

    3.2.1 Estrutura do Sistema

    A Figura 3 apresenta a representação geral do sistema proposto baseado na gra-foscopia. As assinaturas servem como entrada e já que o método é dependente de autor,deve-se indicar quem a escreveu. Para a saída dos testes, tem-se a resposta de autenti-cidade da assinatura passada. Os procedimentos gerais para o treinamento do sistemasão:

    ∙ Assinatura: as assinaturas são do tipo off-line e provenientes da base de dados Sig-Comp2011.

    ∙ Pré-processamento e segmentação: aplicação de um pré-processamento na imagempara a remoção de ruídos, normalização dos tamanhos das assinaturas utilizadas,conversão das cores paras tons de cinza e isolamento da região de interesse, ou seja,a separação da assinatura do fundo da imagem.

    ∙ Representação e descrição: tradução das características da grafoscopia para umarepresentação adequada ao funcionamento do sistema. Desse modo, é gerado umvetor de atributos que descrevem algumas peculiaridades analisadas na grafoscopia.A Tabela 2 indica quais características foram utilizadas e como foram expressadas.Desenvolveu-se apenas os atributos mais relevantes para o problema e adaptou-sealgumas características. Por exemplo, não adotou-se o comportamento com a linhabase ou pauta, devido a inexistência da linha de referência nas assinaturas.

    Tabela 2 – Representação das Características da Grafoscopia

    Características RepresentaçãoCalibre Área da assinatura.

    Proporção Relação entre largura e altura da assinatura.Inclinação Axial Inclinação da assinatura toda.

    Pressão Análise dos níveis de cinza.Progressão Análise da distribuição da pressão.

    Ataque Ponto de início da assinaturaRemate Ponto de fim da assinatura.Gramas Conta-se a quantidade de gramas.

  • 39

    ∙ Treinamento: o treinamento empregado para todos os classificadores do trabalhosão dependentes de autor. Portanto, criou-se um classificador com cada algoritmode aprendizado de máquina para cada um dos autores.

    ∙ Modelo da assinatura: criações dos modelos da assinatura de cada autor, os quaisauxiliam na decisão de veracidade das assinaturas questionadas.

    Figura 3 – Representação do Sistema

    As entradas de teste são submetidas aos mesmos 4 primeiros processos ilustra-dos na Figura 3 e descritos anteriormente (informações da assinatura, pré-processamento,segmentação e representação e descrição), mas não há intersecção entre o conjunto de assi-naturas de referência utilizado no treinamento e o conjunto de questionadas do teste. Alémdisso, o teste usa o modelo gerado na fase de treinamento de cada um dos classificadorespara concluir se a assinatura questionada é falsa ou autêntica do autor indicado.

    No conjunto de testes de ambas as nacionalidades, há a divisão de pastas deno-minadas: referência e questionadas. Portanto, os testes empregados são de acordo coma separação sugerida de questionadas da SigComp2011. Logo, são testadas as 1287 as-

  • 40

    sinaturas holandesas, sendo 54 autores de referência e 487 chinesas com 10 autores dereferência.

    3.2.2 Decisões de Projeto

    Visto que o trabalho pretende servir de auxílio para diversas instituições (bancos,cartórios e empresas), é importante que não haja restrições das atividades que podem serrealizadas com o método, por exemplo, poder verificar cheques. Sendo assim, foi escolhidoo desenvolvimento de um sistema off-line, em razão de não haver a limitação de usarum dispositivo - geralmente tablets - para capturar a assinatura e haver maior aceitaçãode uso por parte dos usuários, pois o sistema off-line verificaria através da digitalizaçãoda assinatura adquirida. Portanto, o ato de assinar se manteria o mesmo, com papéis ecanetas comuns.

    Outra questão a ser é ressaltada é o tipo de treinamento escolhido: o dependentede autor. Como um dos propósitos do trabalho é o uso do estudo da grafoscopia no de-senvolvimento do sistema, o treinamento dependente de autor é mais apropriado que oindependente, pois a verificação é semelhante à análise dos peritos ao comparar a as-sinatura questionada com as assinaturas de referência provenientes do autor, ou seja,são avaliadas as variações intrapessoais para aquele autor e a questionada deve possuircaracterísticas similares para ser considerada como autêntica.

    Assim, para cada autor o treinamento foi realizado com as assinaturas genuínasde referência e as assinaturas de outros autores, não havendo em nenhum dos casos trei-namento de falsificações com a assinatura do autor de referência, pois dificilmente emaplicações reais haveria a posse de assinaturas falsificadas de cada um dos clientes cadas-trados para o uso do treinamento do sistema.

    3.3 Formas de Validação

    Depois da fase de teste do sistema, isto é, após serem geradas as predições dasassinaturas pelos classificadores, é necessário definir métricas de comparação entre os re-sultados encontrados e os rótulos reais (autêntica ou falsa). Consequentemente, para podervisualizar a qualidade do método desenvolvido com o Naive Bayes, Logistic Regression,Random Forest e Multilayer Perceptron, calcula-se como métrica decisiva o EER (EqualError Rate).

    O EER é uma métrica proposta pelo International Organization for Standardiza-tion (ISO/IEC). Logo, uma das mais utilizadas para a avaliação de sistemas biométricos,pois permite a comparação e avaliação entre os sistemas [27]. Esta métrica considera olimiar onde os valores de erro são mais similares para a falsa rejeição e falsa aceitação;

  • 41

    quanto menor o valor de EER, melhor é o resultado, pois maior será a precisão geral dosistema.

    A falsa rejeição (FRR) é quando há a rejeição indevida de uma assinatura genuína,considerando-a falsa. Por outro lado, a falsa aceitação (FAR) é a classificação inadequadade uma assinatura que é falsificada, mas foi considerada autêntica. Sabendo que TP denotao número de assinaturas devidamente classificadas como genuínas e TR, as corretamenteclassificadas como falsificações, pode-se calcular o FAR e FRR [28]:

    𝐹𝐴𝑅 = 𝐹𝑃𝑇𝑅 + 𝐹𝑃

    𝐹𝑅𝑅 = 𝐹𝑅𝑇𝑃 + 𝐹𝑅

    Assim, primeiramente geram-se as curvas ROC para analisar em que ponto atinge-se a taxa ERR. Logo, testa-se o limiar 𝜏 em um grande intervalo para encontrar onde astaxas de erro FAR e FRR são mais similares (com o menor valor absoluto) [27]. No pontoencontrado, descobre-se também a matriz de contingência. Depois, pode ser medida aprecisão geral (accuracy) do sistema nesse limiar para descobrir a porcentagem de decisõescorretas em relação à todas as 𝑇 assinaturas questionadas [26], as quais totalizam 1287para as assinaturas holandesas e 487, chinesas. A precisão geral é medida pela equação[28]:

    𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 = 𝑇𝑃 + 𝑇𝑅𝑇

    Com o intuito de realizar uma análise comparativa do melhor resultado obtido dosclassificadores criados com os da literatura, ainda avalia-se com a métrica EER, mas comoanálise complementar também são aplicados os critérios avaliados pela própria comissãoavaliadora da SigComp 2011 [26]. Consequentemente, após medir os resultados do EER e aprecisão geral, calcula-se as métricas: de custo de log-likelihood ̂︀𝐶𝑢𝑟 e o menor valor mínimopossível do custo de log-likelihood ̂︀𝐶𝑚𝑖𝑛𝑢𝑟 , ambos mensurados através do método propostoem [29]. Sendo a última métrica o critério final da SigComp 2011 para a avaliação domelhor sistema desenvolvido. Assim, serão confrontados com os resultados dos 7 sistemasparticipantes da competição, levando em consideração os valores de EER e custo mínimode log-likelihood.

    É importante esclarecer que um dos propósitos do trabalho é em relação as res-postas dos classificadores, isto é, se o sistema consegue analisar corretamente se umaassinatura é verdadeira ou falsificada para determinado autor. Logo, a análise do customínimo de log-likelihood é apenas complementar, pois não serve para medir a precisão dasclassificações. O propósito do ̂︀𝐶𝑚𝑖𝑛𝑢𝑟 é adicionar as evidências dos peritos uma análise emrelação aos valores de similaridade ou diferença, ou seja, o cálculo de uma probabilidadecom base no grau de certeza das decisões [26].

  • 43

    4 RESULTADOS E DISCUSSÃO

    Na seção 3.3 foram apresentadas as métricas avaliadas para medir o desempenhodo método desenvolvido tanto em relação aos diferentes classificadores com os algoritmosNaive Bayes, Logistic Regression, Random Forest e Multilayer Perceptron quanto emcomparação aos outros trabalhos presentes na literatura. Portanto, neste capítulo sãoanalisados os resultados obtidos e discute-se a avaliação geral do sistema proposto.

    4.1 Comparação dos Resultados dos Algoritmos Testados

    Conforme mencionado anteriormente, para medir o desempenho do sistema comcada algoritmo, utilizou-se como métrica o EER (Equal Error Rate). A Tabela 3 indica osresultados adquiridos de taxas de erro falso positivo (FAR) e falso negativo (FRR), comotambém, a precisão geral do sistema proposto ao empregar os diferentes algoritmos paraa verificação de autenticidade de assinaturas off-line holandesas da base SigComp2011.Similarmente, na Tabela 4 há os resultados das assinaturas chinesas off-line.

    Tabela 3 – Resultados dos testes do método proposto com as assinaturas holandesasAlgoritmo FAR FRR EER Precisão geral

    Random Forest 0.16 0.31 0.23 99.77Multilayer Perceptron 0.63 0.62 0.62 99.38

    Naive Bayes 1.41 1.39 1.40 98.60Logistic Regression 1.56 1.39 1.48 98.52

    Tabela 4 – Resultados dos testes do método proposto com as assinaturas chinesasAlgoritmo FAR FRR EER Precisão geral

    Random Forest 32.97 33.33 33.15 66.94Multilayer Perceptron 33.24 31.67 32.45 67.15

    Naive Bayes 35.15 34.17 34.66 65.09Logistic Regression 35.42 33.33 34.38 65.09

    Para uma análise mais evidente dos números obtidos apresentados nas Tabelas 3e 4, também podem ser visualizadas em 5 e 6 as matrizes de contingência (matrizes deconfusão) de cada um dos algoritmos anteriores em ambas as nacionalidades. Assim, pode-se analisar valores quantitativos discretos de assinaturas classificadas corretamente e oserros obtidos FP e FN, ou seja, quantas assinaturas foram classificadas inadequadamentecomo sendo autênticas (FP), assim como a quantidade de assinaturas classificadas comofalsas sendo genuínas (FN). Portanto, os valores primitivos ao cálculo de FAR e FRR.

  • 44

    Tabela 5 – Resultados das matrizes de confusão para as assinaturas holandesasAlgoritmo TP FP FN TN Classificadas Corretamente

    Random Forest 646 2 1 638 1284Multilayer Perceptron 644 4 4 635 1279

    Naive Bayes 639 9 9 630 1269Logistic Regression 639 9 10 629 1268

    Tabela 6 – Resultados das matrizes de confusão para as assinaturas chinesasAlgoritmo TP FP FN TN Classificadas Corretamente

    Random Forest 80 40 121 246 326Multilayer Perceptron 82 38 122 245 327

    Naive Bayes 79 41 129 238 317Logistic Regression 80 40 130 237 317

    Através da Tabela 7 são apresentados os resultados dos participantes da Sig-Comp2011 para as assinaturas holandesas. O ID definido como Proposta na última linhada tabela é referente ao método proposto no trabalho com o algoritmo de aprendizado demáquina que obteve a maior precisão geral e menor taxa EER. Similarmente na Tabela8, ilustram-se os resultados para as assinaturas chinesas.

    Tabela 7 – Resultados da SigComp2011 para assinaturas off-lines holandesas

    ID Precisão Geral FRR FAR ̂︀𝐶𝑢𝑟 ̂︀𝐶𝑚𝑖𝑛𝑢𝑟Sabanci 82.91 17.93 16.41 0.730387 0.573175

    Anonymous-1 77.99 22.22 21.75 2.456203 0.674031HDU 87.80 12.35 12.05 0.415796 0.386128

    Qatar-1 95.57 4.48 4.38 0.714976 0.133917Qatar-2 97.67 2.47 2.19 0.900352 0.075223DFKI 75.84 23.77 24.57 1.664745 0.722033

    Anonymous-2 71.02 29.17 28.79 4.133458 0.794021Proposta 99.77 0,31 0,15 0.126124 0.083587

    Tabela 8 – Resultados da SigComp2011 para assinaturas off-lines chinesas

    ID Precisão Geral FRR FAR ̂︀𝐶𝑢𝑟 ̂︀𝐶𝑚𝑖𝑛𝑢𝑟Sabanci 80.04 21.01 19.62 0.757712 0.693347

    Anonymous-1 73.10 27.50 26.70 3.062735 0.765021HDU 72.90 27.50 26.98 1.125224 0.789918

    Qatar-1 56.06 45.00 43.60 1.260461 0.890711Qatar-2 51.95 50.00 47.41 3.222468 0.951274DFKI 62.01 37.50 38.15 1.573580 0.926571

    Anonymous-2 61.81 38.33 38.15 6.227011 0.918450Proposta 67.15 33.24 31.67 1.9951057 0.92587405

  • 45

    4.2 Avaliação Total do Método Desenvolvido

    Após ajustar o limiar 𝜏 para encontrar o EER, o sistema desenvolvido com os al-goritmos Naive Bayes, Logistic Regression, Random Forest e Multilayer Perceptron apre-sentaram performances excelentes para discernir assinaturas holandesas genuínas dos 54autores e as falsificações elaboradas. Os resultados foram de 98.52% a 99.77% de precisãogeral e taxa de erro EER de 0.23% a 1.48%. Sendo que o classificador com o algoritmoRandom Forest conquistou o melhor resultado, isto é, menor valor de EER e maior preci-são geral (accuracy), errando apenas a classificação de 3 assinaturas em um total de 1287;dos 3 erros obtidos no ponto EER, uma assinatura falsa foi classificada como verdadeirae duas genuínas consideradas como falsificadas.

    Para as assinaturas chinesas, o EER foi de 32.45% a 34.66% e precisão geral de65.09% a 67.15%. Um dos motivos de terem sido relativamente inferiores é devido aofato de as assinaturas chinesas terem tido uma aquisição bem menos cuidadosa, poishá o aparecimento da caixa usada para o preenchimento cortada em diferentes pontosa cada assinatura, rotação envolvendo a caixa de preenchimento, assinaturas borradas,manchas ao redor e a presença de pontos, os quais não há conhecimento se fazem parte daassinatura ou são apenas ruídos. O algoritmo Multilayer Perceptron foi o que conquistoumenor taxa de erro EER, 32.45%; com precisão geral de 67.15%. Assim, foram classificadascorretamente 327 das 487.

    Já ao confrontar o método desenvolvido com o Random Forest em relação aosoutros trabalhos de sistemas off-line da competição para as assinaturas holandesas, foramavaliados também com os critérios da comissão da SigComp 2011, isto é, analisou-se alémdo EER e a precisão geral, o valor de custo mínimo do log-likelihood apenas como umaanálise complementar, o qual foi de 0.083587. Esta métrica considera superior o sistemaque obtiver o menor valor e serve de auxílio como grau de certeza das decisões. O trabalhodesenvolvido obteve valores de precisão geral e taxas de erro EER melhores que todos ossistemas da competição comparados. Para o ̂︀𝐶𝑚𝑖𝑛𝑢𝑟 , atingiu-se o segundo melhor.

    Em relação as assinaturas chinesas, os resultados foram satisfatórios ao obter pre-cisão geral e taxas de erro melhores que a média, mas assim como todos os competidoresda SigComp 2011, os resultados foram inferiores em relação ao desempenho do mesmosistema testado com as assinaturas holandesas. O custo mínimo de log-likelihood do traba-lho proposto com o algoritmo Multilayer Perceptron alcançou o quinto melhor resultadode ̂︀𝐶𝑚𝑖𝑛𝑢𝑟 em relação aos outros sistemas.

  • 47

    5 CONCLUSÃO

    Neste trabalho, foi criado um sistema para auxiliar à decisão de autenticidade deassinaturas. Considerou-se situações reais para a estruturação do método: a introdução deapenas fraudes do tipo elaboradas, pois assume-se que o falsário tem posse da assinaturaautêntica; a não existência de amostras de fraudes de cada autor presente na base dedados para o treinamento; e não restringir o sistema à aplicações que necessitam de novosaparelhos para colher a assinatura, ou seja, preservando o ato de assinar com papéis ecanetas comuns.

    A proposta desenvolvida é fundamentada na grafoscopia não apenas na seleção deatributos, bem como, no treinamento e teste. Também comparou-se os resultados obtidoscom os classificadores: Random Forest, Naive Bayes, Logistic Regression e MultilayerPerceptron. Ao todo foram avaliadas 1287 assinaturas holandesas de 54 autores e 487assinaturas chinesas de 10 autores. Sendo o algoritmo Random Forest o mais promissorpara o método proposto.

    Os resultados dos testes com as assinaturas holandesas apresentaram taxa de erroEER de 0,23%, precisão geral de 99.77% e 0.083587 de custo mínimo do log-likelihood.Como resultado, obteve-se a melhor precisão geral e a menor taxa de erro EER que todosos outros 7 sistemas da competição do SigComp 2011, mas se avaliado em relação aô︀𝐶𝑚𝑖𝑛𝑢𝑟 , alcança o segunda posição.

    Em relação as assinaturas chinesas, o classificador com o Multilayer Perceptron foio que mais se destacou dentre os outros algoritmos, mas com uma diferença mínima emrelação ao Random Forest. O EER do MLP foi 32.45%, a precisão geral 67.15% e o ̂︀𝐶𝑚𝑖𝑛𝑢𝑟0.92587405. Ao comparar com os mesmos sistemas da literatura ficou acima da média deacordo com a precisão geral e as taxas de erro dos outros competidores, porém, se medidopara o propósito de análise de similaridade, ficaria em quinto.

    É evidente que a verificação de autenticidade não é um trabalho trivial, pois écomplicado o discernimento entre a variação intrapessoal do autor com uma assinaturade falsário, ainda mais se o mesmo tem a posse das assinaturas originais para treinar.Portanto, devem haver cuidados inclusive em relação a aquisição das assinaturas paraadquirir melhores resultados. Fato que pode ser percebido na diminuição de precisão dosresultados das assinaturas holandesas de todos os sistemas participantes da competição doSigComp 2011 em relação as assinaturas chinesas, principalmente aqueles que obtiverammelhores resultados de precisão (accuracy).

    De forma geral, o método proposto apresenta alta universalidade, pois grandeparte da população detém de assinaturas, mesmo aqueles que não possuem idade gráfica

  • 48

    avançada; provou-se a singularidade do sistema baseado na grafoscopia através da precisãogeral adquirida; a introdução do aprendizado de máquina auxilia a manter a permanência(não necessita a reescrita constante do programa para ser condizente com a evolução daassinatura durante os anos); é altamente coletável e acessível devido à decisão de mantero sistema como off-line. Portanto, pode-se afirmar que tem os requisitos compatíveis aosobjetivos de um sistema biométrico.

    Desse modo, os excelentes resultados obtidos de precisão geral e taxas de erro sãoem virtude do apurado estudo a respeito do problema e como o mesmo é realizado de formanão automática, isto é, quais são as prioridades dos peritos grafotécnicos ao verificar umaassinatura e como eles as analisam para determinar a autenticidade. Consequentemente,pode-se escolher atributos relevantes, saber apurar sobre a necessidade de utilização dealgoritmos de aprendizado de máquina e optar pelo tipo de treinamento adequado àsolução proposta. Em suma, é indispensável compreender o objeto de pesquisa antes deestruturar a solução, pois dificilmente a técnica conseguirá resultados melhores para ageneralização da solução se não há informações relevantes ou suficientes.

    Como considerações finais, é interessante ressaltar que o sistema desenvolvido apre-sentou a melhor precisão geral para as assinaturas holandesas, mas ficaria em segundolugar em relação ao custo mínimo de log-likelihood. Consequentemente, pode-se afirmarque assim como constatado em [26], diferentes sistemas podem apresentar melhores per-formances em tarefas diferentes. Se o objetivo é puramente a classificação de verdadeiraou falsa, o método desenvolvido fica em primeiro lugar pela precisão geral nas respostas(99.77%). Porém, se o propósito for o mesmo da SigComp 2011, ou seja, quantificar ograu de certeza sobre as assinaturas para auxiliar um perito em um laudo judicial, o tra-balho proposto ficaria em segundo. Dessa forma, o método desenvolvido é excelente como objetivo de auxiliar a determinação de autenticidade para as instituições.

    Em um trabalho futuro, deseja-se refinar ainda mais o sistema, em questões depré-processamento, para poder superar mesmo as situações em que há condições bemprecárias na aquisição das assinaturas (como é o caso das assinaturas chinesas testadas).Espera-se também que seja aplicado em instituições públicas e privadas para auxiliar asdecisões de autenticidade e a prevenção de fraudes. Inclusive pois a introdução do sistemaautomático vai ao encontro dos interesses dos clientes e das empresas. Para os primeiros,colaboraria na preservação de um dos bens mais valiosos, a identidade. Já para os últimos,manter o respeito dos clientes ao zelar por sua segurança, aumentando a credibilidade damarca; além de diminuir os numerosos gastos devido às ações fraudulentas de terceiros.

  • 49

    REFERÊNCIAS

    [1] ZHANG, D. Automated Biometrics: Technologies and Systems. Springer US, 2013.(The International Series on Asian Studies in Computer and Information Science).ISBN 9781461545194. Disponível em: .

    [2] JAIN, A.; FLYNN, P.; ROSS, A. A. Handbook of biometrics. [S.l.]: Springer Science& Business Media, 2007.

    [3] GOMIDE, T. L. Manual de Grafoscopia. [S.l.]: Leud, 2016. ISBN 9788574563275.

    [4] GOMIDE, L.; GOMIDE, T. L. F. Grafoscopia: estudos. [S.l.]: Del Rey, 1997.

    [5] GORZIZA, R. P. Estudo das características gráficas mais frequentemente alteradasem disfarces de assinaturas. Revista Brasileira de Criminalística, v. 6, n. 1, p. 52–61,2017.

    [6] BIRD, C.; FOUND, B.; ROGERS, D. Forensic document examiners’ skill indistinguishing between natural and disguised handwriting behaviors. Journal offorensic sciences, Wiley Online Library, v. 55, n. 5, p. 1291–1295, 2010.

    [7] SITA, J.; FOUND, B.; ROGERS, D. K. Forensic handwriting examiners’ expertisefor signature comparison. Journal of Forensic Science, ASTM International, v. 47,n. 5, p. 1–8, 2002.

    [8] GONZALEZ, R. C.; WOODS, R. E. Digital Image Processing (3rd Edition). UpperSaddle River, NJ, USA: Prentice-Hall, Inc., 2006. ISBN 013168728X.

    [9] FILHO, O. M.; NETO, H. V. Processamento digital de imagens. [S.l.]: Brasport,1999.

    [10] SHALEV-SHWARTZ, S.; BEN-DAVID, S. Understanding machine learning: Fromtheory to algorithms. [S.l.]: Cambridge University Press, 2014.

    [11] AYODELE, T. O. Machine learning overview. In: New Advances in MachineLearning. [S.l.]: InTech, 2010.

    [12] MICHALSKI, R. S.; CARBONELL, J. G.; MITCHELL, T. M. Machine learning:An artificial intelligence approach. [S.l.]: Springer Science & Business Media, 2013.

    [13] BISHOP, C. Pattern Recognition and Machine Learning. 1st. ed. [S.l.]: Springer-Verlag New York, 2006.

    [14] BREIMAN, L. Random forests. Machine learning, Springer, v. 45, n. 1, p. 5–32,2001.

    [15] JANTZEN, J. Introduction to perceptron networks. Technical University ofDenmark, Lyngby, Denmark, Technical Report, 1998.

    [16] EL-ABED, M.; CHARRIER, C.; ROSENBERGER, C. Evaluation of biometricsystems. In: New Trends and developments in biometrics. [S.l.]: InTech, 2012.

    https://books.google.com.br/books?id=tx\_lBwAAQBAJhttps://books.google.com.br/books?id=tx\_lBwAAQBAJ

  • 50

    [17] SLYTER, S. A. Forensic signature examination. [S.l.]: Charles C Thomas Publisher,1995.

    [18] KENNARD, D. J.; BARRETT, W. A.; SEDERBERG, T. W. Offline signatureverification and forgery detection using a 2-d geometric warping approach. In: IEEE.Pattern Recognition (ICPR), 2012 21st International Conference on. [S.l.], 2012. p.3733–3736.

    [19] COZZENS, B. et al. Signature verification using a convolutional neural network.

    [20] ALVAREZ, G.; SHEFFER, B.; BRYANT, M. Offline signature verification withconvolutional neural networks.

    [21] GRIECHISCH, E.; MALIK, M. I.; LIWICKI, M. Online signature verification basedon kolmogorov-smirnov distribution distance. In: IEEE. Frontiers in HandwritingRecognition (ICFHR), 2014 14th International Conference on. [S.l.], 2014. p.738–742.

    [22] PARODI, M.; GOMEZ, J. C.; LIWICKI, M. Online signature verification basedon legendre series representation: Robustness assessment of different featurecombinations. In: IEEE. Frontiers in Handwriting Recognition (ICFHR), 2012International Conference on. [S.l.], 2012. p. 379–384.

    [23] OLIVEIRA, L. S. et al. The graphology applied to signature verification. In: 12thConference of the International Graphonomics Society. [S.l.: s.n.], 2005. p. 286–290.

    [24] FRANCO, D. P.; BARBOZA, F. D.; CARDOSO, N. M. A forensic tool for signatureauthenticity verification through digital image processing and artificial neuralnetworks. ICoFCS 2013, p. 7.

    [25] AMARAL, A. M. M.; FREITAS, C. O.; BORTOLOZZI, F. The graphometryapplied to writer identification. In: THE STEERING COMMITTEE OF THEWORLD CONGRESS IN COMPUTER SCIENCE, COMPUTER ENGINEERINGAND APPLIED COMPUTING (WORLDCOMP). Proceedings of the InternationalConference on Image Processing, Computer Vision, and Pattern Recognition(IPCV). [S.l.], 2012.

    [26] LIWICKI, M. et al. Signature verification competition for online and offline skilledforgeries (sigcomp2011). In: IEEE. Document Analysis and Recognition (ICDAR),2011 International Conference on. [S.l.], 2011. p. 1480–1484.

    [27] GIOT, R.; EL-ABED, M.; ROSENBERGER, C. Fast computation of theperformance evaluation of biometric systems: Application to multibiometrics. FutureGeneration Computer Systems, Elsevier, v. 29, n. 3, p. 788–799, 2013.

    [28] FAWCETT, T. An introduction to roc analysis. Pattern recognition letters, Elsevier,v. 27, n. 8, p. 861–874, 2006.

    [29] BRUMMER, N. Measuring, refining and calibrating speaker and languageinformation extracted from speech. Tese (Doutorado) — Stellenbosch: University ofStellenbosch, 2010.

    Folha de rostoFolha de aprovaçãoDedicatóriaAgradecimentosEpígrafeResumoAbstractLista de ilustraçõesLista de tabelasLista de abreviaturas e siglasSumárioIntroduçãoFundamentação TeóricaProcessamento de Imagens e Visão ComputacionalPré-ProcessamentoSegmentaçãoRepresentação e Descrição

    Aprendizado de MáquinaNaive BayesLogistic RegressionRandom ForestMultilayer Perceptron

    BiometriaTipos de Sistemas

    GrafoscopiaElementos Analisados

    Trabalhos Correlatos

    Procedimentos MetodológicosBase de DadosMétodo DesenvolvidoEstrutura do SistemaDecisões de Projeto

    Formas de Validação

    Resultados e DiscussãoComparação dos Resultados dos Algoritmos TestadosAvaliação Total do Método Desenvolvido

    ConclusãoReferências