Jaqueline Ferreira de Brito - jqebrito.files.wordpress.com · Universidade de São Paulo Escola de Artes, Ciências e Humanidades Jaqueline Ferreira de Brito Análise Qualitativa

U N I V E R S I D A D E DE S A O P A U L O

Escola de Artes, Ciencias e Humanidades

Jaqueline Ferreira de Brito

Análise Qualitativa de Padrões de Escrita Cursiva

São PauloJunho de 2010

Universidade de São PauloEscola de Artes, Ciências e Humanidades



Monografia apresentada à Escola de Artes,Ciências e Humanidades, da Universidadede São Paulo, como parte dos requisitosexigidos na disciplina ACH2017 – ProjetoSupervisionado ou de Graduação I, do curso deBacharelado em Sistemas de Informação.

Orientadora:

Profa. Dra. Sarajane Marques Peres


Universidade de São PauloEscola de Artes, Ciências e Humanidades



Monografia apresentada à Escola de Artes,Ciências e Humanidades, da Universidadede São Paulo, como parte dos requisitosexigidos na disciplina ACH2017 – ProjetoSupervisionado ou de Graduação I, do curso deBacharelado em Sistemas de Informação.

Banca Examinadora:

Prof. Dr. Ivandré ParaboniEACH-USP

Profa. Dra. Patricia Rufino OliveiraEACH-USP


i

Agradecimentos

Agradeço a Deus por me fazer entender que sem esforço, empenho e dedicação não se chega

em lugar algum.

Aos meus pais, amigos e namorado pelo o apoio, amor, carinho e compreensão. Serei

eternamente grata a vocês!

À Profa. Dra. Sarajane Marques Peres por me mostrar uma parte da deslumbrante área de

Inteligência Artificial e pelo seu trabalho de orientação.

À Profa. Dra. Cynthia Hiraga em colaborar como “especialista do domínio de aplicação”,

diante de suas pesquisas na área de comportamento motor e humano.

E aos educadores da EACH-USP, com os quais tive a oportunidade não só de aprender a

aprender, mas de enxergar o mundo com outros olhos.

ii

Glossário

IA: Inteligência Artificial

MLP: Multi-Layer Perceptron

RNA: Rede Neural Artificial

iii

Resumo

Existem variadas formas de analisar a qualidade da escrita cursiva as quais requerem a constru-ção de modelos específicos. Essa necessidade também é válida quando a qualidade é avaliadapor meio de reconhecimento de padrões. O presente trabalho, formulado como continuação deum projeto “Ensinar com Pesquisa”, teve como objetivo aplicar modelos de reconhecimento depadrões, baseados em Redes Neurais Artificiais Perceptron Multicamadas com Backpropaga-tion, ao problema de análise da escrita cursiva. Instâncias específicas de escrita são abordadas,provendo automação de análise de capacidades cognitivas e de coordenação motora.

Palavras-chave: Qualidade em Escrita Cursiva, Inteligência Artificial, Reconhecimento de Pa-drões, Redes Neurais Artificiais, Perceptron Multicamadas com Backpropagation.

iv

Lista de Figuras

Figura 3.1 - Neurônio Artificial versus Neurônio Biológico . . . . . . . . . . . . . . 4

Figura 3.2 - Rede neural sem camada oculta . . . . . . . . . . . . . . . . . . . . . . 5

Figura 3.3 - Rede neural com uma camada oculta . . . . . . . . . . . . . . . . . . . 6

Figura 3.4 - Arquitetura do Perceptron simples. Adaptada de (FAUSETT 1994). . . . 7

Figura 3.5 - RNA com uma camada oculta . . . . . . . . . . . . . . . . . . . . . . 9

Figura 5.1 - Alguns dos exemplos coletados . . . . . . . . . . . . . . . . . . . . . . 16

Figura 5.2 - Limpeza do dado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

Figura 5.3 - Normalização do dado . . . . . . . . . . . . . . . . . . . . . . . . . . 18

Figura 5.4 - Letra “a”: escritas correta e incorreta . . . . . . . . . . . . . . . . . . . 19

Figura 6.1 - Comparação dos resultados obtidos . . . . . . . . . . . . . . . . . . . . 26

Figura 6.2 - Leave-one-out com e sem a variável pressão . . . . . . . . . . . . . . . 26

v

Lista de Tabelas

Tabela 5.1 - Conjuntos de dados de escrita cursiva . . . . . . . . . . . . . . . . . . 17

Tabela 5.2 - Inspeção dos parâmetros da RNA . . . . . . . . . . . . . . . . . . . . . 20

Tabela 5.3 - Abordagem Holdout: Inspeção de parâmetros . . . . . . . . . . . . . . 21

Tabela 5.4 - Resultados: abordagem Holdout . . . . . . . . . . . . . . . . . . . . . 22

Tabela 5.5 - Número de exemplos por fold para cada conjunto de dados . . . . . . . 22

Tabela 5.6 - Resultados: abordagem 10-folds Cross-validation . . . . . . . . . . . . 23

Tabela 5.7 - Resultados: abordagem Leave-one-out . . . . . . . . . . . . . . . . . . 24

Tabela 6.1 - Resultados: letra “a” cursiva . . . . . . . . . . . . . . . . . . . . . . . 29

Tabela A.1 - Resultados: letra “t” cursiva . . . . . . . . . . . . . . . . . . . . . . . . 33

Tabela A.2 - Resultados: letra “f” cursiva . . . . . . . . . . . . . . . . . . . . . . . 34

Tabela A.3 - Resultados: letra “v” cursiva . . . . . . . . . . . . . . . . . . . . . . . 34

Tabela A.4 - Resultados: letra “s” cursiva . . . . . . . . . . . . . . . . . . . . . . . 35

Tabela A.5 - Resultados: letra “x” cursiva . . . . . . . . . . . . . . . . . . . . . . . 35

Tabela A.6 - Resultados: palavra “emem” cursiva . . . . . . . . . . . . . . . . . . . 36

Tabela A.7 - Resultados: palavra “gugu” cursiva . . . . . . . . . . . . . . . . . . . . 36

Tabela A.8 - Resultados: abordagem Holdout . . . . . . . . . . . . . . . . . . . . . 37

Tabela B.1 - Porcentagem de acertos obtidos para cada um dos 10 folds . . . . . . . 38

Tabela B.2 - Resultados: abordagem Cross-validation . . . . . . . . . . . . . . . . . 40

Tabela C.1 - Porcentagem média de acertos obtidos para o tamanho de cada conjunto 41

Tabela D.1 - Testes de estabilidade . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

vi

Sumário

1 Introdução 1

2 Objetivos 2

2.1 Objetivo Geral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

2.2 Objetivos Específicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

3 Revisão bibliográfica 3

3.1 Reconhecimento da Escrita . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

3.2 Rede Neural Artificial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

3.2.1 Paradigmas de Aprendizagem . . . . . . . . . . . . . . . . . . . . . . 6

3.2.2 Perceptron Simples . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

3.2.3 Perceptron de Múltiplas Camadas com Backpropagation . . . . . . . . 7

3.3 Trabalhos Relacionados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

4 Metodologia 14

5 Resultados 15

5.1 Conjunto de dados: Escrita Cursiva . . . . . . . . . . . . . . . . . . . . . . . . 15

5.2 Experimentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

5.2.1 Arquitetura da RNA . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

5.2.2 Holdout . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

5.2.3 R-fold Cross-validation . . . . . . . . . . . . . . . . . . . . . . . . . . 21

5.2.4 Leave-one-out . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

Sumário vii

6 Discussão 25

6.1 Comparação dos resultados obtidos . . . . . . . . . . . . . . . . . . . . . . . . 25

6.2 Estudo do intervalo de tolerância . . . . . . . . . . . . . . . . . . . . . . . . . 27

6.3 Estudo das funções de ativação . . . . . . . . . . . . . . . . . . . . . . . . . . 27

6.4 Teste de sensibilidade da rede . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

6.5 Letra “a” cursiva . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

7 Conclusão 30

Referências Bibliográficas 31

Apêndice A -- Testes de configuração dos modelos: abordagem Holdout 33

Apêndice B -- Testes de configuração dos modelos: abordagem Cross-validation 38

Apêndice C -- Testes de configuração dos modelos: abordagem Leave-one-out 41

Apêndice D -- Testes de estabilidade da RNA 42

1

1 Introdução

Uma das preocupações que permeiam o trabalho de profissionais da educação e da saúde é

o desenvolvimento das capacidades cognitivas e de coordenação motora do indivíduo (princi-

palmente em crianças). É comum que, no ambiente escolar, sejam proporcionadas atividades

que permitam analisar o grau de desenvolvimento de tais capacidades das crianças, entretanto,

comumente estas análises são feitas de maneira não automatizada, exigindo uma atenção in-

dividual a cada criança e inviabilizando a realização de análises frequentes e diferenciadas

(BRITO & PERES 2010).

Com base nisso, por meio de técnicas da Inteligência Artificial (IA), em especial as Redes

Neurais Artificiais (RNAs), é possível obter soluções que contribuam para o processo de auto-

matização de análises em processos comumente usados na resolução de problemas nas áreas da

educação e da saúde, em específico, relacionados à coordenação motora e capacidade cognitiva

dos indivíduos.

A partir dos resultados obtidos no projeto “Ensinar com Pesquisa” executado pela aluna

proponente do presente trabalho, observou-se a possibilidade de construção de modelos especí-

ficos de RNA para as variadas formas de análise da escrita cursiva (traçado, pressão, velocidade,

tamanho, formato, etc), justificando também a proposição desta continuidade do estudo. O es-

copo do presente trabalho pautou-se na análise da trajetória de letras e palavras cursivas, bem

como na pressão de escrita exercida pelo indivíduo.

Assim, a fim de informar o leitor sobre a organização deste trabalho, este está estruturado

da seguinte forma: no Capítulo 2, são apresentados os objetivos (principal e específicos) de

estudo; o Capítulo 3 apresenta a descrição de alguns conceitos e técnicas fundamentais para

o desenvolvimento deste trabalho, bem como os principais trabalhos correlatos; o Capítulo 4

apresenta a metodologia utilizada; já os resultados obtidos, discussão e análise dos dados, e a

conclusão, podem ser observados nos Capítulos 5, 6 e 7 respectivamente.

2

2 Objetivos

Neste capítulo, são apresentados o objetivo geral e os objetivos específicos do presente trabalho.

2.1 Objetivo Geral

O objetivo principal deste estudo se pautou na construção de um analisador de qualidade de

escrita, com base nas variadas instâncias de escrita cursiva coletadas, por meio da codificação

de RNAs Perceptron Multicamadas com Backpropagation específicas para as diferentes formas

de análise de padrões da escrita cursiva.

2.2 Objetivos Específicos

A fim de resolver o problema proposto, os objetivos específicos foram pré-estabelecidos. São

eles:

• Estudar o problema de análise qualitativa de padrões de Escrita Cursiva por meio de

RNAs;

• Organizar um conjunto de dados composto por diferentes instâncias de escrita cursiva;

• Aprimorar a codificação referente à Rede Neural Perceptron Multicamadas com Back-

propagation existente;

• Especificar um conjunto de testes e analisar os resultados referentes à aplicação desta

RNA sobre os dados de escrita cursiva.

Além de contribuir para a análise automatizada das capacidades cognitivas, da caligrafia e da

coordenação motora do agente produtor da escrita, o desenvolvimento deste trabalho está rela-

cionado aos estudos na área de Reconhecimento de Padrões e, por conseqüência, às áreas cor-

relatas (Estatística, Matemática e Inteligência Artificial).

3

3 Revisão bibliográfica

Neste capítulo, encontra-se todo o aparato bibliográfico levantado mediante o estudo de con-

ceitos, técnicas e trabalhos afins referentes à proposta do projeto em questão.

Para a execução deste projeto foi escolhido como técnica de análise de dados as RNAs, por

serem estas objetos de estudo da disciplina de Inteligencia Artificial (no curso de Sistemas de

Informação da EACH)1. Dentre as arquiteturas possíveis, segundo a literatura estudada, uma

que se mostrou adequada para o problema em questão foi a arquitetura baseada no algoritmo de

treinamento Backpropagation.

3.1 Reconhecimento da Escrita

O domínio de aplicação escolhido para o reconhecimento de escrita, o qual se contextualiza na

necessidade de mecanismos automáticos de análise da qualidade da escrita cursiva, pode ser

dividido em duas técnicas:

• Escrita on-line: Para o reconhecimento da escrita on-line, o escritor está fisicamente

conectado a um computador via mouse, caneta eletrônica ou dispositivo sensível ao toque,

por meio do qual sua escrita é gravada como um processo dependente do tempo.

• Escrita off-line: O modo de escrita off-line é capturado por meio de scanner (ou câmeras)

e torna-se disponível no formato de imagem, sem qualquer informação temporal. Se-

gundo (BUNKE 2003), como é um processo independente do tempo, o reconhecimento

de escrita off-line é considerado um problema mais difícil de ser trabalhado.

De acordo com (FAUSETT 1994), uma área específica na qual muitas aplicações de redes

neurais podem ser desenvolvidas é o reconhecimento automático de caracteres cursivos (dígitos

ou letras). A grande variação em tamanhos, posições e estilos de escrita faz deste um problema

1 Ementa da disciplina em <http://sistemas2.usp.br/jupiterweb/obterDisciplina?sgldis=ACH2016&codcur=86200&codhab=202>

3.2 Rede Neural Artificial 4

difícil para técnicas tradicionais. É um bom exemplo, contudo, do tipo de processamento de

informação que os seres humanos podem executar de maneira relativamente fácil.

3.2 Rede Neural Artificial

Uma rede neural é um sistema de processamento de informação capaz de modelar como o

cérebro humano realiza uma determinada tarefa, inspirada no comportamento real de aprender,

errar e fazer novas descobertas. As Redes Neurais Artificiais possuem nós ou unidades de

processamento. Cada unidade recebe e/ou envia sinais para outras unidades, simulando os

neurônios biológicos (Figura 3.1), organizados em uma rede neural (BRITO & PERES 2010).

“Um neurônio é uma unidade de processamento de informação que é fundamental para a

operação de uma rede neural” (HAYKIN 1998).

Figura 3.1 – Paralelo entre as características do Neurônio Artificial e suas respectivas inspi-rações no Neurônio Biológico.

Na Figura 3.1, um conjunto de sinapses é caracterizado por um peso. O somador tem o

objetivo de somar os sinais de entrada. Além disso, uma função de ativação tem como objetivo

restringir a amplitude da saída do neurônio.

Segundo (HAYKIN 1998), uma rede neural se assemelha ao cérebro em dois aspectos:

1. O conhecimento é adquirido pela rede a partir de seu ambiente através de um processo de

aprendizagem.


2. Forças de conexão entre neurônios, conhecidas como pesos sinápticos, são utilizadas para

armazenar o conhecimento adquirido.

(HAYKIN 1998) também afirma que uma rede neural é caracterizada pelo:

• Seu padrão de conexão entre os neurônios (arquitetura);

• Seu método de determinação de pesos nas conexões (treinamento ou algoritmo de apren-

dizagem);

• A função de ativação usada nos neurônios.

Dentre as diferentes arquiteturas de RNA existentes, neste trabalho se está interessado em

redes alimentadas adiante. Essas redes podem ser:

• Alimentada Adiante (feedfoward) com Camada Única

Uma rede neural pode ter apenas uma camada de entrada de nós, cujos sinais se projetam

sobre uma única camada de saída de neurônios (alimentada adiante ou acíclica). Como

pode-se observar na Figura 3.2, a camada única refere-se apenas à camada de saída.

Figura 3.2 – Rede neural alimentada adiante sem camada oculta. Fonte (FAUSETT 1994).

• Alimentada Adiante (feedfoward) com Múltiplas Camadas

Na Figura 3.3, pode-se observar a presença de uma camada oculta, cujo nó é chamado

de neurônio oculto ou unidade oculta. Pode haver múltiplas camadas ocultas contendo

N neurônios em cada uma, “fazendo com que a rede adquira uma visão global devido ao

conjunto extra de conexões de pesos sinápticos e da dimensão extra de interações neurais”

(Churchland e Sejnowski, 1992 apud (HAYKIN 1998)).


Figura 3.3 – Rede neural alimentada adiante com uma camada oculta. Adaptada de(FAUSETT 1994).

3.2.1 Paradigmas de Aprendizagem

Existem alguns paradigmas de aprendizagem, aplicados à RNA, que podem ser vistos em

(HAYKIN 1998). Dentre eles, os principais são:

• Supervisionado (aprendizagem com um professor): Os dados apresentados à RNA pos-

suem o rótulo da classe associada. Neste paradigma, o algoritmo de treinamento ajusta os

pesos do modelo em função do erro obtido entre a resposta desejada e a resposta obtida,

a fim de diminuir o sinal de erro e dispensar o conhecimento do professor (situação em

que a rede neural converge).

• Não supervisionado (aprendizagem sem um professor): Os dados apresentados à RNA

não possuem o rótulo da classe associada. O algoritmo de treinamento analisa os exem-

plos fornecidos e procura agrupá-los ou auto-organizá-los de acordo com suas similari-

dades (ajuste dos pesos pela maximização de uma medida de qualidade que a rede deve

aprender), formando grupos ou clusters específicos.

Assim, uma RNA possui uma representação na qual todo o conhecimento aprendido sobre

um determinado conceito fica armazenado nos pesos de cada um de seus neurônios, sendo difí-

cil extraí-lo. Entretanto, de acordo com (QUEIROZ, RODRIGUES & GóMEZ 2004), a capaci-

dade de aprender através de exemplos e de generalizar a informação aprendida é, sem dúvida,

o atrativo principal de soluções de problemas por meio de RNAs.

3.2.2 Perceptron Simples

Usualmente, o objetivo da RNA Perceptron é classificar cada padrão de entrada como perten-

cente, ou não pertencente, a uma classe específica. A rede é treinada para executar esta classifi-

cação por meio de uma técnica iterativa (algoritmo de treinamento ou de aprendizado). Assim,

a unidade de saída da rede emite uma resposta que pode ser:


• +1, como pertencente a uma classe particular

• -1, como não pertencente a uma classe particular

A Figura 3.4 mostra a arquitetura de um Perceptron simples. Já os passos do algoritmo de

treinamento podem ser observados no Algoritmo 1.

Figura 3.4 – Arquitetura do Perceptron simples. Adaptada de (FAUSETT 1994).

3.2.3 Perceptron de Múltiplas Camadas com Backpropagation

Do inglês Multi-Layer Perceptron, a rede MLP possui uma arquitetura Alimentada Adiante

(feedfoward) com Múltiplas Camadas, sendo portanto, uma generalização do Perceptron de

camada única.

A rede MLP, por meio do treinamento de forma supervisionada, geralmente utiliza o al-

goritmo de retropropagação do erro chamado Backpropagation. Basicamente, a aprendizagem

por retropropagação do erro consiste no ajuste dos pesos de acordo com os respectivos er-

ros calculados para cada padrão apresentado à rede. Ajustando os parâmetros livres (pesos e

bias), minimiza-se o erro contido no conjunto de treinamento da rede e, retropropagando o sinal

obtido, faz-se com que a rede se aproxime da resposta desejada.

O desenvolvimento do algoritmo Backpropagation representa um marco nas redes neurais,

pois fornece um método computacional eficiente para o treinamento de Perceptrons de múltiplas

camadas (HAYKIN 1998).

A arquitetura da rede MLP com Backpropagation pode ser observada pela Figura 3.5.

O treinamento por algoritmo Backpropagation é composto por três estágios de acordo com

(FAUSETT 1994):


Algorithm 1 Perceptron simples. Adaptado de (FAUSETT 1994)Passo 0: Inicialize pesos e bias.

(Por simplicidade, inicialize pesos e bias com zero.)Ajuste a taxa de aprendizado α (0 ≤ α ≤ 1).(Por simplicidade, α pode ser 1.)

Passo 1: Enquanto a condição de parada for falsa, faça os passos 2-6.Passo 2: Para cada par do treinamento s:t, faça os passos 3-5.

Passo 3. Ative as unidades de entrada: xi = si;Passo 4: Calcule a resposta da unidade de saída:

yin = ∑i

xiwi;

y =

1, se yin > 00, se −θ ≤ yin≤ θ

−1, se yin <−θ

Passo 5: Atualize pesos e bias se um erro occorrer para esse padrãoif y 6= t then

wi(new) = wi(old)+αtxi

b(new) = b(old)+αt

else

wi(new) = wi(old)+αtxi

b(new) = b(old)+αt

end ifPasso 6: Condição de parada:

Se nenhuma peso mudou no passo 2, pare; senão, continue.


Figura 3.5 – Arquitetura de uma rede neural com uma camada oculta, adequada para sertreinada com o algoritmo Backpropagation. Adaptada de (FAUSETT 1994).

1. A passagem (feedforward) dos padrões de treinamento

Cada unidade de entrada (Xi, i = 1, ...,n) recebe um sinal de entrada xi e o dissipa para

todas as unidades ocultas (na camada acima). Cada v0 j representa o peso da bias e vi j,

os pesos sinápticos. Cada unidade oculta (Z j, j = 1, ..., p) soma suas entradas pesadas

(Eq. 3.1), aplica sua função de ativação para computar seu sinal de saída (Eq. 3.2), e

envia o sinal para todas as unidades na camada acima (unidades de saída).

z_in j = v0 j +n

∑i=1

xivi j (3.1)

z j = f (z_in j) (3.2)

Cada unidade de saída (Yk,k = 1, ...,m) soma suas entradas pesadas (Eq. 3.3) e aplica sua

função de ativação para computar seu sinal de saída (Eq. 3.4).

y_ink = w0k +p

∑j=1

z jw jk (3.3)

yk = f (y_ink) (3.4)

2. O cálculo e retropropagação do erro associado


Cada unidade de saída (Yk,k= 1, ...,m) recebe uma classificação correspondente ao padrão

de entrada, computa seu termo de erro de informação (Eq. 3.5), calcula seu termo de cor-

reção de pesos (Eq. 3.6), calcula seu termo de correção de bias (Eq. 3.7) e e envia δk para

as unidades de cada camada abaixo.

δ = (tk− yk) f ′(y_ink) (3.5)

∆w jk = αδkz j (3.6)

∆w0k = αδk (3.7)

Cada unidade oculta (Z j, j = 1, ..., p) soma suas entradas delta (vindas das unidades da

camada acima) (Eq. 3.8), multiplica pela derivada de sua função de ativação para calcu-

lar seu termo de erro de informação (Eq. 3.9), calcula seu termo de correção de pesos

(Eq. 3.10) e calcula seu termo de correção de bias (Eq. 3.11).

δ_in j =m

∑k=1

δkw jk (3.8)

δ j = δ_in j f ′(z_in j) (3.9)

∆vi j = αδ jxi (3.10)

∆v0 j = αδ j (3.11)

3. O ajuste de pesos e bias

Cada unidade de saída (Yk,k= 1, ...,m) altera seu bias e seus pesos ( j = 0, ..., p) (Eq. 3.12).

w jk(new) = w jk(old)+∆w jk (3.12)

Cada unidade oculta (Z j, j = 1, ..., p) altera seu bias e seus pesos (i = 0, ...,n) (Eq. 3.13).

vi j(new) = vi j(old)+∆vi j (3.13)

3.3 Trabalhos Relacionados 11

3.3 Trabalhos Relacionados

A fim de exemplificar o que se tem feito nesta área, segue um resumo de algumas iniciativas de

pesquisas que propõem modelos aplicados a domínios correlatos ao discutido neste trabalho:

• (VIARD-GAUDIN, LALLICAN & KNERR 2005): trata da análise de um sistema de re-

conhecimento offline de caligrafia para letra cursiva baseado em Quantização Vetorial e

Modelos Escondidos de Markov. As principais características de análise são a informação

temporal e a informação de qualidade de trajetória.

• (BENSEFIA, PAQUET & HEUTTE 2005): tarefas de verificação e identificação do indi-

víduo que produziu uma escrita são o foco desse trabalho. Para a realização desta tarefa,

os autores propõem um modelo que usa características locais da caligrafia, tais como

grafemas extraídos através de um processo de segmentação da produção gráfica referente

a escrita à mão.

• (WANG et al. 2005): este trabalho propõe uma abordagem baseada em aprendizado para

realizar a síntese de caligrafia cursiva referente à caligrafia de um indivíduo em especí-

fico. Modelos de análise de forma e de correspondência de trajetória são utilizados para

analisar dados de treinamento para construção do modelo sintetizador.

• (BUNKE 2003): o estado da arte da área de reconhecimento de caligrafia para a escrita

cursiva romana é o objeto de interesse deste trabalho. Nele são delineadas as diversas

tarefas que podem constituir a tarefa de reconhecimento de caligrafia bem como alguns

modelos matemáticos para a implementação de tais tarefas. 131 referências bibliográ-

ficas são apresentadas neste trabalho, constituindo uma ótima fonte de informação para

iniciação dos estudos propostos neste projeto.

• (MANKE & BODENHAUSEN 1994): Redes Neurais Artificiais são exploradas neste

trabalho para a realização da tarefa de reconhecimento de caligrafia cursiva. O modelo

MS-TDNN (Multi-State Time Delay Neural Network) é aplicado para resolver o problema

de reconhecimento de caracteres.

• (ZAFAR, MOHAMAD & ANWAR 2006): trata do desenvolvimento de um sistema para

o reconhecimento de escrita on-line de vários estilos. A partir das variações de escrita

dos caracteres isolados, o alfabeto inglês maiúsculo serviu como dados de entrada para

o sistema estudado. Para a classificação do problema proposto, duas técnicas de redes

naurais foram utilizadas: Backpropagation e Counter propagation. Além disso, frente a


análise da direção dos caracteres escritos (vetor de codificação das direções), oito direções

foram usadas, sendo que cada uma possuia um código específico a depender do ângulo

formado.

• (ENQI et al. 2009): um algoritmo diferenciado para o reconhecimento da escrita cursiva

on-line é proposto. Uma RNA de dois níveis, com algoritmo de treinamento Backpropaga-

tion, é criada para a classificação da escrita original e falsificada. O primeiro nível da rede

refere-se à análise das características estatísticas extraídas da escrita (velocidade média

nas direções x e y, razão entre a velocidade máxima e mínima de x, tempo da caneta

efetivamente em movimento, etc) e o segundo nível refere-se às características wavelet

(extraídas pela transformada wavelet Daubechies-6).

• (LAGO 2005): a fim de automatizar a análise de assinaturas, foi desenvolvido um sistema

chamado SiRA (Sistema de Reconhecimento de Assinaturas). A partir da escrita off-line

coletada, foi realizado o pré-processamento das imagens geradas, por meio das técni-

cas de solarização, realce, limiarização, restauração e representação das imagens. Para

o reconhecimento dos padrões, foi utilizada a técnica de RNA Multi-Layer Perceptron

que permitia fazer análise de falsificações, autofalsificações e afirmar, com certo grau de

certeza, a probabilidade de uma assinatura pertencer a um determinado escritor.

• (AGARWAL & KUMAR 2005): trata do reconhecimento de caracteres (dígitos e letras

maiúsculas) de escrita on-line que possuem uma sequência primitiva semelhante. No

estudo, procura-se distingir os caracteres que possuem informações direcionais muito

semelhantes, removendo possíveis ambiguidades. Além disso, baseia-se na conectividade

relativa, informação direcional, rotação (direta e parcial) e primitivas como linhas, curvas

nas direções anti-horária e horária, loop (curva que se junta com um ponto) para atingir o

objetivo proposto. Diante da técnica de remoção de ambiguidades implementada, a RNA

utilizada para o reconhecimento obteve resultados muito animadores: 98.3% de acerto

para o reconhecimento de dígitos e 99.2% de acerto para o reconhecimento de letras

maiúsculas.

• (SENI, NASRABADI & SRIHARI 1994): trata do desenvolvimento de um sistema para

o reconhecimento de um grande vocabulário de palavras de escrita cursiva on-line. Para

isso, foram levadas em consideração a abordagem baseada em palavras (treinamento da

rede com amostras de cada palavra do dicionário estabelecido, restringindo o vocabulário)

e a abordagem baseada em segmentação (cada palavra é segmentada em letras). O sistema

foi criado com base numa abordagem mista (ou intermediária) das abordagens citadas,


possuindo módulos de filtragem (para o pré-processamento dos dados) e de reconheci-

mento de padrões, por meio da rede MS-TDNN.

Tanto as técnicas já citadas neste texto (como Redes Neurais Artificial e Modelos Escondidos

de Markov) quanto outras técnicas de Inteligência Artificial úteis para a realização do objetivo

deste trabalho, possuem um aparato bibliográfico bastante desenvolvido que pode ser acessado

para fundamentar seus princípios. Mais detalhes sobre essas técnicas podem ser obtidas em

(FAUSETT 1994), (HAYKIN 1998), (NORMAN 1972), (MACDONALD & ZUCHHINI 1997)

e (KLIR & YUAN 1995).

14

4 Metodologia

A metodologia aplicada para o estudo contou com as seguintes atividades:

• Atualização do levantamento bibliográfico sobre trabalhos referentes à análise qualitativa

da escrita cursiva, dando um enfoque maior aos artigos que se baseiam na mesma técnica

proposta no presente trabalho (rede MPL com Backpropagation);

• Organização1 e pré-processamento do conjunto de dados referente a instâncias de escrita

cursiva, envolvendo procedimentos de limpeza e normalização, além da seleção dos tipos

de dados a serem trabalhados e da definição da variável a ser analisada;

• Aprimoramento da codificação de RNA já existente,2 envolvendo atividades mais especí-

ficas como:

– Construção de modelos específicos para algumas das variadas formas de análise da

escrita cursiva;

– Estudo, implementação e análise de funções de ativação;

– Estudo, implementação e análise do intervalo de tolerância3;

– Configuração e análise dos parâmetros dos modelos.

• Experimentação, análise e documentação dos resultados obtidos referentes a cada uma

das instâncias de dados coletados, considerando a definição da variável realizada (dentre

as seguintes possibilidades: análises de traçado, pressão, velocidade, forma, tamanho, ou

outras disponibilizadas pelo software de captação de dados4 usado).

1 Todo o processo de coleta de dados foi realizado durante o projeto “Ensinar com Pesquisa”, já a organização dosconjuntos de dados foi realizada no presente trabalho.

2 Construída durante o projeto Ensinar com Pesquisa no software em Matlab R© 7.6.0(http://www.mathworks.com/products/matlab/)

3 Intervalo da resposta obtida pela rede neural que deve ser considerada como correta, em comparação com aresposta desejada definida (tipo da classe).

4 MovAlyzer R© 3.94 <http://www.neuroscriptsoftware.com/movalyzer.php>

15

5 Resultados

Neste capítulo, são apresentados os dados coletados e os experimentos realizados por meio das

redes MLPs com Backpropagation específicas para cada tipo de dado.

5.1 Conjunto de dados: Escrita Cursiva

A análise da escrita cursiva abrange uma série de características e particularidades referentes a

uma área de estudo multidisciplinar (Saúde, Psicologia, Pedagogia e Computação).

Como especialista do domínio e como base nos resultados de melhor efeito de suas pesquisas

na área de comportamento motor humano, em específico, nos temas envolvendo atenção, coor-

denação intermembros, desordem coordenativa desenvovimental e ações manipulativas, a pro-

fessora e pesquisadora Cynthia Hiraga sugeriu a coleta de algumas letras, palavras e exercícios

grafomotores1. A partir destas sugestões, os dados foram coletados com o apoio de um tablet,

acompanhado de um software integrado, que permitiu obter variáveis referentes ao traçado da

letra cursiva, pressão, aceleração e velocidade da caneta sobre o tablet, entre outras.

Para organizar o problema em questão, por meio da técnica de reconhecimento de padrões,

foram alaboradas uma série de sistematizações, tais como:

1. Análise dos exercícios grafomotores no que se refere a pressão (fraca, normal e forte) e

velocidade (lenta, normal e rápida) do traçado.

2. Análise das palavras “emem” e “gugu” corretas e incorretas e a pressão da escrita destas

palavras.

3. Análise das letras “a”, “f”, “s”, “t”, “v” e “x”, no que se refere a direção e sentido do

traçado correto e incorreto, a pressão de escrita desta letras e a velocidade da escrita da

letra “g”.

1 Os dados foram coletados, no projeto “Ensinar com Pesquisa”, pela autora do presente trabalho. Além disso, osdados foram escritos, propositalmente, de maneira errada (atípica).

5.1 Conjunto de dados: Escrita Cursiva 16

A organização dos dados coletados foi realizada levando em consideração as variáveis:

pressão (fraca, normal e forte), velocidade (lenta, normal e rápida) e o traçado da letra no que

se refere ao estabelecimento de escrita típica e atípica. Alguns exemplos dos dados coletados

podem ser observados, por meio de plotagens, na Figura 5.1. Em (a), trata-se de um exercício

motor de ligar os pontos em uma ordem pré-estabelecida. Em (b) e (c), são palavras que pos-

suem características específicas em seu traçado, que podem auxiliar na análise da caligrafia das

crianças. Já (d), (e) e (f) são alguns dos exemplos de letras cursivas incorretas e que possuem

algumas variações em seu traçado.

Figura 5.1 – Alguns dos exemplos coletados. (a) refere-se a um exercício motor; (b) e (c) sãoexemplos de palavras trabalhadas e (d), (e) e (f) são exemplos de letras coletadas.

5.1 Conjunto de dados: Escrita Cursiva 17

Para o problema proposto neste trabalho, foram utilizadas as variáveis referentes ao traçado

da letra e palavra (coordenadas x e y) e a pressão da escrita (coordenada z). Os conjuntos de

dados selecionados para o experimento podem ser observados na Tabela 5.1.

Tabela 5.1 – Conjuntos de dados de escrita cursiva

Conjuntos de dados Exemplos corretos Exemplos incorretosa 50 25f 50 25s 25 50t 25 25v 25 25x 25 50

emem 15 29gugu 15 29

Os conjuntos de dados sofreram pré-processamentos de limpeza e normalização para aten-

der aos requisitos de experimento pretendidos. Na Figura 5.2 pode ser observado um exemplo

do efeito de limpeza do dado (retirada de ruído)2

Figura 5.2 – Limpeza do dado. Dado bruto (em azul) versus dado pré-processado (em ver-melho).

A normalização dos dados3 foi realizada com base no exemplo de cada conjunto de dados

de menor tamanho, executada por meio da retirada de pontos (ou coordenadas x, y e z) igual-

mente espaçados no traçado da letra e codificada por meio da linguagem de programação Java.4

2 Os ruídos são resultantes da sensibilidade do tablet, isto é, do sensoriamento de dados mesmo quando a canetaera retirada da superfície e, por isso, no final de cada dado havia este problema. Além disso, neste caso, a retiradade ruídos refere-se à retirada dos pontos onde a pressão exercida no processo de escrita é zero.

3 Esta normalização é, na verdade, uma padronização de tamanho do vetor de características dos dados.4 Para saber maiores informações sobre a linguagem de programação Java, consulte (DEITEL & DEITEL 2000)

5.2 Experimentos 18

A normalização dos dados teve como objetivo igualar o tamanho de todos os exemplos perten-

centes a um mesmo conjunto de dados coletados (número de pontos de cada dado, referentes ao

traçado das letras e palavras), visto que o algoritmo de reconhecimento de padrões escolhido,

uma RNA, exige que todos os padrões a serem analisados possuam o mesmo número de carac-

terísticas descritivas. A Figura 5.3 ilustra o efeito da normalização, identificado pelas setas na

letra “f” em vermelho.

Figura 5.3 – Normalização do dado. Dado limpo (em azul) versus dado normalizado (em ver-melho).

5.2 Experimentos

Para a realização dos experimentos neste trabalho, foi levado em consideração o problema re-

ferente à análise do traçado de letras e palavras cursivas juntamente com a pressão exercida no

processo de escrita e o estabelecimento dos conceitos de letra e palavra típicas/corretas e atípi-

cas/incorretas. O problema em questão é tratado por meio da classificação automática da escrita

cursiva do usuário em: escrita típica/correta e atípica/incorreta. Como pode ser visto no exem-

plo da Figura 5.4, cada um dos conjuntos de dados possui as escritas do traçado consideradas

correta e incorreta.

5.2.1 Arquitetura da RNA

Para o estabelecimento dos parâmetros da arquitetura da RNA, foi realizada uma sistematização

de treinamento e teste, por meio de algoritmos referentes às redes MLPs com Backpropagation5.

5 As redes MLPs e o algoritmo de treinamento Backpropagation foram implementados usando a ferramentaMATLAB R© 7.6.0 (R2008a)

5.2 Experimentos 19

Figura 5.4 – Exemplos de letra “a” cursiva considerada correta em (a) e (b) e incorreta em(c).

Esta sistematização contou com uma série de execuções de treinamento e teste utilizando cada

um dos conjuntos de dados, variando os seguintes parâmetros: número de neurônios ocultos,

número de neurônios de saída, taxa de aprendizagem, número de épocas, tipo de função de

ativação e intervalo de tolerância.

Um exemplo desta sistematização6 de treinamento e teste (com dados disjuntos) para ins-

peção dos parâmetros da RNA, pode ser observado na Tabela 5.2. O melhor resultado (em

vermelho na tabela) para o conjunto da letra “a”, contou com a seguinte configuração:

• 12 neurônios ocultos;

• 1 neurônio de saída (se a saída = 1, a rede reconheceu a trajetória da letra como correta.

Caso a trajetória da letra esteja incorreta, a saída = 0);7

• 0.2 de taxa de aprendizagem;

• 1000 ciclos/épocas;

• função de ativação bipolar sigmóide;

• 0.2 de intervalo de tolerância.

6 Nas Tabelas A.1, A.2, A.3, A.4, A.5, A.6 e A.7 do Apêndice A, podem ser vistos os resultados obtidos para osdemais conjuntos de dados.

7 Obs.: Para dois neurônios de saída, a resposta desejada para a rede em reconhecimento da letra com trajetóriacorreta dá-se pela saída = 1 0. Caso a trajetória da letra esteja incorreta, a saída = 0 1.

5.2 Experimentos 20

Tabela 5.2 – Inspeção dos parâmetros da RNA para o conjunto de dados da letra “a” cursiva

NeurôniosNeurônios Taxa de Épocas Função de Intervalo deAcerto(%) Média Erro Desvioocultos de saída aprendizagem ativação tolerância padrão1 padrão

30 1 1 1000 bipolar sigmóide 0.25 65.217430 1 0.2 1000 bipolar sigmóide 0.25 65.217430 1 0.05 1000 bipolar sigmóide 0.25 65.2174 65.2174 27.5 025 1 0.2 1000 bipolar sigmóide 0.25 65.217420 1 0.2 1000 bipolar sigmóide 0.25 78.260912 1 0.2 1000 bipolar sigmóide 0.25 86.9565 76.8116 24.37 10.9412 1 0.2 1000 binária sigmóide 0.25 65.217412 1 0.2 1000 arco tangente 0.25 012 1 0.2 1000 base radial 0.25 65.2174 43.4783 28.62 37.6512 1 0.2 500 bipolar sigmóide 0.25 65.217412 1 0.2 1500 bipolar sigmóide 0.25 65.217412 1 0.2 2000 bipolar sigmóide 0.25 65.2174 65.2174 27.5 012 1 0.2 1000 bipolar sigmóide 0.5 69.565212 1 0.2 1000 bipolar sigmóide 0.3 69.565212 1 0.2 1000 bipolar sigmóide 0.2 100 79.7101 23.22 17.5712 2 0.2 1000 bipolar sigmóide 0.5 95.652212 2 0.2 1000 bipolar sigmóide 0.3 52.173912 2 0.2 1000 bipolar sigmóide 0.2 69.5652 72.4638 25.79 21.88

1Para maiores detalhes sobre o erro padrão, consulte (MITCHELL 1997).

A motivação para este processo de inspeção dos parâmetros da rede foi explorar uma parte

do universo de possíveis valores para os parâmetros dos modelos, resultando no estabelecimento

de uma configuração da rede específica e que atenda a uma taxa de acerto considerada aceitável

para cada conjunto de dados.8

Para analisar o desempenho e o grau de generalização dos modelos construídos, a fase de

experimentação foi realizada com base em três métodos de amostragem descritos nas seções

5.2.2, 5.2.3 e 5.2.4.

5.2.2 Holdout

Holdout é uma técnica de amostragem que consiste na divisão dos dados em dois conjuntos

disjuntos: treinamento e teste. A maior porcentagem dos dados (p) é usada para treinamento e

a porcentagem remanescente (1-p) é usada para teste.

Neste trabalho, 70% dos dados de cada conjunto de dados foram utilizados para treinamento

e o restante (30%) foram utilizados para teste. Os dados foram apresentados aleatoriamente ao

modelo construído.

8 Para o caso de empate na porcentagem de acerto do modelo (Acerto(%)) mediante diferentes configuraçõesde parâmetros, a escolha da melhor configuração desconsidera o parâmetro variante (como por exemplo oparâmetro“Taxa de aprendizagem” na primeira tríade de testes mostrados na primeira linha da Tabela 5.2) eutiliza a média de acertos, o erro padrão para a taxa de acertos e o desvio padrão, como indicativos de qualidadepara desempate e escolha da melhor configuração obtida.

5.2 Experimentos 21

Todo o processo de inspeção dos parâmetros da rede, para os diferentes conjuntos de dados,

foi realizado por meio da técnica de Holdout. As melhores configurações da rede, para cada

conjunto de dado, com base na % de acerto média (maior), erro padrão da taxa de acerto (menor)

e no desvio padrão (menor) calculados, podem ser observadas na Tabela 5.39.

Tabela 5.3 – Melhores configurações da rede utilizando a abordagem Holdout

Neurônios Neurônios Taxa de Épocas Função de Intervalo deocultos de saída aprendizagem ativação tolerância

Letra t20 1 0.2 1500 bipolar sigmóide 0.25

Letra a12 1 0.2 1000 bipolar sigmóide 0.2

Letra f25 1 0.05 1000 arco tangente 0.3

Letra v20 1 0.05 1000 bipolar sigmóide 0.25

Letra s20 2 0.05 2000 bipolar sigmóide 0.3

Letra x30 1 0.05 500 bipolar sigmóide 0.5

Palavra emem20 1 0.2 1000 bipolar sigmóide 0.2

Palavra gugu30 1 0.2 500 bipolar sigmóide 0.25

Depois disso, foi realizado outro experimento no qual cada uma destas configurações de

rede foi executada dez vezes. Os resultados podem ser vistos na Tabela 5.410.

Como pode-se perceber por meio da porcentagem média de acertos neste experimento,

parece que os modelos construídos possuem maior facilidade para o reconhecimento da letras

cursivas “f” e “x”. Destaca-se a letra “f”, pela maior média de acertos, menor erro padrão

e menor dispersão do resultado de reconhecimento (desvio padrão) obtidas. Contudo, para o

reconhecimento da letra “v” e palavra “gugu”, as redes demonstraram uma certa dificuldade

para o reconhecimento das escritas, refletindo em um resultado inferior comparado com os

resultados dos demais conjuntos de dados.

5.2.3 R-fold Cross-validation

Esta técnica divide o número de exemplos apresentados à rede em partições (folds) aproximada-

mente iguais. Os (r-1) folds são utilizados para treinamento e o fold remanescente para teste.

Em cada uma das r iterações, um fold diferente é utilizado para teste.

9 A Tabela 5.3 é um resumo das tabelas de inspeção dos parâmetros dos modelos. Estas podem ser observadas commaiores detalhes no Apêndice A.

10 Na Tabela A.8, podem ser vistos os resultados obtidos com a subtração da variável pressão.

5.2 Experimentos 22

Tabela 5.4 – Treinamento e avaliação de desempenho da rede utilizando a abordagem Holdout

Média de Erro DesvioAcerto(%) padrão(%) padrão

Letra t60.62 15.45 33.73

Letra a62.17 15.33 23.82

Letra f91.74 8.7 8.31

Letra v46.25 15.77 22.09

Letra s68.26 14.72 25.19

Letra x84.78 11.36 9.67

Palavra emem67.14 14.85 14.36

Palavra gugu47.86 15.8 17.18

Neste trabalho, cada conjunto de dados foi dividido em dez folds. A proporção utilizada,

portanto, para compor os folds era múltipla de dez tanto para a quantidade de exemplos de

escrita correta quanto para a quantidade de exemplos de escrita incorreta. Na Tabela 5.5, pode

ser observado o número de exemplos em cada fold para cada conjunto de dados.

Tabela 5.5 – Número de exemplos por fold para cada conjunto de dados

Conjunto de Exemplos corretos Exemplos incorretos Totaldados por fold por fold por fold

a 5 2 7f 5 2 7s 2 5 7t 2 2 4v 2 2 4x 2 5 7

emem 1 2 3gugu 1 2 3

Os folds utilizados para teste seguem uma ordem sequencial crescente de iteração11 e os

exemplos de cada um dos folds são apresentados à rede de modo não-aleatório. O treinamento

foi realizado com nove folds e testado com o único fold restante em cada uma das 10 iterações.

Foram calculados a média de acertos, o erro padrão e o desvio padrão das partições criadas.

Esta técnica foi executada com base nas melhores configurações da rede obtidas na abor-

dagem anterior (Holdout). A porcentagem de acerto (Acerto(%)) de cada conjunto de dados

11 Ou seja, na primeira iteração: a rede testa com o primeiro fold e treina com o segundo ao décimo fold; segundaiteração: testa com o segundo fold e treina com o primeiro e do terceiro ao décimo fold, e assim por diante, atéchegar na décima iteração: teste com o décimo fold e treino com o primeiro ao nono fold.

5.2 Experimentos 23

refere-se a média das porcentagens de acertos dos 10 folds existentes12. Na Tabela 5.6, podem

ser visualizados os resultados obtidos13.

Tabela 5.6 – Treinamento e avaliação de desempenho da rede utilizando a abordagem 10-foldsCross-validation

Neurônios Neurônios Taxa de Épocas Função de Intervalo de Acerto(%) Erro Desvioocultos de saída aprendizagem ativação tolerância padrão(%) padrão

Letra t20 1 0.2 1500 bipolar sigmóide 0.25 90 9.49 17.481

Letra a12 1 0.2 1000 bipolar sigmóide 0.2 35.7143 15.15 37.65

Letra f25 1 0.05 1000 arco tangente 0.3 98.5714 3.75 4.52

Letra v20 1 0.05 1000 bipolar sigmóide 0.25 52.5 15.79 7.90

Letra s20 2 0.05 2000 bipolar sigmóide 0.3 81.4566 12.29 17.84

Letra x30 1 0.05 500 bipolar sigmóide 0.5 57.1428 15.65 27.77

Palavra emem20 1 0.2 1000 bipolar sigmóide 0.2 10 9.49 22.5

Palavra gugu30 1 0.2 500 bipolar sigmóide 0.25 73.3333 13.98 37.84

1O desvio padrão estima a variação, em torno da média, dos resultados obtidos nos testes. Apesar dessa medidaindicar uma variação acima de 100% (ou em alguns casos, abaixo de 0%), isso não siginifica que resultados acimade 100% (ou negativos) foram obtidos. Essa medida está aqui apresentada para mostrar que os resultados obtidos

estão mais ou menos espalhados em torno de um resultado médio. Um raciocínio similar deve ser aplicado aoerro padrão.

Assim, percebe-se uma maior facilidade para o reconhecimento das letras “f” e “t”, com

um destaque maior para a primeira, com média de acerto de 98.57%. Porém, quanto a palavra

“emem”, o modelo mostrou uma maior dificuldade para o seu reconhecimento.

5.2.4 Leave-one-out

Esta técnica é um caso especial do Cross-validation, na qual, para um conjunto de dados com

n exemplos, considera-se n-1 exemplos para treinamento e o exemplo remanescente para teste

em cada uma das n iterações.

No presente trabalho, também com base nas melhores configurações da rede obtidas na

abordagem Holdout, foi implementada a técnica Leave-one-out. A porcentagem de acerto

(Acerto(%)) refere-se a média das porcentagens de acertos do tamanho de cada conjunto de

12 Para obter a porcentagem de acerto em cada um dos folds para cada conjunto de dados, observe a Tabela B.1 doApêndice B.

13 Na Tabela B.2, podem ser vistos os resultados obtidos com a subtração da variável pressão.

5.2 Experimentos 24

dados. Na Tabela 5.7, que considera a presença da variável pressão14, podem ser visualizados

os resultados obtidos.

Tabela 5.7 – Treinamento e avaliação de desempenho da rede utilizando a abordagem Leave-one-out

Neurônios Neurônios Taxa de Épocas Função de Intervalo de Acerto(%) Erro Desvioocultos de saída aprendizagem ativação tolerância padrão(%) padrão

Letra t20 1 0.2 1500 bipolar sigmóide 0.25 77.5 6.6 42.29

Letra a12 1 0.2 1000 bipolar sigmóide 0.2 70 5.48 46.16

Letra f25 1 0.05 1000 arco tangente 0.3 95.71 2.42 20.4

Letra v20 1 0.05 1000 bipolar sigmóide 0.25 45 7.87 50.38

Letra s20 2 0.05 2000 bipolar sigmóide 0.3 61.43 5.82 49.03

Letra x30 1 0.05 500 bipolar sigmóide 0.5 82.86 4.5 37.96

Palavra emem20 1 0.2 1000 bipolar sigmóide 0.2 76.67 7.72 43.02

Palavra gugu30 1 0.2 500 bipolar sigmóide 0.25 60 8.94 49.83

Por meio desta técnica, considerada a mais adequada para problemas que envolvem poucos

exemplos nos conjuntos de dados, percebe-se que os modelos construídos possuem uma maior

facilidade para o reconhecimento das letras “f” e “x”, com um destaque maior para a primeira,

com média de acerto de 95.71%. Porém, quanto a letra “v”, o modelo mostrou uma maior

dificuldade para o seu reconhecimento.

14 No Apêndice C, podem ser vistos os resultados obtidos com a subtração da variável pressão.

25

6 Discussão

Este capítulo reúne as discussões e análises dos resultados obtidos, perante à aplicação das

técnicas de amostragem Holdout, Cross-validation e Leave-one-out.

6.1 Comparação dos resultados obtidos: Holdout, Cross-vali-dation e Leave-one-out

Nas técnicas de amostragem apresentadas e executadas, algumas similaridades podem ser perce-

bidas, com base no grau de facilidade do modelo para o reconhecimento da escrita cursiva. Para

a observação destas similaridades, foram levadas em consideração as variáveis referentes à

pressão e à trajetória, observadas até aqui conforme os resultados anteriores, e, depois, somente

as variáveis da trajetória da escrita (sem a pressão), para cada conjunto de dados e para cada téc-

nica de amostragem. A Figura 6.1, ilustra as similaridades, portanto, que podem ser observadas

conforme os pontos referentes a ordem de facilidade de reconhecimento, em que “1” representa

o mais alto grau de facilidade de reconhecimento da escrita e “8” representa o menor grau de

facilidade encontrado pelo modelo (com base na média entre a escala com a adição da variável

pressão e a escala sem a variável pressão, para cada técnica de amostragem e para cada conjunto

de dados), frente ao reconhecimento da escrita cursiva.

Como pode-se observar, nas três abordagens implementadas, a letra “f” atingiu o mesmo

grau de facilidade para o seu reconhecimento, isto é, grau igual a 1, sendo, portanto, a letra

mais fácil de ser reconhecida. Contudo, também de acordo com as três abordagens, o grau de

facilidade de reconhecimento da letra “v” mostrou-se muito pequeno. Assim, pois, a letra “f”

mostrou possuir características mais discriminantes que facilitam o seu reconhecimento do que

a letra “v”, que mostrou possuir características menos discriminantes, passíveis de um estudo

mais detalhado, a fim de melhorar o grau de facilidade de seu reconhecimento.

Considerando que a abordagem Leave-one-out é a mais adequada para problemas que en-

volvem uma pequena quantidade de exemplos em cada conjunto, nesta traçou-se um compa-

6.1 Comparação dos resultados obtidos 26

Figura 6.1 – Comparação dos resultados obtidos: Holdout, Cross-validation e Leave-one-out

rativo com base na adição da variável pressão e sem a variável pressão para cada conjunto de

dados. Os resultados podem ser observados na Figura 6.2.

Figura 6.2 – Leave-one-out com e sem a variável pressão

Para a letra “f” a presença ou a ausência da variável pressão não faz diferença no processo de

seu reconhecimento. Para algumas letras como “t” e “x”, a variável pressão pareceu facilitar no

reconhecimento de suas escritas. Porém, já para as palavras “emem” e “gugu” a variável pressão

pareceu dificultar no processo de reconhecimentos das mesmas. Essas observações sugerem que

para o caso de escrita cursiva referente a exercícios grafomotores, como no caso da execução

da escrita das referidas palavras, a variável pressão tem um papel diferenciado, precisando ser

mais bem estudada antes de ser escolhida como uma característica para representação do padrão

de escrita. Essa informação sobre a influência da variável pressão deve então ser analisada pelo

especialista do domínio. Para as demais escritas, não houve uma mudança muito significativa.

6.2 Estudo do intervalo de tolerância 27

6.2 Estudo do intervalo de tolerância

No cálculo da porcentagem de acertos, para o estabelecimento das configurações das RNAs, foi

levado em consideração um determinado intervalo de tolerância, para mais (+) e para menos (-)

do valor que define a classe do dado apresentado à rede.

O intervalo de tolerância pode ser definido como o estabelecimento de um intervalo da

resposta obtida pela rede neural que deve ser considerado como correto, em comparação com a

resposta desejada definida (tipo da classe). Por exemplo, se o intervalo de tolerância é igual a

0.2, então, considera-se que o neurônio está ativado no intervalo [0.8, 1.2] para classe 1. Já no

intervalo [-0.2, 0.2] para classe 0, o neurônio não está ativado.

Para este estudo, os intervalos adotados foram: 0.2, 0.25, 0.3 e 0.5. O intervalo de tolerân-

cia igual a 0.25 foi o mais utilizado, diante das melhores configurações de redes resultantes,

indicando uma cobertura maior no espaço de decisão, ou menos restrita de acerto, referente à

classificação dos conjuntos de teste.

6.3 Estudo das funções de ativação

Para este estudo, foram levadas em considerações as funções de ativação diferenciáveis e suas

respectivas derivadas:

• Bipolar sigmóide

fx =2

1+ exp(−x)−1 (6.1)

f ′x =12[1+ fx][1− fx] (6.2)

• Binária sigmóide

fx =1

1+ exp(−x)(6.3)

f ′x = fx[1− fx] (6.4)

• Arco tangente

fx =2π

arctan(x) (6.5)

f ′x =2π

11+ x2 (6.6)

6.4 Teste de sensibilidade da rede 28

• Base radial

fx = exp(−x2) (6.7)

f ′x =−2xexp(−x2) =−2x fx (6.8)

Na fase de experimentação deste trabalho, o uso das funções bipolar sigmóide e arco tan-

gente trouxe um melhor resultado para o reconhecimento da escrita, diante das porcentagens

máxima e média de acertos, erro padrão e do desvio padrão obtidos pelos modelos. Isso pode

ser justificado pela melhor adequação destas funções ao problema em questão, frente a um

espaço de decisão mais definido.

6.4 Teste de sensibilidade da rede

Foi realizado um teste com a finalidade de investigar a sensibilidade dos modelos construídos.

O conjunto de dados da letra “t”, com a adição da variável pressão, serviu de input para este

teste. Foram executadas 35 rodadas1 por meio da técnica Holdout em cada uma das estratégias:

• Parâmetros fixos, dados fixos e pesos aleatórios: Os parâmetros da rede foram fixados,

com base na melhor configuração para o conjunto de dados da letra “t” (20 neurônios

ocultos, 1 neurônio de saída, 0.2 de taxa de aprendizagem, 1500 épocas, função de ati-

vação bipolar sigmóide e 0.25 de intervalo de tolerância). Os conjuntos de dados de

treinamento e teste eram fixos e disjuntos. Os pesos e bias foram inicializados aleatoria-

mente. Nesta estratégia, obteve-se uma média de 62.86% de acerto, erro padrão de 8.17%

e desvio padrão de 25.04, além disso, a porcentagem máxima de acerto foi de 100% e a

mínima, 12.5%.

• Parâmetros fixos, dados variáveis e pesos fixos: Os parâmetros da rede foram fixados,

conforme a estratégia anterior, juntamente com os pesos e bias (mesmos valores iniciais

para todas as rodadas executadas). Já dos dados foram apresentados à rede de maneira

variada, porém disjunta nos conjuntos de treinamento e teste. A média de acertos foi de

85.89%, o erro padrão de 5.88% e o desvio padrão de 9.14, a porcentagem máxima de

acertos foi de 100% e a mínima, 50%.

Assim, portanto, pode-se observar que o modelo apresenta uma sensibilidade, principal-

mente quanto à inicialização dos parâmetros (variação das condições iniciais dos pesos).

1 Na Tabela D.1 do Apêndice D, podem ser vistos os resultados para cada uma das rodadas executadas.

6.5 Letra “a” cursiva 29

6.5 Letra “a” cursiva

No projeto “Ensinar com Pesquisa” (BRITO & PERES 2010), que analisou somente a trajetória

da letra “a” cursiva, o modelo obteve uma melhor configuração no processo de inspeção de

parâmetros (com base na porcentagem de acerto, média, erro padrão e desvio padrão calcula-

dos): 10 neurônios ocultos, 1 neurônio de saída, 0.2 de taxa de aprendizagem, 1000 épocas,

função bipolar sigmóide e 0.25 de intervalo de tolerância. No presente trabalho, que analisou

a trajetória e a pressão da escrita, o modelo obteve uma melhor configuração semelhante para

a letra “a”, sob os mesmos critérios: 12 neurônios ocultos, 1 neurônio de saída, 0.2 de taxa

de aprendizagem, 1000 épocas, função bipolar sigmóide e 0.2 de intervalo de tolerância. Na

Tabela 6.1, faz-se uma comparação dos resultados obtidos com a letra “a” cursiva do projeto

“Ensinar com Pesquisa” e do presente trabalho.

Tabela 6.1 – Resultados: letra “a” cursiva

% média de acertos % erro padrão Desvio padrãoProjeto “Ensinar com Pesquisa”: análise da trajetória

Holdout54.44 28.75 12.67

Cross-validation63.34 15.24 13.15

Presente trabalho: análise da trajetória e pressãoHoldout - com pressão

62.17 15.33 23.82Holdout - sem pressão

59.56 15.52 21Cross-validation - com pressão

35.71 15.15 37.65Cross-validation - sem pressão

64.28 15.15 39.41Leave-one-out - com pressão

70 5.48 46.16Leave-one-out - sem pressão

44.28 5.94 50.03

Com base nos testes executados, sob as técnicas trabalhadas, pode-se observar que existe

uma instabilidade no modelo. Ou seja, obteve-se desempenho bom em alguns testes e desem-

penho ruim em outros. Considerando as três abordagens, a presença da variável pressão pareceu

interferir de maneira positiva no processo de reconhecimento da escrita, com exceção da abor-

dagem Cross-validation, na qual é possível notar a interferência de maneira negativa. Assim,

os testes aqui realizados precisam ser melhorados, principalmente, no que diz respeito ao au-

mento de dados para treinamento e teste. A variabilidade nos resultados obtidos, em relação à

presença ou não da variável pressão e sua influência sobre o reconhecimento do padrão, impede

uma conclusão definitiva e sugere que melhorias ainda precisam ser realizadas.

30

7 Conclusão

Este trabalho apresentou os resultados obtidos pela construção de um analisador da qualidade da

escrita cursiva, por meio da construção de modelos de reconhecimento de padrões específicos

para a classificação da trajetória da escrita como correta/típica e incorreta/atípica.

Foi intenção deste estudo contribuir para o processo de automação das análises das capaci-

dades cognitivas e de coordenação motora, principalmente de crianças em fase de alfabetização,

auxiliando/facilitando o trabalho dos profissionais das áreas de Educação e Saúde.

Além disso, diante da natureza multidisciplinar, o problema proposto corta transversalmente

algumas áreas como Psicologia, Computação, Psiquiatria, Neurologia, Educação, Área Forense,

etc., e algumas disciplinas específicas do curso de Sistemas de Informação da EACH, como

Inteligência Artificial, Algoritmos, Estatítica, dentre outras, podendo contribuir, de alguma

maneira, para a disseminação do conhecimento aqui gerado como forma de solução e/ou al-

ternativas diante de problemas correlatos.

Os resultados obtidos mostraram que os modelos possuem graus de facilidade específicos

para o reconhecimento de letras e palavras, análogo, assim, ao ser humano que, em processo de

alfabetização, demonstra diferentes graus de facilidade para a escrita e reconhecimento de letras

e palavras. Também, os resultados obtidos são diferentes em função dos diferentes conjuntos

de dados trabalhados com graus de facilidade específicos em sua trajetória. Quanto a instabi-

lidade dos modelos, esta pode ser percebida, principalmente, pela variação (aleatoriedade) das

condições iniciais dos pesos.

Futuramente pretende-se construir uma arquitetura mais robusta, composta de RNAs aco-

pladas em um Comitê de Máquinas, porém cada RNA terá objetivos distintos. As RNAs na

primeira camada do comitê reconheceriam qual letra (ou exercício grafomotor) está sob análise,

enquanto RNAs especializadas, na segunda camada, classificariam cada uma das letras reconhe-

cidas sob o aspecto de escrita correta/típica ou incorreta/atípica.

31

Referências Bibliográficas

AGARWAL, S.; KUMAR, V. Online character recognition. In: ICITA (1). [S.l.: s.n.], 2005. p.698–703. 3.3

BENSEFIA, A.; PAQUET, T.; HEUTTE, L. A writer identification and verification system.Pattern Recogn. Lett., Elsevier Science Inc., New York, NY, USA, v. 26, n. 13, p.2080–2092, 2005. 3.3

BRITO, J. F.; PERES, S. M. Análise Qualitativa da Escrita Cursiva. [S.l.], Março 2010. 1,3.2, 6.5

BUNKE, H. Recognition of cursive roman handwriting - past, present and future. DocumentAnalysis and Recognition, International Conference on, IEEE Computer Society, LosAlamitos, CA, USA, v. 1, p. 448, 2003. 3.1, 3.3

DEITEL, H. M.; DEITEL, P. J. Java: how to program. 3. ed. [S.l.]: Prentice-Hall, 2000. 4

ENQI, Z. et al. On-line handwritten signature verification based on two levels back propagationneural network. In: IUCE ’09: Proceedings of the 2009 International Symposiumon Intelligent Ubiquitous Computing and Education. Washington, DC, USA: IEEEComputer Society, 2009. p. 202–205. ISBN 978-0-7695-3619-4. 3.3

FAUSETT, L. Fundamentals of Neural Networks: architectures, algorithms andapplications. [S.l.]: Prentice-Hall: New Jersey, USA, 1994. (document), 3.1, 3.2, 3.3, 3.4,3.2.3, 1, 3.5, 3.3

HAYKIN, S. Neural Networks: a comprehensive foundation. [S.l.]: Prentice Hall Inc, NewJersey, USA, 1998. 3.2, 3.2, 3.2, 3.2, 3.2.1, 3.2.3, 3.3

KLIR, G.; YUAN, B. Fuzzy Sets and Fuzzy Logic: Theory and Applications. [S.l.]:Prentice-Hall, 1995. 3.3

LAGO, A. E. da R. Sira – sistema de reconhecimento de assinaturas. In: . Uruguaiana, RS,Brasil: [s.n.], 2005. 3.3

MACDONALD, I.; ZUCHHINI, W. Hiddem Markov and other models for discrete-valuedtime series. [S.l.]: Boca Raton: Chapman and Hall/CRC, 1997. 3.3

MANKE, S.; BODENHAUSEN, U. A connectionist recognizer for on-line cursive handwritingrecognition. In: Proceedings of ICASSP’94. [S.l.: s.n.], 1994. 3.3

MITCHELL, T. M. Machine Learning. [S.l.]: New York: McGraw Hill. SERIES INCOMPUTER SCIENCE, 1997. 5.2

NORMAN, M. F. Markov processes and learning models. [S.l.]: New York: Academic,1972. 3.3

Referências Bibliográficas 32

QUEIROZ, R. B.; RODRIGUES, A. G.; GóMEZ, A. T. Estudo comparativo entre as técnicasmáxima verossimilhança gaussiana e redes neurais na classificação de imagens ir-mss cbers.In: Workshop de Computação da Região Sul. Leopoldo, RS, Brasil: [s.n.], 2004. 3.2.1

SENI, G.; NASRABADI, N.; SRIHARI, R. An On-Line Cursive Word Recognition System.1994. 3.3

VIARD-GAUDIN, C.; LALLICAN, P.-M.; KNERR, S. Recognition-directed recovering oftemporal information from handwriting images. Pattern Recogn. Lett., Elsevier ScienceInc., New York, NY, USA, v. 26, n. 16, p. 2537–2548, 2005. 3.3

WANG, J. et al. Combining shape and physical models for online cursive handwritingsynthesis. International Journal on Document Analysis and Recognition, v. 7, p.219–227, 2005. 3.3

ZAFAR, M. F.; MOHAMAD, D.; ANWAR, M. M. Recognition of Online IsolatedHandwritten Characters by Backpropagation Neural Nets Using Sub-CharacterPrimitive Features. [S.l.]: IEEE Computer Society, 2006. 3.3

33

APÊNDICE A -- Testes de configuração dosmodelos usando a abordagem Holdout

Abaixo, os resultados observados nas tabelas referem-se aos testes de configuração dos mode-

los, por meio da abordagem Holdout, para cada um dos conjuntos de dados trabalhados :

Tabela A.1 – Resultados: letra “t” cursiva

Neurônios Neurônios Taxa de Épocas Função de Intervalo de Acerto(%) Média Erro Desvioocultos de saída aprendizagem ativação tolerância padrão padrão

30 1 1 1000 bipolar sigmóide 0.25 5030 1 0.2 1000 bipolar sigmóide 0.25 93.7530 1 0.05 1000 bipolar sigmóide 0.25 68.75 70.83 26.24 21.9525 1 0.2 1000 bipolar sigmóide 0.25 81.2520 1 0.2 1000 bipolar sigmóide 0.25 93.7512 1 0.2 1000 bipolar sigmóide 0.25 50 75 25 22.5320 1 0.2 1000 binária sigmóide 0.25 87.520 1 0.2 1000 arco tangente 0.25 5020 1 0.2 1000 base radial 0.25 0 45.83 28.77 43.920 1 0.2 500 bipolar sigmóide 0.25 56.2520 1 0.2 1500 bipolar sigmóide 0.25 10020 1 0.2 2000 bipolar sigmóide 0.25 87.5 81.25 22.53 22.5320 1 0.2 1000 bipolar sigmóide 0.5 93.7520 1 0.2 1000 bipolar sigmóide 0.3 68.7520 1 0.2 1000 bipolar sigmóide 0.2 75 79.17 23.45 13.0120 2 0.2 1000 bipolar sigmóide 0.5 87.520 2 0.2 1000 bipolar sigmóide 0.3 81.2520 2 0.2 1000 bipolar sigmóide 0.2 43.75 70.83 26.24 23.66


Tabela A.2 – Resultados: letra “f” cursiva


30 1 1 1000 bipolar sigmóide 0.25 65.2230 1 0.2 1000 bipolar sigmóide 0.25 91.3030 1 0.05 1000 bipolar sigmóide 0.25 91.30 82.61 21.88 15.0625 1 0.05 1000 bipolar sigmóide 0.25 95.6520 1 0.05 1000 bipolar sigmóide 0.25 91.3012 1 0.05 1000 bipolar sigmóide 0.25 82.60 89.85 17.43 6.6425 1 0.05 1000 binária sigmóide 0.25 86.9625 1 0.05 1000 arco tangente 0.25 10025 1 0.05 1000 base radial 0.25 0 62.32 27.98 54.3625 1 0.05 500 arco tangente 0.25 91.3025 1 0.05 1500 arco tangente 0.25 10025 1 0.05 2000 arco tangente 0.25 95.65 95.65 11.77 4.3525 1 0.05 1000 arco tangente 0.5 95.6525 1 0.05 1000 arco tangente 0.3 10025 1 0.05 1000 arco tangente 0.2 95.65 97.10 9.68 2.5125 2 0.05 1000 arco tangente 0.5 95.6525 2 0.05 1000 arco tangente 0.3 10025 2 0.05 1000 arco tangente 0.2 78.26 91.30 16.27 11.50

Tabela A.3 – Resultados: letra “v” cursiva


30 1 1 1000 bipolar sigmóide 0.25 5030 1 0.2 1000 bipolar sigmóide 0.25 5030 1 0.05 1000 bipolar sigmóide 0.25 68.75 56.25 28.64 10.8225 1 0.05 1000 bipolar sigmóide 0.25 7520 1 0.05 1000 bipolar sigmóide 0.25 81.2512 1 0.05 1000 bipolar sigmóide 0.25 75 77.08 24.26 3.6020 1 0.05 1000 binária sigmóide 0.25 56.2520 1 0.05 1000 arco tangente 0.25 020 1 0.05 1000 base radial 0.25 0 18.75 22.53 32.4720 1 0.05 500 bipolar sigmóide 0.25 7520 1 0.05 1500 bipolar sigmóide 0.25 81.2520 1 0.05 2000 bipolar sigmóide 0.25 43.75 66.67 27.22 20.0920 1 0.05 1000 bipolar sigmóide 0.5 7520 1 0.05 1000 bipolar sigmóide 0.3 56.2520 1 0.05 1000 bipolar sigmóide 0.2 75 68.75 26.76 10.8220 2 0.05 1000 bipolar sigmóide 0.5 7520 2 0.05 1000 bipolar sigmóide 0.3 31.2520 2 0.05 1000 bipolar sigmóide 0.2 37.5 47.92 28.84 23.66


Tabela A.4 – Resultados: letra “s” cursiva


30 1 1 1000 bipolar sigmóide 0.25 34.7830 1 0.2 1000 bipolar sigmóide 0.25 34.7830 1 0.05 1000 bipolar sigmóide 0.25 78.26 49.27 28.86 20.1025 1 0.05 1000 bipolar sigmóide 0.25 69.5620 1 0.05 1000 bipolar sigmóide 0.25 78.2612 1 0.05 1000 bipolar sigmóide 0.25 65.22 71.01 26.19 6.6420 1 0.05 1000 binária sigmóide 0.25 78.2620 1 0.05 1000 arco tangente 0.25 020 1 0.05 1000 base radial 0.25 0 26.09 25.35 45.1820 1 0.05 500 bipolar sigmóide 0.25 65.2220 1 0.05 1500 bipolar sigmóide 0.25 73.9120 1 0.05 2000 bipolar sigmóide 0.25 82.61 73.91 25.35 8.6920 1 0.05 2000 bipolar sigmóide 0.5 65.2220 1 0.05 2000 bipolar sigmóide 0.3 78.2620 1 0.05 2000 bipolar sigmóide 0.2 73.91 72.46 25.79 6.6420 2 0.05 2000 bipolar sigmóide 0.5 78.2620 2 0.05 2000 bipolar sigmóide 0.3 95.6520 2 0.05 2000 bipolar sigmóide 0.2 65.22 79.71 23.22 15.27

Tabela A.5 – Resultados: letra “x” cursiva


30 1 1 1000 bipolar sigmóide 0.25 34.7830 1 0.2 1000 bipolar sigmóide 0.25 47.8330 1 0.05 1000 bipolar sigmóide 0.25 73.91 52.17 28.84 19.9225 1 0.05 1000 bipolar sigmóide 0.25 60.8720 1 0.05 1000 bipolar sigmóide 0.25 69.5612 1 0.05 1000 bipolar sigmóide 0.25 65.22 65.22 27.5 4.3530 1 0.05 1000 binária sigmóide 0.25 73.9130 1 0.05 1000 arco tangente 0.25 65.2230 1 0.05 1000 base radial 0.25 0 46.38 28.79 40.4030 1 0.05 500 bipolar sigmóide 0.25 73.9130 1 0.05 1500 bipolar sigmóide 0.25 65.2230 1 0.05 2000 bipolar sigmóide 0.25 52.17 63.77 27.75 10.9430 1 0.05 500 bipolar sigmóide 0.5 78.2630 1 0.05 500 bipolar sigmóide 0.3 69.5630 1 0.05 500 bipolar sigmóide 0.2 52.17 66.67 27.22 13.2830 2 0.05 500 bipolar sigmóide 0.5 60.8730 2 0.05 500 bipolar sigmóide 0.3 65.2230 2 0.05 500 bipolar sigmóide 0.2 56.52 60.87 28.18 4.35


Tabela A.6 – Resultados: palavra “emem” cursiva


30 1 1 1000 bipolar sigmóide 0.25 35.7130 1 0.2 1000 bipolar sigmóide 0.25 85.7130 1 0.05 1000 bipolar sigmóide 0.25 71.43 64.28 27.66 25.7525 1 0.2 1000 bipolar sigmóide 0.25 57.1420 1 0.2 1000 bipolar sigmóide 0.25 85.7112 1 0.2 1000 bipolar sigmóide 0.25 64.28 69.05 26.69 14.8720 1 0.2 1000 binária sigmóide 0.25 78.5720 1 0.2 1000 arco tangente 0.25 020 1 0.2 1000 base radial 0.25 0 26.19 25.38 45.3620 1 0.2 500 bipolar sigmóide 0.25 71.4320 1 0.2 1500 bipolar sigmóide 0.25 85.7120 1 0.2 2000 bipolar sigmóide 0.25 64.28 73.81 25.38 10.9120 1 0.2 1000 bipolar sigmóide 0.5 64.2820 1 0.2 1000 bipolar sigmóide 0.3 78.5720 1 0.2 1000 bipolar sigmóide 0.2 85.71 76.19 24.59 10.9120 2 0.2 1000 bipolar sigmóide 0.5 71.4320 2 0.2 1000 bipolar sigmóide 0.3 64.2820 2 0.2 1000 bipolar sigmóide 0.2 78.57 71.43 26.08 7.14

Tabela A.7 – Resultados: palavra “gugu” cursiva


30 1 1 1000 bipolar sigmóide 0.25 78.5730 1 0.2 1000 bipolar sigmóide 0.25 78.5730 1 0.05 1000 bipolar sigmóide 0.25 42.86 66.67 27.22 20.6225 1 0.2 1000 bipolar sigmóide 0.25 42.8620 1 0.2 1000 bipolar sigmóide 0.25 64.2812 1 0.2 1000 bipolar sigmóide 0.25 64.28 57.14 28.57 12.3730 1 0.2 1000 binária sigmóide 0.25 57.1430 1 0.2 1000 arco tangente 0.25 35.7130 1 0.2 1000 base radial 0.25 0 30.95 26.69 28.8730 1 0.2 500 bipolar sigmóide 0.25 78.5730 1 0.2 1500 bipolar sigmóide 0.25 78.5730 1 0.2 2000 bipolar sigmóide 0.25 42.86 66.67 27.22 20.6230 1 0.2 500 bipolar sigmóide 0.5 42.8630 1 0.2 500 bipolar sigmóide 0.3 71.4330 1 0.2 500 bipolar sigmóide 0.2 57.14 57.14 28.57 14.2830 2 0.2 500 bipolar sigmóide 0.5 78.5730 2 0.2 500 bipolar sigmóide 0.3 64.2830 2 0.2 500 bipolar sigmóide 0.2 35.71 59.52 28.34 21.82


Tabela A.8 – Treinamento e avaliação de desempenho da rede utilizando a abordagem Holdout- sem pressão


Letra t67.5 14.81 20.79

Letra a59.56 15.52 21

Letra f94.35 7.3 5.04

Letra v43.75 15.69 20.83

Letra s75.65 13.57 8.98

Letra x83.48 11.74 10.81

Palavra emem50.71 15.81 25.96

Palavra gugu59.28 15.54 15.81

38

APÊNDICE B -- Testes de configuração dosmodelos usando a abordagem Cross-validation

A abordagem 10-folds cross-validation foi executada com base nas melhores configurações dos

modelos obtidas na abordagem Holdout. Os resultados para cada conjunto de dados podem ser

observados conforme seguem:

Tabela B.1 – Porcentagem de acertos obtidos para cada um dos 10 folds

Folds Acerto(%) Média Erro padrão Desvio padrãoLetra t

1 502 753 1004 1005 1006 75 90 9.49 17.487 1008 1009 10010 100

Letra a1 02 03 14.284 05 28.576 14.28 35.71 15.15 37.657 42.868 71.439 85.7110 100


Folds Acerto(%) Média Erro padrão Desvio padrãoLetra f

1 85.712 1003 1004 1005 1006 100 98.57 3.75 4.527 1008 1009 10010 100

Letra v1 502 503 504 505 506 50 52.5 15.79 7.907 508 759 5010 50

Letra s1 85.712 1003 1004 1005 71.436 71.43 81.46 12.29 17.847 57.148 1009 57.4210 71.43

Letra x1 85.712 28.573 28.574 42.865 28.576 28.57 57.14 15.65 27.777 85.718 85.719 71.4310 85.71

Palavra emem1 66.672 33.333 04 05 06 0 10 9.49 22.507 08 09 010 0

Palavra gugu1 33.332 1003 1004 1005 1006 100 73.33 13.98 37.847 1008 33.339 66.6710 0


Tabela B.2 – Treinamento e avaliação de desempenho da rede utilizando a abordagem Cross-validation - sem pressão


Letra t77.5 13.2 24.86

Letra a64.28 15.15 39.41

Letra f98.57 3.75 4.52

Letra v35 15.08 24.15

Letra s87.14 10.58 20.70

Letra x77.14 13.28 31

Palavra emem70 14.49 24.59

Palavra gugu66.67 14.91 38.49

41

APÊNDICE C -- Testes de configuração dosmodelos usando a abordagem Leave-one-out

A abordagem Leave-one-out foi executada com base nas melhores configurações dos modelos

obtidas na abordagem Holdout. Os resultados para cada conjunto de dados, sem a variável

pressão, podem ser observados conforme seguem:

Tabela C.1 – Porcentagem média de acertos obtidos para o tamanho de cada conjunto

Média Erro padrão Desvio padrãoLetra t

50 7.9 50.64Letra a

44.28 5.94 50.03Letra f

100 0 0Letra v

45 7.87 50.38Letra s

77.14 5.02 42.29Letra x

81.43 4.65 39.17Palavra emem

96.67 3.28 18.26Palavra gugu

86.67 6.21 34.57

42

APÊNDICE D -- Testes de estabilidade da RNA

A partir da melhor configuração encontrada para a letra cursiva “t”, um teste para investigação

de estabilidade do modelo foi realizado, conforme segue:

Tabela D.1 – Testes de estabilidade

Rodadas % acerto Média Erro Desvio Máximo Mínimopadrão padrão

Parâmetros fixos, dados fixos e pesos aleatórios1 31.252 503 504 68.755 506 56.257 1008 12.59 87.5

10 5011 10012 5013 43.7514 93.7515 87.516 93.7517 68.7518 87.5 62.86 8.17 20.04 100 12.519 10020 5021 7522 12.523 5024 62.525 5026 37.527 81.2528 5029 5030 37.531 10032 7533 31.2534 93.7535 62.5

Apêndice D -- Testes de estabilidade da RNA 43

Rodadas % acerto Média Erro Desvio Máximo Mínimopadrão padrão

Parâmetros fixos, dados variáveis e pesos fixos1 93.752 93.753 504 1005 1006 1007 1008 1009 93.75

10 87.511 87.512 87.513 87.514 87.515 87.516 87.517 87.518 81.25 85.89 5.88 9.14 100 5019 87.520 87.521 81.2522 81.2523 81.2524 81.2525 81.2526 81.2527 81.2528 81.2529 81.2530 81.2531 81.2532 81.2533 81.2534 81.2535 81.25

Documents

Jaqueline Ferreira de Brito - jqebrito.files.wordpress.com · Universidade de São Paulo Escola de Artes, Ciências e Humanidades Jaqueline Ferreira de Brito Análise Qualitativa