Upload
hoangkiet
View
213
Download
0
Embed Size (px)
Citation preview
U N I V E R S I D A D E DE S A O P A U L O
Escola de Artes, Ciencias e Humanidades
Jaqueline Ferreira de Brito
Análise Qualitativa de Padrões de Escrita Cursiva
São PauloJunho de 2010
Universidade de São PauloEscola de Artes, Ciências e Humanidades
Jaqueline Ferreira de Brito
Análise Qualitativa de Padrões de Escrita Cursiva
Monografia apresentada à Escola de Artes,Ciências e Humanidades, da Universidadede São Paulo, como parte dos requisitosexigidos na disciplina ACH2017 – ProjetoSupervisionado ou de Graduação I, do curso deBacharelado em Sistemas de Informação.
Orientadora:
Profa. Dra. Sarajane Marques Peres
São PauloJunho de 2010
Universidade de São PauloEscola de Artes, Ciências e Humanidades
Jaqueline Ferreira de Brito
Análise Qualitativa de Padrões de Escrita Cursiva
Monografia apresentada à Escola de Artes,Ciências e Humanidades, da Universidadede São Paulo, como parte dos requisitosexigidos na disciplina ACH2017 – ProjetoSupervisionado ou de Graduação I, do curso deBacharelado em Sistemas de Informação.
Banca Examinadora:
Prof. Dr. Ivandré ParaboniEACH-USP
Profa. Dra. Patricia Rufino OliveiraEACH-USP
São PauloJunho de 2010
i
Agradecimentos
Agradeço a Deus por me fazer entender que sem esforço, empenho e dedicação não se chega
em lugar algum.
Aos meus pais, amigos e namorado pelo o apoio, amor, carinho e compreensão. Serei
eternamente grata a vocês!
À Profa. Dra. Sarajane Marques Peres por me mostrar uma parte da deslumbrante área de
Inteligência Artificial e pelo seu trabalho de orientação.
À Profa. Dra. Cynthia Hiraga em colaborar como “especialista do domínio de aplicação”,
diante de suas pesquisas na área de comportamento motor e humano.
E aos educadores da EACH-USP, com os quais tive a oportunidade não só de aprender a
aprender, mas de enxergar o mundo com outros olhos.
ii
Glossário
IA: Inteligência Artificial
MLP: Multi-Layer Perceptron
RNA: Rede Neural Artificial
iii
Resumo
Existem variadas formas de analisar a qualidade da escrita cursiva as quais requerem a constru-ção de modelos específicos. Essa necessidade também é válida quando a qualidade é avaliadapor meio de reconhecimento de padrões. O presente trabalho, formulado como continuação deum projeto “Ensinar com Pesquisa”, teve como objetivo aplicar modelos de reconhecimento depadrões, baseados em Redes Neurais Artificiais Perceptron Multicamadas com Backpropaga-tion, ao problema de análise da escrita cursiva. Instâncias específicas de escrita são abordadas,provendo automação de análise de capacidades cognitivas e de coordenação motora.
Palavras-chave: Qualidade em Escrita Cursiva, Inteligência Artificial, Reconhecimento de Pa-drões, Redes Neurais Artificiais, Perceptron Multicamadas com Backpropagation.
iv
Lista de Figuras
Figura 3.1 - Neurônio Artificial versus Neurônio Biológico . . . . . . . . . . . . . . 4
Figura 3.2 - Rede neural sem camada oculta . . . . . . . . . . . . . . . . . . . . . . 5
Figura 3.3 - Rede neural com uma camada oculta . . . . . . . . . . . . . . . . . . . 6
Figura 3.4 - Arquitetura do Perceptron simples. Adaptada de (FAUSETT 1994). . . . 7
Figura 3.5 - RNA com uma camada oculta . . . . . . . . . . . . . . . . . . . . . . 9
Figura 5.1 - Alguns dos exemplos coletados . . . . . . . . . . . . . . . . . . . . . . 16
Figura 5.2 - Limpeza do dado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
Figura 5.3 - Normalização do dado . . . . . . . . . . . . . . . . . . . . . . . . . . 18
Figura 5.4 - Letra “a”: escritas correta e incorreta . . . . . . . . . . . . . . . . . . . 19
Figura 6.1 - Comparação dos resultados obtidos . . . . . . . . . . . . . . . . . . . . 26
Figura 6.2 - Leave-one-out com e sem a variável pressão . . . . . . . . . . . . . . . 26
v
Lista de Tabelas
Tabela 5.1 - Conjuntos de dados de escrita cursiva . . . . . . . . . . . . . . . . . . 17
Tabela 5.2 - Inspeção dos parâmetros da RNA . . . . . . . . . . . . . . . . . . . . . 20
Tabela 5.3 - Abordagem Holdout: Inspeção de parâmetros . . . . . . . . . . . . . . 21
Tabela 5.4 - Resultados: abordagem Holdout . . . . . . . . . . . . . . . . . . . . . 22
Tabela 5.5 - Número de exemplos por fold para cada conjunto de dados . . . . . . . 22
Tabela 5.6 - Resultados: abordagem 10-folds Cross-validation . . . . . . . . . . . . 23
Tabela 5.7 - Resultados: abordagem Leave-one-out . . . . . . . . . . . . . . . . . . 24
Tabela 6.1 - Resultados: letra “a” cursiva . . . . . . . . . . . . . . . . . . . . . . . 29
Tabela A.1 - Resultados: letra “t” cursiva . . . . . . . . . . . . . . . . . . . . . . . . 33
Tabela A.2 - Resultados: letra “f” cursiva . . . . . . . . . . . . . . . . . . . . . . . 34
Tabela A.3 - Resultados: letra “v” cursiva . . . . . . . . . . . . . . . . . . . . . . . 34
Tabela A.4 - Resultados: letra “s” cursiva . . . . . . . . . . . . . . . . . . . . . . . 35
Tabela A.5 - Resultados: letra “x” cursiva . . . . . . . . . . . . . . . . . . . . . . . 35
Tabela A.6 - Resultados: palavra “emem” cursiva . . . . . . . . . . . . . . . . . . . 36
Tabela A.7 - Resultados: palavra “gugu” cursiva . . . . . . . . . . . . . . . . . . . . 36
Tabela A.8 - Resultados: abordagem Holdout . . . . . . . . . . . . . . . . . . . . . 37
Tabela B.1 - Porcentagem de acertos obtidos para cada um dos 10 folds . . . . . . . 38
Tabela B.2 - Resultados: abordagem Cross-validation . . . . . . . . . . . . . . . . . 40
Tabela C.1 - Porcentagem média de acertos obtidos para o tamanho de cada conjunto 41
Tabela D.1 - Testes de estabilidade . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
vi
Sumário
1 Introdução 1
2 Objetivos 2
2.1 Objetivo Geral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
2.2 Objetivos Específicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
3 Revisão bibliográfica 3
3.1 Reconhecimento da Escrita . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
3.2 Rede Neural Artificial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
3.2.1 Paradigmas de Aprendizagem . . . . . . . . . . . . . . . . . . . . . . 6
3.2.2 Perceptron Simples . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
3.2.3 Perceptron de Múltiplas Camadas com Backpropagation . . . . . . . . 7
3.3 Trabalhos Relacionados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
4 Metodologia 14
5 Resultados 15
5.1 Conjunto de dados: Escrita Cursiva . . . . . . . . . . . . . . . . . . . . . . . . 15
5.2 Experimentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
5.2.1 Arquitetura da RNA . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
5.2.2 Holdout . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
5.2.3 R-fold Cross-validation . . . . . . . . . . . . . . . . . . . . . . . . . . 21
5.2.4 Leave-one-out . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
Sumário vii
6 Discussão 25
6.1 Comparação dos resultados obtidos . . . . . . . . . . . . . . . . . . . . . . . . 25
6.2 Estudo do intervalo de tolerância . . . . . . . . . . . . . . . . . . . . . . . . . 27
6.3 Estudo das funções de ativação . . . . . . . . . . . . . . . . . . . . . . . . . . 27
6.4 Teste de sensibilidade da rede . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
6.5 Letra “a” cursiva . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
7 Conclusão 30
Referências Bibliográficas 31
Apêndice A -- Testes de configuração dos modelos: abordagem Holdout 33
Apêndice B -- Testes de configuração dos modelos: abordagem Cross-validation 38
Apêndice C -- Testes de configuração dos modelos: abordagem Leave-one-out 41
Apêndice D -- Testes de estabilidade da RNA 42
1
1 Introdução
Uma das preocupações que permeiam o trabalho de profissionais da educação e da saúde é
o desenvolvimento das capacidades cognitivas e de coordenação motora do indivíduo (princi-
palmente em crianças). É comum que, no ambiente escolar, sejam proporcionadas atividades
que permitam analisar o grau de desenvolvimento de tais capacidades das crianças, entretanto,
comumente estas análises são feitas de maneira não automatizada, exigindo uma atenção in-
dividual a cada criança e inviabilizando a realização de análises frequentes e diferenciadas
(BRITO & PERES 2010).
Com base nisso, por meio de técnicas da Inteligência Artificial (IA), em especial as Redes
Neurais Artificiais (RNAs), é possível obter soluções que contribuam para o processo de auto-
matização de análises em processos comumente usados na resolução de problemas nas áreas da
educação e da saúde, em específico, relacionados à coordenação motora e capacidade cognitiva
dos indivíduos.
A partir dos resultados obtidos no projeto “Ensinar com Pesquisa” executado pela aluna
proponente do presente trabalho, observou-se a possibilidade de construção de modelos especí-
ficos de RNA para as variadas formas de análise da escrita cursiva (traçado, pressão, velocidade,
tamanho, formato, etc), justificando também a proposição desta continuidade do estudo. O es-
copo do presente trabalho pautou-se na análise da trajetória de letras e palavras cursivas, bem
como na pressão de escrita exercida pelo indivíduo.
Assim, a fim de informar o leitor sobre a organização deste trabalho, este está estruturado
da seguinte forma: no Capítulo 2, são apresentados os objetivos (principal e específicos) de
estudo; o Capítulo 3 apresenta a descrição de alguns conceitos e técnicas fundamentais para
o desenvolvimento deste trabalho, bem como os principais trabalhos correlatos; o Capítulo 4
apresenta a metodologia utilizada; já os resultados obtidos, discussão e análise dos dados, e a
conclusão, podem ser observados nos Capítulos 5, 6 e 7 respectivamente.
2
2 Objetivos
Neste capítulo, são apresentados o objetivo geral e os objetivos específicos do presente trabalho.
2.1 Objetivo Geral
O objetivo principal deste estudo se pautou na construção de um analisador de qualidade de
escrita, com base nas variadas instâncias de escrita cursiva coletadas, por meio da codificação
de RNAs Perceptron Multicamadas com Backpropagation específicas para as diferentes formas
de análise de padrões da escrita cursiva.
2.2 Objetivos Específicos
A fim de resolver o problema proposto, os objetivos específicos foram pré-estabelecidos. São
eles:
• Estudar o problema de análise qualitativa de padrões de Escrita Cursiva por meio de
RNAs;
• Organizar um conjunto de dados composto por diferentes instâncias de escrita cursiva;
• Aprimorar a codificação referente à Rede Neural Perceptron Multicamadas com Back-
propagation existente;
• Especificar um conjunto de testes e analisar os resultados referentes à aplicação desta
RNA sobre os dados de escrita cursiva.
Além de contribuir para a análise automatizada das capacidades cognitivas, da caligrafia e da
coordenação motora do agente produtor da escrita, o desenvolvimento deste trabalho está rela-
cionado aos estudos na área de Reconhecimento de Padrões e, por conseqüência, às áreas cor-
relatas (Estatística, Matemática e Inteligência Artificial).
3
3 Revisão bibliográfica
Neste capítulo, encontra-se todo o aparato bibliográfico levantado mediante o estudo de con-
ceitos, técnicas e trabalhos afins referentes à proposta do projeto em questão.
Para a execução deste projeto foi escolhido como técnica de análise de dados as RNAs, por
serem estas objetos de estudo da disciplina de Inteligencia Artificial (no curso de Sistemas de
Informação da EACH)1. Dentre as arquiteturas possíveis, segundo a literatura estudada, uma
que se mostrou adequada para o problema em questão foi a arquitetura baseada no algoritmo de
treinamento Backpropagation.
3.1 Reconhecimento da Escrita
O domínio de aplicação escolhido para o reconhecimento de escrita, o qual se contextualiza na
necessidade de mecanismos automáticos de análise da qualidade da escrita cursiva, pode ser
dividido em duas técnicas:
• Escrita on-line: Para o reconhecimento da escrita on-line, o escritor está fisicamente
conectado a um computador via mouse, caneta eletrônica ou dispositivo sensível ao toque,
por meio do qual sua escrita é gravada como um processo dependente do tempo.
• Escrita off-line: O modo de escrita off-line é capturado por meio de scanner (ou câmeras)
e torna-se disponível no formato de imagem, sem qualquer informação temporal. Se-
gundo (BUNKE 2003), como é um processo independente do tempo, o reconhecimento
de escrita off-line é considerado um problema mais difícil de ser trabalhado.
De acordo com (FAUSETT 1994), uma área específica na qual muitas aplicações de redes
neurais podem ser desenvolvidas é o reconhecimento automático de caracteres cursivos (dígitos
ou letras). A grande variação em tamanhos, posições e estilos de escrita faz deste um problema
1 Ementa da disciplina em <http://sistemas2.usp.br/jupiterweb/obterDisciplina?sgldis=ACH2016&codcur=86200&codhab=202>
3.2 Rede Neural Artificial 4
difícil para técnicas tradicionais. É um bom exemplo, contudo, do tipo de processamento de
informação que os seres humanos podem executar de maneira relativamente fácil.
3.2 Rede Neural Artificial
Uma rede neural é um sistema de processamento de informação capaz de modelar como o
cérebro humano realiza uma determinada tarefa, inspirada no comportamento real de aprender,
errar e fazer novas descobertas. As Redes Neurais Artificiais possuem nós ou unidades de
processamento. Cada unidade recebe e/ou envia sinais para outras unidades, simulando os
neurônios biológicos (Figura 3.1), organizados em uma rede neural (BRITO & PERES 2010).
“Um neurônio é uma unidade de processamento de informação que é fundamental para a
operação de uma rede neural” (HAYKIN 1998).
Figura 3.1 – Paralelo entre as características do Neurônio Artificial e suas respectivas inspi-rações no Neurônio Biológico.
Na Figura 3.1, um conjunto de sinapses é caracterizado por um peso. O somador tem o
objetivo de somar os sinais de entrada. Além disso, uma função de ativação tem como objetivo
restringir a amplitude da saída do neurônio.
Segundo (HAYKIN 1998), uma rede neural se assemelha ao cérebro em dois aspectos:
1. O conhecimento é adquirido pela rede a partir de seu ambiente através de um processo de
aprendizagem.
3.2 Rede Neural Artificial 5
2. Forças de conexão entre neurônios, conhecidas como pesos sinápticos, são utilizadas para
armazenar o conhecimento adquirido.
(HAYKIN 1998) também afirma que uma rede neural é caracterizada pelo:
• Seu padrão de conexão entre os neurônios (arquitetura);
• Seu método de determinação de pesos nas conexões (treinamento ou algoritmo de apren-
dizagem);
• A função de ativação usada nos neurônios.
Dentre as diferentes arquiteturas de RNA existentes, neste trabalho se está interessado em
redes alimentadas adiante. Essas redes podem ser:
• Alimentada Adiante (feedfoward) com Camada Única
Uma rede neural pode ter apenas uma camada de entrada de nós, cujos sinais se projetam
sobre uma única camada de saída de neurônios (alimentada adiante ou acíclica). Como
pode-se observar na Figura 3.2, a camada única refere-se apenas à camada de saída.
Figura 3.2 – Rede neural alimentada adiante sem camada oculta. Fonte (FAUSETT 1994).
• Alimentada Adiante (feedfoward) com Múltiplas Camadas
Na Figura 3.3, pode-se observar a presença de uma camada oculta, cujo nó é chamado
de neurônio oculto ou unidade oculta. Pode haver múltiplas camadas ocultas contendo
N neurônios em cada uma, “fazendo com que a rede adquira uma visão global devido ao
conjunto extra de conexões de pesos sinápticos e da dimensão extra de interações neurais”
(Churchland e Sejnowski, 1992 apud (HAYKIN 1998)).
3.2 Rede Neural Artificial 6
Figura 3.3 – Rede neural alimentada adiante com uma camada oculta. Adaptada de(FAUSETT 1994).
3.2.1 Paradigmas de Aprendizagem
Existem alguns paradigmas de aprendizagem, aplicados à RNA, que podem ser vistos em
(HAYKIN 1998). Dentre eles, os principais são:
• Supervisionado (aprendizagem com um professor): Os dados apresentados à RNA pos-
suem o rótulo da classe associada. Neste paradigma, o algoritmo de treinamento ajusta os
pesos do modelo em função do erro obtido entre a resposta desejada e a resposta obtida,
a fim de diminuir o sinal de erro e dispensar o conhecimento do professor (situação em
que a rede neural converge).
• Não supervisionado (aprendizagem sem um professor): Os dados apresentados à RNA
não possuem o rótulo da classe associada. O algoritmo de treinamento analisa os exem-
plos fornecidos e procura agrupá-los ou auto-organizá-los de acordo com suas similari-
dades (ajuste dos pesos pela maximização de uma medida de qualidade que a rede deve
aprender), formando grupos ou clusters específicos.
Assim, uma RNA possui uma representação na qual todo o conhecimento aprendido sobre
um determinado conceito fica armazenado nos pesos de cada um de seus neurônios, sendo difí-
cil extraí-lo. Entretanto, de acordo com (QUEIROZ, RODRIGUES & GóMEZ 2004), a capaci-
dade de aprender através de exemplos e de generalizar a informação aprendida é, sem dúvida,
o atrativo principal de soluções de problemas por meio de RNAs.
3.2.2 Perceptron Simples
Usualmente, o objetivo da RNA Perceptron é classificar cada padrão de entrada como perten-
cente, ou não pertencente, a uma classe específica. A rede é treinada para executar esta classifi-
cação por meio de uma técnica iterativa (algoritmo de treinamento ou de aprendizado). Assim,
a unidade de saída da rede emite uma resposta que pode ser:
3.2 Rede Neural Artificial 7
• +1, como pertencente a uma classe particular
• -1, como não pertencente a uma classe particular
A Figura 3.4 mostra a arquitetura de um Perceptron simples. Já os passos do algoritmo de
treinamento podem ser observados no Algoritmo 1.
Figura 3.4 – Arquitetura do Perceptron simples. Adaptada de (FAUSETT 1994).
3.2.3 Perceptron de Múltiplas Camadas com Backpropagation
Do inglês Multi-Layer Perceptron, a rede MLP possui uma arquitetura Alimentada Adiante
(feedfoward) com Múltiplas Camadas, sendo portanto, uma generalização do Perceptron de
camada única.
A rede MLP, por meio do treinamento de forma supervisionada, geralmente utiliza o al-
goritmo de retropropagação do erro chamado Backpropagation. Basicamente, a aprendizagem
por retropropagação do erro consiste no ajuste dos pesos de acordo com os respectivos er-
ros calculados para cada padrão apresentado à rede. Ajustando os parâmetros livres (pesos e
bias), minimiza-se o erro contido no conjunto de treinamento da rede e, retropropagando o sinal
obtido, faz-se com que a rede se aproxime da resposta desejada.
O desenvolvimento do algoritmo Backpropagation representa um marco nas redes neurais,
pois fornece um método computacional eficiente para o treinamento de Perceptrons de múltiplas
camadas (HAYKIN 1998).
A arquitetura da rede MLP com Backpropagation pode ser observada pela Figura 3.5.
O treinamento por algoritmo Backpropagation é composto por três estágios de acordo com
(FAUSETT 1994):
3.2 Rede Neural Artificial 8
Algorithm 1 Perceptron simples. Adaptado de (FAUSETT 1994)Passo 0: Inicialize pesos e bias.
(Por simplicidade, inicialize pesos e bias com zero.)Ajuste a taxa de aprendizado α (0 ≤ α ≤ 1).(Por simplicidade, α pode ser 1.)
Passo 1: Enquanto a condição de parada for falsa, faça os passos 2-6.Passo 2: Para cada par do treinamento s:t, faça os passos 3-5.
Passo 3. Ative as unidades de entrada: xi = si;Passo 4: Calcule a resposta da unidade de saída:
yin = ∑i
xiwi;
y =
1, se yin > 00, se −θ ≤ yin≤ θ
−1, se yin <−θ
Passo 5: Atualize pesos e bias se um erro occorrer para esse padrãoif y 6= t then
wi(new) = wi(old)+αtxi
b(new) = b(old)+αt
else
wi(new) = wi(old)+αtxi
b(new) = b(old)+αt
end ifPasso 6: Condição de parada:
Se nenhuma peso mudou no passo 2, pare; senão, continue.
3.2 Rede Neural Artificial 9
Figura 3.5 – Arquitetura de uma rede neural com uma camada oculta, adequada para sertreinada com o algoritmo Backpropagation. Adaptada de (FAUSETT 1994).
1. A passagem (feedforward) dos padrões de treinamento
Cada unidade de entrada (Xi, i = 1, ...,n) recebe um sinal de entrada xi e o dissipa para
todas as unidades ocultas (na camada acima). Cada v0 j representa o peso da bias e vi j,
os pesos sinápticos. Cada unidade oculta (Z j, j = 1, ..., p) soma suas entradas pesadas
(Eq. 3.1), aplica sua função de ativação para computar seu sinal de saída (Eq. 3.2), e
envia o sinal para todas as unidades na camada acima (unidades de saída).
z_in j = v0 j +n
∑i=1
xivi j (3.1)
z j = f (z_in j) (3.2)
Cada unidade de saída (Yk,k = 1, ...,m) soma suas entradas pesadas (Eq. 3.3) e aplica sua
função de ativação para computar seu sinal de saída (Eq. 3.4).
y_ink = w0k +p
∑j=1
z jw jk (3.3)
yk = f (y_ink) (3.4)
2. O cálculo e retropropagação do erro associado
3.2 Rede Neural Artificial 10
Cada unidade de saída (Yk,k= 1, ...,m) recebe uma classificação correspondente ao padrão
de entrada, computa seu termo de erro de informação (Eq. 3.5), calcula seu termo de cor-
reção de pesos (Eq. 3.6), calcula seu termo de correção de bias (Eq. 3.7) e e envia δk para
as unidades de cada camada abaixo.
δ = (tk− yk) f ′(y_ink) (3.5)
∆w jk = αδkz j (3.6)
∆w0k = αδk (3.7)
Cada unidade oculta (Z j, j = 1, ..., p) soma suas entradas delta (vindas das unidades da
camada acima) (Eq. 3.8), multiplica pela derivada de sua função de ativação para calcu-
lar seu termo de erro de informação (Eq. 3.9), calcula seu termo de correção de pesos
(Eq. 3.10) e calcula seu termo de correção de bias (Eq. 3.11).
δ_in j =m
∑k=1
δkw jk (3.8)
δ j = δ_in j f ′(z_in j) (3.9)
∆vi j = αδ jxi (3.10)
∆v0 j = αδ j (3.11)
3. O ajuste de pesos e bias
Cada unidade de saída (Yk,k= 1, ...,m) altera seu bias e seus pesos ( j = 0, ..., p) (Eq. 3.12).
w jk(new) = w jk(old)+∆w jk (3.12)
Cada unidade oculta (Z j, j = 1, ..., p) altera seu bias e seus pesos (i = 0, ...,n) (Eq. 3.13).
vi j(new) = vi j(old)+∆vi j (3.13)
3.3 Trabalhos Relacionados 11
3.3 Trabalhos Relacionados
A fim de exemplificar o que se tem feito nesta área, segue um resumo de algumas iniciativas de
pesquisas que propõem modelos aplicados a domínios correlatos ao discutido neste trabalho:
• (VIARD-GAUDIN, LALLICAN & KNERR 2005): trata da análise de um sistema de re-
conhecimento offline de caligrafia para letra cursiva baseado em Quantização Vetorial e
Modelos Escondidos de Markov. As principais características de análise são a informação
temporal e a informação de qualidade de trajetória.
• (BENSEFIA, PAQUET & HEUTTE 2005): tarefas de verificação e identificação do indi-
víduo que produziu uma escrita são o foco desse trabalho. Para a realização desta tarefa,
os autores propõem um modelo que usa características locais da caligrafia, tais como
grafemas extraídos através de um processo de segmentação da produção gráfica referente
a escrita à mão.
• (WANG et al. 2005): este trabalho propõe uma abordagem baseada em aprendizado para
realizar a síntese de caligrafia cursiva referente à caligrafia de um indivíduo em especí-
fico. Modelos de análise de forma e de correspondência de trajetória são utilizados para
analisar dados de treinamento para construção do modelo sintetizador.
• (BUNKE 2003): o estado da arte da área de reconhecimento de caligrafia para a escrita
cursiva romana é o objeto de interesse deste trabalho. Nele são delineadas as diversas
tarefas que podem constituir a tarefa de reconhecimento de caligrafia bem como alguns
modelos matemáticos para a implementação de tais tarefas. 131 referências bibliográ-
ficas são apresentadas neste trabalho, constituindo uma ótima fonte de informação para
iniciação dos estudos propostos neste projeto.
• (MANKE & BODENHAUSEN 1994): Redes Neurais Artificiais são exploradas neste
trabalho para a realização da tarefa de reconhecimento de caligrafia cursiva. O modelo
MS-TDNN (Multi-State Time Delay Neural Network) é aplicado para resolver o problema
de reconhecimento de caracteres.
• (ZAFAR, MOHAMAD & ANWAR 2006): trata do desenvolvimento de um sistema para
o reconhecimento de escrita on-line de vários estilos. A partir das variações de escrita
dos caracteres isolados, o alfabeto inglês maiúsculo serviu como dados de entrada para
o sistema estudado. Para a classificação do problema proposto, duas técnicas de redes
naurais foram utilizadas: Backpropagation e Counter propagation. Além disso, frente a
3.3 Trabalhos Relacionados 12
análise da direção dos caracteres escritos (vetor de codificação das direções), oito direções
foram usadas, sendo que cada uma possuia um código específico a depender do ângulo
formado.
• (ENQI et al. 2009): um algoritmo diferenciado para o reconhecimento da escrita cursiva
on-line é proposto. Uma RNA de dois níveis, com algoritmo de treinamento Backpropaga-
tion, é criada para a classificação da escrita original e falsificada. O primeiro nível da rede
refere-se à análise das características estatísticas extraídas da escrita (velocidade média
nas direções x e y, razão entre a velocidade máxima e mínima de x, tempo da caneta
efetivamente em movimento, etc) e o segundo nível refere-se às características wavelet
(extraídas pela transformada wavelet Daubechies-6).
• (LAGO 2005): a fim de automatizar a análise de assinaturas, foi desenvolvido um sistema
chamado SiRA (Sistema de Reconhecimento de Assinaturas). A partir da escrita off-line
coletada, foi realizado o pré-processamento das imagens geradas, por meio das técni-
cas de solarização, realce, limiarização, restauração e representação das imagens. Para
o reconhecimento dos padrões, foi utilizada a técnica de RNA Multi-Layer Perceptron
que permitia fazer análise de falsificações, autofalsificações e afirmar, com certo grau de
certeza, a probabilidade de uma assinatura pertencer a um determinado escritor.
• (AGARWAL & KUMAR 2005): trata do reconhecimento de caracteres (dígitos e letras
maiúsculas) de escrita on-line que possuem uma sequência primitiva semelhante. No
estudo, procura-se distingir os caracteres que possuem informações direcionais muito
semelhantes, removendo possíveis ambiguidades. Além disso, baseia-se na conectividade
relativa, informação direcional, rotação (direta e parcial) e primitivas como linhas, curvas
nas direções anti-horária e horária, loop (curva que se junta com um ponto) para atingir o
objetivo proposto. Diante da técnica de remoção de ambiguidades implementada, a RNA
utilizada para o reconhecimento obteve resultados muito animadores: 98.3% de acerto
para o reconhecimento de dígitos e 99.2% de acerto para o reconhecimento de letras
maiúsculas.
• (SENI, NASRABADI & SRIHARI 1994): trata do desenvolvimento de um sistema para
o reconhecimento de um grande vocabulário de palavras de escrita cursiva on-line. Para
isso, foram levadas em consideração a abordagem baseada em palavras (treinamento da
rede com amostras de cada palavra do dicionário estabelecido, restringindo o vocabulário)
e a abordagem baseada em segmentação (cada palavra é segmentada em letras). O sistema
foi criado com base numa abordagem mista (ou intermediária) das abordagens citadas,
3.3 Trabalhos Relacionados 13
possuindo módulos de filtragem (para o pré-processamento dos dados) e de reconheci-
mento de padrões, por meio da rede MS-TDNN.
Tanto as técnicas já citadas neste texto (como Redes Neurais Artificial e Modelos Escondidos
de Markov) quanto outras técnicas de Inteligência Artificial úteis para a realização do objetivo
deste trabalho, possuem um aparato bibliográfico bastante desenvolvido que pode ser acessado
para fundamentar seus princípios. Mais detalhes sobre essas técnicas podem ser obtidas em
(FAUSETT 1994), (HAYKIN 1998), (NORMAN 1972), (MACDONALD & ZUCHHINI 1997)
e (KLIR & YUAN 1995).
14
4 Metodologia
A metodologia aplicada para o estudo contou com as seguintes atividades:
• Atualização do levantamento bibliográfico sobre trabalhos referentes à análise qualitativa
da escrita cursiva, dando um enfoque maior aos artigos que se baseiam na mesma técnica
proposta no presente trabalho (rede MPL com Backpropagation);
• Organização1 e pré-processamento do conjunto de dados referente a instâncias de escrita
cursiva, envolvendo procedimentos de limpeza e normalização, além da seleção dos tipos
de dados a serem trabalhados e da definição da variável a ser analisada;
• Aprimoramento da codificação de RNA já existente,2 envolvendo atividades mais especí-
ficas como:
– Construção de modelos específicos para algumas das variadas formas de análise da
escrita cursiva;
– Estudo, implementação e análise de funções de ativação;
– Estudo, implementação e análise do intervalo de tolerância3;
– Configuração e análise dos parâmetros dos modelos.
• Experimentação, análise e documentação dos resultados obtidos referentes a cada uma
das instâncias de dados coletados, considerando a definição da variável realizada (dentre
as seguintes possibilidades: análises de traçado, pressão, velocidade, forma, tamanho, ou
outras disponibilizadas pelo software de captação de dados4 usado).
1 Todo o processo de coleta de dados foi realizado durante o projeto “Ensinar com Pesquisa”, já a organização dosconjuntos de dados foi realizada no presente trabalho.
2 Construída durante o projeto Ensinar com Pesquisa no software em Matlab R© 7.6.0(http://www.mathworks.com/products/matlab/)
3 Intervalo da resposta obtida pela rede neural que deve ser considerada como correta, em comparação com aresposta desejada definida (tipo da classe).
4 MovAlyzer R© 3.94 <http://www.neuroscriptsoftware.com/movalyzer.php>
15
5 Resultados
Neste capítulo, são apresentados os dados coletados e os experimentos realizados por meio das
redes MLPs com Backpropagation específicas para cada tipo de dado.
5.1 Conjunto de dados: Escrita Cursiva
A análise da escrita cursiva abrange uma série de características e particularidades referentes a
uma área de estudo multidisciplinar (Saúde, Psicologia, Pedagogia e Computação).
Como especialista do domínio e como base nos resultados de melhor efeito de suas pesquisas
na área de comportamento motor humano, em específico, nos temas envolvendo atenção, coor-
denação intermembros, desordem coordenativa desenvovimental e ações manipulativas, a pro-
fessora e pesquisadora Cynthia Hiraga sugeriu a coleta de algumas letras, palavras e exercícios
grafomotores1. A partir destas sugestões, os dados foram coletados com o apoio de um tablet,
acompanhado de um software integrado, que permitiu obter variáveis referentes ao traçado da
letra cursiva, pressão, aceleração e velocidade da caneta sobre o tablet, entre outras.
Para organizar o problema em questão, por meio da técnica de reconhecimento de padrões,
foram alaboradas uma série de sistematizações, tais como:
1. Análise dos exercícios grafomotores no que se refere a pressão (fraca, normal e forte) e
velocidade (lenta, normal e rápida) do traçado.
2. Análise das palavras “emem” e “gugu” corretas e incorretas e a pressão da escrita destas
palavras.
3. Análise das letras “a”, “f”, “s”, “t”, “v” e “x”, no que se refere a direção e sentido do
traçado correto e incorreto, a pressão de escrita desta letras e a velocidade da escrita da
letra “g”.
1 Os dados foram coletados, no projeto “Ensinar com Pesquisa”, pela autora do presente trabalho. Além disso, osdados foram escritos, propositalmente, de maneira errada (atípica).
5.1 Conjunto de dados: Escrita Cursiva 16
A organização dos dados coletados foi realizada levando em consideração as variáveis:
pressão (fraca, normal e forte), velocidade (lenta, normal e rápida) e o traçado da letra no que
se refere ao estabelecimento de escrita típica e atípica. Alguns exemplos dos dados coletados
podem ser observados, por meio de plotagens, na Figura 5.1. Em (a), trata-se de um exercício
motor de ligar os pontos em uma ordem pré-estabelecida. Em (b) e (c), são palavras que pos-
suem características específicas em seu traçado, que podem auxiliar na análise da caligrafia das
crianças. Já (d), (e) e (f) são alguns dos exemplos de letras cursivas incorretas e que possuem
algumas variações em seu traçado.
Figura 5.1 – Alguns dos exemplos coletados. (a) refere-se a um exercício motor; (b) e (c) sãoexemplos de palavras trabalhadas e (d), (e) e (f) são exemplos de letras coletadas.
5.1 Conjunto de dados: Escrita Cursiva 17
Para o problema proposto neste trabalho, foram utilizadas as variáveis referentes ao traçado
da letra e palavra (coordenadas x e y) e a pressão da escrita (coordenada z). Os conjuntos de
dados selecionados para o experimento podem ser observados na Tabela 5.1.
Tabela 5.1 – Conjuntos de dados de escrita cursiva
Conjuntos de dados Exemplos corretos Exemplos incorretosa 50 25f 50 25s 25 50t 25 25v 25 25x 25 50
emem 15 29gugu 15 29
Os conjuntos de dados sofreram pré-processamentos de limpeza e normalização para aten-
der aos requisitos de experimento pretendidos. Na Figura 5.2 pode ser observado um exemplo
do efeito de limpeza do dado (retirada de ruído)2
Figura 5.2 – Limpeza do dado. Dado bruto (em azul) versus dado pré-processado (em ver-melho).
A normalização dos dados3 foi realizada com base no exemplo de cada conjunto de dados
de menor tamanho, executada por meio da retirada de pontos (ou coordenadas x, y e z) igual-
mente espaçados no traçado da letra e codificada por meio da linguagem de programação Java.4
2 Os ruídos são resultantes da sensibilidade do tablet, isto é, do sensoriamento de dados mesmo quando a canetaera retirada da superfície e, por isso, no final de cada dado havia este problema. Além disso, neste caso, a retiradade ruídos refere-se à retirada dos pontos onde a pressão exercida no processo de escrita é zero.
3 Esta normalização é, na verdade, uma padronização de tamanho do vetor de características dos dados.4 Para saber maiores informações sobre a linguagem de programação Java, consulte (DEITEL & DEITEL 2000)
5.2 Experimentos 18
A normalização dos dados teve como objetivo igualar o tamanho de todos os exemplos perten-
centes a um mesmo conjunto de dados coletados (número de pontos de cada dado, referentes ao
traçado das letras e palavras), visto que o algoritmo de reconhecimento de padrões escolhido,
uma RNA, exige que todos os padrões a serem analisados possuam o mesmo número de carac-
terísticas descritivas. A Figura 5.3 ilustra o efeito da normalização, identificado pelas setas na
letra “f” em vermelho.
Figura 5.3 – Normalização do dado. Dado limpo (em azul) versus dado normalizado (em ver-melho).
5.2 Experimentos
Para a realização dos experimentos neste trabalho, foi levado em consideração o problema re-
ferente à análise do traçado de letras e palavras cursivas juntamente com a pressão exercida no
processo de escrita e o estabelecimento dos conceitos de letra e palavra típicas/corretas e atípi-
cas/incorretas. O problema em questão é tratado por meio da classificação automática da escrita
cursiva do usuário em: escrita típica/correta e atípica/incorreta. Como pode ser visto no exem-
plo da Figura 5.4, cada um dos conjuntos de dados possui as escritas do traçado consideradas
correta e incorreta.
5.2.1 Arquitetura da RNA
Para o estabelecimento dos parâmetros da arquitetura da RNA, foi realizada uma sistematização
de treinamento e teste, por meio de algoritmos referentes às redes MLPs com Backpropagation5.
5 As redes MLPs e o algoritmo de treinamento Backpropagation foram implementados usando a ferramentaMATLAB R© 7.6.0 (R2008a)
5.2 Experimentos 19
Figura 5.4 – Exemplos de letra “a” cursiva considerada correta em (a) e (b) e incorreta em(c).
Esta sistematização contou com uma série de execuções de treinamento e teste utilizando cada
um dos conjuntos de dados, variando os seguintes parâmetros: número de neurônios ocultos,
número de neurônios de saída, taxa de aprendizagem, número de épocas, tipo de função de
ativação e intervalo de tolerância.
Um exemplo desta sistematização6 de treinamento e teste (com dados disjuntos) para ins-
peção dos parâmetros da RNA, pode ser observado na Tabela 5.2. O melhor resultado (em
vermelho na tabela) para o conjunto da letra “a”, contou com a seguinte configuração:
• 12 neurônios ocultos;
• 1 neurônio de saída (se a saída = 1, a rede reconheceu a trajetória da letra como correta.
Caso a trajetória da letra esteja incorreta, a saída = 0);7
• 0.2 de taxa de aprendizagem;
• 1000 ciclos/épocas;
• função de ativação bipolar sigmóide;
• 0.2 de intervalo de tolerância.
6 Nas Tabelas A.1, A.2, A.3, A.4, A.5, A.6 e A.7 do Apêndice A, podem ser vistos os resultados obtidos para osdemais conjuntos de dados.
7 Obs.: Para dois neurônios de saída, a resposta desejada para a rede em reconhecimento da letra com trajetóriacorreta dá-se pela saída = 1 0. Caso a trajetória da letra esteja incorreta, a saída = 0 1.
5.2 Experimentos 20
Tabela 5.2 – Inspeção dos parâmetros da RNA para o conjunto de dados da letra “a” cursiva
NeurôniosNeurônios Taxa de Épocas Função de Intervalo deAcerto(%) Média Erro Desvioocultos de saída aprendizagem ativação tolerância padrão1 padrão
30 1 1 1000 bipolar sigmóide 0.25 65.217430 1 0.2 1000 bipolar sigmóide 0.25 65.217430 1 0.05 1000 bipolar sigmóide 0.25 65.2174 65.2174 27.5 025 1 0.2 1000 bipolar sigmóide 0.25 65.217420 1 0.2 1000 bipolar sigmóide 0.25 78.260912 1 0.2 1000 bipolar sigmóide 0.25 86.9565 76.8116 24.37 10.9412 1 0.2 1000 binária sigmóide 0.25 65.217412 1 0.2 1000 arco tangente 0.25 012 1 0.2 1000 base radial 0.25 65.2174 43.4783 28.62 37.6512 1 0.2 500 bipolar sigmóide 0.25 65.217412 1 0.2 1500 bipolar sigmóide 0.25 65.217412 1 0.2 2000 bipolar sigmóide 0.25 65.2174 65.2174 27.5 012 1 0.2 1000 bipolar sigmóide 0.5 69.565212 1 0.2 1000 bipolar sigmóide 0.3 69.565212 1 0.2 1000 bipolar sigmóide 0.2 100 79.7101 23.22 17.5712 2 0.2 1000 bipolar sigmóide 0.5 95.652212 2 0.2 1000 bipolar sigmóide 0.3 52.173912 2 0.2 1000 bipolar sigmóide 0.2 69.5652 72.4638 25.79 21.88
1Para maiores detalhes sobre o erro padrão, consulte (MITCHELL 1997).
A motivação para este processo de inspeção dos parâmetros da rede foi explorar uma parte
do universo de possíveis valores para os parâmetros dos modelos, resultando no estabelecimento
de uma configuração da rede específica e que atenda a uma taxa de acerto considerada aceitável
para cada conjunto de dados.8
Para analisar o desempenho e o grau de generalização dos modelos construídos, a fase de
experimentação foi realizada com base em três métodos de amostragem descritos nas seções
5.2.2, 5.2.3 e 5.2.4.
5.2.2 Holdout
Holdout é uma técnica de amostragem que consiste na divisão dos dados em dois conjuntos
disjuntos: treinamento e teste. A maior porcentagem dos dados (p) é usada para treinamento e
a porcentagem remanescente (1-p) é usada para teste.
Neste trabalho, 70% dos dados de cada conjunto de dados foram utilizados para treinamento
e o restante (30%) foram utilizados para teste. Os dados foram apresentados aleatoriamente ao
modelo construído.
8 Para o caso de empate na porcentagem de acerto do modelo (Acerto(%)) mediante diferentes configuraçõesde parâmetros, a escolha da melhor configuração desconsidera o parâmetro variante (como por exemplo oparâmetro“Taxa de aprendizagem” na primeira tríade de testes mostrados na primeira linha da Tabela 5.2) eutiliza a média de acertos, o erro padrão para a taxa de acertos e o desvio padrão, como indicativos de qualidadepara desempate e escolha da melhor configuração obtida.
5.2 Experimentos 21
Todo o processo de inspeção dos parâmetros da rede, para os diferentes conjuntos de dados,
foi realizado por meio da técnica de Holdout. As melhores configurações da rede, para cada
conjunto de dado, com base na % de acerto média (maior), erro padrão da taxa de acerto (menor)
e no desvio padrão (menor) calculados, podem ser observadas na Tabela 5.39.
Tabela 5.3 – Melhores configurações da rede utilizando a abordagem Holdout
Neurônios Neurônios Taxa de Épocas Função de Intervalo deocultos de saída aprendizagem ativação tolerância
Letra t20 1 0.2 1500 bipolar sigmóide 0.25
Letra a12 1 0.2 1000 bipolar sigmóide 0.2
Letra f25 1 0.05 1000 arco tangente 0.3
Letra v20 1 0.05 1000 bipolar sigmóide 0.25
Letra s20 2 0.05 2000 bipolar sigmóide 0.3
Letra x30 1 0.05 500 bipolar sigmóide 0.5
Palavra emem20 1 0.2 1000 bipolar sigmóide 0.2
Palavra gugu30 1 0.2 500 bipolar sigmóide 0.25
Depois disso, foi realizado outro experimento no qual cada uma destas configurações de
rede foi executada dez vezes. Os resultados podem ser vistos na Tabela 5.410.
Como pode-se perceber por meio da porcentagem média de acertos neste experimento,
parece que os modelos construídos possuem maior facilidade para o reconhecimento da letras
cursivas “f” e “x”. Destaca-se a letra “f”, pela maior média de acertos, menor erro padrão
e menor dispersão do resultado de reconhecimento (desvio padrão) obtidas. Contudo, para o
reconhecimento da letra “v” e palavra “gugu”, as redes demonstraram uma certa dificuldade
para o reconhecimento das escritas, refletindo em um resultado inferior comparado com os
resultados dos demais conjuntos de dados.
5.2.3 R-fold Cross-validation
Esta técnica divide o número de exemplos apresentados à rede em partições (folds) aproximada-
mente iguais. Os (r-1) folds são utilizados para treinamento e o fold remanescente para teste.
Em cada uma das r iterações, um fold diferente é utilizado para teste.
9 A Tabela 5.3 é um resumo das tabelas de inspeção dos parâmetros dos modelos. Estas podem ser observadas commaiores detalhes no Apêndice A.
10 Na Tabela A.8, podem ser vistos os resultados obtidos com a subtração da variável pressão.
5.2 Experimentos 22
Tabela 5.4 – Treinamento e avaliação de desempenho da rede utilizando a abordagem Holdout
Média de Erro DesvioAcerto(%) padrão(%) padrão
Letra t60.62 15.45 33.73
Letra a62.17 15.33 23.82
Letra f91.74 8.7 8.31
Letra v46.25 15.77 22.09
Letra s68.26 14.72 25.19
Letra x84.78 11.36 9.67
Palavra emem67.14 14.85 14.36
Palavra gugu47.86 15.8 17.18
Neste trabalho, cada conjunto de dados foi dividido em dez folds. A proporção utilizada,
portanto, para compor os folds era múltipla de dez tanto para a quantidade de exemplos de
escrita correta quanto para a quantidade de exemplos de escrita incorreta. Na Tabela 5.5, pode
ser observado o número de exemplos em cada fold para cada conjunto de dados.
Tabela 5.5 – Número de exemplos por fold para cada conjunto de dados
Conjunto de Exemplos corretos Exemplos incorretos Totaldados por fold por fold por fold
a 5 2 7f 5 2 7s 2 5 7t 2 2 4v 2 2 4x 2 5 7
emem 1 2 3gugu 1 2 3
Os folds utilizados para teste seguem uma ordem sequencial crescente de iteração11 e os
exemplos de cada um dos folds são apresentados à rede de modo não-aleatório. O treinamento
foi realizado com nove folds e testado com o único fold restante em cada uma das 10 iterações.
Foram calculados a média de acertos, o erro padrão e o desvio padrão das partições criadas.
Esta técnica foi executada com base nas melhores configurações da rede obtidas na abor-
dagem anterior (Holdout). A porcentagem de acerto (Acerto(%)) de cada conjunto de dados
11 Ou seja, na primeira iteração: a rede testa com o primeiro fold e treina com o segundo ao décimo fold; segundaiteração: testa com o segundo fold e treina com o primeiro e do terceiro ao décimo fold, e assim por diante, atéchegar na décima iteração: teste com o décimo fold e treino com o primeiro ao nono fold.
5.2 Experimentos 23
refere-se a média das porcentagens de acertos dos 10 folds existentes12. Na Tabela 5.6, podem
ser visualizados os resultados obtidos13.
Tabela 5.6 – Treinamento e avaliação de desempenho da rede utilizando a abordagem 10-foldsCross-validation
Neurônios Neurônios Taxa de Épocas Função de Intervalo de Acerto(%) Erro Desvioocultos de saída aprendizagem ativação tolerância padrão(%) padrão
Letra t20 1 0.2 1500 bipolar sigmóide 0.25 90 9.49 17.481
Letra a12 1 0.2 1000 bipolar sigmóide 0.2 35.7143 15.15 37.65
Letra f25 1 0.05 1000 arco tangente 0.3 98.5714 3.75 4.52
Letra v20 1 0.05 1000 bipolar sigmóide 0.25 52.5 15.79 7.90
Letra s20 2 0.05 2000 bipolar sigmóide 0.3 81.4566 12.29 17.84
Letra x30 1 0.05 500 bipolar sigmóide 0.5 57.1428 15.65 27.77
Palavra emem20 1 0.2 1000 bipolar sigmóide 0.2 10 9.49 22.5
Palavra gugu30 1 0.2 500 bipolar sigmóide 0.25 73.3333 13.98 37.84
1O desvio padrão estima a variação, em torno da média, dos resultados obtidos nos testes. Apesar dessa medidaindicar uma variação acima de 100% (ou em alguns casos, abaixo de 0%), isso não siginifica que resultados acimade 100% (ou negativos) foram obtidos. Essa medida está aqui apresentada para mostrar que os resultados obtidos
estão mais ou menos espalhados em torno de um resultado médio. Um raciocínio similar deve ser aplicado aoerro padrão.
Assim, percebe-se uma maior facilidade para o reconhecimento das letras “f” e “t”, com
um destaque maior para a primeira, com média de acerto de 98.57%. Porém, quanto a palavra
“emem”, o modelo mostrou uma maior dificuldade para o seu reconhecimento.
5.2.4 Leave-one-out
Esta técnica é um caso especial do Cross-validation, na qual, para um conjunto de dados com
n exemplos, considera-se n-1 exemplos para treinamento e o exemplo remanescente para teste
em cada uma das n iterações.
No presente trabalho, também com base nas melhores configurações da rede obtidas na
abordagem Holdout, foi implementada a técnica Leave-one-out. A porcentagem de acerto
(Acerto(%)) refere-se a média das porcentagens de acertos do tamanho de cada conjunto de
12 Para obter a porcentagem de acerto em cada um dos folds para cada conjunto de dados, observe a Tabela B.1 doApêndice B.
13 Na Tabela B.2, podem ser vistos os resultados obtidos com a subtração da variável pressão.
5.2 Experimentos 24
dados. Na Tabela 5.7, que considera a presença da variável pressão14, podem ser visualizados
os resultados obtidos.
Tabela 5.7 – Treinamento e avaliação de desempenho da rede utilizando a abordagem Leave-one-out
Neurônios Neurônios Taxa de Épocas Função de Intervalo de Acerto(%) Erro Desvioocultos de saída aprendizagem ativação tolerância padrão(%) padrão
Letra t20 1 0.2 1500 bipolar sigmóide 0.25 77.5 6.6 42.29
Letra a12 1 0.2 1000 bipolar sigmóide 0.2 70 5.48 46.16
Letra f25 1 0.05 1000 arco tangente 0.3 95.71 2.42 20.4
Letra v20 1 0.05 1000 bipolar sigmóide 0.25 45 7.87 50.38
Letra s20 2 0.05 2000 bipolar sigmóide 0.3 61.43 5.82 49.03
Letra x30 1 0.05 500 bipolar sigmóide 0.5 82.86 4.5 37.96
Palavra emem20 1 0.2 1000 bipolar sigmóide 0.2 76.67 7.72 43.02
Palavra gugu30 1 0.2 500 bipolar sigmóide 0.25 60 8.94 49.83
Por meio desta técnica, considerada a mais adequada para problemas que envolvem poucos
exemplos nos conjuntos de dados, percebe-se que os modelos construídos possuem uma maior
facilidade para o reconhecimento das letras “f” e “x”, com um destaque maior para a primeira,
com média de acerto de 95.71%. Porém, quanto a letra “v”, o modelo mostrou uma maior
dificuldade para o seu reconhecimento.
14 No Apêndice C, podem ser vistos os resultados obtidos com a subtração da variável pressão.
25
6 Discussão
Este capítulo reúne as discussões e análises dos resultados obtidos, perante à aplicação das
técnicas de amostragem Holdout, Cross-validation e Leave-one-out.
6.1 Comparação dos resultados obtidos: Holdout, Cross-vali-dation e Leave-one-out
Nas técnicas de amostragem apresentadas e executadas, algumas similaridades podem ser perce-
bidas, com base no grau de facilidade do modelo para o reconhecimento da escrita cursiva. Para
a observação destas similaridades, foram levadas em consideração as variáveis referentes à
pressão e à trajetória, observadas até aqui conforme os resultados anteriores, e, depois, somente
as variáveis da trajetória da escrita (sem a pressão), para cada conjunto de dados e para cada téc-
nica de amostragem. A Figura 6.1, ilustra as similaridades, portanto, que podem ser observadas
conforme os pontos referentes a ordem de facilidade de reconhecimento, em que “1” representa
o mais alto grau de facilidade de reconhecimento da escrita e “8” representa o menor grau de
facilidade encontrado pelo modelo (com base na média entre a escala com a adição da variável
pressão e a escala sem a variável pressão, para cada técnica de amostragem e para cada conjunto
de dados), frente ao reconhecimento da escrita cursiva.
Como pode-se observar, nas três abordagens implementadas, a letra “f” atingiu o mesmo
grau de facilidade para o seu reconhecimento, isto é, grau igual a 1, sendo, portanto, a letra
mais fácil de ser reconhecida. Contudo, também de acordo com as três abordagens, o grau de
facilidade de reconhecimento da letra “v” mostrou-se muito pequeno. Assim, pois, a letra “f”
mostrou possuir características mais discriminantes que facilitam o seu reconhecimento do que
a letra “v”, que mostrou possuir características menos discriminantes, passíveis de um estudo
mais detalhado, a fim de melhorar o grau de facilidade de seu reconhecimento.
Considerando que a abordagem Leave-one-out é a mais adequada para problemas que en-
volvem uma pequena quantidade de exemplos em cada conjunto, nesta traçou-se um compa-
6.1 Comparação dos resultados obtidos 26
Figura 6.1 – Comparação dos resultados obtidos: Holdout, Cross-validation e Leave-one-out
rativo com base na adição da variável pressão e sem a variável pressão para cada conjunto de
dados. Os resultados podem ser observados na Figura 6.2.
Figura 6.2 – Leave-one-out com e sem a variável pressão
Para a letra “f” a presença ou a ausência da variável pressão não faz diferença no processo de
seu reconhecimento. Para algumas letras como “t” e “x”, a variável pressão pareceu facilitar no
reconhecimento de suas escritas. Porém, já para as palavras “emem” e “gugu” a variável pressão
pareceu dificultar no processo de reconhecimentos das mesmas. Essas observações sugerem que
para o caso de escrita cursiva referente a exercícios grafomotores, como no caso da execução
da escrita das referidas palavras, a variável pressão tem um papel diferenciado, precisando ser
mais bem estudada antes de ser escolhida como uma característica para representação do padrão
de escrita. Essa informação sobre a influência da variável pressão deve então ser analisada pelo
especialista do domínio. Para as demais escritas, não houve uma mudança muito significativa.
6.2 Estudo do intervalo de tolerância 27
6.2 Estudo do intervalo de tolerância
No cálculo da porcentagem de acertos, para o estabelecimento das configurações das RNAs, foi
levado em consideração um determinado intervalo de tolerância, para mais (+) e para menos (-)
do valor que define a classe do dado apresentado à rede.
O intervalo de tolerância pode ser definido como o estabelecimento de um intervalo da
resposta obtida pela rede neural que deve ser considerado como correto, em comparação com a
resposta desejada definida (tipo da classe). Por exemplo, se o intervalo de tolerância é igual a
0.2, então, considera-se que o neurônio está ativado no intervalo [0.8, 1.2] para classe 1. Já no
intervalo [-0.2, 0.2] para classe 0, o neurônio não está ativado.
Para este estudo, os intervalos adotados foram: 0.2, 0.25, 0.3 e 0.5. O intervalo de tolerân-
cia igual a 0.25 foi o mais utilizado, diante das melhores configurações de redes resultantes,
indicando uma cobertura maior no espaço de decisão, ou menos restrita de acerto, referente à
classificação dos conjuntos de teste.
6.3 Estudo das funções de ativação
Para este estudo, foram levadas em considerações as funções de ativação diferenciáveis e suas
respectivas derivadas:
• Bipolar sigmóide
fx =2
1+ exp(−x)−1 (6.1)
f ′x =12[1+ fx][1− fx] (6.2)
• Binária sigmóide
fx =1
1+ exp(−x)(6.3)
f ′x = fx[1− fx] (6.4)
• Arco tangente
fx =2π
arctan(x) (6.5)
f ′x =2π
11+ x2 (6.6)
6.4 Teste de sensibilidade da rede 28
• Base radial
fx = exp(−x2) (6.7)
f ′x =−2xexp(−x2) =−2x fx (6.8)
Na fase de experimentação deste trabalho, o uso das funções bipolar sigmóide e arco tan-
gente trouxe um melhor resultado para o reconhecimento da escrita, diante das porcentagens
máxima e média de acertos, erro padrão e do desvio padrão obtidos pelos modelos. Isso pode
ser justificado pela melhor adequação destas funções ao problema em questão, frente a um
espaço de decisão mais definido.
6.4 Teste de sensibilidade da rede
Foi realizado um teste com a finalidade de investigar a sensibilidade dos modelos construídos.
O conjunto de dados da letra “t”, com a adição da variável pressão, serviu de input para este
teste. Foram executadas 35 rodadas1 por meio da técnica Holdout em cada uma das estratégias:
• Parâmetros fixos, dados fixos e pesos aleatórios: Os parâmetros da rede foram fixados,
com base na melhor configuração para o conjunto de dados da letra “t” (20 neurônios
ocultos, 1 neurônio de saída, 0.2 de taxa de aprendizagem, 1500 épocas, função de ati-
vação bipolar sigmóide e 0.25 de intervalo de tolerância). Os conjuntos de dados de
treinamento e teste eram fixos e disjuntos. Os pesos e bias foram inicializados aleatoria-
mente. Nesta estratégia, obteve-se uma média de 62.86% de acerto, erro padrão de 8.17%
e desvio padrão de 25.04, além disso, a porcentagem máxima de acerto foi de 100% e a
mínima, 12.5%.
• Parâmetros fixos, dados variáveis e pesos fixos: Os parâmetros da rede foram fixados,
conforme a estratégia anterior, juntamente com os pesos e bias (mesmos valores iniciais
para todas as rodadas executadas). Já dos dados foram apresentados à rede de maneira
variada, porém disjunta nos conjuntos de treinamento e teste. A média de acertos foi de
85.89%, o erro padrão de 5.88% e o desvio padrão de 9.14, a porcentagem máxima de
acertos foi de 100% e a mínima, 50%.
Assim, portanto, pode-se observar que o modelo apresenta uma sensibilidade, principal-
mente quanto à inicialização dos parâmetros (variação das condições iniciais dos pesos).
1 Na Tabela D.1 do Apêndice D, podem ser vistos os resultados para cada uma das rodadas executadas.
6.5 Letra “a” cursiva 29
6.5 Letra “a” cursiva
No projeto “Ensinar com Pesquisa” (BRITO & PERES 2010), que analisou somente a trajetória
da letra “a” cursiva, o modelo obteve uma melhor configuração no processo de inspeção de
parâmetros (com base na porcentagem de acerto, média, erro padrão e desvio padrão calcula-
dos): 10 neurônios ocultos, 1 neurônio de saída, 0.2 de taxa de aprendizagem, 1000 épocas,
função bipolar sigmóide e 0.25 de intervalo de tolerância. No presente trabalho, que analisou
a trajetória e a pressão da escrita, o modelo obteve uma melhor configuração semelhante para
a letra “a”, sob os mesmos critérios: 12 neurônios ocultos, 1 neurônio de saída, 0.2 de taxa
de aprendizagem, 1000 épocas, função bipolar sigmóide e 0.2 de intervalo de tolerância. Na
Tabela 6.1, faz-se uma comparação dos resultados obtidos com a letra “a” cursiva do projeto
“Ensinar com Pesquisa” e do presente trabalho.
Tabela 6.1 – Resultados: letra “a” cursiva
% média de acertos % erro padrão Desvio padrãoProjeto “Ensinar com Pesquisa”: análise da trajetória
Holdout54.44 28.75 12.67
Cross-validation63.34 15.24 13.15
Presente trabalho: análise da trajetória e pressãoHoldout - com pressão
62.17 15.33 23.82Holdout - sem pressão
59.56 15.52 21Cross-validation - com pressão
35.71 15.15 37.65Cross-validation - sem pressão
64.28 15.15 39.41Leave-one-out - com pressão
70 5.48 46.16Leave-one-out - sem pressão
44.28 5.94 50.03
Com base nos testes executados, sob as técnicas trabalhadas, pode-se observar que existe
uma instabilidade no modelo. Ou seja, obteve-se desempenho bom em alguns testes e desem-
penho ruim em outros. Considerando as três abordagens, a presença da variável pressão pareceu
interferir de maneira positiva no processo de reconhecimento da escrita, com exceção da abor-
dagem Cross-validation, na qual é possível notar a interferência de maneira negativa. Assim,
os testes aqui realizados precisam ser melhorados, principalmente, no que diz respeito ao au-
mento de dados para treinamento e teste. A variabilidade nos resultados obtidos, em relação à
presença ou não da variável pressão e sua influência sobre o reconhecimento do padrão, impede
uma conclusão definitiva e sugere que melhorias ainda precisam ser realizadas.
30
7 Conclusão
Este trabalho apresentou os resultados obtidos pela construção de um analisador da qualidade da
escrita cursiva, por meio da construção de modelos de reconhecimento de padrões específicos
para a classificação da trajetória da escrita como correta/típica e incorreta/atípica.
Foi intenção deste estudo contribuir para o processo de automação das análises das capaci-
dades cognitivas e de coordenação motora, principalmente de crianças em fase de alfabetização,
auxiliando/facilitando o trabalho dos profissionais das áreas de Educação e Saúde.
Além disso, diante da natureza multidisciplinar, o problema proposto corta transversalmente
algumas áreas como Psicologia, Computação, Psiquiatria, Neurologia, Educação, Área Forense,
etc., e algumas disciplinas específicas do curso de Sistemas de Informação da EACH, como
Inteligência Artificial, Algoritmos, Estatítica, dentre outras, podendo contribuir, de alguma
maneira, para a disseminação do conhecimento aqui gerado como forma de solução e/ou al-
ternativas diante de problemas correlatos.
Os resultados obtidos mostraram que os modelos possuem graus de facilidade específicos
para o reconhecimento de letras e palavras, análogo, assim, ao ser humano que, em processo de
alfabetização, demonstra diferentes graus de facilidade para a escrita e reconhecimento de letras
e palavras. Também, os resultados obtidos são diferentes em função dos diferentes conjuntos
de dados trabalhados com graus de facilidade específicos em sua trajetória. Quanto a instabi-
lidade dos modelos, esta pode ser percebida, principalmente, pela variação (aleatoriedade) das
condições iniciais dos pesos.
Futuramente pretende-se construir uma arquitetura mais robusta, composta de RNAs aco-
pladas em um Comitê de Máquinas, porém cada RNA terá objetivos distintos. As RNAs na
primeira camada do comitê reconheceriam qual letra (ou exercício grafomotor) está sob análise,
enquanto RNAs especializadas, na segunda camada, classificariam cada uma das letras reconhe-
cidas sob o aspecto de escrita correta/típica ou incorreta/atípica.
31
Referências Bibliográficas
AGARWAL, S.; KUMAR, V. Online character recognition. In: ICITA (1). [S.l.: s.n.], 2005. p.698–703. 3.3
BENSEFIA, A.; PAQUET, T.; HEUTTE, L. A writer identification and verification system.Pattern Recogn. Lett., Elsevier Science Inc., New York, NY, USA, v. 26, n. 13, p.2080–2092, 2005. 3.3
BRITO, J. F.; PERES, S. M. Análise Qualitativa da Escrita Cursiva. [S.l.], Março 2010. 1,3.2, 6.5
BUNKE, H. Recognition of cursive roman handwriting - past, present and future. DocumentAnalysis and Recognition, International Conference on, IEEE Computer Society, LosAlamitos, CA, USA, v. 1, p. 448, 2003. 3.1, 3.3
DEITEL, H. M.; DEITEL, P. J. Java: how to program. 3. ed. [S.l.]: Prentice-Hall, 2000. 4
ENQI, Z. et al. On-line handwritten signature verification based on two levels back propagationneural network. In: IUCE ’09: Proceedings of the 2009 International Symposiumon Intelligent Ubiquitous Computing and Education. Washington, DC, USA: IEEEComputer Society, 2009. p. 202–205. ISBN 978-0-7695-3619-4. 3.3
FAUSETT, L. Fundamentals of Neural Networks: architectures, algorithms andapplications. [S.l.]: Prentice-Hall: New Jersey, USA, 1994. (document), 3.1, 3.2, 3.3, 3.4,3.2.3, 1, 3.5, 3.3
HAYKIN, S. Neural Networks: a comprehensive foundation. [S.l.]: Prentice Hall Inc, NewJersey, USA, 1998. 3.2, 3.2, 3.2, 3.2, 3.2.1, 3.2.3, 3.3
KLIR, G.; YUAN, B. Fuzzy Sets and Fuzzy Logic: Theory and Applications. [S.l.]:Prentice-Hall, 1995. 3.3
LAGO, A. E. da R. Sira – sistema de reconhecimento de assinaturas. In: . Uruguaiana, RS,Brasil: [s.n.], 2005. 3.3
MACDONALD, I.; ZUCHHINI, W. Hiddem Markov and other models for discrete-valuedtime series. [S.l.]: Boca Raton: Chapman and Hall/CRC, 1997. 3.3
MANKE, S.; BODENHAUSEN, U. A connectionist recognizer for on-line cursive handwritingrecognition. In: Proceedings of ICASSP’94. [S.l.: s.n.], 1994. 3.3
MITCHELL, T. M. Machine Learning. [S.l.]: New York: McGraw Hill. SERIES INCOMPUTER SCIENCE, 1997. 5.2
NORMAN, M. F. Markov processes and learning models. [S.l.]: New York: Academic,1972. 3.3
Referências Bibliográficas 32
QUEIROZ, R. B.; RODRIGUES, A. G.; GóMEZ, A. T. Estudo comparativo entre as técnicasmáxima verossimilhança gaussiana e redes neurais na classificação de imagens ir-mss cbers.In: Workshop de Computação da Região Sul. Leopoldo, RS, Brasil: [s.n.], 2004. 3.2.1
SENI, G.; NASRABADI, N.; SRIHARI, R. An On-Line Cursive Word Recognition System.1994. 3.3
VIARD-GAUDIN, C.; LALLICAN, P.-M.; KNERR, S. Recognition-directed recovering oftemporal information from handwriting images. Pattern Recogn. Lett., Elsevier ScienceInc., New York, NY, USA, v. 26, n. 16, p. 2537–2548, 2005. 3.3
WANG, J. et al. Combining shape and physical models for online cursive handwritingsynthesis. International Journal on Document Analysis and Recognition, v. 7, p.219–227, 2005. 3.3
ZAFAR, M. F.; MOHAMAD, D.; ANWAR, M. M. Recognition of Online IsolatedHandwritten Characters by Backpropagation Neural Nets Using Sub-CharacterPrimitive Features. [S.l.]: IEEE Computer Society, 2006. 3.3
33
APÊNDICE A -- Testes de configuração dosmodelos usando a abordagem Holdout
Abaixo, os resultados observados nas tabelas referem-se aos testes de configuração dos mode-
los, por meio da abordagem Holdout, para cada um dos conjuntos de dados trabalhados :
Tabela A.1 – Resultados: letra “t” cursiva
Neurônios Neurônios Taxa de Épocas Função de Intervalo de Acerto(%) Média Erro Desvioocultos de saída aprendizagem ativação tolerância padrão padrão
30 1 1 1000 bipolar sigmóide 0.25 5030 1 0.2 1000 bipolar sigmóide 0.25 93.7530 1 0.05 1000 bipolar sigmóide 0.25 68.75 70.83 26.24 21.9525 1 0.2 1000 bipolar sigmóide 0.25 81.2520 1 0.2 1000 bipolar sigmóide 0.25 93.7512 1 0.2 1000 bipolar sigmóide 0.25 50 75 25 22.5320 1 0.2 1000 binária sigmóide 0.25 87.520 1 0.2 1000 arco tangente 0.25 5020 1 0.2 1000 base radial 0.25 0 45.83 28.77 43.920 1 0.2 500 bipolar sigmóide 0.25 56.2520 1 0.2 1500 bipolar sigmóide 0.25 10020 1 0.2 2000 bipolar sigmóide 0.25 87.5 81.25 22.53 22.5320 1 0.2 1000 bipolar sigmóide 0.5 93.7520 1 0.2 1000 bipolar sigmóide 0.3 68.7520 1 0.2 1000 bipolar sigmóide 0.2 75 79.17 23.45 13.0120 2 0.2 1000 bipolar sigmóide 0.5 87.520 2 0.2 1000 bipolar sigmóide 0.3 81.2520 2 0.2 1000 bipolar sigmóide 0.2 43.75 70.83 26.24 23.66
Apêndice A -- Testes de configuração dos modelos: abordagem Holdout 34
Tabela A.2 – Resultados: letra “f” cursiva
Neurônios Neurônios Taxa de Épocas Função de Intervalo de Acerto(%) Média Erro Desvioocultos de saída aprendizagem ativação tolerância padrão padrão
30 1 1 1000 bipolar sigmóide 0.25 65.2230 1 0.2 1000 bipolar sigmóide 0.25 91.3030 1 0.05 1000 bipolar sigmóide 0.25 91.30 82.61 21.88 15.0625 1 0.05 1000 bipolar sigmóide 0.25 95.6520 1 0.05 1000 bipolar sigmóide 0.25 91.3012 1 0.05 1000 bipolar sigmóide 0.25 82.60 89.85 17.43 6.6425 1 0.05 1000 binária sigmóide 0.25 86.9625 1 0.05 1000 arco tangente 0.25 10025 1 0.05 1000 base radial 0.25 0 62.32 27.98 54.3625 1 0.05 500 arco tangente 0.25 91.3025 1 0.05 1500 arco tangente 0.25 10025 1 0.05 2000 arco tangente 0.25 95.65 95.65 11.77 4.3525 1 0.05 1000 arco tangente 0.5 95.6525 1 0.05 1000 arco tangente 0.3 10025 1 0.05 1000 arco tangente 0.2 95.65 97.10 9.68 2.5125 2 0.05 1000 arco tangente 0.5 95.6525 2 0.05 1000 arco tangente 0.3 10025 2 0.05 1000 arco tangente 0.2 78.26 91.30 16.27 11.50
Tabela A.3 – Resultados: letra “v” cursiva
Neurônios Neurônios Taxa de Épocas Função de Intervalo de Acerto(%) Média Erro Desvioocultos de saída aprendizagem ativação tolerância padrão padrão
30 1 1 1000 bipolar sigmóide 0.25 5030 1 0.2 1000 bipolar sigmóide 0.25 5030 1 0.05 1000 bipolar sigmóide 0.25 68.75 56.25 28.64 10.8225 1 0.05 1000 bipolar sigmóide 0.25 7520 1 0.05 1000 bipolar sigmóide 0.25 81.2512 1 0.05 1000 bipolar sigmóide 0.25 75 77.08 24.26 3.6020 1 0.05 1000 binária sigmóide 0.25 56.2520 1 0.05 1000 arco tangente 0.25 020 1 0.05 1000 base radial 0.25 0 18.75 22.53 32.4720 1 0.05 500 bipolar sigmóide 0.25 7520 1 0.05 1500 bipolar sigmóide 0.25 81.2520 1 0.05 2000 bipolar sigmóide 0.25 43.75 66.67 27.22 20.0920 1 0.05 1000 bipolar sigmóide 0.5 7520 1 0.05 1000 bipolar sigmóide 0.3 56.2520 1 0.05 1000 bipolar sigmóide 0.2 75 68.75 26.76 10.8220 2 0.05 1000 bipolar sigmóide 0.5 7520 2 0.05 1000 bipolar sigmóide 0.3 31.2520 2 0.05 1000 bipolar sigmóide 0.2 37.5 47.92 28.84 23.66
Apêndice A -- Testes de configuração dos modelos: abordagem Holdout 35
Tabela A.4 – Resultados: letra “s” cursiva
Neurônios Neurônios Taxa de Épocas Função de Intervalo de Acerto(%) Média Erro Desvioocultos de saída aprendizagem ativação tolerância padrão padrão
30 1 1 1000 bipolar sigmóide 0.25 34.7830 1 0.2 1000 bipolar sigmóide 0.25 34.7830 1 0.05 1000 bipolar sigmóide 0.25 78.26 49.27 28.86 20.1025 1 0.05 1000 bipolar sigmóide 0.25 69.5620 1 0.05 1000 bipolar sigmóide 0.25 78.2612 1 0.05 1000 bipolar sigmóide 0.25 65.22 71.01 26.19 6.6420 1 0.05 1000 binária sigmóide 0.25 78.2620 1 0.05 1000 arco tangente 0.25 020 1 0.05 1000 base radial 0.25 0 26.09 25.35 45.1820 1 0.05 500 bipolar sigmóide 0.25 65.2220 1 0.05 1500 bipolar sigmóide 0.25 73.9120 1 0.05 2000 bipolar sigmóide 0.25 82.61 73.91 25.35 8.6920 1 0.05 2000 bipolar sigmóide 0.5 65.2220 1 0.05 2000 bipolar sigmóide 0.3 78.2620 1 0.05 2000 bipolar sigmóide 0.2 73.91 72.46 25.79 6.6420 2 0.05 2000 bipolar sigmóide 0.5 78.2620 2 0.05 2000 bipolar sigmóide 0.3 95.6520 2 0.05 2000 bipolar sigmóide 0.2 65.22 79.71 23.22 15.27
Tabela A.5 – Resultados: letra “x” cursiva
Neurônios Neurônios Taxa de Épocas Função de Intervalo de Acerto(%) Média Erro Desvioocultos de saída aprendizagem ativação tolerância padrão padrão
30 1 1 1000 bipolar sigmóide 0.25 34.7830 1 0.2 1000 bipolar sigmóide 0.25 47.8330 1 0.05 1000 bipolar sigmóide 0.25 73.91 52.17 28.84 19.9225 1 0.05 1000 bipolar sigmóide 0.25 60.8720 1 0.05 1000 bipolar sigmóide 0.25 69.5612 1 0.05 1000 bipolar sigmóide 0.25 65.22 65.22 27.5 4.3530 1 0.05 1000 binária sigmóide 0.25 73.9130 1 0.05 1000 arco tangente 0.25 65.2230 1 0.05 1000 base radial 0.25 0 46.38 28.79 40.4030 1 0.05 500 bipolar sigmóide 0.25 73.9130 1 0.05 1500 bipolar sigmóide 0.25 65.2230 1 0.05 2000 bipolar sigmóide 0.25 52.17 63.77 27.75 10.9430 1 0.05 500 bipolar sigmóide 0.5 78.2630 1 0.05 500 bipolar sigmóide 0.3 69.5630 1 0.05 500 bipolar sigmóide 0.2 52.17 66.67 27.22 13.2830 2 0.05 500 bipolar sigmóide 0.5 60.8730 2 0.05 500 bipolar sigmóide 0.3 65.2230 2 0.05 500 bipolar sigmóide 0.2 56.52 60.87 28.18 4.35
Apêndice A -- Testes de configuração dos modelos: abordagem Holdout 36
Tabela A.6 – Resultados: palavra “emem” cursiva
Neurônios Neurônios Taxa de Épocas Função de Intervalo de Acerto(%) Média Erro Desvioocultos de saída aprendizagem ativação tolerância padrão padrão
30 1 1 1000 bipolar sigmóide 0.25 35.7130 1 0.2 1000 bipolar sigmóide 0.25 85.7130 1 0.05 1000 bipolar sigmóide 0.25 71.43 64.28 27.66 25.7525 1 0.2 1000 bipolar sigmóide 0.25 57.1420 1 0.2 1000 bipolar sigmóide 0.25 85.7112 1 0.2 1000 bipolar sigmóide 0.25 64.28 69.05 26.69 14.8720 1 0.2 1000 binária sigmóide 0.25 78.5720 1 0.2 1000 arco tangente 0.25 020 1 0.2 1000 base radial 0.25 0 26.19 25.38 45.3620 1 0.2 500 bipolar sigmóide 0.25 71.4320 1 0.2 1500 bipolar sigmóide 0.25 85.7120 1 0.2 2000 bipolar sigmóide 0.25 64.28 73.81 25.38 10.9120 1 0.2 1000 bipolar sigmóide 0.5 64.2820 1 0.2 1000 bipolar sigmóide 0.3 78.5720 1 0.2 1000 bipolar sigmóide 0.2 85.71 76.19 24.59 10.9120 2 0.2 1000 bipolar sigmóide 0.5 71.4320 2 0.2 1000 bipolar sigmóide 0.3 64.2820 2 0.2 1000 bipolar sigmóide 0.2 78.57 71.43 26.08 7.14
Tabela A.7 – Resultados: palavra “gugu” cursiva
Neurônios Neurônios Taxa de Épocas Função de Intervalo de Acerto(%) Média Erro Desvioocultos de saída aprendizagem ativação tolerância padrão padrão
30 1 1 1000 bipolar sigmóide 0.25 78.5730 1 0.2 1000 bipolar sigmóide 0.25 78.5730 1 0.05 1000 bipolar sigmóide 0.25 42.86 66.67 27.22 20.6225 1 0.2 1000 bipolar sigmóide 0.25 42.8620 1 0.2 1000 bipolar sigmóide 0.25 64.2812 1 0.2 1000 bipolar sigmóide 0.25 64.28 57.14 28.57 12.3730 1 0.2 1000 binária sigmóide 0.25 57.1430 1 0.2 1000 arco tangente 0.25 35.7130 1 0.2 1000 base radial 0.25 0 30.95 26.69 28.8730 1 0.2 500 bipolar sigmóide 0.25 78.5730 1 0.2 1500 bipolar sigmóide 0.25 78.5730 1 0.2 2000 bipolar sigmóide 0.25 42.86 66.67 27.22 20.6230 1 0.2 500 bipolar sigmóide 0.5 42.8630 1 0.2 500 bipolar sigmóide 0.3 71.4330 1 0.2 500 bipolar sigmóide 0.2 57.14 57.14 28.57 14.2830 2 0.2 500 bipolar sigmóide 0.5 78.5730 2 0.2 500 bipolar sigmóide 0.3 64.2830 2 0.2 500 bipolar sigmóide 0.2 35.71 59.52 28.34 21.82
Apêndice A -- Testes de configuração dos modelos: abordagem Holdout 37
Tabela A.8 – Treinamento e avaliação de desempenho da rede utilizando a abordagem Holdout- sem pressão
Média de Erro DesvioAcerto(%) padrão(%) padrão
Letra t67.5 14.81 20.79
Letra a59.56 15.52 21
Letra f94.35 7.3 5.04
Letra v43.75 15.69 20.83
Letra s75.65 13.57 8.98
Letra x83.48 11.74 10.81
Palavra emem50.71 15.81 25.96
Palavra gugu59.28 15.54 15.81
38
APÊNDICE B -- Testes de configuração dosmodelos usando a abordagem Cross-validation
A abordagem 10-folds cross-validation foi executada com base nas melhores configurações dos
modelos obtidas na abordagem Holdout. Os resultados para cada conjunto de dados podem ser
observados conforme seguem:
Tabela B.1 – Porcentagem de acertos obtidos para cada um dos 10 folds
Folds Acerto(%) Média Erro padrão Desvio padrãoLetra t
1 502 753 1004 1005 1006 75 90 9.49 17.487 1008 1009 10010 100
Letra a1 02 03 14.284 05 28.576 14.28 35.71 15.15 37.657 42.868 71.439 85.7110 100
Apêndice B -- Testes de configuração dos modelos: abordagem Cross-validation 39
Folds Acerto(%) Média Erro padrão Desvio padrãoLetra f
1 85.712 1003 1004 1005 1006 100 98.57 3.75 4.527 1008 1009 10010 100
Letra v1 502 503 504 505 506 50 52.5 15.79 7.907 508 759 5010 50
Letra s1 85.712 1003 1004 1005 71.436 71.43 81.46 12.29 17.847 57.148 1009 57.4210 71.43
Letra x1 85.712 28.573 28.574 42.865 28.576 28.57 57.14 15.65 27.777 85.718 85.719 71.4310 85.71
Palavra emem1 66.672 33.333 04 05 06 0 10 9.49 22.507 08 09 010 0
Palavra gugu1 33.332 1003 1004 1005 1006 100 73.33 13.98 37.847 1008 33.339 66.6710 0
Apêndice B -- Testes de configuração dos modelos: abordagem Cross-validation 40
Tabela B.2 – Treinamento e avaliação de desempenho da rede utilizando a abordagem Cross-validation - sem pressão
Média de Erro DesvioAcerto(%) padrão(%) padrão
Letra t77.5 13.2 24.86
Letra a64.28 15.15 39.41
Letra f98.57 3.75 4.52
Letra v35 15.08 24.15
Letra s87.14 10.58 20.70
Letra x77.14 13.28 31
Palavra emem70 14.49 24.59
Palavra gugu66.67 14.91 38.49
41
APÊNDICE C -- Testes de configuração dosmodelos usando a abordagem Leave-one-out
A abordagem Leave-one-out foi executada com base nas melhores configurações dos modelos
obtidas na abordagem Holdout. Os resultados para cada conjunto de dados, sem a variável
pressão, podem ser observados conforme seguem:
Tabela C.1 – Porcentagem média de acertos obtidos para o tamanho de cada conjunto
Média Erro padrão Desvio padrãoLetra t
50 7.9 50.64Letra a
44.28 5.94 50.03Letra f
100 0 0Letra v
45 7.87 50.38Letra s
77.14 5.02 42.29Letra x
81.43 4.65 39.17Palavra emem
96.67 3.28 18.26Palavra gugu
86.67 6.21 34.57
42
APÊNDICE D -- Testes de estabilidade da RNA
A partir da melhor configuração encontrada para a letra cursiva “t”, um teste para investigação
de estabilidade do modelo foi realizado, conforme segue:
Tabela D.1 – Testes de estabilidade
Rodadas % acerto Média Erro Desvio Máximo Mínimopadrão padrão
Parâmetros fixos, dados fixos e pesos aleatórios1 31.252 503 504 68.755 506 56.257 1008 12.59 87.5
10 5011 10012 5013 43.7514 93.7515 87.516 93.7517 68.7518 87.5 62.86 8.17 20.04 100 12.519 10020 5021 7522 12.523 5024 62.525 5026 37.527 81.2528 5029 5030 37.531 10032 7533 31.2534 93.7535 62.5
Apêndice D -- Testes de estabilidade da RNA 43
Rodadas % acerto Média Erro Desvio Máximo Mínimopadrão padrão
Parâmetros fixos, dados variáveis e pesos fixos1 93.752 93.753 504 1005 1006 1007 1008 1009 93.75
10 87.511 87.512 87.513 87.514 87.515 87.516 87.517 87.518 81.25 85.89 5.88 9.14 100 5019 87.520 87.521 81.2522 81.2523 81.2524 81.2525 81.2526 81.2527 81.2528 81.2529 81.2530 81.2531 81.2532 81.2533 81.2534 81.2535 81.25