Upload
others
View
2
Download
0
Embed Size (px)
Citation preview
UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE
UNIDADE ACADÊMICA ESPECIALIZADA EM CIÊNCIAS AGRÁRIAS
CURSO SUPERIOR DE TECNOLOGIA EM ANÁLISE E DESENVOLVIMENTO DE
SISTEMAS
Iaslan do Nascimento Paulo da Silva
Associação entre características físicas da semente de soja com a qualidade
da semente usando a análise da imagem e técnicas de aprendizado de
máquina
Macaíba
2017
Iaslan do Nascimento Paulo da Silva
Associação entre características físicas da semente de soja com a qualidade
da semente usando a análise da imagem e técnicas de aprendizado de
máquina
Trabalho de conclusão de curso de graduação
apresentado à Unidade Acadêmica Especializada em
Ciências Agrárias da Universidade Federal do Rio
Grande do Norte como requisito parcial para a
obtenção do título de Tecnólogo (a) em Análise e
Desenvolvimento de Sistemas.
Orientador: Prof.ª Drª. Laura E. A. S. S. de Oliveira.
Co-Orientador: Prof. Dr. Márcio D. Pereira
Macaíba
2017
Universidade Federal do Rio Grande do Norte - UFRN
Sistema de Bibliotecas - SISBI
Catalogação de Publicação na Fonte. UFRN - Biblioteca Setorial Prof. Rodolfo Helinski - Escola Agrícola de
Jundiaí – EAJ
Silva, Iaslan do Nascimento Paulo da.
Associação entre características físicas da semente de soja com a
qualidade da semente usando a análise da imagem e técnicas de
aprendizado de máquina / Iaslan do Nascimento Paulo da Silva. - 2017.
62f.: il.
Universidade Federal do Rio Grande do Norte. Unidade Acadêmica
Especializada em Ciências Agrárias. Curso Superior de Tecnologia em
Análise e Desenvolvimento de Sistema. Macaíba, 2017.
Orientador: Laura Emmanuella Alves dos Santos Santana de Oliveira.
Coorientador: Márcio Dias Pereira.
1. Avaliação da qualidade de sementes - Monografia. 2. Soja -
Monografia. 3. Processamento Digital de Imagens - Monografia. 4.
Aprendizado de máquina - Monografia. I. Oliveira, Laura Emmanuella
Alves dos Santos Santana de. II. Pereira, Márcio Dias. III. Título.
RN/UF/BSPRH CDU 631.53.02
Iaslan do Nascimento Paulo da Silva
Associação entre características físicas da semente de soja com a qualidade da semente
usando a análise da imagem e técnicas de aprendizado de máquina
Trabalho de conclusão de curso de graduação apresentado à Unidade Acadêmica Especializada em
Ciências Agrárias da Universidade Federal do Rio Grande do Norte como requisito parcial para a
obtenção do título de Tecnólogo (a) em Análise e Desenvolvimento de Sistemas.
Aprovado em: ____ de _______ de _____.
BANCA EXAMINADORA
__________________________________________
Prof.a Dr.a Laura Emmanuella Alves Dos Santos Santana De Oliveira
Orientadora
Escola Agrícola de Jundiaí Universidade Federal do Rio Grande do Norte
__________________________________________
Prof. Dr. Márcio Dias Pereira
Co-Orientador
Escola Agrícola de Jundiaí Universidade Federal do Rio Grande do Norte
__________________________________________
Prof.a Dr.a Alessandra Mendes Pacheco Guerra Vale
Escola Agrícola de Jundiaí Universidade Federal do Rio Grande do Norte
__________________________________________
Prof. Me. Emerson Moura, de Alencar
Escola Agrícola de Jundiaí Universidade Federal do Rio Grande do Norte
Dedico este trabalho aos meus pais Ivanildo Paulo e Telma Maria do Nascimento, meu irmão
Thiago do Nascimento e minha namorada Maria Airis Vital, por todo apoio, compreensão e
amor incondicional dado a mim nessa trajetória até esse momento. Aos meus orientadores por
terem acreditados no meu potencial e me auxiliado durante todo o período de
desenvolvimento deste trabalho. Aos meus companheiros que dividiram momentos incríveis
durante toda essa fase da graduação.
AGRADECIMENTOS
Agradeço primeiramente a Deus que permitiu que eu vivesse essa caminhada com pessoas tão
especiais que me fizeram evoluir tanto como profissional e principalmente como pessoa.
Agradeço a minha orientadora Laura Emmanuella Alves Dos Santos Santana De Oliveira, por
ter acreditado no meu potencial, por ter dedicado seu tempo para me orientar, apoiar e motivar
nessa caminhada.
A todos os professores que compartilharam seu conhecimento e sabedoria para trilhar esse
caminho e muitos outros caminhos que surgiram a partir deste intercambio de conhecimento.
Aos meus pais pelo incentivo a ingressar na vida acadêmica desde muito novo, pelo apoio e
amor incondicional.
A minha namorada por me ouvir, apoiar, por todo o carinho para com minha pessoa, além de
decidir compartilhar esse momento ao meu lado.
Aos meus companheiros de curso, com os quais partilhei momentos fantásticos, de aprendizado,
alegria, tristeza e amizade.
Aos amigos que estavam sempre desenvolvendo suas pesquisas no laboratório TAPIOCA, onde
se ajudamos a cada dia afim de desenvolver pesquisas melhores e evoluir nossa vida acadêmica.
A toda a equipe do laboratório de sementes da Escola Agrícola de Jundiaí – GETSEM.
Aos meus companheiros de longa data Joel de Oliveira que participou de várias “aventuras” ao
meu lado, e a Laercio Medeiros pelo papel de paizão exercido desde o momento em que nos
conhecemos.
A todas as pessoas que de alguma forma me ajudaram nessa caminhada.
“Numa toca no chão vivia um hobbit. ”
J. R. R. Tolkien
RESUMO
A soja (Glycine max) é uma das mais importantes culturas na economia mundial, porém o
sucesso da lavoura de soja depende de diversos fatores, sendo o mais importante deles a
utilização de sementes de elevada qualidade, capazes de gerar plantas de alto vigor. A avaliação
da qualidade de sementes é feita por testes de germinação e de vigor que ajudam na
identificação de lotes com melhor desempenho. Um dos desafios encontrados pelos produtores
de soja é que essas análises para avaliação da qualidade da semente são destrutivas e demandam
tempo, que é considerado longo e caro na cadeia que envolve a produção e comercialização das
sementes. Uma das formas de se aprimorar e tornar rápido o processo de avaliação, é através
da análise de imagens por computador. Alguns trabalhos têm sido desenvolvidos nesse sentido,
utilizando a análise de imagens digitais para classificação da morfologia de sementes e
avaliação fisiológica. O presente trabalho propõe a utilização de técnicas de aprendizado de
máquina para predizer a germinação das sementes de soja a partir de características físicas da
semente obtidas por meio da análise digital de imagens, bem como, identificar atributos físicos
relevantes para a avaliação da qualidade da semente a partir da análise de correlação desses
atributos com características fisiológicas que indicam a qualidade da semente de soja. Busca-
se com isso maior agilidade e confiabilidade no processo de avaliação da qualidade de sementes
de soja, além de caracterizar um processo de avaliação da semente não destrutivo. Os resultados
iniciais indicam a necessidade de aumentar a quantidade de descritores de imagem para
aumentar a acurácia do sistema de predição.
Palavras-chave: Avaliação da qualidade de sementes; Soja; Análise de imagens digitais;
Aprendizado de Máquina.
ABSTRACT
Soy (Glycine max) is one of the most important cultures in the world economy, but the success
of soybean crops depends on several factors, the most important being the use of high-quality
seeds capable of generating high-vigor plants. The rating of seed quality is made by germination
and vigor tests that help in identifying batches with better performance. One of the challenges
encountered by soybean producers is that these analyses for the quality assessment of the seed
are destructive and demand time, which is considered long and costly in the chain involving the
production and marketing of seeds. One of the ways to improve and make the evaluation process
quick, is through computer imaging analysis. Some work has been developed in this direction,
using digital imaging analysis for classification of seeds morphology and physiological
assessment. The present work proposes the use of machine learning techniques to predetermine
the germination of soybean seeds from physical characteristics of the seed obtained through
digital imaging analysis, as well as identifying physical attributes relevant to the Evaluation of
the quality of the seed from the correlation analysis of these attributes with physiological
characteristics indicating the quality of the soybean seed. It seeks more agility and reliability in
the process of evaluating the quality of soybean seeds, in addition to characterize a non
destructive seed assessment process. Initial results indicate the need to increase the amount of
image descriptors to increase the accuracy of the prediction system.
Keywords: Seed quality assessment; Soy; Digital imaging analysis; Machine learning;
LISTA DE FIGURAS
FIGURA 1 - ETAPAS DO PROCESSAMENTO DIGITAL DE IMAGENS. FONTE:
GONZALEZ & WOODS (2000)..............................................................................................20
FIGURA 2 - EXEMPLO DE CLASSIFICAÇÃO DO KNN. FONTE: COMPUTAÇÃO
INTELIGENTE (2017).............................................................................................................23
FIGURA 3 - REDE PERCEPTRON. FONTE - PET ENGENHARIA CIVIL UFRJ
(2013)........................................................................................................................................25
FIGURA 4 - ARQUITETURA DE UMA REDE NEURAL MLP. FONTE: ADAPTADO DE
FERNANDES (2005)26
FIGURA 5 - FÓRMULA DA CORRELAÇÃO DE PEARSON.............................................27
FIGURA 6 - AQUISIÇÃO DE IMAGENS EM EVA AZUL..................................................29
FIGURA 7 - MEDIÇÃO DE PLÂNTULAS............................................................................29
FIGURA 8 - FÓRMULA DA CIRCULARIDADE. FONTE - UM EXERCÍCIO
ACADÊMICO DE GESTÃO DE RECURSOS HÍDRICOS
(2010)........................................................................................................................................33
FIGURA 9 - FÓRMULA DO DIÂMETRO DE FERET. FONTE CTB (2016)......................34
FIGURA 10 - CÁLCULO DA ESFERICIDADE. FONTE CENTRO DE INFORMÁTICA
EEL SISTEMAS – USP (2016)................................................................................................35
FIGURA 11 - CÁLCULO DO VOLUME EM SUPERFÍCIES CIRCULARES. FONTE:
CALCULARVOLUME.COM (2017)......................................................................................35
FIGURA 12 - REPRESENTAÇÕES DO MODELO RGB FONTE - GONZALEZ &
WOODS (2009)........................................................................................................................36
FIGURA 13 - INDICAÇÃO DAS PARTES MEDIDAS DA SEMENTE GERMINADA....40
FIGURA 14 - COLETANDO O VALOR DA MASSA VERDE EM UMA BALANÇA DE
PRECISÃO...............................................................................................................................40
FIGURA 15 – CORRELAÇÃO ENTRE PERÍMETRO COM RAIZ AÉREA E
INTENSIDADE MÍNIMA COM RAIZ RADICULAR...........................................................44
FIGURA 16 – CORRELAÇÃO ENTRE CONTRASTE E RAIZ TOTAL E REDONDEZA E
MASSA VERDE.......................................................................................................................45
FIGURA 17 – CORRELAÇÃO ENTRE ÁREA E MASSA SECA........................................46
LISTA DE TABELAS
ACURÁCIA DOS CLASSIFICADORES (%)........................................................................ 40
SUMÁRIO
Agradecimentos .................................................................................................................. 14
Lista de tabelas ................................................................................................................... 19
1 INTRODUÇÃO ................................................................................................................. 9
1.1 justificativa ................................................................................................................... 10
1.2 objetivos ........................................................................................................................ 10
1.2.1 Objetivo geral ............................................................................................................ 10
1.2.2 Objetivos específicos .................................................................................................. 11
1.3 organização do trabalho ............................................................................................... 11
2 trabalhos relacionados .................................................................................................... 12
3 REFERENCIAL TEóRICO ........................................................................................... 17
3.1 soja ................................................................................................................................ 17
3.2 avaliação da qualidade de sementes ............................................................................ 17
3.3 processamento digital de imagens................................................................................ 19
3.3.1 base de conhecimento ................................................................................................ 20
3.3.2 Aquisição de imagens ................................................................................................ 20
3.3.3 pré-processamento .................................................................................................... 20
3.3.4 segmentação ............................................................................................................... 21
3.3.5 representação e descrição .......................................................................................... 21
3.3.6 Reconhecimento e interpretação ............................................................................... 21
3.4 Aprendizado de máquina ............................................................................................. 21
3.4.1 algoritmo KNN .......................................................................................................... 22
3.4.2 algoritmo naive bayes ................................................................................................ 24
3.4.3 algoritmo Mlp ............................................................................................................ 25
3.5 CORRELAÇÃO DE PEARSON ................................................................................. 27
4 metodologia e desenvolvimento ...................................................................................... 28
4.1 metodologia .................................................................................................................. 28
4.2 Aquisição de imagens ................................................................................................... 28
4.3 pré-processamento ....................................................................................................... 29
4.4 segmentação .................................................................................................................. 30
4.5 REPRESENTAÇÃO E DESCRIÇÃO......................................................................... 30
4.6 reconhecimento e intepretação .................................................................................... 41
5 RESULTADOS ............................................................................................................... 42
6 CONCLUSÃO ................................................................................................................... 47
6.1 TRABALHOS FUTUROS ........................................................................................... 48
REFERÊNCIAS ................................................................................................................. 49
Apêndice ............................................................................................................................. 52
1. Aquisição de Imagens .............................................................................................. 52
2. Imagens Pré-processadas ........................................................................................ 53
3. Imagens Segmentadas ............................................................................................. 55
9
1 INTRODUÇÃO
A soja (Glycine max) é uma das mais importantes sementes produzidas mundialmente.
Seus grãos são muito usados pela agroindústria (produção de óleo vegetal e rações para
alimentação animal), indústria química e de alimentos. Além disso, seu uso como fonte
alternativa de biocombustível é crescente (COSTA NETO & ROSSI, 2000). O Brasil é o
segundo maior produtor de grãos de soja com a produção de 95 milhões de toneladas
(EMPRAPA 2016).
O sucesso da lavoura de soja depende de diversos fatores, porém o mais importante
deles é a utilização de sementes de elevada qualidade e capazes de gerar plantas de alto vigor.
Essas sementes de melhor qualidade propiciam a germinação e a emergência de plântulas em
campo de maneira rápida e uniforme, resultando na produção de plantas de alto desempenho,
que têm um potencial produtivo mais elevado (FRANÇANETO, J.B. et al 2015).
A avaliação da qualidade de sementes é feita por testes de germinação e de vigor que
ajudam na identificação de lotes com melhor desempenho. Os principais testes aplicados nesse
contexto são definidos pelas Regras de Análise de Sementes (Brasil, 2009) e pelo manual de
vigor da ABRATES, Associação Brasileira de Tecnologia de Sementes (KRZYZANOWSKI et
al., 1999). Existem diversos desafios encontrados pelos produtores de soja um desses desafios
é a avaliação da qualidade das sementes, que são destrutivos e demandam tempo, que é
considera caro e longo na cadeia de produção. (MASSETO et al., 2008). Uma das formas de se
aprimorar e tornar rápido o processo de avaliação é através da análise de imagens por
computador; trata-se de uma técnica de inspeção rápida, econômica e objetiva que tem-se
expandido em diversos meios do setor industrial e onde a precisão e velocidade devem
satisfazer uma exigência crescente de produção e qualidade (BROSNAM, 2002).
Atualmente, a análise digital de imagens de sementes tem sido usada em alguns
trabalhos, como em (GUEDES, 2011), onde os autores validaram o uso da análise de imagem
da semente de soja para avaliar as características físicas das sementes, verificando que esse
método é tão eficaz quanto os métodos de avaliação tradicional, a saber, o método com
paquímetro e o método com projeção da imagem em papel milimetrado, com a vantagem de ser
não destrutivo e mais rápido. Nesse trabalho, a captura das imagens da semente foi feita usando
uma câmera digital, após isso as imagens foram pré-processadas e segmentadas para possibilitar
a determinação de valores como área, perímetro, circularidade, esfericidade, volume e entre
outras características das sementes de soja. Em (OYAMA, 2011) é feita a classificação de grãos
de café em 21 classes que englobam defeitos, impurezas e o grão perfeito. Essa classificação é
feita a partir de atributos selecionados de morfologia, cor e textura adquiridos pela análise e
10
processamento da imagem. Já em (NORONHA, 2014), é feita uma análise de imagem de raio-
x para verificar a qualidade fisiológica da semente de Moringa. Seus resultados mostraram que
é possível a mensuração das áreas preenchidas e áreas livres no interior da semente e a
associação entre estas e a germinação. Danos internos severos, malformação e grau de
preenchimento detectados no raio-X podem ser associados a baixa germinação e redução do
comprimento de plântulas. Neste trabalho, foi feita também a validação da eficiência da
determinação do incremento de área em sementes de moringa durante a embebição, por meio
da análise de imagens digitalizadas, com fins na avaliação do vigor das sementes.
Esse trabalho propõe a utilização de técnicas de aprendizado de máquina para predizer
a germinação das sementes de soja a partir de características físicas da semente obtidas por
meio da análise digital de imagens, bem como identificar atributos físicos relevantes para a
avaliação da qualidade da semente a partir da análise de correlação desses atributos com
características fisiológicas que indicam a qualidade da semente de soja. Busca-se uma maior
agilidade e confiabilidade no processo de avaliação da qualidade de sementes de soja, a partir
de um processo de avaliação da semente não destrutivo.
1.1 JUSTIFICATIVA
Segundo Lima (1996) a qualidade das sementes de soja depende de vários fatores, como,
por exemplo, pureza física, elevado potencial genético, alta germinação e vigor, ausência de
danos mecânicos, boa sanidade e uniformidade de tamanho. Um dos desafios encontrados pelos
produtores de soja é que essas análises para avaliação da qualidade da semente são destrutivas
e demandam tempo, que é considerado longo e caro na cadeia que envolve a produção e
comercialização das sementes. O presente trabalho é proposto visando o aspecto de qualidade
e ganho de tempo na análise destas sementes.
1.2 OBJETIVOS
Nesta seção são apresentados os objetivos gerais e específicos deste trabalho
1.2.1 Objetivo geral
Como objetivo geral, o presente trabalho propõe a utilização de técnicas de aprendizado
de máquina para predizer a germinação das sementes de soja a partir de características físicas
da semente obtidas por meio da análise digital de imagens, bem como, identificar atributos
físicos relevantes para a avaliação da qualidade da semente a partir da análise de correlação
desses atributos com características fisiológicas que indicam a qualidade da semente de soja.
11
Busca-se com isso maior agilidade e confiabilidade no processo de avaliação da qualidade de
sementes de soja, além de caracterizar um processo de avaliação da semente não destrutivo.
1.2.2 Objetivos específicos
Os objetivos específicos são:
Reduzir o tempo de análise da qualidade de sementes;
Definir, a partir dos conhecimentos adquiridos juntos com os especialistas, quais
características da semente de soja são determinantes para uma semente de boa
qualidade;
Definir descritores e verificar se tais descritores são relevantes para identificar
uma semente de boa qualidade;
Verificar quais descritores influenciam na classificação da semente;
Criação de uma base de dados contendo 400 imagens e 55 descritores;
1.3 ORGANIZAÇÃO DO TRABALHO
Este trabalho está organizado da seguinte forma:
O Capítulo 2 apresenta os trabalhos relacionados com este trabalho, afim de se
obter conhecimento de técnicas já utilizadas em outros trabalhos e com isso
aumentar a possibilidade de aplicar novos métodos para a obtenção de resultados
mais eficientes.
O Capítulo 3 apresenta os conceitos de Processamento Digital de Imagens e
Aprendizado de Máquina e a metodologia aplicada neste trabalho.
O Capítulo 4 apresenta todo o processo de desenvolvimento e os experimentos
realizados.
O Capítulo 5 mostra os resultados obtidos com os métodos utilizados neste
trabalho.
Capitulo 6 apresenta as conclusões e perspectivas de trabalhos futuros.
12
2 TRABALHOS RELACIONADOS
No trabalho exposto por Guedes et al.(2011) foi proposta a análise de características
morfológicas de sementes de soja (comprimento, largura, espessura, circularidade, esfericidade,
perímetro, área projetada e volume), através de três métodos de medição: uso de paquímetro,
projeção dos grãos em papel milimetrado na parede e scanner de mesa para determinação dessas
características através de técnicas de processamento digital de imagem, sendo esse último o
método proposto no trabalho. Os testes foram realizados no Laboratório de Armazenamento e
Processamento de Produtos Agrícolas da Unidade Acadêmica de Engenharia Agrícola da
Universidade Federal de Campina Grande, Paraíba. Utilizando uma amostra de grãos com
massa aproximada de 400 gramas, foi colocado um recipiente de vidro hermético com um
espaçador e apenas água no seu interior. Neste ensaio foi utilizado o método dinâmico na
determinação do teor de água de equilíbrio dos grãos. Após esse ensaio foi feita a numeração
dos grãos para serem levados para o scanner. É realizada a varredura da imagem para
caracterização das dimensões físicas dos grãos de soja. As imagens utilizadas passaram por uma
etapa de pré-processamento na qual os grãos foram analisados na sequência predeterminada
pela numeração. Após o pré-processamento foi feita a segmentação da imagem para obter
somente os objetos de estudo. Em função dos resultados obtidos pelos três métodos de medição
para determinar as características físicas dos grãos de soja, conclui-se que pela compatibilização
entre os valores medidos pelos três métodos utilizados, medidas com paquímetro, medidas
utilizando-se a projeção da imagem dos grãos em papel milimetrado e medidas realizadas com
scanner para digitalização dos grãos de soja, e pelo resultado das análises de variância, o
método utilizando o scanner é válido para determinar as características físicas dos grãos.
Em Oyama (2014) foi realizada a análise dos atributos físicos de um lote de grãos de
café. A partir de características morfológicos dos grãos. Dentre os atributos físicos do lote,
destacam-se as dimensões, a forma, a presença de impurezas (tais como restos vegetais, pedras,
partículas de solo, frações de grãos menores que sua metade). A análise física em grãos, hoje é
feita manualmente e é um procedimento moroso e dependente da interpretação do analista, A
metodologia utilizada neste trabalho é dividida em: aquisição de imagens da amostra, aplicação
de algoritmos de processamento de imagem para detecção dos objetos e extração de suas
características, classificação por padrões de cor, definição de descritores de forma e, finalmente,
classificação por padrões de forma. Foram utilizadas amostras de grãos de diferentes peneiras
fornecidas pela Cooperativa Regional de Cafeicultores de Guaxupé Ltda. (Cooxupé),
juntamente com os grãos com defeitos e impurezas já separados e classificados por especialistas
13
da cooperativa. Foi utilizado ainda o software Qualicafé¹1 que está dividido em módulos: pré-
processamento, classificação por cor, por forma e por tipo de grão. Todos os processos de
classificação se baseiam numa rede neural do tipo Multilayer Perceptron (MLP). Foi utilizada
a API Weka, com algoritmos de aprendizado de máquina implementados em Java. Os resultados
obtidos mostraram que as atuais técnicas de processamento de imagem são capazes de extrair
da imagem de um grão informações suficientes para definir sua forma e coloração, alguns dos
atributos utilizados por especialistas humanos para classificar os grãos. Também se pode
concluir que com as classificações geradas pelas redes neurais é possível fazer o
reconhecimento de padrões de forma satisfatória.
No trabalho de Noronha (2014) é feita uma análise de imagem de raio-x para verificar
a qualidade fisiológica da semente de Moringa. Foram utilizados quatro lotes de 200 sementes
de Moringa oleifera Lam. coletadas em árvores matrizes localizadas na região de Macaíba-RN.
Para o teste de raio-X, as sementes foram dispostas no equipamento e numeradas de acordo
com a posição ocupada, para que pudessem ser identificadas posteriormente. As imagens foram
convertidas em arquivos no formato tiff, utilizando-se o programa Surgimap(Namaris,)2, sendo
posteriormente analisadas através do software ImageJ(ImageJ, 2016)3. Para que fossem
determinados os valores de cada segmento, a semente foi dividida em duas regiões: tegumento
e embrião, correspondente a área preenchida. O espaço entre a área preenchida e o limite interno
do tegumento foi considerado área vazia e área total definida pelo limite externo do tegumento,
respectivamente. A determinação da área vazia foi obtida através da subtração da área interna
preenchida da área externa limitada pelo tegumento. Após a análise de imagens pelo teste de
raio-X, realizou-se o teste de germinação. O vigor das sementes foi analisado utilizando os
seguintes testes: Primeira contagem, Índice de velocidade de germinação, Comprimento de
plântula e Massa seca de plântulas. A análise das imagens radiografadas permitiu a
determinação de estruturas internas das sementes de moringa e também de um tecido denso ao
redor do embrião, que é o tegumento. As áreas preenchidas e vazias foram visualizadas nos
quatro lotes avaliados, sendo que as áreas escuras representam ausência de tecido ou de tecido
de baixa densidade, e as áreas claras, representam os tecidos com maior densidade. Diante disso,
é possível classificar as sementes, quanto a sua formação em: Cheia e bem formada, manchada,
com danos físicos e vazia.
1 Software desenvolvido pelos programadores da Embrapa para avaliar a qualidade das sementes de café. 2 Site: https://www.surgimap.com 3 Site: https://imagej.net/Welcome
14
No trabalho Khatchatourian(2008) foi aplicado o processamento de imagens digitais
auxiliado pelas Redes Neurais Artificiais com a finalidade de identificar algumas variedades de
soja por meio da forma e do tamanho das sementes. Para o estudo realizado, foram escolhidas
no laboratório de sementes da Cooperativa Agropecuária e Industrial. Para a realização das
fotos, as sementes foram colocadas sobre uma superfície plana composta por material presente
em câmaras escuras (preto e fosco), utilizado em estúdios fotográficos. As sementes de soja
analisadas mostraram-se bastante parecidas na forma e no tamanho. Por isso, a arquitetura da
rede neural foi escolhida de maneira que essas pequenas diferenças fossem “percebidas”. A
arquitetura da rede neural utilizada para o reconhecimento dos padrões foi a rede feedforward
multicamadas. Seu aprendizado foi realizado por meio do algoritmo backpropagation. A rede
foi composta por 16.900 elementos na camada de entrada, três camadas ocultas com 90; 70 e
60 neurônios, e uma camada de saída com oito neurônios. As camadas ocultas e a camada de
saída possuíam biases. Para o treinamento, foi utilizado um conjunto de 35 sementes para cada
uma das oito variedades de soja estudadas. Como resultado do trabalho pode-se perceber que
as espécies de soja estudadas, podem ser identificadas por meio da análise das propriedades
morfológicas das sementes de soja aplicando processamento de imagens digitais em conjunto
com Redes Neurais Artificiais. Devido à semelhança das espécies das sementes de soja.
De acordo com o trabalho de Mondo (2015), a análise de imagens foi utilizada para
avaliar a qualidade de sementes de milho localizadas em diferentes posições na espiga do
mesmo. É altamente desejável nas sementes de milho a uniformidade de forma e tamanho, para
facilitar tratamentos químicos e semeadura, porém, existe grande variação na uniformidade das
sementes na própria espiga, que geralmente são classificadas quanto a sua forma como
achatadas e esféricas. Diante do exposto, seria importante estudar, de maneira mais detalhada
as relações de causa e efeito entre as sementes achatadas e esféricas, para isso decidiu-se pela
utilização de técnicas de análise de imagens, a partir de imagens de raio-X. Esta pesquisa foi
realizada nos laboratórios de Análise de Imagens e de Análise de Sementes do departamento de
produção vegetal da Escola Superior de Agricultura, Universidade de São Paulo em Piracicaba
SP. As espigas foram manualmente debulhadas. Foram realizados os testes de raio-X
utilizando: seis repetições de 30 sementes numeradas de acordo com a posição ocupada.
Paralelamente foram adquiridas imagens fotográficas externas das duas faces ventral e dorsal
das sementes. Após a aquisição das imagens, as sementes foram postas para germinar, para
testes de frio, condutividade elétrica e envelhecimento fossem realizados. Conclui-se que as
sementes das posições intermediarias e proximal da espiga apresentaram qualidade semelhante
15
ou superior às sementes da posição distal (extremidades). As alterações nos eixos embrionários,
identificados por manchas escuras e sem definição, presentes em maior quantidade na posição
distal da espiga, forãm responsáveis pela redução da qualidade das sementes.
Ribeiro (2016) propôs identificar grãos ardidos através de combinações de técnicas de
mineração de dados e processamento digital de imagens, aplicando a análise dos histogramas
das imagens. Os experimentos foram realizados nos Laboratórios de Sistemas Digitais e de
Fitopatologia Aplicada pertencentes a Universidade Estadual de Ponta Grossa (UEPG). O
Laboratório de Fitopatologia forneceu 126 amostras de grãos de milho, sendo 63 sadios e 63
ardidos. Foi utilizado um escâner para a aquisição das imagens individuais de cada grão, que
foram processadas para a extração de histogramas e geração da base de dados. Com o software
Weka, a base foi submetida a 59 métodos de classificação existentes na ferramenta. Os métodos
com os melhores resultados foram NaiveBayes e NaiveBayesUpdateables, que obtiveram uma
taxa de acerto de 93%. Entretanto quando foi observado o tempo de processamento, foi
verificado que o NaiveBayesUpdateables teve desempenho 8 vezes maior que o NaiveBayes.
Concluiu-se que os procedimentos apresentados poderiam auxiliar na escolha de um sistema
computacional para a detecção de grãos ardidos em termos de taxa de acerto e tempo de
processamento.
Em outro trabalho, Ribeiro (2015) utilizou processamento digital de imagens e
mineração de dados para extração de características de grãos de milho, com objetivo de
demonstrar o uso de métodos computacionais relacionados ao processamento digital de
imagens em conjunto com mineração de dados para detecção de grãos ardidos. Foram utilizados
no total, 2000 amostras de grãos de milhos obtidos de três cooperativas diferentes, as sementes
foram selecionadas e classificadas pelos técnicos de cada uma das cooperativas. A aquisição
das imagens foi feita com um escâner, para o posicionamento dos grãos, foi utilizada uma
matriz em EVA com 88 furos retangulares, com resolução de 75 dpi, 300 dpi e 600 dpi, a
escolha destes valores de resolução também foi avaliar o impacto desta característica da
imagem no resultado final. Para cada grão foram escaneados seus dois lados, nomeados como
frente e verso (isso foi feito devido os grãos de milho possuem um dos seus lados diferenciados
e uma das características estudadas pode se manifestar em um dos lados). Foi utilizado a
linguagem de programação Python com o framework SimpleCV para cumprir as etapas de pré-
processamento e segmentação. Depois dessas etapas foi realizado a extração de características,
com o auxílio do software EXTRATOR. Após a obtenção do banco de dados de características,
esses dados foram submetidos ao processo de mineração de dados, com o software Weka. Os
16
fatores de análise do problema dos grãos ardidos estão relacionados, de uma forma geral, à cor
e textura do grão. Neste trabalho foi verificado que a combinação desses dois fatores, mesmo
computacionalmente produz melhor resultado.
Como pode ser notado a análise de imagens tem sido uma técnica muito utilizada na
análise de sementes em geral, a fim de se obter um resultado mais rápido na avaliação das
sementes. Este trabalho utilizou como base algumas técnicas de processamento digital de
imagens estudadas em outros trabalhos em conjunto com técnicas de aprendizado de máquina
como o intuito de avaliar a qualidade da semente de soja.
17
3 REFERENCIAL TEÓRICO
Este capítulo apresenta toda a fundamentação teórica deste trabalho, que se divide no
conhecimento da soja, métodos de avaliação da qualidade de sementes, processamento digital
de imagens, aprendizado de máquina e correlação.
3.1 SOJA
A soja (Glycine max) é originaria da Ásia, mais precisamente da China, e somente no
século passado, iniciou-se o seu cultivo na América Latina. A cultura da soja é uma das culturas
mais importância na economia mundial. Sendo seus grãos usados por várias vertentes da nossa
indústria seja ela indústria química, de alimentos ou até mesmo de biocombustível. O Brasil é
o segundo maior produtor do grão, com grande valor agregado no mercado atual.
Pelas significativas contribuições à sociedade, tanto no meio rural quanto nas cidades,
é importante que a soja também contribua para a sustentabilidade econômica, ambiental e social
dos sistemas de produção de grãos. Neste contexto, manter e aperfeiçoar a produção de grãos
desta oleaginosa requer encaixe de seu cultivo como um dos componentes de espécies agrícolas
no sistema de produção de grãos, sempre evitando cultivo isolado e sem diversificação de
espécies de plantas. Embora seja cultura plástica e com adaptação para ambientes de cultivo
diversos, para alcançar desempenho agronômico desafiador de 90 a 100 sc/ha por exemplo, a
soja requer solo fértil e estruturado, com capacidade de infiltração e de armazenamento de água,
além da ausência de camada compactada, doenças radiculares e nematoides. A prática
agronômica indicada para alcançar estas características é a diversificação de cultivos, através
da rotação e sucessão de culturas no verão e inverno, a qual ainda propicia alternância na renda
da propriedade agrícola pela diversificação de produtos colhidos (Embrapa, 2016).
3.2 AVALIAÇÃO DA QUALIDADE DE SEMENTES
Uma semente para ser considerada de boa qualidade deve ter características, tais como
altas taxas de vigor, de germinação, de sanidade, bem como garantia de pureza física e varietal.
Esses fatores respondem pelo desempenho da semente em campo.
A avaliação de qualidade das sementes é feita por testes de germinação e de vigor que
ajudam na identificação de lotes com melhor desempenho. Os principais testes aplicados nesse
contexto são definidos pelas Regras de Análise de Sementes (Brasil, 2009) e pelo manual de
vigor da ABRATES.
18
Alguns dos métodos de avaliação de sementes que ainda são muito usados atualmente
são a projeção de grãos em papel milimetrado e o uso de parquímetro, mas uma das formas de
avaliação que vem crescendo muito atualmente pelo ganho de tempo e eficiência é através da
análise de imagens por computador, que satisfazem a exigência crescente do mercado de
produção e qualidade. A análise de imagens de sementes por computador utiliza técnicas de
processamento digital de imagens (PDI) que facilitam e agilizam tais avaliações. Este método
tem-se mostrado tão eficiente quanto os métodos de avaliação tradicionais.
Existem outros métodos de avaliação de qualidade de sementes que podem ser citados,
entre eles estão: envelhecimento precoce, teste de tetrazólio, teste de frio, teste de condutividade
elétrica e peso da matéria seca e comprimento de plântula.
No teste de envelhecimento precoce as sementes são expostas a condições adversas de
alta temperatura (40º à 45º) e umidade relativa (próxima de 100º) por diferentes períodos
dependendo da espécie. O principal fundamento deste teste baseia-se no fato de que, sementes
de alto vigor produzem plântulas normais nos testes de germinação, após estressadas em
condições de altas temperaturas e umidade relativa. (Seednews, 2017)
O teste de tetrazólio é uma alternativa promissora devido a rapidez e eficiência na
determinação da viabilidade e do vigor, da deterioração por umidade e danos mecânicos, de
secagem e por percevejo. Desta forma, o teste permite um diagnóstico detalhado das causas
principais de perda da qualidade da semente de soja. O teste se baseia na atividade das enzimas
desidrogenasses, como a desidrogenasse do ácido málico, que catalisam reação de redução do
sal de tetrazólio nas células vivas. Quando a semente de soja é imersa na solução de tetrazólio,
esta é difundida através dos tecidos, ocorrendo nas células vivas a reação de redução que resulta
na formação de um composto vermelho, não-difusível, conhecido por formazan. (Seednews,
2017)
Outro teste é o teste de frio, um dos testes de vigor mais amplamente utilizados em
diversas regiões de clima temperado onde a época da semeadura pode coincidir com períodos
chuvosos e de baixa temperatura. A semeadura em solos frios e úmidos apresenta sérios riscos
de baixa germinação e emergência, o que resultará no não estabelecimento de uma população
adequada de plantas. O teste de frio toma como base os efeitos negativos de baixa temperatura
e do alto teor de umidade do solo sobre emergência de plântulas. A estas condições, está
também associada a ação deletéria da flora microbiana do solo, que atua como fonte adicional
de estresse no teste. As condições de umidade e temperatura adotadas no teste de frio tentam
19
simular as condições adversas de solo as quais poderão ser expostas as sementes após a
semeadura. Desta forma os resultados do referido teste representam os valores mínimos de
germinação que poderão ser obtidos quando o lote de sementes for semeado em condições
precárias de solo frio e úmido. (Seednews, 2017)
O teste de condutividade elétrica detecta que sementes de baixo vigor apresentam menor
integridade de membranas como resultado dos processos de deterioração no armazenamento e
danos mecânicos. Durante o processo de imbebição, essas sementes, com membranas
danificadas, lixavam solutos citoplasmáticos (eletrólitos) no meio liquido. Os solutos com
propriedades eletrolíticas possuem cargas elétricas que podem ser medidas com um
condutívimetro. O processo é simples, rápido, preciso e barato. Todavia, alguns cuidados
devem ser tomados, tanto o teor inicial de umidade da semente quanto o tratamento com
produtos químicos, pois afetar os resultados. (Seednews, 2017)
Os procedimentos do teste de transferência de matéria seca como método de avaliação
de vigor, foram desenvolvidos, com o objetivo de avaliar as diferenças em taxas de crescimento
de forma acurada e reproduzível. O desenvolvimento da plântula tem sido utilizado como um
indicativo de vigor correlacionado com a atividade metabólica da semente em processe de
germinação. Em lotes de semente de soja, o peso da matéria seca do eixo embrionário a partir
de 72 horas da germinação, apresentou-se como uma medida sensível na detecção de diferenças
de vigor. O comprimento de plântula é uma anotação que pode ser efetuada em conjunto com
o teste de matéria seca, e se revelou, no caso da soja, um parâmetro igualmente sensível para
expressar o vigor de lotes de sementes com vantagens adicionais de facilidade na execução e
simplicidade do equipamento. (Seednews, 2017)
3.3 PROCESSAMENTO DIGITAL DE IMAGENS
Segundo Gonzalez & Woods (2009),
“A área de processamento digital de imagens envolve
processos cujas entradas e saídas são imagens e, além
disso, envolve processos de extração de atributos de
imagens até – e inclusive – o reconhecimento de objetos
individuais. ”
20
Neste trabalho, um dos pontos mais importantes é o Processamento Digital de Imagens
(PDI), com ele obteve-se dados a partir das imagens da semente de soja. As principais etapas
do PDI estão definidos na figura abaixo:
Figura 1 - Etapas do Processamento Digital de Imagens. Fonte: Gonzalez & Woods (2000)
3.3.1 BASE DE CONHECIMENTO
A base de conhecimento é conjunto de informação e recomendações específicas do
domínio do problema e geralmente feita em conjunto com o especialista da área afim. Neste
trabalho as informações da base de conhecimento são informações que serão importantes para
a classificação das sementes de soja.
3.3.2 AQUISIÇÃO DE IMAGENS
A etapa de aquisição de imagens é a etapa onde são adquiridas as imagens do problema
que está sendo estudado, obtidas geralmente em ambiente controlado onde as imagens são
capturas com maior qualidade, para que o estudo seja feito com mais eficiência.
3.3.3 PRÉ-PROCESSAMENTO
A etapa de Pré-processamento tem como objetivo realçar e destacar as regiões de
interesse da imagem estudada, para que nos próximos passos seja mais fácil a separação da
região de interesse. Nesta etapa tem-se técnicas para o melhoramento da imagem, como por
exemplo para a retirada de ruídos da imagem.
21
3.3.4 SEGMENTAÇÃO
O processo de segmentação consiste em separar as regiões de interesse em novas
imagens que serão as analisadas nas próximas etapas. Na segmentação sapara-se o fundo da
imagem dos objetos estudados.
3.3.5 REPRESENTAÇÃO E DESCRIÇÃO
Nesta etapa cada região de interesse passa por descritores que procuram na imagem
determinadas características. O conjunto de resultados dos descritores é utilizado para uma
classificação mais precisa. Os descritores podem ser por exemplo: forma, cor e textura.
3.3.6 RECONHECIMENTO E INTERPRETAÇÃO
No reconhecimento e interpretação recebe-se o conjunto de dados obtidos a partir dos
descritores e classifica-os em classes dependendo dos resultados desse objeto ao passar pelos
descritores e das informações contidas na base de conhecimento.
3.4 APRENDIZADO DE MÁQUINA
Segundo Tom M. Mitchel (1997)
“ A capacidade de melhorar o desempenho na realização
De alguma tarefa por meio da experiência”
Aprendizado de máquina (AM) é uma área da Inteligência Artificial (IA) cujo o objetivo
é o desenvolvimento de técnicas computacionais sobre aprendizado bem como a construção de
sistemas capazes de adquirir conhecimento de forma automática. Um sistema de aprendizado é
um programa de computador que toma decisões baseado em experiências acumuladas por meio
de soluções bem-sucedidas de problemas anteriores.( Facelli, 2011).
O processo de aquisição de conhecimento na maioria dos casos envolve entrevistas com
os especialistas, que são profissionais de outras áreas a qual o problema pertence. Entrevistas
essas para descobrir quais regras eles utilizam quando vão tomar uma decisão. Ainda assim esse
processo possui algumas limitações como subjetividade. Com a crescente complexidade dos
problemas e o volume de dados gerados por diferentes setores, viu-se a necessidade de criação
de ferramentas computacionais mais sofisticadas e que fossem autônomas, para isso, essas
técnicas deveriam ser criadas a partir de si mesmas, desde experiências passada, uma hipótese,
ou função, capaz de resolver o problema.
22
Em AM, os computadores são programados para aprender através de experiências
passadas, para isso utilizam-se de um princípio chamado de indução, no qual se obtêm
conclusões genéricas a partir de um conjunto particular de exemplos. Assim, algoritmos de AM
aprendem a induzir uma função ou hipótese capaz de resolver um problema a partir de dados
que representam instâncias do problema a ser resolvido.
O interesse por AM vem crescendo pelos mesmo motivos que a mineração de dados e a
análise Bayesiana. Dentre esses motivos podemos citar o crescimento de volume e variedade
de dispositivos, o processamento computacional, que está mais barato e mais poderoso, e o
armazenamento de dados torna acessível o uso de tais técnicas. Isso significa que é possível
produzir de forma rápida e automática modelos que permitam analisar dados maiores e mais
complexos e fornecer resultados mais rápidos e precisos. O resultado disto são previsões de
alto valor que podem levar a melhores decisões e ações inteligentes em tempo real e sem a
intervenção humana.
O aprendizado de máquina pode ser supervisionado ou não supervisionado. No
aprendizado supervisionado o computador recebe como entrada exemplos de saídas desejadas,
fornecidas geralmente por um especialista, a partir dessas saídas o computador tenta mapear as
entradas para as saídas. O aprendizado não supervisionado o computador recebe saídas sem
classificação do especialista diferente do aprendizado supervisionado, assim classificando os
dados de forma autônoma.
3.4.1 ALGORITMO KNN
O algoritmo K do vizinho mais próximo (do inglês: K nearest neighboors - KNN) foi
proposto por Fukunaga e Narendra (1975). O KNN é uma extensão do algoritmo 1-NN, em vez
de 1 vizinho mais próximo, os K objetos do conjunto de treinamento mais próximos do ponto
de teste, onde o K é o parâmetro de entrada do algoritmo. Quando o valor de K é maior que 1,
para cada ponto de teste são obtidos novos K vizinhos, sendo cada vizinho vota em uma classe,
as previsões dos diferentes vizinhos são agregadas de forma a classificar o ponto de teste.
A Figura 2 mostra um exemplo do KNN, onde tem-se um problema de classificação
com 2 rótulos de classe com K =7. Neste exemplo, são aferidas distâncias para a nossa nova
amostra, representada pela estrela e às demais são amostras de treinamento, representadas por
bolas azuis e amarelas. A variável K representa a quantidade de vizinhos próximos a nossa
amostra e serão utilizadas para averiguar a qual classe pertence essa amostra. Com isso, das 7
23
amostras de treinamento mais próximas 4 são do rótulo A e 3 do rotulo B. Portanto, como
existem mais vizinhos do rotulo A, a nossa amostra receberá o mesmo rotulo, ou seja A.
Figura 2 - Exemplo de classificação do KNN. Fonte: Computação Inteligente (2017).
A escolha do valor de K mais apropriado para um problema de decisão especifico não
pode ser tomada de forma trivial. Em problemas de classificação não é usual utilizar K = 2 ou
quaisquer valores pares, afim de evitar empates. Frequentemente, o valor escolhido para o K é
pequeno ou ímpar: K=3,5, ... e assim sucessivamente.
O algoritmo KNN representa um dos paradigmas mais conhecidos do aprendizado
indutivo: Objetos com características semelhantes pertencem ao mesmo grupo. O KNN é um
algoritmo baseado em memória, já que o processo de aprendizagem consiste apenas em
memorizar os objetos. Os aspectos positivos do KNN são: Algoritmo de treinamento simples;
aplicável mesmo em problemas complexos; O KNN constrói aproximações locais da função
objeto, diferentes para cada novo dado a ser classificado. (Computação inteligente, 2017).
O algoritmo KNN também possui aspectos negativos. O algoritmo dos vizinhos mais
próximos não obtém uma representação compacta dos objetos. A fase de treinamento requer
pouco esforço computacional, no entanto, classificar um objeto de teste requer calcular a
distância desse objeto a todas os objetos de treinamento. Assim, a predição pode ser custosa, e
para um conjunto grande de objetos de treinamento esse processo pode ser demorado. Como
todo algoritmo baseado em distância, ele é afetado pela presença de atributos redundantes e de
atributos irrelevantes. Outro problema do KNN está relacionado a dimensionalidade dos
24
exemplos. O espaço definido pelos atributos de um problema cresce exponencialmente com o
número de atributos, ou seja, o número de atributos define o número de dimensões do espaço.
3.4.2 ALGORITMO NAIVE BAYES
O algoritmo Naive Bayes desenvolvido pela Microsoft é um algoritmo de classificação
baseado no teorema de Bayes e pode ser usado em modelagem de previsão exploratória. O
termo Naive vem da hipótese de que os valores dos atributos de exemplos são independentes
de sua classe, já o Bayes foi atribuído pelo fato do algoritmo utilizar técnicas Bayesianas.
(Microsoft,2017)
O algoritmo tem uma abordagem probabilística. Todas as probabilidades necessárias
para a obtenção do classificador naive bayes são obtidas a partir de dados de treinamento. Para
calcular a probabilidade condicional de observar um valor de um atributo dado que o exemplo
pertence a uma classe, é necessário distinguir entre atributos nominais e atributos contínuos.
No caso de atributos nominais, o conjunto de possíveis valores é um conjunto
enumerável. Para calcular a probabilidade condicional, basta manter um contador para cada
valor de atributo por classe. No caso de atributos contínuos, quando o número de possíveis
valores infinitos, há duas possibilidades. A primeira é assumir uma distribuição particular para
os valores do atributo, e geralmente é assumida a distribuição normal. A segunda alternativa é
discretizar o atributo em uma fase de pré-processamento. Já foi mostrado que a primeira
possibilidade produz piores resultados que a última (Dougherty et al., 1995; Domingos e
Pazzani, 1997).
A superfície de decisão do naive bayes em um problema com duas classes definidas
com atributos booleanos é um hiperplano, ou seja, a superfície de decisão é linear. Todas as
possibilidades podem ser calculadas a partir do conjunto de treinamento em uma única
passagem. O processo de construir o modelo é bastante eficiente. Outro aspecto interessante do
algoritmo é que ele é fácil de implementar de uma forma incremental.
Os pontos positivos do naive bayes são: O desempenho do naive bayes não decresce na
presença de atributos irrelevantes; Facilidade e rapidez para prever o conjunto de dados da
classe de testes; quando a suposição de independência prevalece, um classificador naive bayes
tem melhor desempenho em comparação aos outros. Um dos pontos negativos do naive bayes
é se a variável categórica tem uma categoria que não foi observada no conjunto de dados de
treinamento, então o modelo irá atribuir uma probabilidade de 0 e não será capaz de fazer uma
previsão. Isso é muitas vezes conhecido como Zero Frequency.
25
3.4.3 ALGORITMO MLP
Na busca pela construção de máquinas inteligentes, ou com comportamento inteligente,
um modelo que ocorre naturalmente é o do cérebro humano. Em nosso cotidiano, realizamos
diversas tarefas que requerem atenção a diferentes eventos ao mesmo tempo. A realização de
tarefas variadas, e em alguns casos até simultaneamente é possível graças a nossa complexa
estrutura biológica, e o grande responsável por esse processamento citado é o cérebro humano.
A partir dessas motivações, o desenvolvimento das Redes Neurais Artificiais (RNAs)
tomou como inspiração a estrutura e o funcionamento do sistema nervoso, com o objetivo de
simular a capacidade de aprendizado do cérebro humano na aquisição de conhecimento. Em
1943 McCulloch e Pitts propuseram um modelo matemático de neurônio artificial em que os
neurônios executavam funções lógicas simples e cada um podia executar uma função diferente.
McCulloch e Pitts mostraram que a combinação de vários neurônios artificiais em sistemas
neurais produz elevado poder computacional, uma vez que qualquer função pudesse ser
representada por uma combinação de funções lógicas poderia ser modelada por uma rede
formada por esses neurônios. Essas redes iniciais não possuíam a capacidade de aprendizado.
(Faceli, 2011).
A primeira RNA a ser implementada foi a rede perceptron, desenvolvida por Rosenblatt
(1958). Essa rede foi desenvolvida utilizando o modelo de McCulloch-Pitts como neurônio
introduziu o processo de treinamento de RNAs. Embora essa rede seja simples, apresentando
apenas uma camada de neurônios, ela apresentou boa acurácia preditiva em diversos problemas
de classificação. Na figura 3 temos um exemplo de uma rede perceptron, na primeira camada
são as entradas na camada intermediaria está o neurônio e na última cama a saída.
Figura 3 - Rede perceptron. Fonte - Pet engenharia civil UFRJ (2013)
26
Para resolver problemas não linearmente separáveis utilizando RNAs, a alternativa mais
utilizada é adicionar uma ou mais camadas intermediarias. Segundo Cybenko (1989), uma rede
com uma camada intermediaria pode implementar qualquer função continua. A utilização de
duas camadas intermediarias permite a aproximação de qualquer função. As redes perceptron
multicamadas (MLP, do inglês multlayer perceptron) apresentam uma ou mais camadas
intermediarias de neurônios e uma camada de saída. A arquitetura mais comum para uma rede
MLP é completamente conectada, de forma que os neurônios de uma camada l estão também
conectados aos neurônios da camada l + 1.
Redes multicamadas utilizam nas camadas intermediarias funções de ativação não
lineares, como a função sigmoidal. Pode ser facilmente mostrado utilizando conceitos de
operações com matrizes, que uma rede multicamadas com funções de ativação lineares nos
neurônios das camadas intermediarias é equivalente a uma rede de uma só camada. Em MLP
cada neurônio realiza uma função especifica. A função implementada por um neurônio de uma
dada camada é uma combinação das funções realizadas pelos neurônios da camada anterior que
estão conectados a ele. À medida que o processamento avança de uma camada intermediaria
para a camada seguinte, o processamento realizado se torna mais complexo.
Na primeira camada, cada neurônio aprende uma função que define um hiperplano, o
qual divide o espaço de entrada em duas partes. Cada neurônio da camada seguinte combina
um grupo de hiperplano definidos pelos neurônios da camada anterior, formando regiões
convexas. Os neurônios da camada seguinte combinam um subconjunto das regiões convexas
em regiões de formato arbitrário. E a combinação de cada neurônio de uma rede que define a
função associada à RNA como um todo.
Figura 4 - arquitetura de uma Rede Neural MLP. Fonte: Adaptado de Fernandes (2005)
27
3.5 CORRELAÇÃO DE PEARSON
O coeficiente de correlação de Pearson (r) também chamado de coeficiente de correlação
“produto-momento” mede o grau da correlação entre duas variáveis quantitativas. Dois
conceitos são chaves para entendê-la: “associação” e “linearidade”. Afinal, o que significa dizer
que duas variáveis estão associadas? Em termos estatísticos, duas variáveis se associam quando
elas guardam semelhanças na distribuição dos seus escores. Mais precisamente, elas podem se
associar a partir da distribuição das frequências ou pelo compartilhamento de variância. No
caso da correlação de Pearson (r) vale esse último parâmetro, ou seja, ele é uma medida da
variância compartilhada entre duas variáveis. Por outro lado, o modelo linear supõe que o
aumento ou decremento de uma unidade na variável X gera o mesmo impacto em Y4. Em
termos gráficos, por relação linear entende-se que a melhor forma de ilustrar o padrão de
relacionamento entre duas variáveis é através de uma linha reta. Portanto, a correlação de
Pearson (r) exige um compartilhamento de variância e que essa variação seja distribuída
linearmente
O coeficiente de correlação de Pearson varia de -1 a 1. O sinal indica direção positiva
ou negativa do relacionamento e o valor sugere a força da relação entre as variáveis. Uma
correlação perfeita (-1 ou 1) indica que o escore de uma variável pode ser determinado
exatamente ao se saber o escore da outra. No outro oposto, uma correlação de valor zero indica
que não há relação linear entre as variáveis. Filho (2009).
Figura 5 - Fórmula da correlação de Pearson
28
4 METODOLOGIA E DESENVOLVIMENTO
Este capítulo apresenta todos os passos do desenvolvimento deste trabalho.
4.1 METODOLOGIA
Para o desenvolvimento deste projeto foram utilizados 4 lotes de sementes de soja
adquiridos na região de Macaíba/RN. A partir desses lotes foi feita a aquisição de 400 imagens
de sementes de soja no laboratório de sementes da Escola Agrícola de Jundiaí (EAJ), logo em
seguida as sementes foram colocadas para germinar, após 7 dias foram feitas as medições de
parte aérea, parte radicular e total da raiz, além da obtenção das massas secas e verdes
individualmente. Os algoritmos de processamento digital de imagens foram desenvolvidos para
construir a base de dados a ser classificada, capturando atributos relativos às características
físicas das sementes. Uma característica incluída na base de dados foi a informação de estado
da semente, onde 0 informa que a semente não germinou e 1 indica que a semente germinou.
Após a construção da base de dados, algoritmos de aprendizado de máquina foram utilizados
para realizar a predição do teste de germinação. Os resultados foram comparados com teste
convencionais e testes estatísticos forão aplicados.
4.2 AQUISIÇÃO DE IMAGENS
A Aquisição de imagens foi feita com sementes sendo dispostas em um fundo azul feito
com EVA como mostra a Figura 6. Utilizando uma câmera digital e scanner. Comparando os
resultados obtidos pela câmera digital e pelo scanner, as imagens obtidas pela câmera digital se
mostraram com melhor qualidade para este trabalho.
A escolha da cor azul como fundo da imagem se deu pelo fato de que a cor azul não é
uma cor comumente encontrada na natureza, e não interfere no objeto de estudo deste trabalho
que são as sementes. O EVA foi escolhido pois sua superfície opaca impede a refração da luz.
As sementes utilizadas neste trabalho são de propriedade do Laboratório de Sementes
da Escola Agrícola de Jundiaí, onde também foram feitas as aquisições utilizadas nesse
trabalho. Foram feitas 4 aquisições totalizando 400 amostras de sementes de soja. A aquisição
foi feita no primeiro semestre de 2017 com uma câmera digital com resolução 4320 x 2432
pixels/ polegadas em formato JPEG. A figura 7 mostra as sementes germinadas onde são
coletadas as informações de comprimento de plântula e massa seca e verde.
29
Figura 6 - Aquisição de imagens em EVA azul
Figura 7 - Medição de plântulas.
4.3 PRÉ-PROCESSAMENTO
A etapa de pré-processamento deste trabalho consistiu em transformar a imagem em
escalas de cinza a partir da subtração das camadas Red (vermelho) e Blue (azul). A segunda
30
etapa do pré-processamento foi a utilização da técnica da extração do histograma, o histograma
também conhecido como distribuição de frequências, é a representação gráficas em colunas ou
em barras de um conjunto de dados previamente e dividido em classes uniformes ou não. O
histograma mostra a frequência com que algo acontece.
Após a transformação em escalas de cinza obtido como foi descrito acima, procuramos
o maior pico da imagem e torna-se o índice 1, em seguida encontra-se o segundo maior pico,
que se torna o índice 2. E entre os esses dois índices procura-se agora o vale do histograma
entre esses dois picos e esse valor é o ponto de corte onde é separado o que é fundo e o que é
objeto de estudo. O Valor que é obtido no pré-processamento segue para a próxima fase que é
a segmentação.
4.4 SEGMENTAÇÃO
No estágio da segmentação separamos o que é fundo do que é o objeto de estudo, dessa
forma retirando o identificador do lote e todo azul do fundo, e teremos apenas a semente. O
método que foi utilizado para a separação do fundo para o objeto de estudo foi a limiarização.
A limiarização se baseia na diferença dos níveis de cinza que compõe diferentes objetos na
imagem. A partir do limiar estabelecido pelas características dos objetos (fundo, objetos) a
imagem é segmentada em dois grupos: o grupo de pixels com níveis de cinza abaixo do limiar
(fundo) e o grupo dos objetos acima do limiar (sementes). Em seguida o resultado do limiar é
transformado em uma imagem binária sendo o fundo preto e as sementes brancas.
O próximo passo da segmentação é o corte da semente do fundo, recebemos uma
imagem preta e branca que é chamada máscara, percorremos essa imagem com um laço de
repetição e onde é encontrado um objeto ele é cortado da imagem original e colocado em uma
pasta, pasta essa que vai conter somente as sementes.
4.5 REPRESENTAÇÃO E DESCRIÇÃO
No processamento digital de imagens é possível a extração de características de um
objeto ou área de interesse, essas características são chamadas de descritores. Que podem ser
classificadas como sendo do domínio geral ou do domínio especifico. O domínio geral inclui
características como cor, textura e forma. O domínio especifico é melhor apresentado na
literatura quando se trata de um padrão a ser reconhecido e envolve o conhecimento de
características muito particulares do problema em questão. Alguns exemplos são classificação
de impressão digital, placas de veículos entre outras aplicações. Os descritores utilizados neste
31
trabalho foram separados em cinco classes, sendo elas: forma, textura, cor, matemáticos e de
semente germinada.
Os descritores de forma retornam valores correspondentes a características físicas das
sementes de soja e também podem ser aplicados a outras espécies de sementes. Os descritores
de forma presentes neste trabalho são: alongamento, área, circularidade, diâmetro,
excentricidade, forma, perímetro, raio, centroide eixo X e Y, diâmetro equivalente, extensão,
comprimento de eixo menor, comprimento de eixo maior, solidez, comprimento, área convexa,
área preenchida, volume, manchas, quantidade de manchas, esfericidade, bordas, redondeza,
largura. Os descritores de textura são caracterizados pela extração de informações distribuídas
na superfície da semente, os descritores de textura: brilho, energia, entropia, homogeneidade,
correlação, contraste, intensidade mínima, intensidade máxima, intensidade média. Os
descritores de cor extraem características de cor da semente, os descritores de cor são: cor
vermelha, cor verde e cor azul (que compõe o modelo de cores RGB), média das cores
(vermelha, verde e azul) e cor dominante. Descritores matemáticos são: convexidade, desvio
padrão, média dos elementos da matriz, número de euler, orientação, diâmetro máximo de feret,
diâmetro mínimo de feret, diâmetro médio de feret e relação de feret.
Os descritores de semente germinada são as características extraídas após 7 dias de
germinação. Foram coletadas medidas de todas as sementes por um especialista que
acompanhou o processo de obtenção desses valores que são: comprimento de raiz aérea,
comprimento de raiz radicular, comprimento de raiz total, massa seca e massa verde. No total
são 50 descritores de sementes de soja e 5 descritores de semente germinada.
Descritores Morfológicos
As características morfológicas, são os atributos físicos de um objeto. Foram utilizados os
seguintes descritores morfológico.
Alongamento: O descritor retorna o quão alongada a semente é. O algoritmo utilizando
a fórmula da função do alongamento: ɛ =𝐿 𝑓−𝐿𝑜
𝐿𝑜 sendo LF o comprimento final e Lo o
comprimento inicial.
Área: O descritor retorna à quantidade de espaço bidimensional, ou seja, superfície. O
algoritmo foi desenvolvido com o auxílio da função Area que pertence ao grupo de
funções regionprops do MATLAB.
Área Convexa: O descritor retorna o quão convexo é a área do objeto, em outras
palavras a curvatura exterior de uma superfície. O algoritmo foi desenvolvido com o
32
auxílio da função ConvexArea que pertence ao grupo de funções do regionprops do
MATLAB.
Área preenchida: O descritor retorna o valor real da área visto que algumas sementes
possuem danos como manchas que não são contabilizadas pelo algoritmo de área. O
algoritmo foi desenvolvido com auxílio da função FilledArea que pertence ao grupo de
funções do regionprops do MATLAB
Bordas: O algoritmo retorna o valor inteiro que representa a borda da imagem. O
algoritmo feito com o auxílio da função edge do MATLAB que retorna apenas a borda
da imagem, em seguida utilizamos um contador para contar a borda da imagem
resultando assim o valor da borda.
Brilho: O descritor retorna o quanto de luz reflete da superfície do objeto. O algoritmo
foi desenvolvido sem o auxílio de funções prontas. O algoritmo foi feito seguindo os
seguintes passos, a função brilho recebe uma imagem original contendo apenas o objeto
de estudo, logo em seguida transformamos ela em preto e branco, onde o objeto tem a
coloração branca e chamamos de IM1, nessa imagem onde existe brilho no original está
preto, o próximo passo foi criar uma IM2 que é a imagem original transformada em
preto e branco da mesma forma que a IM1, porém desta vez o brilho da imagem original
que na IM1 está preto nessa será preenchido, assim temos a IM1 onde o preto dentro do
objeto de estudo é o brilho e a IM2 o objeto de estudo está todo preenchido, o passo
seguinte foi subtrair a IM1 pela IM2 o resultado desta subtração é o valor do brilho.
Centroide eixo X: O descritor retorna o eixo X do centro de massa do objeto. O
algoritmo foi desenvolvido com o auxílio da função Centroid pertencente ao grupo de
funções do regionpros do MATLAB.
Centroide eixo Y: O descritor retorna o eixo Y do centro de massa do objeto. O
algoritmo foi desenvolvido com o auxílio da função Centroid pertencente ao grupo de
funções do regionpros do MATLAB.
Centroide ponderado eixo X: O descritor retorna a coordenada ponderado do centro
da região de estudo retornando assim a coordenada X. O algoritmo foi feito com o
auxílio da função WeightedCentroid que pertence ao grupo de funções do regionproprs
do MATLAB.
Centroide ponderado eixo Y: O descritor retorna a coordenada ponderado do centro
da região de estudo retornando assim a coordenada Y. O algoritmo foi feito com o
33
auxílio da função WeightedCentroid que pertence ao grupo de funções do regionproprs
do MATLAB.
Circularidade: O descritor retorna à circularidade do objeto de estudo. O algoritmo foi
desenvolvido a partir da formula descrita na figura 8. Onde A é a área e AC parte do
conhecer previamente o valor do perímetro.
Figura 8 - Fórmula da circularidade. Fonte - Um exercício acadêmico de gestão de recursos
hídricos (2010)
Comprimento de eixo maior: O descritor retorna o maior eixo do objeto de estudo. O
algoritmo foi desenvolvido com o auxílio da função MajosAxisLength que pertence ao
grupo de funções do regionprops do MATLAB.
Comprimento de eixo menor: O descritor retorna o menor eixo do objeto de estudo. O
algoritmo foi desenvolvido com o auxílio da função MinorAxisLength que pertence ao
grupo de funções do regionprops do MATLAB.
Convexidade: O descritor calcula o casco convexo do objeto de estudo, que pode ser
exemplificado como uma tira elástica que envolve o objeto de estudo, que quando solta
assume a forma requerida da envoltória convexa retornando assim o valor do casco
convexo. O algoritmo foi desenvolvido utilizando a função BWConvhull onde
aplicamos essa função na IM1 e logo em seguida comparamos com a imagem IM2 e o
resultado dessa subtração é o valor da convexidade.
Comprimento: O descritor retorna o comprimento do objeto de estudo. O algoritmo foi
desenvolvido utilizando o auxílio da função length do MATLAB.
Diâmetro: O descritor retorna o diâmetro do objeto de estudo. O algoritmo foi
desenvolvido utilizando a função diameters do MATLAB
Diâmetro Equivalente: O descritor retorna o diâmetro equivalente do objeto de estudo.
O algoritmo foi desenvolvido com o auxílio da função EquivDiameter que pertence ao
grupo de funções regionprops do MATLAB
Diâmetro Mínimo de Feret: O descritor retorna o valor do diâmetro mínimo de feret.
O algoritmo foi desenvolvido calculando o diâmetro do eixo X do objeto de estudo.
Diâmetro Máximo de feret: O descritor retorna o valor do diâmetro máximo de feret.
O algoritmo foi desenvolvido calculando o diâmetro do eixo Y do objeto de estudo.
34
Diâmetro Médio de Feret: O descritor retorna o valor médio do diâmetro de feret. O
algoritmo foi desenvolvido utilizando a fórmula 𝐷𝑚é𝑑𝑖𝑜=
𝐷𝑥+𝐷𝑦
2
onde Dx é o
diâmetro mínimo de feret e Dy é o diâmetro máximo de feret.
Figura 9 - Fórmula do diâmetro de Feret. Fonte CTB (2016).
Excentricidade: O descritor retorna à excentricidade da elipse. A excentricidade é a
proporção entre os focos da elipse e seu maior comprimento de eixo. O algoritmo foi
desenvolvido utilizando a função Eccentricity que pertence ao grupo de funções
regionprops do MATLAB.
Forma: O descritor retorna o valor referente a quantidade de curvaturas que o objeto
possui, a partir disto podemos identificar a forma do mesmo. O algoritmo desenvolvido
utilizando a função Corner do MATLAB.
Largura: O descritor retorna o valor da largura do objeto de estudo. O algoritmo utiliza
a função width do MATLAB.
Manchas: O descritor verifica se a semente possui alguma mancha, retornando assim o
valor 0 para a semente que não possui manchas e 1 para as sementes que possuem. O
algoritmo foi desenvolvido recebendo uma imagem em preto e branco onde o objeto de
estudo é branco e o fundo é preto, se houver alguma mancha no objeto de estudo será
uma área preta dentro do objeto, então se existir ao menos 1, essa semente possui
manchas.
Quantidade de manchas: O descritor retorna à quantidade de manchas que o objeto de
estudo possui. O algoritmo foi desenvolvido recebendo uma imagem preto e branco
35
onde o objeto de estudo é branco e o fundo é preto. O algoritmo vai contar cada área
preta que existe dentro da superfície estudada, retornando assim a quantidade de
manchas da semente.
Orientação: O descritor retorna o valor da orientação angular do objeto de estudo. O
descritor foi desenvolvido com o auxílio da função Orientation que pertence ao grupo
de funções regionprops do MATLAB.
Perímetro: O descritor retorna o valor do perímetro. O algoritmo foi desenvolvido com
auxílio da função bwperim do MATLAB.
Raio: O descritor retorna o raio do objeto de estudo. O algoritmo foi desenvolvido
utilizando o descritor de diâmetro e dividindo por 2 como na formula 𝑅 = 𝐷
2 .
Esfericidade: O descritor retorna à esfericidade do objeto de estudo. O algoritmo
foi desenvolvido com o auxílio da formula da figura 10.
Figura 10 - Cálculo da esfericidade. Fonte Centro de informática EEL sistemas – USP
(2016).
Volume: O descritor retorna o valor do volume do objeto de estudo. O algoritmo foi
desenvolvido utilizando a formula do volume de um círculo que pode ser vista na figura
abaixo.
Figura 11 - Cálculo do volume em superfícies circulares. Fonte: calcularvolume.com (2017).
Redondeza: O descritor retorna o valor da redondeza do objeto de estudo. O algoritmo
foi desenvolvido com o auxílio do cálculo da redondeza 𝑅 = 4∗𝜋∗𝐴𝑟𝑒𝑎
𝑃𝑒𝑟𝑖𝑚𝑒𝑡𝑒𝑟2 .
36
Descritores de Cor
Os modelos de cores padronizam a especificação de cores em uma forma
amplamente aceita. Dentre os modelos de cores mais utilizados está o modelo RGB (R
– red ou vermelho, G – green ou verde, B – blue ou azul). No modelo de cores RGB
cada cor aparece em seus componentes espectrais primários de vermelho, verde e azul,
distribuídas em um sistema de coordenadas cartesianas cujo subespaço de interesse é o
cubo, como mostra a figura 12. Nele, os valores RGB primários estão em três vértices,
as cores secundárias, ciano, magenta e amarelo, em outros três vértices o preto está na
origem e o branco no vértice mais distante deste. A diagonal entre o preto e o branco é
a escala de cinza. (Vale, 2014).
Figura 12 - Representações do Modelo RGB Fonte - Gonzalez & Woods (2009).
Média de cor azul: O descritor retorna a média de tons azuis no objeto de estudo. O
algoritmo foi desenvolvido extraindo a camada B do modelo de cores RGB da imagem
original do objeto de estudo e retirando a média dos pixels azuis que compõe o objeto
de estudo.
Média de cor verde: O descritor retorna a média de tons verdes no objeto de estudo. O
algoritmo foi desenvolvido extraindo a camada G do modelo de cores RGB da imagem
original do objeto de estudo e retirando a média dos pixels verdes que compõe o objeto
de estudo.
Média de cor vermelha: O descritor retorna a média de tons vermelhas no objeto de
estudo. O algoritmo foi desenvolvido extraindo a camada R do modelo de cores RGB
37
da imagem original do objeto de estudo e retirando a média dos pixels vermelhos que
compõe o objeto de estudo.
Cor média RGB: O descritor retorna a média das cores RGB no objeto de estudo. O
algoritmo funciona da seguinte maneira, São extraídas individualmente todos os canais
da imagem (canal R, canal G, canal B) e logo em seguida é feita uma média dos três
canais resultando assim o resultado desta função.
Cor dominante: O descritor retorna a cor dominante do objeto de estudo no modelo de
cores RGB. O algoritmo foi desenvolvido extraindo o máximo das cores e comparando
entre elas para sabermos qual é a mais dominante.
Descritores de Textura
De modo geral, uma textura é caracterizada pelas informações sobre a distribuição
espacial e a variação de luminosidade contidas em um objeto ou imagem, e também descreve o
arranjo estrutural das superfícies e relações entre regiões vizinhas, que na maioria das vezes são
constituídas por padrões repetitivos, cuja disposição pode ser periódica ou aleatória.
Normalmente, texturas naturais são aleatórias, enquanto que texturas artificiais são
frequentemente determinísticas ou periódicas. Além disso, termos como fina, grossa, suave,
áspera, granulada, alongada, regular e irregular estão associados ao conceito de textura
(Dobler,2015).
Contraste: O descritor retorna o contraste do objeto de estudo da imagem em escalas
de cinza. O algoritmo desenvolvido recebe a imagem do objeto de estudo em escala de
cinza e utiliza a função Contrast que pertence ao grupo de funções graycoprops do
MATLAB.
Correlação: O descritor retorna à correlação dos pixels em escalas de cinza. O
algoritmo foi desenvolvido com o auxílio da função Correlaction que pertence ao grupo
de funções graycoprops do MATLAB.
Energia: O descritor de energia retorna a soma dos quadrados dos elementos da matriz
de co-ocorrência. O algoritmo foi desenvolvido utilizado a função Energy que pertence
ao grupo de funções graycoprops do MATLAB.
Entropia: O descritor retorna a entropia do objeto em escalas de cinza. O algoritmo foi
desenvolvido com o auxílio da função Entropy do MATLAB.
38
Extensão: O descritor retorna à proporção de pixels na região para pixels na caixa
delimitadora. O algoritmo foi desenvolvido com o auxílio da função Extent do grupo de
funções do regionpros do MATLAB.
Homogeneidade: O descritor retorna o valor que mede a proximidade da distribuição
de elementos no GLCM (Gray-Level-Co-Ocurrence Matrix) diagonal. O algoritmo foi
desenvolvido com o auxílio da função Homogeneity função que pertence ao grupo de
funções graycoprops do MATLAB.
Descritores Matemáticos
Os descritores matemáticos são funções matemáticas aplicadas ao objeto de estudo.
Desvio padrão: O descritor retorna o valor do desvio padrão do objeto de estudo. O
algoritmo foi desenvolvido com auxílio da função Std do MATLAB.
Intensidade mínima: O descritor retorna o valor da intensidade mínima do objeto de
estudo. O algoritmo foi desenvolvido com o auxílio da função MinIntensity que pertence
ao grupo de funções do regionprops do MATLAB.
Intensidade máxima: O descritor retorna o valor da intensidade máxima do objeto de
estudo. O algoritmo foi desenvolvido com o auxílio da função MaxIntensity que
pertence ao grupo de funções do regionprops do MATLAB.
Intensidade mínima: O descritor retorna o valor da intensidade média do objeto de
estudo. O algoritmo foi desenvolvido com o auxílio da função MeanIntensity que
pertence ao grupo de funções do regionprops do MATLAB.
Média dos elementos da matriz: O descritor mede a média dos elementos da matriz
que compõe o objeto de estudo. O algoritmo foi desenvolvido com o auxílio da função
mean2 do MATLAB.
Número de Euler: O descritor retorna o número de Euler de uma imagem binaria. O
algoritmo foi desenvolvido com o auxílio da função bweuler do MATLAB.
Relação de feret: O descritor retorna o valor referente a relação de feret. O algoritmo
foi desenvolvido através da formula 𝑅 = 𝑑𝑀𝑖𝑛𝐹𝑒𝑟𝑒𝑡
𝑑𝑀𝑎𝑥𝐹𝑒𝑟𝑒𝑡 onde R é a relação e o
dMinFeret é o diâmetro mínimo de feret e dMaxFeret é o diâmetro máximo de feret.
Solidez: O descritor retorna o valor referente a solidez do objeto estudado. O algoritmo
foi desenvolvido com o auxílio da função Solidity que pertence ao grupo de funções do
regionprops do MATLAB.
39
Descritores de semente germinada
Os descritores de sementes germinadas são descritores que fazem parte do teste de peso
da matéria seca e comprimento de plântula, que é um dos testes de germinação citados no
capitulo 3 sessões 3.2 deste trabalho.
Comprimento da raiz aérea: O descritor de comprimento da raiz aérea, é medido
manualmente e está representado na Figura 13 com a cor azul.
Comprimento da raiz radicular: O descritor de comprimento de raiz radicular é
medido manualmente e está representado na Figura 13 com a cor vermelha.
Comprimento da raiz total: O descritor de comprimento de raiz total é medido
manualmente e está representado na Figura 13 com a cor amarela.
Massa verde: O descritor de massa verde, retorna o valor da massa da semente
germinada após as medições de comprimento citadas acima. A semente é levada
para uma balança de precisão onde obtemos o valor como é representado na Figura
14.
Massa Seca: O descritor de massa seca retorna o valor da massa da semente
germinada após um dia na estufa a uma temperatura de 25°. A semente é levada para
a balança de precisão onde obtemos o valor como é representado na Figura 14.
40
Figura 13 - Indicação das partes medidas da semente germinada.
Figura 14 - Coletando o valor da massa verde em uma balança de precisão
41
4.6 RECONHECIMENTO E INTEPRETAÇÃO
Na etapa de reconhecimento e interpretação, são utilizados os 50 descritores da semente
de soja em algoritmos de aprendizado de máquina a fim de gerar classificadores capazes de
predizer a germinação das sementes. Para realizar a predição do teste de germinação, foi
utilizada a ferramenta WEKA (Waikato Environment for Knowledge Analysis) (HALL et al.,
2009) que implementa uma coleção de algoritmos de aprendizado de máquina e e bastante
difundida e aceita entre os pesquisadores da área. Os algoritmos do pacote utilizados foram os
seguintes:
NaiveBayes;
IBk, implementa o algoritmo KNN;
MultilayerPerceptron, implementa uma rede neural MLP.
Os algoritmos foram utilizados com os seguintes parâmetros:
NaiveBayes com estimador de kernel para atributos numéricos em vez de uma
distribuição normal;
KNN com k = 1;
MLP com taxa de aprendizado = 0.3, momento = 0.2 e 500 iteracoes. Foram
utilizadas 2 camadas escondidas, usando o parâmetro a (quantidade de atributos
+ quantidade de classes) para definição da quantidade de neurônios.)
Os resultados dessas operações são descritos no próximo capitulo.
42
5 RESULTADOS
Foi analisada uma base de dados contendo 50 descritores sendo 50 descritores de
semente não germinada e 1 descritor estado da semente que informa se a semente germinou ou
não. Dessa forma o aprendizado de máquina utilizado nesse trabalho foi o aprendizado de
máquina supervisionado. Os resultados dos experimentos feitos para predição do teste de
germinação com a base de dados de sementes estão apresentados na tabela abaixo:
Tabela 1: Acurácia dos classificadores (%)
Como pode ser observado na Tabela 1, a acurácia dos classificadores ainda não atinge
os níveis de confiabilidade desejados inicialmente, visto que o trabalho teve em média 60% de
acurácia comparando com os métodos utilizados pelos especialistas, podendo indicar que os
descritores utilizados não são suficientemente preditivos e novos descritores devem ser
adicionados à base. Porém os resultados se mostram positivos na construção de uma base de
dados que possui uma acurácia maior que 50%.
Uma análise da correlação desses 50 descritores da semente de soja com os 5 descritores
da semente germinada foi realizada a fim de verificar se os atributos físicos adquiridos por
processamento digital das imagens das sementes antes da germinação podem predizer
informações sobre a semente germinada. Para isso, foi utilizado o coeficiente de correlação de
Pearson que avalia a relação linear entre duas variáveis continuas. Uma relação é linear quando
a mudança em uma variável é associada a uma mudança proporcional na outra variável.
Os resultados obtidos com a correlação de Pearson indicaram uma correlação quase nula
entre a maioria dos descritores. Conforme pode ser visto a partir da Figura 15 até a Figura 17,
os descritores que tiveram coeficientes de correlação mais significativos foram: área que
possuía uma relação baixa com raiz aérea, raiz radicular, raiz total, massa seca e massa verde;
Contraste com raiz aérea, raiz radicular e raiz total; Energia com raiz aérea e raiz total;
Homogeneidade com raiz aérea e raiz total; Intensidade mínima com raiz aérea, raiz radicular,
raiz total, massa verde, massa seca; Perímetro com raiz aérea, raiz radicular, raiz total, massa
43
verde e massa seca; Redondeza com raiz aérea, raiz radicular e raiz total, massa verde e massa
seca.
Com os resultados obtidos após as correlações, conseguiu-se entender o motivo da
acurácia do trabalho estar acima de 50%, que se deu pelo fato de que existe pouca relação entre
a maioria dos descritores de semente não germinada e descritores de semente germinada.
44
Figura 15 – Correlação entre Perímetro com Raiz aérea e Intensidade mínima com Raiz radicular
45
Figura 16 – Correlação entre Contraste e Raiz total e Redondeza e Massa verde.
46
Figura 17 – Correlação entre Área e Massa seca.
47
6 CONCLUSÃO
O presente trabalho propôs a utilização de técnicas de aprendizado de máquina para
predizer a germinação das sementes de soja a partir de características físicas da semente obtidas
por meio da análise digital de imagens, bem como, identificar atributos físicos relevantes para
a avaliação da qualidade da semente a partir da análise de correlação desses atributos com
características fisiológicas que indicam a qualidade da semente de soja, buscando com isso
maior agilidade e confiabilidade no processo de avaliação da qualidade de sementes de soja,
além de caracterizar um processo de avaliação da semente não destrutivo.
Desta forma, uma base de dados de sementes de soja foi construída a partir de 50
descritores de características físicas da semente de soja pré-germinação, desenvolvidos com
algoritmos de Processamento Digital de Imagens. A base é composta por 400 imagens retiradas
de diferentes lotes. Algoritmos de Aprendizado de Máquina foram aplicados à base para
construção de classificadores que pudessem predizer o teste de germinação, e uma análise da
correlação dessas características físicas com outras 5 características da semente pós-germinação
foi feita. O resultado mostrou que apenas 50 descritores não são suficientes para a predição do
teste de germinação da semente de soja com altos níveis de confiabilidade, uma vez que esses
descritores não possuem alta correlação com informações da semente germinada. Serão
desenvolvidos em trabalhos futuros novos descritores buscando encontrar aqueles com alto
poder preditivo para a germinação.
48
6.1 TRABALHOS FUTUROS
Como continuação deste trabalho, os seguintes passos deverão ser desenvolvidos:
Implementar novos descritores para as imagens de semente de soja, aumentando a
quantidade de atributos da base de dados
Adicionar mais imagens à base de dados
Utilizar combinação de algoritmos de aprendizado de máquina a fim de gerar
preditores mais acurados
49
REFERÊNCIAS
BROSNAM, T.; SUN, D. Inspection and grading of agricultural and food products
by computer vision systems a review. Computers and Electronics in Agriculture, Dublin,
v.36, n.2, p.193-213, 2002.
COSTA NETO, P. R. & ROSSI, L. F. S. Produção de biocombustível alternativo ao
óleo diesel através da transesterificação de óleo de soja usado em fritura. Química Nova,
v.23, p. 4, 2000.
DEVMEDIA Mineração de dados com Orange Disponível em <
http://www.devmedia.com.br/mineracao-de-dados-com-orange/31678> . 2016
DOBLER, J.A.D. Segmentação de Texturas em Imagens Digitais Utilizando
Wavelets Redundantes. Presidente Prudente, setembro de 2015.
DOUGHERTY ET AL., Supervised and Unsupervised Discretization of Continuous
Features. Machine Learning Proc. Of 12th International Conference.
Domingos, P. e Pazzani, M. On the Optimality of the Simple Bayesian Classifier
under Zero-One Loss. Machine Learning, 29, 103–130 (1997)
EMBRAPA A Soja no Sistema de Cultivo Disponivel em <
https://www.embrapa.br/busca-de-noticias/-/noticia/8901995/artigo---a-soja-no-sistema-de-
cultivo> 2016.
FACELI, K, Inteligência artificial: Uma abordagem de aprendizado de máquina.
2011
FILHO, D. B. F & JÚNIOR, J. A. S. Desvendando os Mistérios do Coeficiente de
Correlação de Pearson (r). Revista Política Hoje, Vol. 18, n. 1, 2009
FRANÇA-NETO, J.B. et al. Padrões de Qualidade de Sementes no Brasil: A
Importância do Uso de Sementes de Soja de Alta Qualidade e os seus Efeitos sobre a
Produtividade. Informativo ABRATES, v. 25, n. 2, p. 27, 2015.
Gonzalez, R. C.; Woods, R. E (2000) Processamento Digital de Imagens. 2ª edição,
Editora Edgard Blücher, São Paulo.
GUEDES, M. A. et al. Caracterização Física de Grãos de Soja Utilizando-se
Processamento Digital de Imagens. Revista Brasileira de Produtos Agroindustriais,
Campina Grande, v.13, n.3, p.279-294, 2011.
50
IMAGEJ projeto open source, version 1.8.0: ImageJ <
https://imagej.nih.gov/ij/index.html > 2017
KHATCHATOURIAN, O; PADILHA ,F R. R. Reconhecimento de variedades de
soja por meio do processamento de imagens digitais usando redes neurais artificiais. Eng.
Agríc., Jaboticabal, v.28, n.4, p.759-769, out./dez. 2008.
KRZYZANOWSKI, F.C.; VIEIRA, R.D.; FRANÇA NETO, J.B. Vigor de sementes:
conceitos e testes. Londrina: ABRATES,. p.3.2-3.4. 1999. BRASIL. Ministério da Agricultura,
Pecuária e Abastecimento. Regras para análise de sementes / Ministério da Agricultura,
Pecuária e Abastecimento. Secretaria de Defesa Agropecuária. Brasília : Mapa/ACS, 2009.
REZENDE, S. O. Sistemas inteligentes: fundamentos e aplicações. Editora da UFSC, 2005.
LANA, C. E. Análise morfométrica da bacia do Rio do Tanque, MG – Brasil. Rev.
Esc. Minas vol.54 no.2 Ouro Preto Apr./June 2001.
MASSETO, T. E.; FARIA, J. M. R.; QUEIROZ, S. E. E.. Evaluation of the seed
quality in Cedrela fissilis - (Meliaceae) by X-ray test. Ciência e Agrotecnologia, Lavras, v.
32, n. 6, p. 1708-1712, 2008.
MICROSOFT Conceitos de mineração de dados Disponível em<
https://msdn.microsoft.com/pt-br/library/ms174949.aspx > 2016
MICROSOFT Algoritmo Naive Bayes da Microsoft Disponivel em <
https://docs.microsoft.com/pt-br/sql/analysis-services/data-mining/microsoft-naive-bayes-
algorithm> 2017
MONDO, V. H. V. Análise de imagens na avaliação da qualidade de sementes de
milho localizadas em diferentes posições na espiga. Revista brasileira de sementes, vol. 27
nº 1, p.09-18, 2015
NORONHA, B. G. Qualidade Fisiologica de Sementes de Moringa oleífera Lam.
Por Meio de Análise de Imagens. Dissertação (Mestrado em Ciências Florestais).
Universidade Federal do Rio Grande do Norte. Unidade Acadêmica Especializada em Ciências
Agrárias Campus Macaíba, 2014.
RIBEIRO, S. S. Detecção de grãos ardidos de milho através de algoritmos de
mineração de dados. Espacios Vol. 37 nº 34, p 7, 2016
51
RIBEIRO, S. S. Uso de processamento digital de imagens e mineração de dados
para extração de características de grãos de milho XSIBIAGRO 2015.
SEEDNEWS Testes de VIGOR: dimensão e perspectivas
<http://www.seednews.inf.br/_html/site/content/reportagem_capa/imprimir.php?id=92
>2017
SURGMAP Project for Nemaris, versão 2.2.9.9.7: Nemaris, 2017<
https://www.surgimap.com/all-downloads/#Windows > 2017
OYAMA, P. I. C. Método Para Classificação de Café em Grãos por Imagens
Digitais Pelo Uso de Atributos Selecionados de Morfologia, Cor e Textura. Dissertação
(Mestrado). Escola de Engenharia de São Carlos da Universidade de São Paulo, 2014.
VALE, A.M.P.G. Técnica para Segmentação Automática de Imagens
Microscópicas de Componentes Sanguíneos e Classificação Diferencial de Leucócitos
Baseada em Lógica Fuzzy. Universidade Federal do Rio Grande do Norte, Natal/RN 2014
VASCONCELOS, L. M. R. Aplicação de Regras de Associação para Mineração de
Dados na Web. Instituto de Informática Universidade Federal de Goiás, 2004
52
APÊNDICE
Segue algumas imagens utilizadas no trabalho.
1. Aquisição de Imagens
Exemplos da aquisição de imagens.
53
2. Imagens Pré-processadas
Imagens após o pré – processamento.
54
55
3. Imagens Segmentadas
Imagens após a etapa de segmentação, onde só permanece o objeto de estudo nesse
caso a semente de soja.
56