Associação entre características físicas da semente de ...€¦ · da semente usando a análise da imagem e técnicas de aprendizado de máquina Trabalho de conclusão de curso

UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE

UNIDADE ACADÊMICA ESPECIALIZADA EM CIÊNCIAS AGRÁRIAS

CURSO SUPERIOR DE TECNOLOGIA EM ANÁLISE E DESENVOLVIMENTO DE

SISTEMAS

Iaslan do Nascimento Paulo da Silva

Associação entre características físicas da semente de soja com a qualidade

da semente usando a análise da imagem e técnicas de aprendizado de

máquina

Macaíba

2017


Associação entre características físicas da semente de soja com a qualidade

da semente usando a análise da imagem e técnicas de aprendizado de

máquina

Trabalho de conclusão de curso de graduação

apresentado à Unidade Acadêmica Especializada em

Ciências Agrárias da Universidade Federal do Rio

Grande do Norte como requisito parcial para a

obtenção do título de Tecnólogo (a) em Análise e

Desenvolvimento de Sistemas.

Orientador: Prof.ª Drª. Laura E. A. S. S. de Oliveira.

Co-Orientador: Prof. Dr. Márcio D. Pereira

Macaíba

2017

Universidade Federal do Rio Grande do Norte - UFRN

Sistema de Bibliotecas - SISBI

Catalogação de Publicação na Fonte. UFRN - Biblioteca Setorial Prof. Rodolfo Helinski - Escola Agrícola de

Jundiaí – EAJ

Silva, Iaslan do Nascimento Paulo da.

Associação entre características físicas da semente de soja com a

qualidade da semente usando a análise da imagem e técnicas de

aprendizado de máquina / Iaslan do Nascimento Paulo da Silva. - 2017.

62f.: il.

Universidade Federal do Rio Grande do Norte. Unidade Acadêmica

Especializada em Ciências Agrárias. Curso Superior de Tecnologia em

Análise e Desenvolvimento de Sistema. Macaíba, 2017.

Orientador: Laura Emmanuella Alves dos Santos Santana de Oliveira.

Coorientador: Márcio Dias Pereira.

1. Avaliação da qualidade de sementes - Monografia. 2. Soja -

Monografia. 3. Processamento Digital de Imagens - Monografia. 4.

Aprendizado de máquina - Monografia. I. Oliveira, Laura Emmanuella

Alves dos Santos Santana de. II. Pereira, Márcio Dias. III. Título.

RN/UF/BSPRH CDU 631.53.02


Associação entre características físicas da semente de soja com a qualidade da semente

usando a análise da imagem e técnicas de aprendizado de máquina

Trabalho de conclusão de curso de graduação apresentado à Unidade Acadêmica Especializada em

Ciências Agrárias da Universidade Federal do Rio Grande do Norte como requisito parcial para a

obtenção do título de Tecnólogo (a) em Análise e Desenvolvimento de Sistemas.

Aprovado em: ____ de _______ de _____.

BANCA EXAMINADORA

__________________________________________

Prof.a Dr.a Laura Emmanuella Alves Dos Santos Santana De Oliveira

Orientadora

Escola Agrícola de Jundiaí Universidade Federal do Rio Grande do Norte

__________________________________________

Prof. Dr. Márcio Dias Pereira

Co-Orientador


__________________________________________

Prof.a Dr.a Alessandra Mendes Pacheco Guerra Vale


__________________________________________

Prof. Me. Emerson Moura, de Alencar


Dedico este trabalho aos meus pais Ivanildo Paulo e Telma Maria do Nascimento, meu irmão

Thiago do Nascimento e minha namorada Maria Airis Vital, por todo apoio, compreensão e

amor incondicional dado a mim nessa trajetória até esse momento. Aos meus orientadores por

terem acreditados no meu potencial e me auxiliado durante todo o período de

desenvolvimento deste trabalho. Aos meus companheiros que dividiram momentos incríveis

durante toda essa fase da graduação.

AGRADECIMENTOS

Agradeço primeiramente a Deus que permitiu que eu vivesse essa caminhada com pessoas tão

especiais que me fizeram evoluir tanto como profissional e principalmente como pessoa.

Agradeço a minha orientadora Laura Emmanuella Alves Dos Santos Santana De Oliveira, por

ter acreditado no meu potencial, por ter dedicado seu tempo para me orientar, apoiar e motivar

nessa caminhada.

A todos os professores que compartilharam seu conhecimento e sabedoria para trilhar esse

caminho e muitos outros caminhos que surgiram a partir deste intercambio de conhecimento.

Aos meus pais pelo incentivo a ingressar na vida acadêmica desde muito novo, pelo apoio e

amor incondicional.

A minha namorada por me ouvir, apoiar, por todo o carinho para com minha pessoa, além de

decidir compartilhar esse momento ao meu lado.

Aos meus companheiros de curso, com os quais partilhei momentos fantásticos, de aprendizado,

alegria, tristeza e amizade.

Aos amigos que estavam sempre desenvolvendo suas pesquisas no laboratório TAPIOCA, onde

se ajudamos a cada dia afim de desenvolver pesquisas melhores e evoluir nossa vida acadêmica.

A toda a equipe do laboratório de sementes da Escola Agrícola de Jundiaí – GETSEM.

Aos meus companheiros de longa data Joel de Oliveira que participou de várias “aventuras” ao

meu lado, e a Laercio Medeiros pelo papel de paizão exercido desde o momento em que nos

conhecemos.

A todas as pessoas que de alguma forma me ajudaram nessa caminhada.

“Numa toca no chão vivia um hobbit. ”

J. R. R. Tolkien

RESUMO

A soja (Glycine max) é uma das mais importantes culturas na economia mundial, porém o

sucesso da lavoura de soja depende de diversos fatores, sendo o mais importante deles a

utilização de sementes de elevada qualidade, capazes de gerar plantas de alto vigor. A avaliação

da qualidade de sementes é feita por testes de germinação e de vigor que ajudam na

identificação de lotes com melhor desempenho. Um dos desafios encontrados pelos produtores

de soja é que essas análises para avaliação da qualidade da semente são destrutivas e demandam

tempo, que é considerado longo e caro na cadeia que envolve a produção e comercialização das

sementes. Uma das formas de se aprimorar e tornar rápido o processo de avaliação, é através

da análise de imagens por computador. Alguns trabalhos têm sido desenvolvidos nesse sentido,

utilizando a análise de imagens digitais para classificação da morfologia de sementes e

avaliação fisiológica. O presente trabalho propõe a utilização de técnicas de aprendizado de

máquina para predizer a germinação das sementes de soja a partir de características físicas da

semente obtidas por meio da análise digital de imagens, bem como, identificar atributos físicos

relevantes para a avaliação da qualidade da semente a partir da análise de correlação desses

atributos com características fisiológicas que indicam a qualidade da semente de soja. Busca-

se com isso maior agilidade e confiabilidade no processo de avaliação da qualidade de sementes

de soja, além de caracterizar um processo de avaliação da semente não destrutivo. Os resultados

iniciais indicam a necessidade de aumentar a quantidade de descritores de imagem para

aumentar a acurácia do sistema de predição.

Palavras-chave: Avaliação da qualidade de sementes; Soja; Análise de imagens digitais;

Aprendizado de Máquina.

ABSTRACT

Soy (Glycine max) is one of the most important cultures in the world economy, but the success

of soybean crops depends on several factors, the most important being the use of high-quality

seeds capable of generating high-vigor plants. The rating of seed quality is made by germination

and vigor tests that help in identifying batches with better performance. One of the challenges

encountered by soybean producers is that these analyses for the quality assessment of the seed

are destructive and demand time, which is considered long and costly in the chain involving the

production and marketing of seeds. One of the ways to improve and make the evaluation process

quick, is through computer imaging analysis. Some work has been developed in this direction,

using digital imaging analysis for classification of seeds morphology and physiological

assessment. The present work proposes the use of machine learning techniques to predetermine

the germination of soybean seeds from physical characteristics of the seed obtained through

digital imaging analysis, as well as identifying physical attributes relevant to the Evaluation of

the quality of the seed from the correlation analysis of these attributes with physiological

characteristics indicating the quality of the soybean seed. It seeks more agility and reliability in

the process of evaluating the quality of soybean seeds, in addition to characterize a non

destructive seed assessment process. Initial results indicate the need to increase the amount of

image descriptors to increase the accuracy of the prediction system.

Keywords: Seed quality assessment; Soy; Digital imaging analysis; Machine learning;

LISTA DE FIGURAS

FIGURA 1 - ETAPAS DO PROCESSAMENTO DIGITAL DE IMAGENS. FONTE:

GONZALEZ & WOODS (2000)..............................................................................................20

FIGURA 2 - EXEMPLO DE CLASSIFICAÇÃO DO KNN. FONTE: COMPUTAÇÃO

INTELIGENTE (2017).............................................................................................................23

FIGURA 3 - REDE PERCEPTRON. FONTE - PET ENGENHARIA CIVIL UFRJ

(2013)........................................................................................................................................25

FIGURA 4 - ARQUITETURA DE UMA REDE NEURAL MLP. FONTE: ADAPTADO DE

FERNANDES (2005)26

FIGURA 5 - FÓRMULA DA CORRELAÇÃO DE PEARSON.............................................27

FIGURA 6 - AQUISIÇÃO DE IMAGENS EM EVA AZUL..................................................29

FIGURA 7 - MEDIÇÃO DE PLÂNTULAS............................................................................29

FIGURA 8 - FÓRMULA DA CIRCULARIDADE. FONTE - UM EXERCÍCIO

ACADÊMICO DE GESTÃO DE RECURSOS HÍDRICOS

(2010)........................................................................................................................................33

FIGURA 9 - FÓRMULA DO DIÂMETRO DE FERET. FONTE CTB (2016)......................34

FIGURA 10 - CÁLCULO DA ESFERICIDADE. FONTE CENTRO DE INFORMÁTICA

EEL SISTEMAS – USP (2016)................................................................................................35

FIGURA 11 - CÁLCULO DO VOLUME EM SUPERFÍCIES CIRCULARES. FONTE:

CALCULARVOLUME.COM (2017)......................................................................................35

FIGURA 12 - REPRESENTAÇÕES DO MODELO RGB FONTE - GONZALEZ &

WOODS (2009)........................................................................................................................36

FIGURA 13 - INDICAÇÃO DAS PARTES MEDIDAS DA SEMENTE GERMINADA....40

FIGURA 14 - COLETANDO O VALOR DA MASSA VERDE EM UMA BALANÇA DE

PRECISÃO...............................................................................................................................40

FIGURA 15 – CORRELAÇÃO ENTRE PERÍMETRO COM RAIZ AÉREA E

INTENSIDADE MÍNIMA COM RAIZ RADICULAR...........................................................44

FIGURA 16 – CORRELAÇÃO ENTRE CONTRASTE E RAIZ TOTAL E REDONDEZA E

MASSA VERDE.......................................................................................................................45

FIGURA 17 – CORRELAÇÃO ENTRE ÁREA E MASSA SECA........................................46

LISTA DE TABELAS

ACURÁCIA DOS CLASSIFICADORES (%)........................................................................ 40

SUMÁRIO

Agradecimentos .................................................................................................................. 14

Lista de tabelas ................................................................................................................... 19

1 INTRODUÇÃO ................................................................................................................. 9

1.1 justificativa ................................................................................................................... 10

1.2 objetivos ........................................................................................................................ 10

1.2.1 Objetivo geral ............................................................................................................ 10

1.2.2 Objetivos específicos .................................................................................................. 11

1.3 organização do trabalho ............................................................................................... 11

2 trabalhos relacionados .................................................................................................... 12

3 REFERENCIAL TEóRICO ........................................................................................... 17

3.1 soja ................................................................................................................................ 17

3.2 avaliação da qualidade de sementes ............................................................................ 17

3.3 processamento digital de imagens................................................................................ 19

3.3.1 base de conhecimento ................................................................................................ 20

3.3.2 Aquisição de imagens ................................................................................................ 20

3.3.3 pré-processamento .................................................................................................... 20

3.3.4 segmentação ............................................................................................................... 21

3.3.5 representação e descrição .......................................................................................... 21

3.3.6 Reconhecimento e interpretação ............................................................................... 21

3.4 Aprendizado de máquina ............................................................................................. 21

3.4.1 algoritmo KNN .......................................................................................................... 22

3.4.2 algoritmo naive bayes ................................................................................................ 24

3.4.3 algoritmo Mlp ............................................................................................................ 25

3.5 CORRELAÇÃO DE PEARSON ................................................................................. 27

4 metodologia e desenvolvimento ...................................................................................... 28

4.1 metodologia .................................................................................................................. 28

4.2 Aquisição de imagens ................................................................................................... 28

4.3 pré-processamento ....................................................................................................... 29

4.4 segmentação .................................................................................................................. 30

4.5 REPRESENTAÇÃO E DESCRIÇÃO......................................................................... 30

4.6 reconhecimento e intepretação .................................................................................... 41

5 RESULTADOS ............................................................................................................... 42

6 CONCLUSÃO ................................................................................................................... 47

6.1 TRABALHOS FUTUROS ........................................................................................... 48

REFERÊNCIAS ................................................................................................................. 49

Apêndice ............................................................................................................................. 52

1. Aquisição de Imagens .............................................................................................. 52

2. Imagens Pré-processadas ........................................................................................ 53

3. Imagens Segmentadas ............................................................................................. 55

9

1 INTRODUÇÃO

A soja (Glycine max) é uma das mais importantes sementes produzidas mundialmente.

Seus grãos são muito usados pela agroindústria (produção de óleo vegetal e rações para

alimentação animal), indústria química e de alimentos. Além disso, seu uso como fonte

alternativa de biocombustível é crescente (COSTA NETO & ROSSI, 2000). O Brasil é o

segundo maior produtor de grãos de soja com a produção de 95 milhões de toneladas

(EMPRAPA 2016).

O sucesso da lavoura de soja depende de diversos fatores, porém o mais importante

deles é a utilização de sementes de elevada qualidade e capazes de gerar plantas de alto vigor.

Essas sementes de melhor qualidade propiciam a germinação e a emergência de plântulas em

campo de maneira rápida e uniforme, resultando na produção de plantas de alto desempenho,

que têm um potencial produtivo mais elevado (FRANÇANETO, J.B. et al 2015).

A avaliação da qualidade de sementes é feita por testes de germinação e de vigor que

ajudam na identificação de lotes com melhor desempenho. Os principais testes aplicados nesse

contexto são definidos pelas Regras de Análise de Sementes (Brasil, 2009) e pelo manual de

vigor da ABRATES, Associação Brasileira de Tecnologia de Sementes (KRZYZANOWSKI et

al., 1999). Existem diversos desafios encontrados pelos produtores de soja um desses desafios

é a avaliação da qualidade das sementes, que são destrutivos e demandam tempo, que é

considera caro e longo na cadeia de produção. (MASSETO et al., 2008). Uma das formas de se

aprimorar e tornar rápido o processo de avaliação é através da análise de imagens por

computador; trata-se de uma técnica de inspeção rápida, econômica e objetiva que tem-se

expandido em diversos meios do setor industrial e onde a precisão e velocidade devem

satisfazer uma exigência crescente de produção e qualidade (BROSNAM, 2002).

Atualmente, a análise digital de imagens de sementes tem sido usada em alguns

trabalhos, como em (GUEDES, 2011), onde os autores validaram o uso da análise de imagem

da semente de soja para avaliar as características físicas das sementes, verificando que esse

método é tão eficaz quanto os métodos de avaliação tradicional, a saber, o método com

paquímetro e o método com projeção da imagem em papel milimetrado, com a vantagem de ser

não destrutivo e mais rápido. Nesse trabalho, a captura das imagens da semente foi feita usando

uma câmera digital, após isso as imagens foram pré-processadas e segmentadas para possibilitar

a determinação de valores como área, perímetro, circularidade, esfericidade, volume e entre

outras características das sementes de soja. Em (OYAMA, 2011) é feita a classificação de grãos

de café em 21 classes que englobam defeitos, impurezas e o grão perfeito. Essa classificação é

feita a partir de atributos selecionados de morfologia, cor e textura adquiridos pela análise e

10

processamento da imagem. Já em (NORONHA, 2014), é feita uma análise de imagem de raio-

x para verificar a qualidade fisiológica da semente de Moringa. Seus resultados mostraram que

é possível a mensuração das áreas preenchidas e áreas livres no interior da semente e a

associação entre estas e a germinação. Danos internos severos, malformação e grau de

preenchimento detectados no raio-X podem ser associados a baixa germinação e redução do

comprimento de plântulas. Neste trabalho, foi feita também a validação da eficiência da

determinação do incremento de área em sementes de moringa durante a embebição, por meio

da análise de imagens digitalizadas, com fins na avaliação do vigor das sementes.

Esse trabalho propõe a utilização de técnicas de aprendizado de máquina para predizer

a germinação das sementes de soja a partir de características físicas da semente obtidas por

meio da análise digital de imagens, bem como identificar atributos físicos relevantes para a

avaliação da qualidade da semente a partir da análise de correlação desses atributos com

características fisiológicas que indicam a qualidade da semente de soja. Busca-se uma maior

agilidade e confiabilidade no processo de avaliação da qualidade de sementes de soja, a partir

de um processo de avaliação da semente não destrutivo.

1.1 JUSTIFICATIVA

Segundo Lima (1996) a qualidade das sementes de soja depende de vários fatores, como,

por exemplo, pureza física, elevado potencial genético, alta germinação e vigor, ausência de

danos mecânicos, boa sanidade e uniformidade de tamanho. Um dos desafios encontrados pelos

produtores de soja é que essas análises para avaliação da qualidade da semente são destrutivas

e demandam tempo, que é considerado longo e caro na cadeia que envolve a produção e

comercialização das sementes. O presente trabalho é proposto visando o aspecto de qualidade

e ganho de tempo na análise destas sementes.

1.2 OBJETIVOS

Nesta seção são apresentados os objetivos gerais e específicos deste trabalho

1.2.1 Objetivo geral

Como objetivo geral, o presente trabalho propõe a utilização de técnicas de aprendizado

de máquina para predizer a germinação das sementes de soja a partir de características físicas

da semente obtidas por meio da análise digital de imagens, bem como, identificar atributos

físicos relevantes para a avaliação da qualidade da semente a partir da análise de correlação

desses atributos com características fisiológicas que indicam a qualidade da semente de soja.

11

Busca-se com isso maior agilidade e confiabilidade no processo de avaliação da qualidade de

sementes de soja, além de caracterizar um processo de avaliação da semente não destrutivo.

1.2.2 Objetivos específicos

Os objetivos específicos são:

Reduzir o tempo de análise da qualidade de sementes;

Definir, a partir dos conhecimentos adquiridos juntos com os especialistas, quais

características da semente de soja são determinantes para uma semente de boa

qualidade;

Definir descritores e verificar se tais descritores são relevantes para identificar

uma semente de boa qualidade;

Verificar quais descritores influenciam na classificação da semente;

Criação de uma base de dados contendo 400 imagens e 55 descritores;

1.3 ORGANIZAÇÃO DO TRABALHO

Este trabalho está organizado da seguinte forma:

O Capítulo 2 apresenta os trabalhos relacionados com este trabalho, afim de se

obter conhecimento de técnicas já utilizadas em outros trabalhos e com isso

aumentar a possibilidade de aplicar novos métodos para a obtenção de resultados

mais eficientes.

O Capítulo 3 apresenta os conceitos de Processamento Digital de Imagens e

Aprendizado de Máquina e a metodologia aplicada neste trabalho.

O Capítulo 4 apresenta todo o processo de desenvolvimento e os experimentos

realizados.

O Capítulo 5 mostra os resultados obtidos com os métodos utilizados neste

trabalho.

Capitulo 6 apresenta as conclusões e perspectivas de trabalhos futuros.

12

2 TRABALHOS RELACIONADOS

No trabalho exposto por Guedes et al.(2011) foi proposta a análise de características

morfológicas de sementes de soja (comprimento, largura, espessura, circularidade, esfericidade,

perímetro, área projetada e volume), através de três métodos de medição: uso de paquímetro,

projeção dos grãos em papel milimetrado na parede e scanner de mesa para determinação dessas

características através de técnicas de processamento digital de imagem, sendo esse último o

método proposto no trabalho. Os testes foram realizados no Laboratório de Armazenamento e

Processamento de Produtos Agrícolas da Unidade Acadêmica de Engenharia Agrícola da

Universidade Federal de Campina Grande, Paraíba. Utilizando uma amostra de grãos com

massa aproximada de 400 gramas, foi colocado um recipiente de vidro hermético com um

espaçador e apenas água no seu interior. Neste ensaio foi utilizado o método dinâmico na

determinação do teor de água de equilíbrio dos grãos. Após esse ensaio foi feita a numeração

dos grãos para serem levados para o scanner. É realizada a varredura da imagem para

caracterização das dimensões físicas dos grãos de soja. As imagens utilizadas passaram por uma

etapa de pré-processamento na qual os grãos foram analisados na sequência predeterminada

pela numeração. Após o pré-processamento foi feita a segmentação da imagem para obter

somente os objetos de estudo. Em função dos resultados obtidos pelos três métodos de medição

para determinar as características físicas dos grãos de soja, conclui-se que pela compatibilização

entre os valores medidos pelos três métodos utilizados, medidas com paquímetro, medidas

utilizando-se a projeção da imagem dos grãos em papel milimetrado e medidas realizadas com

scanner para digitalização dos grãos de soja, e pelo resultado das análises de variância, o

método utilizando o scanner é válido para determinar as características físicas dos grãos.

Em Oyama (2014) foi realizada a análise dos atributos físicos de um lote de grãos de

café. A partir de características morfológicos dos grãos. Dentre os atributos físicos do lote,

destacam-se as dimensões, a forma, a presença de impurezas (tais como restos vegetais, pedras,

partículas de solo, frações de grãos menores que sua metade). A análise física em grãos, hoje é

feita manualmente e é um procedimento moroso e dependente da interpretação do analista, A

metodologia utilizada neste trabalho é dividida em: aquisição de imagens da amostra, aplicação

de algoritmos de processamento de imagem para detecção dos objetos e extração de suas

características, classificação por padrões de cor, definição de descritores de forma e, finalmente,

classificação por padrões de forma. Foram utilizadas amostras de grãos de diferentes peneiras

fornecidas pela Cooperativa Regional de Cafeicultores de Guaxupé Ltda. (Cooxupé),

juntamente com os grãos com defeitos e impurezas já separados e classificados por especialistas

13

da cooperativa. Foi utilizado ainda o software Qualicafé¹1 que está dividido em módulos: pré-

processamento, classificação por cor, por forma e por tipo de grão. Todos os processos de

classificação se baseiam numa rede neural do tipo Multilayer Perceptron (MLP). Foi utilizada

a API Weka, com algoritmos de aprendizado de máquina implementados em Java. Os resultados

obtidos mostraram que as atuais técnicas de processamento de imagem são capazes de extrair

da imagem de um grão informações suficientes para definir sua forma e coloração, alguns dos

atributos utilizados por especialistas humanos para classificar os grãos. Também se pode

concluir que com as classificações geradas pelas redes neurais é possível fazer o

reconhecimento de padrões de forma satisfatória.

No trabalho de Noronha (2014) é feita uma análise de imagem de raio-x para verificar

a qualidade fisiológica da semente de Moringa. Foram utilizados quatro lotes de 200 sementes

de Moringa oleifera Lam. coletadas em árvores matrizes localizadas na região de Macaíba-RN.

Para o teste de raio-X, as sementes foram dispostas no equipamento e numeradas de acordo

com a posição ocupada, para que pudessem ser identificadas posteriormente. As imagens foram

convertidas em arquivos no formato tiff, utilizando-se o programa Surgimap(Namaris,)2, sendo

posteriormente analisadas através do software ImageJ(ImageJ, 2016)3. Para que fossem

determinados os valores de cada segmento, a semente foi dividida em duas regiões: tegumento

e embrião, correspondente a área preenchida. O espaço entre a área preenchida e o limite interno

do tegumento foi considerado área vazia e área total definida pelo limite externo do tegumento,

respectivamente. A determinação da área vazia foi obtida através da subtração da área interna

preenchida da área externa limitada pelo tegumento. Após a análise de imagens pelo teste de

raio-X, realizou-se o teste de germinação. O vigor das sementes foi analisado utilizando os

seguintes testes: Primeira contagem, Índice de velocidade de germinação, Comprimento de

plântula e Massa seca de plântulas. A análise das imagens radiografadas permitiu a

determinação de estruturas internas das sementes de moringa e também de um tecido denso ao

redor do embrião, que é o tegumento. As áreas preenchidas e vazias foram visualizadas nos

quatro lotes avaliados, sendo que as áreas escuras representam ausência de tecido ou de tecido

de baixa densidade, e as áreas claras, representam os tecidos com maior densidade. Diante disso,

é possível classificar as sementes, quanto a sua formação em: Cheia e bem formada, manchada,

com danos físicos e vazia.

1 Software desenvolvido pelos programadores da Embrapa para avaliar a qualidade das sementes de café. 2 Site: https://www.surgimap.com 3 Site: https://imagej.net/Welcome

14

No trabalho Khatchatourian(2008) foi aplicado o processamento de imagens digitais

auxiliado pelas Redes Neurais Artificiais com a finalidade de identificar algumas variedades de

soja por meio da forma e do tamanho das sementes. Para o estudo realizado, foram escolhidas

no laboratório de sementes da Cooperativa Agropecuária e Industrial. Para a realização das

fotos, as sementes foram colocadas sobre uma superfície plana composta por material presente

em câmaras escuras (preto e fosco), utilizado em estúdios fotográficos. As sementes de soja

analisadas mostraram-se bastante parecidas na forma e no tamanho. Por isso, a arquitetura da

rede neural foi escolhida de maneira que essas pequenas diferenças fossem “percebidas”. A

arquitetura da rede neural utilizada para o reconhecimento dos padrões foi a rede feedforward

multicamadas. Seu aprendizado foi realizado por meio do algoritmo backpropagation. A rede

foi composta por 16.900 elementos na camada de entrada, três camadas ocultas com 90; 70 e

60 neurônios, e uma camada de saída com oito neurônios. As camadas ocultas e a camada de

saída possuíam biases. Para o treinamento, foi utilizado um conjunto de 35 sementes para cada

uma das oito variedades de soja estudadas. Como resultado do trabalho pode-se perceber que

as espécies de soja estudadas, podem ser identificadas por meio da análise das propriedades

morfológicas das sementes de soja aplicando processamento de imagens digitais em conjunto

com Redes Neurais Artificiais. Devido à semelhança das espécies das sementes de soja.

De acordo com o trabalho de Mondo (2015), a análise de imagens foi utilizada para

avaliar a qualidade de sementes de milho localizadas em diferentes posições na espiga do

mesmo. É altamente desejável nas sementes de milho a uniformidade de forma e tamanho, para

facilitar tratamentos químicos e semeadura, porém, existe grande variação na uniformidade das

sementes na própria espiga, que geralmente são classificadas quanto a sua forma como

achatadas e esféricas. Diante do exposto, seria importante estudar, de maneira mais detalhada

as relações de causa e efeito entre as sementes achatadas e esféricas, para isso decidiu-se pela

utilização de técnicas de análise de imagens, a partir de imagens de raio-X. Esta pesquisa foi

realizada nos laboratórios de Análise de Imagens e de Análise de Sementes do departamento de

produção vegetal da Escola Superior de Agricultura, Universidade de São Paulo em Piracicaba

SP. As espigas foram manualmente debulhadas. Foram realizados os testes de raio-X

utilizando: seis repetições de 30 sementes numeradas de acordo com a posição ocupada.

Paralelamente foram adquiridas imagens fotográficas externas das duas faces ventral e dorsal

das sementes. Após a aquisição das imagens, as sementes foram postas para germinar, para

testes de frio, condutividade elétrica e envelhecimento fossem realizados. Conclui-se que as

sementes das posições intermediarias e proximal da espiga apresentaram qualidade semelhante

15

ou superior às sementes da posição distal (extremidades). As alterações nos eixos embrionários,

identificados por manchas escuras e sem definição, presentes em maior quantidade na posição

distal da espiga, forãm responsáveis pela redução da qualidade das sementes.

Ribeiro (2016) propôs identificar grãos ardidos através de combinações de técnicas de

mineração de dados e processamento digital de imagens, aplicando a análise dos histogramas

das imagens. Os experimentos foram realizados nos Laboratórios de Sistemas Digitais e de

Fitopatologia Aplicada pertencentes a Universidade Estadual de Ponta Grossa (UEPG). O

Laboratório de Fitopatologia forneceu 126 amostras de grãos de milho, sendo 63 sadios e 63

ardidos. Foi utilizado um escâner para a aquisição das imagens individuais de cada grão, que

foram processadas para a extração de histogramas e geração da base de dados. Com o software

Weka, a base foi submetida a 59 métodos de classificação existentes na ferramenta. Os métodos

com os melhores resultados foram NaiveBayes e NaiveBayesUpdateables, que obtiveram uma

taxa de acerto de 93%. Entretanto quando foi observado o tempo de processamento, foi

verificado que o NaiveBayesUpdateables teve desempenho 8 vezes maior que o NaiveBayes.

Concluiu-se que os procedimentos apresentados poderiam auxiliar na escolha de um sistema

computacional para a detecção de grãos ardidos em termos de taxa de acerto e tempo de

processamento.

Em outro trabalho, Ribeiro (2015) utilizou processamento digital de imagens e

mineração de dados para extração de características de grãos de milho, com objetivo de

demonstrar o uso de métodos computacionais relacionados ao processamento digital de

imagens em conjunto com mineração de dados para detecção de grãos ardidos. Foram utilizados

no total, 2000 amostras de grãos de milhos obtidos de três cooperativas diferentes, as sementes

foram selecionadas e classificadas pelos técnicos de cada uma das cooperativas. A aquisição

das imagens foi feita com um escâner, para o posicionamento dos grãos, foi utilizada uma

matriz em EVA com 88 furos retangulares, com resolução de 75 dpi, 300 dpi e 600 dpi, a

escolha destes valores de resolução também foi avaliar o impacto desta característica da

imagem no resultado final. Para cada grão foram escaneados seus dois lados, nomeados como

frente e verso (isso foi feito devido os grãos de milho possuem um dos seus lados diferenciados

e uma das características estudadas pode se manifestar em um dos lados). Foi utilizado a

linguagem de programação Python com o framework SimpleCV para cumprir as etapas de pré-

processamento e segmentação. Depois dessas etapas foi realizado a extração de características,

com o auxílio do software EXTRATOR. Após a obtenção do banco de dados de características,

esses dados foram submetidos ao processo de mineração de dados, com o software Weka. Os

16

fatores de análise do problema dos grãos ardidos estão relacionados, de uma forma geral, à cor

e textura do grão. Neste trabalho foi verificado que a combinação desses dois fatores, mesmo

computacionalmente produz melhor resultado.

Como pode ser notado a análise de imagens tem sido uma técnica muito utilizada na

análise de sementes em geral, a fim de se obter um resultado mais rápido na avaliação das

sementes. Este trabalho utilizou como base algumas técnicas de processamento digital de

imagens estudadas em outros trabalhos em conjunto com técnicas de aprendizado de máquina

como o intuito de avaliar a qualidade da semente de soja.

17

3 REFERENCIAL TEÓRICO

Este capítulo apresenta toda a fundamentação teórica deste trabalho, que se divide no

conhecimento da soja, métodos de avaliação da qualidade de sementes, processamento digital

de imagens, aprendizado de máquina e correlação.

3.1 SOJA

A soja (Glycine max) é originaria da Ásia, mais precisamente da China, e somente no

século passado, iniciou-se o seu cultivo na América Latina. A cultura da soja é uma das culturas

mais importância na economia mundial. Sendo seus grãos usados por várias vertentes da nossa

indústria seja ela indústria química, de alimentos ou até mesmo de biocombustível. O Brasil é

o segundo maior produtor do grão, com grande valor agregado no mercado atual.

Pelas significativas contribuições à sociedade, tanto no meio rural quanto nas cidades,

é importante que a soja também contribua para a sustentabilidade econômica, ambiental e social

dos sistemas de produção de grãos. Neste contexto, manter e aperfeiçoar a produção de grãos

desta oleaginosa requer encaixe de seu cultivo como um dos componentes de espécies agrícolas

no sistema de produção de grãos, sempre evitando cultivo isolado e sem diversificação de

espécies de plantas. Embora seja cultura plástica e com adaptação para ambientes de cultivo

diversos, para alcançar desempenho agronômico desafiador de 90 a 100 sc/ha por exemplo, a

soja requer solo fértil e estruturado, com capacidade de infiltração e de armazenamento de água,

além da ausência de camada compactada, doenças radiculares e nematoides. A prática

agronômica indicada para alcançar estas características é a diversificação de cultivos, através

da rotação e sucessão de culturas no verão e inverno, a qual ainda propicia alternância na renda

da propriedade agrícola pela diversificação de produtos colhidos (Embrapa, 2016).

3.2 AVALIAÇÃO DA QUALIDADE DE SEMENTES

Uma semente para ser considerada de boa qualidade deve ter características, tais como

altas taxas de vigor, de germinação, de sanidade, bem como garantia de pureza física e varietal.

Esses fatores respondem pelo desempenho da semente em campo.

A avaliação de qualidade das sementes é feita por testes de germinação e de vigor que

ajudam na identificação de lotes com melhor desempenho. Os principais testes aplicados nesse

contexto são definidos pelas Regras de Análise de Sementes (Brasil, 2009) e pelo manual de

vigor da ABRATES.

18

Alguns dos métodos de avaliação de sementes que ainda são muito usados atualmente

são a projeção de grãos em papel milimetrado e o uso de parquímetro, mas uma das formas de

avaliação que vem crescendo muito atualmente pelo ganho de tempo e eficiência é através da

análise de imagens por computador, que satisfazem a exigência crescente do mercado de

produção e qualidade. A análise de imagens de sementes por computador utiliza técnicas de

processamento digital de imagens (PDI) que facilitam e agilizam tais avaliações. Este método

tem-se mostrado tão eficiente quanto os métodos de avaliação tradicionais.

Existem outros métodos de avaliação de qualidade de sementes que podem ser citados,

entre eles estão: envelhecimento precoce, teste de tetrazólio, teste de frio, teste de condutividade

elétrica e peso da matéria seca e comprimento de plântula.

No teste de envelhecimento precoce as sementes são expostas a condições adversas de

alta temperatura (40º à 45º) e umidade relativa (próxima de 100º) por diferentes períodos

dependendo da espécie. O principal fundamento deste teste baseia-se no fato de que, sementes

de alto vigor produzem plântulas normais nos testes de germinação, após estressadas em

condições de altas temperaturas e umidade relativa. (Seednews, 2017)

O teste de tetrazólio é uma alternativa promissora devido a rapidez e eficiência na

determinação da viabilidade e do vigor, da deterioração por umidade e danos mecânicos, de

secagem e por percevejo. Desta forma, o teste permite um diagnóstico detalhado das causas

principais de perda da qualidade da semente de soja. O teste se baseia na atividade das enzimas

desidrogenasses, como a desidrogenasse do ácido málico, que catalisam reação de redução do

sal de tetrazólio nas células vivas. Quando a semente de soja é imersa na solução de tetrazólio,

esta é difundida através dos tecidos, ocorrendo nas células vivas a reação de redução que resulta

na formação de um composto vermelho, não-difusível, conhecido por formazan. (Seednews,

2017)

Outro teste é o teste de frio, um dos testes de vigor mais amplamente utilizados em

diversas regiões de clima temperado onde a época da semeadura pode coincidir com períodos

chuvosos e de baixa temperatura. A semeadura em solos frios e úmidos apresenta sérios riscos

de baixa germinação e emergência, o que resultará no não estabelecimento de uma população

adequada de plantas. O teste de frio toma como base os efeitos negativos de baixa temperatura

e do alto teor de umidade do solo sobre emergência de plântulas. A estas condições, está

também associada a ação deletéria da flora microbiana do solo, que atua como fonte adicional

de estresse no teste. As condições de umidade e temperatura adotadas no teste de frio tentam

19

simular as condições adversas de solo as quais poderão ser expostas as sementes após a

semeadura. Desta forma os resultados do referido teste representam os valores mínimos de

germinação que poderão ser obtidos quando o lote de sementes for semeado em condições

precárias de solo frio e úmido. (Seednews, 2017)

O teste de condutividade elétrica detecta que sementes de baixo vigor apresentam menor

integridade de membranas como resultado dos processos de deterioração no armazenamento e

danos mecânicos. Durante o processo de imbebição, essas sementes, com membranas

danificadas, lixavam solutos citoplasmáticos (eletrólitos) no meio liquido. Os solutos com

propriedades eletrolíticas possuem cargas elétricas que podem ser medidas com um

condutívimetro. O processo é simples, rápido, preciso e barato. Todavia, alguns cuidados

devem ser tomados, tanto o teor inicial de umidade da semente quanto o tratamento com

produtos químicos, pois afetar os resultados. (Seednews, 2017)

Os procedimentos do teste de transferência de matéria seca como método de avaliação

de vigor, foram desenvolvidos, com o objetivo de avaliar as diferenças em taxas de crescimento

de forma acurada e reproduzível. O desenvolvimento da plântula tem sido utilizado como um

indicativo de vigor correlacionado com a atividade metabólica da semente em processe de

germinação. Em lotes de semente de soja, o peso da matéria seca do eixo embrionário a partir

de 72 horas da germinação, apresentou-se como uma medida sensível na detecção de diferenças

de vigor. O comprimento de plântula é uma anotação que pode ser efetuada em conjunto com

o teste de matéria seca, e se revelou, no caso da soja, um parâmetro igualmente sensível para

expressar o vigor de lotes de sementes com vantagens adicionais de facilidade na execução e

simplicidade do equipamento. (Seednews, 2017)

3.3 PROCESSAMENTO DIGITAL DE IMAGENS

Segundo Gonzalez & Woods (2009),

“A área de processamento digital de imagens envolve

processos cujas entradas e saídas são imagens e, além

disso, envolve processos de extração de atributos de

imagens até – e inclusive – o reconhecimento de objetos

individuais. ”

20

Neste trabalho, um dos pontos mais importantes é o Processamento Digital de Imagens

(PDI), com ele obteve-se dados a partir das imagens da semente de soja. As principais etapas

do PDI estão definidos na figura abaixo:

Figura 1 - Etapas do Processamento Digital de Imagens. Fonte: Gonzalez & Woods (2000)

3.3.1 BASE DE CONHECIMENTO

A base de conhecimento é conjunto de informação e recomendações específicas do

domínio do problema e geralmente feita em conjunto com o especialista da área afim. Neste

trabalho as informações da base de conhecimento são informações que serão importantes para

a classificação das sementes de soja.

3.3.2 AQUISIÇÃO DE IMAGENS

A etapa de aquisição de imagens é a etapa onde são adquiridas as imagens do problema

que está sendo estudado, obtidas geralmente em ambiente controlado onde as imagens são

capturas com maior qualidade, para que o estudo seja feito com mais eficiência.

3.3.3 PRÉ-PROCESSAMENTO

A etapa de Pré-processamento tem como objetivo realçar e destacar as regiões de

interesse da imagem estudada, para que nos próximos passos seja mais fácil a separação da

região de interesse. Nesta etapa tem-se técnicas para o melhoramento da imagem, como por

exemplo para a retirada de ruídos da imagem.

21

3.3.4 SEGMENTAÇÃO

O processo de segmentação consiste em separar as regiões de interesse em novas

imagens que serão as analisadas nas próximas etapas. Na segmentação sapara-se o fundo da

imagem dos objetos estudados.

3.3.5 REPRESENTAÇÃO E DESCRIÇÃO

Nesta etapa cada região de interesse passa por descritores que procuram na imagem

determinadas características. O conjunto de resultados dos descritores é utilizado para uma

classificação mais precisa. Os descritores podem ser por exemplo: forma, cor e textura.

3.3.6 RECONHECIMENTO E INTERPRETAÇÃO

No reconhecimento e interpretação recebe-se o conjunto de dados obtidos a partir dos

descritores e classifica-os em classes dependendo dos resultados desse objeto ao passar pelos

descritores e das informações contidas na base de conhecimento.

3.4 APRENDIZADO DE MÁQUINA

Segundo Tom M. Mitchel (1997)

“ A capacidade de melhorar o desempenho na realização

De alguma tarefa por meio da experiência”

Aprendizado de máquina (AM) é uma área da Inteligência Artificial (IA) cujo o objetivo

é o desenvolvimento de técnicas computacionais sobre aprendizado bem como a construção de

sistemas capazes de adquirir conhecimento de forma automática. Um sistema de aprendizado é

um programa de computador que toma decisões baseado em experiências acumuladas por meio

de soluções bem-sucedidas de problemas anteriores.( Facelli, 2011).

O processo de aquisição de conhecimento na maioria dos casos envolve entrevistas com

os especialistas, que são profissionais de outras áreas a qual o problema pertence. Entrevistas

essas para descobrir quais regras eles utilizam quando vão tomar uma decisão. Ainda assim esse

processo possui algumas limitações como subjetividade. Com a crescente complexidade dos

problemas e o volume de dados gerados por diferentes setores, viu-se a necessidade de criação

de ferramentas computacionais mais sofisticadas e que fossem autônomas, para isso, essas

técnicas deveriam ser criadas a partir de si mesmas, desde experiências passada, uma hipótese,

ou função, capaz de resolver o problema.

22

Em AM, os computadores são programados para aprender através de experiências

passadas, para isso utilizam-se de um princípio chamado de indução, no qual se obtêm

conclusões genéricas a partir de um conjunto particular de exemplos. Assim, algoritmos de AM

aprendem a induzir uma função ou hipótese capaz de resolver um problema a partir de dados

que representam instâncias do problema a ser resolvido.

O interesse por AM vem crescendo pelos mesmo motivos que a mineração de dados e a

análise Bayesiana. Dentre esses motivos podemos citar o crescimento de volume e variedade

de dispositivos, o processamento computacional, que está mais barato e mais poderoso, e o

armazenamento de dados torna acessível o uso de tais técnicas. Isso significa que é possível

produzir de forma rápida e automática modelos que permitam analisar dados maiores e mais

complexos e fornecer resultados mais rápidos e precisos. O resultado disto são previsões de

alto valor que podem levar a melhores decisões e ações inteligentes em tempo real e sem a

intervenção humana.

O aprendizado de máquina pode ser supervisionado ou não supervisionado. No

aprendizado supervisionado o computador recebe como entrada exemplos de saídas desejadas,

fornecidas geralmente por um especialista, a partir dessas saídas o computador tenta mapear as

entradas para as saídas. O aprendizado não supervisionado o computador recebe saídas sem

classificação do especialista diferente do aprendizado supervisionado, assim classificando os

dados de forma autônoma.

3.4.1 ALGORITMO KNN

O algoritmo K do vizinho mais próximo (do inglês: K nearest neighboors - KNN) foi

proposto por Fukunaga e Narendra (1975). O KNN é uma extensão do algoritmo 1-NN, em vez

de 1 vizinho mais próximo, os K objetos do conjunto de treinamento mais próximos do ponto

de teste, onde o K é o parâmetro de entrada do algoritmo. Quando o valor de K é maior que 1,

para cada ponto de teste são obtidos novos K vizinhos, sendo cada vizinho vota em uma classe,

as previsões dos diferentes vizinhos são agregadas de forma a classificar o ponto de teste.

A Figura 2 mostra um exemplo do KNN, onde tem-se um problema de classificação

com 2 rótulos de classe com K =7. Neste exemplo, são aferidas distâncias para a nossa nova

amostra, representada pela estrela e às demais são amostras de treinamento, representadas por

bolas azuis e amarelas. A variável K representa a quantidade de vizinhos próximos a nossa

amostra e serão utilizadas para averiguar a qual classe pertence essa amostra. Com isso, das 7

23

amostras de treinamento mais próximas 4 são do rótulo A e 3 do rotulo B. Portanto, como

existem mais vizinhos do rotulo A, a nossa amostra receberá o mesmo rotulo, ou seja A.

Figura 2 - Exemplo de classificação do KNN. Fonte: Computação Inteligente (2017).

A escolha do valor de K mais apropriado para um problema de decisão especifico não

pode ser tomada de forma trivial. Em problemas de classificação não é usual utilizar K = 2 ou

quaisquer valores pares, afim de evitar empates. Frequentemente, o valor escolhido para o K é

pequeno ou ímpar: K=3,5, ... e assim sucessivamente.

O algoritmo KNN representa um dos paradigmas mais conhecidos do aprendizado

indutivo: Objetos com características semelhantes pertencem ao mesmo grupo. O KNN é um

algoritmo baseado em memória, já que o processo de aprendizagem consiste apenas em

memorizar os objetos. Os aspectos positivos do KNN são: Algoritmo de treinamento simples;

aplicável mesmo em problemas complexos; O KNN constrói aproximações locais da função

objeto, diferentes para cada novo dado a ser classificado. (Computação inteligente, 2017).

O algoritmo KNN também possui aspectos negativos. O algoritmo dos vizinhos mais

próximos não obtém uma representação compacta dos objetos. A fase de treinamento requer

pouco esforço computacional, no entanto, classificar um objeto de teste requer calcular a

distância desse objeto a todas os objetos de treinamento. Assim, a predição pode ser custosa, e

para um conjunto grande de objetos de treinamento esse processo pode ser demorado. Como

todo algoritmo baseado em distância, ele é afetado pela presença de atributos redundantes e de

atributos irrelevantes. Outro problema do KNN está relacionado a dimensionalidade dos

24

exemplos. O espaço definido pelos atributos de um problema cresce exponencialmente com o

número de atributos, ou seja, o número de atributos define o número de dimensões do espaço.

3.4.2 ALGORITMO NAIVE BAYES

O algoritmo Naive Bayes desenvolvido pela Microsoft é um algoritmo de classificação

baseado no teorema de Bayes e pode ser usado em modelagem de previsão exploratória. O

termo Naive vem da hipótese de que os valores dos atributos de exemplos são independentes

de sua classe, já o Bayes foi atribuído pelo fato do algoritmo utilizar técnicas Bayesianas.

(Microsoft,2017)

O algoritmo tem uma abordagem probabilística. Todas as probabilidades necessárias

para a obtenção do classificador naive bayes são obtidas a partir de dados de treinamento. Para

calcular a probabilidade condicional de observar um valor de um atributo dado que o exemplo

pertence a uma classe, é necessário distinguir entre atributos nominais e atributos contínuos.

No caso de atributos nominais, o conjunto de possíveis valores é um conjunto

enumerável. Para calcular a probabilidade condicional, basta manter um contador para cada

valor de atributo por classe. No caso de atributos contínuos, quando o número de possíveis

valores infinitos, há duas possibilidades. A primeira é assumir uma distribuição particular para

os valores do atributo, e geralmente é assumida a distribuição normal. A segunda alternativa é

discretizar o atributo em uma fase de pré-processamento. Já foi mostrado que a primeira

possibilidade produz piores resultados que a última (Dougherty et al., 1995; Domingos e

Pazzani, 1997).

A superfície de decisão do naive bayes em um problema com duas classes definidas

com atributos booleanos é um hiperplano, ou seja, a superfície de decisão é linear. Todas as

possibilidades podem ser calculadas a partir do conjunto de treinamento em uma única

passagem. O processo de construir o modelo é bastante eficiente. Outro aspecto interessante do

algoritmo é que ele é fácil de implementar de uma forma incremental.

Os pontos positivos do naive bayes são: O desempenho do naive bayes não decresce na

presença de atributos irrelevantes; Facilidade e rapidez para prever o conjunto de dados da

classe de testes; quando a suposição de independência prevalece, um classificador naive bayes

tem melhor desempenho em comparação aos outros. Um dos pontos negativos do naive bayes

é se a variável categórica tem uma categoria que não foi observada no conjunto de dados de

treinamento, então o modelo irá atribuir uma probabilidade de 0 e não será capaz de fazer uma

previsão. Isso é muitas vezes conhecido como Zero Frequency.

25

3.4.3 ALGORITMO MLP

Na busca pela construção de máquinas inteligentes, ou com comportamento inteligente,

um modelo que ocorre naturalmente é o do cérebro humano. Em nosso cotidiano, realizamos

diversas tarefas que requerem atenção a diferentes eventos ao mesmo tempo. A realização de

tarefas variadas, e em alguns casos até simultaneamente é possível graças a nossa complexa

estrutura biológica, e o grande responsável por esse processamento citado é o cérebro humano.

A partir dessas motivações, o desenvolvimento das Redes Neurais Artificiais (RNAs)

tomou como inspiração a estrutura e o funcionamento do sistema nervoso, com o objetivo de

simular a capacidade de aprendizado do cérebro humano na aquisição de conhecimento. Em

1943 McCulloch e Pitts propuseram um modelo matemático de neurônio artificial em que os

neurônios executavam funções lógicas simples e cada um podia executar uma função diferente.

McCulloch e Pitts mostraram que a combinação de vários neurônios artificiais em sistemas

neurais produz elevado poder computacional, uma vez que qualquer função pudesse ser

representada por uma combinação de funções lógicas poderia ser modelada por uma rede

formada por esses neurônios. Essas redes iniciais não possuíam a capacidade de aprendizado.

(Faceli, 2011).

A primeira RNA a ser implementada foi a rede perceptron, desenvolvida por Rosenblatt

(1958). Essa rede foi desenvolvida utilizando o modelo de McCulloch-Pitts como neurônio

introduziu o processo de treinamento de RNAs. Embora essa rede seja simples, apresentando

apenas uma camada de neurônios, ela apresentou boa acurácia preditiva em diversos problemas

de classificação. Na figura 3 temos um exemplo de uma rede perceptron, na primeira camada

são as entradas na camada intermediaria está o neurônio e na última cama a saída.

Figura 3 - Rede perceptron. Fonte - Pet engenharia civil UFRJ (2013)

26

Para resolver problemas não linearmente separáveis utilizando RNAs, a alternativa mais

utilizada é adicionar uma ou mais camadas intermediarias. Segundo Cybenko (1989), uma rede

com uma camada intermediaria pode implementar qualquer função continua. A utilização de

duas camadas intermediarias permite a aproximação de qualquer função. As redes perceptron

multicamadas (MLP, do inglês multlayer perceptron) apresentam uma ou mais camadas

intermediarias de neurônios e uma camada de saída. A arquitetura mais comum para uma rede

MLP é completamente conectada, de forma que os neurônios de uma camada l estão também

conectados aos neurônios da camada l + 1.

Redes multicamadas utilizam nas camadas intermediarias funções de ativação não

lineares, como a função sigmoidal. Pode ser facilmente mostrado utilizando conceitos de

operações com matrizes, que uma rede multicamadas com funções de ativação lineares nos

neurônios das camadas intermediarias é equivalente a uma rede de uma só camada. Em MLP

cada neurônio realiza uma função especifica. A função implementada por um neurônio de uma

dada camada é uma combinação das funções realizadas pelos neurônios da camada anterior que

estão conectados a ele. À medida que o processamento avança de uma camada intermediaria

para a camada seguinte, o processamento realizado se torna mais complexo.

Na primeira camada, cada neurônio aprende uma função que define um hiperplano, o

qual divide o espaço de entrada em duas partes. Cada neurônio da camada seguinte combina

um grupo de hiperplano definidos pelos neurônios da camada anterior, formando regiões

convexas. Os neurônios da camada seguinte combinam um subconjunto das regiões convexas

em regiões de formato arbitrário. E a combinação de cada neurônio de uma rede que define a

função associada à RNA como um todo.

Figura 4 - arquitetura de uma Rede Neural MLP. Fonte: Adaptado de Fernandes (2005)

27

3.5 CORRELAÇÃO DE PEARSON

O coeficiente de correlação de Pearson (r) também chamado de coeficiente de correlação

“produto-momento” mede o grau da correlação entre duas variáveis quantitativas. Dois

conceitos são chaves para entendê-la: “associação” e “linearidade”. Afinal, o que significa dizer

que duas variáveis estão associadas? Em termos estatísticos, duas variáveis se associam quando

elas guardam semelhanças na distribuição dos seus escores. Mais precisamente, elas podem se

associar a partir da distribuição das frequências ou pelo compartilhamento de variância. No

caso da correlação de Pearson (r) vale esse último parâmetro, ou seja, ele é uma medida da

variância compartilhada entre duas variáveis. Por outro lado, o modelo linear supõe que o

aumento ou decremento de uma unidade na variável X gera o mesmo impacto em Y4. Em

termos gráficos, por relação linear entende-se que a melhor forma de ilustrar o padrão de

relacionamento entre duas variáveis é através de uma linha reta. Portanto, a correlação de

Pearson (r) exige um compartilhamento de variância e que essa variação seja distribuída

linearmente

O coeficiente de correlação de Pearson varia de -1 a 1. O sinal indica direção positiva

ou negativa do relacionamento e o valor sugere a força da relação entre as variáveis. Uma

correlação perfeita (-1 ou 1) indica que o escore de uma variável pode ser determinado

exatamente ao se saber o escore da outra. No outro oposto, uma correlação de valor zero indica

que não há relação linear entre as variáveis. Filho (2009).

Figura 5 - Fórmula da correlação de Pearson

28

4 METODOLOGIA E DESENVOLVIMENTO

Este capítulo apresenta todos os passos do desenvolvimento deste trabalho.

4.1 METODOLOGIA

Para o desenvolvimento deste projeto foram utilizados 4 lotes de sementes de soja

adquiridos na região de Macaíba/RN. A partir desses lotes foi feita a aquisição de 400 imagens

de sementes de soja no laboratório de sementes da Escola Agrícola de Jundiaí (EAJ), logo em

seguida as sementes foram colocadas para germinar, após 7 dias foram feitas as medições de

parte aérea, parte radicular e total da raiz, além da obtenção das massas secas e verdes

individualmente. Os algoritmos de processamento digital de imagens foram desenvolvidos para

construir a base de dados a ser classificada, capturando atributos relativos às características

físicas das sementes. Uma característica incluída na base de dados foi a informação de estado

da semente, onde 0 informa que a semente não germinou e 1 indica que a semente germinou.

Após a construção da base de dados, algoritmos de aprendizado de máquina foram utilizados

para realizar a predição do teste de germinação. Os resultados foram comparados com teste

convencionais e testes estatísticos forão aplicados.

4.2 AQUISIÇÃO DE IMAGENS

A Aquisição de imagens foi feita com sementes sendo dispostas em um fundo azul feito

com EVA como mostra a Figura 6. Utilizando uma câmera digital e scanner. Comparando os

resultados obtidos pela câmera digital e pelo scanner, as imagens obtidas pela câmera digital se

mostraram com melhor qualidade para este trabalho.

A escolha da cor azul como fundo da imagem se deu pelo fato de que a cor azul não é

uma cor comumente encontrada na natureza, e não interfere no objeto de estudo deste trabalho

que são as sementes. O EVA foi escolhido pois sua superfície opaca impede a refração da luz.

As sementes utilizadas neste trabalho são de propriedade do Laboratório de Sementes

da Escola Agrícola de Jundiaí, onde também foram feitas as aquisições utilizadas nesse

trabalho. Foram feitas 4 aquisições totalizando 400 amostras de sementes de soja. A aquisição

foi feita no primeiro semestre de 2017 com uma câmera digital com resolução 4320 x 2432

pixels/ polegadas em formato JPEG. A figura 7 mostra as sementes germinadas onde são

coletadas as informações de comprimento de plântula e massa seca e verde.

29

Figura 6 - Aquisição de imagens em EVA azul

Figura 7 - Medição de plântulas.

4.3 PRÉ-PROCESSAMENTO

A etapa de pré-processamento deste trabalho consistiu em transformar a imagem em

escalas de cinza a partir da subtração das camadas Red (vermelho) e Blue (azul). A segunda

30

etapa do pré-processamento foi a utilização da técnica da extração do histograma, o histograma

também conhecido como distribuição de frequências, é a representação gráficas em colunas ou

em barras de um conjunto de dados previamente e dividido em classes uniformes ou não. O

histograma mostra a frequência com que algo acontece.

Após a transformação em escalas de cinza obtido como foi descrito acima, procuramos

o maior pico da imagem e torna-se o índice 1, em seguida encontra-se o segundo maior pico,

que se torna o índice 2. E entre os esses dois índices procura-se agora o vale do histograma

entre esses dois picos e esse valor é o ponto de corte onde é separado o que é fundo e o que é

objeto de estudo. O Valor que é obtido no pré-processamento segue para a próxima fase que é

a segmentação.

4.4 SEGMENTAÇÃO

No estágio da segmentação separamos o que é fundo do que é o objeto de estudo, dessa

forma retirando o identificador do lote e todo azul do fundo, e teremos apenas a semente. O

método que foi utilizado para a separação do fundo para o objeto de estudo foi a limiarização.

A limiarização se baseia na diferença dos níveis de cinza que compõe diferentes objetos na

imagem. A partir do limiar estabelecido pelas características dos objetos (fundo, objetos) a

imagem é segmentada em dois grupos: o grupo de pixels com níveis de cinza abaixo do limiar

(fundo) e o grupo dos objetos acima do limiar (sementes). Em seguida o resultado do limiar é

transformado em uma imagem binária sendo o fundo preto e as sementes brancas.

O próximo passo da segmentação é o corte da semente do fundo, recebemos uma

imagem preta e branca que é chamada máscara, percorremos essa imagem com um laço de

repetição e onde é encontrado um objeto ele é cortado da imagem original e colocado em uma

pasta, pasta essa que vai conter somente as sementes.

4.5 REPRESENTAÇÃO E DESCRIÇÃO

No processamento digital de imagens é possível a extração de características de um

objeto ou área de interesse, essas características são chamadas de descritores. Que podem ser

classificadas como sendo do domínio geral ou do domínio especifico. O domínio geral inclui

características como cor, textura e forma. O domínio especifico é melhor apresentado na

literatura quando se trata de um padrão a ser reconhecido e envolve o conhecimento de

características muito particulares do problema em questão. Alguns exemplos são classificação

de impressão digital, placas de veículos entre outras aplicações. Os descritores utilizados neste

31

trabalho foram separados em cinco classes, sendo elas: forma, textura, cor, matemáticos e de

semente germinada.

Os descritores de forma retornam valores correspondentes a características físicas das

sementes de soja e também podem ser aplicados a outras espécies de sementes. Os descritores

de forma presentes neste trabalho são: alongamento, área, circularidade, diâmetro,

excentricidade, forma, perímetro, raio, centroide eixo X e Y, diâmetro equivalente, extensão,

comprimento de eixo menor, comprimento de eixo maior, solidez, comprimento, área convexa,

área preenchida, volume, manchas, quantidade de manchas, esfericidade, bordas, redondeza,

largura. Os descritores de textura são caracterizados pela extração de informações distribuídas

na superfície da semente, os descritores de textura: brilho, energia, entropia, homogeneidade,

correlação, contraste, intensidade mínima, intensidade máxima, intensidade média. Os

descritores de cor extraem características de cor da semente, os descritores de cor são: cor

vermelha, cor verde e cor azul (que compõe o modelo de cores RGB), média das cores

(vermelha, verde e azul) e cor dominante. Descritores matemáticos são: convexidade, desvio

padrão, média dos elementos da matriz, número de euler, orientação, diâmetro máximo de feret,

diâmetro mínimo de feret, diâmetro médio de feret e relação de feret.

Os descritores de semente germinada são as características extraídas após 7 dias de

germinação. Foram coletadas medidas de todas as sementes por um especialista que

acompanhou o processo de obtenção desses valores que são: comprimento de raiz aérea,

comprimento de raiz radicular, comprimento de raiz total, massa seca e massa verde. No total

são 50 descritores de sementes de soja e 5 descritores de semente germinada.

Descritores Morfológicos

As características morfológicas, são os atributos físicos de um objeto. Foram utilizados os

seguintes descritores morfológico.

Alongamento: O descritor retorna o quão alongada a semente é. O algoritmo utilizando

a fórmula da função do alongamento: ɛ =𝐿 𝑓−𝐿𝑜

𝐿𝑜 sendo LF o comprimento final e Lo o

comprimento inicial.

Área: O descritor retorna à quantidade de espaço bidimensional, ou seja, superfície. O

algoritmo foi desenvolvido com o auxílio da função Area que pertence ao grupo de

funções regionprops do MATLAB.

Área Convexa: O descritor retorna o quão convexo é a área do objeto, em outras

palavras a curvatura exterior de uma superfície. O algoritmo foi desenvolvido com o

32

auxílio da função ConvexArea que pertence ao grupo de funções do regionprops do

MATLAB.

Área preenchida: O descritor retorna o valor real da área visto que algumas sementes

possuem danos como manchas que não são contabilizadas pelo algoritmo de área. O

algoritmo foi desenvolvido com auxílio da função FilledArea que pertence ao grupo de

funções do regionprops do MATLAB

Bordas: O algoritmo retorna o valor inteiro que representa a borda da imagem. O

algoritmo feito com o auxílio da função edge do MATLAB que retorna apenas a borda

da imagem, em seguida utilizamos um contador para contar a borda da imagem

resultando assim o valor da borda.

Brilho: O descritor retorna o quanto de luz reflete da superfície do objeto. O algoritmo

foi desenvolvido sem o auxílio de funções prontas. O algoritmo foi feito seguindo os

seguintes passos, a função brilho recebe uma imagem original contendo apenas o objeto

de estudo, logo em seguida transformamos ela em preto e branco, onde o objeto tem a

coloração branca e chamamos de IM1, nessa imagem onde existe brilho no original está

preto, o próximo passo foi criar uma IM2 que é a imagem original transformada em

preto e branco da mesma forma que a IM1, porém desta vez o brilho da imagem original

que na IM1 está preto nessa será preenchido, assim temos a IM1 onde o preto dentro do

objeto de estudo é o brilho e a IM2 o objeto de estudo está todo preenchido, o passo

seguinte foi subtrair a IM1 pela IM2 o resultado desta subtração é o valor do brilho.

Centroide eixo X: O descritor retorna o eixo X do centro de massa do objeto. O

algoritmo foi desenvolvido com o auxílio da função Centroid pertencente ao grupo de

funções do regionpros do MATLAB.

Centroide eixo Y: O descritor retorna o eixo Y do centro de massa do objeto. O

algoritmo foi desenvolvido com o auxílio da função Centroid pertencente ao grupo de


Centroide ponderado eixo X: O descritor retorna a coordenada ponderado do centro

da região de estudo retornando assim a coordenada X. O algoritmo foi feito com o

auxílio da função WeightedCentroid que pertence ao grupo de funções do regionproprs

do MATLAB.

Centroide ponderado eixo Y: O descritor retorna a coordenada ponderado do centro

da região de estudo retornando assim a coordenada Y. O algoritmo foi feito com o

33

auxílio da função WeightedCentroid que pertence ao grupo de funções do regionproprs

do MATLAB.

Circularidade: O descritor retorna à circularidade do objeto de estudo. O algoritmo foi

desenvolvido a partir da formula descrita na figura 8. Onde A é a área e AC parte do

conhecer previamente o valor do perímetro.

Figura 8 - Fórmula da circularidade. Fonte - Um exercício acadêmico de gestão de recursos

hídricos (2010)

Comprimento de eixo maior: O descritor retorna o maior eixo do objeto de estudo. O

algoritmo foi desenvolvido com o auxílio da função MajosAxisLength que pertence ao

grupo de funções do regionprops do MATLAB.

Comprimento de eixo menor: O descritor retorna o menor eixo do objeto de estudo. O

algoritmo foi desenvolvido com o auxílio da função MinorAxisLength que pertence ao

grupo de funções do regionprops do MATLAB.

Convexidade: O descritor calcula o casco convexo do objeto de estudo, que pode ser

exemplificado como uma tira elástica que envolve o objeto de estudo, que quando solta

assume a forma requerida da envoltória convexa retornando assim o valor do casco

convexo. O algoritmo foi desenvolvido utilizando a função BWConvhull onde

aplicamos essa função na IM1 e logo em seguida comparamos com a imagem IM2 e o

resultado dessa subtração é o valor da convexidade.

Comprimento: O descritor retorna o comprimento do objeto de estudo. O algoritmo foi

desenvolvido utilizando o auxílio da função length do MATLAB.

Diâmetro: O descritor retorna o diâmetro do objeto de estudo. O algoritmo foi

desenvolvido utilizando a função diameters do MATLAB

Diâmetro Equivalente: O descritor retorna o diâmetro equivalente do objeto de estudo.

O algoritmo foi desenvolvido com o auxílio da função EquivDiameter que pertence ao

grupo de funções regionprops do MATLAB

Diâmetro Mínimo de Feret: O descritor retorna o valor do diâmetro mínimo de feret.

O algoritmo foi desenvolvido calculando o diâmetro do eixo X do objeto de estudo.

Diâmetro Máximo de feret: O descritor retorna o valor do diâmetro máximo de feret.

O algoritmo foi desenvolvido calculando o diâmetro do eixo Y do objeto de estudo.

34

Diâmetro Médio de Feret: O descritor retorna o valor médio do diâmetro de feret. O

algoritmo foi desenvolvido utilizando a fórmula 𝐷𝑚é𝑑𝑖𝑜=

𝐷𝑥+𝐷𝑦

2

onde Dx é o

diâmetro mínimo de feret e Dy é o diâmetro máximo de feret.

Figura 9 - Fórmula do diâmetro de Feret. Fonte CTB (2016).

Excentricidade: O descritor retorna à excentricidade da elipse. A excentricidade é a

proporção entre os focos da elipse e seu maior comprimento de eixo. O algoritmo foi

desenvolvido utilizando a função Eccentricity que pertence ao grupo de funções

regionprops do MATLAB.

Forma: O descritor retorna o valor referente a quantidade de curvaturas que o objeto

possui, a partir disto podemos identificar a forma do mesmo. O algoritmo desenvolvido

utilizando a função Corner do MATLAB.

Largura: O descritor retorna o valor da largura do objeto de estudo. O algoritmo utiliza

a função width do MATLAB.

Manchas: O descritor verifica se a semente possui alguma mancha, retornando assim o

valor 0 para a semente que não possui manchas e 1 para as sementes que possuem. O

algoritmo foi desenvolvido recebendo uma imagem em preto e branco onde o objeto de

estudo é branco e o fundo é preto, se houver alguma mancha no objeto de estudo será

uma área preta dentro do objeto, então se existir ao menos 1, essa semente possui

manchas.

Quantidade de manchas: O descritor retorna à quantidade de manchas que o objeto de

estudo possui. O algoritmo foi desenvolvido recebendo uma imagem preto e branco

35

onde o objeto de estudo é branco e o fundo é preto. O algoritmo vai contar cada área

preta que existe dentro da superfície estudada, retornando assim a quantidade de

manchas da semente.

Orientação: O descritor retorna o valor da orientação angular do objeto de estudo. O

descritor foi desenvolvido com o auxílio da função Orientation que pertence ao grupo

de funções regionprops do MATLAB.

Perímetro: O descritor retorna o valor do perímetro. O algoritmo foi desenvolvido com

auxílio da função bwperim do MATLAB.

Raio: O descritor retorna o raio do objeto de estudo. O algoritmo foi desenvolvido

utilizando o descritor de diâmetro e dividindo por 2 como na formula 𝑅 = 𝐷

2 .

Esfericidade: O descritor retorna à esfericidade do objeto de estudo. O algoritmo

foi desenvolvido com o auxílio da formula da figura 10.

Figura 10 - Cálculo da esfericidade. Fonte Centro de informática EEL sistemas – USP

(2016).

Volume: O descritor retorna o valor do volume do objeto de estudo. O algoritmo foi

desenvolvido utilizando a formula do volume de um círculo que pode ser vista na figura

abaixo.

Figura 11 - Cálculo do volume em superfícies circulares. Fonte: calcularvolume.com (2017).

Redondeza: O descritor retorna o valor da redondeza do objeto de estudo. O algoritmo

foi desenvolvido com o auxílio do cálculo da redondeza 𝑅 = 4∗𝜋∗𝐴𝑟𝑒𝑎

𝑃𝑒𝑟𝑖𝑚𝑒𝑡𝑒𝑟2 .

36

Descritores de Cor

Os modelos de cores padronizam a especificação de cores em uma forma

amplamente aceita. Dentre os modelos de cores mais utilizados está o modelo RGB (R

– red ou vermelho, G – green ou verde, B – blue ou azul). No modelo de cores RGB

cada cor aparece em seus componentes espectrais primários de vermelho, verde e azul,

distribuídas em um sistema de coordenadas cartesianas cujo subespaço de interesse é o

cubo, como mostra a figura 12. Nele, os valores RGB primários estão em três vértices,

as cores secundárias, ciano, magenta e amarelo, em outros três vértices o preto está na

origem e o branco no vértice mais distante deste. A diagonal entre o preto e o branco é

a escala de cinza. (Vale, 2014).

Figura 12 - Representações do Modelo RGB Fonte - Gonzalez & Woods (2009).

Média de cor azul: O descritor retorna a média de tons azuis no objeto de estudo. O

algoritmo foi desenvolvido extraindo a camada B do modelo de cores RGB da imagem

original do objeto de estudo e retirando a média dos pixels azuis que compõe o objeto

de estudo.

Média de cor verde: O descritor retorna a média de tons verdes no objeto de estudo. O

algoritmo foi desenvolvido extraindo a camada G do modelo de cores RGB da imagem

original do objeto de estudo e retirando a média dos pixels verdes que compõe o objeto

de estudo.

Média de cor vermelha: O descritor retorna a média de tons vermelhas no objeto de

estudo. O algoritmo foi desenvolvido extraindo a camada R do modelo de cores RGB

37

da imagem original do objeto de estudo e retirando a média dos pixels vermelhos que

compõe o objeto de estudo.

Cor média RGB: O descritor retorna a média das cores RGB no objeto de estudo. O

algoritmo funciona da seguinte maneira, São extraídas individualmente todos os canais

da imagem (canal R, canal G, canal B) e logo em seguida é feita uma média dos três

canais resultando assim o resultado desta função.

Cor dominante: O descritor retorna a cor dominante do objeto de estudo no modelo de

cores RGB. O algoritmo foi desenvolvido extraindo o máximo das cores e comparando

entre elas para sabermos qual é a mais dominante.

Descritores de Textura

De modo geral, uma textura é caracterizada pelas informações sobre a distribuição

espacial e a variação de luminosidade contidas em um objeto ou imagem, e também descreve o

arranjo estrutural das superfícies e relações entre regiões vizinhas, que na maioria das vezes são

constituídas por padrões repetitivos, cuja disposição pode ser periódica ou aleatória.

Normalmente, texturas naturais são aleatórias, enquanto que texturas artificiais são

frequentemente determinísticas ou periódicas. Além disso, termos como fina, grossa, suave,

áspera, granulada, alongada, regular e irregular estão associados ao conceito de textura

(Dobler,2015).

Contraste: O descritor retorna o contraste do objeto de estudo da imagem em escalas

de cinza. O algoritmo desenvolvido recebe a imagem do objeto de estudo em escala de

cinza e utiliza a função Contrast que pertence ao grupo de funções graycoprops do

MATLAB.

Correlação: O descritor retorna à correlação dos pixels em escalas de cinza. O

algoritmo foi desenvolvido com o auxílio da função Correlaction que pertence ao grupo

de funções graycoprops do MATLAB.

Energia: O descritor de energia retorna a soma dos quadrados dos elementos da matriz

de co-ocorrência. O algoritmo foi desenvolvido utilizado a função Energy que pertence

ao grupo de funções graycoprops do MATLAB.

Entropia: O descritor retorna a entropia do objeto em escalas de cinza. O algoritmo foi

desenvolvido com o auxílio da função Entropy do MATLAB.

38

Extensão: O descritor retorna à proporção de pixels na região para pixels na caixa

delimitadora. O algoritmo foi desenvolvido com o auxílio da função Extent do grupo de


Homogeneidade: O descritor retorna o valor que mede a proximidade da distribuição

de elementos no GLCM (Gray-Level-Co-Ocurrence Matrix) diagonal. O algoritmo foi

desenvolvido com o auxílio da função Homogeneity função que pertence ao grupo de

funções graycoprops do MATLAB.

Descritores Matemáticos

Os descritores matemáticos são funções matemáticas aplicadas ao objeto de estudo.

Desvio padrão: O descritor retorna o valor do desvio padrão do objeto de estudo. O

algoritmo foi desenvolvido com auxílio da função Std do MATLAB.

Intensidade mínima: O descritor retorna o valor da intensidade mínima do objeto de

estudo. O algoritmo foi desenvolvido com o auxílio da função MinIntensity que pertence

ao grupo de funções do regionprops do MATLAB.

Intensidade máxima: O descritor retorna o valor da intensidade máxima do objeto de

estudo. O algoritmo foi desenvolvido com o auxílio da função MaxIntensity que

pertence ao grupo de funções do regionprops do MATLAB.

Intensidade mínima: O descritor retorna o valor da intensidade média do objeto de

estudo. O algoritmo foi desenvolvido com o auxílio da função MeanIntensity que

pertence ao grupo de funções do regionprops do MATLAB.

Média dos elementos da matriz: O descritor mede a média dos elementos da matriz

que compõe o objeto de estudo. O algoritmo foi desenvolvido com o auxílio da função

mean2 do MATLAB.

Número de Euler: O descritor retorna o número de Euler de uma imagem binaria. O

algoritmo foi desenvolvido com o auxílio da função bweuler do MATLAB.

Relação de feret: O descritor retorna o valor referente a relação de feret. O algoritmo

foi desenvolvido através da formula 𝑅 = 𝑑𝑀𝑖𝑛𝐹𝑒𝑟𝑒𝑡

𝑑𝑀𝑎𝑥𝐹𝑒𝑟𝑒𝑡 onde R é a relação e o

dMinFeret é o diâmetro mínimo de feret e dMaxFeret é o diâmetro máximo de feret.

Solidez: O descritor retorna o valor referente a solidez do objeto estudado. O algoritmo

foi desenvolvido com o auxílio da função Solidity que pertence ao grupo de funções do

regionprops do MATLAB.

39

Descritores de semente germinada

Os descritores de sementes germinadas são descritores que fazem parte do teste de peso

da matéria seca e comprimento de plântula, que é um dos testes de germinação citados no

capitulo 3 sessões 3.2 deste trabalho.

Comprimento da raiz aérea: O descritor de comprimento da raiz aérea, é medido

manualmente e está representado na Figura 13 com a cor azul.

Comprimento da raiz radicular: O descritor de comprimento de raiz radicular é

medido manualmente e está representado na Figura 13 com a cor vermelha.

Comprimento da raiz total: O descritor de comprimento de raiz total é medido

manualmente e está representado na Figura 13 com a cor amarela.

Massa verde: O descritor de massa verde, retorna o valor da massa da semente

germinada após as medições de comprimento citadas acima. A semente é levada

para uma balança de precisão onde obtemos o valor como é representado na Figura

14.

Massa Seca: O descritor de massa seca retorna o valor da massa da semente

germinada após um dia na estufa a uma temperatura de 25°. A semente é levada para

a balança de precisão onde obtemos o valor como é representado na Figura 14.

40

Figura 13 - Indicação das partes medidas da semente germinada.

Figura 14 - Coletando o valor da massa verde em uma balança de precisão

41

4.6 RECONHECIMENTO E INTEPRETAÇÃO

Na etapa de reconhecimento e interpretação, são utilizados os 50 descritores da semente

de soja em algoritmos de aprendizado de máquina a fim de gerar classificadores capazes de

predizer a germinação das sementes. Para realizar a predição do teste de germinação, foi

utilizada a ferramenta WEKA (Waikato Environment for Knowledge Analysis) (HALL et al.,

2009) que implementa uma coleção de algoritmos de aprendizado de máquina e e bastante

difundida e aceita entre os pesquisadores da área. Os algoritmos do pacote utilizados foram os

seguintes:

NaiveBayes;

IBk, implementa o algoritmo KNN;

MultilayerPerceptron, implementa uma rede neural MLP.

Os algoritmos foram utilizados com os seguintes parâmetros:

NaiveBayes com estimador de kernel para atributos numéricos em vez de uma

distribuição normal;

KNN com k = 1;

MLP com taxa de aprendizado = 0.3, momento = 0.2 e 500 iteracoes. Foram

utilizadas 2 camadas escondidas, usando o parâmetro a (quantidade de atributos

+ quantidade de classes) para definição da quantidade de neurônios.)

Os resultados dessas operações são descritos no próximo capitulo.

42

5 RESULTADOS

Foi analisada uma base de dados contendo 50 descritores sendo 50 descritores de

semente não germinada e 1 descritor estado da semente que informa se a semente germinou ou

não. Dessa forma o aprendizado de máquina utilizado nesse trabalho foi o aprendizado de

máquina supervisionado. Os resultados dos experimentos feitos para predição do teste de

germinação com a base de dados de sementes estão apresentados na tabela abaixo:

Tabela 1: Acurácia dos classificadores (%)

Como pode ser observado na Tabela 1, a acurácia dos classificadores ainda não atinge

os níveis de confiabilidade desejados inicialmente, visto que o trabalho teve em média 60% de

acurácia comparando com os métodos utilizados pelos especialistas, podendo indicar que os

descritores utilizados não são suficientemente preditivos e novos descritores devem ser

adicionados à base. Porém os resultados se mostram positivos na construção de uma base de

dados que possui uma acurácia maior que 50%.

Uma análise da correlação desses 50 descritores da semente de soja com os 5 descritores

da semente germinada foi realizada a fim de verificar se os atributos físicos adquiridos por

processamento digital das imagens das sementes antes da germinação podem predizer

informações sobre a semente germinada. Para isso, foi utilizado o coeficiente de correlação de

Pearson que avalia a relação linear entre duas variáveis continuas. Uma relação é linear quando

a mudança em uma variável é associada a uma mudança proporcional na outra variável.

Os resultados obtidos com a correlação de Pearson indicaram uma correlação quase nula

entre a maioria dos descritores. Conforme pode ser visto a partir da Figura 15 até a Figura 17,

os descritores que tiveram coeficientes de correlação mais significativos foram: área que

possuía uma relação baixa com raiz aérea, raiz radicular, raiz total, massa seca e massa verde;

Contraste com raiz aérea, raiz radicular e raiz total; Energia com raiz aérea e raiz total;

Homogeneidade com raiz aérea e raiz total; Intensidade mínima com raiz aérea, raiz radicular,

raiz total, massa verde, massa seca; Perímetro com raiz aérea, raiz radicular, raiz total, massa

43

verde e massa seca; Redondeza com raiz aérea, raiz radicular e raiz total, massa verde e massa

seca.

Com os resultados obtidos após as correlações, conseguiu-se entender o motivo da

acurácia do trabalho estar acima de 50%, que se deu pelo fato de que existe pouca relação entre

a maioria dos descritores de semente não germinada e descritores de semente germinada.

44

Figura 15 – Correlação entre Perímetro com Raiz aérea e Intensidade mínima com Raiz radicular

45

Figura 16 – Correlação entre Contraste e Raiz total e Redondeza e Massa verde.

46

Figura 17 – Correlação entre Área e Massa seca.

47

6 CONCLUSÃO

O presente trabalho propôs a utilização de técnicas de aprendizado de máquina para

predizer a germinação das sementes de soja a partir de características físicas da semente obtidas

por meio da análise digital de imagens, bem como, identificar atributos físicos relevantes para

a avaliação da qualidade da semente a partir da análise de correlação desses atributos com

características fisiológicas que indicam a qualidade da semente de soja, buscando com isso

maior agilidade e confiabilidade no processo de avaliação da qualidade de sementes de soja,

além de caracterizar um processo de avaliação da semente não destrutivo.

Desta forma, uma base de dados de sementes de soja foi construída a partir de 50

descritores de características físicas da semente de soja pré-germinação, desenvolvidos com

algoritmos de Processamento Digital de Imagens. A base é composta por 400 imagens retiradas

de diferentes lotes. Algoritmos de Aprendizado de Máquina foram aplicados à base para

construção de classificadores que pudessem predizer o teste de germinação, e uma análise da

correlação dessas características físicas com outras 5 características da semente pós-germinação

foi feita. O resultado mostrou que apenas 50 descritores não são suficientes para a predição do

teste de germinação da semente de soja com altos níveis de confiabilidade, uma vez que esses

descritores não possuem alta correlação com informações da semente germinada. Serão

desenvolvidos em trabalhos futuros novos descritores buscando encontrar aqueles com alto

poder preditivo para a germinação.

48

6.1 TRABALHOS FUTUROS

Como continuação deste trabalho, os seguintes passos deverão ser desenvolvidos:

Implementar novos descritores para as imagens de semente de soja, aumentando a

quantidade de atributos da base de dados

Adicionar mais imagens à base de dados

Utilizar combinação de algoritmos de aprendizado de máquina a fim de gerar

preditores mais acurados

49

REFERÊNCIAS

BROSNAM, T.; SUN, D. Inspection and grading of agricultural and food products

by computer vision systems a review. Computers and Electronics in Agriculture, Dublin,

v.36, n.2, p.193-213, 2002.

COSTA NETO, P. R. & ROSSI, L. F. S. Produção de biocombustível alternativo ao

óleo diesel através da transesterificação de óleo de soja usado em fritura. Química Nova,

v.23, p. 4, 2000.

DEVMEDIA Mineração de dados com Orange Disponível em <

http://www.devmedia.com.br/mineracao-de-dados-com-orange/31678> . 2016

DOBLER, J.A.D. Segmentação de Texturas em Imagens Digitais Utilizando

Wavelets Redundantes. Presidente Prudente, setembro de 2015.

DOUGHERTY ET AL., Supervised and Unsupervised Discretization of Continuous

Features. Machine Learning Proc. Of 12th International Conference.

Domingos, P. e Pazzani, M. On the Optimality of the Simple Bayesian Classifier

under Zero-One Loss. Machine Learning, 29, 103–130 (1997)

EMBRAPA A Soja no Sistema de Cultivo Disponivel em <

https://www.embrapa.br/busca-de-noticias/-/noticia/8901995/artigo---a-soja-no-sistema-de-

cultivo> 2016.

FACELI, K, Inteligência artificial: Uma abordagem de aprendizado de máquina.

2011

FILHO, D. B. F & JÚNIOR, J. A. S. Desvendando os Mistérios do Coeficiente de

Correlação de Pearson (r). Revista Política Hoje, Vol. 18, n. 1, 2009

FRANÇA-NETO, J.B. et al. Padrões de Qualidade de Sementes no Brasil: A

Importância do Uso de Sementes de Soja de Alta Qualidade e os seus Efeitos sobre a

Produtividade. Informativo ABRATES, v. 25, n. 2, p. 27, 2015.

Gonzalez, R. C.; Woods, R. E (2000) Processamento Digital de Imagens. 2ª edição,

Editora Edgard Blücher, São Paulo.

GUEDES, M. A. et al. Caracterização Física de Grãos de Soja Utilizando-se

Processamento Digital de Imagens. Revista Brasileira de Produtos Agroindustriais,

Campina Grande, v.13, n.3, p.279-294, 2011.

https://www.embrapa.br/busca-de-noticias/-/noticia/8901995/artigo---a-soja-no-sistema-de-cultivo

https://www.embrapa.br/busca-de-noticias/-/noticia/8901995/artigo---a-soja-no-sistema-de-cultivo

50

IMAGEJ projeto open source, version 1.8.0: ImageJ <

https://imagej.nih.gov/ij/index.html > 2017

KHATCHATOURIAN, O; PADILHA ,F R. R. Reconhecimento de variedades de

soja por meio do processamento de imagens digitais usando redes neurais artificiais. Eng.

Agríc., Jaboticabal, v.28, n.4, p.759-769, out./dez. 2008.

KRZYZANOWSKI, F.C.; VIEIRA, R.D.; FRANÇA NETO, J.B. Vigor de sementes:

conceitos e testes. Londrina: ABRATES,. p.3.2-3.4. 1999. BRASIL. Ministério da Agricultura,

Pecuária e Abastecimento. Regras para análise de sementes / Ministério da Agricultura,

Pecuária e Abastecimento. Secretaria de Defesa Agropecuária. Brasília : Mapa/ACS, 2009.

REZENDE, S. O. Sistemas inteligentes: fundamentos e aplicações. Editora da UFSC, 2005.

LANA, C. E. Análise morfométrica da bacia do Rio do Tanque, MG – Brasil. Rev.

Esc. Minas vol.54 no.2 Ouro Preto Apr./June 2001.

MASSETO, T. E.; FARIA, J. M. R.; QUEIROZ, S. E. E.. Evaluation of the seed

quality in Cedrela fissilis - (Meliaceae) by X-ray test. Ciência e Agrotecnologia, Lavras, v.

32, n. 6, p. 1708-1712, 2008.

MICROSOFT Conceitos de mineração de dados Disponível em<

https://msdn.microsoft.com/pt-br/library/ms174949.aspx > 2016

MICROSOFT Algoritmo Naive Bayes da Microsoft Disponivel em <

https://docs.microsoft.com/pt-br/sql/analysis-services/data-mining/microsoft-naive-bayes-

algorithm> 2017

MONDO, V. H. V. Análise de imagens na avaliação da qualidade de sementes de

milho localizadas em diferentes posições na espiga. Revista brasileira de sementes, vol. 27

nº 1, p.09-18, 2015

NORONHA, B. G. Qualidade Fisiologica de Sementes de Moringa oleífera Lam.

Por Meio de Análise de Imagens. Dissertação (Mestrado em Ciências Florestais).

Universidade Federal do Rio Grande do Norte. Unidade Acadêmica Especializada em Ciências

Agrárias Campus Macaíba, 2014.

RIBEIRO, S. S. Detecção de grãos ardidos de milho através de algoritmos de

mineração de dados. Espacios Vol. 37 nº 34, p 7, 2016

https://imagej.nih.gov/ij/index.html

https://msdn.microsoft.com/pt-br/library/ms174949.aspx

51

RIBEIRO, S. S. Uso de processamento digital de imagens e mineração de dados

para extração de características de grãos de milho XSIBIAGRO 2015.

SEEDNEWS Testes de VIGOR: dimensão e perspectivas

<http://www.seednews.inf.br/_html/site/content/reportagem_capa/imprimir.php?id=92

>2017

SURGMAP Project for Nemaris, versão 2.2.9.9.7: Nemaris, 2017<

https://www.surgimap.com/all-downloads/#Windows > 2017

OYAMA, P. I. C. Método Para Classificação de Café em Grãos por Imagens

Digitais Pelo Uso de Atributos Selecionados de Morfologia, Cor e Textura. Dissertação

(Mestrado). Escola de Engenharia de São Carlos da Universidade de São Paulo, 2014.

VALE, A.M.P.G. Técnica para Segmentação Automática de Imagens

Microscópicas de Componentes Sanguíneos e Classificação Diferencial de Leucócitos

Baseada em Lógica Fuzzy. Universidade Federal do Rio Grande do Norte, Natal/RN 2014

VASCONCELOS, L. M. R. Aplicação de Regras de Associação para Mineração de

Dados na Web. Instituto de Informática Universidade Federal de Goiás, 2004

http://www.seednews.inf.br/_html/site/content/reportagem_capa/imprimir.php?id=92

https://www.surgimap.com/all-downloads/#Windows

52

APÊNDICE

Segue algumas imagens utilizadas no trabalho.

1. Aquisição de Imagens

Exemplos da aquisição de imagens.

53

2. Imagens Pré-processadas

Imagens após o pré – processamento.

54

55

3. Imagens Segmentadas

Imagens após a etapa de segmentação, onde só permanece o objeto de estudo nesse

caso a semente de soja.

56

Documents

Associação entre características físicas da semente de ...€¦ · da semente usando a análise da imagem e técnicas de aprendizado de máquina Trabalho de conclusão de curso