59

UNIVERSIDADE CATÓLICA DOM BOSCO PROGRAMA DE PÓS-GRADUAÇÃO … · GIA, no Prgroama de Pós Graduação em Biotecnologia da Universidade Católica Dom Bosco - Áaer de oncen-c tração:

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: UNIVERSIDADE CATÓLICA DOM BOSCO PROGRAMA DE PÓS-GRADUAÇÃO … · GIA, no Prgroama de Pós Graduação em Biotecnologia da Universidade Católica Dom Bosco - Áaer de oncen-c tração:

UNIVERSIDADE CATÓLICA DOM BOSCOPROGRAMA DE PÓS-GRADUAÇÃO EM BIOTECNOLOGIA

Visão Computacional aplicada na classi�cação de grãos de pólen

Autora: Lia Nara Balta QuintaOrientador: Prof. Dr. Hemerson Pistori

Coorientadora: Profa. Dra. Marney Pascoli Cereda

Campo GrandeMato Grosso do Sul

Janeiro - 2013

Page 2: UNIVERSIDADE CATÓLICA DOM BOSCO PROGRAMA DE PÓS-GRADUAÇÃO … · GIA, no Prgroama de Pós Graduação em Biotecnologia da Universidade Católica Dom Bosco - Áaer de oncen-c tração:

UNIVERSIDADE CATÓLICA DOM BOSCOPROGRAMA DE PÓS-GRADUAÇÃO EM BIOTECNOLOGIA

Visão Computacional aplicada na classi�cação de grãos de pólen

Autora: Lia Nara Balta QuintaOrientador: Prof. Dr. Hemerson Pistori

Coorientadora: Profa. Dra. Marney Pascoli Cereda

Dissertação apresentada como parte das exigências paraobtenção do título de MESTRE EM BIOTECNOLO-GIA, no Programa de Pós−Graduação em Biotecnologiada Universidade Católica Dom Bosco - Área de concen-tração: Biotecnologia Aplicada à Agropecuária

Campo GrandeMato Grosso do Sul

Janeiro - 2013

Page 3: UNIVERSIDADE CATÓLICA DOM BOSCO PROGRAMA DE PÓS-GRADUAÇÃO … · GIA, no Prgroama de Pós Graduação em Biotecnologia da Universidade Católica Dom Bosco - Áaer de oncen-c tração:

Agradecimentos

Agradeço ao apoio, dedicação e compreensão da minha mãe e irmã. Agradeço aos ensinamentosque meu orientador Dr. Hemerson Pistori compartilhou comigo durante todos os anos que passeino grupo INOVISAO. Agradeço pela rigidez que sempre teve, acredito que ela me fez crescercomo pessoa e me tornar alguém mais forte e capacitada. Agradeço à equipe do INOVISAOem especial ao Wesley Tessaro, Diogo Soares, Kleber Padovani de Souza e Willian ParaguassuAmorim.

Obrigada à equipe do CeTeAgro que sempre ajudou na coleta de imagens e dados. Emespecial à professora Dra. Marney Pascoli Cereda e a Bióloga Ariadne Barbosa Gonçalves.

Agradeço à paciência e dedicação de alguns professores do mestrado. Obrigada especialmenteà Ana Paula Ferreira Leal que em muitas aulas me ajudou a �traduzir"o que os termos técnicosque alguns professores falavam. Agradeço as pessoas que ajudaram direta ou indiretamente narealização deste trabalho.

Este trabalho obteve apoio intelectual de Daniel Sage do grupo denominado Biomedical Imageque nos forneceu o código fonte do plugin método de extração de atributos wavelets e do Me.Willian Paraguassu Amorim que nos forneceu a implementação do algoritmo FCO (Floresta decaminhos ótimos).

Este trabalho recebeu apoio �nanceiro da Universidade Católica Dom Bosco, UCDB, daFundação de Apoio ao Desenvolvimento do Ensino, Ciência e Tecnologia do Estado de MatoGrosso do Sul, FUNDECT e do Conselho Nacional de Desenvolvimento Cientí�co e Tecnológico,CNPq.

Page 4: UNIVERSIDADE CATÓLICA DOM BOSCO PROGRAMA DE PÓS-GRADUAÇÃO … · GIA, no Prgroama de Pós Graduação em Biotecnologia da Universidade Católica Dom Bosco - Áaer de oncen-c tração:

Biogra�a da autora

Lia Nara Balta Quinta, �lha de Maria Fátima Balta Quinta e Wolmar Roberto Quinta, nasceuem Cachoeiro de Itapemirim - Espírito Santo no dia 15 de junho de 1987.

Estudou o ensino fundamental e médio na Escola Objetivo Girassol na cidade de Jardim -Mato Grosso do Sul. Formou em Bacharel em Engenharia de Computação no ano de 2009 naUniversidade Católica Dom Bosco na cidade de Campo Grande - Mato Grosso do Sul.

Em 2006, integrou-se ao INOVISAO - Grupo de Pesquisa, Desenvolvimento e Inovação emVisão Computacional subgrupo do GPEC - Grupo de Pesquisa em Engenharia e Computaçãorealizando pesquisas na área de Visão Computacional. Durante toda a pesquisa, a autora traba-lhou com extração de atributos, seleção de atributos e classi�cação automática participando doprojeto CORIU - que realiza classi�cação de defeitos em couto bovino -, BioViC - que realiza acontagem de leveduras para auxiliar o controle na produção do etanol - e Pólen - que auxilia aidenti�cação de grãos de pólen em amostras de mel.

Em março de 2010 iniciou o Mestrado em Biotecnologia na Universidade Católica Dom Bosco,dando continuidade às pesquisas na área de Visão Computacional. No dia 11 de setembro de2012, foi realizada a banca de defesa da dissertação.

Page 5: UNIVERSIDADE CATÓLICA DOM BOSCO PROGRAMA DE PÓS-GRADUAÇÃO … · GIA, no Prgroama de Pós Graduação em Biotecnologia da Universidade Católica Dom Bosco - Áaer de oncen-c tração:

Resumo

Devido ao contato das abelhas com as �ores durante a extração de néctar para a produção demel, grãos de pólen dessas �ores podem ser transportados por esses insetos para as suas colmeiase, consequentemente, caírem no mel ali produzido. Com isso, algumas características do produto,como o sabor, podem ser modi�cadas, aumentando por vezes seu valor de mercado. Por meiode análise de amostras de mel em microscópio, é possível visualizar os grãos de pólen e, assim,rastrear sua procedência. Atualmente, a rastreabilidade do mel é realizada através da contagemvisual, em que um especialista humano registra as quantidades de grãos de pólen de cada es-pécie. Essa contagem é minuciosa e cansativa. Com o objetivo de auxiliar a rastreabilidade domel produzido na região Centro-Oeste, este trabalho empregou técnicas de visão computacionale inteligência arti�cial em imagens microscópicas com o intuito de automatizar essa contagem.Para realizar a classi�cação dos grãos de pólen, foram aplicadas técnicas denominadas Florestade Caminhos Ótimos (FCO), C4.5, SVM e KNN. Inicialmente, foi necessário extrair das imagensde grãos de pólen informações relevantes para classi�cá-los e, para isso, técnicas de extração deatributos foram aplicadas. Atributos de cor (RGB e HSB), forma (fator de forma, circularidade,relação entre eixos e densidade) e textura (matriz de coocorrência, mapas de interação, padrõesbinários locais, padrões binários locais invariante à rotação e transformada de wavelets) foramutilizados nos experimentos. Com os dados resultantes da extração de atributos, o classi�cadorfoi utilizado para distinguir as classes (espécies de grãos de pólen) analisadas. Os resultadosobtidos com os algoritmos de classi�cação foram comparados através do teste T-Students e testede Friedman, utilizando as métricas recall, precision, f-score e taxa de acerto. De acordo com osresultados, em alguns experimentos, o KNN obteve melhor resultado entre os algoritmos testa-dos. O resultado da classi�cação para experimentos com 9 classes distintas foi superior à 76%de acerto.

Palavras-chave: Visão computacional; Pólen; Classi�cação automática.

Page 6: UNIVERSIDADE CATÓLICA DOM BOSCO PROGRAMA DE PÓS-GRADUAÇÃO … · GIA, no Prgroama de Pós Graduação em Biotecnologia da Universidade Católica Dom Bosco - Áaer de oncen-c tração:

Resumo

Due to the contact between �owers and bees during nectar extraction for honey production,pollen grains of these �owers can be carried by these insects to their hives and hence fall inhoney produced there. Thus, some product characteristics, such as �avor, might be modi�ed,increasing or decreasing their market value in some cases. Through analysis of honey samplesunder a microscope, pollen grains can be seen and thus we can trace honey origin. Currently, thetraceability of honey is accomplished by visual count, a rigorous and exhausting task where ahuman expert registers the number of pollen grains of each species is present. Aiming to help thetraceability of honey produced in a speci�c region of Brazil, this work applied computer visionand arti�cial intelligence techniques in microscopic images in order to automate this count. Forthe classi�cation of pollen grains, we applied techniques called Optimal Path Forest (OPF), C4.5,SVM e KNN. Initially, it was necessary to extract relevant information from pollen grains ima-ges to classify them. Therefore, feature extraction techniques were applied. Experiments usingcolor features (RGB and HSB), form features (form factor, circularity, aspect ratio and density)and texture features (co-occurrence matrix, interaction maps, local binary patterns, local binarypatterns and rotation invariant wavelet transform) were performed. After feature extraction, aclassi�er was used to distinguish among classes (species of pollen grains). Results from OPFalgorithm were compared with traditional classi�ers results, namely, C4.5, SVM and KNN. Theexperimental results were compared using T-Student and Friedman tests, using recall, precision,f-score and hit rate as metrics. According to results, in some experiments, the KNN had thebest results among the tested algorithms. The result of the classi�cation for experiments with 9di�erent classes was higher than 76 % accuracy

Keywords: Computer vision; Pollen; Automatic classi�cation.

Page 7: UNIVERSIDADE CATÓLICA DOM BOSCO PROGRAMA DE PÓS-GRADUAÇÃO … · GIA, no Prgroama de Pós Graduação em Biotecnologia da Universidade Católica Dom Bosco - Áaer de oncen-c tração:

Conteúdo

1 Introdução 5

2 Fundamentação Teórica 8

2.1 Palinologia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82.2 Classi�cação visual de grãos de pólen . . . . . . . . . . . . . . . . . . . . . . . . . 82.3 Mel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92.4 Angiospermas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102.5 Classi�cação da frequência polínica . . . . . . . . . . . . . . . . . . . . . . . . . . 112.6 Visão computacional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

2.6.1 Imagens digitais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122.6.2 Extração de atributos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

2.7 Seleção de atributos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202.8 Validação dos resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

2.8.1 Teste de hipótese . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

3 Aprendizagem supervisionada 24

3.1 Floresta de Caminhos Ótimos (FCO) . . . . . . . . . . . . . . . . . . . . . . . . . 243.2 Treinamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253.3 Classi�cação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

4 Materiais e Métodos 29

4.1 Preparo da amostra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 314.2 Microscópios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 334.3 Banco de imagens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

4.3.1 Conjunto de imagens 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 354.3.2 Conjunto de imagens 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 364.3.3 Conjunto de imagens 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 374.3.4 Conjunto de imagens 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 374.3.5 Conjunto de imagens 5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

4.4 Experimentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

5 Resultados e Análises 40

5.1 Experimento 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 405.2 Experimento 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 415.3 Experimento 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 425.4 Experimento 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

6 Conclusões e Trabalhos Futuros 50

Page 8: UNIVERSIDADE CATÓLICA DOM BOSCO PROGRAMA DE PÓS-GRADUAÇÃO … · GIA, no Prgroama de Pós Graduação em Biotecnologia da Universidade Católica Dom Bosco - Áaer de oncen-c tração:

Lista de Figuras

2.1 Amostras de méis com coloração variada capturada na Fazenda Escola da Univer-sidade Católica Dom Bosco . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

2.2 (a) Imagem de grão de pólen de um mamoeiro selvagem com resolução de 672 X506 pixels e (b) Imagem de grão de pólen de uma roseira com resolução de 187 X167 pixels. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

2.3 (a) Imagem em tons de cinza, (b) imagem ampliada e (c) matriz de pixels corres-pondente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

2.4 (a) pixel na cor preta, (b) pixel na cor cinza e (c) pixel na cor branca . . . . . . . 132.5 Exemplo de combinações das cores primárias vermelho, verde e azul. . . . . . . . 132.6 (a) Grão de pólen de eucalipto, (b) grão de pólen de aroeira . . . . . . . . . . . . 142.7 Exemplo ilustrando uma imagem de grão de pólen com uma elipse verde, uma linha

azul escura indicando o comprimento do objeto e uma linha azul clara indicandoa largura do objeto. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

2.8 (a) Exemplo de textura de uma zebra e (b) exemplo de textura de um dálmata. . 162.9 Exemplo do método LBP. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172.10 (a) representa uma cadeia de binários, (b) representa uma forma de rotação e (c)

representa a cadeia de binários após a rotação. . . . . . . . . . . . . . . . . . . . 182.11 Matriz composta pelos valores de uma imagem (a), matriz de coocorrência com

ângulo 0 e distância 1 (b). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192.12 Exemplo utilizando mapas de interação. . . . . . . . . . . . . . . . . . . . . . . . 202.13 (a) Imagem original e (b) Imagem das bandas após a aplicação da transformada

de Wavelets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

3.1 (a) Exemplo de imagens da classe A e (b) Exemplo de imagens da classe B. . . . 243.2 Grafo completo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263.3 Grafo completo com a relação de adjacência entre as arestas. . . . . . . . . . . . 263.4 Subgrafo gerado a partir da árvore geradora mínima. . . . . . . . . . . . . . . . . 263.5 De�nição dos protótipos de cada classe. . . . . . . . . . . . . . . . . . . . . . . . 273.6 Comparação de uma nova amostra com as amostras existentes no grafo. . . . . . 273.7 Classi�cação da nova amostra como pertencente à classe azul clara. . . . . . . . . 28

4.1 (a) Grão de pólen de Assa-peixe, (b)Grão de pólen de Aroeira e (c) Grão de pólende Cipó-Uva . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

4.2 Imagens de um lápis de escrever capturadas com o objeto em diferentes posições 304.3 Diferentes visões do grão de pólen de mamoeiro selvagem. . . . . . . . . . . . . . 314.4 Imagem com ruídos evidenciados. . . . . . . . . . . . . . . . . . . . . . . . . . . . 314.5 (a) Imagem de um microscópio evidenciando a mesa e a objetiva (b) Imagem ilus-

trativa da placa de vidro (representada pela cor azul clara) e lamela (representadapela cor azul escura). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

4.6 Imagem obtida de amostras de mel contendo grãos de pólen de diferentes espécies. 33

2

Page 9: UNIVERSIDADE CATÓLICA DOM BOSCO PROGRAMA DE PÓS-GRADUAÇÃO … · GIA, no Prgroama de Pós Graduação em Biotecnologia da Universidade Católica Dom Bosco - Áaer de oncen-c tração:

4.7 (a) Imagem obtida através da primeira técnica, (b) Imagem obtida através dasegunda técnica e (c) Imagem obtida através da terceira técnica . . . . . . . . . . 34

4.8 (a) microscópio tradicional marca Bel, (b) dispositivo de captura marca Pros-cope HR e (c) dispositivo de captura acoplado ao microscópio e (d) microscópioMonotela LCD Marca LCD Micro Bresse . . . . . . . . . . . . . . . . . . . . . . . 34

4.9 (a) Imagem capturada através do microscópio A e (b) Imagem capturada atravésdo microscópio B . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

4.10 (a) Grão de pólen de Mamoeiro Selvagem, (b) Grão de pólen de Assa-peixe, (c)Grão de pólen de Aroeira, (d) Grão de pólen de Cipó-Uva, (e) Grão de pólen debarbatimão, (f) Grão de pólen de eucalipto. . . . . . . . . . . . . . . . . . . . . . 35

4.11 Classes de grãos de pólen presentes no conjunto 1, sendo elas: (a) Grão de pólende Aroeira, (b) Grão de pólen não identi�cado, (c) Grão de pólen de MamoeiroSelvagem, (d) Grão de pólen de Assa-peixe, (e) Grão de pólen não identi�cado,(f) Grão de pólen não identi�cado, (g) Grão de pólen não identi�cado, (h) Grãode pólen não identi�cado. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

4.12 Classes de grãos de pólen presentes no conjunto 2, sendo elas: (a) Grão de pólennão identi�cado, (b) Grão de pólen de assa-peixe, (c) Grão de pólen de mamoeiroselvagem, (d) Grão de pólen não identi�cado, (e) Grão de pólen de aroeira e (f)Grão de pólen não identi�cado. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

4.13 Grãos de pólen das classes presentes no conjunto 4, sendo elas: (a) Grão de pólende eucalipto, (b) Grão de pólen de assa-peixe, (c) Grão de pólen de cipó-uva, (d)Grão de pólen de aroeira, (e) Grão de pólen não identi�cado e (f) Grão de pólennão identi�cado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

4.14 Grãos de pólen das classes presentes no conjunto 5, sendo elas: (a) Grão de pólende Arecaceae tipo 1, (b) Grão de pólen de Arecaceae tipo 2, (c) Grão de pólende Cecropia, (d) Grão de pólen de Fabaceae, (e) Grão de pólen de Schinus, (f)Grão de pólen de Myrtaceae, (g) Grão de pólen de Poaceae, (h) Grão de pólen deProtium e (i) Grão de pólen de Serjania. . . . . . . . . . . . . . . . . . . . . . . . 39

5.1 Resultado da análise post hoc . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 445.2 Resultado da análise post hoc para o quarto experimento . . . . . . . . . . . . . . 465.3 Matriz com o resultado da classi�caçao realizada pelo algoritmo FCO . . . . . . . 475.4 Matriz com o resultado da classi�caçao realizada pelo algoritmo KNN . . . . . . 485.5 Matriz com o resultado da classi�caçao realizada pelo algoritmo SVM . . . . . . 485.6 Matriz com o resultado da classi�caçao realizada pelo algoritmo C4.5 . . . . . . . 485.7 (a) Imagem da espécie cecropia e (b) Imagem da espécie myrtacea . . . . . . . . 495.8 (a) Imagem da espécie protium e (b) Imagem da espécie schinus . . . . . . . . . . 495.9 (a) Imagem da espécie serjania e (b) Imagem da espécie myrtacea . . . . . . . . . 49

Page 10: UNIVERSIDADE CATÓLICA DOM BOSCO PROGRAMA DE PÓS-GRADUAÇÃO … · GIA, no Prgroama de Pós Graduação em Biotecnologia da Universidade Católica Dom Bosco - Áaer de oncen-c tração:

Lista de Tabelas

2.1 Classi�cação da ocorrência polínica em amostras de mel de acordo com a porcen-tagem de frequência dos grãos na contagem visual. . . . . . . . . . . . . . . . . . 11

2.2 Exemplo de matriz de confusão . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

4.1 Número de amostras de cada classe presente no conjunto 1. . . . . . . . . . . . . 364.2 Número de amostras de cada classe presente no conjunto 2. . . . . . . . . . . . . 364.3 Número de amostras de cada classe presente no conjunto 3. . . . . . . . . . . . . 374.4 Número de amostras de cada classe presente no conjunto 4. . . . . . . . . . . . . 384.5 Informações sobre o número de amostras presentes em cada classe de cada conjunto

do banco de imagens utilizado nesta proposta. . . . . . . . . . . . . . . . . . . . . 39

5.1 Taxa de acerto para experimento com 3 classes e 5 atributos . . . . . . . . . . . . 405.2 Resultado do recall para experimento com 3 classes e 5 atributos . . . . . . . . . 415.3 Resultado do precision para experimento com 3 classes e 5 atributos . . . . . . . 415.4 Resultado do f-score para experimento com 3 classes e 5 atributos . . . . . . . . . 415.5 Parâmetros utilizados para a técnica de matriz de coocorrência. . . . . . . . . . . 415.6 Parâmetros utilizados para a técnica de matriz de interação. . . . . . . . . . . . . 425.7 Taxa de acerto para experimentos com 5 classes com atributos de forma, cor e

textura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 425.8 Resultado da métrica precision . . . . . . . . . . . . . . . . . . . . . . . . . . . . 425.9 Resultado da métrica recall . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 435.10 Resultado da métrica f-score . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 435.11 Porcentagem de acerto de todos os ARFFS e todos os classi�cadores . . . . . . . 435.12 Resultado do recall de cada classi�cador . . . . . . . . . . . . . . . . . . . . . . . 445.13 Resultado do precision de cada classi�cador . . . . . . . . . . . . . . . . . . . . . 445.14 Resultado do f-score de cada classi�cador . . . . . . . . . . . . . . . . . . . . . . 445.15 Tempo utilizado para realizar o treinamento dos classi�cadores . . . . . . . . . . 455.16 Parâmetros utilizados para a técnica de matriz de coocorrência. . . . . . . . . . . 455.17 Parâmetros utilizados para a técnica de matriz de interação. . . . . . . . . . . . . 455.18 Parâmetros utilizados para o PBL e PBLROT . . . . . . . . . . . . . . . . . . . . 465.19 Síntese das principais informações de cada um dos experimentos realizados neste

trabalho . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 465.20 Resultado da taxa de acerto de cada classi�cador . . . . . . . . . . . . . . . . . . 475.21 Porcentagem de amostras classi�cadas corretamente utilizando os classi�cadores

presentes neste trabalho . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

Page 11: UNIVERSIDADE CATÓLICA DOM BOSCO PROGRAMA DE PÓS-GRADUAÇÃO … · GIA, no Prgroama de Pós Graduação em Biotecnologia da Universidade Católica Dom Bosco - Áaer de oncen-c tração:

Capítulo 1

Introdução

O mel é um produto que pode ser comercializado de maneira primária, sendo assim, o produtoproduzido pelas abelhas não precisa ser industrializado nem tão pouco passar por um processo detransformação para ser consumido pela população. Isso não quer dizer que não existam produtosindustrializados derivados do mel. O própolis é um exemplo bastante comum da utilização domel em produtos industrializados [37]. O valor nutricional e energético que o mel possui traz aoproduto uma procura frequente, tanto no mercado interno quanto no externo.

Antigamente, poucos produtores possuíam capacitação adequada para produzir mel. Porém,com a maior procura do produto, normas de padronização foram criadas com o objetivo deestabelecer uma identi�cação e qualidade do produto produzido [37]. A Instrução Normativa No

11, de 20 de outubro de 2000 é um exemplo da padronização supracitada [23].A apicultura traz diversos benefícios, tanto econômicos, com a comercialização do mel e seus

derivados, como sociais, através da geração de empregos. Apesar de ser produzido no Brasil hámuito tempo, pouco se sabe sobre as características dos méis comercializados.

Para produzir o mel, as abelhas fêmeas responsáveis pela fabricação do produto, capturamnéctar das �ores e, no momento da captura do néctar, alguns grãos de pólen �cam depositadossobre o inseto. Ao retornar à colmeia, alguns grãos de pólen caem no mel e, por esse motivo,ao analisar microscopicamente uma amostra de mel os grãos das espécies contidas no produtopodem ser visualizados. De acordo com o tipo de néctar capturado, as características do produtosofrem alterações, como por exemplo no sabor e coloração.

No momento da captura do néctar, as abelhas realizam um voo próximo à colmeia [16]. Porisso, o pólen das árvores presentes ao redor da colmeia possui grande in�uência no mel produzidonaquela colmeia. Quando o mel é produzido com uma origem controlada, o produtor realiza oplantio de plantas especí�cas ao redor da colmeia e, por esse motivo, ele pode garantir a presençados grãos de pólen das espécies que ele plantou no mel produzido. Essa é uma forma de controlaro ambiente para garantir um produto com características especí�cas.

Há diversos tipos de mel, como os �orais e melato, descritos no Capítulo 2. Nesta pesquisa,somente os méis �orais foram analisados por apresentarem grãos de pólen. Os méis �orais sãoclassi�cados de acordo com a quantidade de espécies vegetais (grãos de pólen) presentes noproduto [19][3]. Uma das características usadas para determinar a origem �oral do mel é o grãode pólen.

Este trabalho está contido em um projeto maior e multidisciplinar chamado projeto MELque tem o objetivo de agregar mais valor ao produto através do incentivo à produção de méiscom origem controlada por meio de sua rastreabilidade. Esse trabalho emprega técnicas de visãocomputacional e inteligência arti�cial em imagens microscópicas, com o objetivo de auxiliar arastreabilidade do mel produzido na região centro-oeste. Essa rastreabilidade é realizada atravésdos grãos de pólen presentes na matéria prima do mel. Como este trabalho visa analisar apenas

5

Page 12: UNIVERSIDADE CATÓLICA DOM BOSCO PROGRAMA DE PÓS-GRADUAÇÃO … · GIA, no Prgroama de Pós Graduação em Biotecnologia da Universidade Católica Dom Bosco - Áaer de oncen-c tração:

os grãos de pólen, ele foi chamado de projeto Pólen. Sendo assim, pode-se dizer que o projetoPólen visa desenvolver um módulo computacional para compor o projeto MEL.

Atualmente, a contagem das espécies vegetais presentes no mel é realizada visualmente. Essacontagem é uma tarefa minuciosa e muito cansativa, por esse motivo, erros na contagem podemocorrer devido ao desgaste humano. Nesta proposta, a tarefa de contagem visual é realizadavia software acarretando maior agilidade sem perda de e�cácia na contagem. Um dos trabalhosdesenvolvidos no projeto MEL visa caracterizar os grãos de pólen presentes na região. Estetrabalho auxiliou este módulo na etapa de treinamento, descrito no Capítulo 4.

Há alguns trabalhos que realizam a contagem de grãos de pólen, sendo eles: O traballho [10]analisou imagens com grãos de pólen com o intuito de contar o número de grãos presentes emcada uma das imagens e comparar o resultado da contagem automática com a contagem humana.Imagens das espécies Carduus acanthoides e C. nutans (Asteraceae) foram obtidas e deixadasem �uorescência sob luz actínica. O IMAGEJ, software que possui implementações do algoritmode processamento de imagens, foi utilizado para reduzir ruídos e evidenciar os grãos de pólen.As imagens foram processadas utilizando o watershed [26] e em seguida foi aplicado o �ltro departículas para realizar a contagem dos grãos das espécies supracitadas. A contagem automáticafoi comparada com a contagem humana e o resultado obtido foi próximo da contagem realizadapelos humanos. De acordo com este trabalho, foi possível obter uma alternativa rápida e e�cazpara a contagem de grãos de pólen.

O trabalho [21] teve o objetivo de realizar a identi�cação automática de 3 espécies da famíliaUrticaceae. As amostras foram obtidas e analisadas microscopicamente com o aumento de 40x.Com as imagens capturadas, foi realizado o pré-processamento dos dados e a obtenção de atri-butos oriundos da morfologia matemática. Com os dados obtidos, a distância de Mahalanobisfoi aplicada e foi obtido 90% de acerto de acordo com a técnica aplicada.

O presente trabalho visa analisar as espécies de grãos de pólen detectadas na região Centro-Oeste, sendo assim, as classes capturadas não passaram por uma seleção antes da classi�cação.O intuito de capturar as amostras sem limitação de espécie é caracterizar o produto produzidonesta região originalmente. Após a análise, as imagens foram classi�cadas por 4 algoritmos deaprendizagem de máquina supervisionada.

Para o desenvolvimendo da pesquisa foi necessário extrair informações das imagens de grãosde pólen. Para isso técnicas de extração de atributos foram aplicadas. Com os dados resultantesda extração de atributos, os classi�cadores foram utilizados para distinguir as classes (espéciesde grãos de pólen) analisadas. Os classi�cadores FCO, C4.5, SVM e KNN foram aplicados. Paraavaliar o resultado dos classi�cadores e analisar se há ou não diferença na aplicação das técnicassupracitadas na classi�cação de grãos de pólen, foram avaliados o resultado da taxa de acerto,recall, precision e f-score através dos testes de Friedman e T-Students.

Em um dos experimentos realizados, através do teste de Friedman, pode-se a�rmar queem relação a estas métricas, não há variação entre os classi�cadores, ou seja, de acordo com osresultados das métricas pode-se a�rmar que eles são iguais. Já em outro experimento, foi possívelobservar que o KNN obteve melhor desempenho quando comparado aos demais classi�cadorestestados.

Com este trabalho foi possível padronizar o tamanho da imagem capturada, �ltro de colo-ração e o microscópio usado na captura das imagens presentes no projeto Pólen. Foi possívelestabelecer, dentre os classi�cadores analisados, um classi�cador que apresenta melhor desempe-nho na classi�cação dos grãos de pólen, analisar que as imagens com acetólise, processo utilizadopara evidenciar características dos grãos de pólen, possuem mais informações para a classi�caçãodas classes analisadas neste trabalho e conseguir uma classi�cação superior a 76% para 9 classesdistintas.

O próximo capítulo traz conceitos de visão computacional, mel e técnicas de validação do

6

Page 13: UNIVERSIDADE CATÓLICA DOM BOSCO PROGRAMA DE PÓS-GRADUAÇÃO … · GIA, no Prgroama de Pós Graduação em Biotecnologia da Universidade Católica Dom Bosco - Áaer de oncen-c tração:

sistema. O terceiro e o quarto capítulos descrevem, respectivamente, sobre aprendizagem de má-quina e a seção de materiais e métodos que apresenta detalhes do delineamento experimental. Oquinto e o sexto capítulos descrevem, respectivamente, os resultados e a discussão dos resultadosobtidos com os experimentos, a conclusão e as considerações �nais.

7

Page 14: UNIVERSIDADE CATÓLICA DOM BOSCO PROGRAMA DE PÓS-GRADUAÇÃO … · GIA, no Prgroama de Pós Graduação em Biotecnologia da Universidade Católica Dom Bosco - Áaer de oncen-c tração:

Capítulo 2

Fundamentação Teórica

Para melhor compreensão do problema e dos tópicos abordados posteriormente, serão apresen-tados alguns conceitos sobre mel, visão computacional e técnicas de validação de resultados.

2.1 Palinologia

A palinologia é uma área que realiza estudos sobre alguns temas entre eles os grãos de pólen [28].Para facilitar a compreensão e atuação da área, alguns trabalhos serão apresentados, sendo eles:O trabalho [2] que teve o objetivo de realizar o estudo palinológico de 12 espécies de Acacia.Para isso, os grãos de pólen passaram pelo processo de acetólise (descrita posteriormente) eforam visualizados através do microscópio de luz e microscópio eletrônico de varredura. Com oestudo, foi possível concluir que, exceto uma espécie, as demais espécies analisadas não podemser diferenciadas de acordo com sua morfologia.

O trabalho [20] teve o objetivo de analisar e descrever a morfologia polínica de Euterpe ole-racea Mart. e Euterpe precatoria Mart. O material analisado foi submetido à acetólise e posteri-ormente ocorreu o plaqueamento (descrito posteriormente) e a análise microscópica do produto.As informações analisadas foram o tamanho do eixo polar, diâmetro equatorial, comprimentoe largura do colpo (aberturas presentes no grão de pólen) e espessura da exina (estrutura ex-terna do grão de pólen). Foram analisadas 10 imagens de 5 lâminas, totalizando 50 grãos depólen. Com a pesquisa foi possível veri�car que existe diferença entre Euterpe oleracea e Euterpeprecatoria, porém essa diferença não é su�ciente para diferenciar as espécies analisadas.

Como observado nos trabalhos acima, a classi�cação de grãos de pólen não é uma tarefatrivial e, em alguns casos, a obtenção de informações distintas é necessária.

2.2 Classi�cação visual de grãos de pólen

Atualmente a forma mais tradicional de realizar a classi�cação de grãos de pólen é através daclassi�cação visual dos grãos. Muitos trabalhos descrevem características e resultados obtidoscom essa classi�cação, sendo eles:

O trabalho [5] teve o objetivo de realizar a análise de amostras de mel encontradas no estadode Roraima com o intuito de realizar a determinação da origem �oral através dos grãos de pólenpresentes no produto. Neste trabalho, os pesquisadores capturaram amostras de mel na aldeiado Contão situada no nordeste do estado de Roraima. Foram coletados 500ml de mel em cadacolheita. A classi�cação foi realizada através da comparação das imagens microscópicas com asinformações presente em diversas literaturas. Os grãos de pólen foram classi�cados de acordocom sua frequência mensal nas amostras (essa contagem foi possível, pois a coleta teve duraçãode 5 meses). No total, houve a análise de 9 amostras de mel e a identi�cação de 20 tipos de

8

Page 15: UNIVERSIDADE CATÓLICA DOM BOSCO PROGRAMA DE PÓS-GRADUAÇÃO … · GIA, no Prgroama de Pós Graduação em Biotecnologia da Universidade Católica Dom Bosco - Áaer de oncen-c tração:

grãos de pólen. Foi observado as di�culdade na identi�cação visual de grãos de pólen de algunsgêneros devido à semelhança entre os grãos analisados. Foi possível analisar que nessa região ospólen de Mimosa polydactyla H.B.K. e Curatella americana L. ocorreram com maior frequência.

Há algumas espécies de grãos de pólen que causam alergias em algumas pessoas. Essas es-pecies são chamadas de alergóginas. O trabalho [8] realizou uma pesquisa durante 12 meses nacidade de São Paulo com o objetivo de identi�car as espécies encontradas com mais frequên-cia naquela região. As amostras capturadas foram comparadas com lâminas de referência. Aslâminas foram produzidas por grãos de pólen presentes em um herbário, por isso, as espécieseram conhecidas. Com o desenvolvimento do trabalho foi possível perceber a necessidade deum catálogo contendo as características das plantas que possuem efeitos alergógenos para tornarmais fácil a identi�cação dessas espécies principalmente pelos médicos alergistas. O estudo en-controu algumas espécies com características alergóginas e iniciou o desenvolvimento do catálogomencionado anteriormente.

2.3 Mel

O mel é um produto comestível produzido por abelhas melíferas. Esse produto possui carac-terísticas próprias, como cheiro, sabor e cor, que varia de amarelada a castanho-escura [7]. AFigura 2.1 ilustra a variação de coloração entre méis. Existem diferentes tipos de mel, como osméis �orais e o melato. A diferença entre esses produtos diz respeito a forma com que estes sãoproduzidos, sendo que o primeiro é originado do néctar das �ores e o segundo da secreção dasplantas ou excreções de insetos sugadores [23].

Figura 2.1: Amostras de méis com coloração variada capturada na Fazenda Escola da Universi-dade Católica Dom Bosco

O mel �oral apresenta subclasses, sendo elas o mel uni�oral, também chamado de mono�oral,que ocorre quando o produto é obtido através de �ores originadas de uma mesma espécie, famíliaou gênero. Desse modo o mel mono�oral apresenta características microscópicas semelhantes.Outra subclasse do mel �oral é o mel multi�oral, que apresenta néctar de diferentes origensvegetais [23]. As características microscópicas das subclasses foram evidenciadas devido ao fatodeste trabalho utilizar imagens microscópicas para obter informações sobre os grãos de pólen.

9

Page 16: UNIVERSIDADE CATÓLICA DOM BOSCO PROGRAMA DE PÓS-GRADUAÇÃO … · GIA, no Prgroama de Pós Graduação em Biotecnologia da Universidade Católica Dom Bosco - Áaer de oncen-c tração:

2.4 Angiospermas

Nas plantas que produzem �ores, denominadas Angiospermas, o órgão reprodutor feminino échamado de gineceu. Esse órgão é formado pelo estigma e ovário. O órgão reprodutor masculino,chamado de androceu, é composto pela antera, conectivo e �lete.

O grão de pólen, que é produzido nas anteras, é um grão microscópico formado pela exinae intina. A exina é uma parede externa e resistente que envolve o grão de pólen, ela possui afunção de proteger o material reprodutor masculino durante o processo de transferência do grãoda antera até o estigma. Ela é bastante resistente e apresenta uma forma de diferenciar grãosde pólen de uma mesma espécie [29]. Já a intina é a parede interna do grão. A diferenciação dogrão de pólen de uma espécie para outra se dá pela estrutura externa do grão. A Figura 2.2 (a)ilustra um grão de pólen de um mamoeiro selvagem e a Figura 2.2 (b) ilustra uma imagem degrão de pólen de roseira.

(a) (b)

Figura 2.2: (a) Imagem de grão de pólen de um mamoeiro selvagem com resolução de 672 X 506pixels e (b) Imagem de grão de pólen de uma roseira com resolução de 187 X 167 pixels.

Quando há o encontro de um óvulo, células existentes dentro do ovário, com um grão depólen, ocorre a fecundação. O transporte necessário para levar os grãos de pólen até o estigmade uma �or é chamado de polinização que é realizada através de agentes polinizadores. Essesagentes são representados pelo vento, insetos, água e morcegos, por exemplo [29].

Para ocorrer a fecundação, primeiro o grão de pólen precisa chegar até o estigma de uma�or, germinar e formar um tubo polínico. É através do tubo polínico que as células reprodutivasmasculinas chegarão até o ovário. No interior do ovário existem vários óvulos que são fecundadospor essas células masculinas. Quando uma fecundação é bem sucedida, o óvulo gera uma sementee o ovário gera um fruto [29].

O néctar é um líquido açucarado presente nas plantas. Esse líquido é um atrativo para algunsagentes polinizadores devido ao seu valor nutritivo [29]. Esses agentes utilizam o néctar comoalimento. No momento que os agentes vão até uma planta para capturar o néctar, eles acabamesbarrando nos grãos de pólen e ao capturar o néctar de outra planta ou no momento que voltampara a colmeia levam consigo todos os grãos das plantas que visitaram. Nas plantas esses pólenssão utilizados para realizar a fecundação, já na colmeia, esses grãos funcionam como uma espéciede identi�cadores contidos no mel. É através desse identi�cador que o mel será classi�cado.

10

Page 17: UNIVERSIDADE CATÓLICA DOM BOSCO PROGRAMA DE PÓS-GRADUAÇÃO … · GIA, no Prgroama de Pós Graduação em Biotecnologia da Universidade Católica Dom Bosco - Áaer de oncen-c tração:

2.5 Classi�cação da frequência polínica

A contagem e classi�cação visual do mel é realizada através da análise microscópicas de amostrasdo produto. Quando o especialista encontra grãos de pólen no mel, ele realiza a classi�caçãovisual e contagem dos grãos observados. Após a contagem visual realizada pelo especialista, aporcentagem de cada espécie é calculada para veri�car a frequência dos grãos de pólen presentesna amostra. A classi�cação das frequências segue o padrão presente na Tabela 2.1. Nessa tabelaa primeira coluna representa a porcentagem da frequência de grãos de pólen de cada uma dasespécies presentes na amostra e a segunda a classi�cação atribuída às espécies de acordo com afrequência dos grãos. [15].

Ocorrência na amostras Classi�cação> 45% pólen dominante

>=15% a <45% pólen acessório>=3% e <15% pólen isolado importante>=1% a <3% pólen isolado ocasional

< 1% pólen traço

Tabela 2.1: Classi�cação da ocorrência polínica em amostras de mel de acordo com a porcentagemde frequência dos grãos na contagem visual.

2.6 Visão computacional

Na área da visão computacional, são desenvolvidos algoritmos para obtenção de informações apartir de imagens, algumas vezes, buscando a automatização de tarefas geralmente associadasà visão humana. Na visão humana, os olhos capturam as imagens e posteriormente o cérebrorealiza a análise e identi�cação de seu conteúdo. A visão computacional possui uma série deetapas para reproduzir essa tarefa realizada pelos seres humanos.

Para determinados problemas, todas as etapas da visão computacional são aplicadas emsequência, porém essa não é uma regra para aplicações nessa área. Embora os conceitos men-cionados em seguida estejam apresentados em sequência e relacionados, eles são independentes,sendo assim, pode haver situações em que apenas uma ou algumas etapas conseguem resolver oproblema em questão com metodologias diferentes dessa apresentada.

Na etapa de pré-processamento, ocorrem processos como a redução de ruídos e o realce dasimagens, geralmente, com o intuito de aumentar a qualidade da imagem para que as etapas pos-teriores não sofram as interferências dessas imperfeições. Com a imagem pré-processada, ocorrea segmentação, que tem como objetivo dividir a imagem de acordo com os objetos de interesse.Com os grupos de objetos segmentados (por exemplo, as espécies de grãos de pólen), é necessáriorealizar a extração de informações que permitam a caracterização dos tipos de objetos de inte-resse para cada problema. Um grupo de objetos do mesmo tipo também é denominado classe.De�nidas as classes de um determinado problema, quando apenas a informação do objeto espe-cí�co é analisada, consegue-se identi�car a qual classe essa informação pertence. Esse processoé realizado por algoritmos de reconhecimento de padrões. Uma das principais abordagens parareconhecimento de padrões é a aprendizagem supervisionada, que, a partir de exemplos previa-mente classi�cados de objetos das diferentes classes, busca inferir modelos capazes de representare reconhecer novos objetos [24][13].

11

Page 18: UNIVERSIDADE CATÓLICA DOM BOSCO PROGRAMA DE PÓS-GRADUAÇÃO … · GIA, no Prgroama de Pós Graduação em Biotecnologia da Universidade Católica Dom Bosco - Áaer de oncen-c tração:

2.6.1 Imagens digitais

Na área de visão computacional, a principal informação obtida refere-se à imagem a ser analisada.Uma imagem é composta por um conjunto de pixels. Cada um desses pixels pode fornecer umasérie de informações. Dependendo do espaço de cor que esse pixel apresenta, um conjuntodiferente de dados pode ser observado.

Por exemplo, a Figura 2.3 (a) ilustra uma imagem em tons de cinza com 21X19 pixels. AFigura 2.3 (b) ilustra a imagem (a) que foi ampliada para facilitar sua visualização e a Figura2.3 (c) representa uma matriz com o valor de cada pixel presente na Figura 2.3 (a). Se a imagemestivesse no modelo de cor RGB (detalhado na seção 2.6.2), o valor presente na matriz seriadecomposto em três valores, um para cada componente (R, G e B).

(a) (b) (c)

Figura 2.3: (a) Imagem em tons de cinza, (b) imagem ampliada e (c) matriz de pixels corres-pondente

2.6.2 Extração de atributos

A extração de atributos visa extrair um conjunto de informações relevantes para cada classe.Essas informações são utilizadas para caracterizar objetos de uma mesma classe. A etapa desegmentação irá evidenciar apenas as regiões de interesse, nesse caso, os grãos de pólen. Paracaracterizar cada grão de pólen, a extração de atributos poderá ser aplicada, pois necessita-se discriminar os objetos e, posteriormente, caracterizá-los de acordo com as classes que elesconstituem. Por exemplo, os valores obtidos pela extração de atributos para caracterizar umadeterminada espécie de grão de pólen deverá ser diferente dos obtidos para caracterizar o fundoda imagem. Desse modo, será possível discriminar todas as classes que o projeto englobar. Otipo de característica a ser extraída está relacionado ao problema em questão, a extração podeutilizar diversos atributos [13][31][34]. Segue abaixo uma descrição dos extratores de atributosbaseados em forma, cor e textura que foram utilizados nesse projeto.

Atributos de cores

De acordo com o modelo de cor que uma imagem é processada, cada pixel pode obter um conjuntode informações diferentes. Essas informações podem ser utilizadas de acordo com o problema aser analisado. Por exemplo, um determinado trabalho pode utilizar a média dos valores presentesnos pixels, outro pode analisar os pixels indivualmente ou um histograma com as variações decores pode ser utilizado. Esta proposta utiliza a média dos valores de cada componente presenteem um modelo de cor.

12

Page 19: UNIVERSIDADE CATÓLICA DOM BOSCO PROGRAMA DE PÓS-GRADUAÇÃO … · GIA, no Prgroama de Pós Graduação em Biotecnologia da Universidade Católica Dom Bosco - Áaer de oncen-c tração:

• Modelo baseado em tons de cinza

O modelo de cores baseado em tons de cinza mais comum possui uma variação de 256tonalidades, pois possuem 8 bits para representarem essas tonalidades. O número de bitsusado para representar esse espaço de cor pode ser variado. Nesse módulo o modelo usadofoi de 256 tonalidades. Essas tonalidades vão da cor preta, representada pelo número 0,variedades de cinza até chegar na cor branca, representada pelo número 255. A Figura2.4 ilustra 3 pixels, o primeiro com valor 0, o segundo com o valor 180 e o terceiro comvalor 255 [24]. Para analisar uma imagem colorida com esse modelo, é necessário realizara conversão de cada pixel da imagem para tons de cinza.

(a) (b) (c)

Figura 2.4: (a) pixel na cor preta, (b) pixel na cor cinza e (c) pixel na cor branca

• Modelo RGB de cores

O modelo RGB é baseado nas cores primárias vermelho, verde e azul. Cada uma dessascores possui uma variação de 256 valores. Como são três componentes, esses podem sercombinados e gerar novas cores. Caso ocorram todas as combinações, poderá haver mais de16,7 milhões de cores distintas. A Figura 2.5 ilustra um exemplo de combinação das RGB.O nome desse modelo são as iniciais dessas cores primárias (Red, Green e Blue) [13][24].

Figura 2.5: Exemplo de combinações das cores primárias vermelho, verde e azul.

• Modelo HSB de cores

O modelo de cor HSB(Hue/matiz, Saturation/saturação e Brightness/brilho) baseia-sena visão humana. Descrevendo cada um desses componentes, pode-se entender melhorcomo o modelo trata as informações de cor. Matiz refere-se à cor propriamente dita -como vermelho, verde e azul -, já a saturação diz respeito à vivacidade da cor e o brilhocorresponde à intensidade de luz em uma cor - separando as cores em claras e escuras, porexemplo.

Atributos de Forma

Dependendo do objeto a ser analisado, seu formato pode trazer informações bastante importantescom relação à classe que ele representa. Por exemplo, supondo que em uma determinada situaçãohaja a necessidade de identi�car a diferença entre um grão de pólen de eucalipto e aroeira,ilustrados nas imagens (a) e (b), respectivamente, da Figura 2.6. Ao analisar o formato dessesdois objetos a caracterização deles torna-se trivial. Para este trabalho, os atributos de formautilizados foram os seguintes:

13

Page 20: UNIVERSIDADE CATÓLICA DOM BOSCO PROGRAMA DE PÓS-GRADUAÇÃO … · GIA, no Prgroama de Pós Graduação em Biotecnologia da Universidade Católica Dom Bosco - Áaer de oncen-c tração:

(a) (b)

Figura 2.6: (a) Grão de pólen de eucalipto, (b) grão de pólen de aroeira

• Fator de forma (form factor)

O fator de forma é um atributo obtido através da divisão da área do objeto pela áreade uma circunferência. Supondo que em cima do seu objeto de interesse haja o desenhode uma circunferência. No momento que o perímetro do objeto for calculado, pode-seobter, por aproximação, o perímetro da circunferência. Com o valor do perímetro, o raioda circunferência pode ser calculado e por consequência a área da circunferência pode serobtida. Como o perímetro da circunferência é obtido através da equação 2 × π × R, emque R representa o raio da circunferência, é possível a�rmar que o raio da circunferênciapode ser representado pela equação P

2×π , em que P representa o perímetro do objeto. Comessas informações é possível obter a área da circunferência e o fator de forma do objeto emquestão poderá ser calculado. As Equações 2.1 e 2.2 são utilizadas para calcular a áreada circunferência e o fator de forma, respectivamente [35]. Para as equações, as siglas FFrepresentam o fator de forma, Aobj representa a área do objeto e Acirc representa a áreada circunferência.

Acirc = π ×R2 = π ×(

P

2× π

)2

=π × P 2

4× π2=

P 2

4× π(2.1)

FF =AobjAcirc

=AobjP 2

4×π=Aobj × 4× π

P 2(2.2)

• Circularidade (roundness)

A circularidade tem o objetivo de medir o quão alongado é um objeto e seu cálculo é obtidode forma similar ao do fator de forma. Suponha que uma circunferência é desenhada emtorno do objeto de interesse. Como a circunferência foi desenhada em torno do objeto,o diâmetro da circunferência será proporcional ao comprimento do objeto, sendo assim, ametade do comprimento do objeto corresponde ao raio da circunferência. Com o valor doraio a circularidade do objeto poderá ser medida. A Equação 2.3 é utilizada para calculara circularidade de um objeto [35]. Para a equação as siglas Aobj representa a área doobjeto, Acirc representa a área da circunferência e comprimento representa o comprimentodo objeto.

C =AobjAcirc

=Aobjπ ×R2

=Aobj

π × ( comprimento2 )2=

Aobjπ×comprimento2

4

=4×Aobj

π × comprimento2(2.3)

14

Page 21: UNIVERSIDADE CATÓLICA DOM BOSCO PROGRAMA DE PÓS-GRADUAÇÃO … · GIA, no Prgroama de Pós Graduação em Biotecnologia da Universidade Católica Dom Bosco - Áaer de oncen-c tração:

• Relação entre eixos (aspect radio)

Um outro atributo capaz de medir a circularidade de um objeto é a relação entre os eixos.Para obter essa informação é necessário saber qual é a largura e o comprimento do objeto.Essa informação é obtida quando uma elipse é desenhada sobre o objeto. O maior eixoda elipse criada representa o comprimento e o menor eixo representa a largura do objeto.Assim que esses valores são divididos, a relação entre eixos é obtida. A Equação 2.4 éutilizada pra calcular a relação entre eixos [35]. Para auxiliar a compreensão da relaçãoentre os eixos, na Imagem 2.7 foi criada a elipse, com o maior e o menor eixo descritos nestaseção. Essa imagem ilustra um grão de pólen de aroeira com uma elipse, representada pelacor verde, uma reta azul escura indicando o maior eixo e uma reta azul clara que representao menor eixo.

AR =comprimento

largura(2.4)

Figura 2.7: Exemplo ilustrando uma imagem de grão de pólen com uma elipse verde, uma linhaazul escura indicando o comprimento do objeto e uma linha azul clara indicando a largura doobjeto.

• Densidade

Para obter a densidade de um objeto, é necessário extrair a raiz quadrada da circularidade,como ilustra a Equação 2.5. Nessa equação, C representa a circularidade. [35].

D =√C (2.5)

Atributos de textura

Um atributo de textura visa caracterizar um objeto de acordo com a distribuição de cor existentenele. Conforme a organização das cores presentes na imagem o objeto pode ser totalmentemodi�cado. Por exemplo, a textura de uma zebra, ilustrada na Figura 2.8 (a), e a de um dálmata,ilustrada na Figura 2.8 (b), possuem as mesmas cores, mas a forma como elas estão presentes naimagem torna possível a distinção entre essas imagens. Em seguida serão apresentadas algumastécnicas para extrair informações relacionadas à textura de uma imagem.

PBL - Padrões Binários Locais

O PBL é um método de extração de atributos que consiste em atribuir um valor a cada pixel daimagem de acordo com a variação da intensidade do pixel em relação aos seus vizinhos. Váriasaplicações utilizam o método PBL, dentre elas destacam-se o reconhecimento de faces, texturase movimentos [22] [32].

15

Page 22: UNIVERSIDADE CATÓLICA DOM BOSCO PROGRAMA DE PÓS-GRADUAÇÃO … · GIA, no Prgroama de Pós Graduação em Biotecnologia da Universidade Católica Dom Bosco - Áaer de oncen-c tração:

(a) (b)

Figura 2.8: (a) Exemplo de textura de uma zebra e (b) exemplo de textura de um dálmata.

A Figura 2.9(a) representa uma imagem na forma de matriz, os índices dessa matriz estãoevidenciados pela cor cinza. Cada posição dessa matriz representa um pixel da imagem. Ométodo realiza uma varredura na imagem e para cada pixel calcula sua vizinhança através deum número de vizinhos v e um raio r. Por exemplo, o pixel na posição (2,3) da matriz da Figura2.9(a), com r=1 e v=8, terá a vizinhança conforme ilustrado na Figura 2.9(b). Posteriormenteocorre uma comparação do valor da intensidade do pixel central, no caso (2,3), com cada pixelvizinho. Os vizinhos que possuem valor maior ou igual ao pixel central recebem 1 e os menores 0,conforme a Figura 2.9(c). Com essa nova matriz binária, cada posição é multiplicada pelo valordo peso de cada pixel, como ilustra a Figura 2.9(d) e �nalmente a soma dos valores da matrizé o resultado do LBP para o pixel central. O valor do peso do pixel é calculado assim como aconversão do valor binário para decimal. A Figura 2.9(e) resulta no valor do PBL para o pixel(2,3), 16 + 32 + 64 + 128 = 240. O Algoritmo 1, pode ser usado para calcular o PBL.

Com o intuito de encontrar um valor invariante à rotação para representar o PBL, surgiu oPBLROT - Padrão Binário Local - Rotação Invariante. A rotação invariante tem como objetivorealizar a variação em uma imagem com o intuito de encontrar um menor valor para representá-la, sem que haja uma alteração na sua forma original. Para a rotação invariante a variaçãoangular de uma imagem não altera sua representação, porém para o método LBP uma variaçãodesse tipo representa uma alteração no seu resultado �nal devido ao peso atribuído a cada pixel.Esse peso é calculado através da expressão 2p, sendo que o valor de p representa a posição dopixel da imagem. Esse valor inicia em 0 e possui acréscimo unitário a cada novo pixel presentena imagem analisada.

PBLROT - Padrões Binários Locais Invariante à Rotação

O PBLROT realiza rotações com a cadeia de binários, ilustrada anteriormente através da Figura2.9(c). O número de rotações é igual ao tamanho da cadeia de binários, pois o algoritmo realizarotações até que a cadeia volte ao estado original. Desse modo, todas as combinações sãoanalisadas. A cada rotação uma nova cadeia é obtida e multiplicada pelo valor do peso de cadapixel. O valor do peso do pixel não sofre alteração, com isso, apenas a cadeia de binários émodi�cada. Por exemplo, a Figura 2.10 (a) ilustra uma cadeia de binários, a Figura 2.10 (b)ilustra uma forma de rotação dessa cadeia de binários e a Figura 2.10 (c) ilustra a cadeia debinários após a rotação. Sendo assim, a cada rotação uma nova cadeia é multiplicada pelos pesos�xos e, desse modo, um novo valor de LBP é obtido. No decorrer do algoritmo, várias rotaçõessão realizadas e o menor valor obtido é escolhido [32]. O Algoritmo 2 pode ser utilizado paracalcular o PBLROT.

16

Page 23: UNIVERSIDADE CATÓLICA DOM BOSCO PROGRAMA DE PÓS-GRADUAÇÃO … · GIA, no Prgroama de Pós Graduação em Biotecnologia da Universidade Católica Dom Bosco - Áaer de oncen-c tração:

(a)

(b) (c)

(d) (e)

Figura 2.9: Exemplo do método LBP.

Algoritmo 1 PBL - Realiza a extração de atributos usando o método Padrões Binários LocaisEntrada: Matriz I, mxn. Cada posição dessa matriz representa um pixel da imagem.Raio R, distância para calcular os vizinhos do pixel central.P, representa o número de vizinhos.i e j posição do pixel em questão.Saída: Matriz L, mxn, com o resultado do Padrão Binário Local de pixel.Matriz N, mxn, contendo o resultado da Rotação Invariante de cada pixel.Vetor V[], com a cadeia de binários gerada para o pixel em questão.Vetor Z[], contendo a representação decimal de cada pixel.Q=0;para (p=0) to (p<(P-1)) façaX = i + R*cos((2*π*p)/P);Y = j - R*sen((2*π*p)/P);W = Interpolação(X, Y);se ((I[i][j] - W)<=0) entãoV[p]=0;Q = 0;

senão

V[p]=1;Q += 2p;�m se

Z[p] = 2p;L[i][j] = Q+ L[i][j];�m para

N[i][j]=LBPROT(V[], Z[]);

17

Page 24: UNIVERSIDADE CATÓLICA DOM BOSCO PROGRAMA DE PÓS-GRADUAÇÃO … · GIA, no Prgroama de Pós Graduação em Biotecnologia da Universidade Católica Dom Bosco - Áaer de oncen-c tração:

(a) (b) (c)

Figura 2.10: (a) representa uma cadeia de binários, (b) representa uma forma de rotação e (c)representa a cadeia de binários após a rotação.

Algoritmo 2 PBLROT - Obtém um código PBL invariante à rotação.Entrada: Cadeia de binários representada pelo vetor V.Cadeia contendo a representação decimal de cada pixel.Saída: S, menor valor resultante da rotação da cadeia em questão.A = 0, S = 0, T = -1;para (x=0) to (x<8) façay = 0; S = 0;enquanto (y<8) façaA = resto(x+y)/8;S += (V[A]*Z[y]);y++;

�m enquanto

se (S < T || T == -1) entãoT = S;

�m se

�m para

18

Page 25: UNIVERSIDADE CATÓLICA DOM BOSCO PROGRAMA DE PÓS-GRADUAÇÃO … · GIA, no Prgroama de Pós Graduação em Biotecnologia da Universidade Católica Dom Bosco - Áaer de oncen-c tração:

Matriz de Coocorrência

O método matriz de coocorrência baseia-se na análise de pares de tons de cinza em uma imagem.O objetivo desse método é representar uma imagem de acordo com a quantidade de ocorrên-cias dos pares de tons de cinza. A partir do algoritmo de matriz de coocorrência atributoscomo rugosidade, granulosidade, aspereza, regularidade, direcionalidade de um objeto podemser obtidos.

O método percorre a imagem veri�cando a coocorrência de pixels separados por um ânguloa e uma distância d. Para cada valor de distância e ângulo, uma matriz chamada de matriz decoocorrência é criada. Essa matriz possui dimensão igual à variação de tons de cinza analisados.Por exemplo, se 255 variações de tons de cinza fossem analisadas, a matriz de coocorrência teriadimensão de 255x255 pixels. A cada iteração a matriz de coocorrência recebe o acréscimo dovalor 1 referente ao par de pixel analisado [1].

A Figura 2.11 (a) representa uma imagem na forma de matriz. Cada posição da matrizrepresenta um pixel da imagem original. Para esse exemplo, uma variação de 3 tons de cinzaserá utilizada, por isso a matriz de coocorrência terá dimensão de 3X3. Também serão utilizadoso ângulo 0 e a distância 1. O número de variações de ângulo e/ou distância é correspondente aonúmero de matrizes de coocorrência criadas, ou seja, se 3 variações de ângulo fossem analisadas,3 matrizes de coocorrência seriam criadas e cada uma delas corresponderia à ocorrência de paresde tons de cinza para uma distância d e um ângulo a. Cada linha da matriz de coocorrênciarepresenta um valor de tom de cinza que para esse exemplo será 0, 1 e 2. O mesmo acontececom as colunas presentes nesta matriz. Desse modo, é possível representar todas as combinaçõespossíveis de pares de tons de cinza presentes na imagem. Para preencher a matriz de coocorrênciatodos os pares de tons de cinza são obtidos. Por exemplo, ao analisar o par de tons de cinza 0e 0, percebe-se que eles aparecem quatro vezes na imagem, a primeira ocorrência desse par estápresente na posição (0,0)(0,1), a segunda na posição (0,1)(0,2), a terceira na posição (2,3)(2,4) ea quarta na posição (4,0)(4,1) da matriz com as informações da imagem, por isso a posição (0,0)da matriz de coocorrência possui valor quatro.

(a) (b)

Figura 2.11: Matriz composta pelos valores de uma imagem (a), matriz de coocorrência comângulo 0 e distância 1 (b).

Mapas de Interação

O método baseado em mapas de interação analisa os pares de pixel de uma imagem, em tonsde cinza. O mapa de interação permite a obtenção de atributos como entropia, dissimilaridade,contraste, momento da diferença inversa, segundo momento angular e diferença inversa de umaimagem.

O método consiste em, dado um valor do ângulo a e uma distância d, calcular a soma domódulo da diferença entre os pixels e armazenar este valor em uma matriz. Esta matriz, chamadade mapa polar de interação, terá dimensão igual às variações de distâncias e ângulos escolhidos.O valor da diferença entre os pixels é armazenado na posição referente à posição do ângulo e

19

Page 26: UNIVERSIDADE CATÓLICA DOM BOSCO PROGRAMA DE PÓS-GRADUAÇÃO … · GIA, no Prgroama de Pós Graduação em Biotecnologia da Universidade Católica Dom Bosco - Áaer de oncen-c tração:

da direção, os valores seguintes são somados às suas respectivas posições até que a varredura daimagem seja concluída [1].

Nesse exemplo os ângulos 0◦, 45◦ e 90◦ e distância 1 e 2 serão usados. A Figura 2.12(a) ilustrauma matriz na forma de imagem. Cada posição dessa matriz representa um pixel da imagem.O método percorre a matriz e para cada pixel calcula a diferença entre o pixel em questão como pixel calculado, de acordo com os valores do ângulo e da distância. O resultado da diferençaé adicionado à posição da distância e do ângulo utilizados. Os pixels que, dadas a distância e oângulo se encontrarem fora da matriz, são desconsiderados 2.12(b).

(a) (b)

Figura 2.12: Exemplo utilizando mapas de interação.

Transformada de Wavelets

A transformada de Wavelets é uma técnica capaz de analisar simultâneamente informações defrequência e espaço em uma mesma imagem. Ela analisa a imagem através de multiplas visões,criando assim sub-imagens da imagem original também chamadas de sub-bandas. A Figura 2.13(a) ilustra uma imagem de grão de pólen e a Figura 2.13 (b) ilustra as sub-bandas, da imagemoriginal. As diferentes texturas encontradas na imagem original podem ser representadas a partirdas informações existentes em cada uma das sub-bandas criadas pelo algoritmo [30].

(a) (b)

Figura 2.13: (a) Imagem original e (b) Imagem das bandas após a aplicação da transformada deWavelets

2.7 Seleção de atributos

Dependendo do problema analisado, vários atributos são extraídos, porém determinada infor-mação pode não auxiliar na classi�cação do objeto ou ser um dado que representa, em umaporcentagem pequena, a classe a ser analisada. Quando um atributo representa pouco umaclasse, sua presença no conjunto de atributos torna-se pouco importante, pois o sistema deveráprocessar um dado com pouca ou nenhuma relevância no resultado �nal. Nesses casos, uma área

20

Page 27: UNIVERSIDADE CATÓLICA DOM BOSCO PROGRAMA DE PÓS-GRADUAÇÃO … · GIA, no Prgroama de Pós Graduação em Biotecnologia da Universidade Católica Dom Bosco - Áaer de oncen-c tração:

chamada seleção de atributos consegue eliminar esses atributos pouco importantes que podemtrazer custo computacional e até atrapalhar o resultado �nal [17].

A seleção de atributos veri�ca quais atributos são relevantes na caracterização de uma classe.Desse modo, ela apresenta uma lista de atributos relevantes e, com base nesses valores, umnovo conjunto de atributos pode ser gerado. Esse novo conjunto irá conter o grupo de atributosselecionados pelos algoritmos. Em muitos casos, após a seleção de atributos, o resultado daclassi�cação dos dados não sofre uma interferência negativa. Sendo assim, a classi�cação dasinformações permanece a mesma ou sofre uma alteração positiva (melhor classi�cação). A me-lhoria da classi�cação se deve a remoção de atributos que em vez de auxiliar a distinção da classeacabavam confundindo o classi�cador no momento da classi�cação [17].

2.8 Validação dos resultados

A utilização de métricas para avaliar o desempenho de algoritmos é uma forma de realizar compa-rações entre as técnicas utilizadas. Existem várias métricas que avaliam diferentes informações.A escolha das métricas depende do problema e dos algoritmos aplicados. Tentando analisar me-lhor o resultado da classi�cação dos algoritmos testados nesta proposta, algumas métricas serãoutilizadas para avaliar tanto o erro quanto o acerto apresentado pelo classi�cador. Para avaliaros classi�cadores, testes de hipótese serão aplicados a �m de veri�car se os resultados obtidoscom as métricas são estatisticamente diferentes ou não.

O exemplo descrito em seguida será utilizado para explicar as métricas utilizadas neste traba-lho. Por exemplo, supondo que em uma determinada aplicação o experimento realizado apresente9 imagens da classe 1 e 1 da classe 2. Supondo que o classi�cador enquadre todas as imagenscomo pertencentes à classe 1. Esse problema resultaria uma matriz, chamada de matriz de con-fusão, que apresenta o número de imagens classi�cadas corretamente na diagonal principal e osdemais fora dela. A Tabela 2.2 ilustra a matriz de confusão do exemplo supracitado. Em seguida,as métricas serão descritas.

9 0 Classe11 0 Classe2

Tabela 2.2: Exemplo de matriz de confusão

Taxa de acerto

Quando a classi�cação de objetos de interesse é realizada, obtém-se um valor denominado detaxa de acerto. Essa taxa apresenta a porcentagem de acerto obtida no experimento que, emalguns casos, pode não representar de forma clara a classi�cação obtida. O que a taxa de acertonão leva em consideração é a quantidade de informações do classe 2 que não foram classi�cadas,pois no exemplo 100% da classe 2 foi classi�cada incorretamente. A equação 2.6 ilustra como ataxa de acerto é calculada. Para realizarmos esse calculo é necessário calcular o total de acertoobtido pelo classi�cador dividido pelo total de classi�cações realizadas. As variáveis NTA e NTCrepresentam o número total de acerto e número total de classi�cações, respectivamente. Parao exemplo, o resultado da taxa de acerto seria 90%, pois 9 das 10 imagens foram classi�cadascorretamente.

taxaDeAcerto =NTA

NTC(2.6)

21

Page 28: UNIVERSIDADE CATÓLICA DOM BOSCO PROGRAMA DE PÓS-GRADUAÇÃO … · GIA, no Prgroama de Pós Graduação em Biotecnologia da Universidade Católica Dom Bosco - Áaer de oncen-c tração:

Recall

O recall é capaz de avaliar o número de objetos que o classi�cador conseguiu classi�car. Seuresultado varia de 0 a 1, sendo que 0 é obtido quando o classi�cador não consegue acertarnenhum objeto da classe de interesse e 1 quando o classi�cador acerta todos os objetos analisados.A equação 2.7 exibe como o recall deve ser calculado. As variáveis TA e TC representam ototal de acerto e o total de objetos classi�cados como pertencentes à uma determinada classe,respectivamente [6]. Para o exemplo o recall da classe1 seria 0.9 e o da classe2 seria 0.

recall =TA

TC(2.7)

Precision

O precision visa avaliar quão preciso foi a classi�cação dos dados. Assim como o recall, o precisiontambém varia de 0 a 1, porém o valor 1 representa que o classi�cador não errou nenhum dado e 0signi�ca que ele errou todos os dados. Ao contrário do recall, o precision leva em consideração aquantidade de erros cometidos durante a classi�cação dos dados. A equação 2.8 é utilizada paracalcular esta métrica. As variáveis TA e TE representam o número de objetos que o classi�cadoracertou e o número de objetos de determinada classe que o classi�cador errou, respectivamente[6]. Com base no exemplo, o resultado do precision da classe1 seria 9/ (9 + 0) = 1 e da classe2seria 0.

precision =TA

TA+ TE(2.8)

f-score

O f-score é uma união do resultado do recall com o resultado do precision. Esse resultado écalculado através da equação 2.9 e também varia de 0 a 1.

F = 2 ∗ precision ∗ recallprecision+ recall

(2.9)

2.8.1 Teste de hipótese

Teste de Friedman

O teste de Friedman é um teste não - paramétrico. Isso signi�ca que a distribuição das informa-ções são apresentadas de forma livre e não seguem um padrão de distribuição modelado atravésde uma distribuição gaussiana, por exemplo.

Para esta proposta, o teste de Friedman visa analisar o resultado obtido pelos classi�cadorese veri�car se a hipótese previamente descrita por ele é verdadeira ou não. Uma das situações queo teste de Friedman foi aplicado neste trabalho é no resultado dos algoritmos de classi�cação.Para facilitar a compreensão deste teste, o exemplo dos classi�cadores serão utilizados.

Este teste assume a hipótese que os classi�cadores são iguais. Essa hipótese que o testeassume, também é chamada de hipótese nula. Um valor, chamado de valor p é calculado e, combase no resultado que ele apresenta, a hipótese nula pode ser rejeitada ou não. Através do valorde p é possível rejeitar ou não a hipótese nula de acordo com o grau de signi�cância que seu testeirá adotar. Se o valor de p for menor que o valor de signi�cância a hipótese nula será rejeitada,logo pode-se a�rmar que os classi�cadores são diferentes. Caso contrário, pode-se a�rmar quea hipótese nula é aceita e que os classi�cadores são iguais. Por exemplo, se um experimentopossuir 5% de signi�cância e o resultado do p for de 1% quer dizer que o valor de p é menor que

22

Page 29: UNIVERSIDADE CATÓLICA DOM BOSCO PROGRAMA DE PÓS-GRADUAÇÃO … · GIA, no Prgroama de Pós Graduação em Biotecnologia da Universidade Católica Dom Bosco - Áaer de oncen-c tração:

o valor de signi�cância e a hipótese nula pode ser rejeitada. Ao rejeitar a hipótese nula, pode-sedizer que os classi�cadores são diferentes, porém não se sabe qual é o melhor deles. Por isso, aanálise de post hoc é aplicada. Esse teste consegue mostrar qual classi�cador apresenta melhorresultado [12].

Teste T-Student

O teste T-Student é um teste paramétrico. Isso signi�ca que a distribuição das informações podeser modelado através de uma distribuição gaussiana. Uma forma de utilizar esse teste é atravésda comparação dois a dois. Por exemplo, supondo que existam 3 classes (A, B e C) que precisamser comparados, aplicando a comparação em par, o grupo A deveria ser comparado com o grupoB, o grupo A com o grupo C e o grupo B com o grupo C. Esse teste considera como hipótese nulaque os dados comparados são iguais e dependendo do valor de signi�cância obtido a hipótese nulapode ser rejeitada ou não. O teste T-Students é um teste muito usado e presente no WEKA.Para esta proposta cada grupo representa um classi�cador. O teste T-Students também podeser aplicado para realizar a comparação simultânea entre 3 ou mais grupos como mencionado notrabalho de [14].

23

Page 30: UNIVERSIDADE CATÓLICA DOM BOSCO PROGRAMA DE PÓS-GRADUAÇÃO … · GIA, no Prgroama de Pós Graduação em Biotecnologia da Universidade Católica Dom Bosco - Áaer de oncen-c tração:

Capítulo 3

Aprendizagem supervisionada

Há três tipos de algoritmos de aprendizagem automática, sendo eles: supervisionado, quando asinformações das classes são previamente conhecidas, não supervisionado, quando as informaçõesdas classes não são conhecidas e semi-supervisionado, quando algumas das informações referentesàs classes são obtidas [25][36]. Este trabalho utilizará a aprendizagem supervisionada.

O principal objetivo da aprendizagem supervisionada é generalizar as informações recebidasno treinamento para que as classes analisadas possam ser classi�cadas com e�cácia. Ela é uti-lizada para a classi�cação dos objetos desconhecidos de acordo com informações já conhecidasde classes pertencentes ao problema em questão, ou seja, os algoritmos serão treinados com asinformações de cada classe presente no problema que serão previamente fornecidas aos classi�-cadores. Quando um objeto desconhecido for analisado, ele será comparado com as informaçõesdos objetos já conhecidas e de acordo com as métricas utilizadas pelos algoritmos de classi�caçãoa amostra será classi�cada.

Por exemplo, supondo que uma determinada aplicação necessite realizar o reconhecimento deletras a e b, ilustradas na Figura 3.1 (a) e (b). Usando a aprendizagem supervisionada, o clas-si�cador precisará ser treinado com atributos extraídos das classes supracitadas. O treinamentoé a fase em que o classi�cador �aprende"com base nos dados extraídos das amostras das classes.Para avaliar a aprendizagem do algoritmo, após ele aprender com os valores dos atributos, decada classe, fornecidos na fase de treinamento, um novo conjunto de informações pode ser tes-tado. O objetivo desse teste geralmente é validar se o treinamento foi bom o su�ciente para queo classi�cador consiga reconhecer um conjunto de informações até então desconhecido.

(a) (b)

Figura 3.1: (a) Exemplo de imagens da classe A e (b) Exemplo de imagens da classe B.

Esse trabalho irá utilizar 4 algoritmos de aprendizagem supervisionada, sendo eles o KNN[9],C4.5[9], SVM[9] e FCO (Floresta de Caminhos Ótimos). A FCO será explicada com mais detalhespor ser o algoritmo menos conhecido.

3.1 Floresta de Caminhos Ótimos (FCO)

Para cada imagem analisada, um conjunto de características (atributos) é extraído. Esse con-junto é chamado de vetor de atributos. Para que os atributos sejam utilizados para generalizar

24

Page 31: UNIVERSIDADE CATÓLICA DOM BOSCO PROGRAMA DE PÓS-GRADUAÇÃO … · GIA, no Prgroama de Pós Graduação em Biotecnologia da Universidade Católica Dom Bosco - Áaer de oncen-c tração:

as características de uma classe, algoritmos de aprendizagem de máquina supervisionada sãoutilizados para criar classi�cadores a partir de exemplos.

Existem vários algoritmos que desempenham a classi�cação dos atributos extraídos. A técnicaestudada neste trabalho é denominada Floresta de Caminhos Ótimos (FCO). O FCO é baseadono algoritmo da Transformada de Imagem Floresta (IFT) [25][11].

Nessa técnica, os dados obtidos da extração de atributos são modelados como grafos. Nessesgrafos, cada vetor de atributos compõe um nó e as arestas são obtidas através da relação deadjacência entre os nós do grafo. Cada nó possui um rótulo que representa a classe do nó. Noproblema abordado neste trabalho, o rótulo é o nome da espécie de grão de pólen, por exemplo. Arelação de adjacência pode ser de�nida e ponderada por alguma técnica que calcula a distânciaentre os valores obtidos nos vetores de atributos. Na abordagem utilizada neste trabalho, arelação de adjacência entre todos os nós será realizada, sendo assim um grafo completo seráformado.

Na etapa do treinamento, é aplicado um algoritmo que gera uma árvore geradora mínima ouMST (Minimum Spanning Tree) no grafo completo. Esse algoritmo resulta um subgrafo geradoa partir do grafo completo. Com o subgrafo, nós de fronteira (nós de classes diferentes que estãofortemente conexos) são detectados e de�nidos como os protótipos. Nesse momento, a relação deadjacência entre os rótulos é quebrada e árvores com caminhos ótimos são criadas (uma árvore écriada para cada classe). Várias árvores de caminhos ótimos induzem uma �oresta de caminhosótimos que dá nome ao algoritmo.

Na classi�cação, uma nova amostra é comparada com os nós das árvores de caminhos mínimosgerados no treinamento e a relação de adjacência entre o novo nó com todos os nós do grafo érealizada. A relação de adjacência que possuir menor custo é mantida e as demais são desfeitas.Desse modo, o novo nó �ca conectado a um nó de uma das árvores e nesse momento o rótulopresente no nó que foi conectado é copiado para o novo nó e ele passa a pertencer àquela árvore.A seguir os passos para o aplicação da técnica serão descritos e exempli�cados.

3.2 Treinamento

Neste trabalho cada grão de pólen gera um vetor de atributos que gera um nó do grafo. Nosexemplos usados neste capítulo, as informações presente nos nós representam os atributos dosgrãos de pólen e os valores entre eles ilustra a relação de adjacência entre os nós obtida atravésda distância Euclidiana.

Na etapa de treinamento, após a criação de todos os nós ocorre, a relação de adjacência entretodos os nós que gera um grafo completo. A Figura 3.2 ilustra um exemplo de grafo completoque apresenta dois rótulos ilustrados pelas cores azul escuro e claro. Após a realização do grafocompleto, a relação de adjacência entre os nós é calculada. A Figura 3.3 ilustra a relação deadjacência entre todos os nós do grafo completo. Outras medidas podem ser utilizadas paracalcular a distância entre os nós, porém este trabalho seguiu a mesma distância proposta por[25]. O subgrafo do grafo da Figura 3.3 pode ser visualizado na Figura 3.4. Como mencionadoanteriormente, o subgrafo é obtido após a aplicação do algoritmo que gera a árvore geradoramínima.

Com o subgrafo de�nido é necessário encontrar os protótipos de cada classe. Os nós presentesnas regiões de fronteira entre classes distintas serão de�nidos como protótipos. Em alguns casos,mais de um nó pode ser considerado protótipo de uma mesma classe, porém é necessário garantirque uma classe possui no mínimo 1 protótipo. Fazendo uma analogia com o problema proposto,cada classe é uma espécie de grão de pólen como o assa-peixe e aroeira, por exemplo. O númerode classe não é �xo, porém foram usadas apenas duas classes para facilitar a compreensão doalgoritmo. A Figura 3.5 ilustra a escolha dos protótipos pertencente à classe azul escura e

25

Page 32: UNIVERSIDADE CATÓLICA DOM BOSCO PROGRAMA DE PÓS-GRADUAÇÃO … · GIA, no Prgroama de Pós Graduação em Biotecnologia da Universidade Católica Dom Bosco - Áaer de oncen-c tração:

Figura 3.2: Grafo completo.

Figura 3.3: Grafo completo com a relação de adjacência entre as arestas.

Figura 3.4: Subgrafo gerado a partir da árvore geradora mínima.

o protótipo pertencente à classe azul clara. Os protótipos estão evidenciados por um círculovermelho presente ao redor do nó. Assim que os protótipos são escolhidos, a ligação entre eles édesfeita. Por esse, motivo na Figura 3.5 a relação entre esses dois nós deixou de existir.

26

Page 33: UNIVERSIDADE CATÓLICA DOM BOSCO PROGRAMA DE PÓS-GRADUAÇÃO … · GIA, no Prgroama de Pós Graduação em Biotecnologia da Universidade Católica Dom Bosco - Áaer de oncen-c tração:

Figura 3.5: De�nição dos protótipos de cada classe.

3.3 Classi�cação

Com o grafo treinado, é possível iniciar a etapa de classi�cação de uma nova amostra. Nessaetapa, um novo nó é comparado com todos os nós. Após a relação do novo nó com os demais, ocusto entre eles é calculado. A Figura 3.6, ilustra um novo nó representado pela cor branca e acomparação deste com os nós presentes no grafo.

Figura 3.6: Comparação de uma nova amostra com as amostras existentes no grafo.

Após realizar todas as comparações, a relação com o menor custo é escolhida e o novo nó éde�nido como pertencente à classe do nó que ele foi conectado. A Figura 3.7 ilustra um exemplode classi�cação em que o último nó inserido foi classi�cado como pertencente à classe azul clara.

27

Page 34: UNIVERSIDADE CATÓLICA DOM BOSCO PROGRAMA DE PÓS-GRADUAÇÃO … · GIA, no Prgroama de Pós Graduação em Biotecnologia da Universidade Católica Dom Bosco - Áaer de oncen-c tração:

Figura 3.7: Classi�cação da nova amostra como pertencente à classe azul clara.

28

Page 35: UNIVERSIDADE CATÓLICA DOM BOSCO PROGRAMA DE PÓS-GRADUAÇÃO … · GIA, no Prgroama de Pós Graduação em Biotecnologia da Universidade Católica Dom Bosco - Áaer de oncen-c tração:

Capítulo 4

Materiais e Métodos

Em um dos trabalhos englobados no projeto MEL, foi realizada uma pesquisa na região centro-oeste a �m de obter informações dos apicultores com relação à forma como o produto é produzidoe às características mais comuns dos produtos comercializados por eles. Dentre essas caracte-rísticas, pode-se citar o nome das espécies �orais mais predominantes na região. Essas espéciesfuncionam como um marco para uma região. Neste trabalho, essas plantas que funcionam comomarco serão chamadas de plantas regionais.

No trabalho [4], a autora percorreu algumas cidades da região centro-oeste, realizou umquestionário com os apicultores, coletou 0.5kg de mel de cada apiário visitado e através dasinformações obtidas, foi possível encontrar as plantas regionais, sendo elas: Cipó-uva, Assa-peixe, Aroeira, Peito de Pombo e Capitão. As espécies foram catalogadas de acordo com seunome vulgar e com a percepção dos apicultores. Atualmente, dentre as plantas regionais, oprojeto Pólen possui amostras de imagens das seguintes classes: Assa-peixe, ilustrado na Figura4.1 (a), Aroeira, ilustrado na Figura 4.1 (b) e Cipó-Uva, ilustrado na Figura 4.1 (c). Foi atravésdo trabalho de [4], que as espécies regionais puderam ser conhecidas. É importante lembrar queas plantas regionais foram obtidas através da percepção dos apicultores, ou seja, não houve umestudo dos grãos de pólen mais frequentes para que as plantas regionais fossem identi�cadas.

(a) (b) (c)

Figura 4.1: (a) Grão de pólen de Assa-peixe, (b)Grão de pólen de Aroeira e (c) Grão de pólende Cipó-Uva

Outra pesquisa realizada no projeto MEL visou analisar os méis capturados na região centro-oeste e veri�car se as espécies apontadas pelos apicultores como espécies regionais seriam encon-tradas nos méis observados. Esses méis foram capturados na cidade de Bonito - Mato Grosso doSul.

Com as plantas regionais já conhecidas, outro trabalho também pertencente ao projeto MEL,

29

Page 36: UNIVERSIDADE CATÓLICA DOM BOSCO PROGRAMA DE PÓS-GRADUAÇÃO … · GIA, no Prgroama de Pós Graduação em Biotecnologia da Universidade Católica Dom Bosco - Áaer de oncen-c tração:

capturou grãos de pólen diretamente da planta. Desse modo, os membros do projeto puderamcaracterizar de forma mais precisa cada grão de pólen e obter imagens dos grãos em diferentesvisões. Uma visão representa a observação de um objeto, nesse caso, o grão de pólen, emdiferentes ângulos. Todos os trabalhos supracitados serviram como base de informações, obtençãodas imagens e identi�cação de espécies utilizadas nos experimentos realizados nesta proposta.

Para facilitar a compreensão da diferença que uma visão traz no reconhecimento de um objeto,a Figura 4.2 ilustra um lápis de escrever fotografado em diferentes posições. A distância entrea câmera e o objeto assim como o dispositivo de captura foram mantidos em todas as imagens.Ao veri�car as imagens é possível perceber que a posição do objeto traz diferenças na análise domesmo.

Figura 4.2: Imagens de um lápis de escrever capturadas com o objeto em diferentes posições

Em uma imagem capturada de um grão de pólen, ele pode se apresentar de diferentes formas.As imagens da Figura 4.3 ilustram visões diferentes de um grão de pólen de mamoeiro selvagem.As visões de um grão de pólen recebem nomes especí�cos. Os nomes utilizados com maiorfrequência são: visão polar e visão equatorial. Quando a região polar (similar aos polos doglobo terrestre) do grão de pólen está virada para a pessoa que visualiza a imagem, essa visão échamada de polar e quando a região equatorial (análoga a linha do equador do globo terreste)do grão de pólen está virada para a pessoa que visualiza a imagem, ela é chamada de visãoequatorial. A Figura 4.3 (d) ilustra uma visualização polar e a Figura 4.3 (c) ilustra um exemplode visualização equatorial [28].

Na amostra do mel há presença de resíduos e/ou subprodutos das plantas, comumente de-nominados de �material vegetal". A Figura 4.4 ilustra uma imagem contendo material vegetal,evidenciado com a marcação vermelha, bolhas de ar, evidenciadas pela marcação azul, sujeiraevidenciada pela marcação verde e o grão de pólen evidenciado pela cor marrom presente no

30

Page 37: UNIVERSIDADE CATÓLICA DOM BOSCO PROGRAMA DE PÓS-GRADUAÇÃO … · GIA, no Prgroama de Pós Graduação em Biotecnologia da Universidade Católica Dom Bosco - Áaer de oncen-c tração:

(a) (b) (c) (d)

(e) (f) (g) (h)

Figura 4.3: Diferentes visões do grão de pólen de mamoeiro selvagem.

centro da imagem.

Figura 4.4: Imagem com ruídos evidenciados.

4.1 Preparo da amostra

Após capturar as amostras de méis e/ou grãos de pólen é necessário preparar essas amostras paraque elas possam ser visualizadas através de um microscópio. Foi preciso utilizar o microscópio,pois não é possível observar com detalhes um grão de pólen a olho nu.

31

Page 38: UNIVERSIDADE CATÓLICA DOM BOSCO PROGRAMA DE PÓS-GRADUAÇÃO … · GIA, no Prgroama de Pós Graduação em Biotecnologia da Universidade Católica Dom Bosco - Áaer de oncen-c tração:

Para que a imagem seja obtida, é necessário transferir a amostra para uma placa, materialde vidro em formato retangular. A placa é colocada na mesa � componente do microscópioque suporta e �trava� a placa para que ela não se movimente durante a observação da amostra� e através da objetiva � que é responsável pela ampliação ocular �, a amostra pode servisualizada. A Figura 4.5 (a) ilustra um microscópio e evidencia a objetiva e a mesa. Paraproteger a amostra e para que ela não encoste na objetiva, uma lamela (material similar a placa,mas com tamanho inferior) é inserido em cima da amostra. Sendo assim, a amostra �ca entre aplaca e a lamela, a Figura 4.5 (b) ilustra a representação de uma placa e uma lamela. O ato detransferir a amostra para a placa é chamado de plaqueamento.

(a) (b)

Figura 4.5: (a) Imagem de um microscópio evidenciando a mesa e a objetiva (b) Imagem ilus-trativa da placa de vidro (representada pela cor azul clara) e lamela (representada pela cor azulescura).

Com a amostra inserida no microscópio, o especialista realizou capturas de imagens de di-ferentes locais da placa, ou seja, após cada captura o especialista realizava uma movimentaçãoda mesa presente no microscópio para garantir que as imagens visualizadas não tinham sidovisualizadas anteriormente. O número de imagens capturadas corresponde ao número de grãosde pólen que o especialista deseja contar. Esse número é de�nido previamente pelo especialista.Desse modo, assim que ele consegue capturar imagens da quantidade de grãos que ele neces-sita, a obtenção de imagens é interrompida. A Figura 4.6 ilustra um exemplo de imagem demel visualizada por ele. É através de imagens deste tipo que a contagem de grãos de pólen foirealizada.

Nesse trabalho, 3 maneiras foram usadas para preparar a amostra do mel antes do plaque-amento ter início. O primeiro processo capturava a amostra do mel e realizava a transferênciadessa amostra para a placa, sendo assim, nenhum processamento prévio era realizado.

Com o intuito de evidenciar os grãos de pólen, o segundo processo utilizou o método propostopela Terra Scenica[33]. Essa metodologia sofreu uma alteração e foi desenvolvida como descritaa seguir. Para a aplicação da modi�cação da metodologia, as amostras foram centrifugadasem centrifuga marca BEL a 2500g por 5 minutos com o intuito de concentrar o grão de pólenem parte do recipiente. Em seguida ocorreu o plaqueamento dessas amostras. Posteriormente,elas foram analisadas microscopicamente e imagens dos grãos de pólen foram capturadas. Noexperimento com essa metodologia, foram contados 200 grãos de pólen e as imagens foram obtidascom aumento de 40x.

O terceiro processo utilizou uma técnica chamada acetólise. Essa técnica tem o intuito deevidenciar a estrutura externa dos grãos de pólen. Para realizar essa técnica, foi necessário pesaras amostras usando uma balança analítica. Para cada experimento 10g de mel foram obtidas.Após pesar a amostra, ela foi diluída em 10ml de água destilada morna e foi adicionado 50ml deálcool etílico 95%. Em seguida, a mistura foi centrifugada a 2500 rpm. Após essa tarefa o materialcom grão de pólen �cou no fundo do recipiente e acima dele o material líquido (sobrenadante)�cou posicionado. Após a centrifugação, o material líquido foi descartado e o sedimento polínico

32

Page 39: UNIVERSIDADE CATÓLICA DOM BOSCO PROGRAMA DE PÓS-GRADUAÇÃO … · GIA, no Prgroama de Pós Graduação em Biotecnologia da Universidade Católica Dom Bosco - Áaer de oncen-c tração:

Figura 4.6: Imagem obtida de amostras de mel contendo grãos de pólen de diferentes espécies.

(material contendo intensa concentração de grãos de pólen que �cou no fundo do recipiente)recebeu 2ml de ácido acético para retirar a água presente no interior do grão de pólen. Após essemomento, a acetólise proposta por [15] e adaptada por [18] foi iniciada através da inserção de 2mlde solução acetolítica nas amostras que foram colocadas em banho-maria por 2 minutos. Apósconcluir o processo, o sobrenadante foi descartado e 2ml de glicerina foi adicionado na amostraque �cou em repouso por uma hora para que os grãos de pólen pudessem se reidratar (já quea água do interior deles foi �sugada� nos processos anteriores). Para preparar as lâminas, umcubo de gelatina glicerinada com dimensão 3mm X 3mm foi cortado e posicionado no fundo dorecipiente para que os grãos de pólen pudessem se aderir ao cubo. Após esse processo, os grãosde pólen foram transferidos para a placa e observados no microscópio. Para os experimentos comacetólise, 500 grãos de pólen foram contados. As imagens capturadas utilizando essa metodologiaforam obtidas com aumento de 40x. A Figura 4.7 ilustra uma imagem obtida através de cadauma das técnicas aplicadas.

4.2 Microscópios

Para a captura de imagens, dois microscópios foram usados, um deles obtinha a iluminaçãosob a imagem e outro apresentava a iluminação sobre a imagem. Para facilitar a compreensão, oprimeiro microscópio será chamado de microscópio A e o segundo de microscópio B. O microscópioA possui a seguinte con�guração: microscópio tradicional Marca Bel Equipamentos analíticosLtda, ilustrado na Figura 4.8 (a), acoplado com o dispositivo de captura Marca Proscope HRcom lente de 400X, ilustrado na Figura 4.8 (b). O microscópio com o dispositivo de capturapode ser visualizado na Figura 4.8 (c). Enquanto o microscópio B é um Monotela LCD marcaLCD Micro Bresse com aumento de 40 a 1600 X, ilustrado na Figura 4.8 (d).

Como os dois microscópios presentes no projeto possuem con�gurações distintas, as imagensresultantes de cada microscópio possuem características especí�cas. Por exemplo, as imagens

33

Page 40: UNIVERSIDADE CATÓLICA DOM BOSCO PROGRAMA DE PÓS-GRADUAÇÃO … · GIA, no Prgroama de Pós Graduação em Biotecnologia da Universidade Católica Dom Bosco - Áaer de oncen-c tração:

(a) (b) (c)

Figura 4.7: (a) Imagem obtida através da primeira técnica, (b) Imagem obtida através da segundatécnica e (c) Imagem obtida através da terceira técnica

(a) (b) (c) (d)

Figura 4.8: (a) microscópio tradicional marca Bel, (b) dispositivo de captura marca ProscopeHR e (c) dispositivo de captura acoplado ao microscópio e (d) microscópio Monotela LCD MarcaLCD Micro Bresse

capturadas pelo microscópio A possuem resolução de 640 X 480 pixels enquanto as imagenscapturadas pelo microscópio B possui vários tipos de resolução sendo que o tamanho máximo éde 1520 X 1120 pixels cada. As Figuras 4.9 (a) e (b) ilustram imagens de grãos de pólen de umamesma espécie capturadas através dos microscópios A e B, respectivamente.

4.3 Banco de imagens

O conjunto de imagens obtido pelo especialista foi aglomerado e denominado banco de imagens.Foi através das imagens presentes no banco de imagens do projeto que todos os experimentosforam desenvolvidos e que a classi�cação das diferentes espécies de grãos de pólen foi realizada.A Figura 4.10 ilustra alguns exemplos de imagens presentes no banco de imagens do projetoe de suas respectivas espécies �orais. As imagens obtidas foram divididas em 5 conjuntos detreinamento e teste (datasets) com o intuito de veri�car se o microscópio, a coloração e/ou atécnica utilizada para o tratamento da amostra iria in�uenciar a classi�cação.

Como algumas classes presente no banco de imagens não foram identi�cadas, elas foramdenominadas através de um código constituído pela palavra �inde�nido� seguido de um número,por exemplo: inde�nido7. Para as classes já classi�cadas, o nome vulgar ou cientí�co do grão depólen informado pelo especialista foi mantido. Se uma mesma classe que não possui identi�caçãoestiver presente em mais de um conjunto de imagens, o nome destinado a ela foi mantido em

34

Page 41: UNIVERSIDADE CATÓLICA DOM BOSCO PROGRAMA DE PÓS-GRADUAÇÃO … · GIA, no Prgroama de Pós Graduação em Biotecnologia da Universidade Católica Dom Bosco - Áaer de oncen-c tração:

(a) (b)

Figura 4.9: (a) Imagem capturada através do microscópio A e (b) Imagem capturada através domicroscópio B

todos os conjuntos que ela está presente. Por exemplo, a mesma classe denominada inde�nido1está presente no conjunto 1, 2 e 3. As imagens de grãos de pólen foram recortadas manualmente ecada uma das imagens possui apenas o grão de pólen, como ilustram as �guras de cada conjuntodescritos posteriormente.

(a) (b) (c)

(d) (e) (f)

Figura 4.10: (a) Grão de pólen de Mamoeiro Selvagem, (b) Grão de pólen de Assa-peixe, (c)Grão de pólen de Aroeira, (d) Grão de pólen de Cipó-Uva, (e) Grão de pólen de barbatimão, (f)Grão de pólen de eucalipto.

4.3.1 Conjunto de imagens 1

O conjunto 1 apresenta imagens capturadas com o microscópio B que possuía um �ltro devisualização na cor azul. Esse �ltro é similar a uma lente que não apresenta nenhum aumento,porém apresenta uma coloração. Essa coloração in�uencia na imagem a ser capturada e, poresse motivo, a imagem obtém a cor do �ltro usado. Esse �ltro é posicionado em cima da luzdo microscópio. Por esse motivo, ele consegue re�etir uniformemente a coloração em toda a

35

Page 42: UNIVERSIDADE CATÓLICA DOM BOSCO PROGRAMA DE PÓS-GRADUAÇÃO … · GIA, no Prgroama de Pós Graduação em Biotecnologia da Universidade Católica Dom Bosco - Áaer de oncen-c tração:

amostra. As Figuras 4.11 (a), (b), (c), (d), (e), (f), (g) e (h) e a Tabela 4.1 ilustram exemplos decada uma das classes e quantidade de amostras presentes no conjunto 1, respectivamente. Esseconjunto foi desenvolvido utilizando a segunda técnica de preparo de amostra.

(a) (b) (c) (d)

(e) (f) (g) (h)

Figura 4.11: Classes de grãos de pólen presentes no conjunto 1, sendo elas: (a) Grão de pólen deAroeira, (b) Grão de pólen não identi�cado, (c) Grão de pólen de Mamoeiro Selvagem, (d) Grãode pólen de Assa-peixe, (e) Grão de pólen não identi�cado, (f) Grão de pólen não identi�cado,(g) Grão de pólen não identi�cado, (h) Grão de pólen não identi�cado.

No do conjunto Código da classe No de amostras1 aroeira 191 inde�nido1 71 mamoeiro selvagem 171 assa-peixe 10

Tabela 4.1: Número de amostras de cada classe presente no conjunto 1.

4.3.2 Conjunto de imagens 2

O conjunto 2 foi obtido utilizando um �ltro roxo, microscópio B e o segundo método de preparode amostra. Essas imagens podem ser visualizadas nas Figuras 4.12 (a), (b), (c), (d), (e) e (f).A Tabela 4.2 apresenta a quantidade de amostras presentes no conjunto 2.

No do conjunto Código da classe No de amostras2 inde�nido1 142 aroeira 92 inde�nido2 82 mamoeiro selvagem 122 assa-peixe 142 inde�nido3 8

Tabela 4.2: Número de amostras de cada classe presente no conjunto 2.

36

Page 43: UNIVERSIDADE CATÓLICA DOM BOSCO PROGRAMA DE PÓS-GRADUAÇÃO … · GIA, no Prgroama de Pós Graduação em Biotecnologia da Universidade Católica Dom Bosco - Áaer de oncen-c tração:

(a) (b) (c)

(d) (e) (f)

Figura 4.12: Classes de grãos de pólen presentes no conjunto 2, sendo elas: (a) Grão de pólennão identi�cado, (b) Grão de pólen de assa-peixe, (c) Grão de pólen de mamoeiro selvagem, (d)Grão de pólen não identi�cado, (e) Grão de pólen de aroeira e (f) Grão de pólen não identi�cado.

4.3.3 Conjunto de imagens 3

O terceiro conjunto é formado por imagens capturadas através do microscópio B, com os �ltrosroxo e azul, essas imagens foram capturadas diretamente do grão de pólen e podem ser visualiza-das através das Figuras 4.12 e 4.11. A Tabela 4.3 apresenta a quantidade de amostras presentesno conjunto 3.

No do conjunto Código da classe No de amostras3 inde�nido1 263 inde�nido2 263 mamoeiro selvagem 283 assa-peixe 323 inde�nido3 11

Tabela 4.3: Número de amostras de cada classe presente no conjunto 3.

4.3.4 Conjunto de imagens 4

O quarto conjunto é representado por imagens obtidas através do microscópio A, essas imagensforam capturadas diretamente do mel, ou seja, usaram o primeiro método de preparo de amostra.As Figuras 4.13 (a), (b), (c), (d), (e) e (f) e a Tabela 4.4 ilustram exemplos de cada uma dasclasses e quantidade de amostras presentes no conjunto 4, respectivamente.

4.3.5 Conjunto de imagens 5

Com base nas imagens obtidas com as técnicas anteriores notou-se que a quantidade de imagenspor classe não seguia um padrão e, em alguns casos, algumas classes obtinham poucas imagens

37

Page 44: UNIVERSIDADE CATÓLICA DOM BOSCO PROGRAMA DE PÓS-GRADUAÇÃO … · GIA, no Prgroama de Pós Graduação em Biotecnologia da Universidade Católica Dom Bosco - Áaer de oncen-c tração:

(a) (b) (c)

(d) (e) (f)

Figura 4.13: Grãos de pólen das classes presentes no conjunto 4, sendo elas: (a) Grão de pólende eucalipto, (b) Grão de pólen de assa-peixe, (c) Grão de pólen de cipó-uva, (d) Grão de pólende aroeira, (e) Grão de pólen não identi�cado e (f) Grão de pólen não identi�cado

No do conjunto Código da classe No de amostras4 eucalipto 144 assa-peixe 84 cipó-uva 84 aroeira 94 inde�nido4 44 inde�nido5 4

Tabela 4.4: Número de amostras de cada classe presente no conjunto 4.

para sua caracterização. Para o quinto conjunto de imagens, o �ltro de coloração foi padronizadona cor branca, todas as imagens foram obtidas na resolução de 1280 x 960 pixels e foi estabelecidoque a quantidade de amostras por classe deveria ser próxima ou superior a 30 grãos. O intuitode estabelecer uma quantidade para as amostras era eliminar a possível discrepância na quan-tidade de imagens de classes diferentes. A quantidade de imagens foi de�nida subjetivamentee foi utilizada para que o especialista obtivesse uma referência para a obtenção de imagens degrãos de pólen que foram utilizadas para os experimentos computacionais. O microscópio B foipadronizado para a realização deste experimento e as imagens obtidas podem ser visualizada naFigura 4.14 (a), (b), (c), (d), (e), (f), (g), (h) e (i) . A Tabela 4.5 apresenta os 5 conjuntos coma quantidade de amostras e classes que cada um deles contém.

4.4 Experimentos

Para realizar os experimentos, algoritmos de extração de atributos foram aplicados e informaçõesdas amostras de cada classe foram obtidas. Com essas informações, os algoritmos de classi�caçãoforam treinados e testados. Os experimentos realizados utilizaram a validação cruzada presenteno WEKA. Para realizar essa validação, um dos parâmetros solicitou o número de dobras que oclassi�cador realizou. Através desse número, o classi�cador realizou uma alteração nos conjuntos

38

Page 45: UNIVERSIDADE CATÓLICA DOM BOSCO PROGRAMA DE PÓS-GRADUAÇÃO … · GIA, no Prgroama de Pós Graduação em Biotecnologia da Universidade Católica Dom Bosco - Áaer de oncen-c tração:

(a) (b) (c) (d) (e)

(f) (g) (h) (i)

Figura 4.14: Grãos de pólen das classes presentes no conjunto 5, sendo elas: (a) Grão de pólende Arecaceae tipo 1, (b) Grão de pólen de Arecaceae tipo 2, (c) Grão de pólen de Cecropia, (d)Grão de pólen de Fabaceae, (e) Grão de pólen de Schinus, (f) Grão de pólen de Myrtaceae, (g)Grão de pólen de Poaceae, (h) Grão de pólen de Protium e (i) Grão de pólen de Serjania.

No do conjunto Código da classe No de amostras5 arecaceae tipo 1 215 arecaceae tipo 2 345 cecropia 365 fabaceae 305 myrtaceae 325 poaceae 265 protium 305 schinus 305 serjania 30

Tabela 4.5: Informações sobre o número de amostras presentes em cada classe de cada conjuntodo banco de imagens utilizado nesta proposta.

de teste e de treinamento. Por exemplo, se para um experimento foram escolhidas 10 dobras, oclassi�cador irá capturar os dados de uma amostra para teste e 9 para treinamento do classi�ca-dor. Em seguida, um novo conjunto é selecionado para teste e os outros 9 realizam o treinamentodo classi�cador. Essa repetição acontece até que todas as variações tenham sido feitas.

Para a classi�cação, os classi�cadores foram comparados e com o resultado da classi�cação,o teste de Friedman foi aplicado para veri�car se há diferença entre os classi�cadores. Para autilização do teste de Friedman, um programa chamado R foi utilizado [27]. Para esse teste foiconsiderado 5% de signi�cância, sendo assim, se o valor de p(resultante do teste de Friedman)for menor que 5% a hipótese nula é rejeitada, ou seja, pode-se a�rmar que os classi�cadores sãodiferentes, caso contrário a hipótese nula é aceita e pode-se dizer que os classi�cadores são iguais.Se a hipótese nula não for aceita, a análise post hoc é realizada para veri�car qual classi�cadorapresenta melhor resultado.

39

Page 46: UNIVERSIDADE CATÓLICA DOM BOSCO PROGRAMA DE PÓS-GRADUAÇÃO … · GIA, no Prgroama de Pós Graduação em Biotecnologia da Universidade Católica Dom Bosco - Áaer de oncen-c tração:

Capítulo 5

Resultados e Análises

Neste capítulo, serão descritos os resultados dos experimentos realizados neste trabalho. Paracada experimento, as métricas recall, precision, f-score e taxa de acerto foram analisadas e osalgoritmos de teste de hipótese foram aplicados. As análises dos resultados também estarãocontidas neste capítulo.

O WEKA calcula o teste T-Students, por isso, quando o resultado de um experimento éobtido, um círculo pode estar presente ao lado do resultado de algum classi�cador. Esse círculorevela que o classi�cador ganhou ou perdeu do classi�cador posicionado na primeira coluna dasTabelas de resultado. Quando o círculo estiver vazio, quer dizer que o classi�cador ganhou doprimeiro algoritmo. A ausência de círculos signi�ca que houve um empate entre os classi�cadoresanalisados.

5.1 Experimento 1

Apenas algumas classes foram selecionadas para o este experimento, sendo elas: inde�nido1,inde�nido2 e inde�nido3 do conjunto 3. Os atributos extraídos foram média dos canais H, S e Be atributos de forma (todos os atributos de forma foram utilizados). No total foram extraídos 7atributos sendo 3 de cor e 4 de forma. O algoritmo de seleção de atributos chamado Best-First1 foi aplicado e 5 atributos foram selecionados, sendo eles: média dos canais H, S e B e fator deforma e circularidade.

Os resultados das métricas taxa de acerto, recall, precision e f-score podem ser visualizadosnas Tabelas 5.1, 5.2, 5.3 e 5.42. De acordo com os resultados, pode-se perceber que o algoritmoSVM e C4.5 obtiveram melhor desempenho do FCO em relação ao resultado do recall e precision.Analisando somente a taxa de acerto, pode-se perceber que o FCO possui resultado inferior, emtorno de 11%, em relação ao C4.5 que apresentou melhor resultado dentre os classi�cadores.Porém quando o recall, precision e f-score são analisados essa diferença torna-se maior. Nesteexperimento, pode-se perceber que o resultado do FCO usando o recall e precision é inferior atodos os classi�cadores testados.

Tabela 5.1: Taxa de acerto para experimento com 3 classes e 5 atributos

Dataset (FCO) (KNN) (SVM) (C4.5)Conjunto1 71.85±14.63 78.31±14.20 74.67±14.07 80.79±13.04

◦, • degradação ou melhoria estatisticamente signi�cante

1Testes exploratórios foram utilizados para a escolha deste algoritmo de seleção de atributos.2O sinal '-' foi utilizado ao lado do nome do conjunto para ilustrar que ele não possui todas as classes daquele

conjunto

40

Page 47: UNIVERSIDADE CATÓLICA DOM BOSCO PROGRAMA DE PÓS-GRADUAÇÃO … · GIA, no Prgroama de Pós Graduação em Biotecnologia da Universidade Católica Dom Bosco - Áaer de oncen-c tração:

Tabela 5.2: Resultado do recall para experimento com 3 classes e 5 atributos

Dataset (FCO) (SVM) (KNN) (C4.5)

Conjunto1- 0.485000 0.793333 ◦ 0.715000 0.816667 ◦◦, • degradação ou melhoria estatisticamente signi�cante

Tabela 5.3: Resultado do precision para experimento com 3 classes e 5 atributos

Dataset (FCO) (SVM) (KNN) (C4.5)

Conjunto1- 0.593500 0.882667 ◦ 0.834333 0.869833

◦, • degradação ou melhoria estatisticamente signi�cante

Tabela 5.4: Resultado do f-score para experimento com 3 classes e 5 atributos

Dataset (FCO) (SVM) (KNN) (C4.5)

Conjunto1- 0.508262 0.806762 ◦ 0.743881 0.813286 ◦◦, • degradação ou melhoria estatisticamente signi�cante

5.2 Experimento 2

Neste experimento, as imagens do conjunto 3 foram utilizadas. Neste experimento, foram inseri-dos atributos de textura com o intuito de conseguir caracterizar melhor as amostras das classes.Por isso, os algoritmos de matriz de coocorrência e mapas de interação foram adicionados aoconjunto de atributos utilizado neste experimento. Os métodos de extração de atributos uti-lizados foram escolhidos de forma empírica. O conjunto de atributos extraídos foram a médiados canais H, S, B, R, G e B e atributos de forma (todos os atributos de forma foram utiliza-dos), matriz de coocorrência (entropia, diferença inversa, correlação, dissimilaridade, momentoda diferença inverso, contraste e uniformidade) e mapas de iteração (entropia, diferença inversa,correlação, dissimilaridade, momento da diferença inverso, contraste e uniformidade). Os valoresdos parâmetros utilizados nos experimentos para os algoritmos matriz de coocorrência e mapasde interação estão presentes nas Tabelas 5.5 e 5.6, respectivamente. Os valores dos parâmetrosforam de�nidos experimentalmente e o algoritmo Best-First foi aplicado. Após a aplicação doalgoritmo, 9 atributos foram selecionados, sendo eles: média dos canais H, S, B, G e B, fatorde forma, dissimilaridade180, entropia135 e dissimilaridade135 (os três últimos atributos foramextraídos através do algoritmo de matriz de coocorrência). Os valores presentes após os atributosde textura referem-se ao ângulo de cada atributo.

Ângulo Distância180 1135 190 145 1

Tabela 5.5: Parâmetros utilizados para a técnica de matriz de coocorrência.

No segundo experimento houve uma melhora signi�cativa no resultado do recall, precisione f-score quando comparado aos outros classi�cadores. Essa melhora pode ser decorrente doaumento de atributos. Por exemplo, o recall obtido no experimento 1 foi 0.485000 quando omaior foi 0.816667. Já o obtido neste experimento foi de 0.84 quando o maior foi 0.89.

41

Page 48: UNIVERSIDADE CATÓLICA DOM BOSCO PROGRAMA DE PÓS-GRADUAÇÃO … · GIA, no Prgroama de Pós Graduação em Biotecnologia da Universidade Católica Dom Bosco - Áaer de oncen-c tração:

Ângulo Distância180 2135 290 245 2180 1135 190 145 1180 0135 090 045 0

Tabela 5.6: Parâmetros utilizados para a técnica de matriz de interação.

Tabela 5.7: Taxa de acerto para experimentos com 5 classes com atributos de forma, cor etextura

Dataset (FCO) (SVM) (KNN) (C4.5)

Conjunto2 74.85±11.20 80.68±10.43 87.03±10.17 ◦ 81.95±10.73◦, • degradação ou melhoria estatisticamente signi�cante

5.3 Experimento 3

Já no terceiro experimento, todas as classes dos conjuntos 1, 2, 3, e 4 foram utilizados. Todosos grupos de imagens obtiveram a extração e classi�cação das classes com o conjunto de atri-butos mais representativo presente nos experimentos desenvolvidos até a realização do terceiroexperimento, sendo eles: a média dos canais H, S, B, R, G e B e atributos de forma (todos osatributos de forma foram utilizados), matriz de coocorrência (entropia, diferença inversa, cor-relação, dissimilaridade, momento da diferença inverso, contraste e uniformidade) e mapas deiteração (entropia, diferença inversa, correlação, dissimilaridade, momento da diferença inverso,contraste e uniformidade). Para esse experimento, o algoritmo de seleção de atributos Best-First foi aplicado para cada um dos conjuntos de imagem e posteriormente, a classi�cação ecomparação entre eles foi realizada.

Os experimentos visam veri�car quais conjuntos de atributos são mais relevantes para aclassi�cação de grãos de pólen e qual é o resultado do FCO em relação à classi�cação e tempode treinamento quando comparado aos demais classi�cadores selecionados.

Os resultados apresentados na Tabela 5.11, são referentes ao experimento 3. Esses resultadosforam analisados através do teste de Friedman para veri�car se há ou não distinção entre osclassi�cadores. Ao submeter o resultado do experimento presente na Tabela 5.11 ao teste deFriedman o resultado de p obtido foi igual a 5.7%. De acordo com o resultado a hipótse nulapode ser aceita. Porém quando o resultado do tempo de treinamento dos classi�cadores foianalisado, obteve-se um valor de p igual a 0.7%. A Tabela 5.15 apresenta o tempo utilizado no

Tabela 5.8: Resultado da métrica precision

Dataset (FCO)(SVM) (KNN)(C4.5)Conjunto2 0.93 0.87 0.90 0.86◦, • degradação ou melhoria estatisticamente signi�cante

42

Page 49: UNIVERSIDADE CATÓLICA DOM BOSCO PROGRAMA DE PÓS-GRADUAÇÃO … · GIA, no Prgroama de Pós Graduação em Biotecnologia da Universidade Católica Dom Bosco - Áaer de oncen-c tração:

Tabela 5.9: Resultado da métrica recall

Dataset (FCO)(SVM) (KNN)(C4.5)Conjunto2 0.84 0.85 0.87 0.89◦, • degradação ou melhoria estatisticamente signi�cante

Tabela 5.10: Resultado da métrica f-score

Dataset (FCO)(SVM) (KNN)(C4.5)Conjunto2 0.86 0.84 0.87 0.86◦, • degradação ou melhoria estatisticamente signi�cante

treinanento de cada classi�cador. De acordo com o resultado a hipótese nula pode ser rejeitada,porém precisa saber qual é o classi�cador que apresenta maior tempo de treinamento. Para isso,a análise de post hoc foi aplicada e o resultado está presenta na imagem 5.1. De acordo com ográ�co pode-se analisar que o SVM apresenta maior tempo de treinamento quando comparadoaos outros classi�cadores.

Ao analisar, através do teste de Friedman o recall, precision e o f-score das Tabelas 5.14, 5.12e 5.13 pode-se con�rmar o resultado obtido através da taxa de acerto dos classi�cadores. Deacordo com o experimentos analisando o recall, o valor de p foi igual a 20.54%. Para o precision,o valor de p foi igual a 55.20% e para o f-score o valor obtido foi de 99.42%. Analisando os dadossupracitado, os 3 valores obtiveram resultado superior à 5%, por isso também pode-se rejeitar ahipótese nula para os 3 itens supracitados. Analisando apenas o resultado do teste T-Studentspara a métrica da taxa de acerto, pode-se perceber que o KNN apresentou melhores resultadosquando comparado ao FCO em 3 conjuntos.

5.4 Experimento 4

Neste experimento, foram utilizadas todas as classes presentes no conjunto 5. Os parâmetrosutilizados nos experimentos anteriores foram variados para caracterizar melhor cada uma dasclasses. A variação dos parâmetros ocorreu de forma experimental e estão presentes nas Tabelas5.16 e 5.17. Os algoritmos PBL, PBLROT e wavelets foram inseridos. Para a aplicação doalgoritmos PBL, os valores da extração de atributos foram calculados com base no pixel centralde cada imagem devido à variação de tamanho dos grãos de pólen de acordo com as diferentesposições que eles foram obtidas. Para esses algoritmos foi obtida a média dos valores calculados.Os parâmetros utilizados foram de�nidos experimentalmente e estão descritos na Tabela 5.18.Para a transformada de wavelets o valor grau utilizado foi -0.49 e a variação foi de -0.5 (esses atri-butos são parâmetros utilizados para a con�guração do algoritmo) e os valores extraídos foram:contraste, correlação, entropia, uniformidade, momento da diferença inverso. O algoritmo deseleção de atributos Best-First foi aplicado e os atributos selecionados foram: a média dos canaisH, S, B, R, fator de forma, circularidade, dissimilaridade360, entropia135, dissimilaridade270,dissimilaridade225, momento da diferença inverso180, inversa180, dissimilaridade45 (os sete atri-

Tabela 5.11: Porcentagem de acerto de todos os ARFFS e todos os classi�cadores

Dataset (FCO) (SVM) (KNN) (C4.5)Conjunto1 74.43±16.28 67.69±12.91 87.00±12.14 ◦ 71.45±15.91Conjunto2 45.83±22.35 67.37±15.77 ◦ 73.13±18.83 ◦ 75.27±18.11 ◦Conjunto3 74.85±11.20 80.68±10.43 87.03±10.17 ◦ 81.95±10.73Conjunto4 43.35±23.73 47.35±12.68 52.00±19.58 59.15±19.77◦, • degradação ou melhoria estatisticamente signi�cante

43

Page 50: UNIVERSIDADE CATÓLICA DOM BOSCO PROGRAMA DE PÓS-GRADUAÇÃO … · GIA, no Prgroama de Pós Graduação em Biotecnologia da Universidade Católica Dom Bosco - Áaer de oncen-c tração:

Tabela 5.12: Resultado do recall de cada classi�cador

Dataset (FCO) (SVM) (KNN) (C4.5)

Conjunto1 0.78 0.78 0.70 0.70Conjunto2 0.54 0.90 ◦ 0.64 0.68Conjunto3 0.84 0.85 0.87 0.89Conjunto4 0.59 1.00 ◦ 0.63 0.66

◦, • degradação ou melhoria estatisticamente signi�cante

Tabela 5.13: Resultado do precision de cada classi�cador

Dataset (FCO) (SVM) (KNN) (C4.5)

Conjunto1 0.74 0.55 0.64 0.57Conjunto2 0.52 0.57 0.68 0.75Conjunto3 0.93 0.87 0.90 0.86Conjunto4 0.50 0.45 0.44 0.57

◦, • degradação ou melhoria estatisticamente signi�cante

Figura 5.1: Resultado da análise post hoc

butos anteriores foram obtidos pelo algoritmo de matriz de coocorrência), inversa (obtido atravésdo algoritmo de mapas de iteração), contraste1 e contraste3 (obtidos através do algoritmo dewavelets), PBL (obtido através do algoritmo de padrões binários locais).

Tabela 5.14: Resultado do f-score de cada classi�cador

Dataset (FCO) (SVM) (KNN) (C4.5)

Conjunto1 0.73 0.62 0.64 0.60Conjunto2 0.50 0.67 0.63 0.67Conjunto3 0.86 0.84 0.87 0.86Conjunto4 0.51 0.60 0.48 0.58

◦, • degradação ou melhoria estatisticamente signi�cante

44

Page 51: UNIVERSIDADE CATÓLICA DOM BOSCO PROGRAMA DE PÓS-GRADUAÇÃO … · GIA, no Prgroama de Pós Graduação em Biotecnologia da Universidade Católica Dom Bosco - Áaer de oncen-c tração:

Tabela 5.15: Tempo utilizado para realizar o treinamento dos classi�cadores

Dataset (FCO) (SVM) (KNN) (C4.5)

Conjunto1 0.002980 0.172150 0.000000 0.001090Conjunto2 0.002030 0.109370 0.000000 0.002030Conjunto3 0.013280 0.104380 0.000000 0.003600Conjunto4 0.000460 0.146240 0.000000 0.001080

◦, • degradação ou melhoria estatisticamente signi�cante

Ângulo Distância360 1315 1270 1225 1180 1135 190 145 1

Tabela 5.16: Parâmetros utilizados para a técnica de matriz de coocorrência.

Ângulo Distância180 4135 490 445 4180 3135 390 345 3180 2135 290 245 2180 1135 190 145 1180 0135 090 045 0

Tabela 5.17: Parâmetros utilizados para a técnica de matriz de interação.

Para auxiliar a compreensão dos experimentos realizados neste trabalho, a Tabela 5.19 apre-senta uma síntese das principais informações contidas em cada um deles. O símbolo * foi usadopara representar que o valor presente na tabela foi obtido através da soma de todos os datasetse o símbolo ** representa que o valor contido na tabela está presente em cada um dos datasets.

As Figuras 5.3, 5.4, 5.5 e 5.6 ilustram o resultado da classi�cação de cada uma das classes

45

Page 52: UNIVERSIDADE CATÓLICA DOM BOSCO PROGRAMA DE PÓS-GRADUAÇÃO … · GIA, no Prgroama de Pós Graduação em Biotecnologia da Universidade Católica Dom Bosco - Áaer de oncen-c tração:

Parâmetros ValoresNúmero mínimo de vizinhos 6

Incremento do número de vizinhos 2Número máximo de vizinhos 10Número mínimo do raio 1

Incremento do número do raio 2Número máximo do raio 13

Tabela 5.18: Parâmetros utilizados para o PBL e PBLROT

Experimento No de classes No de amostras No atributos extraídos No de atributos selecionadosExperimento 1 3 84 7 5Experimento 2 5 123 45 9Experimento 3 21* 289* 45 ** 30Experimento 4 9 267 95 18

Tabela 5.19: Síntese das principais informações de cada um dos experimentos realizados nestetrabalho

Figura 5.2: Resultado da análise post hoc para o quarto experimento

46

Page 53: UNIVERSIDADE CATÓLICA DOM BOSCO PROGRAMA DE PÓS-GRADUAÇÃO … · GIA, no Prgroama de Pós Graduação em Biotecnologia da Universidade Católica Dom Bosco - Áaer de oncen-c tração:

Tabela 5.20: Resultado da taxa de acerto de cada classi�cador

Dataset (C4.5) (SVM) (KNN) (FCO)Conjunto5 76.30±7.39 77.28±7.43 71.25±6.62 51.45±9.29 •◦, • degradação ou melhoria estatisticamente signi�cante

obtida após a aplicação dos 4 classi�cadores. A diagonal principal de cada uma das tabelaspresente nas �guras apresenta o número de amostras classi�cadas corretamente e as informaçõespresentes fora da diagonal principal representam as amostras classi�cadas incorretamente. Deacordo com os resultados, é possível observar que o FCO obteve desempenho similar aos de-mais algoritmos na classi�cação das espécies fabaceae, poaceae, protium e arecaceae tipo 1. ATabela 5.21 apresenta a porcentagem de amostras classi�cadas corretamente por cada um dosclassi�cadores utilizados para a realização do teste de Friedman.

Espécie FCO SVM C4.5 KNNSerjania 50.0 78.57 85.71 85.71Fabaceae 76.67 86.67 73.33 73.33Schinus 33.33 80.00 100.0 70.00Protium 36.67 70.00 66.67 50.00

Acecaceae Tipo 2 55.58 100.00 79.47 85.29Arecaceae Tipo 1 38.10 33.33 57.14 57.14

Myrtaceae 31.25 65.63 75.00 59.38Poaceae 50.00 53.85 53.85 57.69Cecropia 61.11 97.22 97.22 97.22

Tabela 5.21: Porcentagem de amostras classi�cadas corretamente utilizando os classi�cadorespresentes neste trabalho

Figura 5.3: Matriz com o resultado da classi�caçao realizada pelo algoritmo FCO

Após a seleção de atributos, os métodos foram comparados e de acordo com o resultado,pode-se a�rmar que há diferença entre os algoritmos de classi�cação, pois o resultado de p foi0.01166. Sendo assim, é possível a�rmar que há diferença entre os classi�cadores. Por esse motivoa análise post hoc, ilustrada na Figura 5.2 foi aplicada e de acordo com o resultado, foi possívelobservar que o FCO apresentou diferença estatística em relação ao SVM e ao J48, porém emrelação ao KNN é possível a�rmar que os classi�cadores não apresentaram diferença estatística.A Tabela 5.20 ilustra o resultado da taxa de acerto de cada um dos classi�cadores.

Observando o resultado do FCO, é possível constatar que algumas amostras da classe ce-cropia foram classi�cadas como sendo da classe myrtaceae, amostras da classe serjania foramclassi�cadas como myrtaceae e amostras da classe protium foram classi�cadas com pertencentes

47

Page 54: UNIVERSIDADE CATÓLICA DOM BOSCO PROGRAMA DE PÓS-GRADUAÇÃO … · GIA, no Prgroama de Pós Graduação em Biotecnologia da Universidade Católica Dom Bosco - Áaer de oncen-c tração:

Figura 5.4: Matriz com o resultado da classi�caçao realizada pelo algoritmo KNN

Figura 5.5: Matriz com o resultado da classi�caçao realizada pelo algoritmo SVM

Figura 5.6: Matriz com o resultado da classi�caçao realizada pelo algoritmo C4.5

à classe schinus. A Figura 5.7 (a) e (b) ilustra um exemplo da classe cecropia e myrtaceae, res-pectivamente. Uma hipótese para o erro na classi�cação está relacionada à semelhança existenteentre as amostras. No momento da classi�cação, a nova amostra é classi�cada de acordo com amenor relação de adjacência com um determinado nó presente nas árvores de caminhos ótimos.É provável que pela semelhança, a nova amostra obteve relação de adjacência muito pequena oque possivelmente gerou a classi�cação incorreta.

A mesma situação pode ter ocorrido na classi�cação das classes protium e schinus. As classesapresentam uma semelhança que pode ser visualizada através das imagens 5.8 (a) e (b). Essasimagens ilustram exemplos de algumas visões das classes supracitadas que são bastante similares.É provável que, por esse motivo, as classes tenham sido classi�cadas incorretamente pelo FCOpor apresentarem nós fortemente conexos. Amostras das classes serjania e myrtaceae tambémapresentem semelhanças quando visualizadas em determinadas visões. As Figuras 5.9 (a) e (b)

48

Page 55: UNIVERSIDADE CATÓLICA DOM BOSCO PROGRAMA DE PÓS-GRADUAÇÃO … · GIA, no Prgroama de Pós Graduação em Biotecnologia da Universidade Católica Dom Bosco - Áaer de oncen-c tração:

ilustram os exemplos de imagens das classes serjania e myrtaceae, respectivamente.

(a) (b)

Figura 5.7: (a) Imagem da espécie cecropia e (b) Imagem da espécie myrtacea

(a) (b)

Figura 5.8: (a) Imagem da espécie protium e (b) Imagem da espécie schinus

(a) (b)

Figura 5.9: (a) Imagem da espécie serjania e (b) Imagem da espécie myrtacea

49

Page 56: UNIVERSIDADE CATÓLICA DOM BOSCO PROGRAMA DE PÓS-GRADUAÇÃO … · GIA, no Prgroama de Pós Graduação em Biotecnologia da Universidade Católica Dom Bosco - Áaer de oncen-c tração:

Capítulo 6

Conclusões e Trabalhos Futuros

A classi�cação de grãos de pólen é uma tarefa minuciosa e cansativa. Essa contagem é feita deforma visual e este trabalho além de ser exaustivo está muito sujeito à subjetividade humana.Diante desse problema, surgiu o projeto Pólen, que tem como intuito desenvolver um sistemabaseado em visão computacional que realize a contagem microscópica automaticamente. Com odesenvolvimento desse projeto, estima-se que a classi�cação de grãos de pólen aconteça de formamais rápida, considerando que o especialista possui um cansaço natural.

Quatro experimentos foram realizados e quando eles foram comparados, percebeu-se quehouve uma melhora no resultados das métricas (taxa de acerto, recall, precision e f-score) coma inserção de atributos de textura. Para classi�car os grãos de pólen, técnicas de extração deatributos foram aplicadas e o resultado foi classi�cado utilizando os classi�cadores FCO, SVM,KNN e C4.5. O resultado foi analisado através do teste de Friedman. Todos os experimentosdeste trabalho utilizaram 5% de signi�cância. No terceiro experimento, o resultado obtido foi de5.7%, por isso a hipótese nula pode ser aceita. Desse modo, pode-se a�rmar que, de acordo como teste de Friedman, os classi�cadores não apresentam diferença estatística na classi�cação dosgrãos.

No experimento 4, o resultado de p para a taxa de acerto foi de 0.01166. De acordo com oresultado a hipótese nula é aceita e o teste pos-hoc foi aplicado para veri�car qual classi�cadorapresentou melhor resultado. Com o resultado do teste é possível analisar que o algoritmo KNNobteve desempenho estatísticamente igual ao FCO e que o FCO obteve resultado estatísticamentediferente que o SVM e J48.

Como trabalhos futuros estima-se realizar a captura de imagens de novas classes e desenvolvertestes com diferentes métodos de seleção e extração de atributos.

Este projeto contribuiu para a padronização do microscópio utilizado para a captura deimagens, �ltro utilizados nos microscópios e técnica de preparo de amostra. Foi possível cassi�car9 classes distintas com taxa de acerto superior à 76% e obter os atributos mais relevantes para oproblema em questão. Durante o projeto um sistema para o cadastro de grãos de pólen iniciadoe está em desenvolvimento. Foi realizada �lmagens em um apiário do CeTeAgro para observar apreferência alimentar das abelhas.

Após as referências bibliográ�cas contidas neste trabalho foi anexado um artigo produzidosobre alguns experimentos presentes neste projeto.

50

Page 57: UNIVERSIDADE CATÓLICA DOM BOSCO PROGRAMA DE PÓS-GRADUAÇÃO … · GIA, no Prgroama de Pós Graduação em Biotecnologia da Universidade Católica Dom Bosco - Áaer de oncen-c tração:

Referências Bibliográ�cas

[1] W. P. Amorim. Redução de atributos utilizando análise discriminante com aplicações nadetecção de defeitos em couro bovino. Master's thesis, Universidade Federal de Mato Grossodo Sul, 2009.

[2] S. T. S. M. e. V. G.-E. Ana Luiza Du Bocage, Mariana Albuquerque de Souza. Palino-taxonomia de espÉcies de acacia (leguminosae-mimosoideae) no semi-Árido brasileiro. InRevista do Jardim Botânico do Rio de Janeiro, 2009.

[3] O. M. Barth. O Pólen no mel Brasileiro. 1989.

[4] D. G. S. Coiado. Caracterização do setor apícola do mato grosso do sul como atividadesustentável e fator de desenvolvimento local. Master's thesis, Universidade Católica DomBosco, 2010.

[5] S. J. R. da Silva e Ana Lúcia Absy. Análise do pólen encontrado em amostras de mel deapis mellifera l. (hymenoptera, apidae) em uma área de savana de roraima, brasil. In ActaAmazonica, volume 30, 2000.

[6] J. Davis and M. Goadrich. The relationship between precision-recall and roc curves. InProceedings of the 23rd international conference on Machine learning, ICML '06, pages233�240, New York, NY, USA, 2006. ACM.

[7] A. N. de Vigilância Sanitária. Gerência-geral alimentos resolução - cnnpa no 12, de 1978.d.o. de 24/07/1978. Acessado no dia: 22/02/2010.

[8] T. S. M. e Hiroko Makino. Grãos de pólen de plantas alergógenas. In Portal de PeriódicosEletrônicos em Geociências, 2011.

[9] R. C. B. R. e Roberto Henrique da Rocha Viana. Máquinas de vetores de suporte aplicadasà classi?cação de defeitos em couro bovino. Quali�cação de Bacharel em Engenharia deComputação na Universidade Católica Dom Bosco Campo Grande - MS Brasil, novembro2007.

[10] C. M. C. e Suann Yang. Counting pollen grains using readily available, free image processingand analysis software. Technical report, Department of Biology, 208 Mueller Laboratory,The Pennsylvania State University, University Park, PA 16802, USA, 2009.

[11] P. A. e Vechiatto de Miranda. Segmentação de imagens pela transformada imagem-�oresta.Master's thesis, Universidade Estadual de Campinas, 2006.

[12] S. García and F. Herrera. An extension on statistical comparisons of classi�ers over multipledata sets for all pairwise comparisons. In Journal of Machine Learning Research, pages 2677� 2694, 2008.

51

Page 58: UNIVERSIDADE CATÓLICA DOM BOSCO PROGRAMA DE PÓS-GRADUAÇÃO … · GIA, no Prgroama de Pós Graduação em Biotecnologia da Universidade Católica Dom Bosco - Áaer de oncen-c tração:

[13] R. C. Gonzalez and R. E. Woods. Processamento de Imagens Digitais. Primeira edition,2000.

[14] G. Huang and Ângela Tavares Paes. Posso usar o teste t de student quando preciso comparartrês ou mais grupos? In einstein - Educação Continuada em Saúde, volume 7, abril/junho2009. http://apps.einstein.br/revista/arquivos/PDF/1390-EC%20v7n2p63-4.pdf.

[15] A. M. e. G. V. J. Louveaux. Methods of melissopalynology. In Bee World, volume 51, pages125�131, 1970.

[16] J. S. e. M. C. Jerri Teixeira Zanusso, Daniel Rutz. Utilizaçao de imagens de satélite paralocalização de um apiário �xo. Mensagem Doce, (98), Setembro 2008.

[17] L. V. D. Joelma Carla Santos, João Ricardo de F. Oliveira. Uso de algoritmos genéticos naseleção de atributos para classi�cação de regiões. Joelma Carla Santos, João Ricardo de F.Oliveira, Luciano V. Dutra, pages 253�261, novembro 2005.

[18] V. M. J. JONES, G. D. BRYANT. The use of etoh for the dilution of honey. Technicalreport, Grana, 2004.

[19] L. C. S. K. S. VENTURINI, M. F. SARCINELLI. Características do mel. Pró-Reitoriade Extensão - Programa Institucional de Extensão. Boletim Técnico - PIE-UFES: 01107 -Editado: 18.08.2007.

[20] J. D. C. G. K. F. M. D. R. LUDMILA C. OLIVEIRA, THAÍS F. NANI and G. A. TORRES.Caracterização palinológica de euterpe oleracea mart. e euterpe precatoria mart. In XIXCONGRESSO DE PÓS-GRADUAÇÃO DA UFLA, 2010.

[21] A. F. e. M. P. D. S.-O. M. Damiàn, E. Cernadas. Pollen classi�cation on the three types ofplants of the family Urticaceae. In 12th Portuguese Conference on Pattern Recognition.

[22] T. Maenpaa. The local binary pattern approach to texture analysis. Master's thesis, Uni-versity Oulu, 2003.

[23] P. e. A. Ministério da Agricultura. Instrução normativa núm. 11, de 20 de outubro de2000 e regulamento tÉcnico de identidade e qualidade do mel. Diário O�cial da União de23/10/2000, Seção 1, Página 23, Fevereiro 2010.

[24] M. S. Nixon and A. S. Aguado. Feature Extraction & Image Processing. Primeira edition,2002.

[25] J. P. Papa. Classi�cação Supervisionada de Padrões Utilizando Florestas de Caminhos Óti-mos. PhD thesis, UNICAMP, novembro 2008.

[26] G. Peccini and M. C. Ornellas. Segmentação de imagens por watersheds: Uma implementa-ção utilizando a linguagem java. [ REIC ] - Revista Eletrônica de Iniciação Cientí�ca ANOV, (IV), 2005.

[27] L. A. Peternelli and M. P. Mello. Conhecendo o R: uma visão estatística. Série Didática.Editora UFV, 1 edition, March 2011.

[28] P. F. Quieroz. Glossário de termos usados em morfologia polínica. Terra Scenica - Centropara a criatividade partilhada das ciências, artes e tecnologia, 2012.

[29] P. H. Raven. Biologia Vegetal. 6a edition, 2001.

52

Page 59: UNIVERSIDADE CATÓLICA DOM BOSCO PROGRAMA DE PÓS-GRADUAÇÃO … · GIA, no Prgroama de Pós Graduação em Biotecnologia da Universidade Católica Dom Bosco - Áaer de oncen-c tração:

[30] W. R. S. e. H. P. Ricardo Dutra da Silva. Avaliação da invariância à rotação de descritorestexturais extraídos por transformadas wavelets. In XIV Simpósio Brasileiro de Sensoria-mento Remoto, pages 7159 � 7166, 04 2009.

[31] R. C. B. Rodrigues and R. H. R. Viana. Máquinas de vetores de suporte aplicadas à classi�-cação de defeitos em couro bovino. Quali�cação de Bacharel em Engenharia de Computaçãona Universidade Católica Dom Bosco Campo Grande - MS - Brasil, 2007.

[32] C. L. Sanches. Novel image processing of 3d textures. Master's thesis, Heriot Watt Univer-sity, september 2003.

[33] T. Scenica. Pólen, mel e território. Consultado em 21 de fevereiro de 2010, 2010.

[34] J. A. Silva and W. N. Gonçalves. Modelos ocultos de markov aplicados na identi�cação decomportamento de animais. Quali�cação de Bacharel em Engenharia de Computação naUniversidade Católica Dom Bosco Campo Grande - MS - Brasil, 2007.

[35] K. P. Souza and H. Pistori. Aplicação de modelos de markov ocultos na obtenção de taxasde mortalidade das larvas do mosquito da dengue. Dissertação de Mestrado apresentadana Faculdade de Computação do Centro de Ciências Exatas e Tecnologia da UniversidadeFederal de Mato Grosso do Sul, 2010.

[36] P. N. Stuart Russell. Inteligência Arti�cial. Elsevier, ii edition, 2004.

[37] T. Vargas. Avaliação da qualidade do mel produzido na região dos campos gerais do paraná.Master's thesis, Universidade Estadual de Ponta Grossa, 2006. Mestrado em ciência etecnologia de alimentos.

53