119
U NIVERSIDADE F EDERAL DE G OIÁS I NSTITUTO DE I NFORMÁTICA B RUNO U RBANO RODRIGUES Reconhecimento do tipo de cachaça utilizando visão computacional e reconhecimento de padrões Goiânia 2015

Reconhecimento do tipo de cachaça utilizando visão computacional

Embed Size (px)

Citation preview

Page 1: Reconhecimento do tipo de cachaça utilizando visão computacional

UNIVERSIDADE FEDERAL DE GOIÁSINSTITUTO DE INFORMÁTICA

BRUNO URBANO RODRIGUES

Reconhecimento do tipo de cachaçautilizando visão computacional e

reconhecimento de padrões

Goiânia2015

Page 2: Reconhecimento do tipo de cachaça utilizando visão computacional

TERMO DE CIÊNCIA E DE AUTORIZAÇÃO PARA DISPONIBILIZAR AS TESES EDISSERTAÇÕES ELETRÔNICAS (TEDE) NA BIBLIOTECA DIGITAL DA UFG

Na qualidade de titular dos direitos de autor, autorizo a Universidade Federal de Goiás(UFG) a disponibilizar, gratuitamente, por meio da Biblioteca Digital de Teses e Dissertações(BDTD/UFG), sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, odocumento conforme permissões assinaladas abaixo, para fins de leitura, impressão e/oudownload, a título de divulgação da produção científica brasileira, a partir desta data.

1. Identificação do material bibliográfico: [ X ] Dissertação [ ] Tese

2. Identificação da Tese ou DissertaçãoAutor (a): Bruno Urbano RodriguesE-mail: [email protected] e-mail pode ser disponibilizado na página? [x]Sim [ ] Não

Vínculo empregatício do autorAgência de fomento: Sigla:País: UF: CNPJ:Título: Reconhecimento do tipo de cachaça utilizando visão computacional e

reconhecimento de padrõesPalavras-chave: Visão Computacional, Reconhecimento de Padrões, Análise de

bebidasTítulo em outra língua: Recognition of cachaça type using computer vision and

pattern recognitionPalavras-chave em outra língua: Computer Vision, Pattern Recognition, Drink AnalysisÁrea de concentração: Ciência da ComputaçãoData defesa: (dd/mm/aaaa) 01/10/2015Programa de Pós-Graduação: Mestrado em Ciência da ComputaçãoOrientador (a): Prof. Dr. Ronaldo Martins da CostaE-mail: [email protected] (a):* Prof. Dr. Anderson da Silva SoaresE-mail: [email protected]

*Necessita do CPF quando não constar no SisPG

3. Informações de acesso ao documento:

Concorda com a liberação total do documento [ X ] SIM [ ] NÃO1

Havendo concordância com a disponibilização eletrônica, torna-se imprescindível oenvio do(s) arquivo(s) em formato digital PDF ou DOC da tese ou dissertação.

O sistema da Biblioteca Digital de Teses e Dissertações garante aos autores, que osarquivos contendo eletronicamente as teses e ou dissertações, antes de sua disponibilização,receberão procedimentos de segurança, criptografia (para não permitir cópia e extração deconteúdo, permitindo apenas impressão fraca) usando o padrão do Acrobat.

________________________________________ Data: 01 / 12 / 2015 Assinatura do (a) autor (a)

1 Neste caso o documento será embargado por até um ano a partir da data de defesa. A extensão deste prazo suscita justificativa junto à coordenação do curso. Os dados do documento não serão disponibilizados durante o período de embargo.

Page 3: Reconhecimento do tipo de cachaça utilizando visão computacional

BRUNO URBANO RODRIGUES

Reconhecimento do tipo de cachaçautilizando visão computacional e

reconhecimento de padrões

Dissertação apresentada ao Programa de Pós–Graduação doInstituto de Informática da Universidade Federal de Goiás,como requisito parcial para obtenção do título de Mestre emPrograma de Pós-graduação em Ciência da Computação.

Área de concentração: Ciência da Computação.

Orientador: Prof. Dr. Ronaldo Martins da Costa

Co-Orientador: Prof. Dr. Anderson da Silva Soares

Goiânia2015

Page 4: Reconhecimento do tipo de cachaça utilizando visão computacional

Ficha catalográfica elaborada automaticamente com os dados fornecidos pelo(a) autor(a), sob orientação do Sibi/UFG.

Urbano Rodrigues, Bruno Reconhecimento do tipo de cachaça utilizando visão computacional ereconhecimento de padrões [manuscrito] / Bruno Urbano Rodrigues. -2015. 116 f.: il.

Orientador: Prof. Dr. Ronaldo Martins da Costa; co-orientador Dr.Anderson da Silva Soares; co-orientador Dr. Rogerio Salvini.Dissertação (Mestrado) - Universidade Federal de Goiás, Instituto deInformática (INF) , Programa de Pós-Graduação em Ciência daComputação, Cidade de Goiás, 2015. Bibliografia. Apêndice. Inclui abreviaturas, tabelas, lista de figuras, lista de tabelas.

1. Visão Computacional. 2. Reconhecimento de Padrões. 3. Análisede Bebidas. I. Martins da Costa, Ronaldo, orient. II. da Silva Soares,Anderson, co-orient. III. Título.

Page 5: Reconhecimento do tipo de cachaça utilizando visão computacional
Page 6: Reconhecimento do tipo de cachaça utilizando visão computacional

Todos os direitos reservados. É proibida a reprodução total ou parcial dotrabalho sem autorização da universidade, do autor e do orientador(a).

Bruno Urbano Rodrigues

Graduou-se em Sistema de Informação pela Universidade Salgado de Oli-veira, campus Goiânia. Especializou-se em Gestão de Software pela Uni-Anhanguera, campus Goiânia. Durante o Mestrado na UFG, participou degrupo de pesquisa em Visão Computacional. Atua como Analista de Sistemasjunto à Secretaria de Estado de Gestão e Planejamento, participando de ativi-dades de análise, desenvolvimento e implantação de sistemas de informação.Atua também como docente universitário nas instituições Senai e FaculdadeSul Americana

Page 7: Reconhecimento do tipo de cachaça utilizando visão computacional

Dedico este trabalho primeiramente a Deus.Aos meus pais, Arucumam e Lucila, por terem sempre me apoiado em meus

projetos.Ao meus queridos irmãos gêmeos, Rafael e Rodolfo, que sempre me ensinaram

a acreditar mais, ousar mais.À minha esposa, Tamires, pelo companheirismo, compreensão e carinho.A minha filha Luiza que mostrou-me o qual singelo é o amor de Deus por nós.

Page 8: Reconhecimento do tipo de cachaça utilizando visão computacional

Agradecimentos

Embora seja um trabalho individual, esta dissertação recebeu contribuiçõesdiretas e indiretas para sua realização. O sentimento que expresso após o seu términoé gratidão. Gratidão pela oportunidade e fé de acreditar que esta fase em minha vida seriatangível de ser concluída.

Agradeço ao meu orientador Prof. Dr. Ronaldo Martins da Costa pela confiançae oportunidade de trabalhar ao seu lado e por ser o maior incentivador na superação demeus limites. Sua paciência e benevolência me ensinaram a olhar o mundo em outraperspectiva.

Ao prof. Dr. Anderson Soares da Silva pela infinita disponibilidade, por todos osensinamentos e pela impecável condução deste trabalho. Fez-me enxergar que existe maisque pesquisadores e resultados por trás de uma dissertação. Mostrou-me que dedicação eesforço sempre serão recompensados.

Ao prof. Dr. Rogerio Salvini pelas críticas, pelos apontamentos de melhoria.Mostrou-me que a busca por excelência nos diz o profissional que iremos nos tornar.

Ao INF da UFG, pela excelente estrutura, suporte e ambiente oferecidos aosalunos, e a todos os professores, principalmente aos que eu tive a oportunidade deconhecer e aprender tantas coisas.

A Escola de Agronomia da Universidade Federal de Goiás pelo suporte edisponibilidade de recursos para desenvolvimento da pesquisa. Especialmente a KarlaCristina e Tânia Ribeiro pelo companheirismo e amizade.

Aos amigos do mestrado que contribuíram diretamente para a realização dessapesquisa e foram muito importantes durante o andamento do trabalho. Especialmente aoEdjalma parceiro nas horas difíceis, Carina Calixto por me incentivar a sempre querermais e Hedenir pela gentileza e suporte nesta fase final do mestrado.

A minha família, meus pais e irmãos que sempre acreditaram em mim, pelosuporte e apoio. Especialmente as minhas tias Aldenora e Ivani com almoços financiadosa muito Fricassê. Finais de semana que sempre serão lembrados com carinho. A JuarezBarbosa Filho pelo suporte a minha família e pelas oportunidades oferecidas durante boaparte da minha vida.

A minha esposa, que com o carinho e apoio soube me incentivar a continuar.

Page 9: Reconhecimento do tipo de cachaça utilizando visão computacional

Mostrou-me na prática o que é processamento multithreading com o nascimento de nossaamanda filha Luiza.

E por fim a Deus, o Senhor, que me dotou perseverança e fé, e que permitiuque todo o contexto da minha vida fosse favorável para iniciar, desenvolver e concluir omestrado.

Muito obrigado!

Page 10: Reconhecimento do tipo de cachaça utilizando visão computacional

“. . . um pouco mais de conhecimento ilumina nosso caminho.”

Mestre Yoda,Star Wars: Episode V - The Empire Strikes Back.

Page 11: Reconhecimento do tipo de cachaça utilizando visão computacional

Resumo

Rodrigues Urbano, Bruno. Reconhecimento do tipo de cachaça utilizandovisão computacional e reconhecimento de padrões. Goiânia, 2015. 116p.Dissertação de Mestrado. Instituto de Informática, Universidade Federal deGoiás.

A cachaça é um tipo de bebida destilada a partir da cana-de-açúcar que possui uma grandeimportância econômica. Sua classificação inclui três tipos: envelhecida, premium e extra

premium. Estas três classificações estão relacionadas ao tempo de envelhecimento dabebida em tonéis de madeira. Além do tempo de envelhecimento é relevante saber quala madeira utilizada no tonél de armazenamento para que as propriedades de cada bebidasejam informadas corretamente ao consumidor. Neste trabalho é apresentado um métodopara o reconhecimento automático do tipo de madeira e do tempo de envelhecimentoutilizando um sistema de visão computacional. O sistema de visão computacional éutilizado na análise dos modelos de cores aditivo (RGB) e subtrativo (CIELab) capturadospor uma câmera digital. Em associação ao sistema de visão computacional, algoritmos dereconhecimento de padrões são utilizados em conjunto com informações químicas paraa classificação das amostras. Para tal utiliza-se quatro algoritmos: Rede Neural Artificial,k-NN (k-Nearest Neighbor), SVM (Support Vector Machines) e Naive Bayes. Ao finalé utilizado o ensemble AdaBoost, técnica que combina classificadores. No estudo foramutilizadas 108 amostras de cachaça. Os resultados obtidos demonstram que foi possívelobter taxas superiores a 96,26% na utilização dos algoritmos de reconhecimento depadrões para o problema do tipo de madeira. O AdaBoost trouxe índices de 100% deacerto para o problema de classificação do tipo de madeira e tempo de envelhecimento.Sua utilização comprova que é possível a classificação de cachaça utilizando apenas dadosdo modelo de cores contribuindo para um menor custo de produção.

Palavras–chave

Visão Computacional, Reconhecimento de Padrões, Análise de bebidas

Page 12: Reconhecimento do tipo de cachaça utilizando visão computacional

Abstract

Rodrigues Urbano, Bruno. Recognition of cachaça type using computer visionand pattern recognition. Goiânia, 2015. 116p. MSc. Dissertation. Instituto deInformática, Universidade Federal de Goiás.

The cachaça is a type of drink distilled from sugar cane that has a great economicimportance. Their classification includes three types: aged, premium and premium extra.These three classifications are related to the aging time drink in wooden barrels. Besidesthe aging time is relevant to know what the wood used in the barrels of storage forthe properties of each drink are informed correctly to the consumer. This dissertationpresented a method for the automatic recognition of the type of wood and the aging timeusing a computer vision system. The computer vision system is used in the analysis ofthe color models (RGB) additive and subtractive (CIELab) caught on digital camera. Inassociation with computer vision, algorithmics, system of pattern recognition are usedin conjunction with chemical information for the classification of samples. Went usedfour algorithmics: Artificial Neural network, k-NN (k-Nearest Neighbor), SVM (Support

Vector Machines) and Naive Bayes. The end is used the ensemble AdaBoost, techniquecombining classifiers. In the study we used 108 samples of rum. The results obtainedshow that it was possible to obtain rates excess use of % 96.26 algorithmics of patternrecognition to the problem of the type of wood. The AdaBoost brought 100 indices % hitto the problem of classification of the type of wood and aging time. Your use proves thatit is possible the sort of rum using only color model data contributing to a lower cost ofproduction.

Keywords

computer vision, pattern recognition, drink analysis

Page 13: Reconhecimento do tipo de cachaça utilizando visão computacional

Lista de Abreviaturas e Siglas

RGB - Red Green Blue

SVM - Support Vector Machines

k-NN - k-Nearest Neighbor

PLS-DA - Partial least squares Discriminant Analysis

QDA - Quadratic Discriminant Analysis

LDA - Linear Discriminant Analysis

HVS - Hue, Saturation e Value

VIS - VisibilidadeNIR - Near-infrared spectroscopy

GC-MS - Gas chromatography mass spectrometry

MPL - Rede Neural Artificial do tipo perceptron multi-camadasRBF - Radial-Basis Functions

FDC - Função de distribuição acumuladaRNA - Rede Neural ArtificialPCA - Análise de Componentes Principais

Page 14: Reconhecimento do tipo de cachaça utilizando visão computacional

Sumário

Lista de Abreviaturas e Siglas 10

Lista de Figuras 13

Lista de Tabelas 15

1 Introdução 161.1 Análise Econômica da Cachaça 161.2 Justificativa 181.3 Objetivos 191.4 Trabalhos correlatos 191.5 Organização da dissertação 23

2 Fundamentos Teóricos 242.1 Visão Computacional 24

2.1.1 Funções Contínuas e Discretas 262.1.2 Imagem digital 282.1.3 Histograma 292.1.4 Filtragem Digital 33

Filtro Gaussiano 362.1.5 Espaço de cores 36

2.2 Reconhecimento de Padrões 392.2.1 Rede Neural Artificial 40

Dados de treinamento e verificação 41Topologia de rede 41Função de ativação 42Estratégia de aprendizado 43Multilayer perception com backpropagation 44

2.2.2 K-Nearest Neighbors 452.2.3 Support Vector Machine 472.2.4 Naive Bayes 50

2.3 Análise Multivariada 522.4 Análise Discriminante 542.5 Combinação de classificadores 56

3 Material e Métodos 603.1 Amostras 603.2 Sistema de visão computacional 623.3 Algoritmos de Reconhecimento de Padrões 65

Page 15: Reconhecimento do tipo de cachaça utilizando visão computacional

3.4 Análise discriminante 673.5 Análise de Componentes Principais 70

4 Resultados 72

5 Análise e Discussão dos Resultados 755.1 Tipo de madeira, Tempo de envelhecimento e Uso de Classificadores 75

6 Considerações Finais 766.1 Conclusão 766.2 Trabalhos futuros 776.3 Publicações 77

Referências Bibliográficas 78

A Artigo publicado no The International Conference on Computational Science2014 - Qualis A2 88

B Artigo publicado no X Workshop de Visão Computacional - Qualis B5 99

C Catálogo de Amostras de Cachaça 105C.1 Amburana - Amburana cearensis 105

C.1.1 Amburana - Barril 1 105C.1.2 Amburana - Barril 2 106C.1.3 Amburana - Barril 3 107C.1.4 Amburana - Barril 4 108

C.2 Carvalho - Quercus spp 109C.2.1 Carvalho - Barril 1 109C.2.2 Carvalho - Barril 2 110C.2.3 Carvalho - Barril 3 111C.2.4 Carvalho - Barril 4 112

C.3 Castanheira - Bertholletia excelsa H.B.K 113C.3.1 Castanheira - Barril 1 113C.3.2 Castanheira - Barril 2 114C.3.3 Castanheira - Barril 3 115C.3.4 Castanheira - Barril 4 116

Page 16: Reconhecimento do tipo de cachaça utilizando visão computacional

Lista de Figuras

2.1 Etapas de um sistema de processamento de imagens.[52] 252.2 Amostragem de um sinal contínuo.[88] 272.3 Equalização do histograma para 3 bits de uma imagem.[108] 332.4 Exemplo de convolução aperiódica. O valor 0 (zero) é atribuído aos

resultados não calculáveis 342.5 Movimento da máscara de tamanho 3 x 3 para filtrar a imagem. O pixel

cinza é o pixel central que terá o seu valor modificado conforme sejam ospesos dos pixels do filtro. 35(a) Histograma original para 3 bits de uma imagem 35(b) Transformação do histograma para 3 bits de uma imagem 35(c) Histograma Equalizado 35

2.6 Função de densidade de probabilidade normal, ou curva gaussiana.[79] 362.7 Síntese aditiva e subtrativa para o espaço de cores. 382.8 Componentes dos neurônios artificiais 402.9 Topologias de redes diretas e recorrentes. 42

(a) Rede direta (feedforward) 42(b) Rede recorrente (feedback) 42

2.10 Funções de ativação para utilizadas em neurônios artificiais. 43(a) Função ativação rampa 43(b) Função degrau bipolar 43(c) Função sigmóide ou logística 43(d) Função hiperbólica 43

2.11 Modelo de Rede Feedforward de Múltiplas Camadas 442.12 Problema de pesquisa k=3. 462.13 Problema de classificação entre duas classes utilizando o SVM 482.14 Distribuição de dados não lineares elevados para uma dimensão linear-

mente separável. 48(a) k=1 48(b) k=2 48(c) k=3 48(a) Conjunto de dados não lineares 48(b) Conjunto de dados em uma dimensão linearmente separável 48

2.15 Utilização de uma função kernel do tipo gaussiana 49(a) Dispersão de objetos em uma dimensão não linear 49(b) Dispersão de objetos em uma dimensão linearmente separável 49

2.16 Gráfico representativo sobre a PCA e suas componentes principais 532.17 Esquema de um ensemble gerado a partir da combinação de vários

classificadores (Ci) 57

Page 17: Reconhecimento do tipo de cachaça utilizando visão computacional

3.1 Esquema representativo da metodologia aplicada ao Sistema de Visão. 623.2 Sistema para captura das fotografias digitais 633.3 Dispositivo fabricado de acordo com a técnica de Sun[104] 633.4 Amostra de cachaça armazenada em Amburana 633.5 Balanço de branco aplicado a uma imagem 643.6 Escolha de um quadrante da amostra para ser trabalhado. 643.7 Esquema representativo da metodologia utilizada em Reconhecimento de

Padrões 653.8 Validação cruzada com k-folds 673.9 A discriminalidade de Fisher para o problema do tipo de madeira( 3.9(a))

e tempo de envelhecimento( 3.9(b)), utilizando dados químicos, modelode cores CIELab e RGB. 68

3.10 Gráfico de dispersão de objetos com hiperplano de separação de classesobtidos por discriminante linear 69

3.11 Gráfico de dispersão de objetos com hiperplano de separação de classesobtidos por discriminante linear quadrática 69

3.12 Gráfico de dispersão de objetos utilizando as duas componentes princi-pais de maior variância 70

3.13 Dispersão de objetos para o problema de reconhecimento do tempo deenvelhecimento e tipo de madeira utilizando redes neurais artificias e k-NN. 71

C.1 Amostras de cachaças obtidas no período do mês 04 ao mês 36 no barril 1 105C.2 Amostras de cachaças obtidas no período do mês 04 ao mês 36 no barril 2 106C.3 Amostras de cachaças obtidas no período do mês 04 ao mês 36 no barril 3 107C.4 Amostras de cachaças obtidas no período do mês 04 ao mês 36 no barril 4 108C.5 Amostras de cachaças obtidas no período do mês 04 ao mês 36 no barril 1 109C.6 Amostras de cachaças obtidas no período do mês 04 ao mês 36 no barril 2 110C.7 Amostras de cachaças obtidas no período do mês 04 ao mês 36 no barril 3 111C.8 Amostras de cachaças obtidas no período do mês 04 ao mês 36 no barril 4 112C.9 Amostras de cachaças obtidas no período do mês 04 ao mês 36 no barril 1 113C.10 Amostras de cachaças obtidas no período do mês 04 ao mês 36 no barril 2 114C.11 Amostras de cachaças obtidas no período do mês 04 ao mês 36 no barril 3 115C.12 Amostras de cachaças obtidas no período do mês 04 ao mês 36 no barril 4 116

Page 18: Reconhecimento do tipo de cachaça utilizando visão computacional

Lista de Tabelas

2.1 Vizinhança-4 292.2 Vizinhança-8 292.3 Relação de cálculo dos histogramas para a imagem por meio das fórmu-

las 2.1.3 e 2-4.[52] 302.4 Cálculo para Pr(rk) é igual a nk/MN. 312.5 Cálculo para fdc é a somatória de P0(r0) + P1(r1) até Pk(rk). 312.6 Cálculo de Tr(rk) para o intervalo [0,7]. É obtido por 7 *fdc = Tr(rk). 322.7 Calculando a Sk e Ps(sk) 322.8 Modelos de cores existentes. 382.9 Relação de pessoas baseada em nome e sexo. 512.10 Ocorrências de características para o sexo masculino (p(masculino)= 3

8)

e feminino (p( f eminino) = 58) 51

2.11 Ocorrências de características para o sexo masculino/feminino dado queo nome seja Juraci (p(masculino| juraci) = 1

3) e (p( f eminino| juraci) = 25) 52

3.1 Amostras de cachaça analisadas no período de 36 meses. 603.2 Atributos químicos extraídos da análise das amostras 613.3 Representação dos atributos CIELab(a) and RGB(b) com seus respecti-

vos identificadores e descrição 65

4.1 Taxa de acerto para as análises discriminantes linear e quadrática 72(a) CIELAB 72(b) RGB 72(a) Tipo de madeira 72(b) Tempo de envelhecimento 72(a) Tempo de envelhecimento 72(b) Tipo de madeira 72

4.2 Reconhecimento de Padrões utilizando somente dados químicos para oproblema do tipo de madeira e tempo de envelhecimento. 73

4.3 Reconhecimento de Padrões utilizando informações do modelo de coresCIELAB e RGB sem o uso de informações de dados químicos. 73

4.4 Reconhecimento de Padrões utilizando modelo de cores CIELAB e dadosquímicos. 74

4.5 Reconhecimento de Padrões utilizando dados químicos, modelo de coresCIELAB e RGB. 74

Page 19: Reconhecimento do tipo de cachaça utilizando visão computacional

CAPÍTULO 1Introdução

A cachaça é um tipo de bebida especial produzida a partir da cana-de-açúcar(Saccharum sp) similar ao rum. A este líquido foi dado o nome de cagaça, ao serdestilada, deu origem à cachaça ou pinga. Com a chegada da Corte Portuguesa noBrasil, ela ganha o status de bebida dos “brasileiros” [103]. Na comemoração dos 500anos do descobrimento do Brasil, o governo federal publicou os decretos 4062/01[32] e4072/02[33] que estabeleceram a denominação "cachaça"como oficial e exclusiva para aaguardente de cana produzida no Brasil com objetivo de promover e divulgar a cachaçano mercado internacional. A cachaça tem papel importante no cenário histórico e culturaldo Brasil. No que diz respeito à questão cultural, a cachaça apresenta-se em um processode mudança de status, que podemos chamar de "gastronomização"do produto, que temcontribuído significativamente para um consumo nacional diferenciado, pois o seletopúblico mostra-se exigente e com maior poder aquisitivo. "Gastronomização", por suavez, se refere à estetização, ritualização, valorização do sabor e do prazer conferido àcachaça. Essa tendência possui como característica a passagem do consumo cotidiano eautomático para uma ação prazerosa, de lazer, sociabilidade e comensalidade, observadocomo uma questão de gosto, cultura e tradição[5].

1.1 Análise Econômica da Cachaça

O mercado de bebidas alcoólicas no Brasil é dividido em bebidas destiladas(Cachaça, Uísque, Vodca, Rum, Gim, Conhaque e Tequila) e fermentadas (Cervejas,Vinhos, Saque, Sidra, Champagne e Espumantes)[24]. Dentro desta divisão a cerveja ficaem primeiro lugar com aproximadamente 88,8%, seguida pela cachaça com 6,6% e asdemais bebidas com 4,6%. Dentro do setor de destilados a cachaça detém o primeirolugar com 87% do volume de vendas. O agronegócio da cachaça movimenta anualmente,em toda a sua cadeia produtiva, cerca de R$ 7 bilhões e um mercado que conta comaproximadamente 40 mil produtores e 4 mil marcas, composto na sua quase totalidade(98%) por pequenos e micro empresários. O faturamento do setor alcançou R$5,95bilhões em 2013, quando foram produzidos 511,54 milhões de litros da bebida, de acordo

Page 20: Reconhecimento do tipo de cachaça utilizando visão computacional

1.1 Análise Econômica da Cachaça 17

com o Sistema de Controle da Produção de Bebidas da Receita Federal - SICOBE[26],responsável por controlar a produção das principais empresas formais do setor e de acordocom o Instituto Brasileiro da cachaça IBRAC[58], que reúne os principais alambiques eassociações de produtores de cachaça, estima-se que a capacidade instalada no Brasil é de1,2 bilhões de litros/ano[3][82][26].

Em 2011 o Ministério da Agricultura, Pecuária e Abastecimento[25], por meiode sua Secretaria Executiva, apresentou a agenda estratégica 2010 - 2015. Fruto dotrabalho coletivo do conjunto das entidades representantes do setor privado em seusdiversos elos da cadeia produtiva e representantes do governo que compõem a CâmaraSetorial da Cadeia Produtiva da Cachaça, proporcionando o ordenamento dos trabalhos,organizando, sistematizando e racionalizando as ações e objetivos estabelecidos pelaCâmara Setorial.

Em dezembro de 2013, o Governo do Estado de Goiás e produtores locais forma-lizaram a criação do Arranjo Produtivo Local (APL) da Cachaça de Goiás[34]. ArranjosProdutivos Locais, são aglomerações de empresas, localizadas em um mesmo território,que apresentam especialização produtiva e mantêm vínculos de articulação, interação,cooperação e aprendizagem entre si e com outros atores locais, tais como: governo, as-sociações empresariais, instituições de crédito, ensino e pesquisa. O objetivo é fomentare desenvolver a cadeia produtiva da bebida por meio da capacitação de produtores e dooferecimento de linhas de crédito para fomentar o crescimento. Assim, auxiliar os produ-tores no estabelecimento da marca "Cachaça de Goiás", promover nacional e internacio-nalmente a cachaça de alambique do estado e estabelecer parcerias com laboratórios paraa realização de análises físico-químicas do produto. Com a APL foi concedido a reduçãoda carga tributária por meio do decreto no 7.769 de 29 de novembro de 2012[35]. Estedecreto objetivou a exclusão da Cachaça da substituição tributária, ocasionando reduçãodo ICMS de 27% para 10%. Outro fator que influenciou o crescimento da produção foia criação do Pró-Cachaça. Por meio deste programa as unidades de produção são fisca-lizadas e registradas gerando um incentivo à comercialização e à exportação da cachaçagoiana, entre outras medidas. O objetivo do programa é capacitar o produtor, modernizaras técnicas de produção e, consequentemente, melhorar a qualidade da cachaça artesanalproduzida no Estado.

O estado de Goiás é responsável por 8% da produção nacional. As condiçõesclimáticas propícias vêm estimulando o Estado a aumentar sua participação nesse mer-cado. Somente na região de Orizona que fica a 139 km da capital do estado (Goiânia), seconcentram mais de 50 indústrias artesanais. No entanto, para que os produtores de ca-chaça do estado possam competir no mercado nacional e internacional, é necessário que acachaça seja diagnosticada, verificando-se os pontos que precisam ser melhorados e ade-quados para atingir os níveis de qualidade estabelecidos pela legislação além de agradar

Page 21: Reconhecimento do tipo de cachaça utilizando visão computacional

1.2 Justificativa 18

ao paladar dos consumidores[16].

1.2 Justificativa

A qualidade da cachaça está relacionada às suas propriedades sensoriais, taiscomo cor, sabor e odor, que por sua vez dependem da qualidade da matéria-prima,do processo de fermentação, do sistema de destilação, do material de fabricação, dosequipamentos e do processo de envelhecimento e de engarrafamento. As mudançassensoriais na cachaça, envelhecida em tonéis de madeira, são decorrentes da variaçãoda composição química da bebida, que são consequência de reações químicas entre oscompostos contidos na própria bebida e/ou com os componentes da madeira da qual otonel é constituído[16].

Quando envelhecidas ou descansadas em tonéis de madeira a cachaça pode mu-dar suas características inerentes a análise sensorial (visão, olfato e paladar). Geralmentebebidas como uísques, brandies e vinhos são envelhecidas em tonéis de carvalho. Estamadeira é a mais utilizada devido às reconhecidas características sensoriais dos uísques,conhaques e runs, incorporados como padrões de bebidas envelhecidas. No caso da ca-chaça, vários estudos são feitos no sentido de avaliar a viabilidade da substituição docarvalho que é importado, por espécies brasileiras de madeira. As madeiras freijó, amen-doim e parreira apresentam resultados sensoriais semelhantes ao carvalho, demonstrandopossibilidades de aproveitamento. Faria[39] e Bortoletto[11] demonstram que após seismeses de armazenamento em barris de amburana, balsamo, ipê, jatobá, jequitibá a ca-chaça apresenta, independente da madeira, melhorias nas suas características sensoriais.A cachaça envelhecida em tonéis de balsamo foi a que mais se assemelhou, quanto àscaracterísticas químicas, à envelhecida em tonéis de carvalho.

Os métodos atuais abordam apenas a análise química das amostras. Não hárelatos de estudos que abordam a visão computacional para a classificação de amostraslíquidas e multiplicidade de madeiras para armazenamento das amostras. As análisesgeralmente utilizam cromatografia e espectrometria para dados químicos. Adicionalmenteutiliza-se o colorímetro para obter a cor das amostras no modelo CIELab. Por sua vez,tais equipamentos estão disponíveis em laboratórios de pesquisa e indústrias. Um pontorelevante é tornar acessível esta tecnologia.

Ocorre que alguns fabricantes tentam fraudar o processo de produção adulte-rando a cor ou tipo de armazenagem da cachaça. A falsificação geralmente está atribuídana correção da cor da cachaça conforme citado por Augusti[28] onde há comercializa-ção de cachaças “batizadas”. É comum a comercialização de cachaça envelhecida comose fosse extra premium ou a comercialização de cachaça armazenada em tonéis de ma-deira de baixa qualidade afirmando que a mesma é de alta qualidade. Em resposta as estas

Page 22: Reconhecimento do tipo de cachaça utilizando visão computacional

1.3 Objetivos 19

alterações físico-químicas da cachaça, a visão computacional e os algoritmos de reconhe-cimentos de padrões podem auxiliar na identificação desse tipo de fraude. Estes fatoresimportantes no controle de qualidade da bebida para avaliação das alterações que possamcontribuir para a melhoria de processos de produção.

1.3 Objetivos

Os atuais métodos para avaliação de tempo de envelhecimento e tipo de madeirabaseiam-se em análise química. Não foram encontrados trabalhos que utilizam algorit-mos de visão computacional neste tipo de avaliação. Os métodos encontrados utilizamcromatografia e espectrometria para dados químicos. Estas informações são obtidas emlaboratórios com equipamentos restritos.

Portanto, neste trabalho é proposto um método de classificação de cachaça queidentifica os tipos de madeira e o tempo de envelhecimento utilizando algoritmos de visãocomputacional e reconhecimento de padrões. Os atributos de entrada do algoritmo sãoinformações do modelo de cores RGB que podem ser obtidos através de equipamentos defácil acesso. Para validar a eficácia do método construído, os resultados foram comparadoscom o método de classificação que usa análise química.

1.4 Trabalhos correlatos

Nesta seção apresentamos alguns trabalhos correlatos a classificação e caracte-rização de bebidas destiladas e fermentadas que abrangem os seguintes temas: cromato-grafia gasosa, espectrometria, visão computacional, redes neurais, algoritmos genéticos,análise discriminante e análise multivariada. O objetivo desta seção é demonstrar umaanálise comparativa entre os métodos estudados e trabalhos correlatos existentes. Os re-sultados obtidos nos testes comparativos descritos nesta seção foram apresentados emartigos ou trabalhos de dissertação.

De Souza[27] utilizara cromatografia gasosa - olfatometria - para separar ecaracterizar os odores presentes na cachaça e rum. Estes dois produtos de cana de açúcarforam comparados e os padrões identificados a partir de uma análise sensorial descritiva.A desvantagem da utilização deste método é manutenibilidade, pois possui alto custo.Augusti[28] demonstraram a diferenciação entre cachaça artesanal e o rum utilizandoespectrometria de massa por ionização (ESI-MS). Utilizou a análise de componentesprincipais (PCA), abordagem estatística na qual os dados são representadas por umsubconjunto de seus autovetores, observando tipo de madeiras (amburana -Amburana

cearensis e jequitibá - Cariniana legalis). Seu trabalho contribui para que novos estudospossam utilizar esta técnica para a identificação de cachaças artesanais e industriais bem

Page 23: Reconhecimento do tipo de cachaça utilizando visão computacional

1.4 Trabalhos correlatos 20

como a detecção de adulterações pela adição de caramelo e outras substâncias comocorantes.

Sawaya[98] demostra em seu trabalho a utilização de um processo denominadofingerprinting ou impressão digital aplicado a várias amostras de vinho. Os fingerprintings

por ESI-MS das amostras detectaram mudanças que ocorreram durante o processo deenvelhecimento para as três variedades de uvas. A PCA dos fingerprintings foi usada paraagrupar as amostras, salientar as principais modificações em composição e indicar os íonsmarcadores para cada grupo. Esta metodologia de caracterização das amostras por ESI-MS, é aplicada em produtos naturais[78, 97, 1], alimentos e bebidas[4, 83] e em petróleoe biodiesel[90, 19, 84]. Sua contribuição demostra que a análise das impressões digitaisindica diferenças para cada variedade de uvas capazes de detectar as transformações queocorrem durante o processo de envelhecimento, bem como para detectar variações nacomposição entre vinho produzido a partir de diferentes regiões e a utilização de análisediscriminante por PCA confirma este cenário. O processo é rápido, confiável e aplicávelpara a análise de várias amostras. É indicado para a distinção qualitativa entre as amostras.

Perfis cromatográficos de vinhos são utilizados como uma impressão digital (fin-

gerprints) de vinhos, com base nas práticas enológicas. Serrano[101] apresenta uma abor-dagem utilizando métodos de análise multivariada combinada com cromatografia, técnicatambém utilizada por Sawaya[98] diferenciando-se pela utilização de modelos de regres-são. Para demostrar a aplicação de sua pesquisa, Serrano[101] relata trabalhos onde a ca-racterização de vinhos inclui a análise de ácidos orgânicos[64] e a aplicação de análise decomponentes principais (PCA) para a representação do subconjunto de autovetores[92].Em sua pesquisa foram analisados compostos químicos onde a PCA permitiu a discri-minação dos vinhos de diferentes regiões. Posteriormente, estes compostos foram usadospara construir modelos de regressão por mínimos quadrados parciais(PLS-DA). Nos re-sultados apresentados o método PLS-DA mostrou-se melhor que o método de PCA. Estasuperioridade já era esperada visto que o método de PCA é um método não supervisi-onado em que cada uma das componentes principais (PC) detecta as direções de maiorvariância na matriz de dados, enquanto que o PLS-DA é um método supervisionado noqual se fornece dados identificando as amostras, o que otimiza a separação entre os grupospor rotacionar os componentes do PCA de forma a obter o máximo de separação entre asclasses.

Wan[110] utilizaram a visão computacional combinada com redes neurais artifi-ciais. Foi utilizada uma abordagem à nível estrutural e microscópica dos vinhos a seremclassificados, por meio da análise da microestrutura e características da textura, fator queinfluencia na atribuição da cor à amostra. Partindo da ideia de que os diferentes vinhos têmvariação na microestrutura(microscopia) e micrografias(partículas), o estudo objetivou aextração de características em comum para delimitar um padrão. Para tal, utilizaram re-

Page 24: Reconhecimento do tipo de cachaça utilizando visão computacional

1.4 Trabalhos correlatos 21

des neurais para a classificação das amostras. Os resultados apresentados confirmam queé possível a classificação do vinho através da sua micrografia, possibilitando a utilizaçãodas característica em outros contextos.

Duarte[37] utilizara método baseado na análise discriminante quadrática(QDA)combinado com a transformada quadrática de Fisher para a classificação de vinhos. Aanálise discriminantes quadrática é utilizada como esquema de classificação e para finsde comparação foi usado outros três métodos de extração de características: transformadalinear de Fisher, transformada de Fourier e transformada Wavelet. Em seus resultados foiapresentado ganho na utilização da discriminante quadrática como método de classifica-ção combinada com a transformada de Fisher para a extração de características do vinho.

Boisier[9] utilizara o ∆E baseado no espaço de cores CIELab nas amostrase demostra o agrupamento de acordo com as tonalidades classificadas. O ∆E medea distância entre duas cores utilizando a métrica euclidiana. O objetivo proposto foirepresentar as cores dos vinhos com número limitado de cores que foram chamadas denuances. A aplicação do ∆E objetivou realizar um comparativo com o modelo de cor HVS(hue, saturation e value), observando o brilho, cromaticidade e saturação. Assim, analisaro espectro de cor, classificar e agrupar de acordo com a tonalidade. Os resultados obtidossão encorajadores na medida em que permitem uma caracterização exata e reprodução dacor do vinho. O modelo de cor RGB é um sistema de cores aditivas formado por Vermelho(Red), Verde (Green) e Azul (Blue). Cores aditivas são cores emitidas ou projetadas. Acor é gerada pela mistura de vários comprimentos de onda luminosa, provocando umasensação de cor quando atinge o olho. Formatos RGB, também conhecidos por true-

color, usam 8-bits por canal. O modelo de cor CIELab é um sistema de cores subtrativo.CIELab descreve as cores básicas em três qualidades: L* é luminosidade, a* e b* contema informação de croma. L* é luminância, medida da densidade e intensidade de uma luzrefletida numa dada direção. As informações a* e b*, referem-se ao valor das cores[52].

Qiongshuai[91] demonstram o ganho da utilização de algoritmos genéticos napreleção e classificação de vinhos combinando com visão computacional. Utiliza-se umarede neural backpropagation e algoritmo genético bee colony. O ganho está relacionadoa utilização das funções de aptidão do algoritmo genético para decidir o melhor peso paraa rede neural.

Kruzlicova[67] demonstram a possibilidade de utilizar redes neurais artificiais(RNA) para a classificação de vinhos varietais brancos. O termo varietal significa, emenologia, o vinho elaborado com único tipo de uva. Vinhos que apresentam mais de umnome de uva em sua composição, não devem ser considerados varietais. A metodologiadesenvolvida foi aplicada para classificar os vinhos brancos eslovacos de diferentesvariedades, ano de produção e de diferentes produtores. Os dados analíticos foramavaliados por meio da rede neural e os resultados da classificação foram comparados

Page 25: Reconhecimento do tipo de cachaça utilizando visão computacional

1.4 Trabalhos correlatos 22

com a análise de variância (ANOVA), análise discriminante linear e quadrática e k-NN(k-Nearest Neighbors). Os resultados apresentaram que a RNA foi melhor que os métodosparamétricos (LDA e QDA) e não-paramétrico (k-NN).

Cowey[22] propusera investigar a relação entre a análise sensorial, visibilidade(VIS) e espectroscopia de infravermelho (NIR) para avaliar as propriedades sensoriais devariedades comerciais de vinhos australianos utilizando PCA. Os resultados mostraramque a espectroscopia NIR foi capaz de prever índices de qualidade do vinho nas amostras.A implicação prática deste estudo é que os métodos instrumentais como espectroscopiaVIS-NIR pode ser usada para complementar a análise sensorial e podem facilitar a tarefaem fases iniciais do desenvolvimento do produto, tornando o rastreio de alto rendimentode novos produtos viáveis ou manter a consistência do produto.

Gomez-Meire[51] utilizaram reconhecimento de padrões através do aprendizadode máquina para encontrar um modelo de classificação capaz de diferenciar vinhos daregião noroeste da Espanha. A técnica visa garantir a autenticidade do vinho e avaliaro poder discriminatório dos diferentes compostos dos vinhos cultivados nesta região. Aextração e análise de cromatografia de compostos voláteis foi obtida pela cromatografiagasosa e espectrofotometria de massa (gas chromatography mass spectrometry - GC-

MS) e foi utilizada a técnica de analise de componentes principais (PCA)[47] parareduzir a dimensão dos dados e representá-los por componentes principais (PC). Paraeste trabalho foram utilizados os algoritmos de classificação: SVM (Support Vector

Machines), Random Forest, Rede Neural Artificial do tipo perceptron multi-camadas(MPL), k-NN (k-Nearest Neighbor) e Naive Bayes. Ao final do estudo, Gomez-Meire[51]demonstra que é possível distinguir com precisão diferentes vinhos provenientes damesma região usando apenas características enológicas. O legado deixado por este estudoé a adoção de alternativas de ensemble capazes de aproveitar a natureza específica decada classificador para aumentar a diversidade do modelo.

Debska[29] demostram o uso de redes neurais artificiais de diferentes arquitetu-ras para a classificação de cerveja. As redes são: redes multilayer perceptron com back-

propagation (MPL-BP) e redes do tipo Radial-Basis Functions (RBF). O experimentoutilizou 70 amostras coletadas durante o processo de produção. As amostras são de umamesma marca de cerveja, mas com diferentes datas de fabricação, provenientes de lotes defabricação diversos. O resultado do estudo apresenta uma classificação para dois subcon-juntos, o primeiro que incluiu amostras de cerveja de boa qualidade e as outras contendoamostras de qualidade insatisfatória. As redes neurais de ambos os tipos perceptron multi-

camada e função de base radial (Radial-Basis Functions) conseguiram uma discriminaçãoentre as qualidades da cerveja com assertividade de 100% para classificação.

Page 26: Reconhecimento do tipo de cachaça utilizando visão computacional

1.5 Organização da dissertação 23

1.5 Organização da dissertação

A fim de melhor atender ao propósito desta dissertação e suas contribuições aoestado da arte para a temática de classificação de cachaça, optou-se por organizá-la eestruturá-la em 6 capítulos principais, divididos em seções e subseções.

O primeiro capítulo traz o contexto no qual a pesquisa é desenvolvida, bem comoas bases que determinaram este trabalho. Esse cenário é composto pela introdução, des-tacando aspectos relacionados ao ambiente deste estudo, evidenciando questões pontuaise culturais acerca do tema e da problemática a ser trabalhada. Por seguinte, é apresentadouma análise econômica da cachaça no mercado nacional e regional, seguido dos objetivosque envolvem uma análise científica desta natureza. O trabalhos correlatos tratam o temae abordam a temática de classificação de bebidas destiladas e fermentadas apoiadas pormetodologias de análise química e análise computacional.

Seguindo sua estrutura de apresentação, a fundamentação teórica, responsávelpelo suporte à realização da parte prática deste trabalho, é explicitada no capítulo dois,abordando assuntos relacionados à proposta da pesquisa que aborda a visão computa-cional, algoritmos de reconhecimento de padrões, análise multivariada e análise discri-minante. Estabelecida a fundamentação teórica do estudo, o próximo passo é definir edelimitar os procedimentos metodológicos a serem utilizados. Esse processo, lógico e se-quencial, guiará a prática da pesquisa, sendo fundamental em seu desenvolvimento, con-forme é divulgado no terceiro capítulo. Definidos os parâmetros norteadores do estudo,em seguida tem-se o modelo de classificação proposto. O capítulo quatro resulta todo oesforço empreendido no tratamento dos assuntos delimitados e discutidos nos capítulosantecedentes e por fim, temos o capítulo cinco no qual é apresentada discussão sobre osresultados encontrados. As considerações finais são discutidas no capítulo seis a respeitodo modelo de classificação abordado nesta pesquisa.

Page 27: Reconhecimento do tipo de cachaça utilizando visão computacional

CAPÍTULO 2Fundamentos Teóricos

Neste capítulo serão abordados os assuntos e técnicas utilizadas no desenvolvi-mento do projeto e necessários à conclusão deste trabalho.

2.1 Visão Computacional

O desenvolvimento de sistemas autônomos que reproduzam as capacidades dosistema visual humano é um grande desafio para a um sistema de visão computacionalque abrange a análise de imagens, cujo objetivo é obter uma descrição que contenha in-formação suficiente para distinguir diferenças entre objetos de interesse sem a intervençãohumana[88]. A visão computacional procura auxiliar a resolução de problemas altamentecomplexos, buscando imitar a cognição humana e habilidade do ser humano em tomardecisões de acordo com as informações contidas na imagem.

Segundo Gonzalez[52] e Pedrini[88], dois níveis de abstração são normalmenteestabelecidos quando é discutido o sistema de visão computacional: processamento deimagens (baixo nível) e análise de imagens (alto nível). O processamento digital deimagens consiste em um conjunto de técnicas para capturar, representar e transformarimagens com o auxílio de computador. Isso envolve segmentação de imagem, descrição,representação e reconhecimento de objetos.

Percebamos que visão computacional é um campo multidisciplinar cujo objetivoprincipal é desenvolver ferramentas que entendam um determinado cenário ou caracte-rísticas de contextos. Isto implica desenvolver teoria e tecnologia para a construção desistemas artificiais para quaisquer dados multi-dimensionais. As aplicações que utilizamvisão computacional são em sua maioria, provindas de outras áreas de pesquisa, resol-vendo problemas particulares de forma específica.

Conforme indicado por Gonzalez[52] e Pedrini[88] as funcionalidades atendidasna maioria dos sistemas de visão computacional são apresentados na Figura 2.1.

Page 28: Reconhecimento do tipo de cachaça utilizando visão computacional

2.1 Visão Computacional 25

Figura 2.1: Etapas de um sistema de processamento deimagens.[52]

Em seguinda temos uma breve descrição de tais funcionalidades:

• Domínio do problema: Escopo da aplicação de técnicas de processamento deimagens.• Aquisição de Imagem: Captura da imagem por meio de dispositivo e convertê-la em

uma representação adequada para o processamento digital subsequente. A imagempode ser bidimensional, tridimensional ou uma sequência de imagens.• Pré-processamento/Aprimoramento: Visa melhorar a qualidade da imagem, de

forma a aplicar métodos específicos que facilitem a identificação de um objeto,como por exemplo destaque de contornos, bordas, destaque de figuras geométricas,etc.• Restauração de imagem: Lida com melhoria da aparência de uma imagem. No

entanto, ao contrário de pré-processamento, que é subjetivo, restauração de imagemé objetiva, no sentido de que as técnicas de restauração tendem a basear-se emmodelos matemáticos ou probabilísticos.• Processamento de cor: trato sobre conceitos fundamentais em modelos de cores e

processamento em um domínio digital.• Multi-resoluções: A transformada wavelet apresenta-se como uma ferramenta al-

ternativa para o processamento de sinais, mudando o paradigma de representaçãodos mesmos, ao utilizar funções base de suporte compacto (em vez das senoidaisde Fourier) para transformar um sinal para o espaço de tempo-escala.

Page 29: Reconhecimento do tipo de cachaça utilizando visão computacional

2.1 Visão Computacional 26

• Compressão: técnicas de redução necessários para salvar uma imagem, ou a largurade banda necessária para transmiti-lá.• Processamento Morfológico: trata com ferramentas para extrair componentes de

imagem que são úteis para a representação e a descrição de sua forma.• Segmentação: realiza a extração e identificação de áreas de interesse contidas

na imagem. Geralmente baseada na detecção de descontinuidades (bordas) ou desimilaridade (regiões) na imagem.• Representação e Descrição: O processo de representação visa utilizar estruturas

para armazenar e manipular os objetos de interesse extraídos da imagem. Já oprocesso de descrição visa a extração de características que possam ser utilizadasna discriminação entre classes de objetos.• Reconhecimento e interpretação: O processo de reconhecimento atribui um identi-

ficador ou rótulo aos objetos da imagem, baseado nas características providas pelosseus descritores. O processo de interpretação consiste em atribuir um significado aoconjunto de objetos reconhecidos.• Base de conhecimento: o conhecimento sobre o domínio do problema que está

codificado em um sistema de PDI na forma de uma base de conhecimento. Esseconhecimento pode ser tão simples quanto o detalhamento de regiões de umaimagem em que se sabe que a informação de interesse pode ser localizada, limitandoassim a busca que precisa ser conduzida na procura por aquela informação..

2.1.1 Funções Contínuas e Discretas

A representação dos sinais (imagens) podem ser descritos como uma função con-tínua. Podemos pensar em uma função contínua como um corda sem emendas que se es-tende indefinidamente (ou seja infinita) e por mais que você corte essa corda, sempre po-derá cortá-la um pouco menor indefinidamente (ou seja infinitesimal). Matematicamenteestamos falando de uma função real definida na reta toda (em ℜ), onde para cada valorde x fornecido sempre existe um único valor de f(x) obtido. Segundo Swokowski[105]podemos definir formalmente como:

f : ℜ→ℜ

x→ f (x) (2-1)

O processo para fazer uma função contínua para o computador é discretizando-a(ou digitalizando-a), tomando valores pontuais ao longo de x e armazenando o valor def(x) correspondente. O processo de discretização do eixo x (o domínio de uma função) échamado de amostragem, para o eixo f(x) (o contradomínio) é chamado de quantização.

Page 30: Reconhecimento do tipo de cachaça utilizando visão computacional

2.1 Visão Computacional 27

A amostragem mais comum é chamada de uniformemente espaçada, pois cada amostra étomada em intervalos iguais.

A Figura 2.2 esboça a amostragem em um sinal contínuo e por seguinte adiscretização deste sinal. Como podemos notar, a discretização de qualquer sinal contínuoprimeiro passa por uma amostragem e depois passa por uma quantização. Além disso,não podemos armazenar um sinal que se estenda indefinidamente, portanto o sinal digitaltambém é limitado a um intervalo do domínio[105].

Figura 2.2: Amostragem de um sinal contínuo.[88]

A amostragem que vemos na figura é chamada de uniformemente espaçada,pois cada amostra é tomada em intervalos iguais e busca a digitalização dos valores decoordenadas. Isso é justificado pois a representação de uma imagem no meio digital,seu comportamento analógico(contínuo) tem que ser convertido num série de valoresdiscretos(descontínuos). A conversão do sinal analógico para o digital é realizada poruma sequência de amostras da variação de voltagem do sinal original. Cada amostra éarredondada para o número mais próximo da escala usada e depois convertida em umnúmero digital binário (0 ou 1) para ser armazenado. A quantização mais comum consisteem tomar o valor máximo e o valor mínimo da função, e dividir este segmento emintervalos iguais de acordo com o número de bits definido para armazenar uma amostra,assim digitalizando os valores de amplitude. Neste contexto o número de valores possíveisserá 2nbits.

Page 31: Reconhecimento do tipo de cachaça utilizando visão computacional

2.1 Visão Computacional 28

2.1.2 Imagem digital

Segundo Gonzalez[52], uma imagem digital Î é um par (DI,~I), onde DI éum conjunto de pontos do Zn (domínio da imagem), denominados spels (space ele-

ments), e ~I é um mapeamento vetorial que associa a cada spels p em DI um conjunto{I1(p), I2(p), ..., Ik(p)} de valores escalares, associados com alguma propriedade física.O valor de n refere-se à dimensão da imagem e o valor de k ao número de bandas. Umaimagem Î = (DI, I) em tons de cinza (imagem de ultrasom, fatia tomográfica) e bidimen-sional (DI ⊂ Z2) possui apenas uma banda I (k = 1), onde os spels são chamados pixels

(picture elements). Uma imagem digital é portanto uma matriz de tamanho N×M pixels(N linhas e M colunas) de valores de pixel p(x,y) inteiros positivos, que indica a intensi-dade de cor em cada posição [x,y] da imagem. Podemos definir formalmente através deuma representação vetorial relacionada ao índice i. Sua representação vetorial relaciona oíndice i a cada pixel p = (x,y) por:

i = x+M ∗ y

para x = [0..M−1]e y = [0..N−1]. (2-2)

Os valores I(p) de cada pixel p são obtidos por amostragem e quantização deuma função contínua Ic(x,y) que descreve a propriedade física correspondente em umadada região do espaço. No caso de uma foto temos o brilho, e no caso de uma tomografiade Raios-X, temos a densidade do tecido. Valores altos são apresentados na tela comopixels claros e valores baixos como pixels escuros. Cada pixel é amostrado a intervalos(∆x,∆y) (ex: ∆x = ∆y = 1mm). Quanto menor for o intervalo de amostragem para umamesma região do espaço, maior será a resolução espacial da imagem. Observe que nestecaso, o tamanho N×M da imagem também é maior, mas se uma imagem tem mais pixels

que outra, não implica que tenha maior resolução. Um pixel não apresenta as mesmaspropriedades em todas as direções, ele é anisotrópico, ou seja, depende da direção queé medido. Segundo Gonzalez[52] um pixel p na coordenada (x,y) pode ter as seguintesvizinhanças:

• N4(p)→ Vizinhança-4 de p, inclui os quatro vizinhos horizontais e verticais de pcujas coordenadas são: (x+1,y), (x-1,y), (x, y+1), (x,y-1);• ND(p)→ Vizinhança diagonal de p, inclui os quatro vizinhos diagonais de p cujas

coordenadas são (x+1,y+1), (x+1,y-1), (x-1, y+1), (x-1,y-1).• N8(p)→ Vizinhança-8 de p : Conjunto da vizinhança-4 e da vizinhança diagonal

de p

Uma forma representativa das vizinhanças é apresentada nas Tabelas 2.1 e 2.2:

Page 32: Reconhecimento do tipo de cachaça utilizando visão computacional

2.1 Visão Computacional 29

Tabela 2.1: Vizinhança-4

(x,y+1)

(x-1,y) (x,y) (x+1,y)

(x,y-1)

Tabela 2.2: Vizinhança-8

(x-1,y+1) (x,y+1) (x+1,y+1)

(x-1,y) (x,y) (x+1,y)

(x-1,y-1) (x,y-1) (x+1,y-1)

Relacionamentos básicos entre pixels. N4(p)- Vizinhança-4 de p naTabela 2.1 e N8(p) - Vizinhança-8 de p na Tabela 2.2

2.1.3 Histograma

Quando trabalhamos com imagens digitais, devemos preparar um ambiente queminimize as influências de uma iluminação insuficiente, limitações da escala dinâmicano sensor de imageamento, ou o incorreto estabelecimento da abertura da lente durantea aquisição de imagens podem resultar em imagens de baixo contraste. Quando umaimagem não tem boa qualidade visual, o uso do histograma é comum para realce deimagens.

Gonzalez[52] afirma que o histograma é uma maneira de representar a frequênciarelativa com a qual os diferentes valores digitais ocorrem numa imagem. A análisedo conteúdo de um histograma fornece informações sobre o contraste e o brilho deuma imagem além de fornecer estatísticas da imagem. As informações inerentes aoshistogramas também são úteis para compressão e segmentação de imagens. Podemosafirmar que o histograma de uma imagem cinza I é uma função h(l) que produz o númerode ocorrências de cada frequência de cinza 0 ≤ l ≤ 2b− 1 na imagem. Ele representaa distribuição de probabilidade dos valores dos pixels. O histograma é normalizado em[0,1] quando dividimos h(l) pelo número de NxM de pixels na imagem. O histogramanormalizado é dado por:

Py(rk) =nk

n(2-3)

onde 0≤ rk ≤ 1 e a representação de uma distribuição está disposta da seguinte forma:

• k = [0,L−1], onde L é o número de níveis de cinza da imagem;• n = número total de pixels da imagem;• nk = número de pixels cujo nível de cinza corresponde à k;• Pr (rk) = Probabilidade do K-ésimo nível de cinza;

O histograma acumulado produz um número de ocorrências de níveis de cinzamenores ou iguais às do histograma normalizado, sendo dado por:

Sk = T (rk) =k

∑j=0

n j =k

∑j=0

Pr(r j) (2-4)

Page 33: Reconhecimento do tipo de cachaça utilizando visão computacional

2.1 Visão Computacional 30

onde 0 ≤ rk ≤ 1 e o resultado da função Sk demostra que temos valores crescentes dequantidades de tons de cinza, até alcançar o total de pixels da imagem. O número ideal depixels em cada nível de I é igual a I = (nxm)/L, onde g são os níveis de cinza da imagemoriginal. Temos como exemplo a imagem 4x4 com profundidade de 2 bits:

I =

0 1 3 01 1 3 31 0 3 03 3 1 1

Transformando a Matriz I no vetor Z temos:

Z =[

0 1 3 0 1 1 3 3 1 0 3 0 3 3 1 1]

Após a transposição de I os cálculos do histograma são apresentados na Tabela 2.3.

Tabela 2.3: Relação de cálculo dos histogramas para a imagempor meio das fórmulas 2.1.3 e 2-4.[52]

Nível de cinza 0 1 2 3Histograma 4 6 0 6Histograma normalizado 0,25 0,375 0 0,375Histograma acumulado 4 10 10 16Histograma acum. normalizado 0,25 0,625 0.625 1.0

Segundo Gonzalez[52] e Patel[86] a manipulação de histogramas objetiva orealce de imagens digitais que tem por finalidade melhorar a qualidade visual geral de umaimagem digital. Assim temos aumentado de contraste entre os elementos apresentadosna imagem além de realçar características específicas relacionadas aos alvos preteridosna imagem. Entre as técnicas que fazem uso da manipulação do histograma da imagempodemos citar o stretch, equalização e matching.

A operação de stretch, ou espalhamento de contraste, visa uniformizar a distri-buição das frequências de um histograma de forma que elas preencham toda a faixa doespectro de cinza. Por exemplo, uma imagem com radiometria codificada com 8 bits , teráos seus valores de radiometria originais transformados para a faixa de valores entre 0 e255[17].

A equalização busca obter a máxima variância do histograma de uma imagemapresentando assim um melhor contraste. Esta operação aproxima o histograma daimagem original para um histograma uniforme, calculando o seu histograma acumulado eutilizando este como função de intensidade. O matching é utilizado sempre que possuímosduas imagens de um mesmo local ou duas cenas uma ao lado da outra. ConformePolidorio[89], no Matching é assumido que os histogramas de reflectância de superfície

Page 34: Reconhecimento do tipo de cachaça utilizando visão computacional

2.1 Visão Computacional 31

de regiões claras e embaçadas são os mesmos. Depois de identificar setores claros, oshistogramas de regiões nebulosas são deslocados para emparelhar com os histogramasdos setores de referência formada pelas regiões claras.

Porém, a suposição principal não é válida quando as composições relativas deobjetos diferentes e suas respectivas reflectâncias forem diferentes. Considerando umaimagem de 3 bits(L=8) e dimensão 64x64 (n = 4096) é apresentado abaixo a função dedistribuição acumulada (fdc), P(rk) no intervalo [0,7], cálculo de Sk e Ps(Sk)

Tabela 2.4: Cálculo para Pr(rk) é igual a nk/MN.

rk nk Pr(rk)0 790 0,191 1023 0,252 850 0,213 656 0,164 329 0,085 245 0,066 122 0,037 81 0,02

Tabela 2.5: Cálculo para fdc é a somatória de P0(r0) + P1(r1) atéPk(rk).

rk nk Pr(rk) fdc

0 790 0,19 0,191 1023 0,25 0,442 850 0,21 0,653 656 0,16 0,814 329 0,08 0,895 245 0,06 0,956 122 0,03 0,987 81 0,02 1,00

Page 35: Reconhecimento do tipo de cachaça utilizando visão computacional

2.1 Visão Computacional 32

Tabela 2.6: Cálculo de Tr(rk) para o intervalo [0,7]. É obtido por7 *fdc = Tr(rk).

rk nk Pr(rk) fdc Tr(rk)0 790 0,19 0,19 1,331 1023 0,25 0,44 3,082 850 0,21 0,65 4,553 656 0,16 0,81 5,674 329 0,08 0,89 6,235 245 0,06 0,95 6,656 122 0,03 0,98 6,867 81 0,02 1,00 7,00

Tabela 2.7: Calculando a Sk e Ps(sk)

rk nk Pr(rk) fdc Tr(rk) Sk Ps(Sk)0 790 0,19 0,19 1,33 1 0,191 1023 0,25 0,44 3,08 3 0,252 850 0,21 0,65 4,55 5 0,213 656 0,16 0,81 5,67 6 0,214 329 0,08 0,89 6,23 6 0,245 245 0,06 0,95 6,65 7 0,246 122 0,03 0,98 6,86 7 0,247 81 0,02 1,00 7,00 7 0,11

A Tabela 2.4 apresenta os coeficientes da imagem para o cálculo de Pr(rk).O resultado deste cálculo são valores de entrada para o cálculo de FDC (Função dedistribuição acumulada) que é uma distribuição da probabilidade de uma variável aleatóriade valor real X citado na Tabela 2.5 e por fim é demostrado o cálculo de Sk e Ps(Sk)referenciado na Tabela 2.7. O resultado é apresentado na Figura 2.3:

Page 36: Reconhecimento do tipo de cachaça utilizando visão computacional

2.1 Visão Computacional 33

(a) Histograma original para 3bits de uma imagem

(b) Transformação do histo-grama para 3 bits de umaimagem

(c) Histograma Equalizado

Figura 2.3: Equalização do histograma para 3 bits de umaimagem.[108]

2.1.4 Filtragem Digital

A filtragem digital consiste na aplicação de técnicas de transformação (operado-res de máscaras) com o objetivo de corrigir, suavizar ou realçar determinadas caracterís-ticas de uma imagem dentro de uma aplicação específica. A correção está relacionada aremoção de características indesejáveis na imagem e a melhoria ou realce, está relacio-nada a acentuação de características. A filtragem é realizada pixel a pixel, onde o novonível de cinza de um ponto P qualquer depende do seu nível de cinza considerado comovizinhança de P.

A filtragem está dividida em domínio espacial e domínio da frequência. Odomínio espacial tange os procedimentos que operam diretamente sobre os pixels daimagem na sua forma original. Por sua vez, o domínio da frequência operam sobretransformadas. Um exemplo clássico é a transformada de Fourier[52]. A utilização deum filtro é a aplicação da máscara com centro na posição (i, j), sendo i o número de umalinha e j o número de uma coluna sobre a imagem consiste na substituição do valor dopixel na posição (i, j) por um novo valor que depende dos valores dos pixels vizinhos edos pesos da máscara, gerando uma nova imagem com a eliminação das linhas e colunasiniciais e finais da imagem original[2].

Convolução é o processo de calcular a intensidade de um determinado pixelem função da intensidade de seus vizinhos e a matriz de pesos é chamada de kernel daconvolução. Para obter o novo valor do pixel, multiplica-se o kernel pelo valor da imagemoriginal em torno do pixel, elemento a elemento, e soma-se o produto, obtendo-se o valordo pixel na nova imagem. Podemos notar na Figura 2.4

Page 37: Reconhecimento do tipo de cachaça utilizando visão computacional

2.1 Visão Computacional 34

Figura 2.4: Exemplo de convolução aperiódica. O valor 0 (zero) éatribuído aos resultados não calculáveis

Os métodos de filtragem que trabalham no domínio espacial, utilizam operaçõesde convolução com máscaras. O uso de máscaras nas imagens no domínio espacialé usualmente chamado de filtragem espacial e as máscaras são chamadas de filtrosespaciais. A função de processamento de convolução discreta entre a imagem de entradae a máscara móvel do filtro pode ser escrita na forma:

g(x,y) = T [ f (xi, ji)] (2-5)

Onde:

• f (xi,yi) é a imagem de entrada a ser filtrada• g(xi,yi) é a imagem na saída, processada• T é um operador sobre f , definido em alguma vizinhança do pixel na posição (xi,yi)

Matematicamente, a Equação 2-5 para a imagem g(x,y) de saída [100, 79] é:

g(x,y) =Nx−1

∑m=0

=Ny−1

∑n=0

fmnWi−m, j−n (2-6)

Onde:

• f é a imagem de entrada• w é a função de resposta da janela, ambas como tamanho Nx, Ny

Para a convolução de uma máscara 3x3 sobre um pixel qualquer, p[i, j], daimagem digital, é dada por:

p[i, j] =

a∗ p[i−1, j−1] b∗ p[i−1, j] c∗ p[i−1, j+1]d ∗ p[i, j−1] e∗ p[i, j] f ∗ p[i, j+1]

g∗ p[i+1, j−1] h∗ p[i+1, j] i∗ p[i+1, j+1]

Se considerarmos os pixels iniciais de uma imagem digital, o valor digital do pixel X,representado aqui por p[1,1], é calculado pela seguinte formulação:

Page 38: Reconhecimento do tipo de cachaça utilizando visão computacional

2.1 Visão Computacional 35

p[1,1] =

a∗ p[0,0] b∗ p[0,1] c∗ p[0,2]d ∗ p[1,0] e∗ p[1,1] f ∗ p[1,2]g∗ p[2,0] h∗ p[2,1] i∗ p[2,2]

O cálculo é apresentado por p[1,1] = a ∗ p[0,0] + b ∗ p[0,1] + c ∗ p[0,2] + d ∗

p[1,0]+e∗ p[1,1]+ f ∗ p[1,2]+g∗ p[2,0]+h∗ p[2,1]+ i∗ p[2,2]. A Figura2.5 apresentaa convolução de uma máscara 3x3 pixels.

Figura 2.5: Movimento da máscara de tamanho 3 x 3 para filtrar aimagem. O pixel cinza é o pixel central que terá o seuvalor modificado conforme sejam os pesos dos pixelsdo filtro.

Sobre as filtragem de imagens podemos distingui-las em dois tipos de filtros:filtros lineares e filtros não-lineares. Os filtros lineares suavizam, realçam detalhes daimagem e minimizam efeitos de ruído, sem alterar o nível médio de cinza da imagem.Os filtros não-lineares aplicam transformações sem o compromisso de manterem o nívelmédio de cinza da imagem original. De acordo com Gonzalez[52] os filtros podem serclassificados nas classes:

• passa-baixa: eliminam altas freqüências, sendo usado para eliminar ruídos em ima-gens. O ruído é uma fonte de alta freqüência. O efeito produzido é uma desfoca-lização caracterizada por uma imagem borrada. Esta desfocalização depende dasdimensões do filtro, quanto maior as dimensões do filtro, maior será a desfocaliza-ção.• passa banda: deixa presente apenas os valores dos sinais correspondentes à determi-

nada frequência eliminando os demais valores. Seu efeito visual depende da faixapredefinida e geralmente é projetado para salientar aspectos determinados, eliminarruídos ou imperfeições presentes em uma frequência conhecida.• passa-alta: deixa passar as altas frequências, mas elimina os valores relacionados

às baixas frequências. O efeito visual deste tipo de filtro é de tornar as transaçõesentre diferentes regiões da imagem mais nítidas. O efeito indesejado é enfatizar oruído que possa existir na imagem.

Page 39: Reconhecimento do tipo de cachaça utilizando visão computacional

2.1 Visão Computacional 36

Filtro Gaussiano

Os filtros gaussianos consideram uma distribuição gaussiana, exemplo de fil-tro de média, típico de uma filtragem passa-baixas no domínio espacial. Ele suaviza aimagem de forma ponderada e simétrica, dando uma característica de leve "desfocali-zação"(smoothing, blur). São exigidos dois parâmetros para realizar um processamentoestatístico de segunda ordem: a média e a variância. Segundo Schowengerdt[100], ambosos parâmetros fornecem ao algoritmo meios convenientes para explicitamente controlar amédia dos resultados, ao mesmo tempo que varia o contraste controlando o desvio padrão.Aumentando o desvio padrão é apresentado um aumento da distribuição dos dados comaumento de contraste. A modificação gaussiana é um processo de normalização particu-larmente útil para igualar as imagens, em termos de média e desvio padrão, o que ajudaa obter composições coloridas, com bom equilíbrio de cores. Uma gaussiana pode serrepresentada por:

f (x) =1

σ√

2πe−

(x−µ)2

2σ2 (2-7)

A função de densidade de probabilidade normal e sua forma analítica sãoapresentadas na Figura 2.6. Os dois parâmetros que definem a distribuição são a média µ

e o desvio padrão σ (Equação 2-9). A área total sob a curva é unitária e a área dentro +2σ - 2σ centrado na média é de 0,95, e a área de + 1σ e −1σ é de 0,68 [79].

Figura 2.6: Função de densidade de probabilidade normal, oucurva gaussiana.[79]

2.1.5 Espaço de cores

Um espaço de cor pode ser descrito como um método para se expressar a corde um objeto usando algum tipo de notação, como os números por exemplo. A cor éo resultado da percepção da luz (comprimento de onda de 0.4 - 0.7µm) que incide na

Page 40: Reconhecimento do tipo de cachaça utilizando visão computacional

2.1 Visão Computacional 37

retina em células foto-receptoras, denominadas cones[52]. No nosso olho existem doistipos de sensores, cones e bastonetes. Bastonetes são sensíveis a todos os comprimentosde onda e por isso não são capazes de distinguir cor, possuem melhor resposta à luzde baixa intensidade (visão noturna). Já os Cones são menos sensíveis à luz (visãodireta), mas permitem a distinção de cores porque existem três tipos de cones, ossensíveis a comprimentos de onda próximos de 450nm, 550nm e 600nm (nm=10-9m).Isso caracteriza o processo de discriminação de cor do olho, chamado de tricromacidade.A informação de cor é enviada para o cérebro em dois canais, um que codifica aintensidade da luz e outro que codifica as diferenças de cor. A informação obtida dosbastonetes é chamada de luminância e a informação dos cones é combinada em umúnico canal é chamada de crominância. Isso mostra que o sinal de luminância é muitoimportante para distinguirmos objetos na imagem nos dando acuidade espacial e assimmostrar que a informação de crominância pode ser bastante compactada.

Uma cor pode ser decomposta em três componentes independentes: intensidade,matiz e saturação. A intensidade é responsável pela sensação de brilho, a matiz pelasensação de “cor” (comprimento da onda) e a saturação pelo grau de pureza da cor emrelação ao branco. Imagens coloridas são armazenadas em três componentes primáriosformando um espaço de cor[52]. As cores que nós percebemos são geradas a partirde diversos processos psico químicos. Em geral podemos classificá-los em : aditivos,subtrativos. No processo aditivo, vários raios de luz são combinados para formar umnovo raio. No processo subtrativo um raio de luz passa por um filtro que eliminaalguns comprimentos de onda resultando numa nova cor. O processo aditivo é usado nosmonitores de computadores e televisões. O processo subtrativo aparece quando usamosum projetor para vermos slides em uma tela. Esses sistemas são conhecidos como RGB(Red, Green, Blue - síntese aditiva) e CMY (Cyan, Magenta, Yellow - síntese subtrativa).O espaço RGB é formado pela nossa sensação da soma ponderada do red (R), green (G)e blue (B), os quais geram a maioria das cores visíveis. Seu espaço complementar CMYé formado pelo cyan (C=255-R), magenta (M=255-G) e yellow (Y=255-B).

Na Figura 2.7 a síntese aditiva apresenta os seguintes parâmetros: luz igual àzero, ausência de primárias da cor preta e a cor primária máxima é a cor branca. Para asíntese subtrativa temos: incidência de luz máxima, ausência de cor primária branca e acor primária máxima é a cor preta.

Page 41: Reconhecimento do tipo de cachaça utilizando visão computacional

2.1 Visão Computacional 38

Figura 2.7: Síntese aditiva e subtrativa para o espaço de cores.

Percebamos que cores primárias nos permitem a formação das outras novascores. Cores secundárias é a combinação de cores primárias em proporções iguais.Existem vários tipos de modelos com aplicações em contextos diferentes. Podemosverificar na Tabela 2.8

Tabela 2.8: Modelos de cores existentes.

Modelo de coresModelo de Munsell Modelo YCbCr

Modelo RGB Modelo HSVModelo XYZ Modelo HSLModelo CMY Modelo HSIModelo YIQ Modelo L*u*v*Modelo YUV Modelo L*a*b

Page 42: Reconhecimento do tipo de cachaça utilizando visão computacional

2.2 Reconhecimento de Padrões 39

2.2 Reconhecimento de Padrões

Segundo Duda[38] reconhecimento de padrões é o ato de observar os dadosbrutos e tomar uma ação baseada na categoria de um padrão. Theodoridis[106] completaafirmando que é uma área de pesquisa que tem por objetivo a classificação de objetos(padrões) em um número de categorias ou classes. Na literatura temos os seguintesconceitos: padrão, classe, atributo e classificação. Padrão é uma entidade, objeto, processoou evento. Classe é um conjunto de padrões que possuem características em comum.Característica ou atributo é um dado extraído de uma amostra por meio de medida e/ouprocessamento. Em geral são organizados na forma de um vetor de características.

A classificação é o ato de atribuir classes para as amostras, baseado em suas ca-racterísticas e por fim temos o ruído que é uma distorção, falha ou imprecisão que ocorrena aquisição de dados. Podemos distinguir o termo classificação em supervisionada ounão supervisionada. A classificação supervisionada selecionam-se amostras representati-vas para cada uma das classes que se deseja classificar pois neste cenário conhecemos opadrão e classes que estamos procurando. Na classificação não supervisionada não co-nhecemos o padrão, tampouco o número total de classes a serem encontradas durante aclassificação.

Segundo Jain[59], o conjunto de dados é particionados em grupos, baseados emcaracterísticas específicas, tais que os pontos dentro de um grupo (cluster) sejam maissimilares do que os pontos de outros grupos. Isto expressa uma análise de agrupamen-tos (clusters). Para atender estas definições, um projeto de reconhecimento de padrõesenvolve: (i) a extração de características dos objetos a classificar (ou a descrever); (ii)seleção das características mais discriminativas; (iii) construção de um classificador (oudescritor). Conforme Duda[38], para os tipos de objetos a classificar (ou descrever) pode-mos utilizar algumas abordagens como:

• Abordagem estatística - A abordagem clássica, historicamente mais antiga, deno-minada por "Teoria da Decisão". Assume que as características das classes se regempor determinados modelos probabilísticos.• Abordagem sintática - Procura descrever a estrutura dos padrões usando inter-

relações de características de descritores básicas denominadas primitivas.• Abordagem neuronal - Abordagem tipo "caixa preta"que procura determinar um

mapeamento ótimo entre entradas e saídas inspirando-se em modelos de neurôniosdo cérebro.• Abordagem difusa - Abordagem que tem em conta o grau de incerteza por vezes

inerente a características e a classificações, usando a teoria dos conjuntos difusospara modelizar esse grau de incerteza.

Page 43: Reconhecimento do tipo de cachaça utilizando visão computacional

2.2 Reconhecimento de Padrões 40

Nas próximas seções serão abordados algoritmos de reconhecimento de padrões,análise multivariada, análise discriminante e a combinação de classificadores que foramutilizados para o desenvolvimento deste trabalho.

2.2.1 Rede Neural Artificial

Uma rede neural artificial (RNA) pode ser definida como sendo uma estrutura deprocessamento (rede), passível de implementação em dispositivos eletrônicos, compostapor um número de unidades interconectadas (neurônios artificiais), sendo que cada uni-dade apresenta um comportamento específico de entrada/saída (computação local), deter-minado pela sua função de transferência, pelas interconexões com outras unidades, dentrode um raio de vizinhança, e possivelmente pelas entradas externas[40]. A Figura 2.8 apre-senta o esquema de um neurônio.

Figura 2.8: Componentes dos neurônios artificiais

No modelo neural podem ser identificados três elementos básicos tais comoum conjunto de sinapses, um somatório e uma função de ativação[55]. O conhecimentoé obtido através de etapas de aprendizagem e pesos sinápticos (Wk j) são usados paraarmazenar o conhecimento. Uma sinapse é o nome dado à conexão existente entreneurônios. Nas conexões são atribuídos valores, que são chamados de pesos sinápticos. Ajunção somadora soma todos os sinais de entrada ponderados pelos pesos das conexões.Assumindo os vetores de entrada e de pesos como sendo vetores coluna, esta operaçãocorresponde ao produto interno do vetor de entradas x pelo vetor de pesos wk , mais olimiar bk. Genericamente, trata-se de uma combinação linear das entradas pelos pesosassociados, mais o limiar bk. A função de ativação é geralmente utilizada com doispropósitos: limitar a saída do neurônio e introduzir não-linearidade no modelo. O limiarbk tem o papel de aumentar ou diminuir a influência do valor da entrada líquida para aativação do neurônio k. Podemos descrever a saída do neurônio k como:

yk = f (uk) = f

(m

∑j=1

wk jx j +bk

)(2-8)

Page 44: Reconhecimento do tipo de cachaça utilizando visão computacional

2.2 Reconhecimento de Padrões 41

ou

yk = f (uk) = f

(m

∑j=0

wk jx j

)(2-9)

onde x0 é um sinal de entrada de valor 1 e peso associado wk0 = bk. A escolha dafunção de ativação pode influenciar fortemente o desempenho e a complexidade da redeneural. Uma característica importante das RNAs é o local onde o conhecimento estáarmazenado. Nos casos mais simples, este conhecimento é armazenado nos pesos dasconexões entre neurônios. Esta característica tem grandes implicações para a capacidadede processamento e aprendizagem da rede. A representação de conhecimento é feita deforma que o conhecimento necessariamente influencie a forma de processamento da rede,ou seja, o seu comportamento de entrada-saída. Segundo Braga[12] e Cruz[23] cadarede neural artificial apresenta uma arquitetura de processamento ou topologia, havendouma família de arquiteturas, cada qual adequada para funcionalidades específicas. Afuncionalidade de uma rede neural artificial vai ser determinada por: (i) Dados detreinamento e verificação, (ii) Topologia de rede, (iii) Função de ativação e (iv) Estratégiade aprendizado.

Dados de treinamento e verificação

Uns dos passos mais importantes no processo de desenvolvimento de redesneurais artificiais e a separação dos dados coletados em um conjunto de treinamento,conjunto de validação e um conjunto de testes [12]. O conjunto de treino expressa oque será utilizado para o treinamento propriamente dito (aprendizagem). O conjunto devalidação é utilizado para verificar, durante o treinamento como evolui o erro da redepara sinais desconhecidos, evitando o “sobre-aprendizado” quando a rede se especializaexcessivamente no conjunto de treino e perde capacidade de generalizar, causando oproblema de overfitting, ou seja, a rede se especializa no conjunto de dados do treinamentoe perde a capacidade de generalização. O conjunto de teste é utilizado para verificar odesempenho da rede para amostras desconhecidas.

Topologia de rede

Diferentes tipos (arquiteturas) de redes neurais são obtidas variando-se o tipode neurônio utilizado, a função de ativação dos neurônios, o modo de conexão entreos diversos neurônios, entre outros[85, 8, 54]. Uma rede neural pode ter uma ou váriascamadas. As redes que possuem uma única camada são as redes que possuem um nó entreuma entrada e uma saída da rede. As redes multicamadas possuem uma ou mais camadas,entre as camadas de entrada e saída. Essas camadas são chamadas de camadas escondidas

Page 45: Reconhecimento do tipo de cachaça utilizando visão computacional

2.2 Reconhecimento de Padrões 42

(hidden), intermediárias ou ocultas. A topologia das Redes Neurais Artificiais depende daforma como os Neurônios se conectam para formar uma "Rede"de neurônios. A topologiapode ser de redes diretas (Feedforward) ou de redes recorrentes (Feedback).

(a) Rede direta (feedforward) (b) Rede recorrente (feedback)

Figura 2.9: Topologias de redes diretas e recorrentes.

Na topologia de redes diretas apresentada na Figura 2.9(a), o grafo não temciclos, o fluxo de informação é unidirecional e frequentemente podemos representar estasredes em camadas. Neste caso são chamadas redes de camadas. Na camada de entrada osneurônios recebem sinais e na camada de saída é enviado o resultado do processamentoda RNA. Exemplos para esse tipo de rede são o perceptron, o perceptron multicamada eo Adaline. Nas Redes Neurais Recorrentes com realimentação o grafo de conectividadecontém pelo menos um ciclo e têm ligações entre os neurônios sem restrições. As redespropostas por Hopfield e as redes bidirecionais tem particular importância nesta topologiaconforme apresentada na Figura 2.9(b).

Função de ativação

A função de ativação representa o efeito que a entrada interna e o estadoatual de ativação exercem na definição do próximo estado de ativação da unidade.Quando propriedades dinâmicas estão envolvidas na definição do estado de ativação,equações diferenciais (caso contínuo) ou a diferenças (caso discreto) são empregadas.Tendo em vista a simplicidade desejada para as unidades processadoras, geralmentedefine-se seu estado de ativação como uma função algébrica. Geralmente, esta funçãoé monotonicamente não decrescente e apresenta um tipo de não linearidade associada aoefeito da saturação[18].

Segundo Gomes[50] as funções de ativação mais utilizadas na prática são afunção sigmoide logística e a função tangente hiperbólica, dependendo das característicasdos dados. Entretanto, alguns estudos têm mostrado a importância das funções de ativaçãopara o aprendizado da rede neural. Na Figura 2.10 temos alguns tipos de função deativação empregados na literatura.

Page 46: Reconhecimento do tipo de cachaça utilizando visão computacional

2.2 Reconhecimento de Padrões 43

(a) Função ativação rampa (b) Função degrau bipolar

(c) Função sigmóide ou logística (d) Função hiperbólica

Figura 2.10: Funções de ativação para utilizadas em neurôniosartificiais.

Estratégia de aprendizado

Existem diversas maneiras de se classificar uma rede neural artificial. Talveza mais importante seja a classificação pelo processo ou algoritmo de aprendizado em-pregado para treiná-la, que pode ser supervisionado ou não supervisionado[54, 111]. Noaprendizado supervisionado são sucessivamente apresentadas à rede conjuntos de padrõesde entrada e seus correspondentes padrões de saída. Durante este processo, a rede rea-liza um ajustamento dos pesos das conexões entre os elementos de processamento, ouseja, a rede atua comparando a saída com o valor desejado e realizando correções emseu modelo até atingir um valor mínimo desejado ou um erro aceitável. Algumas den-tre as muitas leis de aprendizagem supervisionada são perceptron, adaline, madaline ebackpropagation[12].

Segundo Haykin[55] e Cruz[23] no aprendizado não supervisionado a redeanalisa os conjuntos de dados apresentados a ela, determina algumas propriedades dosconjuntos de dados e aprende a refletir estas propriedades na sua saída. A rede utilizapadrões, regularidades e correlações para agrupar os conjuntos de dados em classes.As propriedades que a rede vai aprender sobre os dados podem variar em função dotipo de arquitetura utilizada e da lei de aprendizagem. Alguns métodos de aprendizado

Page 47: Reconhecimento do tipo de cachaça utilizando visão computacional

2.2 Reconhecimento de Padrões 44

não supervisionado são o redes de Kohonen, redes de Hopfield e Memória AssociativaBidirecional[12].

Multilayer perception com backpropagation

O tipo de rede Multilayer perception é uma rede de múltiplas camadas edistinguem-se das redes de camada simples pelo número de camadas intermediárias,aquelas entre a camada de entrada e a de saída. Essa arquitetura possui uma ou maiscamadas ocultas, que são compostas por neurônios computacionais, também chamadosde neurônios ocultos. Segundo Haykin[55], a função dos neurônios ocultos é intervir en-tre a camada de entrada externa e a saída da rede de maneira útil. Adicionando-se uma oumais camadas ocultas, tornamos a rede capaz de extrair estatísticas de ordem elevada. AFigura 2.11 apresenta o modelo MP.

Figura 2.11: Modelo de Rede Feedforward de Múltiplas Camadas

O processo de aprendizado de uma rede MLP através da retropropagação édividido em duas etapas: uma fase de alimentação da rede, conhecida como fase forward,que calcula os valores da saída a partir dos dados de entrada, e uma fase de correção dospesos no sentido inverso ou retro propagação dos erros, conhecida como fase backward,onde são utilizados os pesos associados a cada conexão de acordo com as diferenças entreas saídas obtidas e as saídas desejadas.

Quando se atribui um padrão de entrada à rede, o sinal de entrada se propagaaté a camada de saída, passando e sendo processado por todas as camadas internasda rede. Nesta fase de propagação das informações, os pesos da rede são mantidosfixos e as informações são processadas camada a camada da mesma forma que noperceptron original, ou seja, para cada neurônio existe um somatório ponderado dasentradas provenientes da camada anterior (juntamente com o bias) e a este somatório

Page 48: Reconhecimento do tipo de cachaça utilizando visão computacional

2.2 Reconhecimento de Padrões 45

é aplicado uma função de ativação. Existe ainda um fluxo inverso de informações (a fasede retropropagação), ou seja, informações trafegam no sentido da camada de saída para ascamadas internas. Este fluxo ocorre no momento da correção de pesos da rede e representao sinal de erro calculado na camada de saída que é utilizado na atualização dos pesosdas camadas internas. Esta forma de treinamento é o que chamamos de aprendizado porretropropagação(Backpropagation).

Segundo Braga[12] de forma mais geral, o algoritmo Backpropagation é umalgoritmo baseado no paradigma de aprendizado supervisionado, e se baseia em ummecanismo de correção de erros em que os erros da camada de saída são propagadospara as camadas internas a fim de se realizar a correção dos pesos destas camadas, não hácomo calcular um sinal de erro para uma determinada camada interna da rede.

2.2.2 K-Nearest Neighbors

O método dos k vizinhos mais próximos (k-NN, do inglês k-Nearest Neighbors)é um dos métodos de classificação simples e objetiva separar dados com base em seussimilares assumidos entre várias classes. Deste modo, as classes podem ser diferenciadasumas das outras através da procura de semelhanças entre os dados fornecidos. k-NN (k-

Nearest Neighbors) foi introduzido pela primeira vez por Hodges[42] em seu estudo deanálise discriminante.

O k-NN é um algoritmo de aprendizagem lazy não-paramétrico. Uma técnicanão-paramétrica significa que não faz suposições sobre a distribuição de dados. Alémdisso ele é um método de aprendizagem baseado em instâncias onde assumem que asinstâncias podem ser representadas como pontos em um espaço euclidiano (Equação 2-10). Isso não impede de usar outras métricas de distância como Manhattan (Equação 2-11), Chebyshev (Equação 2-12) ou a distância de Mahalanobis (Equação 2-13).

Distância euclidiana:

d(x,y) =

√√√√ k

∑i=1

(xi− yi)2 (2-10)

Distância Manhattan:

d(x,y) = ∑i=1

k|xi− yi| (2-11)

Distância Chebyshev:

d(x,y) = max(|xi− yi|) (2-12)

Page 49: Reconhecimento do tipo de cachaça utilizando visão computacional

2.2 Reconhecimento de Padrões 46

Distância Mahalanobis:

d(x) =√

(x−µ)T S−1(x−µ) (2-13)

No final teremos um conjunto de distâncias (medida de similaridade) entre ainstância de teste xt e todos as instâncias de treinamento x1,x2,. . . ,xn. Isto é, pegamos ainstância de treinamento cuja distância seja a menor (mais similar) e verificamos a classeassociada a esta instância. Uma desvantagem é o alto custo para classificação pois todacomputação ocorre no momento da classificação e isso aumenta com a quantidade deexemplo de treinamento.

(a) k=1 (b) k=2 (c) k=3

Figura 2.12: Problema de pesquisa k=3.

A Figura 2.12 apresenta o problema de pesquisa para k = 3. Os pontos azuise amarelos correspondem aos pontos de referência e o ponto vermelho corresponde aoponto de consulta. A área do círculo indica os k vizinhos mais próximos entre o ponto deconsulta e o ponto de referência mais próximo.

Segundo Bhatia[7] e Baba-Ali[80] as vantagens do k-NN são: (i) implementaçãomuito simples, (ii) ótimo em conjuntos de treino com dimensão elevada (N→∞), (iii) usainformação local, o que pode facilmente levar à implementação de comportamentos adap-tativos, (iv) implementação facilmente passível de paralelização. Em contrapartida suasdesvantagens são: (i) Exige muito espaço de armazenamento para o conjunto de treino,(ii) computacionalmente muito exigente, (iii) altamente susceptível à curva da dimensio-nalidade, onde as dimensões maiores exigem um número de exemplos exponencialmentemaior no conjunto de treino. O desempenho do algoritmo k-NN está altamente depen-dente do processo de normalização escolhido para as características do conjunto de treino.Uma alternativa (simples) consiste na normalização de cada característica para o intervaloN(0,1). Esta pode não se revelar eficaz quanto apenas alguns sub-intervalos da gama devalores de uma característica contém a informação discriminante. Também o k-NN não

Page 50: Reconhecimento do tipo de cachaça utilizando visão computacional

2.2 Reconhecimento de Padrões 47

resolve o problema da curva de dimensionalidade, uma vez que é possível que apenasalgumas características contenham a informação discriminante. Uma maneira de otimizarconsiste na ponderação da distância entre características por um valor que represente acapacidade discriminante da característica.

2.2.3 Support Vector Machine

Support Vector Machines (SVM) foi desenvolvido por Vapnik[21] para uma clas-sificação binária. É uma técnica de aprendizagem de máquina derivada de duas fundamen-tações sólidas: Teoria da Aprendizagem Estatística e Otimização Matemática. SegundoSantos[96], a Teoria de Aprendizagem Estatística visa encontrar condições matemáticaspara escolha de uma função que separe dados a serem aprendidos em problemas de cate-gorização. Esta separação deve considerar o menor erro de treinamento ao mesmo tempoque deve maximizar a capacidade de generalização de um classificador (para aprendiza-gem supervisionada). A Teoria de Otimização provê as técnicas matemáticas necessáriaspara encontrar o hiperplano otimizando essas medidas que envolve a caracterização desoluções para classes de problemas compostos por funções que devem ser escolhidas paraminimizar ou maximizar uma certa função custo, sujeita a certas restrições. Para realizara procura de máximos e mínimos condicionados, como nos problemas quadráticos con-vexos e demais problemas de otimização matemática é utilizado o método de Lagrangeque engloba as restrições à função objetivo associadas a parâmetros denominados multi-plicadores de Lagrange αi.

L(x,b,α) =12||w||2−∑

i=1nαi(yi(w.xi +b)−1) (2-14)

Basicamente, estamos procurando o hiperplano ideal de separação entre as duas classesmaximizando a margem entre os pontos mais próximos da classe e o meio da margem énosso ideal separado por um hiperplano conforme proposto por Vapnik[21] e Burges[15]e apresentado na Figura 2.13.

Page 51: Reconhecimento do tipo de cachaça utilizando visão computacional

2.2 Reconhecimento de Padrões 48

Figura 2.13: Problema de classificação entre duas classes utili-zando o SVM

A aplicação de um método puramente linear para classificar um conjunto dedados pode sofrer com dois problemas bastante comuns: outliers e exemplos rotuladoserroneamente. Mesmo assim o SVM pode ser utilizado através do uso de margens flexí-veis (soft margin) onde esta abordagem flexibiliza as restrições de otimização utilizandovariáveis de relaxamento do problema. Estas variáveis são conhecidas como “variáveisde folga” e são utilizadas para medir o grau de classificação errônea no conjunto de trei-namento [73]. Os vetores suporte lineares são eficazes na classificação de conjuntos dedados linearmente separáveis ou que possuam uma distribuição aproximadamente linear,sendo que a versão de margens suaves tolera a presença de alguns ruídos e outliers. Porém,há muitos casos em que não é possível dividir satisfatoriamente os dados de treinamentopor um hiperplano. Um exemplo é apresentado na Figura 2.14(a), em que o uso de umafronteira elipsóide seria mais adequada na separação das classes.

(a) Conjunto de dados não lineares (b) Conjunto de dados em uma di-mensão linearmente separável

Figura 2.14: Distribuição de dados não lineares elevados parauma dimensão linearmente separável.

Page 52: Reconhecimento do tipo de cachaça utilizando visão computacional

2.2 Reconhecimento de Padrões 49

Os vetores de suporte lidam com problemas não lineares mapeando o conjuntode treinamento de seu espaço original, referenciado como de entradas, para um novoespaço de maior dimensão, denominado espaço de características (feature space)[56].A transformação é realizada pois operações lineares no espaço de características éequivalente a operações não lineares no espaço de entrada e a tarefa de classificação podeser mais fácil com a transformação apropriada como demonstrado na Figura 2.14(b).Neste contexto as funções de kernel auxiliam e têm a finalidade de projetar os vetoresde características de entrada em um espaço de características de alta dimensão paraclassificação de problemas que se encontram em espaços não linearmente separáveis.Isso é feito, pois a medida que se aumenta o espaço da dimensão do problema, aumentatambém a probabilidade desse problema se tornar linearmente separável em relação a umespaço de baixa dimensão. Entretanto, para obter uma boa distribuição para esse tipo deproblema é necessário um conjunto de treinamento com um elevado número de instâncias[70]. Estas funções devem ser simétricas e satisfazer as condições do Teorema de Mercer,cuja verificação nem sempre é trivial. As funções de kernel mais comuns são: linear,gaussiana, polinominal e hiperbólica.

(a) Dispersão de objetos em uma di-mensão não linear

(b) Dispersão de objetos em uma di-mensão linearmente separável

Figura 2.15: Utilização de uma função kernel do tipo gaussiana

A Figura 2.15 demostra o teorema de Cover onde os dados são mais propensosa serem separados linearmente em altas dimensões. Podemos notar que uma classificaçãode 2 dimensões (Figura 2.15(a)) é mapeada em 3 dimensões (Figura 2.15(b)) usando umafunção gaussiana bidimensional para aumentar as entrada de vetores. As vantagens nautilização do SVM é a capacidade de trabalhar com grandes conjuntos de dados, ter umbom trato com dados de alta dimensão e ser rápido na classificação. Em contrapartida,devemos observar que é necessário definir uma boa função de kernel e o tempo detreinamento pode ser bem longo dependendo do número de exemplos e dimensionalidade

Page 53: Reconhecimento do tipo de cachaça utilizando visão computacional

2.2 Reconhecimento de Padrões 50

dos dados.

2.2.4 Naive Bayes

Classificadores Bayesianos são classificadores estatísticos, os quais podem pre-ver a probabilidade de dado objeto alvo pertencer a uma determinada classe. Estes clas-sificadores assumem que o efeito de um valor de atributo em uma classe é independentedos valores de outros atributos. Esta premissa é chamada de independência condicionalde classes ou de independência entre atributo[69, 95].

A regra de Bayes, supõe que se conheça a probabilidade prévia (a priori) P(w j)

e a densidade condicional p(x|w j) para j = 1,2, onde x representa as variáveis de entradae w a saída (categoria) de um sistema. A densidade de probabilidade conjunta de seencontrar um padrão que é da categoria w j e possuir característica de valor x, ou seja,p(w j,x), pode ser escrita de duas maneiras conforme demostrado por Duda[38].

p(w j,x) = P(w j|x).p(x) = p(x|w j).P(w j) (2-15)

Rearranjando a Equação 2-15, obtém-se a chamada fórmula de Bayes apresen-tada na Equação 2-16

p(w j,x) =p(x|w j).P(w j)

p(x)(2-16)

onde para o caso de duas categorias, p(x) é determinado pela Equação 2-17

p(x) =2

∑j=1

p(x|w j).P(w j) (2-17)

A fórmula de Bayes mostra que observando o valor de x pode-se converter aprobabilidade a priori P(w j) para a probabilidade a posteriori P(w j|x) - a probabilidadedo estado natural de w j, dado que o valor x da característica tenha sido medido. Chama-se p(x|w j) a verossimilhança de w j com respeito a x, um termo escolhido para indicar acategoria w j para a qual p(x,w j) é maior e mais parecida para ser a categoria verdadeira.O fator evidência, p(x), pode ser visto meramente como fator de escala que garante que aprobabilidade posterior soma 1. Tendo-se uma observação x para a qual P(w1|x) é maiorque P(w2|x), poderia-se naturalmente ser inclinado a decidir que o estado natural real éw1. Quando observa-se um x particular, a probabilidade do erro de classificação é dadapela Equação 2-18.

P(erro|x) =

P(w1|x) se decidir por w1

P(w2|x) se decidir por w2

Page 54: Reconhecimento do tipo de cachaça utilizando visão computacional

2.2 Reconhecimento de Padrões 51

Para minimizar a probabilidade do erro, a regra de decisão de Bayes torna-sedecidida por w1 se P(w1|x) > P(w2|x), senão decida por w2. Caso não seja satisfatória aseguinte regra de decisão equivalente pode ser adotada: decida por w1 se P(x|w1).P(w1)

P(w2|x).P(w2), caso contrário decida por w2. Conclui-se que a probabilidade de erro declassificação para a regra de Bayes é dada pela Equação 2-19.

P(erro|x) = min[P(w1|x),P(w2|x)] (2-19)

A Tabela 2.9 apresenta distribuições de frequência para as relações entre ascaracterísticas e a classe no conjunto de dados. Sendo o nome Juraci um nome que podeser atribuído ao gênero masculino ou feminino, a probabilidade do nome estar associadoa uma pessoa do sexo masculino ou feminino é expresso na Equação 2-16. Na tabela 2.9é apresentado o cenário com relação de nomes e sexo das pessoas:

Tabela 2.9: Relação de pessoas baseada em nome e sexo.

Nome Sexo1 Juraci Masculino2 Cláudia Feminino3 Juraci Feminino4 Juraci Feminino5 Alberto Masculino6 Karin Feminino7 Nina Feminino8 Sérgio Masculino

A partir deste cenário podemos construir as ocorrências de características dosexo masculino e feminino.

Tabela 2.10: Ocorrências de características para o sexo masculino(p(masculino) = 3

8) e feminino (p( f eminino) = 58)

Nome Sexo1 Juraci Masculino5 Alberto Masculino8 Sergio Masculino

Nome Sexo2 Claudia Feminino3 Juraci Feminino4 Juraci Feminino6 Karin Feminino7 Nina Feminino

Como o resultado da Tabela 2.10 podemos identificar as ocorrências para cadasexo para o nome “Juraci”.

Page 55: Reconhecimento do tipo de cachaça utilizando visão computacional

2.3 Análise Multivariada 52

Tabela 2.11: Ocorrências de características para o sexo mas-culino/feminino dado que o nome seja Juraci(p(masculino| juraci) = 1

3) e (p( f eminino| juraci) =25)

Nome Sexo

1 Juraci Masculino

Nome Sexo

3 Juraci Feminino4 Juraci Feminino

A probabilidade do nome Juraci estar associado a uma pessoa do sexo masculinoou feminino é expresso com a utilização da Equação 2-16.

p(masculino,Juraci) =p(1

3 ∗ 38)

38

= 0,33 (2-20)

p( f eminino,Juraci) =p(2

5 ∗ 58)

38

= 0,66 (2-21)

Para a classificação de um novo objeto para a classe masculino ou feminino, onome Juraci tem uma boa chance de ser do sexo feminino conforme é demostrado naEquação 2-20 e 2-21 com base na Tabela 2.9. Segundo [69] as vantagens na utilização doNaive Bayes são: (i) rápido para treinar e classificar, (ii) Não é sensível a característicasirrelevantes, (iii) Lida com dados reais e discretos. Uma das desvantagens é que devidoà suposição de que os valores das características são independentes dentro da classe, oclassificador Naive de Bayes apresenta um desempenho de predição desfavoravelmenteafetado pela presença de atributos redundantes nos dados de treinamento. Por exemplo,se há uma característica X que é perfeitamente correlacionada com uma segunda carac-terística Y , então tratando-as com significados diferentes provoca o dobro do efeito naEquação 2-16 do que deveria ter. Assim, dependências moderadas entre as característicasresultarão em imprecisão na estimação da probabilidade, mas as probabilidades não sãotão fortes na prática para resultar no incremento do erro de classificação[72].

2.3 Análise Multivariada

Análise de componentes principais (PCA) é um método que propõe a reduçãoda dimensionalidade de um conjunto de dados. Foi desenvolvida por Pearson[87] porémo tratamento formal do método é devido ao trabalho de Hotelling[57], enquanto a melhorreferência moderna é de Jolliffe[62]. O objetivo do método é reduzir a dimensionalidadede dados multivariados, preservando, tanto quanto possível, as informações relevantes[102]. Esta transformação linear que transforma os dados para um novo sistema de co-ordenadas de tal forma que o novo conjunto de variáveis (componentes principais) são

Page 56: Reconhecimento do tipo de cachaça utilizando visão computacional

2.3 Análise Multivariada 53

funções lineares das variáveis originais. Na prática, usa um conjunto de dados represen-tado por uma matriz de n registros por p atributos, que podem estar correlacionados, esumariza esse conjunto por eixos não correlacionados (componentes principais) que sãouma combinação linear das p variáveis originais. As primeiras k componentes contém amaior quantidade de variação dos dados. Os objetos são representados por uma nuvem den pontos em um espaço multidimensional, com um eixo para cada uma dos p atributoscomo demonstrado na Figura 2.16.

Figura 2.16: Gráfico representativo sobre a PCA e suas compo-nentes principais

No PCA, o centroide dos pontos é definido pela média de cada atributo e avariância de cada atributo é média dos quadrados da diferença dos n pontos com relaçãoa média de cada atributo conforme é demostrado na Equação 2-23.

Vi =1

n−1

n

∑m=1

(Xim−X i)2 (2-22)

O grau com que cada variável é linearmente correlacionada é representado pela suacovariância.

Ci j =1

n−1

n

∑m=1

(Xim−X i)(X jm−X j) (2-23)

onde:

• Ci j é a covariância das variáveis i e j.• ∑

nm=1 é soma de todos os objetos de m.

• Xim é o valor da variável i no objeto m.• X i é a média da variável i• X jm é o valor da variável j no objeto m.• X j é a média da variável j

PCA usa o espaço euclidiano calculado a partir dos p atributos como uma medidade dissimilaridade entre os n objetos e calcula as k melhores possíveis dimensões (k < p)

Page 57: Reconhecimento do tipo de cachaça utilizando visão computacional

2.4 Análise Discriminante 54

representados pela distância euclidiana entre os objetos. Usar covariância entre variáveissomente faz sentido se elas estão representadas na mesma unidade e para evitar domíniode variáveis com alta variância podemos normalizar os atributos como demonstrado naEquação 2-24.

X ′im =Xim−X i

SDi(2-24)

onde temos:

• Xim é o valor da variável i no objeto m.• X i é a média da variável i.• SDi é o desvio padrão de i.

Podemos concluir que a utilização dos componentes principais para definir umespaço de fatores que englobe os dados, não modifica os dados em si, mas simplesmenteencontra um sistema de coordenadas mais conveniente, capaz de remover ruídos dos da-dos sem distorcê-los e de diminuir sua dimensionalidade sem comprometer seu conteúdode informações. Em contrapartida a matriz de covariância é difícil de ser avaliada deforma exata e a invariância mais simples não pode ser capturada pela PCA a menos queos dados de treinamento explicitamente fornecem esta informação[63].

2.4 Análise Discriminante

A análise discriminante é uma técnica que estuda a separação de objetos deuma população em duas ou mais classes. A discriminação ou separação é a primeiraetapa, sendo a parte exploratória da análise discriminar e classificar objetos. SegundoKhattree[65] é uma técnica que consiste em se procurar características capazes de seremutilizadas para alocar objetos em diferentes grupos previamente definidos. A classificaçãoou alocação pode ser definida como um conjunto de regras que serão usadas paraalocar novos objetos ([60]). Contudo, a função que separa objetos pode também servirpara alocar, e, o inverso, regras que alocam objetos podem ser usadas para separar.Normalmente, discriminação e classificação se sobrepõem na análise, e a distinção entreseparação e alocação é confusa.

Conforme demonstrado por Johnson[61],Khattree[65] e Vinici[108] o problemada discriminação entre dois ou mais grupos visando posterior classificação, foi inicial-mente abordado por Fisher[41]. Consiste em obter funções matemáticas capazes de clas-sificar um indivíduo X (uma observação X) em uma de várias populações πi, (i=1, 2, ..., g),com base em medidas de um número p de características, buscando minimizar a probabi-lidade de má classificação, isto é, minimizar a probabilidade de classificar erroneamenteum indivíduo em uma população π, quando realmente pertence a população π j , (i 6= j)i, j = 1,2, ...,g.

Page 58: Reconhecimento do tipo de cachaça utilizando visão computacional

2.4 Análise Discriminante 55

O problema consiste em se obter uma combinação linear de características ob-servadas que apresente maior poder de discriminação entre populações. Esta combinaçãolinear é denominada função discriminante. Tal função tem a propriedade de minimizar asprobabilidades de má classificação, quando as populações são normalmente distribuídascom média µ e variância Σ conhecidas. Considerando que µ e σ são parâmetros conhecidose respectivamente, os vetores de médias e a matriz de covariâncias comum das populaçõesπi. Conforme Vinici[108] e Varella[107] a função linear para o valor aleatório de X paraseparação máxima entre duas populações (classes) é dada por:

D(x) = L′.X = [µ1−µ2]

′.σ−1.X (2-25)

em que:X = [X1,X2 . . . ,Xp] e π = [π1,π2] (2-26)

onde:

• L = vetor discriminante• X = vetor aleatório de características das populações ou classes• µ = vetor de médias p-variado• σ = matriz comum de covariâncias das populações π1 e π2.

O valor da função discriminante de Fisher para uma dada observação Xo é:

D(xo) = [µ1−µ2]′.σ−1.xo (2-27)

O ponto médio entre as duas médias populacionais univariadas µ1 e µ2 é:

m =12[µ1−µ2]

′.σ−1.[µ1 +µ2], ou se ja, m =12[D(µ1)+D(µ2)] (2-28)

A regra de classificação baseada na função discriminante de Fisher é alocar xo onde:

xo =

π1 se D(xo) = [µ1−µ2]′.σ−1.xo ≥ m

π2 se D(xo) = [µ1−µ2]′.σ−1.xo < m

Assumindo-se que as populações π1 e π2 tem a mesma matriz de covariâncias σ podemosentão estimar uma matriz comum de covariâncias Sc:

Sc =

[n1−1

(n1−1)+(n2−1)

].S1 +

[n2−1

(n1−1)+(n2−1)

].S2 (2-29)

em que:

• Sc estimativa da matriz comum de covariância σ

Page 59: Reconhecimento do tipo de cachaça utilizando visão computacional

2.5 Combinação de classificadores 56

• n1 número de observações da população π1

• n2 número de observações da população π2

• S1 estimativa da matriz de covariância da população π1

• S2 estimativa da matriz de covariância da população π2

A função discriminante linear amostral de Fisher é obtida substituindo-se osparâmetros µ1, µ2 e σ pelas respectivas quantidades amostrais x1, x2 e Sc:

D(x) = L′.x = [x1− x2]

′.S−1

c .x (2-30)

em que:

• D(x) é a função discriminante linear de Fisher• L

′é a estimativa do vetor discriminante

• x1 é a média amostral da população π1

• x1 é a média amostral da população π2

A função discriminante quadrática caracteriza-se por não fazer restrições à igual-dade entre matrizes de variâncias e covariância. Gilbert[49] indicou a função discrimi-nante quadrática como melhor quando as matrizes de covariâncias não são iguais, mascomentou que a função linear é adequada para a classificação, embora não seja satisfató-ria para estimação de riscos. Marks[75] concluiu que para grandes amostras e autovaloresgrandes, a função quadrática é muito melhor que a linear, já para autovalores pequenosé fracamente melhor; e que em pequenas amostras a função quadrática tem desempenhomuito pior que a forma linear para pequenos autovalores e a tendência é incrementadacom o número de parâmetros. Kronmal[109] e Krzanowski[68] afirmaram que mesmoquando há restrição na igualdade entre as matrizes de covariâncias, a função linear é amais comum devido a sua simplicidade.

2.5 Combinação de classificadores

Ensemble, também conhecido por comitê, é um conjunto de classificadorescujas conclusões individuais são combinadas de alguma forma a classificar o problemaabordado. A proposta principal dos ensembles é combinar classificadores e aproveitar ascontribuições de cada um deles para conseguir melhores resultados de classificação emdetrimento da complexidade computacional e também maior custo computacional[6, 76].Este paradigma originou-se do trabalho de Hansen[53], que mostraram que a habilidadede generalização pode ser significativamente melhorada por meio da composição devárias redes neurais artificiais, ou seja, treinamento independente de várias redes neuraisartificiais e posterior composição das saídas individuais. Em outras palavras podemos

Page 60: Reconhecimento do tipo de cachaça utilizando visão computacional

2.5 Combinação de classificadores 57

afirmar que modelos combinados apresentam melhores desempenhos do que um sistemadecisório único conforme é apresentado na Figura 2.17.

Figura 2.17: Esquema de um ensemble gerado a partir da combi-nação de vários classificadores (Ci)

Existem três principais motivos que sugerem a causa pela qual um conjunto declassificadores tem um funcionamento melhor do que um único classificador trabalhandode forma isolada [30, 71]:

• Estatística: Quando o número de hipóteses (H) do sistema analisado é maior doque o número de pontos a serem utilizados para o treinamento, o classificador podetender a fornecer uma resposta errada sobre o sistema. Por outro lado, um conjuntode classificadores é capaz de avalizar as respostas de todos os classificadores um aum, e determinar qual é mais possível de estar correta, aumentando assim as chancesde representar o sistema real.• Computacional: Os classificadores são muitas vezes sensíveis ao treinamento. As-

sim, combinando classificadores é possível fornecer melhores resultados suavi-zando as sensibilidades de cada classificador na coleta de dados durante o treina-mento. Dessa forma é possível obter uma aproximação maior à função do sistemareal se comparada à resposta de cada um dos classificadores de forma isolada.• Representacional: Na maioria dos casos reais não é possível atingir com perfeição

a função exata do sistema analisado. No entanto, por meio de ponderações ou fusãodas diversas hipóteses, é possível expandir o espaço das funções representáveis.

Page 61: Reconhecimento do tipo de cachaça utilizando visão computacional

2.5 Combinação de classificadores 58

Em geral, um ensemble é construído em dois passos: geração dos vários com-ponentes e então a combinação da saída proposta pelos componentes. Quanto à geraçãodos componentes, as abordagens predominantes são bagging e boosting. Bagging (Boots-

trap Aggregating) foi proposto por Breiman[14], baseado em amostragem bootstrap [46].Nesta abordagem, são gerados vários conjuntos de treinamento a partir de amostragemuniforme do conjunto original de dados, com reposição, e então se obtém uma propostade solução a partir de cada um destes conjuntos de treinamento. Os conjuntos de treina-mento têm o mesmo número de amostras do conjunto original, mas algumas amostrasdo conjunto original podem aparecer mais de uma vez, fazendo com que outras amostrasnão sejam selecionadas. Esta distinção aleatória entre os vários conjuntos de treinamentoconfere diversidade aos modelos de classificação ou regressão que são obtidos a partir decada um desses conjuntos.

Boosting foi proposto por Schapire[99] e aperfeiçoado por Freund[43, 45].Nesta abordagem, os vários conjuntos de treinamento não são gerados a partir de umaamostragem uniforme com reposição, como no caso do bagging. A probabilidade deescolha de uma amostra depende da contribuição desta para o erro de treinamentodos componentes já treinados. Isto significa que caso uma amostra não tenha sidocorretamente classificada pelos componentes já gerados, a probabilidade de escolha destaaumenta em relação às demais amostras, quando do treinamento de novos componentes.Consequentemente, esta amostra terá uma chance maior de ser escolhida para comporo conjunto de dados do próximo componente a ser gerado. Portanto, apenas o primeirocomponente do ensemble é treinado a partir de uma amostragem uniforme do conjuntode dados original. É necessário, assim, que os vários componentes do ensemble sejamtreinados sequencialmente, visando redefinir a probabilidade de escolha das amostras nageração dos próximos conjuntos de treinamento.

A principal diferença entre as abordagens boosting e bagging é que no boosting

os componentes da agregação são treinados sequencialmente, pois o conjunto de treina-mento do próximo componente é gerado com base no desempenho dos demais compo-nentes já obtidos. Com isso, enquanto a abordagem bagging atua apenas na redução davariância, a abordagem boosting é capaz de reduzir tanto variância quanto bias[46]. Isto sedeve à atribuição de maior ênfase às amostras responsáveis pela queda de desempenho du-rante o treinamento, ou seja, as amostras que mais contribuem para o erro de treinamentodos componentes já treinado têm maior probabilidade de serem escolhidas na composiçãodo conjunto de treinamento do próximo componente. Segundo Lima[71] na abordagembagging, a probabilidade de escolha das amostras é sempre uniforme, razão pela qual otreinamento dos componentes pode ser feito em paralelo, ou seja, simultaneamente.

Neste trabalho foi utilizado o AdaBoost, algoritmo meta-heurístico que gera umconjunto de hipóteses e as combina por meio da votação ponderada. As hipóteses são

Page 62: Reconhecimento do tipo de cachaça utilizando visão computacional

2.5 Combinação de classificadores 59

geradas por meio do treinamento de classificadores usando uma distribuição dos dadositerativamente ajustada. O resultado final se baseia na junção dos resultados obtidos pelosclassificadores fracos, ponderada pelo peso calculado de cada um deles. As vantagens sesua utilização são: (i) Melhora a acurácia da classificação, (ii) Pode ser utilizado comdiferentes classificadores, (iii) Simples de implementar e (iv) Não propenso a overfitting.Como apontado por Freund[43, 44], a principal desvantagem do AdaBoost é lidar comclassificadores com acurácia baixa com um taxa de erro superior a 50% pois mum cenáriocom multi-classes o AdaBoost pode falhar. Apesar disto ele é considerado um ótimoensemble.

Page 63: Reconhecimento do tipo de cachaça utilizando visão computacional

CAPÍTULO 3Material e Métodos

Nesta seção são apresentados o material e métodos necessários para o desenvol-vimento de uma metodologia de classificação para a cachaça.

3.1 Amostras

Foram avaliadas amostras de cachaça com até 36 meses de envelhecimentoem tonéis de Amburana (Amburana cearensis), Carvalho (Quercus spp) e Castanheira(Bertholletia excelsa H.B.K) . O tempo de envelhecimento foi acompanhado a cada 4meses e as amostras avaliadas são de 4 tonéis para cada tipo de madeira. Desta maneirao total de amostras que foram analisadas são de 36 amostras por madeira conforme édemostrado na Tabela 3.1.

Tabela 3.1: Amostras de cachaça analisadas no período de 36meses.

Madeira Amostras (meses) Totalamburana(Amburana cearensis), 4 - 8 - 12 - 16 - 20 - 24 - 28 - 32 - 36 36carvalho(Quercus spp) 4 - 8 - 12 - 16 - 20 - 24 - 28 - 32 - 36 36castanheira(Bertholletia excelsa H.B.K) 4 - 8 - 12 - 16 - 20 - 24 - 28 - 32 - 36 36Total de amostras 108

As amostras de cachaça bem como as análises físico-químicas foram obtidas noslaboratórios de tecnologia de bebidas da Escola de Agronomia da Universidade Federalde Goiás. Estas análises seguem parâmetros estabelecidos pela Instrução Normativa no 13do MAPA (Ministério da Agricultura, Pecuária e Abastecimento)[81] que define diretrizessobre o consumo e comercialização.

A determinação do pH, densidade, teor alcoólico real a 20oC, acidez volátil fixae total, extrato seco, compostos fenólicos, cor e atividade antioxidante foram realizadasnos tempos 0, 2, 4, 6, 8, 10 e 12, ou seja, de 2 em 2 meses de armazenamento para

Page 64: Reconhecimento do tipo de cachaça utilizando visão computacional

3.1 Amostras 61

que fossem observadas as alterações durante o período de envelhecimento. Na análiseforam levantados os atributos a serem utilizados no modelo. Os atributos são descritos naTabela 3.2.

Tabela 3.2: Atributos químicos extraídos da análise das amostras

Descrição dos atributos químicosAtributo 1 Álcool AparenteAtributo 2 Álcool RealAtributo 3 Esteres TotaisAtributo 4 Acetato EtilaAtributo 5 Lactato EtilaAtributo 6 AldeídosAtributo 7 Alcoóis Totais

Descrição dos atributos químicosAtributo 8 n-propilAtributo 9 IsobutanolAtributo 10 IsoamílicoAtributo 11 1-ButanolAtributo 12 2-ButanolAtributo 13 Álcool MetílicoAtributo 14 Furfural

As análises para as propriedades descritas seguiram as seguintes metodologias:

• pH (atributos 4 e 5) - é medido com potenciômetro digital, calibrado à temperaturade 20oC;• Densidade (atributos 1 e 2) - baseia-se na relação entre o peso específico da água

a 20oC usando picnômetro ou acessório hidrostático com base no princípio deArchimedes (no qual um corpo imerso em um líquido está sujeito a uma impulsãovertical do líquido, dirigida para cima, igual ao peso do líquido deslocado);• Teor alcoólico real a 20oC (atributos 7 ao 13), acidez volátil, fixa e total e extrato

seco: foram realizadas conforme os métodos oficiais brasileiros de análise parabebidas destiladas [31].• Compostos fenólicos totais (atributos 3 ao 14): fora determinados conforme método

oficial de análise da AOAC 952.03 (AOAC,1997), derivada da calibração de curva-padrão com ácido tânico, com leitura em absorvância a 760nm;• Cor (atributos 15 ao 20): foi determinadas em espectrofotômetro de cor ColorQuest

II / Hunter Lab, ajustado em refletância, com especular incluída, utilizando-sepadrão branco no C6299 de 03/96 e amostra em cubeta de vidro limpo de 10mmde caminho ótico, com campo de análise de 1 polegada. A configuração incluiuiluminante D65 e ângulo de incidência de 10o. As leituras forma realizadas nosistema universal de cor CIELab com turbidez (dispersão homogênea dos sólidosem solução) e sem turbidez (amostra límpida). Foi conduzida com a leitura paradeterminação das coordenadas de cor L- luminosidade, a* e b*. A cor também foiavaliada através das informações das fotografias digitais que foram tiradas de todasas 108 amostras de cachaça. As atributos que podem influenciar os atributos decores são: atributos 1,2,7,8,9,10,11,12 e 13.• aldeídos (atributos 6 ao 14) e ésteres totais (atributos 3) e alcoóis superiores, iso-

amílico (atributos 10), isobutílico (atributos 9) e n-propílico (atributos 8): foram

Page 65: Reconhecimento do tipo de cachaça utilizando visão computacional

3.2 Sistema de visão computacional 62

determinados em cromatógrafo a gás Shimadzu GC-17A equipado com injeção au-tomática, detector de ionização automática, detector de ionização de chama e colunacapilar DB-VAX (30m x 0,25mm x 0,25mm). Na determinação da concentração doscompostos foram realizadas o método de área e calibração com padrões externos.• Testes de atividade antioxidante in vitro (atributos 3 e 14): Foram determinados pelo

método descrito por Willianms[13]. Este método baseia-se na remoção do radicalestável DPPH do meio de reação pela ação dos antioxidantes presentes na amostra.

3.2 Sistema de visão computacional

A Figura 3.1 apresenta um esquema da metodologia utilizada no sistema de visãocomputacional. Foi aplicado os fundamentos descritos na seção 2.1 como: equalização dehistograma, filtro de passa-baixa (gaussiano) e conversão do modelo de cores.

Figura 3.1: Esquema representativo da metodologia aplicada aoSistema de Visão.

Na aquisição da imagem, as amostras foram fotografadas pela câmera digitalCanon EOS REBEL XS com configuração de ISO 100, abertura a 4.0 mm e formatode imagem configurada para RAW que contém a totalidade dos dados da imagem talcomo captada pelo sensor da câmera fotográfica. A luz do ambiente para fotografar asamostras foi controlada através de um dispositivo que permite a incidência da luz naposição contrária à lente da câmera fotográfica. Um filtro especial evitará reflexos nolíquido e permitira a captura de uma imagem digital adequada para o processamento. AFigura 3.2 apresenta o projeto do dispositivo desenvolvido. A técnica foi inspirada porSun[104] em seu trabalho de classificação de carne bovina. As medidas do dispositivoforam de 50cm2, com filtro translúcido de 30cm2 e abertura para câmera digital de 10cm2

de raio.

Page 66: Reconhecimento do tipo de cachaça utilizando visão computacional

3.2 Sistema de visão computacional 63

Figura 3.2: Sistema para captura das fotografias digitais

O objetivo do dispositivo é controlar o ambiente da fotografia digital para umamelhor absorção das cores do objeto alvo, neste contexto a cachaça, com o propósito deobservar uma correlação entre as características de cores obtidas pelo colorímetro (modeloCIELab L*a*b* - Lightness, redness and yelowness) e o modelo RGB (Red, Green andBlue). A Figura 3.3 apresenta o dispositivo construído.

Figura 3.3: Dispositivo fabricado de acordo com a técnica deSun[104]

A figura 3.4 apresenta uma amostra de amburana etiquetada de acordo com operíodo e barril de amostragem.

Figura 3.4: Amostra de cachaça armazenada em Amburana

Page 67: Reconhecimento do tipo de cachaça utilizando visão computacional

3.2 Sistema de visão computacional 64

Após a aquisição da imagem é aplicado balanço de branco, processo de remoçãode cores não reais, de modo a tornar brancos os objetos que aparentam ser brancos para osnossos olhos. O balanço de cores é efetuado previamente, tanto na fotografia com filmescomo na fotografia digital. O balanço de cores está relacionado neutralidade e não deveser confundido com equilíbrio de cores que pintores e designers costumam aplicar paracombinar cores. A Figura 3.5, apresenta o contraste da aplicação de balanço de branco(White Balance), teoria baseada na hipótese de Von Kries[48, 20].

Figura 3.5: Balanço de branco aplicado a uma imagem

Esta técnica é aplicada no quadrante da amostra conforme apresentado na Fi-gura 3.6, onde um filtro gaussiano é utilizado para suavização das imagens. Após a uti-lização do filtro, a imagem é processada obtendo a média dos valores do espaço RGB.Estes valores são convertidos no espaço CIELab e comparados com os valores obtidospelo colorímetro.

Figura 3.6: Escolha de um quadrante da amostra para ser traba-lhado.

Após o tratamento da imagem, a mesma foi exportada do formato RAW paraTIFF. O formato TIFF é escolhido pela não compactação da imagem a ser trabalhada. Arepresentação das propriedades utilizadas no modelo CIELab e RGB são apresentadas naTabela 3.3:

Page 68: Reconhecimento do tipo de cachaça utilizando visão computacional

3.3 Algoritmos de Reconhecimento de Padrões 65

Atributos do modelo de cor CIELab

Atributo 15 Lightness

Atributo 16 Redness

Atributo 17 Yelowness(a) CIELAB

Atributos do modelo de cor RGB

Atributo 18 Cor VermelhoAtributo 19 Cor VerdeAtributo 20 Cor Azul

(b) RGB

Tabela 3.3: Representação dos atributos CIELab(a) and RGB(b)com seus respectivos identificadores e descrição

Assim como na análise química, as propriedades do modelo de cores CIELab eRGB foram nomeadas e separadas para serem utilizadas no método. A seção C apresentaum catálogo de cores onde é apresentado a tendência de cores entre barris e tipos demadeira diferentes.

3.3 Algoritmos de Reconhecimento de Padrões

Verificou-se o uso de 4 algoritmos de reconhecimento de padrões: rede neural ar-tificial, k-NN, SVM e Naive Bayes. O ensemble utilizou estes 4 algoritmos para realizar acombinação dos classificadores. O software utilizado foi o WEKA (Waikato Environment

for Knowledge Analysis), software gratuito e de código aberto com bom desempenho emrelação a outros na comunidade científica conforme estudo de Borges[10]. Os parâmetrosutilizados foram os valores padrões da ferramenta. LDA, QDA e PCA foram desenvol-vidos no MATLAB. A Figura 3.7 apresenta um esquema representativo da metodologiaaplicada.

Figura 3.7: Esquema representativo da metodologia utilizada emReconhecimento de Padrões

Após a aquisição dos dados químicos e do modelo de cores, uma técnica depré-processamento e transformação de dados foi aplicada para aumentar a qualidade e opoder de expressão dos dados a serem processados. A norma-Z (z score) foi utilizadapara normalizar os dados. Na identificação dos outliers e ruídos foi utilizado umanormalização min-max para preencher estes campos com a média do atributo ou a médiarelativa do atributo em todos os registros que estiveram na mesma situação. Após a

Page 69: Reconhecimento do tipo de cachaça utilizando visão computacional

3.3 Algoritmos de Reconhecimento de Padrões 66

normalização, algoritmos de extração de características foram utilizados para criar novascaracterísticas a partir de transformações ou combinações do conjunto de característicasoriginal. Frequentemente, a extração precede a seleção, pois primeiro as característicassão extraídas a partir do sentido dos dados (usando componente principal ou análisediscriminante). Enquanto que PCA é um método de extração de características linear enão supervisionado, análise discriminante usa a informação de categoria associada comcada padrão para extração (linear) da maioria das características discriminatórias. Nela aseparação inter-classes é feita por uma medida de separabilidade que resulta no encontrode auto-vetores conforme descrito na Equação 2-30 [77].

Em sequência a extração de características foram utilizados classificadores. Narede neural do tipo perceptron multi-camadas (MLP) foram utilizados 11 neurônios nacamada oculta, taxa de aprendizado igua a 0,3 e momentum de 0,2. O algoritmo detreinamento utilizado foi o backpropagation. No método k-NN (k-Nearest Neighbor) otamanho de k neste trabalho é 1 utilizando a distância euclidiana.

Em seguida verifou-se o uso do SVM e Naive Bayes. A utilização do SVM épor sua flexibilidade e têm como objetivo a determinação de fronteira de decisão queproduzam uma separação ótima entre classes por meio da minimização dos erros[21]. Osparâmetros de configuração foram: γ (gamma) igual à 0.0, custo (cost) igual à 1.0, grau(degree) do kernel igual à 3 e função kernel(kernelType) do tipo gaussiana (RBF).

A utilização do Naive Bayes é por sua abordagem estatística, baseada no teoremade Bayes pois considera que os atributos são independentes dada a classe. Os parâmetrosforam: useKernelEstimator=false, useSupervisedDiscretization=false, useKernelEstima-tor=true, useSupervisedDiscretization=false, useKernelEstimator=false e useSupervised-Discretization=true. Ao final utiliza-se de um ensemble Adaboost que realiza a combina-ção de todos os classificadores citados, possibilitando melhor capacidade de generalizaçãoe resultados mais estáveis que os classificadores individuais.

Um conceito comumente empregado é de generalização de um classificador,definida como a sua capacidade de prever corretamente a classe de novos dados. No casoem que o modelo se especializa nos dados utilizados em seu treinamento, apresentandouma baixa taxa de acerto quando confrontado com novos dados, tem-se a ocorrência deum superajustamento (overfitting). É também possível induzir hipóteses que apresentemuma baixa taxa de acerto mesmo no subconjunto de treinamento, configurando umacondição de subajustamento (underfitting). Essa situação pode ocorrer, por exemplo,quando os exemplos de treinamento disponíveis são pouco representativos ou quandoo modelo obtido é muito simples[66, 74].

Sendo assim, utilizou-se da validação cruzada para dar suporte estatístico aosresultados e verificar se há generalização no uso de um classificador. Foram utilizadas avalidação cruzada com K-folds e Leave-One-Out. Para a validação cruzada com k-folds o

Page 70: Reconhecimento do tipo de cachaça utilizando visão computacional

3.4 Análise discriminante 67

procedimento consiste em particionar aleatoriamente o conjunto de dados D em k-folds

mutuamente exclusivas de tamanho aproximadamente iguais conforme é apresentado naFigura 3.8.

Figura 3.8: Validação cruzada com k-folds

Nesta técnica as amostras são divididas em k partições mutuamente exclusivas. Acada iteração uma partição diferente é utilizada para testar o classificador e todas as outrask-1 partições são utilizadas para treinar o classificador. A taxa de acerto e erro é a médiade todas as taxas calculadas para as k iterações. Na utilização dos classificadores (R.N.A,k-NN, SVM e Naive Bayes) utilizou-se um k igual à 10 e no método Leave-one-out temosa escolha de k igual ao número total de dados D.

3.4 Análise discriminante

Para a classificação das amostras de cachaça foi utilizada a Análise Discrimi-nante Linear (LDA - Linear Discriminant Analysis) e Análise Discriminante Quadrática(QDA - Quadratic Discriminant Analysis). O objetivo de ambas consiste em obter fun-ções matemáticas capazes de classificar um objeto em uma de suas classes, com base nascaracterísticas consideradas, buscando minimizar a probabilidade de classificação errada.A Figura 3.9 mostra o contexto de classificação do tipo de madeira e tempo de envelhe-cimento utilizando a discriminante de Fisher para os atributos químicos e atributos domodelo de cores (CIELab e RGB) referenciados nas Tabelas 3.2 e 3.3.

Page 71: Reconhecimento do tipo de cachaça utilizando visão computacional

3.4 Análise discriminante 68

0 5 10 15 200

1

2

3

4

5

6

Atributos

Dis

cri

min

ab

ilid

ad

e d

e F

ish

er

Atributos químicos

CIELAB

RGB

(a) Tipo de madeira

0 5 10 14 18 210

0.2

0.4

0.6

0.8

1

1.2

1.4

Atributos

Dis

crim

inab

ilida

de d

e Fis

her

Atributos químicos

CIELAB

RBG

(b) Tempo de envelhecimento

Figura 3.9: A discriminalidade de Fisher para o problema dotipo de madeira( 3.9(a)) e tempo de envelheci-mento( 3.9(b)), utilizando dados químicos, modelo decores CIELab e RGB.

Para tipo de madeira (Figura 3.9(a)) as informação referente ao CIELab e RGBapresentam maior discriminabilidade que para tempo de envelhecimento (Figura 3.9(b)).Os atributos 16 e 20, citados na Tabela 3.3, apresentam a maior discriminabilidade. Paraa classificação do tempo de envelhecimento é possível verificar na Figura 3.9(b) que osatributos químicos tem maior discriminabilidade e as informações relacionadas a CIELabe RGB possuem baixa discriminabilidade. Vale ressaltar que Fisher considera o atributode forma univariada, assim atributos de maior discriminabilidade não implica em um bommodelo de classificação.

Uma das vantagens do uso de classificadores de análise discriminante é apossibilidade de extrair o conhecimento de como a classificação é realizada. Neste casoem particular é possível visualizar as fronteiras de decisão geradas através de hiperplanos.Os hiperplanos dividem o espaço em diversas regiões e estas divisões determinam afronteira de decisão que distingue as classes. Para que os hiperplanos consigam separaras classes corretamente, não pode haver pontos de classes distintas numa mesma região.

Em seguida, a Figura 3.10 apresenta 3 hiperplanos e 3 classes que correspondemas madeiras Amburana (classe 1 - Amburana cearensis), Carvalho (classe 2 - Quercus

spp) e Castanheira (classe 3 - Bertholletia excelsa H.B.K). O hiperplano de cor vermelhafaz a separação entre as classes 1 e 2, o de cor azul faz a separação entre 1 e 3, e o de corpreta faz a separação entre 2 e 3. Nota-se que os hiperplanos mostram que as classes sãolinearmentes separáveis, pois não há sobreposição nas fronteiras de decisão.

Page 72: Reconhecimento do tipo de cachaça utilizando visão computacional

3.4 Análise discriminante 69

−5 −4 −3 −2 −1 0 1−50

0

50

100

150

200

250

300

Atributo 16

Atrib

uto

20

Amburana cearensis (classe 1)

Quercus spp (classe 2)

Bertholletia excelsa (classe 3)

Fronteira entre as classes 1 e 2

Fronteira entre as classes 1 e 3

Fronteira entre as classes 2 e 3

Figura 3.10: Gráfico de dispersão de objetos com hiperplano deseparação de classes obtidos por discriminante li-near

Posteriormente baseado nos estudos de Duarte[37] utilizou-se QDA onde hiper-planos e elipsoides determinam regiões de classes mais precisas. Na figura 3.11, são iden-tificadas três regiões segmentadas por hiperplanos, cada qual apresenta as classes identifi-cadas. O de cor vermelha faz a distinção entre as classes 1 e 2, seu traçado é linear pois oseu componente quadrático é igual a zero. Diferente dos hiperplanos de cor azul e preta.O azul distingue as classes 1 e 3, e neste cenário há uma maior delimitação da região quena região 3. No hiperplano de cor preta a distinção está nas classes 2 e 3.

−5 −4 −3 −2 −1 0 1−50

0

50

100

150

200

250

300

Atributo 16

Atrib

uto

20

Amburana cearensis (classe 1)

Quercus spp (classe 2)

Bertholletia excelsa (classe 3)

Fronteira entre as classes 1 e 2

Fronteira entre as classes 1 e 3

Fronteira entre as classes 2 e 3

Figura 3.11: Gráfico de dispersão de objetos com hiperplano deseparação de classes obtidos por discriminante li-near quadrática

Fazendo um comparativo entre as fronteiras observadas nas figuras 3.10 e 3.11,nota-se que QDA gerou uma fronteira de área menor para a classe 3. Tal resultado é expli-

Page 73: Reconhecimento do tipo de cachaça utilizando visão computacional

3.5 Análise de Componentes Principais 70

cado em razão da discriminante quadrática utilizar matrizes de covariâncias individuaispara cada classe o que permite que a dispersão dos objetos seja considerada de formaindividual, ao contrário de LDA.

3.5 Análise de Componentes Principais

A análise de componentes principais (PCA), técnica da estatística multivariadaconsiste em transformar um conjunto de variáveis originais em outro conjunto de variáveisde mesma dimensão denominadas de componentes principais[87, 57, 62]. É associada àidéia de redução de massa de dados, com menor perda possível da informação, ondeos componentes principais é uma combinação linear de todas as variáveis originais. Sãoindependentes entre si e estimados com o propósito de reter, em ordem de estimação, omáximo de informação, em termos da variação total contida nos dados. A Figura 3.12apresenta a dispersão dos objetos das 3 classes consideradas, projetadas sobre as 2primeiras componentes principais de maior variância.

−6 −5 −4 −3 −2 −1 0 1 2 3−4

−3

−2

−1

0

1

2

3

1º Componente Principal (53,1%)

Co

mp

on

en

te P

rin

cip

al (1

8,7

%)

Amburana cearensis (amburana)

Quercus spp (carvalho)

Bertholletia excelsa (castanheira)

Figura 3.12: Gráfico de dispersão de objetos utilizando as duascomponentes principais de maior variância

As componentes principais foram calculadas sobre todas as variáveis disponí-veis, isto é, dados químicos e dados de informação de cor referenciados na tabela 3.2 etabela 3.3, respectivamente. Verifica-se que o uso de componentes principais não permiteuma boa discriminização das classes, visto que há uma sobreposição entre os objetos dediferentes classes.

Apesar disto, os atributos mais significativos apresentam que a classificação dotipo de madeira é mais clara que a classificação do tempo de envelhecimento conformeapresentado na Figura 3.13(b). O gráfico apresenta a dispersão de objetos para a classi-ficação de madeira(Figura 3.13(b) - atributos 16 e 20) e tempo de envelhecimento (Fi-gura 3.13(a) - atributos 5 e 12).

Page 74: Reconhecimento do tipo de cachaça utilizando visão computacional

3.5 Análise de Componentes Principais 71

−2 −1.5 −1 −0.5 0 0.5 1 1.5 2−3

−2

−1

0

1

2

3

Lactato Etila (atributo 5)

2 B

utan

ol (

atr

ibu

to 1

2)

Cachaça envelhecidaCachaça PremiumCachaça Extra Premium

(a) Tempo de envelhecimento

−2 −1.5 −1 −0.5 0 0.5 1 1.5−2.5

−2

−1.5

−1

−0.5

0

0.5

1

1.5

B (atributo 20)

A (a

tribu

to 1

6)

Amburana cearensisQuercus sppBertholletia excelsa

(b) Tipo de madeira

Figura 3.13: Dispersão de objetos para o problema de reconheci-mento do tempo de envelhecimento e tipo de madeirautilizando redes neurais artificias e k-NN.

Page 75: Reconhecimento do tipo de cachaça utilizando visão computacional

CAPÍTULO 4Resultados

Nesta seção são apresentados os resultados obtidos pelos experimentos na clas-sificação da cachaça quanto ao problema do tempo de envelhecimento e tipo de madeira.Todo o experimento utilizou atributos químicos como modelo de referência. Após estaprimeira análise, utilizou-se dos atributos referente ao modelo de cores (CIELab e RGB).Foi realizado experimento conforme metodologia apresentada na Figura 3.7. O experi-mento possuem três abordagens:

1. Utilizar análise discriminante para a identificação do tipo de madeira.2. Utilizar técnicas de reconhecimento de padrões para reconhecer o tipo de madeira

e tempo de envelhecimento.3. Verificar o uso de um ensemble para classificação da cachaça

Durante o metodologia foi identificado que o problema do tipo de madeira émais discriminante que o problema do tempo de envelhecimento. Na primeira aborda-gem utiliza-se do LDA e QDA. Os resultados na identificação do tipo de madeira sãoapresentados na Tabela 4.1.

Tabela 4.1: Taxa de acerto para as análises discriminantes lineare quadrática

Usando somente atributos químicosLDA QDA

Taxa de acerto(%) 93,45% -*número de erros 7 -

Usando somente modelo de coresLDA QDA

Taxa de acerto(%) 98,13% 99,06%número de erros 2 1

Não foi possível obter os resultados de QDA utilizando atributosquímicos em razão da presença de colineariedade dos atributosconsiderados. Isso não permitiu a inversão da matriz de covariân-cia que é utilizada na construção do classificador.

Page 76: Reconhecimento do tipo de cachaça utilizando visão computacional

73

Na segunda abordagem utilizou-se os classificadores MPL, k-NN, SVM e NaiveBayes e na terceira abordagem temos o uso do ensemble Adaboost para combinar osresultados obtidos na segunda abordagem. Em seguida temos os resultados consolidadospara as duas abordagens. O círculo verde ( ) indica o melhor índice para o cenárioproposto e o círculo vermelho ( ) o pior índice. A Tabela 4.2 apresenta os resultadoscom o uso apenas de atributos químicos como modelo de referência.

Tabela 4.2: Reconhecimento de Padrões utilizando somente dadosquímicos para o problema do tipo de madeira e tempode envelhecimento.

Classe Tipo de MadeiraClassificador MPL k-NN SVM Naïve Bayes AdaBoostacertos (%) 96,26 95,33 86,91 82,24 88,78erros (%) 3,74 4,67 13,08 17,75 11,21Classe Tempo de EnvelhecimentoClassificador MPL k-NN SVM Naïve Bayes AdaBoostacertos (%) 94,44 83,33 100,00 85,98 91,58erros (%) 5,66 16,07 0,00 14,01 8,41

A partir dos resultados da análise discriminante referenciados pela Tabela 4.1,utilizou-se das informações de CIELab e RGB sem o uso de dados químicos. Os resulta-dos são apresentados na Tabela 4.3.

Tabela 4.3: Reconhecimento de Padrões utilizando informaçõesdo modelo de cores CIELAB e RGB sem o uso deinformações de dados químicos.

Classe Tipo de Madeira

Classificador MPL k-NN SVM Naïve Bayes AdaBoostacertos (%) 97,20 98,33 98,13 96,26 100,00erros (%) 2,80 1,87 1,86 3,73 0,00

Classe Tempo de Envelhecimento

Classificador MPL k-NN SVM Naïve Bayes AdaBoostacertos (%) 52,78 44,44 34,57 35,51 100,00erros (%) 47,22 55,56 65,42 64,48 8,41

A Tabela 4.4 apresenta os resultados utilizando o modelo de cor CIELab e dadosquímicos.

Page 77: Reconhecimento do tipo de cachaça utilizando visão computacional

74

Tabela 4.4: Reconhecimento de Padrões utilizando modelo de co-res CIELAB e dados químicos.

Classe Tipo de Madeira

Classificador MPL k-NN SVM Naïve Bayes AdaBoostacertos (%) 100,00 97,19 97,19 93,45 97,19erros (%) 0,00 2,80 2,80 6,54 2,81

Classe Tempo de Envelhecimento

Classificador MPL k-NN SVM Naïve Bayes AdaBoostacertos (%) 91,67 86,11 72,89 68,22 91,58erros (%) 8,33 13,89 27,1 31,77 8,41

Em seguida utilizou-se atributos químicos e modelo de cores CIELAB e RGBconforme apresentado na Tabela 4.5.

Tabela 4.5: Reconhecimento de Padrões utilizando dados quími-cos, modelo de cores CIELAB e RGB.

Classe Tipo de Madeira

Classificador MPL k-NN SVM Naïve Bayes AdaBoostacertos (%) 100,00 100,00 99,06 96,26 99,06erros (%) 0,00 0,00 0,93 3,70 0,90

Classe Tempo de Envelhecimento

Classificador MPL k-NN SVM Naïve Bayes AdaBoostacertos (%) 97,22 88,89 100,00 85,98 90,65erros (%) 2,78 11,11 0,00 14,01 9,34

Page 78: Reconhecimento do tipo de cachaça utilizando visão computacional

CAPÍTULO 5Análise e Discussão dos Resultados

Neste capítulo, discutiremos o processo de classificação da cachaça para oproblema do tipo de madeira e tempo de envelhecimento em conformidade ao objetivoproposto.

5.1 Tipo de madeira, Tempo de envelhecimento e Uso deClassificadores

Como identificado na metodologia e apresentado nos resultados, a classificaçãopara o problema do tipo de madeira é mais discriminante que o problema do tempo deenvelhecimento. Isso é justificável pois fatores externos podem influenciar na composiçãoda cachaça, haja visto que temos variedades de uma madeira do mesmo tipo. Não temosuma árvore “gêmea”. Um fator que podemos destacar nesta variação é a região de extraçãoda madeira onde temos influência de clima e solo conforme demostrado por [36, 37].

Isto pode levar ao produtor a questionar a cor da cachaça na utilização de ummétodo automatizado para a classificação. O método proposto demostra que é possívelapresentar uma tendência da cor da cachaça com base no tipo de madeira. Isto leva umaadaptação do produtor na comercialização da cachaça seja ela envelhecida, premium eextra-premium sem a adição de caramelo ou outras composições químicas para “forçar”a coloração da cachaça.

Em relação ao tempo de envelhecimento podemos destacar que o fator temponão é mutável, ou seja, independente do tipo de madeira o tempo é um fator comum.Assim, ele é menos discriminante em relação a madeira. A utilização dos classificadoresapresentaram dados satisfatórios na classificação do tipo de madeira. Podemos destacar ouso da rede neural MPL que em todos os cenários apresentou índice superior aos outrosclassificadores. O uso do ensemble AdaBoost apresentou ganho em relação aos resultadosindividuais dos classificadores para os dois tipos de problemas: tipo de madeira e tempode envelhecimento sem o uso de informações de químicas com taxas de acerto de 100%.

Page 79: Reconhecimento do tipo de cachaça utilizando visão computacional

CAPÍTULO 6Considerações Finais

6.1 Conclusão

O estudo demostra a viabilidade de utilizar fotografias digitais para a classifica-ção de tipo de madeira para amostras de cachaças. As informações do modelo de coresRGB que podem ser extraídas de fotografias digitais são mais acessíveis que os atuaismétodos encontrados na literatura. O modelo CIELab é extraído por colorímetros e es-pectrofotômetros, equipamentos de alto custo para a grande maioria dos produtores.

A partir dos resultados foi possível observar que para a classificação de madeirasos classificadores obtiveram índices de 100% de acerto. Ainda para este problema, ouso somente do sistema de visão computacional sem informações químicas, é suficientepara identificar o tipo de madeira com alta taxa de acerto. Também é observado que autilização do ensemble AdaBoost trouxe um ganho em cenários desfavoráveis onde osclassificadores obtiveram baixo desempenho. Os resultados apontam que a combinação declassificadores possibilita melhor capacidade de generalização e resultados mais estáveisque os classificadores individuais, aproveitando as informações fornecidas por todos osclassificadores individuais. Este cenário é verificado na utilização do Adaboost somentecom dados do sistema de visão computacional onde a taxa de acerto foi de 100% para oproblema do tipo de madeira e tempo de envelhecimento.

A construção de um classificador automático em um ambiente controlado utili-zando dados do modelo de cores RGB é factível na substituição dos atributos químicosuma vez que o custo inerente a utilização e manipulação destes dados é alto devido amão-de-obra especializada. Neste sentido, a utilização de um sistema de informação quepossua um classificador automático na cadeia de produção resulta em otimização de re-cursos (tempo e mão-de-obra) e assim uma melhor logística e melhor nível de serviçoaos clientes. Portanto, com o aumento da eficiência operacional, a logística colabora paraaumentar a lucratividade presente e futura dos pequenos produtores e micro empresáriosque detém 98% da produção no cenário brasileiro.

Page 80: Reconhecimento do tipo de cachaça utilizando visão computacional

6.2 Trabalhos futuros 77

6.2 Trabalhos futuros

Como sugestão para trabalhos futuros, podemos enumerar:

• Criar um banco de dados de cor com as tonalidades da cachaça;• Identificar as tonalidades de cor da cachaça baseada nas regiões do Brasil (Norte,

Nordeste, Centro-Oeste, Sudeste, Sul);• Melhorar os resultados referente a classificação do tempo de envelhecimento;

6.3 Publicações

A partir do estudo desenvolvido nesta dissertação do mestrado, foram elaboradosdois artigos científicos onde ambos foram aceitos e publicados. O primeiro artigo intitu-lado Cachaça Classification Using Chemical Features and Computer Vision[93] foi pu-blicado na International Conference on Computational Science - ICCS 2014, conferênciana qual possui qualificação Qualis A2. O segundo artigo chamado Cachaça Type Identi-

fication Using Color Information and Computer vision[94] foi publicado no X Workshopde Visão Computacional - WVC 2014, conferência que possui qualificação Qualis B5.

Page 81: Reconhecimento do tipo de cachaça utilizando visão computacional

Referências Bibliográficas

[1] ABREU, I. N.; OTHERS. Characterization of the variation in the imidazole al-

kaloid profile of pilocarpus microphyllus in different seasons and parts of the

plant by electrospray ionization mass spectrometry fingerprinting and identifi-

cation of novel alkaloids by tandem mass spectrometry. Rapid Communications

in Mass Spectrometry, 21(7):1205–1213, 2007.

[2] ACHARYA, T.; RAY, A. K. Image Processing - Principles and Applications. Wiley-

Interscience, 2005.

[3] AQUINO, F. W. B.; NASCIMENTO, R. F.; RODRIGUES, S.; CASEMIRO, A. R. S.

Determinação de marcadores de envelhecimento em cachaças. Food Science

and Technology (Campinas), 26:145 – 149, 03 2006.

[4] ARAUJO, A. S.; OTHERS. Electrospray ionization mass spectrometry fingerprin-

ting of beer. Analyst, 130:884–889, 2005.

[5] BARBOSA, L. Tendências da alimentação contemporânea. In: Pinto ML, P. J.,

editor, Juventude, consumo e educação 2, p. 15–64. ESPM, 2009.

[6] BERNARDINI, F. C. Combinação de classificadores simbólicos para melhorar o

poder preditivo e descritivo de ensembles. Master’s thesis, Instituto de Ciências

Matemáticas e Computação, 2002.

[7] BHATIA, N.; VANDANA. Survey of nearest neighbor techniques. CoRR,

abs/1007.0085, 2010.

[8] BISHOP, C. M. Neural Networks for Pattern Recognition. Oxford University Press,

Inc., New York, NY, USA, 1995.

[9] BOISIER, B.; MANSOURI, A.; GOUTON, P.; TROLLAT, P. Wine color characteriza-

tion and classification for nuances reproduction. In: Signal-Image Technology

Internet-Based Systems (SITIS), 2009 Fifth International Conference on, p. 93–98,

2009.

Page 82: Reconhecimento do tipo de cachaça utilizando visão computacional

Referências Bibliográficas 79

[10] BORGES, L. C.; MARQUES, V. M.; BERNARDINO, J. Comparison of data mining

techniques and tools for data classification. In: Proceedings of the International

C* Conference on Computer Science and Software Engineering, C3S2E ’13, p. 113–

116, New York, NY, USA, 2013. ACM.

[11] BORTOLETTO, A. M.; ALCARDE, A. R. Congeners in sugar cane spirits aged in

casks of different woods. Food Chemistry, 139(1-4):695 – 701, 2013.

[12] BRAGA, A. D. P.; LUDERMIR, A. P. F. C.; BERNARDA, T. Redes neurais artificiais:

teoria e prática. LTC Editora, 2011.

[13] BRAND-WILLIAMS, W.; CUVELIER, M.; BERSET, C. Use of a free radical method

to evaluate antioxidant activity. {LWT} - Food Science and Technology, 28(1):25

– 30, 1995.

[14] BREIMAN, L. Bagging predictors. Mach. Learn., 24(2):123–140, Aug. 1996.

[15] BURGES, C. J. C. A tutorial on support vector machines for pattern recogni-

tion. Data Mining and Knowledge Discovery, 2:121–167, 1998.

[16] CALIARI, M.; SOARES JÚNIOR, M. S. V. L. F. N. R. V. C. L. J. . S. C. B.

Diagnóstico da produção de cachaça na região de orizona, estado de goiás,

brasil. Pesquisa Agropecuária Tropical (Impresso), 39:61–71, 2009.

[17] CAMARA, G.; SOUZA, R. C. M.; CÂMARA, G.; CARTAXO, R.; II, F.; SOUZA, M.;

FREITAS, U.; GARRIDO, J.; II, F. M. Spring: Integrating remote sensing and gis

by object-oriented data modelling. Computers Graphics, 20:3, 1996.

[18] CASTRO, L. Análise e síntese de estratégias de aprendizado para redes neu-

rais artificiais. Master’s thesis, Faculdade de Engenharia Elétrica e de Computa-

ção, 1998.

[19] CATHARINO, R. R.; CUNHA, I. B. S.; FOGAÇA, A. O.; FACCO, E. M. P.; GODOY,

H. T.; DAUDT, C. E.; EBERLIN, M. N.; SAWAYA, A. C. H. F. Characterization

of must and wine of six varieties of grapes by direct infusion electrospray

ionization mass spectrometry. Journal of Mass Spectrometry, 41(2):185–190,

2006.

[20] CHONG, H. Y. The von kries hypothesis and a basis for color constancy, 2007.

[21] CORTES, C.; VAPNIK, V. Support-vector networks. Mach. Learn., 20(3):273–297,

Sept. 1995.

Page 83: Reconhecimento do tipo de cachaça utilizando visão computacional

Referências Bibliográficas 80

[22] COZZOLINO, D.; COWEY, G.; LATTEY, K.; GODDEN, P.; CYNKAR, W.; DAMBERGS,

R.; JANIK, L.; GISHEN, M. Relationship between wine scores and visible-near-

infrared spectra of australian red wines. Analytical and Bioanalytical Chemistry,

391(3):975–981, 2008.

[23] CRUZ, J. A. G. Uma metodologia para modelagem e controle da altura do

reforço e da largura do cordão de solda no processo gmaw. Master’s thesis,

Departamento de Engenharia Mecânica, 2014.

[24] DA AGRICULTURA, M. M. Decreto no 6.871, de 4 de junho de 2009. [on-

line], Jan. 2009. http://sistemasweb.agricultura.gov.br/sislegis/

action/detalhaAto.do?method=recuperarTextoAtoTematicaPortal&

codigoTematica=1265102.

[25] DA AGRICULTURA, M. M. Agenda estratégica 2010 - 2015. [online],

Jan. 2011. http://www.agricultura.gov.br/arq_editor/file/camaras_

setoriais/AGES/cachaca.pdf.

[26] DA FAZENDA, M. Sistema de controle de producão de bebidas - sicobe. [online],

jan 2015. http://www.receita.fazenda.gov.br/pessoajuridica/bebidas/

SistContrProdSicobe.htm.

[27] DE SOUZA, M. D. C. A.; VÁAQUEZ, P.; DEL MASTRO, N. L.; ACREE, T. E.; LAVIN,

E. H. Characterization of cachaça and rum aroma. Journal of Agricultural and

Food Chemistry, 54(2):485–488, 2006. PMID: 16417309.

[28] DE SOUZA, P. P.; OTHERS. Differentiation of rum and brazilian artisan cachaça

via electrospray ionization mass spectrometry fingerprinting. Journal of Mass

Spectrometry, 42(10):1294–1299, 2007.

[29] DEBSKA, B.; GUZOWSKA-SWIDER, B. Application of artificial neural network in

food classification. Analytica Chimica Acta, 705(1–2):283 – 291, 2011. A selection

of papers presented at the 12th International Conference on Chemometrics in

Analytical Chemistry.

[30] DIETTERICH, T. G. Ensemble methods in machine learning. In: Proceedings of

the First International Workshop on Multiple Classifier Systems, MCS ’00, p. 1–15,

London, UK, UK, 2000. Springer-Verlag.

[31] DO BRASIL, S. F. Decreto no 73.267, de 06 de dezembro de 1973, Dec. 1986.

[32] DO BRASIL, S. F. Decreto no 4.062, de 21 de dezembro de 2001. [online], Dec.

2001. www.planalto.gov.br/ccivil_03/decreto/2001/D4062.htm.

Page 84: Reconhecimento do tipo de cachaça utilizando visão computacional

Referências Bibliográficas 81

[33] DO BRASIL, S. F. Decreto no 6.871, de 4 de junho de 2009. [online],

Jan. 2002. http://www.planalto.gov.br/ccivil_03/_Ato2007-2010/2009/

Decreto/D6871.htm.

[34] DO ESTADO DE GOIÁS, G. Apl da cachaça vai fortale-

cer a marca da bebida produzida em goiás. [online], Jan.

2013. http://www.casacivil.go.gov.br/post/ver/162868/

apl-da-cachaca-vai-fortalecer-a-marca-da-bebida-produzida-em-goias.

[35] DO ESTAO DE GOIÁS, G. Decreto no 7.769, de 29 de novembro de 2012. [online],

Nov. 2012. http://www.gabinetecivil.go.gov.br/pagina_decretos.php?

id=10784.

[36] DUARTE-MERMOUD, M. A.; OTHERS. Nonlinear feature extraction using fisher

criterion. International Journal of Pattern Recognition and Artificial Intelligence,

22(06):1089–1119, 2008.

[37] DUARTE-MERMOUD, M. A.; OTHERS. Chilean wine varietal classification using

quadratic fisher transformation. Pattern Anal. Appl., 13(2):181–188, 2010.

[38] DUDA, R.; HART, P.; STORK, D. Pattern classification. Pattern Classification and

Scene Analysis: Pattern Classification. Wiley, 2001.

[39] FARIA, J. B.; FRANCO, D. W.; PIGGOTT, J. R. The quality challenge: cachaï¿12a

for export in the 21st century. In: Distilled spirits: tradition and innovation 2004, p.

215–221. Nottingham University Press, Nottingham, UK, 2004.

[40] FERNANDES, A. Inteligência artificial: noções gerais. Visual Books, 2005.

[41] FISHER, R. A. The use of multiple measurements in taxonomic problems.

Annals of Eugenics, 7(7):179–188, 1936.

[42] FIX, E.; HODGES, J. L. Discriminatory analysis, nonparametric discrimination:

Consistency properties. US Air Force School of Aviation Medicine, Technical

Report 4(3):477+, Jan. 1951.

[43] FREUND, Y. Boosting a weak learning algorithm by majority. Inf. Comput.,

121(2):256–285, Sept. 1995.

[44] FREUND, Y.; SCHAPIRE, R. E. Experiments with a New Boosting Algorithm. In:

International Conference on Machine Learning, p. 148–156, 1996.

[45] FREUND, Y.; SCHAPIRE, R. E. A decision-theoretic generalization of on-line

learning and an application to boosting. J. Comput. Syst. Sci., 55(1):119–139,

Aug. 1997.

Page 85: Reconhecimento do tipo de cachaça utilizando visão computacional

Referências Bibliográficas 82

[46] FRIEDMAN, J.; HASTIE, T.; TIBSHIRANI, R. Additive logistic regression: a

statistical view of boosting. Annals of Statistics, 28:2000, 1998.

[47] GARDINER, W. P. Statistical Analysis Methods for Chemists. The Royal Society

of Chemistry, 1997.

[48] GASPARINI, F.; SCHETTINI, R. Color correction for digital photographs. In:

Image Analysis and Processing, 2003.Proceedings. 12th International Conference

on, p. 646–651, 2003.

[49] GILBERT, E. S. The effect of unequal variance-covariance matrices on fisher’s

linear discriminant function. Biometrics, 25(3):pp. 505–515, 1969.

[50] GOMES, G. S. D. S.; LUDEMIR, T. B. Redes neurais artificiais com funções de

ativação complemento log-log e probit para aproximar funções na presença

de observações extrema. Revista da Sociedade Brasileira de Redes Neurais

(SBRN), 6:142–153, 2008.

[51] GOMEZ-MEIRE, S.; CAMPOS, C.; FALQUIN, E.; DIAZ, F.; FDEZ-RIVEROLA, F. As-

suring the authenticity of northwest spain white wine varieties using machine

learning techniques. Food Research International, 60(0):230 – 240, 2014. Authen-

ticity, Typicality, Traceability and Intrinsic Quality of Food Products.

[52] GONZALEZ, R. C.; WOODS, R. E. Digital Image Processing (3rd Edition).

Prentice-Hall, Inc., Upper Saddle River, NJ, USA, 2006.

[53] HANSEN, L. K.; SALAMON, P. Neural network ensembles. IEEE Trans. Pattern

Anal. Mach. Intell., 12(10):993–1001, Oct. 1990.

[54] HAYKIN, S. Neural Networks: A Comprehensive Foundation (2nd Edition).

Prentice Hall, 2 edition, July 1998.

[55] HAYKIN, S. Neural Networks and Learning Machines (3rd Edition). Prentice

Hall, 3 edition, Nov. 2008.

[56] HEARST, M. A.; SCHÖLKOPF, B.; DUMAIS, S.; OSUNA, E.; PLATT, J. Trends and

controversies - support vector machines. IEEE Intelligent Systems, 13(4):18–28,

1998.

[57] HOTELLING, H. Analysis of a complex of statistical variables into principal

components. J. Educ. Psych., 24, 1933.

[58] INSTITUTO BRASILEIRO DA CACHACA, I. Mercado externo cachaca. [online],

Feb. 2014. http://www.ibrac.net/index.php/servicos/estatisticas/

mercado-externo.

Page 86: Reconhecimento do tipo de cachaça utilizando visão computacional

Referências Bibliográficas 83

[59] JAIN, A. K.; DUIN, R. P. W.; MAO, J. Statistical pattern recognition: A review.

IEEE Trans. Pattern Anal. Mach. Intell., 22(1):4–37, Jan. 2000.

[60] Johnson, R. A.; Wichern, D. W., editors. Applied Multivariate Statistical Analysis.

Prentice-Hall, Inc., Upper Saddle River, NJ, USA, 1988.

[61] Johnson, R. A.; Wichern, D. W., editors. Applied Multivariate Statistical Analysis.

Prentice-Hall, Inc., Upper Saddle River, NJ, USA, 1988.

[62] JOLLIFFE, I. Principal Component Analysis. Springer Series in Statistics.

Springer-Verlag New York, 2002.

[63] KARAMIZADEH, S.; ABDULLAH, M. S. M. A. A.; ZAMANI, M.; HOOMAN, A. An

overview of principal component analysis. Journal of Signal and Information

Processing, 4(4):173–175, 2013.

[64] KEREM, Z.; BRAVDO, B.; SHOSEYOV, O.; TUGENDHAFT, Y. Rapid liquid chroma-

tography–ultraviolet determination of organic acids and phenolic compounds

in red wine and must. Journal of Chromatography A, 1052(1–2):211 – 215, 2004.

[65] KHATTREE, R.; NAIK, D. N. Multivariate Data Reduction and Discrimination with

SAS Software. SAS Publishing, 1st edition, 2000.

[66] KOHAVI, R. A study of cross-validation and bootstrap for accuracy estimation

and model selection. In: A Study of Cross-Validation and Bootstrap for Accuracy

Estimation and Model Selection, p. 1137–1143. Morgan Kaufmann, 1995.

[67] KRUZLICOVA, D.; MOCAK, J.; BALLA, B.; PETKA, J.; FARKOVA, M.; HAVEL, J. Clas-

sification of slovak white wines using artificial neural networks and discrimi-

nant techniques. Food Chemistry, 112(4):1046 – 1052, 2009.

[68] KRZANOWSKI, W. J. The performance of fisher’s linear discriminant function

under non-optimal conditions. Technometrics, 19(2):pp. 191–200, 1977.

[69] LACERDA, W. S. Projeto e implementação de circuitos classificadores digitais

com controle da generalização baseado na regra do vizinho-mais-próximo

modificada. Master’s thesis, Escola de Engenharia, 2006.

[70] LIMA, C. A. M. Algoritmo de aprendizado supervisionado - baseado em

máquinas de vetores de suporte - uma contribuição para o reconhecimento

de dados desbalanceados. Master’s thesis, Faculdade de Engenharia Elétrica,

2001.

Page 87: Reconhecimento do tipo de cachaça utilizando visão computacional

Referências Bibliográficas 84

[71] LIMA, C. A. M. Comitê de máquinas: Uma abordagem unificada empregando

máquinas de vetores-suporte. Master’s thesis, Faculdade de Engenharia Elétrica

e de Computação, 2004.

[72] LING, C. X.; HUANG, J.; ZHANG, H. Auc: a statistically consistent and more

discriminating measure than accuracy. In: IN: PROCEEDINGS OF 18TH IN-

TERNATIONAL CONFERENCE ON ARTIFICIAL INTELLIGENCE (IJCAI-2003), p.

519–524, 2003.

[73] LORENA, A. C.; CARVALHO, C. Uma introdução às support vector machines.

Revista de Informática Teórica e Aplicada, XIV(2):43 – 67, 2007.

[74] M., M. C.; BARANAUSKAS, J. A. Conceitos sobre aprendizado de máquina. In:

Sistemas Inteligentes-Fundamentos e Aplicações, p. 84–114. Editora Manole Ltda,

2003.

[75] MARKS, S.; DUNN, O. J. Discriminant functions when covariance matrices are

unequal. Journal of the American Statistical Association, 69(346):pp. 555–559,

1974.

[76] MARMANIS, H.; BABENKO, D. Algorithms of the Intelligent Web. Manning Pubs

Co Series. Manning, 2009.

[77] MARR, D. Vision: A Computational Investigation into the Human Representa-

tion and Processing of Visual Information. Henry Holt and Co., Inc., New York,

NY, USA, 1982.

[78] MAURI, P.; P., P. Electrospray characterization of selected medicinal plant

extracts. Journal of Pharmaceutical and Biomedical Analysis, 23(1):61 – 68, 2000.

[79] MENESES, P. R.; ALMEIDA, T. Filtragem. In: UNB., editor, Introdução ao Proces-

samento de Imagens de Sensoriamento Remoto. Universidade de Brasília - UNB,

Brasília, 2012.

[80] MILOUD, A.; RIADH, B.-A. A. Survey of Nearest Neighbor Condensing Te-

chniques. International Journal of Advanced Computer Science and Applicati-

ons(IJACSA), 2(11), 2011.

[81] MINISTÉRIO DA AGRICULTURA, PECUÁRIA E ABASTECIMENTO, M. Instrucão nor-

mativa n 13, de 29 de junho de 2005. [online], Jan. 2014. http://goo.gl/

1DjmwL.

Page 88: Reconhecimento do tipo de cachaça utilizando visão computacional

Referências Bibliográficas 85

[82] MINISTÉRIO DO DESENVOLVIMENTO, I. E. C. E. Sistema de análise das informa-

ções de comércio exterior - aliceweb. [online], Jan. 2015. http://aliceweb.

mdic.gov.br/.

[83] MOLLER, J. K. S.; OTHERS. Electrospray ionization mass spectrometry fin-

gerprinting of whisky: immediate proof of origin and authenticity. Analyst,

130:890–897, 2005.

[84] MOLLER, J. K. S.; OTHERS. Electrospray ionization mass spectrometry fin-

gerprinting of essential oils: Spices from the labiatae family. Food Chemistry,

100(3):1283 – 1288, 2007.

[85] NIGRIN, A. Neural Networks for Pattern Recognition. MIT-Press, 1993.

[86] PATEL, S.; GOSWAMI, M. Comparative analysis of histogram equalization

techniques. In: Contemporary Computing and Informatics (IC3I), 2014 International

Conference on, p. 167–168, Nov 2014.

[87] PEARSON, K. On lines and planes of closest fit to systems of points in space.

Philosophical Magazine, 2(6):559–572, 1901.

[88] PEDRINI, H.; SCHWARTZ, W. R. Análise de Imagens Digitais: Princípios, Algo-

ritmos e Aplicações. Editora Thomson Learning, 2007.

[89] POLIDORIO, A. M.; FRANCO, C.; IMAI, N. N.; TOMMASELLI, A. M. G.; GALO, M. D.

L. B. T. Correção radiométrica de imagens multiespectrais cbers e landsat etm

usando atributos de reflectância e de cor. Simpósio Brasileiro de Sensoriamento

Remoto (SBSR), 12:4241–4248, 2005.

[90] PORTER, D. J.; MAYER, P. M.; FINGAS, M. Analysis of petroleum resins using

electrospray ionization tandem mass spectrometry. Energy & Fuels, 18(4):987–

994, 2004.

[91] QIONGSHUAI, L.; SHIQING, W. A hybrid model of neural network and classi-

fication in wine. In: Computer Research and Development (ICCRD), 2011 3rd

International Conference on, volume 3, p. 58–61, 2011.

[92] RIOVANTO, R.; CYNKAR, W. U.; BERZAGHI, P.; COZZOLINO, D. Discrimina-

tion between shiraz wines from different australian regions: The role of

spectroscopy and chemometrics. Journal of Agricultural and Food Chemistry,

59(18):10356–10360, 2011.

Page 89: Reconhecimento do tipo de cachaça utilizando visão computacional

Referências Bibliográficas 86

[93] RODRIGUES, B. U.; COSTA, R. M.; SALVINI, R. L.; SOARES, A. A.; SILVA, F. A.;

CALIARI, M.; CARDOSO, K. C. R.; RIBEIRO, T. I. Cachaça classification using

chemical features and computer vision. Procedia Computer Science, 29(0):2024

– 2033, 2014. 2014 International Conference on Computational Science.

[94] RODRIGUES, B. U.; COSTA, R. M.; SALVINI, R. L.; SOARES, A. A.; SILVA, F. A.;

CALIARI, M.; CARDOSO, K. C. R.; RIBEIRO, T. I. Cachaça type identification

using color information and computer vision. X Workshop de Visão Computaci-

onal, 10:45 – 49, 2014.

[95] SACCOL, D. D. B. Detecção, gerencimanto e consulta e réplicas e as versões

de documentos xml. Master’s thesis, Instituto de Informática, 2008.

[96] SANTOS, E. M. Teoria e aplicação de support vector machines à aprendizagem

e reconhecimento de objetos baseado na aparência. Master’s thesis, Departa-

mento de Sistemas e Computação, 2002.

[97] SAWAYA, A. C.; OTHERS. Electrospray ionization mass spectrometry fingerprin-

ting of propolis. Analyst, 129:739–744, 2004.

[98] SAWAYA, A. C.; OTHERS. Monitoring of wine aging process by electros-

pray ionization mass spectrometry. Food Science and Technology (Campinas),

42(10):730–734, 2011.

[99] SCHAPIRE, R. E. The strength of weak learnability. Mach. Learn., 5(2):197–227,

July 1990.

[100] SCHOWENGERDT, R. Remote Sensing: Models and Methods for Image Proces-

sing. Elsevier Science, 2006.

[101] SERRANO-LOURIDO, D.; SAURINA, J.; HERNÁNDEZ-CASSOU, S.; CHECA, A. Clas-

sification and characterisation of spanish red wines according to their ap-

pellation of origin based on chromatographic profiles and chemometric data

analysis. Food Chemistry, 135(3):1425 – 1431, 2012.

[102] SHLENS, J. A tutorial on principal component analysis. In: Systems Neurobio-

logy Laboratory, Salk Institute for Biological Studies, 2005.

[103] SOARES, A. A., S. C. F. Do engenho á palavra: uma breve etnografia da

cachaca. Master’s thesis, Universidade do Estado de Minas Gerais, 2004.

[104] SUN, X.; GONG, H. J.; ZHANG, F.; CHEN, K. J. A digital image method for

measuring and analyzing color characteristics of various color scores of beef.

Page 90: Reconhecimento do tipo de cachaça utilizando visão computacional

Referências Bibliográficas 87

In: Image and Signal Processing, 2009. CISP ’09. 2nd International Congress on, p.

1–6, 2009.

[105] SWOKOWSKI, W. Calculus with analytic geometry. Prindle, Weber & Schmidt,

1983.

[106] THEODORIDIS, S.; KOUTROUMBAS, K. Pattern Recognition, Fourth Edition.

Academic Press, 4th edition, 2009.

[107] VARELLA, A. Análise multivariada aplicada as ciências agrárias. Universidade

Federal Rural do Rio de Janeiro, 2007.

[108] VINICI, L.; SOUZA, M. A. Análise multivariada da teoria à prática. Universidade

Federal de Santa Maria, 2005.

[109] WAHL, P. W.; KRONMAL, R. A. Discriminant functions when covariances are

unequal and sample sizes are moderate. Biometrics, 33(3):pp. 479–484, 1977.

[110] WAN, Y.; SUN, X.; GUO, R. Shape and structure features based chinese wine

classification. In: Computational Intelligence and Natural Computing, 2009. CINC

’09. International Conference on, volume 2, p. 39–43, 2009.

[111] XAVIER, P. P. S. Efeitos de diferentes regiões urbanas na propagação de sinais

de sistemas de comunicações pessoais baseados em redes de satélites não

geoestacionários. Master’s thesis, Departamento de Engenharia Elétrica, 2005.

Page 91: Reconhecimento do tipo de cachaça utilizando visão computacional

APÊNDICE AArtigo publicado no The InternationalConference on Computational Science 2014 -Qualis A2

Artigo publicado no ICCS 2014 - Cairns, Australia - "Big Data meets Computa-tional Science". No estudo utilizamos a RNA e K-NN na classificação de cachaça para osproblemas do tipo de madeira e tempo de envelhecimento.

Dos artigos enviados para a trilha principal e oficinas, são selecionados 30% paraapresentação na conferência e publicação no processo. Estes são publicados pela Elseviere Procedia.

Page 92: Reconhecimento do tipo de cachaça utilizando visão computacional

Cachaca Classification Using Chemical Features and

Computer Vision

Bruno Urbano Rodrigues1, Ronaldo Martins da Costa1∗, Rogerio Lopes Salvini1,Anderson da Silva Soares1, Flavio Alves da Silva1, Marcio Caliari1

, Karla Cristina Rodrigues Cardoso1, and Tania Isabel Monteiro Ribeiro2†

1 Universidade Federal de Goias, Goiania, Goias, [email protected],[email protected],[email protected],

[email protected],[email protected],[email protected],[email protected] Instituto Politecnico de Braganca, Braganca, Portugal

[email protected]

AbstractCachaca is a type of distilled drink from sugarcane with great economic importance. Its classifi-cation includes three types: aged, premium and extra premium. These three classifications arerelated to the aging time of the drink in wooden casks. Besides the aging time, it is importantto know what the wood used in the barrel storage in order the properties of each drink areproperly informed consumer. This paper shows a method for automatic recognition of the typeof wood and the aging time using information from a computer vision system and chemicalinformation. Two algorithms for pattern recognition are used: artificial neural networks andk-NN (k-Nearest Neighbor). In the case study, 144 cachaca samples were used. The resultsshowed 97% accuracy for the problem of the aging time classification and 100% for the problemof woods classification.

Keywords: pattern recognition, drink analysis, computer vision

1 Introduction

Cachaca is the distilled drink most consumed among alcoholic beverages in Brazil. It is a specialtype of beverage produced from sugarcane (Saccharum sp) similar to rum. Its differential is theuse of different types of wood in the aging process.

Aging consists of storing the cachaca in barrels or wooden casks for a certain time. Thisprocess produces changes in the chemical composition, aroma, flavor and color of the drink[2]. The legislation classifies the cachaca into three types: aged cachaca, premium cachaca and

∗The authors thanks the research agencies CAPES and FAPEG for the support provided to this research.†The authors thanks the research School of Agriculture, Polytechnic Institute of Braganca for the support

provided to this research.

Procedia Computer Science

Volume 29, 2014, Pages 2024–2033

ICCS 2014. 14th International Conference on Computational Science

2024 Selection and peer-review under responsibility of the Scientific Programme Committee of ICCS 2014c© The Authors. Published by Elsevier B.V.

doi: 10.1016/j.procs.2014.05.186

Page 93: Reconhecimento do tipo de cachaça utilizando visão computacional

extra premium cachaca. The difference among types is related to the quantity of storage andshelf life. A aged and premium cachaca have aging period of at least 1 year. Aged cachacamay have up to 50% of non-aged cachaca using blend process. The premium chacaca has 100%aged cachaca. The extra premium cachaca has a minimum aging period of at least 3 years andcannot contain non-aged cachaca.

As the most famous drinks in the world, whiskeys, brandies and even wines go for oak bar-rels. Cachaca is the only one that uses different woods for this process[2][8]. Each wood givesthe drink a sensory analysis involving the measurement, interpretation and understanding ofhuman responses to the properties perceived by the senses (taste - flavor, smell - aroma, vision -color). However, some woods only fortify the acidity of cachaca and do not interfere with theircolor or taste. The drink remains white and with its distinctive flavor even after properly forti-fied in contact with the wood[2]. Detailed knowledge of the chemical and sensory compositionof cachaca, as well as the maturation time, constitute important factors in controlling beveragequality and evaluation of changes that may contribute to the improvement of production pro-cesses. This knowledge can contribute to the production process especially for small producersand artisan industries.

De Souza[6] uses gas chromatography - olfactometry - to separate and characterize the odorspresent in cachaca and rum, these two products of sugarcane were compared and the patternsidentified from a descriptive sensory analysis. The disadvantage of this method is maintainabil-ity because it has high cost. [7] demonstrates the differentiation between cachaca and rum byusing ionization mass spectrometry. The author used the principal component analysis (PCA),statistical approach in which data are represented by a subset of its eigenvectors, noting thetype of wood (amburana -Amburana cearensis e jequitiba - Cariniana legalis). His work con-tributes to further studies can use this technique for the identification of artisanal and industrialcachaca as well as detection of adulteration by adding caramel and other substances such asdyes.

Recent works use techniques of computer vision, neural networks, genetic algorithms andstatistical methods for food classification. Wan[14] used the computer vision combined withartificial neural networks. A structural and microscopic approach of wines to be classified wasused by analyzing the microstructure and texture, factor that influences the assignment of colorto the sample. Starting from the idea that different wines have microstructural (microscopy)and micrograph (particles) changes, the study aimed at extracting common features to definea pattern. For such, neural networks were used for classifying samples. The presented resultsconfirm that it is possible to classify the wine through its micrograph, allowing the use of thefeatures in other contexts. Boisier[3] uses ΔE based on the CIELab color space in the samplesand demonstrates the grouping according to the tones classified. The proposed goal was to rep-resent the wines’ colors with limited number of colors that were called nuances. The applicationof ΔE aimed at performing a comparison with the HVS model, observing the brightness, chro-maticity and saturation, thus analyzing the color spectrum, sorting and grouping it accordingto tone. The results are encouraging since they permit a precise characterization and reproduc-tion of wine color. The RGB color model is an additive color system consisting of Red (Red)Green (Green), and Blue (Blue). Additive colors are emitted or projected colors. The coloris generated by mixing various greetings light wave, causing a color sensation when it reachesthe eye. RGB formats, also known as true-color, use 8-bits per channel. The CIELab colormodel is a subtractive color system. CIELab describes the basic colors in three qualities: L *is lightness, a * and b * contain chroma information. L * is luminance, density measurementof the intensity of a reflecting light in a given direction. The information a* and b* refers tothe amount of color [9].

Cachaca Classification Rodrigues, Costa, Salvini, Soares, Silva, Caliari, Cardoso and Ribeiro

2025

Page 94: Reconhecimento do tipo de cachaça utilizando visão computacional

Qiongshuai[12] in his analysis shows the gain from using genetic algorithms in lecture andclassification of wines, combined with computer vision. Kruzlicova[10], evaluates data throughan artificial neural network and comparative method use the analysis of variance (ANOVA).Cozzolino[5] proposed to investigate the relationship between sensory analysis, visibility (VIS)and infrared spectroscopy (NIR) to evaluate the sensory properties of commercial varieties ofAustralian wines by using the PCA (Principal Component Analysis).

The methods described in related articles do not address the variety of woods that can beused, as well as aggregate usage of chemical data values obtained by the colorimeter and thereis no relation so far of digital photographs of samples using the RGB color model. Sometimesworks use only the chemical data, other use only data from colorimeter (CIELab color model)and when using chemical data and data from the colorimeter, did not observe the RGB colormodel. The colorimeter is generally described as any instrument that characterizes color sam-ples to get an objective measure of color characteristics. In turn, such equipment is available inresearch laboratories and industries. The relevant point is to make accessible this technologyregardless of the producer. Observing the instrumental methods, cost, maintainability and han-dling are performed by a specialist. With computer methods results can be achieved optimizingtime and resources.

Therefore, this paper proposes a method for classifying the aging process of cachaca in orderto identify the wood and the aging time of a sample. Intersection of information obtained inthe chemical analysis with that extracted from colorimeters will be performed, as well as dataobtained by applying algorithms of images digital processing, digital photographs performed onsamples of cachaca. It is used the technique of artificial neural networks to assess the influenceof types of wood and the time that cachaca aging has in the color model obtained from digitalphotographs (RGB) and colorimeter (CIELab). Two techniques of pattern recognition will beused: neural networks and k-NN (K-Nearest Neighbor).

2 Materials and Methods

2.1 Samples

Cachaca samples with up to 36 months of in casks aging of amburana (Amburana cearensis), oak(Quercus spp) and nut (Bertholletia excelsa H.B.K) were evaluated. The aging time is describedevery 4 months (4-8-12-16-20-24-28-32-36). All samples evaluated are from 4 barrels of eachtimber. Thus, total number of samples to be analyzed are 36 samples per timber. NormativeInstruction No. 13 of MAPA (Ministry of Agriculture, Livestock and Supply)[11] defines onthe classification of Brazilian cachaca into three types: Aged cachaca, premium cachaca, extra-premium cachaca. All types have alcohol content between 38% and 48% by volume at 20◦C.What differs is the type of storage time in cask wood. Aged cachaca has 50% of the samplestored in wooden cask for at least one year. The premium chacaca has in its entirety, aged inwooden cask for at least one year and finally the extra-premium cachaca, in its entirety, agedin wooden cask for a period not less than three years.

The physical and chemical analyses were performed in the laboratories for beverage tech-nology and physicochemical analysis of the School of Agronomy, Federal University of Goias.The determination of pH, density, real alcohol content at 20 oC, volatile, fixed and total acidity,dry extract, phenolic compounds, color and antioxidant activity were performed on times 0, 2,4, 6, 8, 10 and 12, i.e. 2 on 2 months of storage for observing changes during the aging period.The analyses followed the following methodologies:

• pH (Features 4 and 5) - measured with digital potentiometer calibrated at 20◦C;

Cachaca Classification Rodrigues, Costa, Salvini, Soares, Silva, Caliari, Cardoso and Ribeiro

2026

Page 95: Reconhecimento do tipo de cachaça utilizando visão computacional

Wood type Aging time (months) samplesamburana (Amburana cearensis), 4 - 8 - 12 - 16 - 20 - 24 -28 - 32 - 36 36oak (Quercus spp) 4 - 8 - 12 - 16 - 20 - 24 -28 - 32 - 36 36nut (Bertholletia excelsa H.B.K) 4 - 8 - 12 - 16 - 20 - 24 -28 - 32 - 36 36Total 144

Table 1: Samples of cachaca analyzed for up to 36 months of aging time

• density (Features 1 and 2) - based on the relationship between the specific weight of waterat 20◦C using pycnometer or hydrostatic device based on the Archimedes’ principle (inwhich one body immersed in a liquid is subjected to a vertical thrust of the liquid upward,equal to the weight of the displaced fluid);

• Real alcohol content at 20◦C (Feature 7 to 13), volatile, fixed and total acidity and dryextract: were performed according to the Brazilian official methods of analysis for distilleddrinks.

• Total phenolic compounds (Feature 3 to 14) : will be determined according to the officialmethod of analysis of AOAC 952.03 (AOAC, 1997), derived from the standard-curvecalibration with tannic acid with reading at 760nm absorbance.

• Color: will be determined in a ColorQuest II / Hunter Lab color spectrophotometer,adjusted for reflectance with specular included, using the blank No. C6299 of 03/96and sample in bucket of clean glass 10mm-optical path with 1-inch field analysis. Theconfiguration included illuminant D65 and angle of incidence of 10o. The readings wereperformed in the color universal system CIELab with turbidity (homogeneous dispersionof solids in solution) and without turbidity (clear sample). It will be conducted with thereading to determine the color-luminosity coordinates L, a* and b*. The color will alsobe assessed based on information from digital photographs that will be taken of all the144 cachaca samples. The features that influence the color is: Feature 1, 2, 7, 8, 9, 10,11, 12 and 13.

• total aldehydes (Features 6 to 14) and esters (Feature 3) and isoamyl (Feature 10), isobutyl(Feature 9) and n-propyl (Feature 8) higher alcohols: were determined in a gas chro-matograph Shimadzu GC-17A equipped with automatic injection, automatic ionizationdetector, flame ionization detector and capillary column DB-VAX (30m x 0.25 mm x 0.25mm). In determining the compounds concentration were performed the area method andcalibration with external standards.

• Testing of antioxidant activity in vitro (Feature 3 to 14): were determined by the methoddescribed by Brand-Williams, Cuvelier, and Berset[4]. This method is based on the DPPHstable radical from the reaction medium by the action of antioxidants in the sample.

In the analysis is shown the attributes to be used in the model. The attributes are de-scribeda in the table 2.

Cachaca Classification Rodrigues, Costa, Salvini, Soares, Silva, Caliari, Cardoso and Ribeiro

2027

Page 96: Reconhecimento do tipo de cachaça utilizando visão computacional

(a)

Chemical Features descriptionFeature 1 Apparent AlcoholFeature 2 Real AlcoholFeature 3 Total EstersFeature 4 Ethyl AcetateFeature 5 Ethyl LactateFeature 6 AldehydesFeature 7 Total Alcohols

(b)

Chemical Features descriptionFeature 8 n-propylFeature 9 IsobutanolFeature 10 IsoamylFeature 11 1-ButanolFeature 12 2-ButanolFeature 13 Methyl AlcoholFeature 14 Furfural

Table 2: Representation of Chemical features with their respective numbers and description

2.2 Computer vision system

Subsequently, samples were photographed by digital camera Canon EOS REBEL XS withsetting ISO 100, aperture to 4.0mm and configured for RAW image that contains all of theimage data as captured by the camera sensor format. The ambient light to photograph thesamples was controlled by a device which allows the incidence of light in the opposite positionto the lens of the camera. A special filter will prevent reflections in the liquid and will allowthe capture of a digital image suitable for processing.

Figure 1: Computer Vision System

Figure 1 shows the project of the device designed to be used in this work, a technique inspiredby Sun[13] in his work for bovine meat classification. The device measures were 50cm2, withtranslucent filter of 30cm2, opening digital camera 10cm2 radius. The purpose of the deviceis to control the environment of digital photography for better absorption of colors of thetarget object, in this context the cachaca, in order to observe a correlation between the colorcharacteristics obtained by the colorimeter (model CIELab L* a* b* - Lightness, redness andyelowness) and the RGB model (Red, Green and Blue). Afterwards, assign white balance, aprocess for removal of unreal colors, so that making white objects that appear being whiteto our eyes. The color balance is previously made, both in photography and film, to digitalphotography. The color balance is related to neutrality and should not be confused with colorbalance that painters and designers often apply for matching colors.

The representation of the properties used in the model RGB and CIELab shown in thetable:

As in chemical analysis, the properties of the CIELab and RGB color models have beennamed and separated for use in the classifier.

Cachaca Classification Rodrigues, Costa, Salvini, Soares, Silva, Caliari, Cardoso and Ribeiro

2028

Page 97: Reconhecimento do tipo de cachaça utilizando visão computacional

(a)

CIELab Features descriptionFeature 15 LightnessFeature 16 RednessFeature 17 Yelowness

(b)

RGB Features descriptionFeature 18 Color RedFeature 19 Color GreenFeature 20 Color Blue

Table 3: Representation of CIELab features (a) and RGB features (b) with their respectivenumbers and description

2.3 Pattern Recognition Algorithms

In this work is proposed the use of two algorithms for pattern recognition: artificial neuralnetwork and k-NN. Both techniques use supervised learning type.

Artificial Neural Networks (ANN) are mathematical models for data analysis inspired inneuronal structures of the brain. It is a connectionist model, with great power to solve complexand non-linear problems, with application in several areas. A multilayer perceptron neuralnetwork (MLP) with 11 neurons in the hidden layer will be used. The training algorithm usedwas backpropagation.

Another method used is the k-NN (k-Nearest Neighbor). Lazy type supervised learningtechnique, introduced by Aha[1]. The general idea of this technique is to find the k closestlabeled examples to that unlabeled; based on the labeling of the closest examples the decisionon the class of unlabeled example is made. The size of k in this work is 1 using the Euclideandistance.

Due to the limited number of samples, the cross-validation technique was used to measurethe accuracy of classifiers. In this technique, samples are divided into n mutually exclusivepartitions. At each iteration a different partition is used to test the classifier and all the othersn-1 partitions are used to train the classifier. The hit rate and error is the average of all ratescalculated for the n iterations. In this work we used the n equal to 10.

3 Results and discussion

The pool of colorimeter information, chemical analysis and digital photographs at the entranceof the classifiers was carried out. Two pattern recognition algorithms were used: neural networksand k-NN (k-Nearest Neighbor).

In the first experiment is used as attributes only the chemical information, i.e. withoutusing the information from colorimeter and RGB model for identification of the aging time andwood. The results are shown in Table 4.

Problem Aging time Wood typehits(%) 94.44% 96.26%errors(%) 5.56% 3.74%

Table 4: Recognition results of chemical fea-tures in neural network.

Problem Aging time Wood typehits(%) 83.33% 95.33%errors(%) 16.67% 4.67%

Table 5: Recognition results of chemical fea-tures in k-Nearest Neighbor.

According to the results, both classifiers considered achieved high success rate using thedata of chemical analysis. The only caveat presented is that the result for the classification ofthe aging time using the k-NN obtained a relatively lower rate of accuracy (83.33%).

Cachaca Classification Rodrigues, Costa, Salvini, Soares, Silva, Caliari, Cardoso and Ribeiro

2029

Page 98: Reconhecimento do tipo de cachaça utilizando visão computacional

Besides chemical attributes, variables that make use of color information were measuredusing the CIELab and RGB color model. Figure 2 shows the Fisher discriminative capacity forchemical attributes, RGB and CIELab to the problem of classifying the type of wood and agingtime. As one can see, the attributes related to color information have more discriminability tothe problem of wood classification. The attributes 16 and 20 have the highest discriminability.For the problem of aging time classification is possible to note from the Figure 2(b) that theattributes of greatest discriminability are related to chemical data. Information related tocomputer vision system has low discriminability to the problem. It is noteworthy that theFisher’s discriminability considers the attribute of univariate analysis, thus the use of the mostdiscriminative attributes does not imply a good classification model.

0 5 10 15 200

1

2

3

4

5

6

Features

Fis

her

Dis

crim

inab

ility

Chemical Features

CIELAB

RGB

(a) Fisher discriminability of class wood type

0 5 10 14 18 210

0.2

0.4

0.6

0.8

1

1.2

1.4

Features

Fis

her

Dis

crim

inab

ility

Chemical Features

CIELAB

RBG

(b) Fisher discriminability of class aging time

Figure 2: The Fisher Discriminability in wood type and aging time problem, using chemicalfeatures, color model CIELab and RGB. In Wood type problem the CIELab and RBG featureshas major discriminability as showed in (a). However, in aging time problem the chemicalfeatures the chemical features has the major discriminability as showed in (b).

From the calculated discriminability, the two most discriminative variables for each prob-lem considered for viewing a scatterplot of objects for the problems of wood and aging timeclassification were used. Figure 3(a) shows that the classification of the wood type is a simplerproblem than the aging time classification observed in Figure 3(b).

−2 −1.5 −1 −0.5 0 0.5 1 1.5−2.5

−2

−1.5

−1

−0.5

0

0.5

1

1.5

B (Feature 20)

A (

Fea

ture

16)

Amburana cearensisQuercus sppBertholletia excelsa

(a)

−2 −1.5 −1 −0.5 0 0.5 1 1.5 2−3

−2

−1

0

1

2

3

Lactato Etila (Feature 5)

2 B

uta

no

l (F

ea

ture

12

)

Aged Cachaça

Premium Cachaça

Extra Premium Cachaça

(b)

Figure 3: Object disperison in wood type(a) and aging time(b) pattern recogntion problems.

Verified that the information may contain relevant details to the problems considered, an

Cachaca Classification Rodrigues, Costa, Salvini, Soares, Silva, Caliari, Cardoso and Ribeiro

2030

Page 99: Reconhecimento do tipo de cachaça utilizando visão computacional

experiment was performed using only the attributes of RGB and CIELab in the classifiersconsidered without the use of chemical attributes. The results are shown in Tables 6 and 7.

Problem Aging time Wood typehits(%) 52.78% 97.20%errors(%) 47.22% 2.80%

Table 6: Recognition results of color modelCIELab and RGB in neural network withoutchemical features.

Problem Aging time Wood typehits(%) 44.44% 98.13%errors(%) 55.56% 1.87%

Table 7: Recognition results of color modelCIELab and RGB in k-NN without chemicalfeatures.

Satisfactory results for the problem of wood classification can be obtained by using only theattributes of the Computer Vision System (RGB and CIELab features) system. However, forthe problem of aging time classification the results for both classifiers have a bad hit rate.

From the observation that the information related to colors may contain useful informationabout the classification problem considered in this paper, a new experiment was performedusing the chemical attributes from the CIELab color model.

Problem Aging time Wood typehits(%) 91.67% 100.00%errors(%) 8.33% 0.00%

Table 8: Recognition results of chemical fea-tures using color model CIELab in neural net-work.

Problem Aging time Wood typehits(%) 86.11% 97.19%errors(%) 13.89% 2.81%

Table 9: Recognition results of chemical fea-tures using color model CIELab in k-NN.

From the results of Tables 8 and 9, one can see that the classifier achieved high success rateusing chemical information associated with the CIELab attributes. Both classifiers consideredachieved high success rate compared to the classification result of tables 4 and 5. There wasimprovement in the success rate for the problem of wood classification for both classifiers. Inthe problem of aging type classification, there was improvement only in the k-NN classifier.

In the third experiment were used chemical attributes, the attributes of the RGB andCIELab.

Problem Aging time Wood typehits(%) 97.22% 100.00%errors(%) 2.78% 0.00%

Table 10: Recognition results of chemical fea-tures using color model CIELab and RGB inneural network.

Problem Aging time Wood typehits(%) 88.89% 100.00%errors(%) 11.11% 0.00%

Table 11: Recognition results of chemical fea-tures using color model CIELab and RGB ink-NN.

According to the results shown in Tables 10 and 11, the problem of wood type classificationshowed 100% accuracy for both classifiers considered. The result for the aging time classificationshowed improvement in the accuracy rate for the k-NN classifier (88.89%) and also improvementto the neural network (97.22%). Table 12 shows the neural network confusion matrix for theclassification problem of aging time. The only classifier error was to indicate a sample ofPremium cachaca and Extra Premium cachaca.

Cachaca Classification Rodrigues, Costa, Salvini, Soares, Silva, Caliari, Cardoso and Ribeiro

2031

Page 100: Reconhecimento do tipo de cachaça utilizando visão computacional

Aging time Aged Cachaca Premium Cachaca Extra Premium CachacaAged Cachaca 12 0 0Premium Cachaca 0 11 1Extra Premium Cachaca 0 0 12

Table 12: Confusion matrix of aging time generated by neural network.

4 Conclusion

This paper proposed the use of pattern recognition algorithms to identify the type of wood andaging time of cachaca samples. From the results it was observed that for the wood classificationproblem was possible to obtain classifiers with 100% accuracy. Still to this problem, it was foundthat the use of computer vision system only, without the use of chemical information is sufficientto identify the wood type with high accuracy rate. For the problem of aging time classification,the best result (97%) was obtained by a neural network using the chemical information and theinformation from the computer vision system.

References

[1] D. Aha and D. Kibler. Instance-based learning algorithms. Machine Learning, 6:37–66, 1991.

[2] Francisco W. B. Aquino, Ronaldo F. Nascimento, Sueli Rodrigues, and Antonio Renato S.Casemiro. Determinacao de marcadores de envelhecimento em cachacas. Food Science and Tech-nology (Campinas), 26:145 – 149, 03 2006.

[3] B. Boisier, A. Mansouri, P. Gouton, and P. Trollat. Wine color characterization and classificationfor nuances reproduction. In Signal-Image Technology Internet-Based Systems (SITIS), 2009 FifthInternational Conference on, pages 93–98, 2009.

[4] W. Brand-Williams, M.E. Cuvelier, and C. Berset. Use of a free radical method to evaluateantioxidant activity. {LWT} - Food Science and Technology, 28(1):25 – 30, 1995.

[5] D. Cozzolino, G. Cowey, K.A. Lattey, P. Godden, W.U. Cynkar, R.G. Dambergs, L. Janik, andM. Gishen. Relationship between wine scores and visible-near-infrared spectra of australian redwines. Analytical and Bioanalytical Chemistry, 391(3):975–981, 2008.

[6] Maria D. C. A. de Souza, Pablo Vasquez, Nelida L. del Mastro, Terry E. Acree, and Edward H.Lavin. Characterization of cachaca and rum aroma. Journal of Agricultural and Food Chemistry,54(2):485–488, 2006. PMID: 16417309.

[7] Patterson P. de Souza, Daniella V. Augusti, Rodrigo R. Catharino, Helmuth G. L. Siebald, Mar-cos N. Eberlin, and Rodinei Augusti. Differentiation of rum and brazilian artisan cachaca via elec-trospray ionization mass spectrometry fingerprinting. Journal of Mass Spectrometry, 42(10):1294–1299, 2007.

[8] J. B. Faria, D. W. Franco, and J. R. Piggott. The quality challenge: cachaca for export in the 21stcentury. In Distilled spirits: tradition and innovation 2004, pages 215–221. Nottingham UniversityPress, Nottingham, UK, 2004.

[9] Rafael C. Gonzalez and Richard E. Woods. Digital Image Processing (3rd Edition). Prentice-Hall,Inc., Upper Saddle River, NJ, USA, 2006.

[10] Dasa Kruzlicova, Jan Mocak, Branko Balla, Jan Petka, Marta Farkova, and Josef Havel. Classi-fication of slovak white wines using artificial neural networks and discriminant techniques. FoodChemistry, 112(4):1046 – 1052, 2009.

[11] MAPA Ministerio da Agricultura, Pecuaria e Abastecimento. Instrucao normativa no 13,de 29 de junho de 2005. [online], January 2014. http://extranet.agricultura.gov.br/

sislegis-consulta/servlet/VisualizarAnexo?id=14175.

Cachaca Classification Rodrigues, Costa, Salvini, Soares, Silva, Caliari, Cardoso and Ribeiro

2032

Page 101: Reconhecimento do tipo de cachaça utilizando visão computacional

[12] Lv Qiongshuai and Wang Shiqing. A hybrid model of neural network and classification in wine. InComputer Research and Development (ICCRD), 2011 3rd International Conference on, volume 3,pages 58–61, 2011.

[13] X. Sun, H. J. Gong, F. Zhang, and K. J. Chen. A digital image method for measuring andanalyzing color characteristics of various color scores of beef. In Image and Signal Processing,2009. CISP ’09. 2nd International Congress on, pages 1–6, 2009.

[14] Yi Wan, Xingbo Sun, and Rong Guo. Shape and structure features based chinese wine classi-fication. In Computational Intelligence and Natural Computing, 2009. CINC ’09. InternationalConference on, volume 2, pages 39–43, 2009.

Cachaca Classification Rodrigues, Costa, Salvini, Soares, Silva, Caliari, Cardoso and Ribeiro

2033

Page 102: Reconhecimento do tipo de cachaça utilizando visão computacional

APÊNDICE BArtigo publicado no X Workshop de VisãoComputacional - Qualis B5

Artigo publicado no WVC 2014 | X Workshop de Visão Computacional. Noestudo foi explorado o uso da LDA e QDA na classificação da cachaça para os problemasdo tipo de madeira e tempo de envelhecimento.

Page 103: Reconhecimento do tipo de cachaça utilizando visão computacional

Cachaça type identification using color informationand computer vision

Bruno Urbano Rodrigues∗, Ronaldo Martins da Costa∗, Rogerio Salvini∗, Anderson da Silva Soares∗,Flávio Alves da Silva†, Márcio Caliari†, Karla Cristina R. Cardoso† e Tânia Isabel M. Ribeiro‡

∗Instituto de InformáticaUniversidade Federal de Goiás

Email: [email protected], [email protected],[email protected], [email protected]

†Escola de Agronomia e Engenharia de AlimmentosUniversidade Federal de Goiás

Email: [email protected], [email protected], [email protected]‡Escola Superior Agrária

Instituto Politécnico de BragançaEmail: [email protected]

Abstract—Cachaça is a type of distilled drink from sugarcanewith great economic importance. Its classification includes threetypes: aged, premium and extra premium. These three classi-fications are related to the aging time of the drink in woodencasks. Besides the aging time, it is important to know what kindof wood were used in the barrel storage in order to inform thecorrect properties for each drink. This paper shows a method forautomatic recognition of wood type using color information froma computer vision system. The results showed that informationcolor have relevant information to identify a cachaça. It’s a bettermethod when compare chemical features method. In the studycase using two classifiers, LDA (Linear Discriminant Analysis)and QDA (Quadratic Discriminant Analysis). Comparing bothclassifiers, the LDA and QDA had 98.13% and 99.03% ofaccuracy, respectively, using just color information.

I. INTRODUÇÃO

A cachaça é o destilado mais consumido entre as bebidasalcoólicas brasileiras. É um tipo de bebida especial produzidaa partir da cana-de-açucar (Saccharum sp) similar ao rum. Temcomo diferencial o uso de diferentes tipos de madeira em seuprocesso de envelhecimento.

O envelhecimento consiste em armazenar a cachaça embarris ou tonéis de madeira por um tempo determinado. Talprocesso produz alterações na composição química, no aroma,no sabor e na cor da bebida [1]. A legislação classifica acachaça em três tipos: cachaça envelhecida, cachaça premiume cachaça extra premium. A diferença entre os tipos estárelacionado ao quantitativo de armazenagem e ao tempo dearmazenamento. A cachaça envelhecida e a cachaça premiumtem período de envelhecimento de no mínimo 1 ano. Nacomposição da cachaça envelhecida 50% deve ser envelhecidae os outros 50% utiliza-se de cachaça não-envelhecida atravésdo processo chamado blend, onde é realizada mistura decachaças. Por sua vez a cachaça premium possui 100% decachaça envelhecida. A cachaça extra-premium tem períodode envelhecimento de no mínimo 3 anos e contém somentecachaça envelhecida. Diferentemente das bebidas mais famosasdo mundo como uísques, brandies e vinhos que são armazena-dos somente em barris de carvalho, a cachaça é a única que usa

diferentes madeiras para o processo de envelhecimento[1][2].Cada madeira confere à bebida uma análise sensorial queenvolve a medição, interpretação e compreensão das respostashumanas para as propriedades percebidas pelos sentidos (pal-adar - sabor, olfato - aroma, visão - cor). O conhecimentodetalhado da composição química e sensorial da cachaça, bemcomo o tempo de maturação constituem fatores importantesno controle de qualidade da bebida e avaliação das altera-ções que possam contribuir para a melhoria de processos deprodução.[1]

A. Trabalhos correlatos

Nesta seção apresentamos alguns trabalhos correlatos aclassificação e caracterização de destilados que abrangem osseguintes temas: cromatografia gasosa, espectrometria, visãocomputacional, redes neurais, algoritmos genéticos, análisediscriminante e análise de componentes principais.

O trabalho de De Souza[3] utilizou cromatografia gasosa -olfatometria - para separar e caracterizar os odores presentesna cachaça e rum. Estes dois produtos de cana de açúcarforam comparados e os padrões identificados a partir de umaanálise sensorial descritiva. A desvantagem da utilização destemétodo é manutenibilidade, pois possui alto custo. Augusti[4]demostrou a diferenciação entre cachaça artesanal e o rumutilizando espectrometria de massa por ionização. Utilizou aanálise de componentes principais (PCA), abordagem estatís-tica na qual os dados são representadas por um subconjuntode seus autovetores, observando tipo de madeiras (amburana-Amburana cearensis e jequitibá - Cariniana legalis). Seutrabalho contribui para que novos estudos possam utilizar destatécnica para a identificação de cachaças artesanais e industriaisbem como a detecção de adulterações pela adição de carameloe outras substâncias como corantes.

Wan[5] utilizou a visão computacional combinada comredes neurais artificiais. Foi utilizada uma abordagem à nívelestrutural e microscópico dos vinhos a serem classificados,por meio da análise da microestrutura e características datextura, fator que influencia na atribuição da cor à amostra.

X Workshop de Visao Computacional - WVC 2014 45

Page 104: Reconhecimento do tipo de cachaça utilizando visão computacional

Partindo da idéia de que os diferentes vinhos têm variaçãona microestrutura(microscopia) e micrografias(partículas), oestudo objetivou a extração de características em comumpara delimitar um padrão. Para tal, utilizaram redes neuraispara a classificação das amostras. Os resultados apresentadosconfirmam que é possível a classificação do vinho através dasua micrografia, possibilitando a utilização das característicaem outros contextos.

Manuel[6] utiliza método baseado na análise discriminantequatrática(QDA) combinado com a transformada quadrádicade Fisher para a classificação de vinhos. A análise discrimi-nantes quadrática é utilizada como esquema de classificaçãoe para fins de comparação foi usado outros três métodosde extração de características: transformada linear de Fisher,transformada de Fourier e transformada Wavelet. Em seusresultados foi apresentado ganho na utilização da discriminantequadrática como método de classificação combinada com atransformada de Fisher para a extração de características dovinho.

Boisier[7] utiliza o ∆E baseado no espaço de coresCIELab nas amostras e demostra o agrupamento de acordocom as tonalidades classificadas. O ∆E mede a distânciaentre duas cores utilizando a métrica euclidiana. O objetivoproposto foi representar as cores dos vinhos com númerolimitado de cores que foram chamadas de nuances. A aplicaçãodo ∆E objetivou realizar um comparativo com o modelode cor HVS (hue, saturation e value), observando o brilho,cromaticidade e saturação. Assim, analisar o espectro de cor,classificar e agrupar de acordo com a tonalidade. Os resultadosobtidos são encorajadores na medida em que permitem umacaracterização exata e reprodução da cor do vinho. O modelode cor RGB é um sistema de cores aditivas formado porVermelho (Red), Verde (Green) e Azul (Blue). Cores aditivassão cores emitidas ou projetadas. A cor é gerada pela misturade vários cumprimentos de onda luminosa, provocando umasensação de cor quando atinge o olho. Formatos RGB, tambémconhecidos por true-color, usam 8-bits por canal. O modelo decor CIELab é um sistema de cores subtrativo. CIELab descreveas cores básicas em três qualidades: L* é luminosidade,a* e b* contem a informação de croma. L* é luminância,medida da densidade e intensidade de uma luz refletida numadada direção. As informações a* e b*, referem-se ao valordas cores[8]. Qiongshuai[9], em sua análise demonstra oganho da utilização de algoritmos genéticos na preleção eclassificação de vinhos, combinada com visão computacional.Kruzlicova[10], avalia dados por meio de uma rede neuralartificial e para método comparativo utiliza a análise de var-iância (ANOVA). Cozzolino[11] propôs investigar a relaçãoentre a análise sensorial, visibilidade (VIS) e espectroscopia deinfravermelho (NIR) para avaliar as propriedades sensoriais devariedades comerciais de vinhos australianos utilizando PCA.

Os métodos descritos nos artigos relacionados não abor-dam a multiplicidade de madeiras que podem ser utilizadas,bem como o uso agregado dos valores de dados químicos,valores obtidos pelo colorímetro e não há relação, até então,de fotografias digitais das amostras utilizando-se do modelode cor RGB. Ora os trabalhos utilizam apenas os dadosquímicos, ora utilizam apenas os dados do colorímetro (modelode cor CIELab). Quando utilizam dados químicos e dadosdo colorímetro, não observam o modelo de cor RGB. O

colorímetro é um equipamento que caracteriza amostras decores para obter uma medida objetiva das características dacor. Este equipamento geralmente está disponível somenteem laboratórios de pesquisa e indústrias. Um ponto relevanteé tornar acessível esta tecnologia independente do produtor.Observando os métodos instrumentais, o custo, a manutenibil-idade e manuseio é feito por um especialista. Com os métodoscomputacionais pode-se trazer resultados otimizando tempo erecursos para quaisquer usuário seja ele um especialista ouprodutor.

Portanto, neste trabalho é proposto um método de clas-sificação de amostras de cachaça armazenadas em tipos demadeiras diferentes a fim de definir a identidade da cachaçabaseado em suas características de cor. Sendo assim, catalogarcores a partir da madeira na qual a cachaça foi armazenada.Será realizado cruzamento das informações obtidas na análisequímica, nas informações extraídas de colorímetros bem comodados obtidos através da aplicação de algoritmos de proces-samento digital de imagens, executados sobre as fotografiasdigitais de amostras da cachaça. Foi utilizada a técnica deAnálise de Componentes Principais (PCA), para tratar proble-mas de mal condicionamento de variáveis e são utilizados 2classificadores: Análise Discriminante Linear(LDA) e AnáliseDiscriminante Quadrática(QDA).

II. MATERIAIS E MÉTODOS

A. Amostras

Foram avaliadas amostras de cachaça com até 36 meses deenvelhecimento em tonéis de Amburana (Amburana cearensis),Carvalho (Quercus spp) e Castanheira (Bertholletia excelsaH.B.K) . O tempo de envelhecimento foi acompanhado acada 4 meses e as amostras avaliadas são de 4 tonéis paracada tipo de madeira. Desta maneira o total de amostras queserão analisadas são de 36 amostras por madeira conforme édemostrado na Tabela I.

Madeira Amostras (meses) Totalamburana(Amburana cearensis), 4 - 8 - 12 - 16 - 20 - 24 - 28 - 32 - 36 36carvalho(Quercus spp) 4 - 8 - 12 - 16 - 20 - 24 - 28 - 32 - 36 36castanheira(Bertholletia excelsa H.B.K) 4 - 8 - 12 - 16 - 20 - 24 - 28 - 32 - 36 36Total de amostras 108

Tabela I: Amostras de cachaça analisadas no período de 36meses.

As análises físicas e químicas foram realizadas nos labo-ratórios de tecnologia de bebidas e de análise físico-químicas,da Escola de Agronomia da Universidade Federal de Goiás.Estas análises seguem parâmetros estabelecidos pela InstruçãoNormativa no 13 do MAPA (Ministério da Agricultura,Pecuária e Abastecimento)[12] que define diretrizes sobre oconsumo e comercialização.

A determinação do pH, densidade, teor alcoólico real a20oC, acidez volátil fixa e total, extrato seco, compostosfenólicos, cor e atividade antioxidante foram realizadas nostempos 0, 2, 4, 6, 8, 10 e 12, ou seja, de 2 em 2 mesesde armazenamento para que fossem observadas as alterações,

X Workshop de Visao Computacional - WVC 2014 46

Page 105: Reconhecimento do tipo de cachaça utilizando visão computacional

durante o período de envelhecimento. Na análise foram levan-tados os atributos a serem utilizados no modelo. Os atributossão descritos na Tabela II.

Descrição dos atributos químicosAtributo 1 Álcool AparenteAtributo 2 Álcool RealAtributo 3 Esteres TotaisAtributo 4 Acetato EtilaAtributo 5 Lactato EtilaAtributo 6 AldeídosAtributo 7 Alcoois Totais

Descrição dos atributos químicosAtributo 8 n-propilAtributo 9 IsobutanolAtributo 10 IsoamílicoAtributo 11 1-ButanolAtributo 12 2-ButanolAtributo 13 Álcool MetílicoAtributo 14 Furfural

Tabela II: Atributos químicos extraídos da análise das amostras

B. Sistema de visão computacional

Por seguinte, as amostras foram fotografadas pela câmeradigital Canon EOS REBEL XS com configuração de ISO 100,abertura a 4.0mm e formato de imagem configurada para RAWque contém a totalidade dos dados da imagem tal como captadapelo sensor da câmera fotográfica. A luz do ambiente parafotografar as amostras foi controlada através de um dispositivoque permite a incidência da luz na posição contrária à lente dacâmera fotográfica. Um filtro especial foi utilizado para evitarreflexos no líquido e permitir a captura de uma imagem digitaladequada para o processamento.

Figura 1: Sistema para captura das fotografias digitais

A Figura 1 apresenta o projeto do dispositivo desenvolvidoque foi utilizado neste trabalho. A técnica foi inspirada porSun[13] em seu trabalho de classificação de carne bovina. Oobjetivo do dispositivo é controlar o ambiente da fotografiadigital para uma melhor absorção das cores do objeto alvo,neste contexto a cachaça, com o propósito de observar umacorrelação entre as características de cores obtidas pelo col-orímetro (modelo CIELab L*a*b* - Lightness, redness andyelowness) e da câmera digital (modelo RGB) (Red, Greenand Blue).

Descrição dos atributos para CIELabAtributo 15 LightnessAtributo 16 RednessAtributo 17 Yelowness

Descrição dos atributos para RGBAtributo 18 RedAtributo 19 GreenAtributo 20 Blue

Tabela III: Representação dos atributos para os modelos decores CIELab(a) e RGB(b) com seus respectivos números edescrição.

Acima é apresentado as propriedades utilizadas no modeloCIELab e RGB apresentadas. Assim como na análise química,as propriedades do modelo de cor CIELab e RGB foramnomeadas e separadas para serem utilizadas no classificador.

C. Validação cruzada

Para validação do modelo obtido usou-se procedimentode validação cruzada (cross-validation), técnica que avaliaa capacidade de generalização de um modelo, a partir deum conjunto de dados.[14] Devido ao número limitado deamostras, a técnica de validação cruzada foi utilizada para semedir a acurácia dos classificadores. Envolve o uso de umaúnica observação a partir da amostra original, como os dadosde validação e dados de treinamento. Neste trabalho utilizou-seo método chamado leave-and-out, onde n é igual ao númerototal de dados(N). Isto é, são construídos n classificadores,onde n é o número de exemplos de treinamento e aproveita-seao máximo os dados e não envolve sub-amostragem aleatória.

D. Análise de Componentes Principais

O método para extração de características utilizado foi a aanálise de componentes principais (PCA). Técnica da estatís-tica multivariada que consiste em transformar um conjunto devariáveis originais em outro conjunto de variáveis de mesmadimensão denominadas de componentes principais A análisede componentes principais é associada à redução de um con-junto de variáveis, com menor perda possível da informação,onde os componentes principais é uma combinação linearde todas as variáveis originais. São independentes entre si eestimados com o propósito de reter, em ordem de estimação,o máximo de informação, em termos da variação total contidanos dados.[15]

E. Classificadores utilizados

Para a classificação das amostras de cachaça foi utilizadaa Análise Discriminante Linear (LDA - Linear Discrimi-nant Analysis) e Análise Discriminante Quadrática (QDA -Quadratic Discriminant Analysis). O objetivo de ambas consiteem obter funções matemáticas capazes de classificar um objetoem uma de suas classes, com base nas características consi-deradas, buscando minimizar a probabilidade de classificaçãoerrada.

Na análise discriminante linear considera que a diferençaentre as classes está relacionada apenas com o vetor média dasclasses, visto que a matriz de covariância é igual para todas asclasses. A fronteira de decisão fica definida por uma funçãolinear e uma razoável acurácia pode ser obtida, desde que hajauma diferença razoável entre os vetores média de cada classe.Se os vetores médias forem muito próximos ou quase iguais,o classificador linear fornecerá resultados pobres. Por sua vez,a análise discriminante quadrática estima que cada classe temvetor média e matriz de covariâncias próprios, resultando emfunções de decisão quadráticas[16][17]. A métrica utilizada foia distância de Mahalanobis que difere da distância Euclidianapor levar em consideração a correlação entre os conjutos dedados.

F. Resultados e discussão

Foram realizados experimentos para verificar quais infor-mações são mais importantes para o problema de classificaçãodo tipo de madeira para o envelhecimento de cachaça. Asinformações obtidas pelo estudo foram divididas em duaspartes: dados químicos e dados de informações do modelo decores (CIELab e RGB).

X Workshop de Visao Computacional - WVC 2014 47

Page 106: Reconhecimento do tipo de cachaça utilizando visão computacional

−6 −5 −4 −3 −2 −1 0 1 2 3−4

−3

−2

−1

0

1

2

3

1º Componente Principal (53,1%)

Co

mp

on

en

te P

rin

cip

al (1

8,7

%)

Amburana cearensis (amburana)

Quercus spp (carvalho)

Bertholletia excelsa (castanheira)

Figura 2: Gráfico de dispersão de objetos utilizando as duascomponentes principais de maior variância

A Figura 2 apresenta a dispersão dos objetos das 3 classesconsideradas projetadas sobre as 2 primeiras componentesprincipais de maior variância. As componentes principaisforam calculadas sobre todas as variáveis disponíveis, isto é,dados químicos e dados de informação de cor referenciadosna Tabela II e Tabela III. É possível observar que o uso decomponentes principais não permite uma boa discriminizaçãodas classes, visto que há uma sobreposição entre os objetosde diferentes classes. Para os dois grupos de dados medidos,foi calculada a discriminabilidade de Fisher univariada. Talmedida indica o quanto uma variável discrimina as classesconsideradas. O resultado é apresentado na Figura 3.

0 5 10 15 200

1

2

3

4

5

6

Atributos

Dis

cri

min

ab

ilid

ad

e d

e F

ish

er

Atributos químicos

CIELAB

RGB

Figura 3: Discriminabilidade de Fisher utilizando atributosquímicos, modelo de cores CIELab e RGB para o problemade classificação do tipo de madeira para envelhecimento decachaça.

Como se pode notar os atributos relacionados a informaçãode cor tem maior discriminabilidade para o problema declassificação do tipo de madeira. Vale ressaltar que a discrimi-nabilidade de Fisher considera o atributo de forma univariada,assim o uso dos atributos de maior discriminabilidade nãoimplica em um bom modelo de classificação.

Identificados os atributos de maior discriminabilidade(Atributos 16 e 20), conduziu-se os experimentos utilizando

classificador discriminante linear e quadrático. Para cada clas-sificador foi utilizado atributos químicos e informações dosmodelos de cores. Ao analisar a taxa de acerto das análisesdiscriminantes na Tabela IV, foi verificado que a análisediscriminante quadrática (QDA), obteve o melhor resultado(99,06%) utilizando dados de informações do modelo de cores(CIELab e RGB).

Usando atributos químicosLDA QDA

Taxa de acerto(%) 93,45% -*número de erros 7 -

Usando modelo de coresLDA QDA

Taxa de acerto(%) 98,13% 99,06%número de erros 2 1

Tabela IV: Taxa de acerto para as análises discriminantes lineare quadrática

*Não foi possível obter os resultados do classificador de análise discriminante quadrática(QDA) utilizando atributos químicos em razão da presença de colineariedade dos atributosconsiderados e que não permitiu a inversão da matriz de covariância que é utilizada naconstrução do classificador.

Uma das vantagens do uso de classificadores como deanálise discriminante é a possibilidade de extrair o conhe-cimento acerca de como a classificação é realizada. Nestecaso em particular é possível visualizar as fronteiras de de-cisão geradas pelo classificador através de hiperplanos. Oshiperplanos dividem o espaço em diversas regiões e estasdivisões determinam a fronteira de decisão que distingue asclasses. Para que os hiperplanos consigam separar as classescorretamente, não pode haver pontos de classes distintas numamesma região.

−5 −4 −3 −2 −1 0 1−50

0

50

100

150

200

250

300

Atributo 16

Atrib

uto

20

Amburana cearensis (classe 1)

Quercus spp (classe 2)

Bertholletia excelsa (classe 3)

Fronteira entre as classes 1 e 2

Fronteira entre as classes 1 e 3

Fronteira entre as classes 2 e 3

Figura 4: Gráfico de dispersão de objetos com hiperplano deseparação de classes obtidos por discriminante linear

Na Figura 4 é apresentado 3 hiperplanos e 3 classes quecorrespondem as madeiras Amburana (classe 1 - Amburanacearensis), Carvalho (classe 2 - Quercus spp) e Castanheira(classe 3 - Bertholletia excelsa H.B.K). O hiperplano de corvermelha faz a separação entre as classes 1 e 2, o hiperplano decor azul faz a separação entre as classes 1 e 3, e o hiperplandode cor preta faz a separação entre as classes 2 e 3. Nota-seque os hiperplanos mostram que as classes são linearmentesseparáveis, pois não há sobreposição das classes identificadasnas fronteiras de decisão.

X Workshop de Visao Computacional - WVC 2014 48

Page 107: Reconhecimento do tipo de cachaça utilizando visão computacional

Posteriormente foi realizado experimento utilizando aanálise discriminante quadrática. Com a análise discriminantequadrática, pode-se utilizar além de hiperplanos, elipsóidesdeterminando regiões de classes mais precisas. Na Figura 5,são identificadas três regiões segmentadas por hiperplanos,cada qual apresenta as classes identificadas. O hiperplano decor vermelha faz a distinção entre as classes 1 e 2, seu traçadoé linear pois o seu componente quadrático é igual a zero.Diferente dos hiperplanos de cor azul e preta. O hiperplandoazul distingue as classes 1 e 3, e neste cenário há umamaior delimitação da região que identificada a classe 3. Nohiperplano de cor preta a distinção está para as classes 2 e 3.

−5 −4 −3 −2 −1 0 1−50

0

50

100

150

200

250

300

Atributo 16

Atrib

uto

20

Amburana cearensis (classe 1)

Quercus spp (classe 2)

Bertholletia excelsa (classe 3)

Fronteira entre as classes 1 e 2

Fronteira entre as classes 1 e 3

Fronteira entre as classes 2 e 3

Figura 5: Gráfico de dispersão de objetos com hiperplanode separação de classes obtidos por discriminante linearquadrática

Fazendo um comparativo entre as fronteiras observadas nasfiguras 4 e 5, nota-se que o classificador de discriminantequadrático gerou uma fronteira de área menor para a classe 3.Tal resultado é explicado em razão da discriminante quadráticautilizar matrizes de covariâncias individuais para cada classeo que permite que a dispersão dos objetos seja considerada deforma individual, ao contrário do discriminante linear.

G. Conclusão

O artigo proposto demostra que a utilização de informaçõesde cores para o problema de identificação do tipo de madeirapara classificação de amostra de cachaça apresenta melhoresresultados do que a classificação utilizando dados químicos. Ocusto inerente a utilização de dados químicos é alto. A mão-de-obra deve ser especializada e o seu alto custo é restrito alaboratórios de pesquisa e desenvolvimento. Assim a utilizaçãode um método que observa o modelo de cores (RGB e CIELab)é factível na substituição dos atributos químicos, seja pelocusteio e taxa de acerto. Como todo processo de produção suaaplicação deve ser em ambiente controlado para evitar falhase fraudes.

AGRADECIMENTOS

Os autores da pesquisa agradecem a CAPES, FAPEG eEscola de Agricultura do Instituto Politécnico de Bragançapelo suporte financeiro provido para a pesquisa.

REFERENCES

[1] F. W. B. Aquino, R. F. Nascimento, S. Rodrigues, and A. R. S.Casemiro, “Determinação de marcadores de envelhecimento emcachaças,” Food Science and Technology (Campinas), vol. 26, pp. 145– 149, 03 2006. [Online]. Available: http://dx.doi.org/10.1590/S0101-20612006000100024

[2] J. B. Faria, D. W. Franco, and J. R. Piggott, “The quality challenge:cachaça for export in the 21st century,” in Distilled spirits: traditionand innovation 2004. Nottingham University Press, Nottingham, UK,2004, pp. 215–221.

[3] M. D. C. A. de Souza, P. Vásquez, N. L. del Mastro, T. E.Acree, and E. H. Lavin, “Characterization of cachaça and rumaroma,” Journal of Agricultural and Food Chemistry, vol. 54,no. 2, pp. 485–488, 2006, pMID: 16417309. [Online]. Available:http://pubs.acs.org/doi/abs/10.1021/jf0511190

[4] P. P. de Souza, D. V. Augusti, R. R. Catharino, H. G. L. Siebald, M. N.Eberlin, and R. Augusti, “Differentiation of rum and brazilian artisancachaça via electrospray ionization mass spectrometry fingerprinting,”Journal of Mass Spectrometry, vol. 42, no. 10, pp. 1294–1299, 2007.[Online]. Available: http://dx.doi.org/10.1002/jms.1197

[5] Y. Wan, X. Sun, and R. Guo, “Shape and structure features basedchinese wine classification,” in Computational Intelligence and NaturalComputing, 2009. CINC ’09. International Conference on, vol. 2, 2009,pp. 39–43.

[6] M. A. Duarte-Mermoud, N. H. Beltrán, and M. A. Bustos, “Chileanwine varietal classification using quadratic fisher transformation,” Pat-tern Anal. Appl., vol. 13, no. 2, pp. 181–188, 2010.

[7] B. Boisier, A. Mansouri, P. Gouton, and P. Trollat, “Wine color charac-terization and classification for nuances reproduction,” in Signal-ImageTechnology Internet-Based Systems (SITIS), 2009 Fifth InternationalConference on, 2009, pp. 93–98.

[8] R. C. Gonzalez and R. E. Woods, Digital Image Processing (3rdEdition). Upper Saddle River, NJ, USA: Prentice-Hall, Inc., 2006.

[9] L. Qiongshuai and W. Shiqing, “A hybrid model of neural networkand classification in wine,” in Computer Research and Development(ICCRD), 2011 3rd International Conference on, vol. 3, 2011, pp. 58–61.

[10] D. Kruzlicova, J. Mocak, B. Balla, J. Petka, M. Farkova, andJ. Havel, “Classification of slovak white wines using artificialneural networks and discriminant techniques,” Food Chemistry,vol. 112, no. 4, pp. 1046 – 1052, 2009. [Online]. Available:http://dx.doi.org/10.1016/j.foodchem.2008.06.047

[11] D. Cozzolino, G. Cowey, K. Lattey, P. Godden, W. Cynkar,R. Dambergs, L. Janik, and M. Gishen, “Relationship between winescores and visible-near-infrared spectra of australian red wines,”Analytical and Bioanalytical Chemistry, vol. 391, no. 3, pp. 975–981,2008. [Online]. Available: http://dx.doi.org/10.1007/s00216-008-2071-3

[12] M. Ministério da Agricultura, Pecuária e Abastecimento, “Instruçãonormativa no 13, de 29 de junho de 2005,” [online], Jan. 2014,http://goo.gl/1DjmwL.

[13] X. Sun, H. J. Gong, F. Zhang, and K. J. Chen, “A digital imagemethod for measuring and analyzing color characteristics of variouscolor scores of beef,” in Image and Signal Processing, 2009. CISP ’09.2nd International Congress on, 2009, pp. 1–6.

[14] R. Kohavi, “A study of cross-validation and bootstrap for accuracyestimation and model selection.” Morgan Kaufmann, 1995, pp. 1137–1143.

[15] W. Härdle and L. Simar, Applied Multivariate Statistical Analysis.Springer, 2012.

[16] M. Erbert, “Uso da análise discriminante regularizada (rda) no recon-hecimento de padrões em imagens digitais hiperespectral de sensoria-mento remoto,” Master’s thesis, Universidade Federal do Rio Grandedo Sul - UFRGS, 2001.

[17] R. A. Fisher, “The use of multiple measurements in taxonomic prob-lems,” Annals of Eugenics, vol. 7, no. 7, pp. 179–188, 1936.

X Workshop de Visao Computacional - WVC 2014 49

Page 108: Reconhecimento do tipo de cachaça utilizando visão computacional

APÊNDICE CCatálogo de Amostras de Cachaça

C.1 Amburana - Amburana cearensis

C.1.1 Amburana - Barril 1

Figura C.1: Amostras de cachaças obtidas no período do mês 04ao mês 36 no barril 1

(a) mês 04 (b) mês 08 (c) mês 12

(d) mês 16 (e) mês 20 (f) mês 24

(g) mês 28 (h) mês 32 (i) mês 36

Page 109: Reconhecimento do tipo de cachaça utilizando visão computacional

Apêndice C 106

C.1.2 Amburana - Barril 2

Figura C.2: Amostras de cachaças obtidas no período do mês 04ao mês 36 no barril 2

(a) mês 04 (b) mês 08 (c) mês 12

(d) mês 16 (e) mês 20 (f) mês 24

(g) mês 28 (h) mês 32 (i) mês 36

Page 110: Reconhecimento do tipo de cachaça utilizando visão computacional

Apêndice C 107

C.1.3 Amburana - Barril 3

Figura C.3: Amostras de cachaças obtidas no período do mês 04ao mês 36 no barril 3

(a) mês 04 (b) mês 08 (c) mês 12

(d) mês 16 (e) mês 20 (f) mês 24

(g) mês 28 (h) mês 32 (i) mês 36

Page 111: Reconhecimento do tipo de cachaça utilizando visão computacional

Apêndice C 108

C.1.4 Amburana - Barril 4

Figura C.4: Amostras de cachaças obtidas no período do mês 04ao mês 36 no barril 4

(a) mês 04 (b) mês 08 (c) mês 12

(d) mês 16 (e) mês 20 (f) mês 24

(g) mês 28 (h) mês 32 (i) mês 36

Page 112: Reconhecimento do tipo de cachaça utilizando visão computacional

Apêndice C 109

C.2 Carvalho - Quercus spp

C.2.1 Carvalho - Barril 1

Figura C.5: Amostras de cachaças obtidas no período do mês 04ao mês 36 no barril 1

(a) mês 04 (b) mês 08 (c) mês 12

(d) mês 16 (e) mês 20 (f) mês 24

(g) mês 28 (h) mês 32 (i) mês 36

Page 113: Reconhecimento do tipo de cachaça utilizando visão computacional

Apêndice C 110

C.2.2 Carvalho - Barril 2

Figura C.6: Amostras de cachaças obtidas no período do mês 04ao mês 36 no barril 2

(a) mês 04 (b) mês 08 (c) mês 12

(d) mês 16 (e) mês 20 (f) mês 24

(g) mês 28 (h) mês 32 (i) mês 36

Page 114: Reconhecimento do tipo de cachaça utilizando visão computacional

Apêndice C 111

C.2.3 Carvalho - Barril 3

Figura C.7: Amostras de cachaças obtidas no período do mês 04ao mês 36 no barril 3

(a) mês 04 (b) mês 08 (c) mês 12

(d) mês 16 (e) mês 20 (f) mês 24

(g) mês 28 (h) mês 32 (i) mês 36

Page 115: Reconhecimento do tipo de cachaça utilizando visão computacional

Apêndice C 112

C.2.4 Carvalho - Barril 4

Figura C.8: Amostras de cachaças obtidas no período do mês 04ao mês 36 no barril 4

(a) mês 04 (b) mês 08 (c) mês 12

(d) mês 16 (e) mês 20 (f) mês 24

(g) mês 28 (h) mês 32 (i) mês 36

Page 116: Reconhecimento do tipo de cachaça utilizando visão computacional

Apêndice C 113

C.3 Castanheira - Bertholletia excelsa H.B.K

C.3.1 Castanheira - Barril 1

Figura C.9: Amostras de cachaças obtidas no período do mês 04ao mês 36 no barril 1

(a) mês 04 (b) mês 08 (c) mês 12

(d) mês 16 (e) mês 20 (f) mês 24

(g) mês 28 (h) mês 32 (i) mês 36

Page 117: Reconhecimento do tipo de cachaça utilizando visão computacional

Apêndice C 114

C.3.2 Castanheira - Barril 2

Figura C.10: Amostras de cachaças obtidas no período do mês 04ao mês 36 no barril 2

(a) mês 04 (b) mês 08 (c) mês 12

(d) mês 16 (e) mês 20 (f) mês 24

(g) mês 28 (h) mês 32 (i) mês 36

Page 118: Reconhecimento do tipo de cachaça utilizando visão computacional

Apêndice C 115

C.3.3 Castanheira - Barril 3

Figura C.11: Amostras de cachaças obtidas no período do mês 04ao mês 36 no barril 3

(a) mês 04 (b) mês 08 (c) mês 12

(d) mês 16 (e) mês 20 (f) mês 24

(g) mês 28 (h) mês 32 (i) mês 36

Page 119: Reconhecimento do tipo de cachaça utilizando visão computacional

Apêndice C 116

C.3.4 Castanheira - Barril 4

Figura C.12: Amostras de cachaças obtidas no período do mês 04ao mês 36 no barril 4

(a) mês 04 (b) mês 08 (c) mês 12

(d) mês 16 (e) mês 20 (f) mês 24

(g) mês 28 (h) mês 32 (i) mês 36