8
RECONHECIMENTO DE EXPRESS ˜ OES FACIAIS COM ACTIVE APPEARANCE MODEL Jo˜ ao Antonio Campos Panceri * , Evandro Ottoni Teatini Salles * Instituto Federal do Espirito Santo Coordenadoria de Automa¸ c˜aoIndustrial Av. Filogˆonio Peixoto, 2220 - Aviso Linhares, Espirito Santo, Brasil Universidade Federal do Esp´ ırito Santo Departamento de Engenharia El´ etrica Av. Fernando Ferrari, 514 - Goiabeiras Vitoria, Espirito Santo, Brasil Emails: [email protected], [email protected] Abstract— Facial expressions are pre-programmed external manifestations of basic emotions that occur uni- versally in all human kind. A system capable of detecting such expressions has a number of applications in current needs. This study proposes an AAM (active appearance model) algorithm based method for modeling which is able to find out and identify specific points on a face. A benchmarked such as an Artificial Neural Network (ANN) may have as inputs the evolution of landmarks on a face that presents an facial expression when compared to a neutral face. Keywords— Facial Expressions, Active Appearance Model, Neural Network, Pattern Recognition Resumo— Express˜ oes faciais s˜ aomanifesta¸c˜ oes externas de emo¸ c˜oesb´asicaspr´ e programadas que ocorrem de modo universal em toda esp´ ecie humana. Um sistema capaz de identificar tais express˜oes apresenta in´ umeras aplica¸ c˜oes no mundo atual. Esse trabalho prop˜oe um m´ etodo baseado no algoritmo de modelagem AAM (Active Appearence Model) capaz de encontrar determinados pontos em uma face. Um classificador, como uma rede neural, pode ter como entrada a evolu¸c˜ ao das landmarks em uma face que apresente uma express˜ao facial em rela¸c˜ao`aumafaceneutra. Palavras-chave— Express˜ oes Faciais, Active Appearance Model, Rede Neural, Reconhecimento de Padr˜oes 1 Introdu¸c˜ ao Express˜ oes Faciais s˜ aomanifesta¸c˜ oes externas pr´ e- programadas de emo¸ oes b´ asicas que ocorrem de modo universal em toda esp´ ecie humana. Al- gumas destas respostas s˜ ao compartilhadas entre outras esp´ ecies de mam´ ıferos, principalmente em primatas, (Darwin, 1872). Em (Ekman and Friesen, 1971) investigou-se diferentes sinais n˜ ao- verbais de comunica¸c˜ ao (express˜ oes faciais, gestos e postura corporal) em diversas culturas espalha- das pelo mundo, buscando informa¸c˜ oes acerca de significados, fun¸ oes, origens, categoriza¸c˜ ao e ana- tomia. Atualmente, interfaces homem-m´ aquina (IHM) s˜ ao indispens´ aveis, e identificar emo¸c˜ oes pode ser ´ util para proporcionar uma melhor intera¸ ao entre humanos e sistemas inteligentes. Portanto, um algoritmo que realize o reconheci- mento de express˜ oes faciais pode ser utilizado em diversas ´ areas, como: Educa¸ ao a distˆ ancia assistida; Sa´ ude, incluindo monitoramento de pacientes ou analises psicol´ ogicas; (Sheaffer and Ave- rett, 2014); Multim´ ıdias, como na cria¸c˜ ao de avatares; An´ alise da resposta de consumidores a um terminado conte´ udo. (Moon et al., 2012). Dentre algumas t´ ecnicas j´ a implementadas para a identifica¸ ao de express˜ oes faciais pode- mos destacar o trabalho de (Pedroso and Sal- les, 2012) e (Jabid and Chae, 2010) que utiliza- ram o AAM - Active Appearance Model como ex- trator de caracter´ ısticas. Valendo-se da alta sen- sibilidade ` adeforma¸c˜ oes em (Carcagni and Dis- tante, 2015) aplica a t´ ecnica HOG - Histogram of Oriented Gradients ` a face, com o prop´ osito de se obter o sentido e magnitude das deforma¸c˜ oes geradas na face pelas express˜ oes faciais e assim classifica-las. (Martins, 2016), aplicando a t´ ecnica Bayesian Constrained Local Models obtˆ em ´ otimos resultados. (ZHOU and SHI, 2016) sustenta a hi- otese de que o mecanismo de reconhecimento de express˜ oes faciais em humanos e a t´ ecnica Deep Learning apresenta similaridades. Algo importante a se destacar ´ e que a cate- goriza¸c˜ ao de uma express˜ ao facial deve apresentar descorrela¸ ao com a identidade da face em ques- ao. Em outras palavras, o sistema deve ser ca- paz de identificar uma express˜ ao em qualquer in- div´ ıduo de teste, independente dos indiv´ ıduos que compunham a base de treinamento. Da mesma forma, no reconhecimento facial, um indiv´ ıduo deve ser reconhecido independente da sua expres- XIII Simp´osio Brasileiro de Automa¸ ao Inteligente Porto Alegre – RS, 1 o – 4 de Outubro de 2017 ISSN 2175 8905 1486

RECONHECIMENTO DE EXPRESSOES FACIAIS COM ACTIVE … · gem de entrada para a posi˘c~ao original, atenuando as varia˘coes geradas pelas transforma˘c~oes de simi-laridades entre

Embed Size (px)

Citation preview

Page 1: RECONHECIMENTO DE EXPRESSOES FACIAIS COM ACTIVE … · gem de entrada para a posi˘c~ao original, atenuando as varia˘coes geradas pelas transforma˘c~oes de simi-laridades entre

RECONHECIMENTO DE EXPRESSOES FACIAIS COM ACTIVE APPEARANCEMODEL

Joao Antonio Campos Panceri∗, Evandro Ottoni Teatini Salles†

∗Instituto Federal do Espirito SantoCoordenadoria de Automacao Industrial

Av. Filogonio Peixoto, 2220 - AvisoLinhares, Espirito Santo, Brasil

†Universidade Federal do Espırito SantoDepartamento de Engenharia Eletrica

Av. Fernando Ferrari, 514 - GoiabeirasVitoria, Espirito Santo, Brasil

Emails: [email protected], [email protected]

Abstract— Facial expressions are pre-programmed external manifestations of basic emotions that occur uni-versally in all human kind. A system capable of detecting such expressions has a number of applications incurrent needs. This study proposes an AAM (active appearance model) algorithm based method for modelingwhich is able to find out and identify specific points on a face. A benchmarked such as an Artificial NeuralNetwork (ANN) may have as inputs the evolution of landmarks on a face that presents an facial expression whencompared to a neutral face.

Keywords— Facial Expressions, Active Appearance Model, Neural Network, Pattern Recognition

Resumo— Expressoes faciais sao manifestacoes externas de emocoes basicas pre programadas que ocorrem demodo universal em toda especie humana. Um sistema capaz de identificar tais expressoes apresenta inumerasaplicacoes no mundo atual. Esse trabalho propoe um metodo baseado no algoritmo de modelagem AAM (ActiveAppearence Model) capaz de encontrar determinados pontos em uma face. Um classificador, como uma redeneural, pode ter como entrada a evolucao das landmarks em uma face que apresente uma expressao facial emrelacao a uma face neutra.

Palavras-chave— Expressoes Faciais, Active Appearance Model, Rede Neural, Reconhecimento de Padroes

1 Introducao

Expressoes Faciais sao manifestacoes externas pre-programadas de emocoes basicas que ocorrem demodo universal em toda especie humana. Al-gumas destas respostas sao compartilhadas entreoutras especies de mamıferos, principalmente emprimatas, (Darwin, 1872). Em (Ekman andFriesen, 1971) investigou-se diferentes sinais nao-verbais de comunicacao (expressoes faciais, gestose postura corporal) em diversas culturas espalha-das pelo mundo, buscando informacoes acerca designificados, funcoes, origens, categorizacao e ana-tomia.

Atualmente, interfaces homem-maquina(IHM) sao indispensaveis, e identificar emocoespode ser util para proporcionar uma melhorinteracao entre humanos e sistemas inteligentes.Portanto, um algoritmo que realize o reconheci-mento de expressoes faciais pode ser utilizado emdiversas areas, como:

• Educacao a distancia assistida;

• Saude, incluindo monitoramento de pacientesou analises psicologicas; (Sheaffer and Ave-rett, 2014);

• Multimıdias, como na criacao de avatares;

• Analise da resposta de consumidores a umterminado conteudo. (Moon et al., 2012).

Dentre algumas tecnicas ja implementadaspara a identificacao de expressoes faciais pode-mos destacar o trabalho de (Pedroso and Sal-les, 2012) e (Jabid and Chae, 2010) que utiliza-ram o AAM - Active Appearance Model como ex-trator de caracterısticas. Valendo-se da alta sen-sibilidade a deformacoes em (Carcagni and Dis-tante, 2015) aplica a tecnica HOG - Histogramof Oriented Gradients a face, com o proposito dese obter o sentido e magnitude das deformacoesgeradas na face pelas expressoes faciais e assimclassifica-las. (Martins, 2016), aplicando a tecnicaBayesian Constrained Local Models obtem otimosresultados. (ZHOU and SHI, 2016) sustenta a hi-potese de que o mecanismo de reconhecimento deexpressoes faciais em humanos e a tecnica DeepLearning apresenta similaridades.

Algo importante a se destacar e que a cate-gorizacao de uma expressao facial deve apresentardescorrelacao com a identidade da face em ques-tao. Em outras palavras, o sistema deve ser ca-paz de identificar uma expressao em qualquer in-divıduo de teste, independente dos indivıduos quecompunham a base de treinamento. Da mesmaforma, no reconhecimento facial, um indivıduodeve ser reconhecido independente da sua expres-

XIII Simposio Brasileiro de Automacao Inteligente

Porto Alegre – RS, 1o – 4 de Outubro de 2017

ISSN 2175 8905 1486

Page 2: RECONHECIMENTO DE EXPRESSOES FACIAIS COM ACTIVE … · gem de entrada para a posi˘c~ao original, atenuando as varia˘coes geradas pelas transforma˘c~oes de simi-laridades entre

sao. Como consequencia dessa analise, pode-sedizer que o reconhecimento de expressoes faciais eum problema dual ao reconhecimento de faces. Asistematizacao desenvolvida por (Ekman and Fri-esen, 1978) para a identificacao de expressoes faci-ais, conhecida como FACS - Facial Action CodingSystem e uma ferramenta util nessa tarefa de des-correlacionar a expressao e o indivıduo, uma vezque ela se propoe a analisar o movimento muscularque gera a expressao facial.

A ferramenta de modelagem utilizada por(Pedroso and Salles, 2012) e (Jabid and Chae,2010), conhecida como AAM - Active AppearanceModel possui a capacidade de encontrar pontos es-pecıficos, a partir do ajuste iterativo de uma mas-cara de pontos generica pre-posicionada na face.Considerando a teoria FACS, a ferramenta AAMsera de grande importancia pois com ela e possıvelencontrar os pontos de interesse mesmo havendodeformacoes geradas pelo movimento muscular.

O objetivo desse trabalho e ajustar o AAMa uma face extraindo caracterısticas com o pro-posito de reconhecer expressoes faciais, de formaa harmoniza-las com a proposta FACS. A esco-lha da tecnica AAM se deve a forte correspon-dencia com FACS. No entanto a abordagem AAMadotada por (Pedroso and Salles, 2012) foi modi-ficada gerando resultados mais efetivos, como sepode constatar na secao 5.

O processo de reconhecimento de uma expres-sao facial desenvolvido nesse trabalho pode ser en-tendido em tres etapas distintas: ajuste do AAMa face, extracao de caracterısticas e classificacao.

Esse artigo esta organizado da seguinte forma:na secao 2 trata-se da fundamentacao teorica doFACS, construcao e solucao do AAM, na secao 3de desenvolvimento, trata-se sobre a base de dadosescolhida e metodologia. Na na secao 4 apresenta-se os classificadores utilizados e na secao 5, os re-sultados obtidos. A secao 6 encerra o artigo comas conclusoes finais.

2 Formulacao Teorica

2.1 Teoria FACS

A teoria Facial Action Coding System (FACS) de-senvolvida em (Ekman and Friesen, 1978) e umsistema abrangente, com base anatomica e menossobrecarregado por nocoes teoricas em relacao aoutros sistemas existentes. Nela, descreve-se to-dos os possıveis movimentos faciais distintos visı-veis baseado em quarenta e quatro Unidades deAcao (UA’s). Cada UA tem seu codigo nume-rico e seus respectivos musculos que sao contraı-dos para cada movimento da face, onde cada UAfoi cuidadosamente estudada, sendo cada musculorepresentado por uma acao facial mapeada atra-ves das UA’s enumeradas de 1 a 44 (Exemplo:UA1 significa o levantamento da sobrancelha in-

terna). A tabela completa com as associacoes dasUA’s pode ser vista (Ekman and Friesen, 1978).As expressoes basicas sistematizadas por Ekmansao: surpresa, medo, tristeza, felicidade, nojo enervoso.

2.2 Construcao do AAM

O AAM - Active Appearance Model e construıdopor um modelo da forma (Shape Model) e um mo-delo de textura (Appearence Model) que visa des-crever da melhor um objeto. O modelo da formarequer um conjunto n de marcacoes (landmarks),[x1, y1, ...xn, yn] para cada imagem de um con-junto de treinamento. Esses pontos definem con-tornos do objeto presente nas imagens, como naFigura 1.

Figura 1: Marcacoes (Landmarks.)

Devido as transformacoes de similaridades en-tre os objetos das diversas imagens de treina-mento, como posicao, tamanho e orientacao; asmarcacoes de cada imagem sobrepostas em umplano apresentam um espalhamento que as tor-nam inviaveis para a construcao do modelo daforma. Para isso, e aplicado o algoritmo Pro-crustes Analysis, que tem como objetivo minimi-zar essas transformacoes de similaridade, (Cootes,2001). O resultado dessa etapa do processo podeser observado na Figura 2.

Figura 2: Procrustes Analysis - Dados tratados.

XIII Simposio Brasileiro de Automacao Inteligente

Porto Alegre – RS, 1o – 4 de Outubro de 2017

1487

Page 3: RECONHECIMENTO DE EXPRESSOES FACIAIS COM ACTIVE … · gem de entrada para a posi˘c~ao original, atenuando as varia˘coes geradas pelas transforma˘c~oes de simi-laridades entre

A Analise de Componentes Principais (PCA)e uma formulacao matematica usada na reducaoda dimensao de dados. Assim, a tecnica PCA per-mite identificar padroes nos dados e expressa-losde uma maneira tal que suas semelhancas e dife-rencas sejam destacadas.

Assim, aplicando o PCA - Principal Compo-nent Analysis no conjunto de marcacoes se obtemo modelo da forma, que e definido por

S = S0 +

n∑i=1

Sipi, (1)

onde S0 representa a forma media do objeto a sermodelado, Si os, i = 1,2,3..., autovetores dos da-dos e pi os parametros do modelo da forma a seremestimados. Para esse trabalho, foram utilizados os4 autovetores de maior energia ortonormalizadosde modo que 95% da representatividade dos dadosfosse mantida. A forma media S0 pode ser enten-dida da seguinte maneira: para cada landmark ecalculado a media de todas as posicao obtidas naProcrustes Analysis, o conjunto das medias de to-das as marcacoes e a forma media canonica AAM,a representacao grafica do resultado obtido estana Figura 3.

Figura 3: Forma media.

Para a construcao do modelo de textura e ne-cessario remover as variacoes geradas pelas trans-formacoes de similaridades entre os objetos dasimagens. A funcao de mapeamento de pixel uti-lizada para realizar e mapeamento foi PiecewiseAffine Warps, definida como W (x; p), (Cootes,2001), onde x e um vetor com as posicao de to-das as landmarks e p o vetor de parametros dodeslocamento para cada marcacao. Essa funcao erealizada a partir da triangulacao de Delaunay en-tre as marcacoes, conforme se observa na Figura4, delimitando assim os pixels que pertencem aum determinado triangulo. O mapeamento dos pi-xels para a forma media gera uma deformacao naimagem original que devera possuir agora a formamedica canonica. O processo de normalizacao dasimagens e realizado para cada imagem do conjuntode treinamento. A representacao desse processo eapresentada na Figura 4, onde o triangulo, preen-

chido pela cor vermelha, da face esquerda possuium correspondente na face da direita.

Figura 4: Triangulacao de Delaunay

Portanto, se cada triangulo na imagem de en-trada possui um correspondente no modelo cano-nico, entao e possıvel mapear todos pixels da ima-gem de entrada para a posicao original, atenuandoas variacoes geradas pelas transformacoes de simi-laridades entre as imagens treinamento e a formamedia, Figura 4.

Finalmente, o PCA e aplicado no conjunto dedados para obter-se o modelo da textura, definidopor

A = A0 +

m∑j=1

Ajcj , (2)

sendo A0 a textura media, que pode ser compre-endida como a media dos pixels de todas as ima-gens deformadas pela funcao W (x; p) e Aj sendoj = 1,2,3... os autovetores ortonormalizados doconjunto de texturas e ci os parametros do mo-delo a serem estimados.

A partir de uma nova imagem I, o ajuste auto-matico do AAM implica em estimar os parametrosp e c, de tal que a norma l2 do erro entre o mo-delo da textura canonico e a imagem de entradadeformada pela funcao W (x; p) seja minimizado.O processo de minimizacao de

e = argminp, c

‖ I(W (x; p))−A0−m∑j=1

Ajcj ‖2, (3)

comeca com ambos os parametros inicializadoscom zero, p = (0, 0, ..., 0) e c = (0, 0, ..., 0), e ite-rativamente os valores sao atualizados. Tipica-mente o teste de convergencia decorre da verifica-cao da norma l2 (e) em relacao a um threshold,(Matthews and Baker, 2004). A Figura 5 apre-senta de forma intuitiva a o algoritmo de ajusteAAM.

2.3 Solucoes AAM

O AAM e formulado como um problema defluxo otico, tambem conhecido por Lucas-Kanade(Baker and Matthews, 2003), o qual pode ser re-solvido iterativamente usando o metodo classico

XIII Simposio Brasileiro de Automacao Inteligente

Porto Alegre – RS, 1o – 4 de Outubro de 2017

1488

Page 4: RECONHECIMENTO DE EXPRESSOES FACIAIS COM ACTIVE … · gem de entrada para a posi˘c~ao original, atenuando as varia˘coes geradas pelas transforma˘c~oes de simi-laridades entre

Figura 5: Triangulacao de DelaunayFonte: (Matthews and Baker, 2004).

Gauss-Newton. No entanto, quando aplicado asolucao do AAM se mostra ineficiente. Existemoutras solucoes propostas, dentre elas o metodoInverse Compositional (IC), variacoes para essealgoritmo voltadas especificamente para o AAMforam propostas em (Baker and Matthews, 2003).

Em (Matthews and Baker, 2004) apresentamo algoritmo para otimizar a solucao da equacao 3,Project Out Inverse Compositional (POIC), quepossui uma execucao mais rapida, quando compa-rado a solucao classica (IC), devido ao seu pre-calculo das matrizes jacobiana e hessiana.

Gross em (R. Gross and Baker, 2005) in-troduziu o Simultaneous Inverse Compositional(SIC) atualizando simultaneamente os parame-tros de deformacao e textura. Tzimiropoulos em(Tzimiropoulos and Pantic, 2013) apresentou osalgoritmos Fast-SIC e o Fast-forward para resol-ver de forma mais eficientemente o problema doajuste AAM, com um custo computacional menorque os trabalhos citados anteriormente. O algo-ritmo Fast-SIC apresentou desempenho superiorao Fast-forward.

2.4 Fast-SIC

No algoritmo Inverse Compositional (IC) o mo-delo da textura e linearizado em relacao a p =0, sendo assim, W (x; p) se torna a identidade.Uma atualizacao ∆p e entao encontrada usandomınimos-quadrados e p e atualizado realizandouma composicao entre p e ∆p, p← p◦∆p, obtendoassim o novo valor do vetor p. O sımbolo ◦ se re-fere ao processo de composicao incremental dasduas variaveis. Mais detalhes da solucao podemser encontrado em (Matthews and Baker, 2004).

Em cada iteracao do metodo Simultaneous In-verse Compositional (SIC) a equacao 3 e linea-rizada em relacao a c e p iguais a zero. Isto eequivalente a resolver, a cada iteracao, o seguinte

problema de optimizacao, sendo os termos de se-gunda ordem foram omitidos:

e = argmin∆p,∆c

‖ I −A0 −Ac−A∆c− J∆p ‖2 (4)

onde ,∆c se refere a atualizacao do parametro domodelo de textura a ser estimado e J e definidopor

J = J0 +

m∑i=1

ciJi, (5)

onde

Ji =[Ai,x Ai,y

] ∂(W (x; p))

∂(p), (6)

Ai,x, Ai,y o gradiente de Ai em relacao a x e y, e∂(W (x;p))

∂(p) a matriz jacobiana da funcao de mape-

amento piecewise affine warp. A implementacaodessa matriz e apresentada em (Matthews andBaker, 2004).

(Tzimiropoulos and Pantic, 2013) tira pro-veito da teoria de otimizacao para resolver a equa-cao 4 por um caminho mais eficiente apresentandoo algoritmo Fast-SIC. Usando a definicao

minx, y

f(x, y) = minx

[miny

f(x, y)], (7)

a Equacao 4 e optimizada primeiramente calcu-lando ∆c, resultando em

∆c = AT (I −A0 −Ac− J∆p). (8)

Aplicando ∆c na equacao 4 temos a solucaooptimizada

e = argmin∆(p)

‖ I −A0 − J∆p ‖2, (9)

onde o ∆p que a minimiza e definido por

∆p = H−1fsicJTfsic(I −A0), (10)

onde

Jfsic =[Axc

′ Ayc′] ∂W

∂p, (11)

Hfsic = JTfsicJfsic, (12)

e

c′ =

[1c

]. (13)

Devido ao fato de Jfsic ser em funcao de c, aEquacao 12 necessita ser recalculada a cada itera-

cao. Podemos observar que∂W

∂pe definido para

p = 0 e pode ser pre calculado.

XIII Simposio Brasileiro de Automacao Inteligente

Porto Alegre – RS, 1o – 4 de Outubro de 2017

1489

Page 5: RECONHECIMENTO DE EXPRESSOES FACIAIS COM ACTIVE … · gem de entrada para a posi˘c~ao original, atenuando as varia˘coes geradas pelas transforma˘c~oes de simi-laridades entre

3 Desenvolvimento

3.1 Banco de Dados

Os experimentos foram realizados utilizando obanco de dados de expressoes faciais Cohn-Kanade(CK+) (T. Kanade and Tian, 2000), formado porimagens de indivıduos de varias etnias, sexo e ida-des. As imagens possuem a mesma resolucao, 640x 490, com todos indivıduos em pose frontal e ilu-minacao padronizada. A Base CK+ e compostapor 10.558 imagens divididas em 123 diretorios.Cada um dos diretorios corresponde a um indivı-duo e cada subdiretorio contem uma sequencia deimagens que vai de uma face neutra a uma facecom unidades de acao (UA) ativadas. As quanti-dades de subdiretorios e imagens nao sao padro-nizadas por indivıduo. A base CK+ possui paracada subdiretorio um arquivo de texto com a rotu-lacao da expressao facial correspondente, que podeser utilizada para a validacao da etapa de classifi-cacao. Alem da pre-identificacao de cada expres-sao, o banco de dados ainda possui um arquivotexto para cada imagem com a exata marcacaodas 68 landmarks. A partir desses pontos, o nossomodelo AAM sera treinado.

3.2 Metodologia

Com base na teoria FACS (Ekman and Frie-sen, 1978), propoe-se que existe uma correlacaoentre os movimentos da AU’s e a variacao dasareas dos triangulos de Delaunay provocadas pelomovimento muscular de uma face que evolui deneutra para uma expressao definida, podendo serrelacionada com as expressoes faciais estudas porEkmam e Friesen.

A partir das 68 landmarks, a triangulacao deDelaunay gera 111 polıgonos que possuem umadeterminada area. Quando unidades de acao saoativadas, a posicao de certas marcacoes e modi-ficada. Como resultado, a area de alguns trian-gulos se altera. Considerando a Base CK+ com-posta por sequencias de imagens que partem deuma face neutra a uma face com expressao, temosuma evolucao temporal das areas. Objetivandoa simplificacao do algoritmo, utiliza-se somente aprimeira e a ultima imagem do subdiretorio.

Desse modo, observamos que a analise da va-riacao das areas de forma temporal pode ser re-alizada subtraindo as areas dos triangulos corres-pondente entre a expressao final (AU ativadas) ea inicial (neutra), como na Figura 6. O resultadodessa subtracao gera um vetor de 111 posicoes,Figura 7, que sera usado como descritor do clas-sificador, com o proposito de se identificar qual aexpressao facial que melhor caracteriza a face comas AU’s ativadas. Portanto, o movimento muscu-lar da face, tanto em intensidade quanto em grupomuscular produzira um vetor distinto, logo o ve-tor descritor proposto por esse trabalho apresenta

grande correspondencia com a teoria FACS de Ek-mam e Friesen.

Figura 6: Representacao da subtracao entre as ex-pressoes de surpresa e neutra.

Figura 7: Grafico com as variacoes das areas entreas expressoes de surpresa e neutra.

Esse processo e realizado para cada subdire-torio do banco de dados CK+ gerando a base dedados para o processo de classificacao.

Para o treinamento do modelo AAM, foramselecionadas aleatoriamente 2.000 imagens, naofazendo parte do sorteio nenhuma das imagens es-colhidas para o processo de classificacao das ex-pressoes faciais, ou seja, foram descartadas a pri-meira e ultima imagem de cada subdiretorio.

Os dados selecionados para a classificacao fo-ram divididos da seguinte maneira: 50% para trei-namento/validacao e 50% para teste, totalizando525 expressoes faciais.

4 Classificador

Para a etapa de classificacao foram escolhidos 3metodos muito difundidos em aprendizado de ma-quina: k-Nearest Neighbour (k-NN), Rede Neural

Multicamada e Arvore de Decisao.

O classificador k-NN avalia a distancia Eu-clidiana entre um dado de entrada e os dados quecompoe a base de treinamento, com o proposito dese identificar os k vizinhos mais proximos e assimrealizar a classificacao da expressao. O numerok = 5 de vizinhos minimiza o erro do classificadore foi estabelecido atraves de validacao cruzada 10-fold.

XIII Simposio Brasileiro de Automacao Inteligente

Porto Alegre – RS, 1o – 4 de Outubro de 2017

1490

Page 6: RECONHECIMENTO DE EXPRESSOES FACIAIS COM ACTIVE … · gem de entrada para a posi˘c~ao original, atenuando as varia˘coes geradas pelas transforma˘c~oes de simi-laridades entre

O k-NN e um classificador simples e, por-tanto, as taxas de acerto podem ser melhora-das utilizando um classificador mais robusto. Foiempregado uma Rede Neural Multicamada comoum classificador nao-linear. A rede foi treinadausando o algoritmo Levenberg-Marquardt comduas camada ocultas de 50 e 20 neuronios, respec-tivamente. A funcao de ativacao utilizada tantopara os neuronios ocultos quanto para os de saıdafoi a tangente sigmoide.

A construcao da Arvore de Decisao usa o al-goritmo classico CART (Duda et al., 2000). Ometodo de classificacao desse algoritmo e na suaessencia uma serie de declaracoes if-else. Cadaetapa da predicao envolve checar se um valor emaior ou menor que um preditor (variavel).

Em razao dos melhores resultado apresenta-dos, se decidiu pela nao aplicacao do PCA para areducao da dimensionalidade dos dados. No en-tanto, para fim de representacao e melhor visua-lizacao dos dados, a Figura 8 apresenta a distri-buicao dos dados em 3 dimensoes apos a aplicacaodo PCA. E possıvel observar que as expressoes fa-ciais estao agrupadas de forma que e realizavel aseparacao dos dados.

Figura 8: Distribuicao dos Dados

5 Resultados

Apos alguns testes se verificou que um ponto crı-tico que influencia na convergencia do algoritmoe a inicializacao da mascara AAM na face, emrelacao ao posicionamento e a escala da mas-cara. Com o proposito auxiliar na convergencia doAAM, um procedimento de pre-posicionamentoda mascara foi adotado a partir da posicao dosolhos. A mascara e escalada de maneira que a dis-tancia entre os olhos seja a mesma entre os olhos

da face teste. A posicao dos olhos da imagem deentrada e obtida segundo as marcacoes preesta-belecidas da base CK+. Quanto a normalizacao,optou-se por realizar somente uma transformacaode escala em todas as landmarks, de forma que adistancia entre os olhos seja sempre de 200 pixels.

A construcao do AAM, a partir das imagensde treino, gerou um modelo generalista com a ca-pacidade de ajuste para diversas expressoes faciaisem diversos indivıduos. Os resultados do ajusteAAM para as 1.050 faces utilizadas para classifi-cacao das expressoes faciais apresentaram um erromedio em pixels entres as marcacoes de 3,64, comvalor mınimo 1,5, Figura 9, e maximo de 15,14pixels, Figura 10. O erro foi calculado como adiferenca da posicao de cada landmark da pre-marcacao CK+ e os pontos obtidos pelo ajusteAAM. A Figura 11 apresenta o erro medio paracada face.

Figura 9: Melhor resultado AAM - Erro mınimo:1,5 pixels.

Com a intencao de mostrar a eficiencia do me-todo o processo de classificacao foi realizado 10vezes. Para cada etapa foi realizada uma selecaoaleatoria de 50% das 525 expressoes para treina-mento e as demais para teste. Por fim, Tabela 1apresenta a media dos resultados obtidos por cadaclassificador nas 10 iteracoes.

Com a intencao de demonstrar a eficiencia degeneralizacao do modelo AAM construıdo, os mes-mos testes realizados para as landmarks obtidascom o ajuste AAM foram feitos com base das pre-marcacoes da base CK+, e os resultados sao apre-sentados na Tabela 2.

As etapas de treinamento e validacao realiza-das por (Pedroso and Salles, 2012) foram feitasutilizando a base de dados de expressoes faciaisJAFFE. A base JAFFE pode ser encontrada no sı-tio http://www.kasrl.org/jaffe.html. Com a finali-dade de comparar a eficiencia do metodo proposto

XIII Simposio Brasileiro de Automacao Inteligente

Porto Alegre – RS, 1o – 4 de Outubro de 2017

1491

Page 7: RECONHECIMENTO DE EXPRESSOES FACIAIS COM ACTIVE … · gem de entrada para a posi˘c~ao original, atenuando as varia˘coes geradas pelas transforma˘c~oes de simi-laridades entre

Figura 10: Pior resultado AAM - Erro maximo:15,14 pixels.

Figura 11: Erro medio entre as landmarks.

ExpressaoFacial

5-NNArvore deDecisao

RedeNeural

Nervoso 64,51 % 39,47 % 69,44 %Nojo 86,20 % 60,71 % 96,15 %Medo 73,93 % 40,90 % 62,9 %

Felicidade 86,66 % 88 % 85 %Tristeza 70 % 63,63 % 69,76 %Surpreso 82,05 % 96,49 % 96,87 %

Media: 77,55 % 64,86 % 80,02 %

Tabela 1: Acuracia por classificador - Treina-mento AAM na base CK+

por esse trabalho em relacao a (Pedroso and Sal-les, 2012), os mesmos testes realizados para gerara Tabela 2 foram efetuados com a base JAFFEe novamente os melhores resultados obtidos fo-ram utilizando Rede Neural, tendo como media74,5% de acertos. Ja o melhor resultado obtidopor (Pedroso and Salles, 2012) foram utilizando oclassificador SVM-RBF 2-fold com media de acer-

ExpressaoFacial

5-NNArvore deDecisao

RedeNeural

Nervoso 94,73 % 55 % 91,66 %Nojo 93,02 % 68,51 % 86,27 %Medo 75 % 34 % 75,86 %

Felicidade 95,45 % 88,67 % 93,75 %Tristeza 64,70 % 64.86 % 68,75 %Surpreso 80 % 90,90 % 96,22 %

Media: 83,82 % 67 % 85,42 %

Tabela 2: Acuracia por classificador - Pre-marcacoes da base CK+.

tos de 55,4%.A Tabela 3 apresenta, para fins de compa-

racao, os resultados apresentados em trabalhosque utilizaram o banco de dados Cohn-Kanade.(Jabid and Chae, 2010) e (Pires and Neto, 2015)realizaram um corte manual na face, baseado emmarcacoes fornecidas previamente pela base CK+.Alem disso, (Pires and Neto, 2015) avaliaramo seu metodo somente para a expressao tristeza.Vale ressaltar que apesar do AAM apresentar me-nor acuracia, o metodo proposto realiza o pro-cesso de classificacao nao se valendo de nenhumapre-marcacao da base de dados. Tambem e im-portante destacar que nem todos trabalhos tra-tam rotacao da face como o AAM, com excecaode (Carcagni and Distante, 2015) que realiza umpre-tratamento na face, rotacionado-a. Alem dissopode-se salientar que nem todos os artigos apre-sentados na Tabela 3 deixam claro o metodo devalidacao, com excecao de (ZHOU and SHI, 2016)e (Carcagni and Distante, 2015) que utilizaram avalidacao cruzada 10-fold.

Ano Autores Metodo Acuracia

2016 Zhou e Shi Deep Learning 98,3 %2010 Jabid e Chae LDP e SVM 96,4 %2015 Carcagni e Distante HOG e SVM 95,8 %2016 Pires e Neto LBP e SVM 81,9 %2017 Metodo proposto AAM e RNA 80,2 %

Tabela 3: Resultado de trabalho que usaram abase CK+.

6 Conclusoes

A solucao proposta se mostrou satisfatoria na clas-sificacao das expressoes faciais, uma vez que foipossıvel reconhecer diferentes expressoes faciais.A etapa de ajuste AAM as novas faces, apre-sentou bons resultados, se aproximando das pre-marcacoes do banco de dados utilizado. A utiliza-cao do pre-posicionamento da mascara AAM naface, baseado na distancia entre os olhos contri-buiu para um ajuste mais fino.

XIII Simposio Brasileiro de Automacao Inteligente

Porto Alegre – RS, 1o – 4 de Outubro de 2017

1492

Page 8: RECONHECIMENTO DE EXPRESSOES FACIAIS COM ACTIVE … · gem de entrada para a posi˘c~ao original, atenuando as varia˘coes geradas pelas transforma˘c~oes de simi-laridades entre

O classificador que apresentou os melhores re-sultados foi a Rede Neural alcancando uma acu-racia superiores a 80%. Contudo, o k-NN, mesmosendo um classificador simples apresentou resulta-dos muito proximos a Rede Neural.

Como apontado no comeco desse artigo, oAAM poderia ser utilizado como ferramenta emum sistema de reconhecimento facial, uma vez queum indivıduo deve ser reconhecido independenteda sua expressao. A Figura 4 demonstra a capa-cidade do AAM em retirar uma face em estadode rotacao e deformacao aproxima-la de condicaoneutra. Esse potencial pode ser explorado em umsistema de reconhecimento facial. Alem disso, oAAM pode ser usado para a modelagem de qual-quer objeto que apresente uma relativa deforma-cao e rotacao. O tracking de objetos tambem podeser realizado com o AAM, no entanto, tal objetivoexigiria um maior poder computacional, em ra-zao da necessidade de se o ajustar AAM em cadaframe.

Em trabalhos futuros a analise de textura dedeterminadas regiao da face pode ser uma ferra-menta util para a categorizacao de expressoes fa-ciais, uma vez que a deformacao gerada pelo mo-vimento de musculos em expressao de raiva, porexemplo, gera uma alteracao de textura na testa.Outra opcao para trabalhos futuros seria substi-tuir a norma l2 pela norma l1, nos problemas deotimizacao para forma e textura, e averiguar sedita substituicao melhora a robustez do modelo.

7 Agradecimentos

Os autores agradecem ao CNPq e ao PPGEE-UFES pelo incentivo, suporte e financiamento apesquisa. Tambem agradecem aos que colabora-ram com imagens e banco de dados utilizados nostestes.

Referencias

Baker, S. and Matthews, I. (2003). Lucas-kanade20 years on: A unifying framework: Part 2,The Robotics Institute Carnegie Mellon Uni-versity: CMU-RI-TR-03-35.

Carcagni, P. and Distante, C. (2015). Facial ex-pression recognition and histograms of orien-ted gradientes: a comprehensive study, Sprin-gerPlus, v.4, n.1, p.645.

Cootes, T. F. (2001). Statistical models ofappearance for computer vision, On-line technical report available fromhttp://www.isbe.man.ac.uk/ bim/refs.html.

Darwin, C. (1872). The expression of emotion inman and animals, New York: Oxford Univer-sity Press.

Duda, R. O., Hart, P. E. and Stork, D. G. (2000).Pattern Classification (2nd Ed), Wiley.

Ekman, P. and Friesen (1971). Constants acrosscultures in the face and emotion, PersonalitySocial Psychol, 17(2):124-129.

Ekman, P. and Friesen (1978). Facial action co-ding system, Personality Social Psychol.

Jabid, T. and Chae, O. (2010). Robust Facial Ex-pression Recognition Based on Local Directio-nal Pattern, ETRI Journal, Volume 32, Num-ber 5: 784 - 794.

Martins, P. (2016). Bayesian Constrained LocalModels With Depth Data, IEEE Transactionson Pattern Analysis and Machine Intelligence(TPAMI): Volume 38, Issue 4, 704-716.

Matthews, I. and Baker, S. (2004). Active Appea-rance Models Revisited, IJCV - InternationalJournal of Computer Vision: 60(2) 135-164.

Moon, H., Sharma, R. and Jung, N. (2012).Method and system for measuring shopperresponse to products based on behavior andfacial expression, ICAP Patent Brokerage.

Pedroso, F. and Salles, E. (2012). Reconhecimentode expressoes faciais baseado em modelagemestatistica, CBA - Congresso Brasileiro deAutomatica: 631-638.

Pires, A. and Neto, G. (2015). Compound LocalBinary Pattern para reconhecimento de ex-pressoes faciais, Universidade Federal do Ma-ranhao, SA£o Luis, Brasil.

R. Gross, I. M. and Baker, S. (2005). Generic vs.person specific active appearance models, IVCvol 23 pp 1080-1093.

Sheaffer, B. L. and Averett, P. (2014). FacialExpression Recognition Deficits and FaultyLearning: Implications for Theoretical Mo-dels and Clinical Applications, InternationalJournal of Behavioral Consultation and The-rapy, v.5, n.1, p.31.

T. Kanade, J. C. and Tian, Y. (2000). Comprehen-sive Database for Facial Expression Analysis,IEEE Int. Conf. Autom. Face Gesture Recog-nition: p. 46-53.

Tzimiropoulos, G. and Pantic, M. (2013). Optimi-zation problems for fast AAM fitting in-the-wild, ICCV IEEE 593-600.

ZHOU, Y. and SHI, B. E. (2016). Action UnitSelective Feature Maps in Deep Networks forFacial Expression Recognition, Workshop onNeuroinformatics and Neurobiology - NBNI:185-191.

XIII Simposio Brasileiro de Automacao Inteligente

Porto Alegre – RS, 1o – 4 de Outubro de 2017

1493