6
MODELO DE ESTADOS PARA INFERÊNCIA DE ATIVIDADES HUMANAS BASEADO NA ASSOCIAÇÃO DE MOVIMENTOS OBTIDOS COM SISTEMAS DE VISÃO DENNIS ROMERO LÓPEZ * ,ANSELMO FRIZERA NETO * ,TEODIANO FREIRE BASTOS * * Universidade Federal do Espírito Santo, Av. Fernando Ferrari 514, Campus Goiabeiras, Vitória, ES, Brasil Emails: [email protected], [email protected], [email protected] Abstract— This paper presents an approach to the problem of human activity inference, based on tracking actions or bodily expressions recognized by a computer vision system. A model based on recurrent neural networks is introduced in order to represent states, allowing the prediction of activities initially learned by the system. The proposed model considers the influence of a new global movement pattern. Thus, an activity can be inferred considering the presence of other actions that do not belong to the activity, as occurs in natural situations in human nonverbal communication. Keywords— Computer Vision, Recurrent Neural Networks, HMM, Inference of Human Activities. Resumo— Neste trabalho apresenta-se uma abordagem ao problema da inferência de atividades humanas, baseado no segui- mento de ações ou expressões corporais reconhecidas por um sistema de visão computacional. Apresenta-se um modelo baseado em redes neurais recorrentes para a representação de estados, permitindo a predição de atividades inicialmente aprendidas pelo sistema. O modelo proposto considera a influência global de um novo padrão de movimento. Desta forma, uma atividade pode ser inferida considerando a presença de outras ações que não pertencem à atividade, como acontece em situações naturais na comunicação não verbal humana. Keywords— Visão computacional, Redes Neurais Recorrentes, HMM, Inferência de atividades humanas. 1 Introdução O presente trabalho detalha uma metodologia para es- timação ou inferência de atividades humanas baseada na associação de expressões corporais capturadas por um sistema de visão computacional. Uma atividade é definida, neste contexto, como um conjunto de ações, movimentos ou expressões corporais que a pessoa re- alizou (ou decidiu realizar) dentro de um determinado ambiente. A inferência de atividades humanas é um dos mais interessantes enfoques na área de aprendizado de máquinas e está relacionada com a compreensão das ações além do reconhecimento isolado de movimen- tos ou expressões corporais. No entanto, no campo da interação homem-máquina o aprendizado automático no nível do entendimento complexo apresenta diver- sos desafios. Entre eles, encontra-se a determinação de diferentes variáveis presentes no desenvolvimento de soluções que considerem a complexidade da comu- nicação não-verbal humana. Neste sentido, um sistema de análise de atividades humanas que funcione em locais fechados poderia não funcionar em locais abertos, ou, determinada técnica que permite uma interação uni-pessoal pode não ser ajustável a uma versão multi-pessoal, etc. Esta é uma das razões pela qual técnicas robustas para todo tipo de ambiente, no que se refere às atividades humanas, são ainda problemas não resolvidos. Dentro das vias de solução aos problemas antes mencionados, neste artigo aborda-se a representação de informação de movimento em modelos de estado que não assumam dependências exclusivas do estado anterior, como no caso da utilização de Modelos Ocul- tos de Markov (HMM), entre outras considerações que serão mencionadas na seção 3. Dois enfoques prin- cipais são analisados (Modelos Ocultos de Markov e Redes Neurais Recorrentes), os quais foram identifi- cados na revisão do estado da arte como tendências atuais na solução aos problemas relacionados com a análise automática de comportamento humano. Será detalhada a metodologia proposta para inferência de atividades baseada na representação de estados uti- lizando redes neurais recorrentes. Os métodos pro- postos foram implementados e integrados ao sistema de reconhecimento online de ações humanas, detal- hado em Romero et al. (2012), conformando o sis- tema piloto denominado “Emotion Viewer”, para a inferência de emoções mediante a análise automática de expressões corporais relacionadas. Nas seções fi- nais deste artigo são apresentados os resultados, con- clusões e trabalhos futuros. 2 Trabalhos relacionados A interação natural entre pessoas e computa- dores/robôs tem sido objeto de diversos estudos du- rante os últimos anos. A possibilidade de alcançar uma interação homem-máquina que ofereça uma ex- periência semelhante à interação natural entre pessoas é uma das principais motivações dos estudos atuais. Kim et al. fazem uma interessante introdução sobre o assunto em Kim et al. (2010). Como mencionado na seção introdutória, exis- tem diversos problemas relacionados com o reconhec- imento de atividades humanas, entre eles: a dificul- dade da categorização de ações; a realização de ações não descritivas ou irrelevantes no contexto do mod- elo das atividades; a recorrência (mais de uma ativi- dade ao mesmo tempo); a interrupção temporal de

MODELO DE ESTADOS PARA INFERÊNCIA DE ATIVIDADES …

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

MODELO DE ESTADOS PARA INFERÊNCIA DE ATIVIDADES HUMANAS BASEADO NAASSOCIAÇÃO DE MOVIMENTOS OBTIDOS COM SISTEMAS DE VISÃO

DENNIS ROMERO LÓPEZ∗, ANSELMO FRIZERA NETO∗, TEODIANO FREIRE BASTOS∗

∗Universidade Federal do Espírito Santo,Av. Fernando Ferrari 514, Campus Goiabeiras,

Vitória, ES, Brasil

Emails: [email protected], [email protected], [email protected]

Abstract— This paper presents an approach to the problem of human activity inference, based on tracking actions or bodilyexpressions recognized by a computer vision system. A model based on recurrent neural networks is introduced in order torepresent states, allowing the prediction of activities initially learned by the system. The proposed model considers the influenceof a new global movement pattern. Thus, an activity can be inferred considering the presence of other actions that do not belong tothe activity, as occurs in natural situations in human nonverbal communication.

Keywords— Computer Vision, Recurrent Neural Networks, HMM, Inference of Human Activities.

Resumo— Neste trabalho apresenta-se uma abordagem ao problema da inferência de atividades humanas, baseado no segui-mento de ações ou expressões corporais reconhecidas por um sistema de visão computacional. Apresenta-se um modelo baseadoem redes neurais recorrentes para a representação de estados, permitindo a predição de atividades inicialmente aprendidas pelosistema. O modelo proposto considera a influência global de um novo padrão de movimento. Desta forma, uma atividade podeser inferida considerando a presença de outras ações que não pertencem à atividade, como acontece em situações naturais nacomunicação não verbal humana.

Keywords— Visão computacional, Redes Neurais Recorrentes, HMM, Inferência de atividades humanas.

1 Introdução

O presente trabalho detalha uma metodologia para es-timação ou inferência de atividades humanas baseadana associação de expressões corporais capturadas porum sistema de visão computacional. Uma atividade édefinida, neste contexto, como um conjunto de ações,movimentos ou expressões corporais que a pessoa re-alizou (ou decidiu realizar) dentro de um determinadoambiente.

A inferência de atividades humanas é um dosmais interessantes enfoques na área de aprendizado demáquinas e está relacionada com a compreensão dasações além do reconhecimento isolado de movimen-tos ou expressões corporais. No entanto, no campo dainteração homem-máquina o aprendizado automáticono nível do entendimento complexo apresenta diver-sos desafios. Entre eles, encontra-se a determinaçãode diferentes variáveis presentes no desenvolvimentode soluções que considerem a complexidade da comu-nicação não-verbal humana.

Neste sentido, um sistema de análise de atividadeshumanas que funcione em locais fechados poderia nãofuncionar em locais abertos, ou, determinada técnicaque permite uma interação uni-pessoal pode não serajustável a uma versão multi-pessoal, etc. Esta é umadas razões pela qual técnicas robustas para todo tipode ambiente, no que se refere às atividades humanas,são ainda problemas não resolvidos.

Dentro das vias de solução aos problemas antesmencionados, neste artigo aborda-se a representaçãode informação de movimento em modelos de estadoque não assumam dependências exclusivas do estadoanterior, como no caso da utilização de Modelos Ocul-tos de Markov (HMM), entre outras considerações que

serão mencionadas na seção 3. Dois enfoques prin-cipais são analisados (Modelos Ocultos de Markov eRedes Neurais Recorrentes), os quais foram identifi-cados na revisão do estado da arte como tendênciasatuais na solução aos problemas relacionados com aanálise automática de comportamento humano. Serádetalhada a metodologia proposta para inferência deatividades baseada na representação de estados uti-lizando redes neurais recorrentes. Os métodos pro-postos foram implementados e integrados ao sistemade reconhecimento online de ações humanas, detal-hado em Romero et al. (2012), conformando o sis-tema piloto denominado “Emotion Viewer”, para ainferência de emoções mediante a análise automáticade expressões corporais relacionadas. Nas seções fi-nais deste artigo são apresentados os resultados, con-clusões e trabalhos futuros.

2 Trabalhos relacionados

A interação natural entre pessoas e computa-dores/robôs tem sido objeto de diversos estudos du-rante os últimos anos. A possibilidade de alcançaruma interação homem-máquina que ofereça uma ex-periência semelhante à interação natural entre pessoasé uma das principais motivações dos estudos atuais.Kim et al. fazem uma interessante introdução sobre oassunto em Kim et al. (2010).

Como mencionado na seção introdutória, exis-tem diversos problemas relacionados com o reconhec-imento de atividades humanas, entre eles: a dificul-dade da categorização de ações; a realização de açõesnão descritivas ou irrelevantes no contexto do mod-elo das atividades; a recorrência (mais de uma ativi-dade ao mesmo tempo); a interrupção temporal de

uma atividade e as possíveis ambiguidades de inter-pretação, devido à presença de ações comuns (ex. ab-rimos o forno para limpá-lo e para aquecer os alimen-tos).

Com o objetivo de abranger os problemas rela-cionados com o reconhecimento de atividades hu-manas, diferentes contribuições à literatura têm sidorealizadas. Em Gu et al. (2011) propõe-se um enfoquebaseado na identificação de Padrões Emergentes (eminglês Emerging Patterns) a partir da captura de infor-mação de movimento com redes de sensores. O tra-balho propõe uma metodologia que permite o recon-hecimento de atividades recorrentes, interrompidas etambém sequenciais. No entanto, apresenta limitaçõesquanto à discriminação de ações, devido à redundânciade informação no processo de captura. Outro enfoquesimilar é proposto em Khattak et al. (2010) orientadoà supervisão de atividades de pessoas idosas de formaremota.

Embora a tecnologia relacionada com redes desensores encontra-se em rápida evolução, sua utiliza-ção de forma generalizada apresenta ainda dificul-dades. Por tal motivo, outros métodos de sensoria-mento são considerados para a análise de ações e infer-ência de atividades humanas. O trabalho proposto emPiyathilaka e Kodagoda (2013) apresenta um enfoquebaseado em Modelos Ocultos de Markov (HMM) eModelo de Mistura de Gaussianas (GMM) para a in-ferência de atividades. As posições dos pontos corre-spondentes às uniões do esqueleto 3D de uma pessoasão capturadas mediante um sensor RGB-D. Dado queas uniões no modelo de esqueleto são normalizadascom respeito ao torso da pessoa, o método tende a umestado de inatividade quando a pessoa realiza poucosmovimentos dos braços, dificultando uma análise maisrobusta.

O trabalho proposto em Ryoo (2011) aborda o en-foque da presente pesquisa, e está orientado à prediçãode atividades baseada na identificação de indícios ouintenções. Os indícios mencionados correspondem àsações isoladas reconhecidas em sequências de vídeo,permitindo a identificação antecipada de uma ativi-dade. O trabalho mencionado utiliza histogramas in-tegrais para determinar a probabilidade posterior daocorrência de uma atividade, definida em (1),

P(Ap|O, t) = ∑d

P(Ap,d|O, t)

=∑d P(O|Ap,d)P(t|d)P(Ap|d)

∑i ∑d P(O|Ai,d)P(t|d)P(Ai|d), (1)

onde d corresponde à variável que descreve o nível deprogresso da atividade Ap, dado um vídeo O de du-ração t. No referido trabalho o modelo estabelecidolimita o número de atividades a serem reconhecidas.No trabalho aqui apresentado propõe-se um modeloque possa ser projetado para uma quantidade maior deatividades, considerando as características análogas aalguns modelos gráficos probabilísticos, intrínsecas às

redes neurais recorrentes (Sun et al., 1990; Mandic eChambers, 2001).

Aplicações da inferência de atividades

As aplicações para o reconhecimento de atividadestêm uma ampla perspectiva de contribuição à so-ciedade, especialmente aquelas enfocadas às ativi-dades do cotidiano, como por exemplo, no cuidadode idosos, análise da dinâmica corporal de pacientespsiquiátricos, segurança, entre outros.

Na área de segurança de pedestres, por exemplo,é onde é possível, de forma empírica, realizar a identi-ficação de atitudes seguras ou inseguras de pessoas nahora de atravessar a rua. Neste sentido, um sistema au-tomático poderia prever situações de risco ocasionadaspor alguém que encontra-se realizando ações consider-adas inseguras (Figura 1). Assim, o pedestre, e inclu-sive os motoristas próximos, poderiam ser alertadossobre um possível risco.

Parou

Olhou para

ambos os lados

Não olhou para

ambos os lados

Andou

Correu

Andou

Correu

Não parou

Olhou para

ambos os lados

Não olhou para

ambos os lados

Andou

Correu

Andou

Correu

Forma segura de atravessar a rua

Forma insegura de atravessar a rua

Figura 1: Diagrama ilustrativo de atitudes seguras einseguras de atravessar a rua.

No entanto, para o desenvolvimento de aplicaçõescomo a mencionada, assim como em outras aplicaçõesque envolvem o entendimento das ações humanas, épreciso estabelecer modelos que abordem a complex-idade natural das ações envolvidas, considerando asvariáveis que influenciam nas mesmas (objetivos, cul-tura, ambiente, etc.), assim como o espaço temporal(duração de uma ação) e não temporal (independênciada ordem de aparecimento) que as envolve.

Na seguinte seção, realiza-se uma avaliaçãocrítica dos Modelos Ocultos de Markov (HMM), osquais têm uma ampla aceitação na literatura de recon-hecimento de padrões (Chen e Aggarwal, 2011; Jalalet al., 2012; Piyathilaka e Kodagoda, 2013), e por suarelação com o critério a ser detalhado nas secções pos-teriores sobre a inferência de atividades considerandoredes neurais recorrentes (Guo e Zhang, 2012; Nishideet al., 2012).

3 Generalidades dos modelos preditivos para ainferência de atividades humanas

Como mencionado anteriormente, neste trabalhodetalha-se o critério adotado para a estimação de ativi-dades de uma pessoa, tomando como base o recon-hecimento individual de ações por parte de um sis-

tema de visão computacional. A Figura 2 mostra, naparte superior, os blocos correspondentes ao processode reconhecimento de ações, iniciando desde a cap-tura de informação visual até sua caracterização e clas-sificação. Estas ações alimentam o modelo associa-tivo (parte inferior do diagrama), para a estimação dasatividades possíveis.

Captura Imagens(Mapas Profundidade)

Segmentação de ações

Caraterização & Classificação de ações

Modelo Ações/Atividade

Predição de atividades

Figura 2: Diagrama geral da metodologia proposta(parte superior: processo de reconhecimento de ações;parte inferior: processo de inferência de atividades).

HMM e Redes Neurais Recorrentes

Os Modelos Ocultos de Markov (em inglês, HiddenMarkov Models - HMM) têm sido amplamente us-ados no reconhecimento sequencial de dados, espe-cialmente no processamento de sinais de fala. OsHMM conformam um modelo linear, e são chama-dos de “ocultos” devido a que envolvem um processoestocástico (a sequência de estados) que não é ob-servável, mas afeta a sequência de eventos observados(Rabiner, 1989).

A diferença fundamental entre HMM e várias dastécnicas baseadas em critérios Markovianos, como asdetalhadas em Ephraim e Roberts (2009), Tu e Zhu(2002) e Derrode e Pieczynski (2004), está na formade observar o sistema. Na maioria dos processosMarkovianos a observação é direta, devido a que oseventos observáveis são os próprios estados, enquantoque em HMM a observação é indireta, feita por in-ferência, sendo os eventos observáveis funções prob-abilísticas dos estados de Markov ou das transiçõesentre esses estados. A Figura 3 mostra um diagramasimples de três estados ilustrando as probabilidades detransição (Rabiner, 1989).

x x x

p(x q|

p(q

q = j = k= i qqt

t t= i) p(x q|t t= j) p(x q|t t= k)

t t t

tt

t= i|qt-1= i) p(qt= i|qt-1= j) p(qt= i|qt-1= k)

Figura 3: Exemplo de HMM simples de três estados

No entanto, as suposições que fazem possível aeficiência de HMM e sua otimização limitam sua gen-eralidade. Como consequência, elas também sofremde várias desvantagens, como as mencionadas emBourlard e Bengio (2002):

• Pobre discriminação devido ao algoritmo detreinamento, o qual maximiza a verossimilhançaem lugar das probabilidades a posteriori.

• Uma escolha a priori da topologia do modeloe distribuições estatísticas, ou seja, assumir queas funções de densidade de probabilidade as-sociadas com os estados em HMM podem serdescritas como (misturas de) densidades Gaus-sianas Multivariadas, cada uma com uma matrizde covariância diagonal (ex. no sinal de fala, apossível correlação entre os componentes dos ve-tores acústicos é desconsiderada).

• Assume-se que a sequência de estados sãocadeias de Markov de primeira ordem (as prob-abilidades de emissão e transição dependem sódo estado atual).

• Assume-se que as observações de entrada não es-tão correlacionadas no tempo. Deste modo, con-siderando a topologia de HMM, a possível corre-lação temporal produto das características associ-adas dentro de um mesmo estado é simplesmenteignorada.

Com o objetivo de superar alguns destes prob-lemas, vários pesquisadores concordam com a inte-gração de redes neurais artificiais ao formalismo dasHMMs. Neste sentido, as redes neurais recorrentespodem ser utilizadas também para codificar e recon-hecer padrões em estruturas sequenciais. O estudo re-alizado por Sun et al. (Sun et al., 1990) mostra comoas HMMs podem ser considerados como um caso es-pecial de redes neurais recorrentes de segunda ordem,onde o algoritmo Baim-Welch comumente utilizadoem HMM pode ser utilizado na aprendizagem de umarede neural recorrente linear.

Nas redes neurais recorrentes não se distingue en-tre variáveis de entrada e variáveis de saída porquea saída de um neurônio (unidade de processamento)pode servir como entrada realimentada do mesmoneurônio. O conjunto de valores de saída atuais dosneurônios chama-se o estado da rede. Com os padrõesde atividade neural representando estados internos deum sistema de evolução temporal, as iterações deuma rede neural recorrente representam a dinâmica se-quencial do sistema (Rauber, 2005). Com este tipode rede, pode-se recuperar informação memorizada,mesmo com informação inicial incompleta, corromp-ida ou parcialmente errada. Neste trabalho, propõe-sea utilização de redes neurais recorrentes lineares comoalternativa ao uso de HMM, na aplicação específica dainferência de atividades humanas.

Um exemplo de rede recorrente é o modelo pro-posto por Hopfield (Hopfield et al., 1986), que in-troduziu uma representação matemática inspirada nofuncionamento biológico dos neurônios cerebrais, per-mitindo aos computadores ter a capacidade de “lem-brar” padrões previamente aprendidos. O modelo deHopfield tem sido amplamente citado na literaturae deu lugar a novos enfoques baseados na conexão

recorrente de neurônios artificiais, para uma diversi-dade de aplicações, principalmente aquelas que fazemuso de memória associativa.

A finalidade da rede é memorizar n padrões xpde um conjunto de padrões T = {xp}n

p=1. A redetem que responder nas saídas com o estado x(t) = xp,quando esse mesmo estado for apresentado inicial-mente à rede, ou seja, x(0) = xp. A resposta deveriaser também o padrão memorizado, mesmo se o estí-mulo inicial somente for semelhante a um dos padrõesmemorizados, ou seja x(0)≈ xp, considerando a semel-hança entre dois padrões binários xp = (xp1, ...xpH)

T

e xq = (xq1, ...,xqH)T como uma medida de distância

entre eles. No trabalho aqui apresentado, esta medidaé obtida utilizando a distância de Hamming entre ospadrões (Mandic e Chambers, 2001).

Embora outras técnicas presentes na literaturaconsideram diferentes enfoques preditivos, como éo caso de POMDP (em inglês Partially ObservableMarkov Decision Process), este trabalho busca apre-sentar algumas diferencias estruturais de ambos os en-foques preditivos referidos inicialmente, na justifica-tiva da metodologia a seguir.

4 Metodologia proposta

Após a identificação de ações da pessoa realizada porum sistema de reconhecimento, como o detalhado emRomero et al. (2012), a inferência de atividades (comuma relação ações-atividade previamente definida) érealizada mediante um modelo de estados represen-tado pela rede neural recorrente. Os modelos mostra-dos a seguir estão baseados na rede de Hopfield, naqual os estados estáveis são determinados na etapa detreinamento. A informação a ser treinada correspondea padrões de dimensão 6, e suas características po-dem ter dois valores possíveis, 1 e -1, como mostraa Figura 4.

Atividade n

1/-1 1/-1 1/-11/-11/-1 1/-1

1/-1 1/-1 1/-11/-11/-1 1/-1

1/-1 1/-1 1/-11/-11/-1 1/-1

1/-1 1/-1 1/-11/-11/-1 1/-1

1/-1 1/-1 1/-11/-11/-1 1/-1

1/-1 1/-1 1/-11/-11/-1 1/-1

AÇÃOAn

Meta-dadon 1/-1 1/-1 1/-11/-11/-1 1/-1

Rede Neural Recorrente

Figura 4: Ilustração da composição de uma ação ouinformação de contexto relacionada (acima) e dis-tribuição de neurônios para o aprendizado de ativi-dades (abaixo).

A dimensão dos padrões mencionados foi estab-elecida seguindo uma representação baseada na tabela

de caracteres ASCII de seis bits, a qual permitiu sim-ular a identificação de até 26 ações possíveis.

Considerando a dimensão dos padrões escolhi-dos, conseguiu-se a identificação de até 36 atividades(descartando repetições que possam favorecer a pon-deração de alguma ação em particular). Cabe men-cionar que ações possíveis, assim como o número deatividades a reconhecer, crescem exponencialmentecom o incremento do tamanho do padrão selecionado.

O custo computacional deste tipo de rede é um as-pecto que tem sido amplamente discutido na literatura.No entanto, novas técnicas baseadas em matriz esparsae abordagens de processamento usando GPU (Graph-ics Processing Unit) (Yao et al., 2013), (Stroffek eMarsalek, 2012), fazem do método proposto neste tra-balho uma abordagem aplicável a circunstâncias atu-ais.

As combinações balanceadas (não repetidas) dospadrões na rede permitem a distribuição equitativa dasprobabilidades de cada estado. No entanto, duranteo processo de treino, estas probabilidades são bal-anceadas em favor do estado mais ativo. Neste sen-tido, e em correspondência à configuração da rede naFigura 4, se para uma atividade Actx, uma ação repete-se mais de uma vez, esta ação terá um peso maior paradescrever a própria atividade e terá influencia na total-idade da rede. Desta forma, é possível manter a esti-mação correta na presença de ações que não pertencemà atividade sendo executada.

Esta é uma propriedade essencial desde o pontode vista da computação ubíqua, considerando que cadapessoa pode realizar ações diferentes durante a re-alização de uma mesma atividade, incluindo aque-las que formam parte de outras previamente treinadas(Figura 5). A rede valoriza ações representativas den-tro de uma atividade em particular. Assim, as ativi-dades candidatas podem mudar repentinamente du-rante o aparecimento de uma ação com peso maior,no âmbito de todas as atividades aprendidas.

Sa Sb Sc Sd Se

Sg Sh Si Sj Sk

Sm Sn So Sp Sq

Ss St Su Sv Sw

Sy Sz S@ S. S,

Sf

Sl

Sr

Sx

S[

Atividade B

Sa Sb Sc Sd Se

Sg Sh Si Sj Sk

Sm Sn So Sp Sq

Ss St Su Sv Sw

Sy Sz S@ S. S,

Sf

Sl

Sr

Sx

S[

Atividade B

Atividade ACandidata

Atividade A

Atividade C

Atividade D

Atividade n

Atividade CCandidata

Atividade DCandidata

Atividade n

Processo de Recuperação

Processo de Treino

Eventos Observados

Eventos Observados

Figura 5: Exemplo de ativação de estados para apredição de atividades.

Na fase de “recuperação” (termo adotado paraas redes neurais com propriedades de memória as-sociativa) (Stroffek e Marsalek, 2012), as ações re-conhecidas pelo sistema de visão computacional, ati-varão seu estado correspondente na rede em cada umadas atividades, aproximando-se com cada nova ação à“forma” treinada da mesma. As variações de “forma”do padrão estimado são comparadas com os padrõestreinados usando uma medida de distância de Ham-ming (Mandic e Chambers, 2001) para cada nova açãoapresentada à rede.

5 Resultados

A implementação da metodologia descrita na seçãoanterior deu lugar ao desenvolvimento do sistema dereconhecimento de emoções denominado “EmotionViewer”. Este sistema integra os resultados obtidosem Romero et al. (2012) para a identificação on-linede movimentos humanos, servindo como base para osmétodos propostos neste trabalho. A Figura 6 apre-senta a captura de tela de diferentes partes do sistema,entre eles as imagens expressivas que são mostradasao usuário; os padrões de movimento gerados pelo sis-tema de reconhecimento online de expressões corpo-rais (Romero et al., 2012); e a convergência do modeloao estado mais provável.

Figura 6: Captura de tela das diferentes etapas do sis-tema integrado “Emotion Viewer”.

A Figura 7 mostra um exemplo do processo derecuperação de informação para a predição de umaatividade. À medida que uma nova ação é recon-hecida pelo sistema de visão, a rede apresenta um novopadrão baseado no nó mais representativo, identifi-cado no processo de treino. O padrão resultante é com-parado com outros padrões possíveis usando medições

AÇÃOA

Informação não

conclusiva

t1

AÇÃOB

AÇÃOC

AÇÃOD

AÇÃOE

Meta-dado1

AÇÃOA

t2

AÇÃOB

AÇÃOC

AÇÃOD

AÇÃOE

Meta-dado1

AÇÃOA

t3

AÇÃOB

AÇÃOC

AÇÃOD

AÇÃOE

Meta-dado1

AÇÃOA

tn

AÇÃOB

AÇÃOC

AÇÃOD

AÇÃOE

Meta-dado1

Atividade A1Candidata

Atividade A2Candidata

Atividade A3Candidata

Atividade A1Candidata

Atividade A2Candidata

Atividade An

Figura 7: Exemplo do processo de recuperação de in-formação da atividade em função das ações e dados doambiente identificados.

da distância de Hamming. Valores de distância entre opadrão resultante e os padrões candidatos fora de umlimiar predefinido são considerados como informaçãonão conclusiva, colocando a interface do usuário à es-pera de um novo gesto ou ação.

6 Conclusões

Neste trabalho apresentou-se um enfoque para in-ferência de atividades humanas baseado na associ-ação de movimentos reconhecidos com um sistemade visão computacional. Duas abordagens principaisforam analisadas (Modelos Ocultos de Markov e Re-des Neurais Recorrentes), as quais foram identificadasna revisão do estado da arte como tendências atuaisna solução de problemas relacionados com a análiseautomática de comportamento humano. Adicional-mente, foi proposta uma técnica para inferência deatividades, que considera ações preponderantes e queincorpora o suporte de duas propriedades comuns, pre-sentes nas tarefas cotidianas humanas: a primeira, ofato de que várias pessoas podem executar diferentesações na realização de uma mesma atividade; e a se-gunda, a inclusão de informação contextual, a qualinflui no critério de decisão durante a inferência au-tomática de atividades do cotidiano.

Detalhou-se o contexto no qual o uso de re-des neurais recorrentes na representação de ações hu-manas podem contribuir na adaptação do sistema asituações com um considerável nível de complexidadedesde o ponto de vista dos modelos ocultos de Markov.

O modelo proposto valoriza ações representativasdentro de uma atividade em particular. Desta forma,as atividades candidatas podem mudar repentinamentedurante o aparecimento de uma ação com peso maior,no âmbito de todas as atividades aprendidas.

O entendimento automático de ações e expressõescorporais humanas tem implicações diretas na formade interagir com os computadores. A robótica de

serviços é uma das mais promissoras áreas de apli-cação. Neste contexto, aplicações de supervisão, in-terfaces com interação natural, reabilitação física, co-municação e segurança, são possibilidades a seremconsideradas. Detectores automáticos de emoções eestados de ânimo, incluindo fadiga, depressão e an-siedade, poderiam também conformar um passo im-portante para o bem-estar pessoal e para as tecnologiasassistivas.

Agradecimentos

Este Projeto de Pesquisa é financiado pelo ProgramaPrimeiros Projetos, Edital CNPq/FAPES No. 02/2011,e pelo CNPq, através de bolsa de doutorado para oprimeiro autor.

Referências

Bourlard, H. e Bengio, S. (2002). Hidden markovmodels and other finite state automata for se-quence processing, The MIT Press.

Chen, C.-C. e Aggarwal, J. (2011). Modeling hu-man activities as speech, Computer Vision andPattern Recognition (CVPR), 2011 IEEE Confer-ence on, pp. 3425–3432.

Derrode, S. e Pieczynski, W. (2004). Signaland image segmentation using pairwise markovchains, Signal Processing, IEEE Transactions on52(9): 2477–2489.

Ephraim, Y. e Roberts, W. J. J. (2009). An emalgorithm for markov modulated markov pro-cesses, Signal Processing, IEEE Transactions on57(2): 463–470.

Gu, T., Wang, L., Wu, Z., Tao, X. e Lu, J. (2011). Apattern mining approach to sensor-based humanactivity recognition, Knowledge and Data En-gineering, IEEE Transactions on 23(9): 1359–1372.

Guo, D. e Zhang, Y. (2012). Novel recurrent neu-ral network for time-varying problems solving[research frontier], Computational IntelligenceMagazine, IEEE 7(4): 61–65.

Hopfield, J. J., Tank, D. W. et al. (1986). Com-puting with neural circuits- a model, Science233(4764): 625–633.

Jalal, A., Uddin, M. e Kim, T. S. (2012). Depth video-based human activity recognition system usingtranslation and scaling invariant features for lifelogging at smart home, Consumer Electronics,IEEE Transactions on 58(3): 863–871.

Khattak, A., Pervez, Z., Ho, K. K., Lee, S. e Lee,Y.-K. (2010). Intelligent manipulation of hu-man activities using cloud computing for u-life care, Applications and the Internet (SAINT),

2010 10th IEEE/IPSJ International Symposiumon, pp. 141–144.

Kim, E., Helal, S. e Cook, D. (2010). Human activ-ity recognition and pattern discovery, PervasiveComputing, IEEE 9(1): 48–53.

Mandic, D. P. e Chambers, J. (2001). Recurrent neuralnetworks for prediction: Learning algorithms,architectures and stability, John Wiley & Sons,Inc.

Nishide, S., Tani, J., Okuno, H. e Ogata, T. (2012).Self-organization of object features represent-ing motion using multiple timescales recurrentneural network, Neural Networks (IJCNN), The2012 International Joint Conference on, pp. 1–8.

Piyathilaka, L. e Kodagoda, S. (2013). Gaussianmixture based hmm for human daily activityrecognition using 3d skeleton features, IndustrialElectronics and Applications (ICIEA), 2013 8thIEEE Conference on, pp. 567–572.

Rabiner, L. (1989). A tutorial on hidden markov mod-els and selected applications in speech recogni-tion, Proceedings of the IEEE 77(2): 257 –286.

Rauber, T. W. (2005). Redes neurais artificiais, Depar-tamento de informática-Universidade Federal doEspiríto Santo .

Romero, D., Vintimilla, B., Frizera, A. e Bastos,T. (2012). Rwe patterns extraction for on-line human action recognition through window-based analysis of invariant moments, Robocon-trol (2012), Bauru -SP.

Ryoo, M. S. (2011). Human activity prediction: Earlyrecognition of ongoing activities from streamingvideos, Computer Vision (ICCV), 2011 IEEE In-ternational Conference on, pp. 1036–1043.

Stroffek, J. e Marsalek, P. (2012). Short-term potenti-ation effect on pattern recall in sparsely codedneural network, Neurocomputing 77(1): 108–113.

Sun, G., Chen, H., Lee, Y. e Giles, C. (1990). Recur-rent neural networks, hidden markov models andstochastic grammars, Neural Networks, 1990.,1990 IJCNN International Joint Conference on,pp. 729–734.

Tu, Z. e Zhu, S.-C. (2002). Image segmentation bydata-driven markov chain monte carlo, PatternAnalysis and Machine Intelligence, IEEE Trans-actions on 24(5): 657–673.

Yao, Z., Gripon, V. e Rabbat, M. (2013). A massivelyparallel associative memory based on sparse neu-ral networks, arXiv preprint arXiv:1303.7032 .