UNIVERSIDADE DE SÃO PAULO Escola de Engenharia de São ...iris.sel.eesc.usp.br/weblab/faq/GestosDeMao.pdfteclado, mouse, joysticks) os quais reduziram a efetividade e naturalidade

Reconhecimento de Gestos de Mão

UNIVERSIDADE DE SÃO PAULO Escola de Engenharia de São Carlos - EESC

Reconhecimento de Gestos de Mão Orientador : Prof.Adilson Gonzaga Nome : Hebert Luchetti Ribeiro

Documento em (PDF)

- 1 -


- 2 -

Resumo Esse documento trata de um estudo da literatura sobre reconhecimento de gestos de mão baseado em visão por computador. Descrevem os principais assuntos de pesquisa, técnicas, aplicações e recursos em reconhecimento de gestos de mão baseado em visão por computador. Baseado nos artigos: 1

“A Brief Overview of Hand Gestures used in Wearable Human Computer Interfaces”. Technical report: CVMT 03-02, ISSN: 1601-3646 Thomas B. Moeslund and Lau Nørgaard Laboratory of Computer Vision and Media Technology Aalborg University, Denmark E-mail: [email protected]

2 “Uma Revisão sobre Reconhecimento de Gestos” Roberto Cesar Marcondes Jr. Julho de 2000 http://www.vision.ime.usp.br/~carpadi/gestos/revgest

3

“Skin color segmentation method based on mixture of Gaussians and its application in Learning System for Finger Alphabet” Peter Gejgus, Jaroslav Placek, Martin Sperka International Conference on Computer Systems and Technologies - CompSysTech’2004

mailto:[email protected]

http://www.vision.ime.usp.br/%7Ecarpadi/gestos/revgest


- 3 -

Introdução A sociedade humana vive através da interação entre entidades e seu ambiente. Em nossa vida diária atuamos com outras pessoas e objetos para realizar uma variedade de ações que são importantes para nós. Computadores chegaram a ser um novo elemento da nossa sociedade. Eles possuem uma crescente influencia em muitos aspectos da nossa vida, por exemplo a forma de comunicação, a forma de realizar nossas ações, e a forma como atuamos com nosso ambiente. Assim, um novo conceito de interação tem surgido: a interação homem-computador (IHC). Embora o computador tem avançado formidavelmente, a IHC ainda se baseia sobre simples dispositivos mecânicos (como teclado, mouse, joysticks) os quais reduziram a efetividade e naturalidade de tal interação. Recentemente houve um interesse crescente em introduzir outros meios de interação homem-homem para o campo da IHC. Este novo médio inclui uma classe de dispositivos baseados no movimento espacial do braço humano: gestos de mão. Podemos definir um gesto como sendo o movimento do corpo, especialmente da cabeça e dos braços, com a finalidade de exprimir idéias, sinal ou mímica. Eles variam desde simples ações, como apontar objetos, até movimentos mais complexos que expressam sentimento ou permitem a comunicação com outras pessoas. Neste trabalho, estamos só interessados em gestos de mão. Um gesto de mão é classificado como estático ou dinâmico. Um gesto estático (ou postura) é uma configuração particular da mão e pose, representado por uma simples imagem. Um gesto dinâmico é um gesto em movimento, representado por uma seqüência de imagens. Para explorar o uso de gestos em IHC é necessário prover os médios pelos quais eles podem ser interpretados por computadores. A interpretação de gestos em IHC requer que configurações dinâmicas e/ou estáticas da mão, braço ou corpo serão medidos pelo computador. Um primeiro intento resolve este problema fazendo uso de dispositivos mecânicos que medem a mão e/ou ângulo da união do braço e a posição espacial. Por tanto, esta abordagem não satisfaz o requerimento de naturalidade que requer uma IHC. Esta limitação foi resolvida com uma abordagem baseada em visão da mão por computador . A abordagem sugere usar um conjunto de câmaras e técnicas de visão computacional para interpretar gestos. Reconhecimento de gestos é uma área de pesquisa muito ativa. T. Huang e V. Pavlovic [49] apresentam uma revisão dos trabalhos relacionados com modelagem, análise e síntese de gestos de mão. Alguns trabalhos prévios incluem o trabalho de Baudel [45] quem usou uma luva mecânica para controlar a apresentação do computador; Fukomoto [48] também desenhou um método para guiar a apresentação do computador, mas sem usar uma luva. Cipolla [46] uso um movimento rígido de uma região triangular sobre uma luva para controlar a rotação e escalamento de uma imagem de um modelo. Darell e Pentland [47] usaram modelos de vista, os quais são automaticamente treinados desde uma seqüência de imagens que representando todas as possíveis posições de mão usando correlação.


Apresentamos os principais assuntos de pesquisa em reconhecimento de gestos de mão: classificação de postura estática, reconhecimento de gestos dinâmicos, rastreamento da mão, formas de representação, e detecção da mão. Descrevemos as principais técnicas usadas para reconhecimento de gestos de mão. Interpretação a quirologia e realidade virtual são algumas aplicações apresentadas.

Classificação de Postura Estática A classificação visual de posturas de mão é um importante pré-requisito para reconhecimento de gestos. Dependendo do gesto a ser reconhecido, modelos mais ou menos complexos da mão serão apropriados. Às vezes é suficiente considerar a mão como uma elipse, enquanto que às vezes o posicionamento preciso dos dedos é crucial.

Reconhecimento de Gestos Dinâmicos É essencial para sistemas de computador possuir a habilidade de reconhecer gestos significantes se eles forem interagir naturalmente com as pessoas. As pessoas usam gestos na vida diária como um meio de comunicação, por exemplo, apontando um objeto para trazer a atenção de alguém para o objeto, acenando para um amigo, pedindo algo elevando os dedos, etc. O melhor exemplo de comunicação por gestos é determinado através da quirologia.

Detecção da Mão e Objeto A habilidade de reconhecer gestos de mão é essencial numa interface homem-computador. A cada ano, há uma quantia significante de pesquisa em reconhecimento de gestos de mão baseado em visão por computador. Uma das principais dificuldades que enfrenta a abordagem baseada em visão é a segmentação da mão em movimento desde fundos complexos. Para evitar este problema, alguns sistemas usam marcadores. Os outros usam configurações restritivas tais como fundo uniforme.

Modelagem de Gestos Um gesto é motivado por uma intenção para a realização de uma certa tarefa: indicação, rejeição, agarrando, puxando uma flor, ou simplesmente arranhando com a mão. Desde a intenção inicial até a realização final, os gestos seguem um padrão característico no espaço e tempo. Kendon [53] distingue três fases do movimento que compreende um gesto simples: preparação, curso (stroke) e retração. Propriedades deste padrão são universais e permanentes, e podem ser usados para descrever qualquer gesto particular. Quek [57] desenvolveu o seguinte conjunto de regras para a segmentação de gestos baseado no padrão de gesto anterior:

- 4 -


• Os gestos estão contidos em movimentos. • Os gestos começam com um movimento inicial lento desde a posição de descanso

(imóvel), continua com uma fase com velocidade crescente (segue o curso), e conclui retornando para posição de descanso.

• A mão assume uma particular configuração durante o curso. • Movimentos lentos entre posições de descanso não são gestos. • Gestos de mão deverão estar restringidos dentro de um certo volume - espaço de

trabalho. • Gestos de mão estáticos requerem um período finito de tempo para serem

reconhecidos. • Movimentos repetitivos podem ser gestos.

Figure 5: Phases in the Creation of a Gesture.

Ele também sugere que, com a exceção de alguns sinais na quirologia americana, o movimento de dedos individuais pode representar um gesto só quando a mão estiver imóvel. Isto nos conduz a uma forma na qual gestos de mão podem ser modelados: Gestos Estáticos da Mão são caracterizados pela postura da mão o qual é determinado por uma particular configuração do dedo-polegar-palma. Gestos Dinâmicos da Mão são caracterizados por uma configuração inicial e final do curso da mão e pelo movimento geral para seguir o curso. A configuração da mão pode mudar durante o movimento, mas a mudança não contém informação do gesto e assim pode ser desconsiderada.

Análise Baseada no Modelo 3D da Mão Uma abordagem usada em reconhecimento de gesto de mão é construir um modelo tridimensional (3D) da mão. O modelo é emparelhado a imagens da mão obtidas por um ou mais câmaras, e são calculados parâmetros que correspondem a orientação da palma e ângulos de junção. Então os parâmetros são usados para obter a classificação dos gestos. Downton e Drouet [50] desenvolveram um sistema que rastreia o movimento dos membros humanos em uma sucessão de imagens usando um modelo cilíndrico generalizado de um humano. Este mesmo modelo também foi usado por Etoh, Tomono e Kishino [51]. Um sistema de reconhecimento de gestos de mão chamado de DigitEyes o qual usa um modelo cilíndrico kinetic da mão com 27 graus de liberdade foi projetado por Rehg e Kanade [58]. As pontas dos dedos e ligações foram escolhidas como as características e

- 5 -


- 6 -

foram extraídas desde uma única imagem ou imagens estereoscópicas que usam uma análise baseada em contorno num fundo restritivo. Um sistema de análise de gestos de mão baseado, no modelo esquelético da mão, com 27 graus de liberdade foi desenvolvido pelo Lee e Kunii [55]. Eles incorporaram cinco principais restrições baseadas na cinemática da mão para reduzir a busca espacial. Para simplificar o modelo, luvas especialmente marcadas foram usadas.

Análise Baseada em Marcadores e Luvas Marcadas A mão como uma forma geométrica é um volume não convexo. Tentar descobrir a configuração da mão através de imagens de câmeras é uma difícil, se não impossível, tarefa. Para superar este problema algumas das técnicas em reconhecimento de gestos de mão usam um sistema de marcadores. Usualmente os marcadores são colocados nas pontas dos dedos. Eles estão coloridos de tal forma que são facilmente detectáveis através de uma análise do histograma da imagem. Uma vez que os marcadores são descobertos e são rastreados (tracked), o reconhecimento do gesto pode ser realizado usando diferentes técnicas de classificação. Torige e Kono [63] projetaram um sistema de reconhecimento de gestos que especifica a direção do movimento da mão. Usando câmaras estereoscópicas e luvas pretas com marcadores coloridos nas pontas dos dedos, pulso, cotovelo e ombro, eles calcularam a posição dos dedos e parâmetros de movimento e os usaram para controlar um robô. Outro sistema baseado em visão que utiliza a ponta dos dedos marcados foi desenvolvido pelo Davis e Shah [48]. Ao rastrear (tracking) a ponta dos dedos em muitas imagens com fundo uniforme, o sistema calcula a trajetória do movimento e os usou para determinar o começo e o fim do gesto. Então cada gesto foi modelado por um conjunto de vetores começo-fim. Outros trabalhos relacionados são devidos a Davis e Shah [49]; Maggioni [56]; e Cipolla, Okamoto e Kuno [46].

Análise Baseada em Propriedades da Imagem Vários sistemas de reconhecimento de gestos de mão desenvolvido são baseados na extração de algumas das propriedades que estão associados com as imagens de gestos de mão. As propriedades analisadas variam de propriedades geométricas básicas (a análise de momentos da imagem) até propriedades que são o resultado de uma análise mais complexa (momentos de Zernike e redes neurais). O que é comum em todas as abordagens é que eles não resultam na estimação dos parâmetros reais da mão (como ângulos de junções). Os sistemas que usam esta análise são usados para simples rastreamento da mão e uma classificação de gestos mais complexa. Um sistema que usa um simples conjunto de imagens (perspectivas) para modelar gestos de mão foi desenvolvido por Darrell e Pentland [47]. Todo gesto de mão foi representado por seu próprio conjunto de diferentes perspectivas que foram emparelhadas depois à uma sucessão de imagens de gesto usando uma correlação temporal e uma envoltura de tempo dinâmico.Outros trabalhos relacionados são devidos a Segen [60]; Ahmad [44]; Ahmad e Tresp [45]; Starner e Pentland [61]; Schlenzig, Hunter e Jain [59]; Kjeldsen [54] e Freeman e Roth [52].


- 7 -

Reconhecimento de Gestos de Mão Os sistemas do reconhecimento do gesto no geral podem ser divididos em três componentes principais: Pré-processamento da imagem (Image Preprocessing), Rastreamento (Tracking) e Reconhecimento de Gestos (Gesture Recognition).

• Image Preprocessing: Tarefa de preparar os frames do vídeo para a análise suprimindo o ruído, extraindo indícios importantes sobre a posição das mãos e trazendo-os em uma forma simbólica. Esta etapa é freqüentemente referenciada como extração da característica (Feature Extraction).

• Tracking: É a base do pré-processamento, a posição e possivelmente outros atributos das mãos devem ser rastreados frame a frame. Isto é feito para distinguir um movimento de mão do fundo e de outros objetos em movimento, e para extrair a informação do movimento para o reconhecimento de gestos dinâmicos.

• Gesture Recognition: Baseado na posição coletada, movimento e indícios de postura são calculados se o usuário está preparando um gesto significativo.

O conhecimento sobre as mãos usadas para o rastreio e o reconhecimento pode existir em níveis diferentes de abstração. Dois enfoques principais existem nesta consideração diferenciada. Se o sistema está baseado em um modelo abstrato da mão ou no conhecimento da aparência da mão na imagem.

• Modelo Abstrato da Mão: Um modelo da mão é criado. Este modelo é combinado aos resultados do pré-processamento para determinar o estado da mão rastreada. O modelo pode ser mais ou mais menos elaborado, do modelo 3D com os 27 graus de liberdade (DOF) usados no sistema de DigitEyes [30] sobre o modelo cilíndrico kinetic da mão, até um modelo do contorno da mão visto diretamente [21]. Além do modelo da mão, um modelo de como as características da imagem que corresponde à mão real são produzidas, é requerido. Este modelo da medida é necessário a fim de determinar o estado do modelo da mão a partir da aparência da mão na imagem. Ajustar continuamente o modelo à mão nos frames de vídeo é um processo de rastrear o estado completo da mão e não apenas sua posição. Este processo é conseqüentemente chamado de rastreio baseado em estado. Se o modelo possuir um número suficiente de graus de liberdade internos, o reconhecimento de gestos estáticos, pode ser reduzido à inspeção do estado.

• Aparência da Mão na Imagem:


- 8 -

Esse rastreamento é baseado na representação aprendida a partir de um grande número de imagens de treinamento. Como nenhum modelo de mão explícito existe, todos os graus de liberdade internos não precisam ser modelados especificamente. Quando somente a aparência da mão nos frames de vídeo for conhecida, diferenciar-se entre gestos não é direto como no enfoque baseado no modelo abstrato de mão. O reconhecimento do gesto, conseqüentemente envolverá tipicamente algum tipo de classificador estatístico baseada em um conjunto de características que representam a mão.

Interação por Gestos de Mão Uma grande parte da literatura sobre reconhecimento de gesto trata de identificar conjuntos de gestos dinâmicos como comandos individuais para um computador ou com o objetivo final de compreender linguagem de sinais. Um exemplo recente é [35] que propõe reconhecer a linguagem de sinais para computadores desktop e portáteis. O reconhecimento é baseado na segmentação da cor da pele para extrair a posição, forma, movimento e orientação das mãos. As mãos são modeladas como elipses, e o sistema pode obter um desempenho bom sem modelagem individual dos dedos. Usando modelos ocultos de Markov (Hidden Markov Models-HMM) é obtido reconhecimento contínuo de sentenças de linguagem de sinais, embora o vocabulário seja limitado a quarenta palavras. O reconhecimento baseado na aparência de gestos estáticos é apresentado em [1], onde as letras do alfabeto da mão são reconhecidas pela análise do componente principal (PCA) e por um classificador Bayessiano. A aparência dos sinais individuais é aprendida a partir de um grande número imagens de treinamento. O PCA é usado para criar um espaço com característica de dimensional baixo em que as mãos localizadas nos frames de vídeo podem ser comparadas com as classes que representam os gestos definidos. As classes e o classificador correspondente são criados em um processo de aprendizagem externo. Este é o princípio das "eigen-hands" inspiradas pelas "eigen-faces", que são usados no reconhecimento de faces, ver [37]. O problema principal com estes modelos baseados na aparência é que são vista-dependentes e requerem conseqüentemente vistas múltiplas no treinamento, ver [6]. Além do trabalho de como detectar e reconhecer gestos, a pesquisa é feita sobre o projeto dos conjuntos intuitivos e naturais de gestos [23], e como os gestos e a linguagem do corpo são usados como parte de uma comunicação inter pessoal [3].


Rastrear Mão ou Dedo Descrição mais detalhada.das três classes de taxonomia:

Processamento da Imagem (Image Preprocessing)

• Segmentação por Pixel (Pixel level Segmentation) As regiões dos pixels que correspondem à mão são extraídas pela segmentação da cor ou pela subtração do fundo. A maior mancha da imagem segmentada será considerada como região da mão. Então o contorno da mão é extraído para o processamento seguinte. As regiões detectadas são analisadas então para determinar a posição e a orientação da mão. A cor da pele humana varia extremamente entre indivíduos e sob alteração de iluminação. Algoritmos avançados de segmentação, que podem lidar com isso, foram propostos [43][5], entretanto estes são exigentes computacionalmente e ainda são sensíveis à rápidas mudanças ou variações de luz. Além disso, a segmentação pela cor pode ser confundida por objetos no fundo com uma cor similar à da pele. A subtração do fundo trabalha somente em um fundo conhecido ou no mínimo um fundo estático, e conseqüentemente não é utilizável para uso móvel. Existem alternativas que usam marcadores nos dedos [39] ou usam luz infravermelha para realçar os elementos de pele na imagem, veja [26]. • Segmentação por Mistura Gaussiana (MIXTURE OF GAUSSIANS) Usando-se o método estocástico para segmentar áreas com cor de pele (correspondente às mãos) na seqüência da imagem, obtém-se um método robusto as várias cores de pele de diferentes raças humanas. O modelo estocástico gaussiano Unimodal não é suficiente para a segmentação apropriada para esta tarefa. O modelo de mistura gaussiana é definido como: A distribuição da probabilidade de um vetor x de cor D-dimensional (2-dimensional em nosso caso, porque usamos o espaço de cores cromáticas) é representado por funções de mistura de base M ponderadas (componentes) como:

A mistura do parâmetro P(j) corresponde à prévia probabilidade que o dado x foi gerado pelo componente j. Cada componente da mistura, p(x|j), é um gaussiano da forma:

Onde o µj é a média e Σj é a matriz covariância, j é a determinante do ⎟Σj⎟. Usamos as funções base para representar regiões com propriedade de cor diferente no modelo de

- 9 -


mistura gaussiana de cor. O algoritmo Expectation-Maximization (EM) é utilizado para determinar os melhores parâmetros Σj, µj e P(j).

EM - Algoritmo Expectativa-Maximização (Expectation-Maximization algorithm). Dado o número M da mistura gaussians na região, o algoritmo EM maximiza a probabilidade:

N é o número de pixels numa região investigada, Dados N pixels de uma superfície xi, i = 1, …, N, Expectativa-Maximização fornece um efetivo algoritmo de probabilidade máxima para conhecimento de um modelo de mistura gaussiana [29][31]. A etapa de expectativa (E) consiste em avaliar a posterior probabilidade P(j | xi) para cada componente de mistura j:

Somando-se essas probabilidades

A etapa de maximização (M) então atualiza os componentes de mistura como a seguir:

Como visto na equação (4), as posteriores probabilidades dependem da estimativa do parâmetro Gaussiano, as quais de acordo com as equações (5) e (6) dependem das posteriores probabilidades. As etapas (M) e (E) são repetidas até a convergência. Se M=1, os parâmetros Gaussianos são calculados diretamente. Existem algumas técnicas para estimativas iniciais de números de mistura Gaussiana, descritas em [29].

• Segmentação por Movimento (Motion Segmentation) Os objetos móveis no stream de vídeo podem ser detectados pelo cálculo das diferenças dos inter frame e fluxo ótico. Em [41], é apresentado um sistema capaz de rastrear objetos móveis em um fundo móvel com câmera portátil. Entretanto, tal sistema pode não detectar uma mão imóvel ou determinar qual dos diversos objetos que se movem é a mão.

- 10 -


- 11 -

• Detecção de Contorno (Contour Detection) Muita informação pode ser obtida apenas extraindo os contornos dos objetos dentro da imagem [11]. O contorno representa a forma da mão e é conseqüentemente não diretamente dependente da cor da pele e das condições de luz. Extrair contornos por detecção de borda resulta em um grande número bordas, tanto da mão rastreada como do fundo. Portanto alguma forma de pós-processamento inteligente é necessária para fazer um sistema confiável.

• Correlação (Correlation) Uma mão ou uma ponta de dedo pode ser procurada em um frame comparando áreas do frame com uma imagem modelo (template) da mão ou da ponta de dedo [4] [25]. Para determinar onde o alvo está, o modelo deve ser traduzido sobre alguma região de interesse e ser correlacionado com a vizinhança de cada pixel. O pixel resultante com a correlação mais elevada é selecionado como a posição do objeto alvo. Além de ser computacionalmente exigente, a correspondência com o modelo não pode lidar com mudança de tamanho e nem a rotação do objeto alvo. Este problema pode ser contornado continuamente atualizando modelo [4], com o risco de terminar o rastreio com algo além da mão.

Rastreamento (Tracking) Na maioria dos métodos de processamento de baixo nível, é necessária uma camada de rastreamento para identificar as mãos e seguí-las frame a frame. Dependendo da natureza de extração de característica de baixo nível, isto pode ser feito diretamente rastreando uma proeminente característica ou calculando o movimento e a posição da mão no conjunto inteiro de características.

• Rastreio com Filtro de Kalman Uma maneira de resolver o problema de rastrear o movimento de um objeto frame a frame é usando um filtro de Kalman. O filtro de Kalman modela as propriedades dinâmicas do objeto rastreado como também as incertezas do modelo dinâmico e as medidas de nível baixo. Conseqüentemente a saída do filtro é uma distribuição da probabilidade que representa o conhecimento e a incerteza do estado do objeto. A estimativa da incerteza pode ser usada para selecionar o tamanho da área de busca em que se irá procurar o objeto no frame seguinte. O filtro de Kalman é uma solução elegante e facilmente computável em tempo real. Entretanto, a distribuição da probabilidade do estado do objeto é supostamente Gaussiana. Como este geralmente não é o caso, especialmente na presença do fundo confuso, o filtro de Kalman, em sua forma básica, não assegura robustez no rastreio em tarefas no mundo real com fundo desconhecido [11] [19]. Entretanto em um fundo controlado os resultados obtidos podem ser bons [30].

• CONDENSAÇÃO (CONDENSATION) Uma tentativa de evitar a suposição limitada da distribuição normal inerente no filtro de Kalman foi apresentada em [11] e denotou o algoritmo da CONDENSAÇÃO. A aproximação é para modelar a distribuição de probabilidade com o conjunto aleatório de partículas e executar todos os cálculos envolvidos neste conjunto de partículas.


- 12 -

O grupo dos métodos, ao qual o algoritmo da CONDENSAÇÃO pertence, é geralmente referenciado como: Métodos de amostragem aleatória (Random sampling methods), métodos seqüênciais de Monte Carlo (sequential Monte Carlo methods) ou filtros de partícula (particle filters). Resultados muito promissores foram obtidos usando a amostragem aleatória em uma variedade de aplicações em fundos complexos. [8] e [9] propõem uma combinação da aparência baseada em rastreio eigen (eigen tracking) [2] e CONDENSAÇÃO para reconhecimento do gesto. Os métodos seqüênciais de Monte Carlo e os modelos adaptáveis de cor são usados em [28] fornecendo rastreio robusto dos objetos que se submetem a mudanças bruscas de forma. Nas tarefas de rastreio de face e de mão, os indícios do movimento são combinados com a informação de cor para eliminar os objetos fixos de cores próximas a pele como portas de madeira e mesas. [22] usa segmentação de cor de pele, crescimento e CONDENSAÇÃO da região para rastrear simultaneamente ambas as mãos. As soluções para lidar com oclusões são propostas resultando confiáveis operações mesmo quando manchas correspondem a sobreposição de mãos por períodos prolongados. Em [15] um modelo de mão, composto por manchas e arestas de diferentes escalas representando a palma, os dedos e pontas de dedos, é usado com filtro de partícula para rastrear a posição da mão e a configuração dos dedos. O desempenho em tempo real é obtido, mas o espaço e estado do modelo são limitados à 2D translação, rotação planar, mudança de escala e o número dos dedos estendidos. [21] propõe um método, chamado amostragem dividida (Partitioned Sampling), para rastreio de objetos articulados, com filtros de partícula sem requerer uma quantidade excessiva de partículas para lidar com o espaço dimensional elevado resultante do estado. A solução é primeiramente encontrar a base do objeto e determinar então a configuração das ligações unidas de uma maneira hierárquica. Como um exemplo disto, uma aplicação de extração da mão é apresentada. A amostragem dividida é usada primeiramente localizando a palma e subseqüentemente determinando os ângulos entre a palma e o polegar e o dedo indicador. Estes ângulos são usados para diferenciar entre um número pequeno de gestos correspondentes para controle da extração. O Rastreio é baseado em uma descrição da ranhura do contorno da mão que está sendo ajustado às bordas na imagem e combinada com cor da pele correspondência (skin color matching) como apresentada em [19] e [20]. Modelos detalhados do movimento e subtração do fundo são usados para limitar o efeito da desordem.

Reconhecimento (Recognition) Geralmente, algoritmos clássicos na área de reconhecimento de padrões são aplicados. São modelos ocultos de Markov, correlação, e redes neurais. Especialmente os dois primeiros


- 13 -

tem sido usados com sucesso enquanto redes neurais têm problemas em modelar padrões não gestuais [17].

• Modelos de Markov Oculto Os Modelos de Markov Oculto (MMO) [50] foram conhecidos na literatura por muito tempo. MMOs podem ser empregados para construir um modelo estocástico de uma seqüência de observações variando no tempo por remover a dependência do tempo. Um MMO consiste de um conjunto de estados, um conjunto de símbolos de saída, probabilidades de transição de estados, probabilidades de símbolo de saída, e probabilidades de estados iniciais.

Nesse modelo são usadas seqüências de imagens para treinar MMOs. O casamento de uma seqüência desconhecida com um modelo é feito através do cálculo da probabilidade que um MMO pudesse gerar a particular seqüência desconhecida. O MMO que dá a probabilidade mais alta é o que provavelmente gerou aquela seqüência.

Conclusões Os métodos escolhidos para utilizamos no nosso processo são definidos abaixo: 1. Segmentação com Skin Color por Mixture of Gaussians :

Na primeira fase do processo de compreensão da imagem, necessitamos separar os objetos que queremos analisar, i.e., selecionar pixels da imagem pertencentes àquele objeto. A segmentação simples pela limiarização (thresholding) por cor pode ser insuficiente neste caso. Segundo o artigo [24] o método apropriado para a segmentação de pele humana é a baseada com mistura Gaussiana (mixture of Gaussians).

2. Detecção de contornos com algoritmo CONDENSATION: O rastreador aplica uma detecção de contornos no corrente frame de vídeo e remove todos contornos correspodentes ao fundo. Também se utiliza da detecção de movimento para localizar o objeto de interesse na cena. Um rastreador de pulso baseado em filtro de partículas (Algoritmo CONDENSATION) possibilita rastrear a posição, orientação e tamanho do pulso.

3. Reconhecimento de gestos com tranformada circular de Hough:

As pontas dos dedos podem ser localizadas procurando-se por círculos na imagem de contorno da mão. Estimamos os raios das pontas dos dedos a partir do tamanho da palma da mão. Aplicando-se tranformada circular de Hough à imagem do contorno da mão para detectar os padrões circulares e a localização real da ponta do dedo.

Processamento Proposto O diagrama da fila de processamento ilustrado abaixo mostra as etapas do processo. Após a captação da imagem, a segmentação ocorre onde os pixels que pertencem às mãos do usuário são separados do fundo, composto da roupa do usuário, móveis, etc.


Antes da detecção do contorno, o pré-processamento da imagem pode ser aplicado. O algoritmo do reconhecimento é baseado somente em contornos, portanto rápido o bastante para se trabalhar em tempo real.

Segmentação As regiões dos pixels que correspondem à mão são extraídas pela segmentação da cor ou pela subtração do fundo. A maior mancha da imagem segmentada será considerada como região da mão. Então o contorno da mão é extraído para o processamento seguinte. As regiões detectadas são analisadas então para determinar a posição e a orientação da mão.

Imagem de vídeo de entrada de um usuário. Detecção da região com cor

de pele (skin region). Extração do contorno da mão.

A segmentação é parte crucial do processo, porque se não ocorrer essa segmentação da imagem corretamente, uma análise posterior pode ser impossível. O método descrito de segmentação explora a mistura Gaussiana consegue resultados bem aceitáveis mesmo quando a imagem de entrada não é de alta qualidade.

- 14 -


A figura abaixo contém a comparação de três métodos de segmentação.A três imagens superiores representam a imagem da mão após a segmentação por simples limiarização (threshold), segmentação por amostrai de múltiplas cores (multiple color sample) e o método de cor da pele (skin color method). Para acentuar as diferenças entre os métodos, as imagens inferiores contém o resultado da segmentação após a sucessiva aplicação do filtro de média. (median filter).

A segmentação por limiarização simples de canais cores [33] é fortemente dependente da homogeneidade da cor da mão. Se uma região da mão possui mais brilho que outras partes, essa não será selecionada ou regiões não desejadas da imagem serão selecionadas. Em outros casos, valores de limiar podem não ser capazes de separar a mão precisamente devido a diferença de iluminação na mão. O método de segmentação por amostras de multiplas cores é baseado na seleção de cores pouco representativas e no processo de segmentação apenas pixels com cores muito próximas as fornecidas como amostra são selecionadas. Os resultados são melhores por simples limiarização. O terceiro método é de segmentação por mistura Gaussiana. Em [34] foi mostrado que o modelo de mistura Gaussiana alcança melhores resultados que o modelo Unimodal Gaussiano. Na figura anterior é claro que esse modelo é muito eficiente para o próximo processamento que os dois anteriores.Três misturas Gaussianas foram usadas nesse caso. Para tempo real o uso de filtro de média não é eficiente por causa da complexidade computacional. Os contornos detectados de uma imagem segmentada pura são filtrados porque os contornos são conjuntos de XY coordenadas 1-Dimensional com comprimento de 1000 a 4000 pontos. A filtragem gasta apenas fragmentos desprezíveis do tempo do processador em comparação com o filtro da média de uma imagem completa.

- 15 -


Detecção de Contorno por Segmentação e Filtro Rastreador de Partícula O método utiliza rastreador de multiplos objetos (François Cayouette) baseado em movimento e detecção de borda. Em suma, o rastreador aplica uma detecção de borda no frame de vídeo atual e remove todos bordas correspodentes ao fundo. Também se utiliza da detecção de movimento para localizar o objeto de interesse na cena.

Imagem Original Contornos detectados Com apenas os contornos do primeiro plano, desenvolveu-se um rastreador de pulso baseado em um filtro de partículas ( Algoritmo CONDENSATION) para rastrear a posição, orientação e tamanho do pulso. Na figura abaixo, é mostrado o modelo de observação usado para detectar características de contornos correspondentes a um pulso a partir de uma imagem de contornos. As duas linhas azuis na imagem se aproximam as bordas ao formato do pulso. E certo que a forma do pulso do usuário difere ligeiramente à do modelo, assim foi incluído um desvio de erro para detectar a característica real do contorno, representado por segmentos amarelos na imagem.

Modelo do Pulso A imagem de entrada do rastreador de pulso possui os contornos de primeiro plano. Então o rastreador faz um certo número de observações geradas a partir do modelo probabilistico prévio. As linhas vermelhas na imagem seguinte indicam a provável localização, orientação e tamanho do pulso.

- 16 -


Imagem de entrada para o rastreador As linhas vermelhas indicam a mais provável localização do pulso

Reconhecimento com Detecção de Pontas de Dedos Como o número dedos e sua posição fornecem importantes informações relacionados com a forma da mão, o primeiro passo para o reconhecimento de gesto é encontrar a posição das pontas dos dedos. O caminho a seguir é explorar a forma semi-circular da ponta dos dedos para localizá-los.

• Detecção e Rastreio das Pontas dos Dedos As extremidades da ponta de um dedo pode ser modelado como um arco circular, assim as pontas dos dedos podem ser localizadas procurando-se por círculos na imagem de contorno da mão. Estimamos os raios das pontas dos dedos a partir do tamanho da palma da mão. Aplicando-se tranformada circular de Hough à imagem do contorno da mão para detectar os padrões circulares e a localização real da ponta do dedo, irão obter da imagem de Hough, muito provavelmente, uma resposta representativa. Então, executa-se uma série de testes na imagem de Hough para retirar os falsos positivos e detecções duplicadas.

- 17 -


- 18 -

Referências Bibliográficas

[1] Henrik Birk, Thomas B. Moeslund, and Claus B. Madsen. Realtime recognition of hand alphabet gestures using principal component analysis. In 10th Scandinavian Conference on Image Analysis, Lappeenranta, Finland, 1997. [2] Michael J. Black and Allan D. Jepson. Eigentracking: Robust matching and tracking of articulated objects using a view-based representation. International Journal of Computer Vision, 26(1):63–84, 1998. [3] Justine Cassell. A framework for gesture generation and interpretation. In R. Cipolla and A. Pentland, editors, Computer Vision in Human-Machine Interaction, pages 191–215. Cambridge University Press, New York, 1998. [4] James L. Crowley, Franois Berard, and Joelle Coutaz. Finger tracking as an input device for augmented reality. In International Workshop on Gesture and Face Recognition, Zurich, Switzerland, 1995. [5] Sylvia M. Dominguez, Trish Keaton, and Ali H. Sayed. Robust finger tracking for wearable computer interfacing. In Workshop on Perspective User Interfaces, Orlando, FL, 2001. [6] H. Fillbrandt, S. Akyol, and K.F. Kraiss. Extraction of 3D Hand Shape and Posture from Image Sequences for Sign Language Recognition. In International Workshop on Analysis and Modeling of Faces and Gestures, Nice, France, 17 October 2003. [8] Namita Gupta, Pooja Mittal, Sumantra Dutta Roy, Santanu Chaudhury, and Subhashis Banerjee. Condensation-based predictive eigentracking. In Indian Conference on Computer Vision, Graphics and Image Processing (ICVGIP2002), 2002. [9] Namita Gupta, Pooja Mittal, Sumantra Dutta Roy, Santanu Chaudhury, and Subhashis Banerjee. Developing a gesture-based interface. IETE Journal of Research: Special Issue on Visual Media Processing, 48(3):237–244, 2002. [11] Michael Isard and Andrew Blake. Contour tracking by stochastic propagation of conditional density. In ECCV (1), pages 343–356, 1996. [13] M. Kohler and S. Schroter. A Survey of Video-based Gesture Recognition - Stereo and Mono Systems. Technical Report Research Report Nr. 693, Fachbereich Informatik, University of Dortmund, 1998. [15] Ivan Laptev and Tony Lindeberg. Tracking of multi-state hand models using particle filtering and a hierarchy of multi-scale image features. In M. Kerckhove, editor, Scale-Space’01, volume 2106 of Lecture Notes in Computer Science, pages 63–74. Springer, 2001. [16] J.J. LaViola. A Survey of Hand Posture and Gesture Recognition Techniques and Technology. Technical Report CS-99-11, Department oc Computer Science, Brown University, Providence, Rhode Island, 1999. [17] H.K. Lee and J.H. Kim. An HMM-based Threshold Model Approach for Gesture Recognition. Transactions on Pattern Analysis and Machine Intelligence, 21(10):961–972, 1999. [19] John MacCormick. Stochastic Algorithms for Visual Tracking: Probabilistic Modelling and Stochastic Algorithms for Visual Localisation and Tracking.


- 19 -

Springer-Verlag New York, Inc., 2002. [20] John MacCormick and Andrew Blake. A probabilistic contour discriminant for object localisation. Proc. Int. Conf. Computer Vision, 1998. [21] John MacCormick and Michael Isard. Partitioned sampling, articulated objects, and interface-quality hand tracking. In European Conf. Computer Vision, volume 2, pages 3–19, 2000. [22] James P. Mammen, Subhasis Chaudhuri, and Tushar Agarwal. Simultaneous tracking of both hands by estimation of erroneous observations. In British Machine Vision Conference (BMVC), Manchester, UK, 2001. [23] Michael Nielsen, Thomas Moeslund, Moritz Storring, and Erik Granum. A procedure for developing intuitive and ergonomic gesture interfaces for hci. In The 5th Int. Workshop on Gesture and Sign Language based Human- Computer Interaction, Genova, Italy, 15-17 April 2003. [24] Peter Gejgus, Jaroslav Placek, Martin Sperka. Skin color segmentation method based on mixture of Gaussians and its application in Learning System for Finger Alphabet. In International Conference on Computer Systems and Technologies - CompSysTech’2004. [25] Rochelle O’Hagan and Alexander Zelinsky. Finger track - a robust and realtime gesture interface. In Australian Joint Conference on Artificial Intelligence, Perth, Australia, 1997. [26] K. Oka, Y. Sato, and H. Koike. Real-Time Tracking of Multiple Fingertips and Gesture Recognition for Augmented Desk Interface Systems. In International Conference on Automatic Face and Gesture Recognition,Washington D.C., USA, May 20-21 2002. [27] V.I. Pavlovic, R. Sharma, and T.S. Huang. Visual Interpretation of Hand Gestures for Human-Computer Interaction: A Review. Transactions on Pattern Analysis and Machine Intelligence, 19(7):677–695, 1997. [28] P. Perez, C. Hue, J. Vermaak, and M. Gangnet. Color-based probabilistic tracking. In European Conference on Computer Vision, volume 1, pages 661–675, Copenhagen, Denmark, 2002. [29] A. Gupta. EM Algorithm. http://www.cse.unsw.edu.au/~akgu380/EM/EM.html. [30] James M. Rehg and Takeo Kanade. Digiteyes: Vision-based hand tracking for human-computer interaction. In Workshop on Motion of Non-Rigid and Articulated Bodies, pages 16–24, 1994. [31] J. A. Bilmes. A Gentle Tutorial of the EM Algorithm and its Application to Parameter Estimation for Gaussian Mixture and Hidden Markov Models. Technical Report ICSI-TR-97-021, University of Berkeley, 1998. [32] G. Rigoll, A. Kosmala, and S. Eickeler. High Performance Real-Time Gesture Recognition Using Hidden Markov Models. Technical report, Gerhard- Mercator-University Duisburg, 1998. [33] M. Sonka, V. Hlavac, R. Boyle. Image Processing, Understanding, and Machine Vision, 2nd edition, PWS Boston, 1998. [34] M. Sedlacek. Evaluation of RGB and HSV Models in Human Faces Detection. Central European Seminar on Computer Graphics, Budmerice, Slovakia, 2004. pp.125-131. [35] Thad Starner, Joshua Weaver, and Alex Pentland. Real-time american sign language recognition using desk and wearable computer based video. IEEE Transactions on Pattern Analysis and Machine Intelligence, 20(12):1371– 1375, 1998.


- 20 -

[37] M. Turk and A. Pentland. Eigen Faces for Recognition. Cognitive Neuro- Science, 3(1), 1991. [39] K.D. Ulhaas and D. Schmalstieg. Finger Tracking for Interaction in Augmented Environments. In International Symposium on Augmented Reality, New York, New York, 29-30 October 2001 2001. [40] R. Watson. A Survey of Gesture Recognition Techniques. Technical Report TCD-CS-93-11, Department of Computer Science, Trinity College, Dublin, Irland, 1993. [41] King Yuen Wong and Minas E. Spetsakis. Motion segmentation and tracking. In 15th International Conference on Vision Interface, pages 80–88, Calgary, Canada, 2002. [42] Y. Wu and T.S. Huang. Vision-based Gesture Recognition: A Review. In A. Braffort et al., editor, International Workshop, number 1739 in LNAI. Springer, 1999. [43] Xiaojin Zhu, Jie Yang, and Alex Waibel. Segmenting hands of arbitrary color. In International Conference on Automatic Face and Gesture Recognition, pages 446 – 453, Grenoble, France, 2000. IEEE Computer Society. [44] S. Ahmad, A usable real-time 3d hand tracker, Proceedings of the 28th Asilomar Conference on Signals, Systems, and Computer, 1994. [45] S. Ahmad e V. Tresp, Classification with missing and uncertain inputs, Proceedings of 1993 International Conference on Neural Networks, vol. 3, 1993, pp. 1949-1954. [46] R. Cipolla, Y. Okamoto e Y. Kuno, Robust structure from motion using motion parallax, Proceedings of International Conference on Computer Vision, 1993, IEEE, pp. 374-382. [47] T. Darrell e A. Pentland, Space-time gestures, Proceedings of Computer Vision and Pattern Recognition Conference, 1993. [48] J. Davis e M. Shah, Gesture recognition, Tech. Report CS-TR-93-11, Department of Computer Science, University of Central Florida, 1993. [49] to3em, Determining 3-d hand motion, Proceedings of the 28th Asilomar Conference on Signals, Systems, and Computer, 1994. [50] A. C. Downton e H. Drouet, Image analysis for model-based sign language coding, Progress in image analysis and processing II: Proceedings of the 6th International Conference on Image Analysis and Processing, 1991, pp. 637-644. [51] M. Etoh, A. Tomono e F. Kishino, Stereo-based description by generalized cylinder complexes from occluding contours, Systems and Computers in Japan 22 (1991), no. 12, 79-89. [52] W. T. Freeman e M. Roth, Orientation histograms for hand gesture recognition, International Workshop on Automatic Face- and Gesture- Recognition IWAFGR95, June 1995. [53] A. Kendon, Current issues in the study of gesture, The Biological Foundations of Gestures: Motor and Semiotic Aspects (1986), 23-47, Lawrence Erlbaum Assoc. [54] R. Kjeldsen, Visual hand gesture interpretation, IEEE Computer Society Workshop on Non-Rigid and Articulate Motion (Austin, TX), Nov. 1994. [55] J. Lee e T. L. Kunii, Constraint-based hand animation, Models and techniques in computer animation (1993), 110-127, Tokyo: Springer-Verlag. [56] C. Maggioni, A novel gestural input device for virtual reality, 1993 IEEE Annual Virtual Reality International Symposium, 1993, IEEE, pp. 118-124.


- 21 -

[57] F. Quek, Toward a vision-based hand gesture interface, Virtual Reality Software and Technology Conference, Agosto 1994. [58] J.M. Rehg e T. Kanade, DigitEyes: Vision based human hand tracking, Tech. Report CMU-CS-93-220, School of Computer Science, Carnegie Mellon University, 1993. [59] J. Schlenzig, E. Hunter e R. Jain, Vision based hand gesture interpretation using recursive estimation, Proceedings of the 28th Asilomar Conference on Signals, Systems, and Computer, 1994. [60]J. Segen, Controlling computers with gloveless gestures, Proceedings of Virtual Reality Systems, 1993. [61] T.E. Starner e A. Pentland, Visual recognition of american sign language using hidden markov models, International Workshop on Automatic Face- and Gesture- Recognition IWAFGR95, June 1995. [62] D. J. Sturman e D. Zeltzer, A survey of glove-based input, IEEE Computer Graphics and Applications 14 (1994), 30-39. [63] A. Torige e T. Kono, Human-interface by recognition of human gestures with image processing recognition of gesture to specify moving directions, IEEE International Workshop on Robot and Human Communication, 1992, pp. 105-110. [64] John MacCormick and Michael Isard. Partitioned sampling, articulated objects, and interface-quality hand tracking. In European Conf. Computer Vision, volume 2, pages 3–19, 2000.

Documents

UNIVERSIDADE DE SÃO PAULO Escola de Engenharia de São ...iris.sel.eesc.usp.br/weblab/faq/GestosDeMao.pdfteclado, mouse, joysticks) os quais reduziram a efetividade e naturalidade