Identificaçãodeobjetosemvídeosdecâmera estática

Universidade Federal de GoiásRegional Catalão

Unidade Acadêmica Especial de BiotecnologiaCurso de Bacharelado em Ciências da Computação

Identificação de objetos em vídeos de câmeraestática

Thiago Francisco de Souza Leite

Catalão – GO2018


Identificação de objetos em vídeos de câmera estática

Monografia apresentada ao Curso deBacharelado em Ciências da Computação daUniversidade Federal de Goiás – Regional Catalão,como parte dos requisitos para obtenção dograu de Bacharel em Ciências da Computação.VERSÃO REVISADA

Orientador: Prof. Dr. Sérgio Francisco da Silva

Catalão – GO2018

Ficha de identificação da obra elaborada pelo autor, através doPrograma de Geração Automática do Sistema de Bibliotecas da UFG.

Leite, Thiago Francisco de SouzaIdentificação de objetos em vídeos de câmera estática [manus-

crito] / Thiago Francisco de Souza Leite. – 2018.70 p.: il.

Orientador: Prof. Dr. Sérgio Francisco da SilvaMonografia (Graduação) – Universidade Federal de Goiás, Uni-

dade Acadêmica Especial de Biotecnologia, Ciências da Computa-ção, 2018.

Bibliografia.

1. Identificação de objetos. 2. Extratores de características.3. Redução de dimensionalidade. 4. Análise de classificadores. I.Silva, Sérgio Francisco da, orient. II. Título.

CDU 004


Identificação de objetos em vídeos de câmera estática

Monografia apresentada ao curso deBacharelado em Ciências da Computação daUniversidade Federal de Goiás – RegionalCatalão.

Trabalho aprovado em 23 de Fevereiro de 2018.

Sérgio Francisco da SilvaOrientador

Núbia Rosa da SilvaCurso de Ciências da Computação, IBiotec,

Regional Catalão, UFG

Tércio Alberto dos Santos FilhoCurso de Ciências da Computação, IBiotec,

Regional Catalão, UFG

Catalão – GO2018

Este trabalho é dedicado a todos aqueles que estiveram e estão

próximos de mim, fazendo esta vida valer cada vez mais a pena.

AGRADECIMENTOS

Agradeço, primeiramente, a Deus por ter me dado saúde e força para superar as dificul-dades.

A todos os professores do departamento de computação pelos valiosos ensinamentosdurante todos estes anos.

Ao meu orientador Sérgio, pelo suporte no pouco tempo que lhe coube, pelas suascorreções e incentivos.

Aos meus pais, pelo amor, incentivo e apoio incondicional.

Agradeço de coração a todos os amigos que fiz neste período que, com toda certeza,foram grandes responsáveis por ter chegado até aqui.

E a todos que direta ou indiretamente fizeram parte da minha jornada acadêmica, o meumuito obrigado.

“Não quero a liberdade, se estiver sozinho pra voar.”

(Esteban Tavares)

RESUMO

LEITE, T. F. S.. Identificação de objetos em vídeos de câmera estática. 2018. 70 p. Mono-grafia (Graduação) – Unidade Acadêmica Especial de Biotecnologia, Universidade Federal deGoiás – Regional Catalão, Catalão – GO.

A identificação de objetos em vídeos desempenha um papel fundamental no campo da VisãoComputacional, principalmente devido ao imenso leque de aplicações que esta tarefa possibilita.Motivada por toda essa aplicabilidade, esta pesquisa propõe um framework para identificaçãode objetos em movimento em vídeos de câmera estática, que segue uma sequência de passosbásicos, a saber, detecção de objetos em movimento, extração de características e classificação.O problema tratado nesta pesquisa consiste de, a partir de vídeos capturados por meio de umacâmera estática, classificar os objetos que se movem nestes vídeos em quatro classes: Pedestre,Carro, Ciclista e Nenhum. Em algumas das bases há a presença da classe CarroPedestre, quandoobjetos das duas classes são extraídos em uma mesma região candidata. Para a detecção deobjetos em movimento foi empregada o método de subtração de plano de fundo denominadoMistura de Gaussianas, em conjunto com operações morfológicas visando maior precisão dedetecção dos objetos. A caracterização dos objetos extraídos foi composta por três métodos,sendo eles, HOG, para características de forma, Filtros de Gabor e GLDM, ambos para extraçãode características de textura. Devido a grande dimensionalidade do descritor de objetos resultanteda composição de múltiplos extratores de característica, foi considerado o uso de técnicaspara redução de dimensionalidade através dos métodos LDA e ICA. Por fim, para a tarefa declassificação, foram empregados os métodos SVM, árvore de decisão (C4.5), Naive Bayes e okNN. Nesta pesquisa são analisados o desempenho de classificação usando o descritor de objetosoriginal com alta dimensionalidade, comparado com o uso das descrições com dimensionalidadesreduzidas dadas pelos métodos LDA e ICA, sobre quatro bases de dados rotuladas manualmente.O critério de avaliação utilizado consiste da taxa de classificações corretas denominada acurácia.A combinação de métodos com maior taxa de acerto, para todos os experimentos, foi o usode ICA/SVM com acurácia de 80.81%. Contudo, quando analisadas as matrizes de confusãogeradas pela combinação ICA/SVM tem-se que a taxa de pedestres classificados corretamenteatinge até 99.3%, mostrando que a identificação de pedestres é satisfatória, podendo esta seratribuída ao uso do extrator HOG, consagrado para tal propósito. Assim, além de compararo desempenho de técnicas de redução de dimensionalidade e classificadores, este trabalhorevela a necessidade de melhores caracterizações para as classes de objetos Carros e Ciclistas,principalmente.

Palavras-chave: Identificação de objetos, Extratores de características, Redução de dimensiona-lidade, Análise de classificadores.

ABSTRACT

LEITE, T. F. S.. Identificação de objetos em vídeos de câmera estática. 2018. 70 p. Mono-grafia (Graduação) – Unidade Acadêmica Especial de Biotecnologia, Universidade Federal deGoiás – Regional Catalão, Catalão – GO.

Video-based object recognition applies a very important role in Computer Vision, manily due tothe range of applications that this task provides. Motivated by the applicability, this researchproposes a framework for identifying moving objects in static camera videos, which follows asequence of basic steps, namely, detection of moving objects, feature extraction and classification.The problem addressed in this research consists of, from videos captured through a static camera,to classify the objects that move in these videos into four classes: Pedestrian, Car, Cyclist andNone. In some of the data sets there is the presence of the class CarPedestrian, when objetsthese two classes are extracted in the same candidate region. For the detection of moving objectswe used the background subtraction method called the Gaussian Mixture in conjunction withmorphological operations aiming to improve the object detection precision. The characterizationof the extracted objects was composed of three methods, namely, HOG, for shape features, GaborFilters and GLDM, both for extraction of texture features. Due to the high dimensionality of thedescriptor resulting from the composition of multiple feature extractors, the use of techniquesfor dimensionality reduction through the LDA and ICA methods was considered. Finally, for theclassification task, the methods SVM, decision tree (C4.5), Naive Bayes and kNN were compared.This research analyzed the classification performance using the original object descriptor withhigh dimensionality, compared to the use of the descriptions with reduced dimensionalities givenby the LDA and ICA methods, on four manually labeled databases. The evaluation criterion usedconsists of the correct classification rate also called accuracy. The combination of methods withthe highest accuracy for all experiments was the combination of ICA with SVM (ICA/SVM)with an accuracy of 80.81 % . However, when analyzing the confusion matrices obtained by thecombination ICA/SVM we have that the rate of correctly classified pedestrians reaches up to99.3 %, showing that the pedestrian identification is satisfactory, which can be credited to theuse of the HOG extractor, well-established for such purpose. Thus, in addition to comparingthe performance of dimensionality reduction techniques and classifiers, this research reveals thenecessity of better characterizations for the classes of objects Cars and Cyclists, mainly.

Keywords: Objects identification, features extration, dimensionality rediction, classifiers analy-sis.

LISTA DE ILUSTRAÇÕES

Figura 1 – Aplicando morfologia matemática a um dos frame que constituem o vídeo . 31Figura 2 – Banco de núcleos e imagens resultantes . . . . . . . . . . . . . . . . . . . . 33Figura 3 – Espaço de característica facilmente separável . . . . . . . . . . . . . . . . . 35Figura 4 – Espaço de característica inseparável . . . . . . . . . . . . . . . . . . . . . 36Figura 5 – Resultado da combinação linear . . . . . . . . . . . . . . . . . . . . . . . . 37Figura 6 – Exemplo de árvore de decisão . . . . . . . . . . . . . . . . . . . . . . . . . 39Figura 7 – Partição no conjunto de instâncias usando caracteristica Tempo (Caracteris-

tica A) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41Figura 8 – Partição no conjunto de instâncias usando caracteristica Temperatura (Carac-

teristica B) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42Figura 9 – Hiperplano de separação SVM de maior margem. . . . . . . . . . . . . . . 45Figura 10 – Mapeamento de um conjunto de dados não linearmente separável em um

linearmente separável. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45Figura 11 – Metodologia proposta para identificação de objetos em vídeos. . . . . . . . 54Figura 12 – Filtros de Gabor utilizados para operação de convolução. . . . . . . . . . . 57

LISTA DE TABELAS

Tabela 1 – Exemplos de treinamento para o problema jogar tênis . . . . . . . . . . . . 40Tabela 2 – Resultados dos cálculos de entropia . . . . . . . . . . . . . . . . . . . . . . 41Tabela 3 – Instância x do problema "jogar tênis"desconhecida . . . . . . . . . . . . . . 43Tabela 4 – Bases de dados com os números de instâncias de treinamento e teste. . . . . 56Tabela 5 – Bases de dados com os números de instâncias de treinamento e teste. . . . . 56Tabela 6 – Acurácia de classificação para experimento sem redução de dimensionalidade. 57Tabela 7 – Acurácia de classificação após redução de dimensionalidade pelo método LDA. 58Tabela 8 – Acurácia de classificação após redução de dimensionalidade pelo método ICA. 58Tabela 9 – Média de desempenho dos métodos de classificação para cada experimento. 59Tabela 10 – Matriz de confusão para o método ICA/SVM base DATASET1. . . . . . . . 59Tabela 11 – Matriz de confusão para o método ICA/SVM base DATASET2. . . . . . . . 59Tabela 12 – Matriz de confusão para o método ICA/SVM base DATASET3. . . . . . . . 60Tabela 13 – Matriz de confusão para o método ICA/SVM base DATASET4. . . . . . . . 60

LISTA DE ABREVIATURAS E SIGLAS

CSS Color self similarities

GLDM Gray level difference method

HOF Histogram of flows

HOG Histogram of oriented gradients

ICA Independent component analysis

kNN k-nearest neighbors

PCA Principal component analysis

SVM Support vector machine

SUMÁRIO

1 INTRODUÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 231.1 Considerações Iniciais . . . . . . . . . . . . . . . . . . . . . . . . . . . . 231.2 Motivação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 231.3 Formulação do Problema de Pesquisa . . . . . . . . . . . . . . . . . . 241.4 Objetivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 251.5 Principais resultados e contribuições . . . . . . . . . . . . . . . . . . . 251.6 Estrutura do Trabalho . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

2 CONCEITOS BÁSICOS DE VISÃO COMPUTACIONAL . . . . . . 272.1 Considerações Iniciais . . . . . . . . . . . . . . . . . . . . . . . . . . . . 272.2 Visão Computacional . . . . . . . . . . . . . . . . . . . . . . . . . . . . 272.3 Subtração de Plano de Fundo . . . . . . . . . . . . . . . . . . . . . . . 282.4 Morfologia matemática . . . . . . . . . . . . . . . . . . . . . . . . . . . 292.5 Caracterização de Objetos . . . . . . . . . . . . . . . . . . . . . . . . . 302.5.1 Histogram of Oriented Gradients . . . . . . . . . . . . . . . . . . . . . 302.5.2 Gray Level Difference Method . . . . . . . . . . . . . . . . . . . . . . 312.5.3 Filtros de Gabor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 322.6 Redução de Dimensionalidade . . . . . . . . . . . . . . . . . . . . . . . 342.6.1 Linear discriminant analysis . . . . . . . . . . . . . . . . . . . . . . . . 342.6.2 Independent Component Analysis . . . . . . . . . . . . . . . . . . . . 362.7 Classificação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 382.7.1 Árvores de Decisão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 382.7.2 Naive Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 422.7.3 Support Vector Machines . . . . . . . . . . . . . . . . . . . . . . . . . 442.7.4 Classificador dos Vizinhos mais Próximos (k-Nearest Neighbor) . . 452.8 Considerações Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

3 ESTADO DA ARTE DO RECONHECIMENTO DE OBJETOS EMVÍDEOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

3.1 Considerações Iniciais . . . . . . . . . . . . . . . . . . . . . . . . . . . . 473.2 Sistemas monoculares de câmera estática para detecção de objetos

em vigilância . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 473.2.1 Subtração de plano de fundo . . . . . . . . . . . . . . . . . . . . . . . 48

3.2.2 Extração de características e construção do descritor de objetos . . 493.2.3 Redução de dimensionalidade . . . . . . . . . . . . . . . . . . . . . . . 503.2.4 Classificação de objetos . . . . . . . . . . . . . . . . . . . . . . . . . . 503.2.5 Desafios em identificação de objetos em sistemas monoculares de

câmera estática . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 513.3 Considerações Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

4 DESENVOLVIMENTO E RESULTADOS . . . . . . . . . . . . . . . 534.1 Considerações Iniciais . . . . . . . . . . . . . . . . . . . . . . . . . . . . 534.2 Metodologia proposta para identificação de objetos em vídeos . . . 534.3 Descrição da base de dados . . . . . . . . . . . . . . . . . . . . . . . . 554.4 Experimentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 564.5 Considerações Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60

5 CONCLUSÕES E TRABALHOS FUTUROS . . . . . . . . . . . . . 615.1 Considerações Iniciais . . . . . . . . . . . . . . . . . . . . . . . . . . . . 615.2 Trabalhos Futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

REFERÊNCIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

23

CAPÍTULO

1INTRODUÇÃO

1.1 Considerações Iniciais

A identificação de objetos em vídeos consiste em reconhecer objetos de interesse emvídeos, sendo que tais objetos podem pertencer a várias classes. Tal tarefa é considerada inerentepara muitos sistemas de visão computacional em função da sua aplicabilidade, encontrandoaplicações em diversas áreas do conhecimento, tais como medicina (ZHOU et al., 2001; SHI et al.,2008), entretenimento (TAIGMAN et al., 2014), segurança (SAID; ATRI, 2016), robótica (JUNG;SUKHATME, 2004) e geoprocessamento (HARALICK; SHANMUGAM et al., 1973).

De forma geral, a identificação de objetos em vídeos se baseia em aspectos dados pelasequência de frames (imagens) que constituem os vídeos, tais como movimento, cor, forma,textura, entre outros. Os esforços desta pesquisa foram direcionados para aplicações relacionadasa vídeo-vigilância inteligente. Levando-se em consideração as características de sistemas decâmera estática, a identificação de objetos consiste na aplicação de técnicas de detecção demovimento, que visam detectar objetos que surgem no ambiente monitorado. Em seguida, osobjetos detectados são descritos com base em suas características visuais e/ou de movimento.Por fim, emprega-se algoritmos de classificação para predizer a classe dos objetos detectadoscom base em suas características.

1.2 Motivação

Os seres humanos tem uma capacidade considerada indiscutível em detectar e iden-tificar objetos com apenas algumas pistas. Os sistemas de detecção de objetos, entre eles ossistemas de vídeo-vigilância inteligente buscam, com certa precisão, realizar estas tarefas deforma autônoma, sem a necessidade de seres humanos para sua operação, como ocorre emsistemas convencionais. No entanto, os resultados atuais apresentados na literatura, mostram

24 Capítulo 1. Introdução

que os algoritmos automatizados estão longe de poderem ser comparados com as habilidadeshumanas (NGUYEN; LI; OGUNBONA, 2016). Toda essa dificuldade em alcançar a eficáciahumana para a tarefa de detecção de objetos, se deve a um conjunto de fatores que vão desde arepresentação computacional dos objetos, ao ambiente em que os objetos se encontram. Outrodesafio para a vídeo-vigilância inteligente ocorre devido as configurações de câmera, desde aspropriedades de hardware até as configurações de instalação como posição e foco; tudo issopode prejudicar a qualidade em que os objetos serão capturados e descritos computacionalmente.

Com relação a representação de objetos, o maior desafio enfrentado é decorrente davariabilidade que determinados objetos possuem como, por exemplo, os seres humanos podemapresentar diversas poses corporais, vestimentas, cores e localizações na área monitorada; umciclista pode ser visto de diversos ângulos, alguns podendo torná-lo mais difícil de ser dis-tinguido de outros objetos; um veículo pode ser, assim como outros objetos, capturado comalguma oclusão, devido o campo de visão limitado (SONG; ROY-CHOWDHURY, 2008). Oambiente também pode apresentar grandes desafios a identificação, como variações na ilumina-ção (GOYAL; SINGHAI, 2017), objetos que não são de interesse que podem vir a confundira etapa de detecção de movimento, oclusões (NGUYEN; LI; OGUNBONA, 2016) causadaspor ambientes lotados onde existem grande interação entre os próprios objetos. Estes desafiosindicam que classes de objetos podem ter uma grande variabilidade visual e, consequentemente,a exploração de aspectos individuais de imagens, tais como cor ou forma, pode ser inadequadapara o problema de detecção. Contudo, a fusão de múltiplas descrições de imagem, que ex-plora variados aspectos visuais é problemática, pois leva ao problema da maldição da altadimensionalidade (DONOHO et al., 2000).

Assim, motivada por toda a aplicabilidade desta tarefa, esta pesquisa propõe uma meto-dologia para lidar com todos os desafios destacados até aqui, no contexto da identificação deobjetos em vídeos de câmera estática.

1.3 Formulação do Problema de Pesquisa

Resumidamente, o problema tratado nesta pesquisa consiste de, a partir de vídeos captu-rados por câmera estática, classificar os objetos em movimento no vídeo. O objetivo inicial édistinguir quatro classes de objetos: pedestres, carros, ciclistas e nenhuma das classes anteriores(objetos resultantes de um plano de fundo desafiador como árvores que balançam com o vento,sombras e outros). Em algumas das bases há a presença da classe CarroPedestres, quando estasduas classes são capturadas em um mesmo bounding boxes.

De forma mais organizada, o problema pode ser dividido nos seguintes passos:

a) Detecção de objetos em movimento e extração dos bounding boxes (regiões candidatas).

b) Caracterização dos objetos detectados por meio de múltiplos extratores de características de

1.4. Objetivo 25

imagens.

c) Redução de dimensionalidade dos vetores de características produzidos pelos extratores.

d) Classificação dos objetos detectados em quatro classes do problema: pedestres, carros,ciclistas e nenhum.

1.4 Objetivo

Dada a aplicabilidade e natureza desafiadora da tarefa de identificação de objetos, elevando em consideração toda a variabilidade de métodos para a realização desta, este trabalhopropõe um framework ajustável de detecção de objetos em vídeo seguindo passos básicos para aconcretização desta tarefa, a saber, detecção de objetos em movimento, caracterização destesusando múltiplos extratores de características, redução de dimensionalidade e classificação.

A principal contribuição deste framework é facilitar a experimentação e validação detécnicas alternativas. Adicionalmente, este trabalho faz uma comparação entre métodos declassificação e redução de dimensionalidade, além de experimentar métodos consagrados paradetecção de pedestres em um conjunto mais abrangente de classes de objetos.

1.5 Principais resultados e contribuições

O framework proposto permitiu experimentar métodos de extração de característicasconsagrados para detecção de pedestres em um conjunto mais amplo de classes, técnicas deredução de dimensionalidade e classificadores, na busca dos métodos de melhor desempenhopara a classificação de objetos na base de dados experimentada.

Para a extração de características, apesar da literatura colocar o Histogram of oriented

gradients (HOG)(DALAL; TRIGGS, 2005) como o melhor extrator de características para identi-ficação de pedestres, considerando os sistemas de vídeo-vigilância de câmera estática (NGUYEN;LI; OGUNBONA, 2016), não havia um consenso sobre o desempenho deste para as outras clas-ses abordadas. Além disso, foi considerada também a composição de características de objetosextraídas por múltiplos extratores (LATECKI; LAKAMPER; ECKHARDT, 2000; DALAL;TRIGGS, 2005; TUZEL; PORIKLI; MEER, 2006; KIM; KIM, 2000). Como tal composiçãogera espaços de características de alta dimensionalidade, investigou-se também o uso de técnicasde redução de dimensionalidade (LIU; WECHSLER, 2002).

Para a classificação foi considerada a utilização de vários métodos clássicos da lite-ratura, entre eles o método Support vector machine (SVM) (SCHÖLKOPF; SMOLA, 2002),muito em função de sua popularidade na literatura para a tarefa de detecção de pedestres emvideo-vigilância (BILAL et al., 2017). E para este trabalho, o método SVM foi o detentor damelhor taxa de classificações corretas com 80.81%, aliado a utilização do método de redu-

26 Capítulo 1. Introdução

ção de dimensionalidade Independent component analysis (ICA). Além do SVM os demaisclassificadores experimentados foram Árvores de Decisão (C4.5) (QUINLAN, 1993), NaiveBayes (CONGDON, 2007) e o classificador dos vizinhos mais próximos ou k-nearest neighbors

(kNN) (DUDA; HART; STORK, 2001).

1.6 Estrutura do TrabalhoEste capítulo fez a exposição do problema, sua motivação, objetivo e listou as principais

contribuições desta pesquisa. O Capítulo 2 sumariza os conceitos básicos de Visão Computacionalque foram explorados nesta pesquisa. O Capítulo 3 apresenta o estado da arte do reconhecimentode objetos em vídeos. No Capítulo 4 é descrito em detalhes o framework proposto. E tambémdescreve as bases de dados utilizadas, os experimentos e os resultados obtidos. Por fim, oCapítulo 5 sumariza as conclusões obtidas desta pesquisa, enumera os desafios encontrados eesboça propostas de trabalhos futuros.

27

CAPÍTULO

2CONCEITOS BÁSICOS DE VISÃO

COMPUTACIONAL


Este capítulo traz os conceitos básicos sobre Visão Computacional e os métodos utilizadospara esta pesquisa com objetivo de introduzir o leitor ao funcionamento destes.

2.2 Visão Computacional

A Visão Computacional é uma grande sub-área da Inteligência Artificial que buscaaprimorar as máquinas de modo que estas consigam "enxergar"e interpretar o mundo através davisão, de forma semelhante ao sistema visual dos seres humanos. Com auxílio de técnicas deProcessamento de Imagens, estas máquinas devem ser capazes de extrair informações de imagensou vídeos e, a partir do processamento destas informações, construir conhecimento suficienteque possibilite o reconhecimento da informação visual presente nos dados. Esta capacidade dereconhecer obtida pelas máquinas abriu um extenso "leque"de possíveis aplicações em diversasáreas do conhecimento como falado no capítulo 1.

Para que as máquinas se tornem capazes de reconhecer objetos em vídeos de acordocom a aplicação desejada, são empregadas etapas no processo, envolvendo diversas técnicas deoutras áreas relacionadas à visão computacional, tais como, de reconhecimento de padrões eaprendizagem de máquina (BISHOP, 2006). A primeira destas etapas é a captura da cena; a formamais comum se dá através de câmeras de vídeo. Após a obtenção da cena de forma digital atravésde imagem ou vídeo, parte-se para a tarefa de separação dos objetos contidos na cena capturada.Esta etapa do processo é chamada de segmentação (HARALICK; SHAPIRO, 1985), onde osobjetos são destacados das imagens ou vídeos, ignorando outros objetos, também conhecidoscomo background, que não sirvam para o propósito da aplicação. A etapa seguinte consiste

28 Capítulo 2. Conceitos Básicos de Visão Computacional

em extrair as informações destes objetos segmentados, informações estas que são chamadasde características. A escolha das características que serão extraídas se dá em função do objetode interesse para a aplicação, podendo ser características de forma (LATECKI; LAKAMPER;ECKHARDT, 2000), textura (DELL’ACQUA; GAMBA, 2003), cor (PASS; ZABIH, 1996), entreoutras. Em seguida, estas características extraídas são organizadas em um vetor de característicase disponibilizadas para as próximas etapas. A etapa seguinte consiste em treinar a máquina paraconstrução de um modelo de preditor, onde este será capaz de reconhecer objetos em cenase classificá-los corretamente. Todo esse processo torna possível que as máquinas consigamexecutar a tarefa de "enxergar", mesmo que de forma limitada se comparado a capacidadehumana para tal tarefa.

Além das áreas relacionadas a visão computacional citadas na seção 1.1, estão rela-cionados outros vários campos do conhecimento, como: Física (METAXAS, 2012), Psicolo-gia (CARCAGNÌ et al., 2015), Neurobiologia (MEDATHATI et al., 2016) e Processamento deSinais (GRANLUND; KNUTSSON, 2013). Além destes diversos campos, há também variadostópicos que também são tratados na Visão Computacional, que são estatística, otimização, entreoutros.

2.3 Subtração de Plano de FundoA subtração de plano de fundo têm como objetivo detectar objetos em movimento

em vídeos. Basicamente, todos os métodos de subtração de plano de fundo tentam estimarefetivamente um modelo de plano de fundo a partir de uma sequência temporal de frames.Após inicializado, o modelo de plano de fundo é então mantido ao longo da sequência deframes do vídeo. Para estimar o foreground, isto é, os objetos em movimento, o frame correnteé subtraído do modelo de plano de fundo corrente. Na literatura há uma ampla variedade detécnicas para estimar o modelo de plano de fundo (BOUWMANS, 2014; PICCARDI, 2004;SOBRAL; VACAVANT, 2014). O modelo mais simples de plano de fundo consiste na seleçãomanual de uma imagem estática no vídeo que representa o plano de fundo, não contendo nenhumobjeto em movimento. Entretanto, tal abordagem não é satisfatória em casos onde há mudançasno cenário, como na iluminação, entre outras, prejudicando a extração dos objetos em movimento(foreground), pois este método não conta com um mecanismo de atualização do plano de fundo.Para lidar com a questão de atualização do plano de fundo ao longo da sequência de frames dovídeo, vários métodos têm sido propostos envolvendo o uso de abordagens estatísticas, nebulosas(fuzzy) e neuro-inspiradadas (SOBRAL; VACAVANT, 2014).

A seguir é descrito um método estatístico de subtração de plano de fundo, denominadode Mistura de Gaussianas, o qual foi utilizado nesta pesquisa.

Mistura de Gaussianas: proposto por (STAUFFER; GRIMSON, 1999) e posteriormente me-lhorado por (HAYMAN; EKLUNDH, 2003), a Mistura de Gaussianas é um dos métodos

2.4. Morfologia matemática 29

mais populares de subtração de plano de fundo. Conforme o método, as distribuições paraa cor de cada pixel são representadas por uma soma de distribuições gaussianas ponderadas.A cada novo frame no tempo t, os parâmetros para todos os pixels são atualizados paradeterminar as variações de cores. De fato, no tempo t, é considerado que o modelo mt ,gerado para cada pixel a partir das medidas {z0,z1, ...,zt−1} de um pixel, é correto. Aprobabilidade que um determinado pixel seja pertencente ao plano de fundo, é dada por:

P(zt |mt) =N

∑n=1

αn

(2π)d/2|∑n |1/2 e−1/2(zt−µt)T

∑−1(zt−µt) (2.1)

onde d é a dimensão do espaço de cor das medidas zt e cada gaussiana n é descrita pela suamédia µn e matriz de covariância ∑n. As gaussianas são ponderadas pelos fatores αn onde

∑Nn=1 αn = 1. Modulo denota a matriz determinante. Os canais (R,G,B) de cada pixel são

considerados independentes. Para atualizar o modelo de mistura de gaussianas, somenteagrega-se tais medidas a uma gaussiana n se:

||zt −µt ||< kσn (2.2)

onde k é 2 ou 3, e σn é um valor representando a variância da distribuição gaussiana deíndice n. Posteriormente, as gaussianas são atualizadas a cada novo frame conforme umcoeficiente de aprendizado.

2.4 Morfologia matemática

Morfologia matemática ou operações morfológicas consiste de ferramentas com variadospropósitos em processamento de imagem principalmente no sentido de melhoramento ou trata-mento de imagem para alguma análise, até ferramentas para descrição e caracterização de objetosatravés de forma, esqueletos, entre outras (GONZALEZ; WOODS, 2000). Este trabalho faz o usodas operações morfológicas denominadas abertura e fechamento para eliminação de pequenoscomponentes, suavização do contorno, correção de pequenas falhas (buracos e fendas) e conexãodos componentes no resultado de subtração de plano de fundo. Como o resultado de subtraçãode plano de fundo é uma imagem binária, é descrito neste trabalho somente as operações deabertura e fechamento para imagens binárias, embora este conceito possa ser estendido paraimagens em níveis de cinza.

A operação de abertura tem como objetivo eliminar pequenos objetos (ruídos) e suavizaro contorno dos objetos maiores. Para a operação de abertura é utilizado um elemento estruturanteB. A abertura de uma imagem A, conforme o elemento estruturante B é dado por uma erosãode A por B, uma erosão (A⊖B), consiste no conjunto de todos os pontos z tais que B, quando


transladado por z fique contido em A, isto é:

A⊖B ={

z|(B)z ⊆ A}

(2.3)

Em seguida, para finalizar a operação de abertura, é realizada uma dilatação do resultado daerosão por B. A dilatação de A por B, denotada por (A⊕B) é definida como:

(A⊕B) ={

z|(

B)

z∩A = /0

}(2.4)

O processo de dilatação começa pela obtenção da reflexão de B em torno de sua origem, seguidoda translação dessa reflexão por z. A dilatação de A por B é então o conjunto de todos osdeslocamentos z, tal que B e A sobreponham em pelo menos um elemento.

A representação matemática da operação de abertura é dada da seguinte maneira:

A∘B = (A⊖B)⊕B (2.5)

onde ⊖ representa a operação de erosão e o ⊕ a operação de dilatação.

Conforme o nome, a operação de fechamento serve ao propósito de eliminar pequenosburacos no objeto e preencher fendas no contorno. Na operação de fechamento é consideradoum elemento estruturante B. O fechamento de uma imagem A, conforme o elemento estruturanteB é dado por uma dilatação de A por B, seguida da erosão do resultado por B. Matematicamente,a operação de fechamento é representada do seguinte modo:

A∙B = (A⊕B)⊖B (2.6)

onde ⊕ representa a operação de dilatação e o ⊖ representa a operação de erosão. Para facilitar acompreensão deste método, um exemplo prático é ilustrado na Figura 1.

2.5 Caracterização de Objetos

Existem centenas de técnicas para caracterização de imagens e objetos, baseando-seprincipalmente nas características visuais de cor (PASS; ZABIH, 1996), forma (LATECKI;LAKAMPER; ECKHARDT, 2000) e textura (DELL’ACQUA; GAMBA, 2003). A seguir sãodescritas as técnicas utilizadas nesta pesquisa.

2.5.1 Histogram of Oriented Gradients

O método Histogram of Oriented Gradients (HOG), proposto em (DALAL; TRIGGS,2005), captura informações locais de forma. O HOG é um descritor de características amplamenteusado em visão computacional para detecção de objetos, principalmente para detecção de

2.5. Caracterização de Objetos 31

Figura 1 – Ilustração da aplicação da operação de fechamento. A imagem usada é um frame extraídode um dos vídeos usado nos experimentos. O elemento estruturante usado é um retângulo dedimensão 3×3 para a operação de abertura e 15×15 para a operação de fechamento. A ordemdas operações utilizadas foi a aplicação da abertura seguida do fechamento.

.Fonte: Elaborada pelo autor.

pedestres. O HOG pode ser visto empregado com sucesso para detecção de faces (DÉNIZ et

al., 2011) e, animais e veículos (MAO et al., 2010). O método HOG conta as ocorrências deorientações de gradiente em blocos (denominados células) de uma imagem. A ideia básicado HOG é que a aparência local e a forma de objetos em uma imagem pode ser descrita peladistribuição de direções de bordas representadas por gradientes de intensidade. No cálculo dodescritor HOG, a imagem é dividida em pequenas regiões denominadas células, e com basenas informações dos pixels dentro de cada célula é computado um histograma de direções degradiente. O descritor é obtido pela concatenação destes histogramas. Buscando maior acurácia,os histogramas locais podem ser normalizados com base no contraste.

2.5.2 Gray Level Difference Method

A utilização de características de texturas se mostrou bastante interessante em compa-ração com outros atributos (ANGELO, 2000), principalmente para aplicações voltadas a áreada saúde, sendo sua análise empregada na tarefa de auxílio a diagnósticos médicos por meiode imagens. Dentre as aplicações que utilizam a análise de textura para auxílio ao diagnósticomédico se encontra a detecção de microcalcificações em mamografias digitalizadas (CHAN et

al., 1987; WU et al., 1992). Entre os métodos mais comumente utilizados para analisar esteatributo tem-se; o Gray level difference method (GLDM), o qual foi utilizado para esta pesquisa.

O GLDM (WESZKA; DYER; ROSENFELD, 1976; GOOL; DEWAELE; OOSTER-LINCK, 1985; KIM; PARK, 1999) é um método que se baseia na diferença absoluta do nível decinza entre pares de pixel. Os atributos de texturas deste método são derivados das funções dedensidade de probabilidade dos níveis de cinza. Por exemplo, sendo S(x,y) a função de intensi-dade da imagem original em escala de cinza. Dado um vetor com deslocamento δ = (∆x,∆y),


onde ∆x e ∆y são inteiros, a intensidade da imagem original em relação ao deslocamento dado éobtida por:

Sδ (x,y) = |S(x,y)−S(x+∆x,y+∆y)| (2.7)

A função de densidade de probabilidade é definida como:

D(i|δ ) = Prob[Sδ (x,y) = i], (2.8)

Se a textura é grosseira e o deslocamento δ é pequeno, os níveis de cinza entre os paresde pixels serão bem semelhantes, de modo que Sδ (x,y) será pequeno, concentrando os valores deD(i|δ ) próximos de i = 0. Porém, uma textura mais fina deve resultar em níveis de cinza bastantediferentes entre os pares, assim Sδ (x,y) será consideravelmente grande, com valores de D(i|δ )bem espalhados. Para uma melhor análise da textura, para diferentes valores de deslocamentos δ ,quatro características de texturas são medidas a partir de D(i|δ ): Contraste, Segundo MomentoAngular, Entropia e Média.

2.5.3 Filtros de Gabor

Os Filtros de Gabor (DAUGMAN, 1985) são comumente utilizados para extração decaracterísticas de textura de imagens, características estas que são posteriormente utilizadas noprocesso de classificação destas imagens. Como dito por Angelo (2000), a orientação, frequênciae dimensão do elemento de textura são variáveis que definem a textura de uma imagem. Destemodo, é imprescindível o uso destas variáveis no processo de extração do atributo textural deimagens.

Os Filtros de Gabor são uma família de funções Gaussianas, com parâmetros ajustáveis,que modulam um conjunto de funções senoidais através da multiplicação entre Gaussianas esenoides. Uma senoide é uma função que representa repetições de determinadas frequências, porexemplo: em uma representação em tons de cinza estas frequências seriam valores de tons decinza que vão aumentando até chegar no máximo e depois diminuem até alcançarem um valormínimo. Ao se combinar essas duas funções é obtido a representação da função de Gabor tantono domínio espacial quanto na frequência, ou seja, a magnitude da senoide é modulada pelaGaussiana.

A formulação das funções de Gabor aparecem na literatura de várias formas, pois épossível manipular e executar diversas operações algébricas, para representar estas funções dediferentes maneiras, porém, a forma mais genérica de se formular uma família de funções de

2.5. Caracterização de Objetos 33

Gabor é mostrada nas Equações 2.9, 2.10 e 2.11.

g f θσxσy(x,y) =f 2

πσxσye−( f 2

σ2xx′2+ f 2

σ2yy′2)

ei2π f x′, (2.9)

x′ = xcosθ + ysinθ , (2.10)

y′ =−xsinθ + ysinθ , (2.11)

onde na Equação 2.9 podem ser vistos quatro parâmetros que podem ser ajustados para seobter a função de Gabor, os quais são: f que é o parâmetro da frequência, σx e σy que ajustao espalhamento da Gaussiana em relação aos eixos x e y e por último o θ que parametriza arotação.

A partir dos parâmetros descritos acima, são gerados kernels (núcleos) de Gabor, cadaum com valores paramétricos diferentes. O conjunto destes núcleos formam o banco de núcleosonde cada um desses serão utilizados para extração das características através da operação deconvolução com a imagem original e, a partir do resultado desta operação, são geradas imagensresultantes para cada um destes núcleos. A Figura 2 mostra exemplos de núcleos, as imagensresultantes e a imagem utilizada na operação de convolução.

Figura 2 – Ilustração de alguns Kernels (núcleos) e suas respectivas imagens resultantes após a operaçãode convolução com a imagem original.

Fonte: Elaborada pelo autor.


A operação de convolução consiste em um varredura pixel a pixel da imagem originalpelo kernel definido, onde o pixel central do núcleo é sobreposto a cada um dos pixels da imagemoriginal. Após a sobreposição, é aplicada a Equação abaixo

P(I) = N11 * I11 +N12 * I12 + ...+Nnm * Inm (2.12)

onde N é a matriz que representa o kernel, I é a matriz que representa o bloco sobreposto naimagem original e P o pixel resultante da convolução.

Após obtida a imagem resultante, são efetuadas as operações necessárias para extraçãode atributos a partir desta imagem. Para extrair as características, de forma que não se perca ainformação espacial da imagem, pode ser feita a divisão da imagem em quadrantes e trabalharcom as informações de cada quadrante. Outra forma é empregar downsampling (reamostragempara baixo) (LYONS, 2004) na imagem, ou seja, diminuir a resolução espacial da imagem, destaforma, resumindo regiões a uma quantidade menor de valores ou até mesmo a um único valor.A partir dos valores da imagem reduzida, são obtidos os vetores de características que serãoutilizados para as próximas etapas do aprendizado de máquina.

2.6 Redução de DimensionalidadeA redução de dimensionalidade é uma técnica muito utilizada quando se trabalha com

análise de grandes conjuntos de dados. Seu uso se dá, principalmente, pelo fato de que ao analisardados em bases deste tipo esbarra-se no problema da maldição da dimensionalidade (BELL-MAN, 1961) e no aumento do custo computacional para a tarefa. Vários métodos baseadosem Análise Discriminante Linear (LDA) (FISHER, 1936), Análise de Componentes Principais(PCA) (PEARSON, 1901; HOTELLING, 1933; JOLLIFFE, 2002) e Análise de ComponentesIndependentes (ICA) (COMON, 1994) foram propostos para amenizar este problema. Comoesta pesquisa trabalha com conjuntos de dados rotulados, foi optado por utilizar as técnicasapresentadas na Seções 2.6.1 e 2.6.2.

2.6.1 Linear discriminant analysis

O Linear discriminant analysis (LDA) (FISHER, 1936) é um método frequentementeutilizado em reconhecimento de padrões e aprendizagem de máquina (BELHUMEUR; HESPA-NHA; KRIEGMAN, 1997). Sua aplicação nestas áreas tem como objetivo obter uma combinaçãolinear de características, presentes em um conjunto de treinamento, que possa separar duas oumais classes, ou seja, encontrar as características que mais contribuem para a separação entreclasses. O resultado da combinação pode ser utilizado como um classificador linear ou para redu-ção da dimensionalidade do espaço de características antes das etapas de classificação. Como ointeresse desta pesquisa é reduzir a dimensionalidade do espaço de características, será abordadaa intuição por trás desta técnica para este fim. LDA, diferentemente de outras técnicas, como

2.6. Redução de Dimensionalidade 35

por exemplo, Principal component analysis (PCA) (PEARSON, 1901; HOTELLING, 1933;JOLLIFFE, 2002), utiliza informação de classe (rótulos) das amostras para melhor separaçãodestas em relação a uma determinada característica.

A Figura 3 ilustra um problema de separação e redução de características, onde adimensão do espaço de característica é igual a 2, para duas classes. Para este problema é fácilperceber qual o atributo que melhor separa as duas classes, somente observando a projeção decada amostra em relação a cada eixo do problema. Veja que no eixo da Característica 2 temosamostras tanto de círculos quanto de estrelas em qualquer faixa deste, assim, conclui-se queeste atributo não é interessante para a separação. Já o eixo da Característica 1 apresenta umamelhor divisão entre a projeção das amostras. Assim, temos que, para este problema mostrado, aCaracterística 1 é suficiente para a divisão entre as classes. Neste problema é simples observara seleção do atributo que fará a separação das classes pelo fato das amostras serem facilmenteseparáveis com projeção ao eixo da característica 1. Para melhor ilustrar o papel da combinaçãolinear na Figura 4 é mostrado um segundo problema onde as amostras não são separáveis porprojeção em nenhum dos dois eixos.

Figura 3 – Espaço de características separável com base na projeção sobre o eixo da Característica 1.


A Figura 4 mostra que a falta de alinhamento das amostras com os eixos torna impossívelobter uma separação em relação a uma das características, pois em ambos os eixos a projeção deestrelas e círculos ocorrem em uma mesma faixa de valores. A solução para este problema se dáatravés de uma combinação linear entre as duas características para obter um novo atributo ondea variância inter-classes seja suficiente para separar as duas classes e a variância intra-classe sejapequena o bastante para agrupar as amostras de uma determinada classe.

Em resumo, o LDA baseia-se na busca por uma combinação linear das características quemelhor separa duas classes. Tal combinação linear é feita por um vetor de pesos β que maximiza


Figura 4 – Espaço de características inseparável com base em projeção para qualquer um dos eixos.


a seguinte Equação:

S (β ) =β T µ1 −β T µ2

β TCβ(2.13)

onde β corresponde ao vetor de pesos para as características, µ1 e µ2 são vetores de médias dascaracterísticas para as classes 1 e 2, e C é a matriz de covariância total dada por

C =1

n1 +n2(n1C1 +n2C2) (2.14)

sendo C1 e C2 as matrizes de covariâncias das classes 1 e 2. As Equações 2.13 e 2.14 podemser generalizadas para problemas com mais de duas classes, decompondo-os em problemas declassificação binária. A Figura 5 ilustra o resultado da combinação linear entre as características1 e 2 para o segundo problema mostrando que, uma terceira característica (Característica X) foicriada em resultado da combinação linear. Deste modo, as amostras podem ser separadas com aprojeção em relação a esta nova característica.

2.6.2 Independent Component Analysis

O ICA (COMON, 1994) surgiu como uma extensão da abordagem PCA. Sua aplicaçãopode ser bastante vista em tarefas que envolvem separação de fontes de sinais como, por exemplo,o desafio chamado de Cocktail Party (CHERRY, 1953), onde em um ambiente em que diversaspessoas estejam conversando ao mesmo tempo e sendo gravadas por captadores de voz, deve-se,por meio de algum método, fazer a separação dos sinais de vozes de cada uma destas pessoas.

Apesar de que, a princípio, o ICA tenha sido desenvolvido com o objetivo de lidar comproblemas de separação de sinais, este pode ser encontrado em vários estudos, sendo aplicadoa diversos domínios do conhecimento como, por exemplo, no processamento de imagens para

2.6. Redução de Dimensionalidade 37

Figura 5 – Resultado da combinação linear entre as características 1 e 2.


extração de características (HOYER; HYVÄRINEN, 2000; LIU, 2004). Diferente do PCA, oICA busca maximizar a independência entre as características de uma base a partir de umatransformação linear do seu espaço de características em um novo espaço de menor dimensão,de modo que cada característica deste novo espaço seja estatisticamente independente. Devidoao fato desta transformação resultar em um espaço de menor dimensão, o ICA pode ser utilizadocomo um método de redução de dimensionalidade, visando um melhor desempenho das etapasde aprendizado de máquina (CAO et al., 2003).

Na separação de sinais, o ICA busca recuperar os sinais emitidos a partir de origensdesconhecidas que são mutuamente independentes, mas que estão linearmente misturados semconhecimento dos coeficientes de mistura (CAO et al., 2003). O objetivo do ICA pode serrepresentado de forma matricial da seguinte maneira:

x = As (2.15)

onde x são n características linearmente misturadas, s são as características linearmente in-dependentes que o ICA deseja estimar e A denota a matriz dos coeficientes de misturas, queé desconhecida, mas que pode ser estimada pela utilização das propriedades estatísticas doselementos de s. As características mutuamente independentes podem ser obtidas a partir dainversa de A, denotada W , da seguinte maneira:

s =Wx (2.16)


2.7 Classificação

A classificação é uma das tarefas mais empregadas em Visão Computacional. No entanto,seu emprego pode ser visto aplicado a Mineração de Dados (APTÉ; WEISS, 1997). Um sistemade classificação é utilizado para prever a classe de novos exemplos (objetos) baseando-seem suas características. O objetivo dessa tarefa é criar um modelo computacional com basenas características dos exemplos de treinamento para prever a classe de novos exemplos. Nodesenvolvimento de classificadores, os dados disponíveis são divididos em dois conjuntosmutuamente exclusivos: um conjunto de treinamento, usado para a criação do modelo declassificação, e um conjunto de teste, usado para estimar a qualidade do modelo. O conjunto detreinamento fica disponível para o classificador, que analisa as relações entre as característicase as classes. Os relacionamentos descobertos a partir desses exemplos (modelo), são entãoutilizados para prever a classe dos exemplos presentes no conjunto de teste, que fica indisponívelao classificador durante a fase de treinamento. Após o classificador prever a classe dos exemplosdo conjunto de teste, as classes previstas são então comparadas com as classes reais dos exemplos.Se a classe prevista for igual à real, a previsão foi correta; caso contrário, a previsão foi incorreta.Deste modo, é possível avaliar a taxa de acerto do classificador.

O conhecimento descoberto pelo classificador por meio dos exemplos de treinamento, istoé, o modelo, pode ser representado de várias formas, por exemplo: árvores de decisão (QUINLAN,1993), redes neurais (HAYKIN, 2009), modelos bayesianos (CONGDON, 2007) e máquinas devetores de suporte (Support Vector Machine – SVM) (SCHÖLKOPF; SMOLA, 2002). Existemtambém os classificadores que não constroem um modelo para representar o conhecimentodescoberto, o que são chamados de classificadores preguiçosos (DUDA; HART; STORK, 2001).O exemplo mais conhecido desta categoria é o kNN, também conhecido como classificador dosvizinhos mais próximos, que será apresentado na Seção 2.7.4.

As subseções seguintes apresentarão os classificadores tradicionais utilizados nos experi-mentos desta pesquisa.

2.7.1 Árvores de Decisão

As árvores de decisão utilizam uma sequência de testes e decisões como base para classi-ficação de padrões. Em geral, uma árvore de decisão representa uma disjunção de conjunçõesde restrição sobre os valores de característica dos padrões. Cada caminho da raiz da árvoreaté uma folha corresponde a uma conjunção de testes de características, e a árvore como umtodo corresponde a uma disjunção destas conjunções. Os padrões são classificados seguindo umcaminho na árvore da raiz até uma das folhas, a qual provê a classe do padrão. Cada nó interno daárvore corresponde a um teste sobre alguma característica dos dados, e cada ramo descendente apartir de um nó representa os valores possíveis que a característica testada pode assumir.

Na Figura 6 é fornecido um exemplo de árvore de decisão para o problema “jogar tênis”,

2.7. Classificação 39

considerando os dados apresentados na Tabela 1. A construção de uma árvore de decisão pode servista como um particionamento recursivo do conjunto de dados. No nó raiz todas as instânciassão consideradas e em cada nó filho considera-se somente o conjunto de dados que satisfaza condição testada. Este processo é repetido recursivamente até que seja satisfeita uma dasseguintes condições de parada:

∙ Todos os dados em um mesmo ramo pertencem a uma mesma classe;

∙ Não há mais características a serem adicionadas à árvore;

∙ Não há mais dados de treinamento.

Figura 6 – Árvore de decisão para o exemplo jogar tênis (Tabela 1).


A escolha da característica corrente de teste é a etapa mais importante para a construçãoda árvore de decisão. O princípio empregado é o de que árvores simples e compactas sãopreferíveis em relação às complexas. Para este fim, é aplicado um procedimento baseado emcritério de impureza, tal como entropia, que efetua partições resultando em subconjuntos deamostras os mais homogêneos possíveis, em cada ramo da árvore. No decorrer da construçãoda árvore, uma folha com amostras heterogêneas é substituída por um nó teste que divide oconjunto heterogêneo em subgrupos minimamente heterogêneos, de acordo com o critério deimpureza. Em outras palavras, a característica mais informativa em um estágio particular é usadapara dividir os dados, pois é a que reduz mais a incerteza.

Como consequência, a operação fundamental de um algoritmo de indução de árvore dedecisão é o cálculo de impureza, que determina a divisão a ser realizada em um determinadonó. Existem várias medidas de impureza, todavia, as mais utilizadas são o ganho de informação


Tabela 1 – Exemplos de treinamento para o problema “jogar tênis”.

Tempo Temperatura Umidade Vento Jogar TênisEnsolarado Alta Alta Fraco NãoEnsolarado Alta Alta Forte NãoNublado Alta Alta Fraco SimChuvoso Média Alta Fraco SimChuvoso Baixa Normal Fraco SimChuvoso Baixa Normal Forte NãoNublado Baixa Normal Forte SimEnsolarado Média Alta Fraco NãoEnsolarado Baixa Normal Fraco SimChuvoso Média Normal Fraco SimEnsolarado Média Normal Fraco SimNublado Média Alta Forte SimNublado Alta Normal Fraco SimChuvoso Média Alta Forte Não

Fonte: Adaptada de Witten, Frank e Hall (2011).

e a taxa de ganho (gain ratio). Ambas utilizam o conceito de entropia no sentido de teoria dainformação (Entropia de Shannon (SHANNON, 1948)). Um dado conjunto de padrões S podeser descrito em termos de sua distribuição de rótulos de classe, e sua entropia pode ser calculadacomo:

H(S) =−l

∑i=1

P(ci) log2 P(ci), (2.17)

onde P(ci) corresponde à proporção de padrões em S pertencente à classe ci, e l é o número declasses em S. A Tabela 2 apresenta o resultado do cálculo da entropia para estas característicastestadas, para o problema "jogar tênis"da Tabela 1.

No nó raiz todas as instâncias são consideradas, deste modo, são representadas peloconjunto C1 na Tabela 2. Aplicando a Equação 2.17 em C1 tem-se o valor de entropia (H(S))igual a 0.94. Este valor de entropia é considerado alto, tornando a classificação muito difícil.Para facilitar a classificação são feitas as primeiras partições com base nos valores possíveis dacaracterística Tempo e Temperatura. As Figuras 7 e 8 ilustram a etapa de partição do conjuntoC1 com base nas características Tempo (com suas partições representadas por C2, C3 e C4) eTemperatura (C5, C6 e C7). Outras características como Umidade e Vento não possuem ilustraçãoda etapa de teste e particionamento, mas seus subconjunto de partições são mostrados na Tabela 2como sendo C8 e C9 para Umidade e C10 e C11 para Vento.

Para a definição de qual característica é preferível para ser utilizada como critério dedecisão, é avaliada qual característica resulta na maior redução da entropia, ou seja, a que resulteem um maior ganho de informação. O ganho de informação IG(S,D) representa a redução de


Tabela 2 – Resultados dos cálculos de entropia. C1 representa o conjunto de todas as instâncias; C2, C3 eC4 representam as partições efetuadas com base na característica Tempo; C5, C6 e C7 são aspartições feitas a partir da característica Temperatura; C8 e C9 para a característica Umidade;C10 e C11 para a característica Vento.

S Sim Não P(Sim) P(Nao) log2 P(Sim) log2 P(Nao) H(S)C1 9 5 0.64 0.36 -0.64 -1.47 0.94C2 2 3 0.40 0.60 -1.32 -0.74 0.97C3 4 0 1.0 0.0 0.0 0.0C4 3 2 0.60 0.40 -0.74 -1.32 0.97C5 2 2 0.50 0.50 -1.0 -1.0 1.0C6 4 2 0.66 0.33 -0.59 -1.59 0.91C7 3 1 0.75 0.25 -0.42 -2.0 0.81C8 3 4 0.43 0.57 -1.22 -0.81 0.98C9 6 1 0.86 0.14 -0.22 -2.84 0.59C10 6 2 0.75 0.25 -0.42 -2.0 0.81C11 3 3 0.50 0.50 -1.0 -1.0 1.0


Figura 7 – Partição no conjunto de instâncias usando caracteristica Tempo (Caracteristica A).


entropia esperada quando o conjunto S é dividido com base na característica D, sendo calculadopor:

IG(S,D) = H(S)−H(S|D) = H(S)− ∑j∈V (D)

S j

SH(S j) (2.18)

onde V (D) denota os valores possíveis para a característica D e S j é o subconjunto de S para oqual a característica D tem valor j. Aplicando a Equação 2.18 para as características do problemasão obtidos os seguintes valores de ganho: IG(S,Tempo) = 0.25, IG(S,Temperatura) = 0.03,IG(S,Umidade) = 0.15 e IG(S,Vento) = 0.05. Com estes resultados é certo dizer que a carac-terística Tempo é preferível em relação as outras para ser utilizada como critério de decisão porresultar em um maior ganho de informação.


Figura 8 – Partição no conjunto de instâncias usando caracteristica Temperatura (Caracteristica B).


O ganho de informação é relevante na escolha da característica, pois, maximizando oganho de informação, minimiza-se o grau de impureza. Contudo, o uso do ganho de informaçãocomo critério tem uma desvantagem inerente da entropia, favorecendo características com umalto número de valores possíveis. Para evitar este inconveniente, o ganho de informação deve sernormalizado pela entropia de S em relação aos valores da característica D, resultando em umoutro critério denominado taxa de ganho (gain ratio):

GainRation(S,D) =IG(S,D)

−∑ j∈V (D)|S j||S| log2

|S j||S|

(2.19)

Um dos classificadores mais conhecidos baseado em árvores de decisão é o C4.5 (QUIN-LAN, 1993). O classificador C4.5 pode manipular valores de características contínuos utilizandopontos de corte e introduz medidas para evitar overfitting tais como parada da divisão dos nós epoda da árvore. Além disso, ele pode manipular padrões com características ausentes.

2.7.2 Naive Bayes

O classificador Naive Bayes é um classificador estatístico baseado no teorema deBayes (THEODORIDIS; KOUTROUMBAS, 1999). O teorema de Bayes diz respeito a pro-babilidade condicional, ou seja, a possibilidade de um evento ocorrer baseado em outro. SejaC = {c1,c2, . . . ,cl} o conjunto de classes dos dados e x uma instância de classe desconhecida.Considerando que x pertence a uma das classes do conjunto C, deseja-se determinar P(ci|x),1 ≤ i ≤ l, ou seja, a probabilidade da classe ci dada a instância x. O cálculo da probabilidade a

posteriori da classe ci condicionada a x, P(ci|x) é dado pela regra de Bayes:

P(ci|x) =P(x|ci)P(ci)

P(x), (2.20)


onde P(ci) é a probabilidade a priori da classe ci, P(x) é a probabilidade a priori de x e P(x|ci)

é a probabilidade a posteriori de x condicionada a classe ci. As probabilidades P(ci), P(x) eP(x|ci) são estimadas a partir das instâncias de treinamento.

Dado um exemplo x de classe desconhecida, um classificador bayesiano prediz quex pertence a classe que tem a maior probabilidade a posteriori P(ci|x), i.e., argci

maxP(ci|x).Considerando P(x) constante para todas as classes tem-se que:

P(ci|x) = P(x|ci)P(ci) (2.21)

Este classificador é denominado ingênuo (naive) por assumir que as características sãocondicionalmente independentes, ou seja, que a informação de um evento não é informativasobre nenhum outro. Assumindo que as características são condicionalmente independentes dadaa classe tem-se que:

P(x|ci) =m

∏k=1

P(xk|ci), (2.22)

sendo m o número de características dos exemplos e P(xk|ci) é estimada dos exemplos detreinamento do seguinte modo:

∙ Se xk for categórico, P(xk|ci) = sik/si, onde sik é o número de exemplos de treino da classeci que têm o valor xk para a característica Ak e si é o número de exemplos de treino daclasse ci.

∙ Se a característica Ak for contínua, é assumido que ela possui uma distribuição gaussiana eé calculada a probabilidade como:

P(xk|ci) =1

σci

√2π

e− (xk−µci )

2

2σ2ci , (2.23)

onde µci e σci são, respectivamente, a média e o desvio padrão dos valores da característicade índice k para os exemplos da classe ci.

Considerando a instância desconhecida x mostrada na Tabela 3 para o problema "jogartênis"com todos os seus dados já rotulados mostrados na Tabela 1, a tarefa do classificadorbaseado no teorema de Bayes é rotular x como pertencente a uma das classes.

Tabela 3 – Instância x do problema "jogar tênis"desconhecida

Tempo Temperatura Umidade Vento Jogar TênisEnsolarado Fria Alta Forte ?

Fonte: Adaptada de Witten, Frank e Hall (2011).


Para classificar a instância x mostrada na Tabela 3, deve-se aplicar, primeiramente aEquação 2.22 para obter o P(x|ci) da seguinte maneira:

P(x|Sim) = P(Ensolarado|Sim) *P(Fria|Sim) *P(Alta|Sim) *P(Forte|Sim) = 29 *

39 *

39 *

39 = 0.008

P(x|Nao)=P(Ensolarado|Nao)*P(Fria|Nao)*P(Alta|Nao)*P(Forte|Nao)= 35 *

15 *

45 *

35 = 0.058.

Após obtido o P(x|ci), em seguida é obtida a probabilidade de x pertencer a uma dasclasses ci. Aplicando a Eq. 2.20 da seguinte forma:

P(Sim|x) = P(x|ci)P(ci)P(x) = (0.008)(0.642)

0.022 = 0.23,

P(Nao|x) = P(x|ci)P(ci)P(x) = (0.058)(0.357)

0.022 = 0.94

Com os resultados de P(Sim|x) = 0.23 e P(Nao|x) = 0.94 temos que a instância xserá classificada como c = Nao, pois a probabilidade de pertencer a esta classe é maior emcomparação a c = Sim.

O classificador Naive Bayes é simples e, geralmente, apresenta alta precisão preditivae escalabilidade em grandes bases de dados de alta dimensionalidade (MITRA; ACHARYA,2003).

2.7.3 Support Vector Machines

As SVMs foram originalmente formuladas para lidar com problemas de classificaçãobinários (duas classes) (ENZWEILER; GAVRILA, 2009). Atualmente, existe uma série detécnicas que podem ser empregadas na generalização das SVMs para a resolução de problemasmulticlasses (BILAL et al., 2017). Assim, é apresentado a seguir uma breve introdução às SVMsem duas partes.

Dado um conjunto de treinamento composto por n amostras, denominadas vetores nocontexto das SVMs, pertencentes a duas classes linearmente separáveis, o objetivo é definir umhiperplano que separe os vetores. Entre os muitos hiperplanos possíveis, o hiperplano separadorótimo é o plano que maximiza a margem, ou seja, a distância entre o hiperplano e o vetor maispróximo de cada classe. A Figura 9 ilustra este procedimento.

As SVMs lidam com problemas não lineares realizando um mapeamento da formaΦ : A → B no qual A é o espaço de características original do problema e B o espaço de destinodo mapeamento, que tem maior dimensionalidade do que A (veja Figura 10). As funções querealizam este tipo de mapeamento são denominadas funções Kernel. Uma escolha apropriada defunção Kernel Φ faz com que o conjunto de treinamento Q mapeado do espaço de característicasA para B seja separável por uma SVM linear (teorema de Cover (HAYKIN, 2009)). Os tipos defunções Kernel mais utilizadas na prática são as polinomiais, gaussianas (Radial Basis Functions

- RBfs) e as sigmoidais.


Figura 9 – Hiperplano de separação SVM de maior margem.

Fonte: Adaptada de Hofmann (2006).

Figura 10 – Mapeamento de um conjunto de dados não linearmente em um linearmente separável: (a)Conjunto de dados não linear; (b) Fronteira não linear no espaço original; (c) Fronteira linearno espaço transformado.

Fonte: Adaptada de Hofmann (2006).

Existem basicamente duas abordagens de SVM multiclasse: a de decomposição doproblema multiclasse em vários subproblemas binários e a de reformulação do algoritmo detreinamento das SVM em versões multiclasse. Em geral, esse último procedimento leva a algorit-mos computacionalmente custosos (HSU; LEE; ZHANG, 2001). Por esse motivo, a estratégiadecomposicional é empregada mais frequentemente. Uma revisão a respeito da obtenção deprevisões multiclasse com SVM pode ser encontrada em (LORENA, 2006).

2.7.4 Classificador dos Vizinhos mais Próximos (k-Nearest Neighbor)

Os classificadores apresentados até o momento são caracterizados pelo fato de construí-rem um modelo de classificação utilizando os dados de treinamento. Normalmente, a construção


de modelo demanda um custo computacional considerável, enquanto que a classificação de novosobjetos é feita de forma rápida. Tais classificadores são chamados de classificadores apressados(eager classifiers). Ao contrário dos classificadores até então apresentados, os classificadorespreguiçosos não constroem modelos de classificação na fase de treinamento. Os objetos nãorotulados são classificados com base na classe majoritária dos padrões de treinamento que maisse assemelham a eles. Como não é construído um modelo, para cada objeto a ser classificadoé analisado todo conjunto de treinamento. Obviamente, este processo é computacionalmentedispendioso, especialmente para conjuntos de treinamento com um elevado número de instânciase alta dimensionalidade. O exemplo mais popular de classificador preguiçoso é o kNN (DUDA;HART; STORK, 2001).

O classificador kNN é descrito da seguinte forma. Suponha um conjunto Q de amostrasde treinamento. Cada elemento de Q é uma tupla (x,c), onde x é um objeto m dimensional e c éo seu rótulo. Seja y um novo objeto não rotulado. Com o objetivo de classificar y calcula-se adistância de y a todos os objetos de treinamento Q. O rótulo de y é dado pela classe que ocorrecom maior frequência dentre os k objetos mais próximos de y.

Antes do processo de classificação, os valores de características são, normalmente, norma-lizados para que valores em diferentes escalas não produza bias no cálculo de distância (DUDA;HART; STORK, 2001). As métricas de normalização mais utilizadas são standardization (tam-bém conhecida como z-score), dada por zi =

vi−µ(v)σ(v) e normalization dada por ni =

vi−min(v)max(v)−min(v) ,

onde onde vi é o valor a ser normalizado, µ(v) e σ(v) correspondem à média e ao desvio padrãodos valores em v, e v é um vetor de valores das instâncias do conjunto de dados para umadeterminada característica.

2.8 Considerações FinaisNeste capítulo foram apresentados os conceitos básicos sobre Visão Computacional e a

respeito de todos os métodos utilizados nesta pesquisa. O próximo capítulo traz uma revisão doestado da arte para as etapas que englobam esta pesquisa.

47

CAPÍTULO

3ESTADO DA ARTE DO RECONHECIMENTO

DE OBJETOS EM VÍDEOS


Este capítulo aborda o estado da arte da detecção de objeto, em especial de pedestres,em vídeos obtidos por câmeras monoculares estáticas no que envolve a vídeo-vigilância. Serãoapresentados importantes trabalhos que fazem uso das técnicas exploradas nesta pesquisa e, alémdisso, discutidos os principais desafios enfrentados por sistemas desta natureza.

3.2 Sistemas monoculares de câmera estática para de-tecção de objetos em vigilância

Os sistemas monoculares de câmera estática são um tipo de sistema baseado no monito-ramento por vídeo utilizando uma única câmera com um campo de visão único (estático), destemodo, preservando o plano de fundo. Na literatura, é possível encontrar diversos trabalhos volta-dos para o reconhecimento de objetos em vídeos obtidos através deste tipo de sistemas. Dentreos trabalhos que mais chamam a atenção estão: detecção de pedestres (VIOLA; JONES; SNOW,2005), detecção de faces (HJELMÅS; LOW, 2001; VIOLA; JONES, 2001; TAIGMAN et al.,2014), detecção de veículos (SCHNEIDERMAN; KANADE, 2000), monitoramento de pessoasidosas para detecção de quedas (ROUGIER et al., 2006; ROUGIER et al., 2007; MUBASHIR;SHAO; SEED, 2013; FENG; LIU; ZHU, 2014) e detecção de objetos abandonados em imagenscapturadas por vídeo-vigilância (TRIPATHI; JALAL; BHATNAGAR, 2013).

Para possibilitar a execução da tarefa de identificação de objetos em vídeos torna-senecessário o emprego de algumas etapas clássicas de visão computacional. Estas etapas são:subtração de plano de fundo, caracterização de objetos e classificação. Para cada uma dessas,

48 Capítulo 3. Estado da Arte do Reconhecimento de Objetos em Vídeos

existem diferentes métodos na literatura que podem ser aplicados dependendo do que a aplicaçãoexige.

3.2.1 Subtração de plano de fundo

Considerando que, a característica destes sistemas é o monitoramento por câmeras devisão única, os métodos de subtração de plano de fundo são comumente utilizados para detecçãode objetos em movimento nos vídeos, principalmente no âmbito da vídeo-vigilância (BRUTZER;HöFERLIN; HEIDEMANN, 2011). Apesar de muitos métodos de subtração de plano de fundo,com desempenho satisfatório, terem sido desenvolvidos, estes ainda encontram dificuldadescom relação aos desafios impostos pelas variações de cena (SOBRAL; VACAVANT, 2014). Osdesafios mais comuns são: mudanças de iluminação, sejam elas gradativas como no dia-a-dia,ou repentinas como quedas de energias ou desligamento desta através de interruptores. Outroproblema comum é em relação aos fundos dinâmicos, ou seja, objetos de cena que se movem,como galhos de árvores, luzes do semáforo e, em alguns casos, animais que transitam pelavisão da câmera. A camuflagem dos objetos causada por vestimentas semelhantes ao cenáriodificultando a distinção entre o foreground (objetos) e o background (plano de fundo) tambémé uma das grandes causadoras de problemas para alguns métodos de estimativa de plano defundo. Sombras também são considerados desafios para alguns métodos, pois esta dificulta aseparação entre objeto e fundo, sendo que estas sombras devem ser consideradas parte do fundo.O bootstrapping, que é a estimativa do plano de fundo inicial, também pode ser desafiadorquando não há falta de uma sequência de frames livres para tal definição, sendo necessário o usode métodos complexos de inicialização. E por último, mas não menos importante, os desafioscausados por ruídos presentes nas imagens monitoradas.

Pensando nestes desafios, Brutzer, Höferlin e Heidemann (2011) trazem uma avaliaçãocompleta de nove métodos de subtração de plano de fundo (MCFARLANE; SCHOFIELD,1995; OLIVER; ROSARIO; PENTLAND, 2000; STAUFFER; GRIMSON, 1999; MCKENNAet al., 2000; LI et al., 2003; KIM et al., 2004; KIM et al., 2005; ZIVKOVIC; HEIJDEN, 2006;MADDALENA; PETROSINO, 2008; BARNICH; DROOGENBROECK, 2009), analisandoa capacidade destes em lidar com estes desafios no âmbito da vídeo-vigilância e, para umamelhora de desempenho, métodos clássicos de pós-processamento são aplicados como: filtros,operações morfológicas e remoção de sombra. Considerando que o método de Mistura deGaussianas (STAUFFER; GRIMSON, 1999) é utilizado neste trabalho para a tarefa de subtraçãode plano de fundo e que este é um dos métodos avaliados por Brutzer, Höferlin e Heidemann(2011) em seus experimentos, são destacados aqui os pontos fortes e fracos deste método.O método Mistura de Gaussianas demonstrou grande desempenho com relação aos desafioscausados pela criação de modelos de plano de fundo apropriados mesmo que este fundo contenhaobjetos em movimento. Outro ponto positivo com relação a este método é sua robustez frentea mudança gradual da iluminação, problema este que é bastante comum se tratando de vídeo-

3.2. Sistemas monoculares de câmera estática para detecção de objetos em vigilância 49

vigilância em locais abertos. Em contrapartida este método não se mostrou tão robusto frenteao desafio das alterações súbitas na iluminação. Com relação a utilização de métodos de pós-processamento, Brutzer, Höferlin e Heidemann (2011) concluiu que o uso de filtros médios eoperações morfológicas (abertura e fechamento) proporcionaram maiores benefícios para umganho de desempenho na subtração de plano de fundo. Em outro trabalho de revisão mais recenteproposto por Goyal e Singhai (2017), os autores destacaram o uso da Mistura de Gaussianascomo o mais eficaz para subtração de plano de fundo considerando a vídeo-vigilância de fundoestático e, além disso, os autores trazem variações deste método voltadas para correções delimitações deste, como por exemplo, a limitação frente a mudanças causadas por interrupçõessúbitas na iluminação e fundo dinâmico.

3.2.2 Extração de características e construção do descritor de obje-tos

A etapa seguinte à subtração de plano de fundo consiste da extração de características dosobjetos extraídos para criação do modelo de descrição. Na literatura existem diversos métodospara execução desta etapa e cada um com uma característica diferente para se adequar aopropósito de sua aplicação. Como por exemplo métodos baseados em extração de característicasde aparência: textura, com os Filtros de Gabor (DAUGMAN, 1985) e GLDM (WESZKA; DYER;ROSENFELD, 1976); atributos de cor, método Color self similarities (CSS) (WALK et al., 2010);extração de forma, como no caso do HOG (DALAL; TRIGGS, 2005); padrões de movimento,podendo ser codificados a partir de diferença temporal (VIOLA; JONES; SNOW, 2005) ou fluxoóptico, com o Histogram of flows (HOF) (DALAL; TRIGGS; SCHMID, 2006).

Para determinadas tarefas que exigem uma construção mais complexa do modelo dedescrição dos objetos, como por exemplo: a detecção de pedestres, diversos trabalhos da literaturausam combinação de características (ALONSO et al., 2007). Viola, Jones e Snow (2005) fazemuso combinado de informações de aparência e informações de padrões de movimento paradetecção de pedestres em imagens capturadas por uma câmera estática. O uso desta combinaçãoé justificado devido à alta variabilidade de pose e vestimenta que um objeto pedestre podeapresentar. Para extrair os padrões de movimento, os autores fazem uso de filtros de retângulos,apresentado em (VIOLA; JONES, 2001) para detecção de faces, aplicados a pares de imagenssequenciais. Em Conde et al. (2013) os autores aplicam o filtro de Gabor e HOG para extraçãode características de pessoas. Os filtros de Gabor são aplicados na fase de pré-processamentoda imagem para reduzir ruído e melhorar a qualidade de informações de borda das imagens.Os melhores filtros, contendo maior informação, são selecionados para convolução e geraçãodas suas respectivas imagens resultantes, em seguida essas imagens resultantes são somadas,criando uma imagem resultante única. Então, o método HOG extrai as informações a partir destaimagem gerada.

Outros exemplos de combinação de características são citados em Nguyen, Li e Ogunbona


(2016), principalmente combinações envolvendo as características de HOG por se tratar de ummétodo bastante utilizado para a tarefa de detecção de pessoas, seja para aplicação em vigilânciaou assistência a condução de veículos, por ter conquistado grande popularidade na literatura paraeste fim (WALK et al., 2010). Esta notoriedade se deve ao fato do HOG ser bastante robusto emrelação a variabilidade da forma humana (NGUYEN; LI; OGUNBONA, 2016).

Após extraídas as características, utilizando métodos que melhor se encaixam a aplicação,ocorre a etapa de construção do descritor que, basicamente, consiste da concatenação de todos ascaracterísticas extraídas em um vetor de alta dimensionalidade (DALAL; TRIGGS, 2005). Estevetor de alta dimensionalidade é, depois, utilizado para a etapa seguinte, a classificação.

3.2.3 Redução de dimensionalidade

A composição de multiplos descritores pode acarretar em um novo desafio para a etapade classificação, este desafio é conhecido na literatura como o fenômeno da Maldição daDimensionalidade (ou Curse of dimensionality) (DONOHO et al., 2000), que o ocorre em funçãoda existência de espaços de características com alta dimensionalidade resultando em uma difícilanálise destes e assim, consequentemente, prejudicando a classificação. Resumidamente, umgrande conjunto de características nem sempre é benéfico para a classificação, pois este pode estarrepleto de características redundantes para a descrição de um determinado objeto. A literaturafornece diversos métodos de redução de dimensionalidade que vão de métodos de seleção decacaterísticas à metodos que fazem uma tranaformação do espaço de caractísticas. Destacandoalguns destes temos os métodos LDA (FISHER, 1936), PCA (PEARSON, 1901; HOTELLING,1933; JOLLIFFE, 2002) e ICA (COMON, 1994). Em Cao et al. (2003) os autores comparam ouso de alguns destes métodos, PCA e ICA, para a tarefa de redução de dimensionalidade paraotimizar o desempenho do classificador SVM para a tarefa de análise de dados de manchassolares. Em seus resultados o método ICA resultou em uma das melhores composições com oSVM. Em Sacha et al. (2017) os autores trazem uma análise de variados métodos de reduçãode dimensionalidade aplicados ao contexto dos sistemas de análise visual. Dentre os métodosdestacados nesta análise esta o método LDA.

3.2.4 Classificação de objetos

A classificação que envolve duas etapas, treinamento e teste, é o passo seguinte apósconstruído o descritor dos objetos, esta etapa será a responsável por classificar os objetos descritosconforme as classes consideradas. Vários classificadores foram propostos na literatura como,aqueles que constroem um modelo de predição: árvores de decisão (QUINLAN, 1993), redesneurais (HAYKIN, 2009), modelos bayesianos (CONGDON, 2007) e SVM (SCHÖLKOPF;SMOLA, 2002). Já outros classificadores que não constroem modelos a partir do conhecimentoobtido na fase de treinamento, como por exemplo o kNN (DUDA; HART; STORK, 2001).

3.2. Sistemas monoculares de câmera estática para detecção de objetos em vigilância 51

Para tarefas de detecção de pedestres a partir de vídeo-vigilância é comumente encon-trada a combinação entre HOG, para extração de características das imagens candidatas, e oclassificador SVM (ENZWEILER; GAVRILA, 2009; BILAL et al., 2017). O fato de que oSVM busca uma maximização da margem que separa as classes umas das outras o credencioucomo sendo um dos classificadores mais aptos para classificar objetos como Pedestre ou NãoPedestres (ENZWEILER; GAVRILA, 2009). Outros trabalhos também destacam o uso do SVMpara detecção de pedestres, como em Cao et al. (2009) onde um método evolutivo é propostopara otimização simultânea do conjunto de características e parâmetros do SVM, visto queoutros trabalhos acabam por ignorar a interdependência entre estes. Deste modo os autoresbuscam alcançar um maior desempenho do classificador SVM para detecção de pedestres. Outroalgoritmo de aprendizagem de máquina muito aplicado para detecção de pedestres é o Ada-Boost (FREUND; SCHAPIRE, 1995; VIOLA; JONES; SNOW, 2005) comumente utilizadocom objetivo de aumentar a performance de outros algoritmos de aprendizagem, avaliando acapacidade de descrição das características extraídas dos objetos (CAO et al., 2009). Saindo dadetecção específica de objetos para vigilância, temos aplicações de algoritmos de aprendizagempara detecção de diversos tipos de objetos, como por exemplo, em Ni et al. (2014). Os autoresutilizaram o clássico algoritmo de aprendizagem kNN para a tarefa de reconhecimento de placasde trânsitos visando aplicação a carros autônomos e sistemas de assistência ao condutor.

3.2.5 Desafios em identificação de objetos em sistemas monocularesde câmera estática

Com relação a detecção de pedestres em sistemas de vigilância monocular, não se podedeixar de falar do problema mais comum que ocorre devido a característica desses sistemas, aoclusão. Porém, este não ocorre somente no âmbito da vigilância considerando estes tipos desistemas, mas em geral é um desafio enfrentado na detecção humana (NGUYEN; LI; OGUN-BONA, 2016). O termo “oclusão” se refere a situações em que o objeto alvo não pode sertotalmente visualizado pelas filmagens, deste modo, dificultando a extração de característicasdo objeto e prejudicando a etapa de classificação. A ocorrência deste fenômeno é bastantecomum quando se tem os seguintes cenários. O objeto de interesse se encontra obstruído poroutro objeto chamado oclusor, podendo este ser outro objeto pertencente a mesma classe, ouum objeto que não pertença a nenhuma classe, esta oclusão é conhecida como, oclusão entreobjetos (NGUYEN; LI; OGUNBONA, 2016). Em detecção de pedestres para vigilância é muitocomum que ocorra a oclusão entre objetos quando se tem ambientes muito lotados. Outro tipode oclusão é a intra-objetos ou auto-oclusão (NGUYEN; LI; OGUNBONA, 2016) que ocorredevido à pose dos objetos, ou seja, o objeto não está em sua pose que o credencia como pedestre,ou a posição em que a câmera está instalada, o objeto está presente em áreas cegas (SONG;ROY-CHOWDHURY, 2008). Na literatura métodos como, tratamento de oclusão baseada emdetecção (SHET et al., 2007; WANG; HAN; YAN, 2009) e tratamento de oclusão baseados em


inferência (WU; NEVATIA, 2007), foram propostos para lidarem com o problema da oclusão epermitirem uma melhor detecção. No entanto, estes se concentram em tratar apenas as oclusõesentre objetos, tendo grandes problemas com relação a auto-oclusão de objetos. Para sistemasde câmeras monoculares, a auto-oclusão pode ser um grande problema, visto que, na literatura,os métodos de tratamento de oclusão não se mostraram eficazes quanto a este tipo de oclusão.Outros tipos de sistemas mais modernos e que mostraram melhor desempenho com relaçãoaos dois tipos de oclusão foram os sistemas de vigilância de múltiplas câmeras. Estes sistemasconsistem de várias câmeras, como uma rede, trabalhando em cooperação em grandes áreas.Quando se tem esse tipo de sistema, a oclusão pode ser resolvida atribuindo a responsabilidadede detectar o objeto obstruído para outras câmeras melhores posicionadas (WANG, 2013).

3.3 Considerações FinaisEste capítulo trouxe uma revisão a respeito das etapas que constituem o reconhecimento

de objetos para vídeos de câmera estática através de importantes trabalhos da literatura. Algunsdesafios que dificultam a execução desta tarefa foram discutidos trazendo como auxílio trabalhosde revisão focados para a discussão destes desafios. O capítulo seguinte descreve a metodologiaelaborada, a base de dados utilizada, os experimentos realizados e os resultados obtidos.

53

CAPÍTULO

4DESENVOLVIMENTO E RESULTADOS


Este capítulo descreve a metodologia elaborada para a identificação de objetos em vídeosde câmera estática, a base de dados utilizada, os experimentos realizados, e os resultados obtidosjuntamente de uma discussão sobre estes.

4.2 Metodologia proposta para identificação de objetosem vídeos

O objetivo deste trabalho se delimita a identificação de quatro classes de objetos, sendoelas, pedestres, ciclistas, carros e nenhuma delas, em vídeos de sistemas de vigilância decâmera estática. A Figura 11 ilustra os passos da metodologia proposta. Inicialmente, para odesenvolvimento das atividades executadas nesta pesquisa, foram detectados os objetos quese movem em cada frame dos vídeos utilizados, por meio do método de subtração de planode fundo denominado Mistura de Gaussiana. Devido ao método de Mistura de Gaussiana nãodelimitar precisamente os objetos em movimento, aplicamos um pós-processamento através dasoperações de morfologia matemática denominadas abertura e fechamento. Estas operações sãoaplicadas sobre a máscara binária produzida pela subtração de plano de fundo com o objetivode eliminar pequenos componentes (ruídos), suavizar o contorno dos componentes maiores, epreencher buracos e fendas presentes na máscara de detecção. Tais buracos e fendas ocorremprincipalmente quando a cor de partes do objeto tem uma alta similaridade com a cor do planode fundo local. Para a aplicação destas operações morfológicas foi considerado o uso de umretângulo como elemento estruturante com dimensões 3×3 para a operação de abertura e 15×15para o fechamento.

Com base na máscara de detecção de objetos em movimento, resultado da subtração de

54 Capítulo 4. Desenvolvimento e Resultados

plano de fundo corrigida pelas operações morfológicas, foram extraídos os bounding boxes doframe original, também conhecidos como regiões candidatas que podem conter ou não objetospertencentes as classes alvo. Para realização da extração dos bounding boxes a área do objeto devepossuir 400 ou mais pixels. Estas regiões extraídas foram rotuladas e separadas de acordo comsuas respectivas classes, de forma que os classificadores pudessem construir um conhecimentobaseado em padrões de informação referente ao rotulo dos objetos.

Figura 11 – Metodologia proposta para identificação de objetos em vídeos.


Antes da caracterização dos objetos utilizando os métodos definidos nesta pesquisa, todasas imagens de objetos detectados pelo método de subtração de plano de fundo foram convertidaspara níveis de cinza e redimensionadas para 128×128 pixels. O redimensionamento das imagensé motivado pelo fato dos descritores utilizados gerarem vetores de características de tamanhosdiferentes para imagens de resolução diferentes. Esse redimensionamento também colabora paracaracterização de objetos pertencentes a mesma classe que são capturados em distâncias distintas,pois não há necessidade que os extratores sejam robustos à escala da imagem. A conversão dosobjetos para nível de cinza é justificada pelo fato de que a informação de cor não é utilizada paraa identificação dos objetos tratados nesta pesquisa. O não uso de informações cor se deve ao fatode que objetos na mesma classe, como por exemplo carros, apresentarem cores bastante distintas,enquanto objetos de classes distintas, um carro e um pedestre por exemplo, poderem apresentarcores similares; assim, entende-se que a informação de cor não é relevante. Consequentemente,para esta pesquisa foram utilizados métodos de extração de características voltados para a análisedos aspectos visuais de forma e textura, os quais são, Filtro de Gabor, GLDM e HOG.

Devido a grande dimensionalidade apresentada pelo vetores de características produzidospelo métodos de extração de características desta pesquisa, e também devido ao fato de ser

4.3. Descrição da base de dados 55

amplamente conhecido na literatura que a alta dimensionalidade prejudica a eficácia de métodosde classificação, tornou-se importante a análise de métodos para redução da dimensão do espaçode características. Os métodos utilizados nesta etapa da pesquisas foram: LDA e ICA. Cada umdestes métodos são aplicados sobre os vetores de características produzidos por cada método deextração. Os vetores de características resultantes para cada método de redução são concatenados,deste modo, resultando na criação do descritor de características reduzido.

Os descritores criados nas etapas anteriores são então disponibilizados para a etapa declassificação. Para esta etapa foram utilizados quatro métodos clássicos de classificação, a saber,SVM, C4.5, Naive Bayes e kNN. Os critérios de avaliação de cada um destes métodos ocorre emfunção da sua taxa de classificação correta denominada acurácia. Esta taxa pode ser dada pelaseguinte equação:

Acurácia =Instâncias classificadas corretamente

Total de Instâncias(4.1)

4.3 Descrição da base de dados

Para avaliação dos resultados obtidos pelos métodos experimentados neste trabalho paradetecção de múltiplas classes, foram utilizadas as sequências de vídeos presentes na base dedados PETS2001 (FERRYMAN, 2001), a qual é uma base de dados pública. Contudo, porse tratar de uma base de dados voltada para o rastreamento de objetos e como este trabalho évoltado para classificação de objetos em vídeos, foi montada uma base de objetos rotulados,extraídos dos vídeos. A partir desta nova base torna-se possível a validação da metodologiadesenvolvida. A base PETS2001 possui cinco sub-bases denominadas DATASET1, DATASET2,DATASET3, DATASET4 e DATASET5, cada uma contendo dois vídeos de treinamento e doispara testes, estes capturados por diferentes câmeras em posições distintas a partir de um sistemade monitoramento. Para nossos experimentos foram utilizadas as quatro primeiras bases citadas.Não foram utilizados os vídeos da base DATASET5 devido a esta base fugir da característica denossa pesquisa, pois estas gravações foram feitas através de uma câmera instalada em um veículoem movimento. Para cada uma das bases utilizadas foram extraídos os objetos em movimentos(veja a Tabela 4) detectados pelo método de subtração de plano de fundo de Mistura de Gaussiana.Estes objetos foram classificados em 4 classes: Pedestres, Ciclista, Carro, Nenhum (nenhumaclasse) e, em algumas bases, CarroPedestre, quando carros aparecerem juntos aos pedestres. Abase DATASET3 possui apenas 3 classes de objetos, sendo que a classe Carro está ausente destabase. Deste modo, a relação classes por bases ficou como mostrado na Tabela 5.


Tabela 4 – Bases de dados com os números de instâncias de treinamento e teste.

Base Etapa Nro. de Instâncias

DATASET1 Treinamento 5149Teste 12368





Tabela 5 – Bases de dados com os números de instâncias de treinamento e teste.

Base ClassesDATASET1 Pedestre, Carro, CarroPedestre e NenhumDATASET2 Pedestre, Carro, CarroPedestre e NenhumDATASET3 Pedestre, Ciclista e NenhumDATASET4 Pedestre, Carro, Ciclista e Nenhum


4.4 Experimentos

As configurações para o método de descrição HOG foram definidas da seguinte maneira:para captura de informações espaciais foi utilizada uma célula HOG de tamanho 8× 8 e umbloco com um número de células 2×2. Para os Filtros de Gabor foram gerados um total de 40núcleos para serem utilizados nas operações de convolução com as imagens de objetos da base. AFigura 12 ilustra os Filtros de Gabor utilizados. Após a convolução foi efetuado o downsampling

das imagens resultantes para criação dos vetores de características, sendo a resolução espacialresultante de 4×4. A operação de downsampling tem a propriedade de preservar a informaçãoespacial.

O primeiro experimento realizado utiliza a composição dos vetores de característicasoriginais obtidos pelos extratores. A Tabela 6 mostra os resultados obtidos. Devido a grandedimensão do vetor de características resultante da composição, com dimensão correspondente a50084 características, os resultados obtidos não se mostraram satisfatórios para a maioria dasbases de dados experimentadas, com exceção da base DATASET1 que, para o método kNN parak = 1 e k = 3, obteve um resultado bastante acima dos outros métodos com, respectivamente,79.30% e 78.98% de taxa de classificação correta.

Para minimizar os danos causados pela maldição da dimensionalidade no primeiroexperimento, foi adotada a primeira técnica de redução de dimensionalidade utilizada neste

4.4. Experimentos 57

Figura 12 – Filtros de Gabor utilizados para operação de convolução.


Tabela 6 – Acurácia de classificação para experimento sem redução de dimensionalidade.

Método Bases de dadosDATASET1 DATASET2 DATASET3 DATASET4

Naive Bayes 57.79% 57.30% 37.55% 48.49%SVM 77.33% 65.89% 69.77% 69.47%kNN (k=1) 79.30% 51.41% 72.12% 56.90%kNN (k=3) 78.98% 50.78% 72.44% 59.17%kNN (k=5) 78.85% 49.91% 72.68% 60.21%C4.5 58.08% 58.37% 58.54% 63.42%


trabalho, o LDA. A Tabela 7 apresenta os resultados de classificação obtidos por este experimento.Este método transforma as características utilizadas através de combinações lineares para umnúmero de características correspondente ao número de classes da base de dados, ou seja, osdescritores ficaram com dimensão igual ao número de classes presentes na base. Considerandoque o número de classes presentes nas bases é menor ou igual a quatro, houve uma reduçãoconsiderável no espaço de características. Os resultados para as bases que possuíam um maiornúmero de classes foram melhores, comprovando que um espaço de dimensão muito pequenapode prejudicar alguns métodos de classificação. Neste experimento os melhores resultadosforam obtidos na base DATASET4, nesta o método SVM alcançou 78.81% de acurácia.

O último experimento utiliza o método de redução de dimensionalidade ICA. Esteexperimento resultou em um grande ganho de acurácia, obtendo o melhor resultado deste


Tabela 7 – Acurácia de classificação após redução de dimensionalidade pelo método LDA.




trabalho para o método SVM com 80.81% de classificações corretas para a base DATASET1como apresentado na Tabela 8. Esta melhora em relação aos outros experimentos se deve ao fatode que o ICA não resulta em um espaço de características de dimensão muito pequena como oLDA e nem tão grande como o descritor de características original (sem redução). As dimensõesdos descritores após aplicado o método ICA foram de 2400 características.

Tabela 8 – Acurácia de classificação após redução de dimensionalidade pelo método ICA.




Para facilitar a visualização do desempenho dos classificadores nos experimentos destetrabalho, a Tabela-9 apresenta as médias de acurácia e desvio padrão para cada método aplicadoas quatro bases.

Como pode ser visto na Tabela 9 o experimento com ICA obteve as melhores médias(em negrito) em comparação com os outros experimentos. Em particular a combinação dosmétodos ICA/SVM foi detentora do melhor resultado com média de 75.50%. Contudo, não sepode ignorar os resultados do LDA/kNN que, com apenas 3.75% da quantidade de característicasdisponíveis para os experimentos com o ICA, teve somente 2.91% de acurácia média a menosque o experimento ICA/kNN.

Como os métodos utilizados para este trabalho possuíam maior destaque aplicados aidentificação de pedestre e não pedestres, as Tabelas 10, 11, 12 e 13 trazem as matrizes de

4.4. Experimentos 59

Tabela 9 – Média de desempenho dos métodos de classificação para cada experimento.

Método Média (desvio padrão)Sem Redução LDA ICA

Naive Bayes 50.28% (9.50) 70.93% (2.98) 65.44% (6.15)SVM 70.61% (4.81) 72.59% (4.51) 75.50% (4.09)kNN (k=1) 64.93% (12.98) 71.95% (4.17) 73.56% (5.42)kNN (k=3) 65.34% (12.73) 72.29% (3.89) 73.37% (5.57)kNN (k=5) 65.41% (12.92) 72.09% (3.59) 73.23% (5.41)C4.5 59.60% (2.55) 66.39% (3.98) 63.43% (5.89)


confusão para mostrarem o desempenho do método ICA/SVM na classificação dos objetosPedestres. Onde a primeira linha possui colunas que representam o resultado da classificação ea ultima coluna possui linhas que correspondem as classes originais do problema. A diagonalprincipal corresponde ao número de classificações corretas para cada classe mostrada na ultimacoluna.

Tabela 10 – Matriz de confusão para o método ICA/SVM base DATASET1.

Carro CarroPedestre Nenhum Pedestre2815 (81.6%) 0 0 635 Carro208 0 (0%) 0 12 CarroPedestre120 0 1251 (60.2%) 706 Nenhum685 0 8 5928 (89.5%) Pedestre



Carro CarroPedestre Nenhum Pedestre1086 (77.8%) 53 155 101 Carro16 0 (0%) 6 3 CarroPedestre0 0 1447 (100%) 0 Nenhum87 2 1430 1993 (56.7%) Pedestre


Nas Tabelas 10, 12 e 13 é mostrado que o método ICA/SVM teve um excelente númerode acertos das amostras rotuladas como Pedestres, chegando a obter 99.3% de acerto para a baseDATASET4.



Ciclista Nenhum Pedestre122 (38.2%) 0 197 Ciclista53 2892 (43.8%) 3654 Nenhum266 47 9265 (96.7%) Pedestre



Carro Ciclista Nenhum Pedestre333 (31.3%) 94 0 636 Carro0 5 (2.4%) 0 202 Ciclista0 0 20 (22.2%) 70 Nenhum6 8 7 2848 (99.3%) Pedestre


4.5 Considerações FinaisEste capítulo apresentou tudo que engloba o desenvolvimento deste trabalho, descre-

vendo a metodologia elaborada para a execução desta pesquisa, a base de dados utilizada, osexperimentos realizados, e os resultados obtidos juntamente com a análise destes. Em resumo osexperimentos realizados mostram que a combinação dos métodos ICA/SVM obteve o melhorresultado com acurácia média de 75.50% nas quatro bases de dados utilizadas. Além dissoICA/SVm obteve o melhor resultado individual com acurácia de 80.81% para o base DATASET1.O desempenho deste método também se mostrou superior se considerada a classificação para aclasse Pedestre, com uma taxa de 99.3% de acertos no experimento com a base DATASET4.

61

CAPÍTULO

5CONCLUSÕES E TRABALHOS FUTUROS


Os resultados dos experimentos apresentados neste trabalho são condizentes com outrostrabalhos da literatura voltados para identificação de objetos em vídeos de câmera estática, ondeestes destacam a vantagem do método de classificação SVM em relação aos outros classificadores.Inicialmente prejudicado pela alta dimensionalidade do descritor de objetos utilizado no primeiroexperimento (experimento sem uso de redução de dimensionalidade), o SVM obteve a maiortaxa de classificações corretas deste trabalho em combinação com o método utilizado pararedução de dimensionalidade ICA com 80.81% de acurácia para a base DATASET4. O SVMtambém pode ser considerado o melhor método experimentado por ter obtido a maior médiade acertos para todas as bases de dados como mostrado na Tabela 9. Para o experimento sema aplicação dos métodos LDA e ICA, apesar da alta dimensionalidade o classificador com amaior taxa de acerto foi o kNN na base DATASET1 com 79.30% para k = 1. Para o experimentocom uso de LDA na base DATASET4 por esta estar completa, com todas as quatro classesdefinidas, os resultados obtidos foram melhores em comparação as demais bases. Esta hipótesese confirma se comparados os resultados para DATASET3 que apresentava somente três classes,onde o espaço de característica foi reduzido a três características, o que pode não ter sido idealpara a etapa de classificação. Contudo, a observação a se fazer é com relação ao número decaracterísticas utilizadas nos experimento, mostrando que a combinação ICA/SVM, apesar demaior taxa de acurácia, perde no quesito custo computacional em função da dimensionalidadepara a combinação LDA/kNN.

Apesar de destacado anteriormente os métodos SVM e kNN para os experimentosdesta pesquisa, os resultados obtidos ficaram aquém do exigido para aplicações reais de vídeo-vigilância. Isto pode ser justificado devido à abrangência de classes de objetos definidas para estapesquisa, pois os métodos de extração de características usados possuem destaque em tarefasque fazem a identificação de Pedestres e Não Pedestres. Um exemplo disto é o método SVM

62 Capítulo 5. Conclusões e Trabalhos Futuros

para a base DATASET3 que classificou corretamente 96.7% dos objetos pedestres e 99.3%para a DATASET4. No entanto, devido a semelhança entre as classes Ciclistas e Pedestres, asamostras de Ciclistas foram erroneamente classificadas como Pedestres na maioria das vezes.Outro problema em que este trabalho se esbarra é com relação a qualidade das imagens obtidas,onde objetos extraídos continham baixa resolução. Contudo, apesar destes resultados, pode sertirado como contribuição positiva a melhora de desempenho ocasionada pelo método de reduçãode dimensionalidade ICA para os experimentos mostrados neste trabalho.

5.2 Trabalhos FuturosPara trabalhos futuros, uma possível solução para uma melhor descrição dos objetos

resultando em um espaço de característica de menor dimensionalidade, seria a estratégia utilizadano trabalho de (CONDE et al., 2013) que utiliza o método de Filtros de Gabor na fase de pré-processamento com objetivo de reduzir o ruído e otimizar as informações de borda dos objetos.Para isso, os melhores filtros são selecionados e agrupados para formarem uma única imagemresultante para que, em seguida, sejam extraídas as outras características. Outra possibilidadedevido ao grande número de classificações errôneas de ciclistas como pedestres é utilizar umextrator de características de movimento tal como o usado em (VIOLA; JONES; SNOW, 2005),uma vez que ciclistas normalmente se locomovem mais rapidamente que pedestres. Tambémpara amenizar o problema de oclusão parcial de objetos que acarretam erros de classificação,planeja-se usar métodos de rastreamento (WENG; KUO; TU, 2006) para prever posições de umdado objeto em posições futuras. Por exemplo, se um dado objeto vinha sendo repetidamenteclassificado como pedestre ao longo de um trajetória, um objeto encontrado na posição predita(ou próximo) para aquele objeto, pode ser considerado como tendo uma alta probabilidade decorresponder ao pedestre em questão.

63

REFERÊNCIAS

ALONSO, I. P.; LLORCA, D. F.; SOTELO, M. Á.; BERGASA, L. M.; TORO, P. R. de; NUEVO,J.; OCAÑA, M.; GARRIDO, M. Á. G. Combination of feature extraction methods for svmpedestrian detection. IEEE Transactions on Intelligent Transportation Systems, IEEE, v. 8,n. 2, p. 292–307, 2007. Citado na página 49.

ANGELO, N. P. Aplicação de filtros de Gabor no processo de classificação de imagens digi-tais com base em atributos de textura. 2000. 137p. Dissertação (Mestrado) — UniversidadeFederal do Rio Grande do Sul. Centro Estadual de Pesquisas em Sensoriamento Remoto eMeteorologia. Curso de Pós-Graduação em Sensoriamento Remoto., 2000. Citado nas páginas31 e 32.

APTÉ, C.; WEISS, S. Data mining with decision trees and decision rules. Future generationcomputer systems, Elsevier, v. 13, n. 2-3, p. 197–210, 1997. Citado na página 38.

BARNICH, O.; DROOGENBROECK, M. V. Vibe: a powerful random technique to estimatethe background in video sequences. In: IEEE. Acoustics, Speech and Signal Processing, 2009.ICASSP 2009. IEEE International Conference on. [S.l.], 2009. p. 945–948. Citado na página48.

BELHUMEUR, P. N.; HESPANHA, J. P.; KRIEGMAN, D. J. Eigenfaces vs. fisherfaces: re-cognition using class specific linear projection. IEEE Transactions on Pattern Analysis andMachine Intelligence, v. 19, n. 7, p. 711–720, 1997. Citado na página 34.

BELLMAN, R. E. Adaptive Control Processes: A Guided Tour. [S.l.]: MIT Press, 1961. ISBN9780691079011. Citado na página 34.

BILAL, M.; KHAN, A.; KHAN, M. U. K.; KYUNG, C.-M. A low-complexity pedestriandetection framework for smart video surveillance systems. IEEE Transactions on Circuits andSystems for Video Technology, IEEE, v. 27, n. 10, p. 2260–2273, 2017. Citado nas páginas25, 44 e 51.

BISHOP, C. M. Pattern recognition and machine learning. [S.l.]: springer, 2006. Citado napágina 27.

BOUWMANS, T. Traditional and recent approaches in background modeling for foregrounddetection: An overview. Computer Science Review, Elsevier, v. 11, p. 31–66, 2014. Citado napágina 28.

BRUTZER, S.; HöFERLIN, B.; HEIDEMANN, G. Evaluation of background subtraction te-chniques for video surveillance. In: CVPR 2011. [S.l.: s.n.], 2011. p. 1937–1944. Citado naspáginas 48 e 49.

CAO, L.; CHUA, K. S.; CHONG, W.; LEE, H.; GU, Q. A comparison of pca, kpca and ica fordimensionality reduction in support vector machine. Neurocomputing, Elsevier, v. 55, n. 1, p.321–336, 2003. Citado nas páginas 37 e 50.

64 Referências

CAO, X.; XU, Y. W.; CHEN, D.; QIAO, H. Associated evolution of a support vector machine-based classifier for pedestrian detection. Information Sciences, Elsevier, v. 179, n. 8, p. 1070–1077, 2009. Citado na página 51.

CARCAGNÌ, P.; COCO, M.; LEO, M.; DISTANTE, C. Facial expression recognition andhistograms of oriented gradients: a comprehensive study. SpringerPlus, Nature PublishingGroup, v. 4, n. 1, p. 645, 2015. Citado na página 28.

CHAN, H.-P.; GALHOTRA, S.; VYBORNY, C. J.; MACMAHON, H.; JOKICH, P. M. etal. Image feature analysis and computer-aided diagnosis in digital radiography. i. automateddetection of microcalcifications in mammography. Medical physics, Wiley Online Library, v. 14,n. 4, p. 538–548, 1987. Citado na página 31.

CHERRY, E. C. Some experiments on the recognition of speech, with one and with two ears.The Journal of the acoustical society of America, ASA, v. 25, n. 5, p. 975–979, 1953. Citadona página 36.

COMON, P. Independent component analysis, a new concept? Signal processing, Elsevier, v. 36,n. 3, p. 287–314, 1994. Citado nas páginas 34, 36 e 50.

CONDE, C.; MOCTEZUMA, D.; DIEGO, I. M. D.; CABELLO, E. Hogg: Gabor and hog-basedhuman detection for surveillance in non-controlled environments. Neurocomputing, Elsevier,v. 100, p. 19–30, 2013. Citado nas páginas 49 e 62.

CONGDON, P. Bayesian statistical modelling. [S.l.]: John Wiley & Sons, 2007. v. 704. Citadonas páginas 26, 38 e 50.

DALAL, N.; TRIGGS, B. Histograms of oriented gradients for human detection. In: Proce-edings of the 2005 IEEE Computer Society Conference on Computer Vision and PatternRecognition (CVPR’05). San Diego, CA, USA: [s.n.], 2005. v. 1, p. 886–893. Citado naspáginas 25, 30, 49 e 50.

DALAL, N.; TRIGGS, B.; SCHMID, C. Human detection using oriented histograms of flowand appearance. In: SPRINGER. European conference on computer vision. [S.l.], 2006. p.428–441. Citado na página 49.

DAUGMAN, J. G. Uncertainty relation for resolution in space, spatial frequency, and orientationoptimized by two-dimensional visual cortical filters. JOSA A, Optical Society of America, v. 2,n. 7, p. 1160–1169, 1985. Citado nas páginas 32 e 49.

DELL’ACQUA, F.; GAMBA, P. Texture-based characterization of urban environments onsatellite sar images. IEEE Transactions on Geoscience and Remote Sensing, v. 41, n. 1, p.153–159, Jan 2003. Citado nas páginas 28 e 30.

DÉNIZ, O.; BUENO, G.; SALIDO, J.; TORRE, F. D. L. Face recognition using histogramsof oriented gradients. Pattern Recognition Letters, Elsevier, v. 32, n. 12, p. 1598–1603, 2011.Citado na página 31.

DONOHO, D. L. et al. High-dimensional data analysis: The curses and blessings of dimensi-onality. AMS Math Challenges Lecture, Citeseer, v. 1, p. 32, 2000. Citado nas páginas 24e 50.

DUDA, R.; HART, P.; STORK, D. Pattern Classification and Scene Analysis. Second edition.[S.l.]: John Wiley & Sons, Inc., 2001. Citado nas páginas 26, 38, 46 e 50.

Referências 65

ENZWEILER, M.; GAVRILA, D. M. Monocular pedestrian detection: Survey and experiments.IEEE transactions on pattern analysis and machine intelligence, IEEE, v. 31, n. 12, p. 2179–2195, 2009. Citado nas páginas 44 e 51.

FENG, W.; LIU, R.; ZHU, M. Fall detection for elderly person care in a vision-based homesurveillance environment using a monocular camera. Signal, Image and Video Processing,Springer, v. 8, n. 6, p. 1129–1138, 2014. Citado na página 47.

FERRYMAN, J. PETS2001 datasets (The University of Reading, UK). 2001. Disponível em:<ftp://ftp.pets.rdg.ac.uk/pub/PETS2001>. Citado na página 55.

FISHER, R. A. The use of multiple measurements in taxonomic problems. Annals of eugenics,v. 7, n. 2, p. 179–188, 1936. Citado nas páginas 34 e 50.

FREUND, Y.; SCHAPIRE, R. E. A desicion-theoretic generalization of on-line learning andan application to boosting. In: SPRINGER. European conference on computational learningtheory. [S.l.], 1995. p. 23–37. Citado na página 51.

GONZALEZ, R. C.; WOODS, R. E. Processamento de imagens digitais. [S.l.]: Edgard Blucher,2000. Citado na página 29.

GOOL, L. V.; DEWAELE, P.; OOSTERLINCK, A. Texture analysis anno 1983. Computervision, graphics, and image processing, Elsevier, v. 29, n. 3, p. 336–357, 1985. Citado napágina 31.

GOYAL, K.; SINGHAI, J. Review of background subtraction methods using gaussian mixturemodel for video surveillance systems. Artificial Intelligence Review, Springer, p. 1–19, 2017.Citado nas páginas 24 e 49.

GRANLUND, G. H.; KNUTSSON, H. Signal processing for computer vision. [S.l.]: SpringerScience & Business Media, 2013. Citado na página 28.

HARALICK, R. M.; SHANMUGAM, K. et al. Textural features for image classification. IEEETransactions on systems, man, and cybernetics, Ieee, n. 6, p. 610–621, 1973. Citado napágina 23.

HARALICK, R. M.; SHAPIRO, L. G. Image segmentation techniques. Computer vision,graphics, and image processing, Elsevier, v. 29, n. 1, p. 100–132, 1985. Citado na página 27.

HAYKIN, S. Neural Networks and Learning Machines. 3rd. ed. [S.l.]: Prentice Hall, 2009.Citado nas páginas 38, 44 e 50.

HAYMAN, E.; EKLUNDH, J.-O. Statistical background subtraction for a mobile observer. In:Proceedings of the Ninth IEEE International Conference on Computer Vision. [S.l.: s.n.],2003. p. 67–74 vol.1. Citado na página 28.

HJELMÅS, E.; LOW, B. K. Face detection: A survey. Computer vision and image understan-ding, Elsevier, v. 83, n. 3, p. 236–274, 2001. Citado na página 47.

HOFMANN, M. Support vector machines—kernels and the kernel trick. Notes, v. 26, 2006.Citado na página 45.

HOTELLING, H. Analysis of a complex of statistical variables into principal components.Journal of educational psychology, Warwick & York, v. 24, n. 6, p. 417, 1933. Citado naspáginas 34, 35 e 50.

ftp://ftp.pets.rdg.ac.uk/pub/PETS2001

66 Referências

HOYER, P. O.; HYVÄRINEN, A. Independent component analysis applied to feature extractionfrom colour and stereo images. Network: computation in neural systems, Taylor & Francis,v. 11, n. 3, p. 191–210, 2000. Citado na página 37.

HSU, W.; LEE, M.; ZHANG, J. Image mining: trends and developments. Journal of IntelligentInformation Systems, p. 7–23, 2001. Citado na página 45.

JOLLIFFE, I. Principal component analysis. [S.l.]: Wiley Online Library, 2002. Citado naspáginas 34, 35 e 50.

JUNG, B.; SUKHATME, G. S. Detecting moving objects using a single camera on a mobilerobot in an outdoor environment. In: International Conference on Intelligent AutonomousSystems. [S.l.: s.n.], 2004. p. 980–987. Citado na página 23.

KIM, J. K.; PARK, H. W. Statistical textural features for detection of microcalcifications indigitized mammograms. IEEE transactions on medical imaging, IEEE, v. 18, n. 3, p. 231–238,1999. Citado na página 31.

KIM, K.; CHALIDABHONGSE, T. H.; HARWOOD, D.; DAVIS, L. Background modelingand subtraction by codebook construction. In: IEEE. Image Processing, 2004. ICIP’04. 2004International Conference on. [S.l.], 2004. v. 5, p. 3061–3064. Citado na página 48.

KIM, K.; CHALIDABHONGSE, T. H.; HARWOOD, D.; DAVIS, L. Real-time foreground–background segmentation using codebook model. Real-time imaging, Elsevier, v. 11, n. 3, p.172–185, 2005. Citado na página 48.

KIM, W.-Y.; KIM, Y.-S. A region-based shape descriptor using zernike moments. Signal pro-cessing: Image communication, Elsevier, v. 16, n. 1, p. 95–102, 2000. Citado na página25.

LATECKI, L. J.; LAKAMPER, R.; ECKHARDT, T. Shape descriptors for non-rigid shapes witha single closed contour. In: Proceedings IEEE Conference on Computer Vision and PatternRecognition. CVPR 2000 (Cat. No.PR00662). [S.l.: s.n.], 2000. v. 1, p. 424–429 vol.1. Citadonas páginas 25, 28 e 30.

LI, L.; HUANG, W.; GU, I. Y.; TIAN, Q. Foreground object detection from videos containingcomplex background. In: ACM. Proceedings of the eleventh ACM international conferenceon Multimedia. [S.l.], 2003. p. 2–10. Citado na página 48.

LIU, C. Enhanced independent component analysis and its application to content based faceimage retrieval. IEEE Transactions on Systems, Man, and Cybernetics, Part B (Cyberne-tics), IEEE, v. 34, n. 2, p. 1117–1127, 2004. Citado na página 37.

LIU, C.; WECHSLER, H. Gabor feature based classification using the enhanced fisher lineardiscriminant model for face recognition. IEEE Transactions on Image processing, IEEE, v. 11,n. 4, p. 467–476, 2002. Citado na página 25.

LORENA, A. C. Investigação de estratégias para a geração de máquinas de vetores desuporte multiclasses. Tese (Tese de Doutorado) — Instituto de Ciências Matemáticas e deComputação (ICMC/USP), 2006. Citado na página 45.

LYONS, R. G. Understanding Digital Signal Processing, 3/E. [S.l.]: Pearson Education India,2004. Citado na página 34.

Referências 67

MADDALENA, L.; PETROSINO, A. A self-organizing approach to background subtraction forvisual surveillance applications. IEEE Transactions on Image Processing, IEEE, v. 17, n. 7, p.1168–1177, 2008. Citado na página 48.

MAO, L.; XIE, M.; HUANG, Y.; ZHANG, Y. Preceding vehicle detection using histograms of ori-ented gradients. In: Communications, Circuits and Systems (ICCCAS), 2010 InternationalConference on. [S.l.: s.n.], 2010. p. 354–358. Citado na página 31.

MCFARLANE, N. J.; SCHOFIELD, C. P. Segmentation and tracking of piglets in images.Machine vision and applications, Springer, v. 8, n. 3, p. 187–193, 1995. Citado na página 48.

MCKENNA, S. J.; JABRI, S.; DURIC, Z.; ROSENFELD, A.; WECHSLER, H. Tracking groupsof people. Computer vision and image understanding, Elsevier, v. 80, n. 1, p. 42–56, 2000.Citado na página 48.

MEDATHATI, N. K.; NEUMANN, H.; MASSON, G. S.; KORNPROBST, P. Bio-inspiredcomputer vision: Towards a synergistic approach of artificial and biological vision. ComputerVision and Image Understanding, Elsevier, v. 150, p. 1–30, 2016. Citado na página 28.

METAXAS, D. N. Physics-based deformable models: applications to computer vision,graphics and medical imaging. [S.l.]: Springer Science & Business Media, 2012. v. 389.Citado na página 28.

MITRA, S.; ACHARYA, T. Data Mining: Multimedia, Soft Computing and Bioinformatics.[S.l.]: John Wiley & Sons, 2003. Citado na página 44.

MUBASHIR, M.; SHAO, L.; SEED, L. A survey on fall detection: Principles and approaches.Neurocomputing, Elsevier, v. 100, p. 144–152, 2013. Citado na página 47.

NGUYEN, D. T.; LI, W.; OGUNBONA, P. O. Human detection from images and videos: Asurvey. Pattern Recognition, Elsevier, v. 51, p. 148–175, 2016. Citado nas páginas 24, 25, 50e 51.

NI, Z.; FU, S.; TANG, B.; HE, H.; HUANG, X. Experimental studies on indoor sign recognitionand classification. In: IEEE. Computational Intelligence and Data Mining (CIDM), 2014IEEE Symposium on. [S.l.], 2014. p. 489–494. Citado na página 51.

OLIVER, N. M.; ROSARIO, B.; PENTLAND, A. P. A bayesian computer vision system for mo-deling human interactions. IEEE transactions on pattern analysis and machine intelligence,IEEE, v. 22, n. 8, p. 831–843, 2000. Citado na página 48.

PASS, G.; ZABIH, R. Histogram refinement for content-based image retrieval. In: IEEE. Appli-cations of Computer Vision, 1996. WACV’96., Proceedings 3rd IEEE Workshop on. [S.l.],1996. p. 96–102. Citado nas páginas 28 e 30.

PEARSON, K. Liii. on lines and planes of closest fit to systems of points in space. The London,Edinburgh, and Dublin Philosophical Magazine and Journal of Science, Taylor & Francis,v. 2, n. 11, p. 559–572, 1901. Citado nas páginas 34, 35 e 50.

PICCARDI, M. Background subtraction techniques: a review. In: 2004 IEEE InternationalConference on Systems, Man and Cybernetics. San Diego, CA: [s.n.], 2004. v. 4, p. 3099 –3104. Citado na página 28.

68 Referências

QUINLAN, J. R. C4.5: Programs for machine learning. San Francisco, USA: Morgan Kauf-mann, 1993. Citado nas páginas 26, 38, 42 e 50.

ROUGIER, C.; MEUNIER, J.; ST-ARNAUD, A.; ROUSSEAU, J. Monocular 3d head trackingto detect falls of elderly people. In: IEEE. Engineering in Medicine and Biology Society, 2006.EMBS’06. 28th Annual International Conference of the IEEE. [S.l.], 2006. p. 6384–6387.Citado na página 47.

ROUGIER, C.; MEUNIER, J.; ST-ARNAUD, A.; ROUSSEAU, J. Fall detection from humanshape and motion history using video surveillance. In: IEEE. Advanced Information Networ-king and Applications Workshops, 2007, AINAW’07. 21st International Conference on.[S.l.], 2007. v. 2, p. 875–880. Citado na página 47.

SACHA, D.; ZHANG, L.; SEDLMAIR, M.; LEE, J. A.; PELTONEN, J.; WEISKOPF, D.;NORTH, S. C.; KEIM, D. A. Visual interaction with dimensionality reduction: A structuredliterature analysis. IEEE transactions on visualization and computer graphics, IEEE, v. 23,n. 1, p. 241–250, 2017. Citado na página 50.

SAID, Y.; ATRI, M. Efficient and high-performance pedestrian detector implementation forintelligent vehicles. IET Intelligent Transport Systems, IET, v. 10, n. 6, p. 438–444, 2016.Citado na página 23.

SCHNEIDERMAN, H.; KANADE, T. A statistical method for 3d object detection applied tofaces and cars. In: Proceedings IEEE Conference on Computer Vision and Pattern Recogni-tion. CVPR 2000 (Cat. No.PR00662). [S.l.: s.n.], 2000. v. 1, p. 746–751 vol.1. ISSN 1063-6919.Citado na página 47.

SCHÖLKOPF, B.; SMOLA, A. J. Learning with Kernels. [S.l.]: MIT Press, 2002. Citado naspáginas 25, 38 e 50.

SHANNON, C. A mathematical theory of communication. The Bell Systems Technical Jour-nal, v. 27, n. 1, p. 379–423, 1948. Citado na página 40.

SHET, V. D.; NEUMANN, J.; RAMESH, V.; DAVIS, L. S. Bilattice-based logical reasoningfor human detection. In: IEEE. Computer Vision and Pattern Recognition, 2007. CVPR’07.IEEE Conference on. [S.l.], 2007. p. 1–8. Citado na página 51.

SHI, J.; SAHINER, B.; CHAN, H.-P.; GE, J.; HADJIISKI, L.; HELVIE, M. A.; NEES, A.; WU,Y.-T.; WEI, J.; ZHOU, C. et al. Characterization of mammographic masses based on level setsegmentation with new image features and patient information. Medical physics, Wiley OnlineLibrary, v. 35, n. 1, p. 280–290, 2008. Citado na página 23.

SOBRAL, A.; VACAVANT, A. A comprehensive review of background subtraction algorithmsevaluated with synthetic and real videos. Computer Vision and Image Understanding, v. 122,p. 4–21, 2014. Citado nas páginas 28 e 48.

SONG, B.; ROY-CHOWDHURY, A. K. Robust tracking in a camera network: A multi-objectiveoptimization framework. IEEE Journal of Selected Topics in Signal Processing, IEEE, v. 2,n. 4, p. 582–596, 2008. Citado nas páginas 24 e 51.

STAUFFER, C.; GRIMSON, W. E. L. Adaptive background mixture models for real-timetracking. In: IEEE Computer Society Conference on Computer Vision and Pattern Recog-nition. [S.l.: s.n.], 1999. v. 2, p. 252 Vol. 2. Citado nas páginas 28 e 48.

Referências 69

TAIGMAN, Y.; YANG, M.; RANZATO, M.; WOLF, L. Deepface: Closing the gap to human-level performance in face verification. In: Proceedings of the IEEE conference on computervision and pattern recognition. [S.l.: s.n.], 2014. p. 1701–1708. Citado nas páginas 23 e 47.

THEODORIDIS, S.; KOUTROUMBAS, K. Pattern Recognition. New York, USA: AcademicPress, 1999. Citado na página 42.

TRIPATHI, R. K.; JALAL, A. S.; BHATNAGAR, C. A framework for abandoned object detectionfrom video surveillance. In: IEEE. Computer Vision, Pattern Recognition, Image Processingand Graphics (NCVPRIPG), 2013 Fourth National Conference on. [S.l.], 2013. p. 1–4.Citado na página 47.

TUZEL, O.; PORIKLI, F.; MEER, P. Region covariance: A fast descriptor for detection andclassification. Computer Vision–ECCV 2006, Springer, p. 589–600, 2006. Citado na página25.

VIOLA, P.; JONES, M. Rapid object detection using a boosted cascade of simple features.In: Proceedings of the 2001 IEEE Computer Society Conference on Computer Vision andPattern Recognition. CVPR 2001. [S.l.: s.n.], 2001. v. 1, p. I–511–I–518 vol.1. ISSN 1063-6919. Citado nas páginas 47 e 49.

VIOLA, P.; JONES, M. J.; SNOW, D. Detecting pedestrians using patterns of motion andappearance. International Journal of Computer Vision, Springer, v. 63, n. 2, p. 153–161,2005. Citado nas páginas 47, 49, 51 e 62.

WALK, S.; MAJER, N.; SCHINDLER, K.; SCHIELE, B. New features and insights for pe-destrian detection. In: IEEE. Computer vision and pattern recognition (CVPR), 2010 IEEEconference on. [S.l.], 2010. p. 1030–1037. Citado nas páginas 49 e 50.

WANG, X. Intelligent multi-camera video surveillance: A review. Pattern recognition letters,Elsevier, v. 34, n. 1, p. 3–19, 2013. Citado na página 52.

WANG, X.; HAN, T. X.; YAN, S. An hog-lbp human detector with partial occlusion handling.In: IEEE. Computer Vision, 2009 IEEE 12th International Conference on. [S.l.], 2009. p.32–39. Citado na página 51.

WENG, S.-K.; KUO, C.-M.; TU, S.-K. Video object tracking using adaptive kalman fil-ter. Journal of Visual Communication and Image Representation, v. 17, n. 6, p. 1190 –1208, 2006. ISSN 1047-3203. Disponível em: <http://www.sciencedirect.com/science/article/pii/S1047320306000113>. Citado na página 62.

WESZKA, J. S.; DYER, C. R.; ROSENFELD, A. A comparative study of texture measures forterrain classification. IEEE Transactions on Systems, Man, and Cybernetics, IEEE, n. 4, p.269–285, 1976. Citado nas páginas 31 e 49.

WITTEN, I. H.; FRANK, E.; HALL, M. A. Data Mining: Practical Machine Learning Toolsand Techniques. 3rd. ed. San Francisco, CA, USA: Morgan Kaufmann Publishers Inc., 2011.ISBN 0123748569, 9780123748560. Citado nas páginas 40 e 43.

WU, B.; NEVATIA, R. Detection and tracking of multiple, partially occluded humans bybayesian combination of edgelet based part detectors. International Journal of ComputerVision, Springer, v. 75, n. 2, p. 247–266, 2007. Citado na página 52.

http://www.sciencedirect.com/science/article/pii/S1047320306000113

http://www.sciencedirect.com/science/article/pii/S1047320306000113

70 Referências

WU, Y.; GIGER, M. L.; NISHIKAWA, R. M. et al. Computerized detection of clustered mi-crocalcifications in digital mammograms: applications of artificial neural networks. MedicalPhysics, Wiley Online Library, v. 19, n. 3, p. 555–560, 1992. Citado na página 31.

ZHOU, C.; CHAN, H.-P.; PETRICK, N.; HELVIE, M. A.; GOODSITT, M. M.; SAHINER, B.;HADJIISKI, L. M. Computerized image analysis: estimation of breast density on mammograms.Medical physics, Wiley Online Library, v. 28, n. 6, p. 1056–1069, 2001. Citado na página 23.

ZIVKOVIC, Z.; HEIJDEN, F. V. D. Efficient adaptive density estimation per image pixel for thetask of background subtraction. Pattern recognition letters, Elsevier, v. 27, n. 7, p. 773–780,2006. Citado na página 48.

Documents

Identificaçãodeobjetosemvídeosdecâmera estática