RAFAELLUCIENBAHRARIAS - uel.br · de intensidade da imagem de forma a obter um histograma uniforme, cujo valor de

RAFAEL LUCIEN BAHR ARIAS

PROCESSAMENTO DE VÍDEOS PARA ATENUAÇÃO DERUÍDO E AJUSTE DE BRILHO E CONTRASTE

LONDRINA–PR

2016



Trabalho de Conclusão de Curso apresentadoao curso de Bacharelado em Ciência da Com-putação da Universidade Estadual de Lon-drina para obtenção do título de Bacharel emCiência da Computação.

Orientador: Prof. Dr. Alan Salvany Felinto

LONDRINA–PR

2016

Rafael Lucien Bahr AriasProcessamento de Vídeos para Atenuação de Ruído e Ajuste de Brilho e Con-

traste/ Rafael Lucien Bahr Arias. – Londrina–PR, 2016-74 p. : il. (algumas color.) ; 30 cm.

Orientador: Prof. Dr. Alan Salvany Felinto

– Universidade Estadual de Londrina, 2016.

1. Processamento de vídeos. 2. Ruído. 3. Brilho. 4. Contraste. I. Alan SalvanyFelinto. II. Universidade Estadual de Londrina. III. Faculdade de Ciência daComputação. IV. Processamento de Vídeos para Atenuação de Ruído e Ajuste deBrilho e Contraste

CDU 02:141:005.7



Trabalho de Conclusão de Curso apresentadoao curso de Bacharelado em Ciência da Com-putação da Universidade Estadual de Lon-drina para obtenção do título de Bacharel emCiência da Computação.

BANCA EXAMINADORA

Prof. Dr. Alan Salvany FelintoUniversidade Estadual de Londrina

Orientador

Prof. Dr. Segundo Membro da BancaUniversidade/Instituição do Segundo

Membro da Banca

Prof. Dr. Terceiro Membro da BancaUniversidade/Instituição do Terceiro

Membro da Banca

Prof. Ms. Quarto Membro da BancaUniversidade/Instituição do Quarto

Membro da Banca

Londrina–PR, 12 de Dezembro de 2016

Dedico este trabalho à minha família, que sempre me apoiou na trajetória até aqui.

AGRADECIMENTOS

Inicialmente gostaria de agradecer à minha família, sobretudo meus pais, Carlos eMônica, e minha irmã, Gabriela, pelo suporte oferecido durante todos esses anos. Querodedicar também um agradecimento especial ao meu avô, Julio, pelos seus ensinamentosao compartilhar suas inúmeras experiências de vida. Agradeço a todos que em algummomento contribuíram para a minha formação, em especial gostaria de agradecer ao meuorientador, Alan Salvany Felinto, que nunca deixou de me ajudar, tendo me proporcionadoos conhecimentos para a pesquisa e sempre me estimulando a solucionar os problemas quesurgiam. Finalmente gostaria de agradecer aos amigos que me acompanharam durante ocurso, pelo companheirismo e por terem ajudado a encarar os desafios como as provas,trabalhos e seminários até o fim da graduação.

“Mesmo as pessoas que dizem que tudo está predeterminado e que não podemos fazernada para mudá-lo, olham para os dois lados antes de atravessar a rua.”

(Stephen Hawking)

ARIAS, R. L. B.. Processamento de Vídeos para Atenuação de Ruído e Ajustede Brilho e Contraste. 74 p. Trabalho de Conclusão de Curso (Bacharelado em Ciênciada Computação) – Universidade Estadual de Londrina, Londrina–PR, 2016.

RESUMO

Os vídeos digitais proporcionaram avanços fundamentais na era da informação, mas aindaenfrentam muitos problemas decorrentes das falhas originadas no processo de aquisição etransmissão, que ocasionam ruídos e perda das informações presentes no vídeo. A restau-ração e o melhoramento da qualidade de imagens e vídeos são problemas primordiais naárea de processamento da Computação Gráfica, onde se busca desenvolver e aperfeiçoartécnicas para atenuar os ruídos e ajustar fatores essenciais para a qualidade visual comoo brilho e contraste. O trabalho possui o objetivo de comparar o desempenho de váriasdestas técnicas, dentre elas, algoritmos clássicos para redução de ruído como o filtro demediana, gaussiano, bilateral e anisotrópico, e outros estado da arte como o filtro de mé-dias não-locais e Block-Matching 3D. Para isso, são executados testes simulando diferentestipos e intensidades de ruído, relacionando a eficiência dos métodos em cenários diversos.Visando o melhoramento de vídeo pelo aumento do contraste, são comparadas técnicasde equalização de histograma e a filtragem homomórfica. A avaliação é feita por meio demétricas de qualidade como a relação sinal-ruído de pico, similaridade estrutural e VideoQuality Metric (VQM), utilizando a entropia para verificar o aprimoramento do contrastejuntamente com a preservação da qualidade temporal do vídeo na oscilação do brilho. Osresultados fornecidos pelos testes contribuíram para a escolha mais adequada das técnicasfrente aos problemas encontrados nas aplicações de vídeo.

Palavras-chave: Processamento de vídeos. Ruído. Brilho. Contraste.

ARIAS, R. L. B.. Video Processing for Noise Reduction and Brightness/ContrastEnhancement. 74 p. Final Project (Bachelor of Science in Computer Science) – StateUniversity of Londrina, Londrina–PR, 2016.

ABSTRACT

Digital videos provided fundamental advances in the information age, but still face manyproblems resulting from failures arising in their process of acquisition and transmission,which cause noise and loss of information present in the video. The restoration and im-provement of the quality of images and videos are fundamental problems in the ComputerGraphics processing area, where it is sought to develop and improve techniques in order toreduce noise and adjust essential factors to the visual quality like brightness and contrast.This work aims to compare the performance of several of these techniques, among themclassical denoising algorithms such as median, Gaussian, bilateral and anisotropic filter,and other state of the art methods such as Non-Local Means and Block-Matching 3D. Toachieve this, several tests are performed by simulating different noise types and intensities,relating the methods efficiency in different scenarios. For the video contrast enhancement,several methods are analyzed such as histogram equalization techniques and homomorphicfiltering. The evaluation is done by using quality metrics such as Peak Signal-To-Noise Ra-tio, Structural Similarity and Video Quality Metric (VQM), using entropy to verify thecontrast enhancement together with the video temporal quality preservation in bright-ness oscillation. The results provided by the tests contributed to the appropriate choiceof techniques to the problems encountered in video applications.

Keywords: Video processing. Noise. Brightness. Contrast.

LISTA DE ILUSTRAÇÕES

Figura 1 – Simulação de ruídos (𝜎 = 20) . . . . . . . . . . . . . . . . . . . . . . . 32Figura 2 – Fluxograma para comparação das técnicas de atenuação de ruído . . . 51Figura 3 – Fluxograma para comparação das técnicas de ajuste de brilho e contraste 52Figura 4 – Fluxograma para comparação das técnicas de aprimoramento com de-

gradação do contraste . . . . . . . . . . . . . . . . . . . . . . . . . . . 53Figura 5 – Redução de ruído gaussiano com 𝜎 = 30 . . . . . . . . . . . . . . . . . 56Figura 6 – Redução de ruído impulsivo . . . . . . . . . . . . . . . . . . . . . . . . 57Figura 7 – Redução de ruído uniforme com 𝜎 = 20 . . . . . . . . . . . . . . . . . . 58Figura 8 – Redução de ruído poisson com 𝜎 = 10 . . . . . . . . . . . . . . . . . . 60Figura 9 – Redução de ruído gama com 𝜎 = 20 . . . . . . . . . . . . . . . . . . . . 60Figura 10 – Ajuste de brilho e contraste (Bus) . . . . . . . . . . . . . . . . . . . . . 63Figura 11 – Oscilação de brilho no vídeo Bus . . . . . . . . . . . . . . . . . . . . . 64Figura 12 – Ajuste de brilho e contraste no vídeo Foreman degradado (a = 0,3) . . 65Figura 13 – Oscilação de brilho no vídeo Foreman . . . . . . . . . . . . . . . . . . . 66Figura 14 – Ajuste de brilho e contraste no vídeo Waterfall degradado (a = 0,1) . . 67Figura 15 – Oscilação de brilho no vídeo Waterfall . . . . . . . . . . . . . . . . . . 67

LISTA DE TABELAS

Tabela 1 – Algoritmos de filtragem . . . . . . . . . . . . . . . . . . . . . . . . . . 39Tabela 2 – Redução de ruído gaussiano . . . . . . . . . . . . . . . . . . . . . . . . 55Tabela 3 – Redução de ruído impulsivo . . . . . . . . . . . . . . . . . . . . . . . . 57Tabela 4 – Redução de ruído uniforme . . . . . . . . . . . . . . . . . . . . . . . . 58Tabela 5 – Redução de ruído poisson . . . . . . . . . . . . . . . . . . . . . . . . . 59Tabela 6 – Redução de ruído gama . . . . . . . . . . . . . . . . . . . . . . . . . . 60Tabela 7 – Comparação dos resultados para atenuação de ruído (𝜎 = 10) . . . . . 61Tabela 8 – Comparação dos resultados para atenuação de ruído (𝜎 = 20) . . . . . 61Tabela 9 – Comparação dos resultados para atenuação de ruído (𝜎 = 30) . . . . . 61Tabela 10 – Tempo de processamento médio das técnicas de redução de ruído . . . 62Tabela 11 – Ajuste de brilho e contraste no vídeo Bus . . . . . . . . . . . . . . . . 63Tabela 12 – Ajuste de brilho e contraste no vídeo Foreman . . . . . . . . . . . . . . 65Tabela 13 – Ajuste de brilho e contraste no vídeo Waterfall . . . . . . . . . . . . . 66Tabela 14 – Tempo de processamento médio das técnicas para brilho e contraste . . 68

LISTA DE ABREVIATURAS E SIGLAS

3D 3 Dimensões

FA Filtragem Anisotrópica

FB Filtro Bilateral

BFM Brightness Flicking Metric (Métrica de Oscilação do Brilho)

BM3D Block-Matching and 3-Dimensional Filtering

CLAHE Contrast Limited Adaptive Histogram Equalization

FR Full Reference (Referência Completa)

FG Filtro Gaussiano

EH Equalização de Histograma

FH Filtragem Homomórfica

FM Filtro de Mediana

MOS Mean Opinion Score (Pontuação Média de Opinião)

MSE Mean Squared Error (Erro Quadrático Médio)

NLM Non-Local Means (Filtro de Médias Não-Locais)

NR No Reference (Sem Referência)

PSNR Peak Signal-To-Noise Ratio (Relação Sinal-Ruído de Pico)

SSIM Structural Similarity (Similaridade Estrutural)

VQM Video Quality Metric (Métrica de Qualidade de Vídeo)

SUMÁRIO

1 INTRODUÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . 231.1 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 241.2 Organização do Trabalho . . . . . . . . . . . . . . . . . . . . . . . 24

2 FUNDAMENTAÇÃO TEÓRICA . . . . . . . . . . . . . . . . . 272.1 Processamento Digital de Imagens e Vídeos . . . . . . . . . . . 272.1.1 Modelos de Cores . . . . . . . . . . . . . . . . . . . . . . . . . . . . 282.1.2 Compressão de Dados . . . . . . . . . . . . . . . . . . . . . . . . . 292.1.3 Histograma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 292.1.3.1 Equalização de Histograma . . . . . . . . . . . . . . . . . . . . . . . . 30

2.2 Ruídos e Artefatos . . . . . . . . . . . . . . . . . . . . . . . . . . . 312.2.1 Modelos de Distribuição de Ruído . . . . . . . . . . . . . . . . . 312.3 Algoritmos de Filtragem . . . . . . . . . . . . . . . . . . . . . . . 332.3.1 Filtro de Média e Gaussiano . . . . . . . . . . . . . . . . . . . . . 342.3.2 Filtro de Mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . 352.3.3 Filtro Bilateral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 352.3.4 Filtragem Anisotrópica . . . . . . . . . . . . . . . . . . . . . . . . 352.3.5 Filtragem Homomórfica . . . . . . . . . . . . . . . . . . . . . . . . 362.3.6 Non-Local Means (NLM) . . . . . . . . . . . . . . . . . . . . . . . 372.3.7 Block-Matching 3D (BM3D) . . . . . . . . . . . . . . . . . . . . . 382.4 Métricas de Qualidade de Vídeo . . . . . . . . . . . . . . . . . . 392.4.1 Métricas de Referência Completa . . . . . . . . . . . . . . . . . . 402.4.1.1 Mean Squared Error (MSE) . . . . . . . . . . . . . . . . . . . . . . . . 40

2.4.1.2 Peak Signal-To-Noise Ratio (PSNR) . . . . . . . . . . . . . . . . . . . 40

2.4.1.3 Structural Similarity (SSIM) . . . . . . . . . . . . . . . . . . . . . . . 41

2.4.1.4 Video Quality Metric (VQM) . . . . . . . . . . . . . . . . . . . . . . . 41

2.4.2 Métricas Sem Referência . . . . . . . . . . . . . . . . . . . . . . . 422.4.2.1 Entropia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

2.4.2.2 Brightness Flicking Metric (BFM) . . . . . . . . . . . . . . . . . . . . 43

3 TRABALHOS RELACIONADOS . . . . . . . . . . . . . . . . . 45

4 PROCEDIMENTOS METODOLÓGICOS . . . . . . . . . . . . 494.1 Atenuação de Ruído . . . . . . . . . . . . . . . . . . . . . . . . . . 494.2 Ajuste de Brilho e Contraste . . . . . . . . . . . . . . . . . . . . . 51

5 RESULTADOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

5.1 Comparação dos métodos de atenuação de ruído . . . . . . . . 555.1.1 Atenuação de ruído gaussiano . . . . . . . . . . . . . . . . . . . . 555.1.2 Atenuação de ruído impulsivo . . . . . . . . . . . . . . . . . . . . 565.1.3 Atenuação de ruído uniforme . . . . . . . . . . . . . . . . . . . . 585.1.4 Atenuação de ruído poisson e gama . . . . . . . . . . . . . . . . 595.2 Comparação dos métodos de ajuste de brilho e contraste . . . 625.2.1 Teste sem degradação de contraste . . . . . . . . . . . . . . . . . 625.2.2 Teste com degradação de contraste (a = 0,3) . . . . . . . . . . 645.2.3 Teste com degradação de contraste (a = 0,1) . . . . . . . . . . 66

6 CONCLUSÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69

REFERÊNCIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

23

1 INTRODUÇÃO

Nos últimos anos, a tecnologia avançou para um ponto onde a aquisição, transmis-são e reprodução de vídeos em formato digital se tornaram bastante práticas e eficientes.Existe uma gama de aplicações que se beneficiam desta evolução, como as videoconferên-cias, compartilhamento de vídeos na internet, televisão digital, procedimentos médicos,etc. [1]. Porém, ainda existem muitas situações onde as imagens e vídeos gravados sofremdegradações significantes, como em condições precárias de ambiente, falhas nos sensoresde gravação e dispositivos de transmissão, interferências de sinal, até problemas causadospor algoritmos de compressão [2]. Assim, a restauração e melhoramento de imagens e ví-deos sempre foram um campo essencial da computação gráfica, não apenas para aprimorara qualidade visual como também para aumentar o desempenho de etapas posteriores deprocessamento, como análise e reconhecimento do conteúdo.

A atenuação ou redução de ruídos é uma fase crítica em qualquer aplicação deprocessamento gráfico, já que busca isolar as informações relevantes das interferênciasexternas [3]. Sem esta importante etapa, todos os outros procedimentos como realce esegmentação ficam comprometidos. Assim, o pré-processamento é normalmente subdivi-dido em uma fase de suavização e outra de aprimoramento, a fim de evitar que ruídossejam agravados [4, 5].

Os ruídos muitas vezes são originados devido à condições naturais como a baixailuminação, que juntamente com a sensibilidade de uma câmera de baixo custo resulta emuma gravação com alta propensão a ruídos [6]. Os sensores de última geração permitemque muitos ruídos comuns sejam eliminados logo na sua aquisição, mas devido ao aumentodo acesso não profissional à tecnologia de gravação de vídeos e imagens, o problema é cadavez mais evidente e a demanda por soluções de processamento digital é crescente [7].

Vídeos tendem a apresentar ainda mais ruídos que imagens devido à alta velocidadede captura dos quadros ou frames pela câmera [7]. Por outro lado, a vantagem é quevídeos possuem altíssima redundância temporal, ou seja, a informação presente em cadaquadro de vídeo se repete por vários quadros adjacentes. Dessa forma, os algoritmosde redução de ruído em vídeos podem tirar proveito disso e restaurar falhas de umamaneira mais eficaz [8]. Apesar da redundância de informação, um problema enfrentado érelacionar a coerência temporal do vídeo, ou seja, realizar a estimação de movimento dosobjetos contidos na cena. Afinal, dificilmente um vídeo será composto apenas por váriasimagens de objetos fixados na mesma posição, por isso em métodos específicos para vídeoa estimação e compensação de movimento torna a complexidade computacional bastanteelevada, o que somado ao maior volume de dados a serem processados, faz com que aotimização dos algoritmos e implementação em hardware seja desejada [1].

24

Na fase de aprimoramento, o principal objetivo é aumentar o contraste por meiodo realce das bordas, com a finalidade de tornar os objetos mais distinguíveis entre si e emrelação ao fundo [5], além de facilitar a visualização dos detalhes [9]. Em vídeos, almeja-seque o contraste seja ampliado sem que isso altere o brilho de forma significante, pois issopoderia reduzir a qualidade pelo aumento na oscilação do brilho entre os quadros do vídeo[10, 11]. Porém, no caso de vídeos muito escuros, o aumento da iluminação permite que osobjetos ganhem diferentes tonalidades aumentando consideravelmente o contraste e assima visibilidade do conteúdo [12, 13].

Dessa forma, a maioria dos métodos para melhoramento de vídeos e imagens éaltamente dependente do conteúdo processado. Mesmo que em certos casos algumas téc-nicas existentes tenham alcançado perfeitamente a remoção de ruído e realce do contraste,é provável que em grande parte dos vídeos elas não conseguiriam resultados positivos egerariam novos artefatos. Por isso, o desenvolvimento de uma abordagem universal parao problema permanece um desafio [14].

1.1 Objetivos

Este trabalho tem como objetivo avaliar e comparar técnicas para aprimoramentoda qualidade visual de vídeos digitais, tanto em relação à redução de ruídos quanto noajuste de brilho e contraste do vídeo. Para isso, são consideradas várias abordagens desolução do problema e realizados testes onde cada método tem o seu desempenho avaliadode maneira objetiva por métricas de qualidade.

Para avaliar a atenuação de ruído, são simulados diferentes tipos e intensidades deruídos que ocorrem durante a aquisição e transmissão de vídeos de acordo com o modelode distribuição estatística dos mesmos, pois foi verificado que a maioria das abordagensconsidera uma generalização dos ruídos para apenas um ou dois tipos no máximo (gaus-siano e impulsivo), o que frequentemente não ocorre na prática [7, 15].

Ao relacionar a eficiência de diferentes técnicas para melhoramento de vídeo emsituações distintas, o trabalho possibilita que os resultados sejam utilizados como refe-rência na aplicação das técnicas existentes bem como no desenvolvimento e avaliação denovos métodos.

1.2 Organização do Trabalho

O trabalho está organizado da seguinte forma:

∙ No Capítulo 2, é apresentada a fundamentação teórica necessária para o desenvol-vimento do trabalho;

25

∙ No Capítulo 3, são analisadas as diferentes abordagens de trabalhos relacionadospara solucionar os problemas;

∙ No Capítulo 4, são definidos os procedimentos metodológicos aplicados para a rea-lização dos testes e análise dos resultados obtidos;

∙ No Capítulo 5, são apresentados e discutidos os resultados obtidos nos testes;

∙ No Capítulo 6, são evidenciadas as conclusões e considerações finais bem como aspossibilidades a serem exploradas em trabalhos futuros.

27

2 FUNDAMENTAÇÃO TEÓRICA

Para realizar este trabalho, foi necessário o estudo de múltiplos tópicos relaciona-dos à área de processamento digital da Computação Gráfica, que são apresentados nasdiferentes seções deste capítulo. Na seção 2.1, são abordados diversos conceitos essenciaissobre o processamento digital de imagens e vídeos, como os tipos de representação dosdados, espaços de cores, compressão, histograma e equalização. Na seção 2.2, são descritosos diferentes tipos de ruído presentes nos vídeos, onde vários deles podem ser represen-tados pelo seu modelo de distribuição estatística. Na seção 2.3, são definidas as váriastécnicas e operações de filtragem empregadas no trabalho. Finalmente, na seção 2.4 sãoapresentadas as métricas de qualidade utilizadas nos testes.

2.1 Processamento Digital de Imagens e Vídeos

Na área de processamento de imagens, uma imagem pode ser definida como umafunção bidimensional 𝑓(𝑥, 𝑦), onde 𝑥 e 𝑦 são coordenadas do plano e o valor de 𝑓 paraqualquer par de coordenadas é denominado intensidade ou nível de cinza da imagem noponto (𝑥, 𝑦) [2].

Quando as coordenadas e intensidades são discretas e finitas, a imagem é chamadade imagem digital. Imagens e vídeos digitais nada mais são do que imagens e vídeos queforam convertidos para um formato binário passível de ser lido por um computador. Assim,o campo de processamento digital refere-se aos processos realizados por um computadordigital em imagens ou vídeos digitais [1].

Um vídeo analógico é representado como um sinal contínuo variante no tempo,expresso por 𝐼(𝑥, 𝑦, 𝑡) onde (𝑥, 𝑦) são coordenadas espaciais contínuas e 𝑡 é o tempo con-tínuo. Um vídeo digital é uma sequência de imagens digitais, denominadas frames ouquadros, sendo obtido por amostragem e quantização do vídeo analógico, ou por amos-tragem direta nos sensores de gravação. A amostragem é um processo de conversão dosinal contínuo do espaço-tempo para um sinal discreto, enquanto a quantização se refere àconversão de um espaço de valores contínuos para valores discretos em um intervalo finitode tempo. É possível observar que durante a amostragem para vídeo digital existe perdade informação, já que as mudanças ao longo do tempo não podem ser completamenterepresentadas em um conjunto discreto [1].

Uma imagem digital é formada por finitos elementos que são geralmente deno-minados pixels, cada um com uma localização e valores específicos [2]. Na quantizaçãosão calculados os valores de intensidade dos pixels dentro do intervalo discreto e finito,resultando em uma imagem em níveis de cinza se ela é representada apenas pelos valores

28

de intensidade dos pixels. Para imagens coloridas, há mais de um valor associado a cadapixel, para isso a câmera ou dispositivo de captura utiliza sensores distintos [1]. Nessecaso, a cor do pixel é definida por um modelo ou espaço de cor.

2.1.1 Modelos de Cores

Um modelo de cor é uma tupla de valores que descreve uma cor específica, podendoser representada como um ponto no espaço. O propósito de se usar diferentes espaços decores é facilitar a sua especificação de acordo com a necessidade, seja em hardware, comocâmeras, impressoras e monitores, ou aplicações em computação gráfica, em um formatopadronizado e aceito por todos [4].

Um modelo bastante comum em televisões, computadores e câmeras digitais éo RGB (Red, Green, Blue), onde cada cor é formada pela adição das cores primáriasvermelho, verde e azul [2]. O problema deste modelo para os algoritmos de processamentoé que ele não separa as componentes de luminância e crominância. A luminância podeser percebida como a intensidade ou brilho dos pixels, estando mais próxima dos níveisde cinza da imagem, enquanto a crominância refere-se à informação das cores dos pixels,denominada matiz ou tonalidade [1].

Porém, existem vários modelos de cores que permitem trabalhar com a luminânciae crominância separadamente, como o HSV (Hue, Saturation, Value), que separa a cornos componentes de matiz, saturação e brilho, sendo bastante usada em pesquisas devidoa sua naturalidade [5]. Outros exemplos são os padrões YIQ e YCbCr, muito usados emtelevisões e vídeos sem compressão respectivamente, onde a luminância é representada nocanal Y e os aspectos de cor nos canais restantes [4].

Um dos espaços mais utilizados nas técnicas de filtragem atualmente é o L*a*b*,também chamado de CIELAB, que foi definido pela CIE (International Comission onIllumination) onde as diferenças na luminância e crominância são mais perceptualmenteuniformes [16]. Neste modelo, o componente L* representa a luminosidade, enquanto osdemais descrevem a crominância, com o canal a* contendo tonalidades de vermelho averde, e o b* de amarelo a azul [17].

A maioria dos algoritmos para imagens e vídeos digitais são aplicados em imagensde valor único. Por isso, em imagens coloridas as técnicas são aplicadas separadamenteem um ou mais canais, considerando cada componente como uma imagem separada eem seguida recombinando os resultados. Pode-se verificar que o modelo RGB contémmuitas informações sobrepostas, enquanto em modelos como o HSV ou CIELAB é possívelisolar melhor os dados de intensidade no canal de luminância, assim o processamento demuitos algoritmos é realizado após a conversão para um destes espaços e finalizado coma desconversão para o espaço original em RGB [1].

29

2.1.2 Compressão de Dados

Um dos problemas enfrentados no processamento de vídeos e imagens é a grandequantidade de bytes necessários para a transmissão e armazenamento dos arquivos digitais,dessa forma, a compressão dos dados é fundamental para otimizar o desempenho destesprocedimentos. A compressão de dados se refere ao processo de redução da quantidade dedados exigidos para representar a mesma informação. Busca-se atingir a redução a partirda ideia de remoção da informação redundante [4].

A compressão pode ser feita com perda de informação ou sem perdas. Na com-pressão sem perdas, toda informação original é preservada, enquanto na compressão comperdas existe uma eliminação tolerável de informação, mas que permite atingir taxas decompressão muito maiores. Alguns exemplos clássicos de compressão sem perdas são acodificação de Huffman e aritmética [1].

As técnicas de compressão com perda são mais usadas atualmente e buscam re-mover informações de forma que a diferença resultante nos vídeos e imagens comprimidosnão seja perceptível pelo sistema visual humano, embora facilmente detectada por umcomputador. Mas isso nem sempre é possível e a compressão com perdas pode gerar arte-fatos indesejados deteriorando a qualidade da imagem ou vídeo, como no caso do JPEGe MPEG respectivamente, dois métodos comuns de compressão com perda de informação[16].

2.1.3 Histograma

O histograma é uma função discreta ℎ(𝑟𝑘) = 𝑛𝑘 onde 𝑟𝑘 é o k-ésimo valor deintensidade no intervalo [0, 𝐿−1] e 𝑛𝑘 é o número de pixels da imagem com intensidade 𝑟𝑘

[2]. Em outras palavras, é uma relação entre cada valor possível do pixel e sua ocorrência naimagem. A análise da distribuição do histograma indica a condição de visibilidade de umacena: caso a contagem de pixels no histograma esteja concentrada em uma determinadaregião, significa que as imagens estão com pouco contraste ou brilho. Uma maior variaçãona distribuição da contagem no histograma indica imagens com bom ajuste de contraste,permitindo melhor distinção entre os objetos e detalhes [14].

A partir do histograma pode-se calcular a função 𝑝(𝑟𝑘) = 𝑛𝑘

𝑛onde 𝑛 é o número

total de pixels na imagem. Esta função fornece a probabilidade de um pixel da imagemapresentar a intensidade 𝑟𝑘. Assim, pode-se observar que um histograma representa umafunção de distribuição de probabilidades, apresentando informações importantes da ima-gem além de seguir certas propriedades, como por exemplo a soma dos valores de 𝑝(𝑟𝑘)que deve ser necessariamente igual a 1 [4].

30

2.1.3.1 Equalização de Histograma

A equalização de histograma é uma técnica onde se busca redistribuir os valoresde intensidade da imagem de forma a obter um histograma uniforme, cujo valor de 𝑛𝑘

em qualquer nível de intensidade 𝑘 é praticamente o mesmo [10]. Uma das formas maiscomuns de equalizar um histograma é através da função de transformação que pode serexpressa pela equação (2.1), conhecida como função de distribuição acumulada [2].

𝑠𝑘 = 𝑇 (𝑟𝑘) =𝑘∑︁

𝑗=0

𝑛𝑗

𝑛=

𝑘∑︁𝑗=0

𝑝(𝑟𝑗) (2.1)

O valor de 𝑠𝑘 designa o novo valor de intensidade da imagem equalizada para ospixels de intensidade 𝑟𝑘 da antiga imagem, variando entre 0 e 1 pois está normalizado naequação. No caso dos valores discretos da intensidade estarem no intervalo de 0 a 255,basta multiplicar cada 𝑠𝑘 por 255.

É possível verificar que independentemente da entrada, o brilho médio da imagemequalizada será sempre a metade do valor de intensidade devido a propriedade de “achata-mento” da equalização [18, 19]. Em vídeos, isto é um problema pois muitas vezes se buscaampliar o contraste sem alterar significantemente o brilho, já que isso poderia reduzir aqualidade perceptiva do vídeo pelo aumento na oscilação de brilho entre os quadros [11].Além da alteração da luminância, também deve-se considerar outras desvantagens da téc-nica como a ausência de controle do grau de equalização, não alcançar um melhoramentoequilibrado nas diferentes partes da imagem, realce exagerado, saturação, e aumento deruídos [9].

Buscando solucionar estes problemas, foram desenvolvidas diversas variações datécnica de equalização de histograma. Muitas delas consistem em equalizar partes daimagem separadamente a partir de múltiplos histogramas. O critério da separação podevariar; para preservar o brilho, a separação pode ser feita de acordo com a média deintensidade dos pixels [10, 18]. Outras variações utilizam uma abordagem de atribuiçãode pesos para as intensidades dependendo do seu valor de probabilidade, resultando emuma equalização mais equilibrada, sem exagero no realce do contraste [9].

Uma das técnicas bastante utilizadas é a equalização adaptativa de histograma comlimitação de contraste ou CLAHE (Contrast Limited Adaptive Histogram Equalization),originado do AHE, que também parte da abordagem de calcular vários histogramas daimagem e utilizá-los para redistribuir os valores de intensidade [20]. No caso do CLAHE,o problema do controle de realce é considerado ao fornecer um parâmetro que permitelimitar a amplificação realizada pela equalização [21].

31

2.2 Ruídos e Artefatos

Ruído pode ser definido como um sinal que interfere na transmissão ou medida deoutro sinal. Ele está presente em quase todos os ambientes, e dependendo da sua origempode ser classificado em diversas categorias, como ruído acústico, térmico, eletrostáticoou eletromagnético [15].

Em imagens e vídeos os ruídos podem surgir durante a gravação, processamento etransmissão dos dados [6]. E como foi visto na seção 2.1.2, durante a compressão de dadoscom perda de informação também podem ser geradas deformações denominadas artefatos[1]. Uma imagem ou quadro de vídeo deteriorado por ruído pode ser representado pelaequação (2.2) [22]:

𝑣(𝑖) = 𝑢(𝑖) + 𝑛(𝑖), (2.2)

onde 𝑣(𝑖) é o valor observado, 𝑢(𝑖) é o valor “verdadeiro” e 𝑛(𝑖) é o valor do ruído no pixel𝑖.

2.2.1 Modelos de Distribuição de Ruído

O valor do ruído pode ser puramente aleatório, quando todas as frequências nointervalo do sinal possuem a mesma probabilidade de ocorrer com certa intensidade. Nestecaso, ele é denominado “ruído branco” [15]. Porém, na maioria dos casos, os ruídos queocorrem naturalmente podem ser modelados ou aproximados por uma função densidadede probabilidade, que descreve a probabilidade relativa da ocorrência de cada valor nointervalo do sinal, de forma semelhante ao histograma descrito na seção 2.1.3. No casodo ruído branco, a distribuição é constante com autocorrelação zero [23]. Os tipos maiscomuns de ruído são apresentados a seguir, de acordo com o seu modelo de distribuiçãoestatística:

∙ Ruído Uniforme: é chamado também de ruído de quantização, pois ocorre no pro-cesso de quantização da amplitude do sinal de uma imagem ou vídeo, sendo definidopor uma variável aleatória contínua [23].

∙ Ruído Gaussiano: um dos ruídos mais frequentes que se aproxima da distribuiçãode probabilidade normal, é causado por fontes naturais como baixa iluminação ealta temperatura, assim, é utilizado para modelar ruídos térmicos, e em certos casostambém ruídos de fótons e granulação de filme [1]. Também é chamado de ruídoeletrônico, pois surge devido a problemas eletrônicos em amplificadores ou detectores[24]. Nas imagens e vídeos geralmente é modelado com média tendendo a zero, ouseja, distribuição centrada em zero com oscilação de valores positivos e negativos[6].

32

∙ Ruído Poisson: é conhecido também como ruído de fóton, pois ocorre quando acontagem de partículas que carregam energia é muito pequena, como elétrons emcircuitos eletrônicos ou fótons em dispositivos ópticos, gerando flutuações na medi-ção [24].

∙ Ruído Gama: está relacionado aos ruídos “salpicados” (speckle) que seguem a distri-buição gama de probabilidade, e pode ocorrer em sistemas de imagem a laser, radarou acústicos [23].

∙ Ruído Impulsivo: também conhecido como ruído “sal e pimenta” pois os pixelscorrompidos assumem valor mínimo ou máximo, tornando-se pretos ou brancos,respectivamente [1]. Pode ocorrer durante a transmissão e possui várias causas,como a interferência eletromagnética e problemas na conversão de dados analógicospara digitais. As imagens ou quadros não ficam totalmente corrompidos, outrospixels ficam inalterados [15].

Um ruído definido por uma função de distribuição aleatória pode ainda variar emrelação à intensidade, geralmente indicada pelo desvio padrão (𝜎), enquanto a média dosvalores está relacionada à sua distribuição [23]. Como exemplo, a figura 1 mostra umquadro do vídeo “Salesman” deteriorado pelos ruídos dos diferentes tipos descritos nestaseção, com 𝜎 = 20.

Figura 1 – Simulação de ruídos (𝜎 = 20)

33

2.3 Algoritmos de Filtragem

Os métodos para filtragem de imagens e vídeos podem ser classificados em di-versos tipos dependendo do domínio em que são aplicados, seu funcionamento e efeito,além de servirem a diferentes propósitos. Nesta seção, são descritos algoritmos que estãorelacionados com o objetivo do trabalho, que é a redução de ruído e melhoramento docontraste a partir do realce das bordas e detalhes. Alguns dos filtros apresentados executaapenas a atenuação de ruído, prejudicando os detalhes; outros são mais equilibrados, ousão utilizados somente para o realce do contraste, como no caso da filtragem homomórfica.

Existem três categorias principais de algoritmos de processamento de imagem: osque atuam no domínio do espaço, no domínio da frequência ou transformação, e os basea-dos em aprendizado [3]. Neste trabalho os métodos com aprendizado não são considerados.As técnicas analisadas são aplicadas no domínio do espaço ou da frequência, e no caso devídeos, surge um novo domínio, denominado temporal ou espaço-temporal [17].

Em relação à atenuação de ruído, claramente, como um vídeo é uma sequência deimagens ou quadros, os métodos para imagem também são aplicáveis, porém este tipo deabordagem chamado de filtragem intraframe considera que cada quadro é temporalmenteindependente. Ignorando a correlação existente na dimensão temporal, os resultados ob-tidos tem grande chance de não serem ótimos, podendo também gerar novos artefatos(temporais) no vídeo [1]. Assim, os melhores métodos consistem na exploração do do-mínio temporal, visando aproveitar-se de informações redundantes presentes em quadrosadjacentes do vídeo para a correção de sua qualidade. Estes métodos são denominadosinterframe [17].

As técnicas de filtragem espacial operam diretamente na matriz de pixels da ima-gem, possuindo uma forma geral dada pela equação (2.3) [2]:

𝑔(𝑥, 𝑦) = 𝑇 [𝑓(𝑥, 𝑦)], (2.3)

onde 𝑔(𝑥, 𝑦) é a imagem processada, 𝑓(𝑥, 𝑦) é a imagem original, e T é um operador em𝑓 definido sobre uma vizinhança de cada pixel (𝑥, 𝑦).

Dependendo do funcionamento, os filtros espaciais podem ainda ser classificadosem lineares ou não-lineares, e locais ou não-locais. Os filtros lineares utilizam algoritmoscom funções lineares ou operadores de espaço, com efeito uniforme por todos os pixels daimagem, não preservando bordas ou detalhes. Já os filtros não-lineares estão relacionados aoperadores de ponto, que são mais seletivos e geram diferentes efeitos em regiões distintasda imagem [1]. A localidade se refere ao grupo de pixels considerados no processamentode cada pixel; se apenas a região na vizinhança do pixel é levada em conta, o filtro éconsiderado local, mas se pixels de outros segmentos da imagem podem ser utilizados, ofiltro é denominado não-local [3].

34

Já a filtragem no domínio da frequência é baseada no teorema da convolução. Se𝑔(𝑥, 𝑦) é a imagem formada pela convolução da imagem 𝑓(𝑥, 𝑦) com um operador linearℎ(𝑥, 𝑦), onde * é o operador de convolução na equação (2.4) [2]:

𝑔(𝑥, 𝑦) = 𝑓(𝑥, 𝑦) * ℎ(𝑥, 𝑦), (2.4)

pelo teorema da convolução, a relação no domínio da frequência também é válida naequação (2.5):

𝐺(𝑢, 𝑣) = 𝐹 (𝑢, 𝑣)𝐻(𝑢, 𝑣), (2.5)

onde 𝐺, 𝐹 e 𝐻 são as transformadas de Fourier de 𝑔, 𝑓 e ℎ, respectivamente.

Assim, a filtragem espacial pode ser identificada pela utilização de máscaras es-paciais no processamento, enquanto a filtragem no domínio da frequência opera sobre atransformada de Fourier da imagem [4].

Em relação ao efeito, é possível classificar os filtros em passa-baixa, passa-altae passa-faixa. Bordas, detalhes e ruídos da imagem estão relacionados aos componentesde alta frequência, por isso os filtros denominados “passa-baixa” possuem um efeito deborramento ao atenuar ou eliminar as componentes de alta frequência no domínio datransformada de Fourier. Já a filtragem passa-alta atenua os elementos de baixa frequên-cia, assim realçando as bordas e outras regiões de alto contraste da imagem. Os filtrosdo tipo passa-faixa podem suavizar componentes acima da sua frequência de corte supe-rior e abaixo do corte inferior, sendo utilizados para procedimentos específicos na área deprocessamento [2].

2.3.1 Filtro de Média e Gaussiano

Um dos filtros passa-baixa no domínio do espaço mais simples é o filtro de média,que pode ser definido por uma máscara com todos os coeficientes iguais, geralmente devalor igual a um. Uma máscara de tamanho 3 por 3 fará com que o novo valor de cadapixel seja a sua média com seus 8 vizinhos, ou menos no caso das extremidades da imagem[4].

Já no filtro gaussiano, a diferença é que este utiliza uma máscara gaussiana, ondeos valores próximos do centro da máscara são maiores e os valores nas extremidades sãomenores, de acordo com a distribuição normal. A resposta de um filtro gaussiano para umpixel na posição (𝑚, 𝑛) pode ser definida pela equação (2.6), onde 𝜎 é o desvio padrão dadistribuição [1]:

𝑔(𝑚, 𝑛) = 12𝜋𝜎2 𝑒− 𝑚2+𝑛2

2𝜎2 (2.6)

Como é possível observar, tanto o filtro de média quanto o gaussiano são filtroslineares e locais, cujo problema na remoção de ruído é a incapacidade de preservar bordase detalhes finos da imagem [3].

35

2.3.2 Filtro de Mediana

No caso do filtro de mediana, uma técnica simples que também é um filtro local,porém não-linear, o operador de mediana que é aplicado nos valores do pixel com seusvizinhos. Dado o conjunto ordenado 𝑥(𝑛) para os valores na janela de observação, a saída𝑦(𝑛) é dada pela equação (2.7) [1]:

𝑦(𝑛) =

⎧⎪⎨⎪⎩𝑥(𝑛+1

2 ), se n é ímpar𝑥( 𝑛

2 )+𝑥( 𝑛2 +1)

2 , se n é par(2.7)

O filtro de mediana contorna o problema dos filtros lineares permitindo a preser-vação de bordas e detalhes para máscaras pequenas, onde pelo menos metade da janelacontém pixels de borda. É ideal para a atenuação de ruídos impulsivos, pois sua respostaa impulsos é sempre zero [25].

2.3.3 Filtro Bilateral

O filtro bilateral também é uma técnica local e não-linear muito eficaz na preserva-ção de bordas, que consiste em calcular o pixel alvo como uma média ponderada dos pixelsvizinhos, onde o valor do peso é maior para os pixels mais próximos tanto em posiçãoquanto na intensidade do valor [16]. A média ponderada é realizada em uma vizinhança 𝑆

ao redor do centro 𝑠0 = {𝑥0, 𝑦0} com intensidade 𝐼(𝑠0), e pode ser expressa pela equação(2.8) [26]:

𝑂(𝑠0) =∑︀

𝑠∈𝑆 𝑓(𝑠, 𝑠0)𝐼(𝑠)∑︀𝑠∈𝑆 𝑓(𝑠, 𝑠0)

, (2.8)

onde a função 𝑓 é a filtragem para cada vizinho 𝑠 ao redor de 𝑠0, definida pela equação(2.9):

𝑓(𝑠, 𝑠0) = 𝑔𝑠(𝑠 − 𝑠0).𝑔𝑡(𝐼(𝑠) − 𝐼(𝑠0)), (2.9)

com 𝑔𝑠 e 𝑔𝑡 representando filtros gaussianos para os pesos da posição e intensidade dospixels, respectivamente (2.10):

𝑔𝑠(𝑠) = 𝑔(𝑥, 𝜎𝑠)𝑔(𝑦, 𝜎𝑠) e 𝑔𝑡(𝐼) = 𝑔(𝐼, 𝜎𝑡), (2.10)

e 𝜎𝑠 e 𝜎𝑡 são parâmetros para a posição e intensidade dos vizinhos. Quando o valor de𝜎𝑡 é maior, pixels com intensidades mais distantes do alvo são considerados na médiaponderada, contanto que estejam próximos na posição pelo 𝜎𝑠. Se o valor de 𝜎𝑠 é maior, aintensidade de pixels cuja posição está mais distante do alvo serão considerados na médiaponderada, de acordo com a proximidade da intensidade pelo 𝜎𝑡 [16].

2.3.4 Filtragem Anisotrópica

A filtragem de difusão anisotrópica, técnica chamada também de Perona-Malik, onome de seus criadores, possui o objetivo de reduzir ruído sem afetar partes importantes

36

da imagem como as bordas e os detalhes [16]. Foi desenvolvida a partir de uma inter-pretação do filtro gaussiano como uma equação diferencial parcial da condução de calor,com 𝜕𝐼

𝜕𝑡= − ▽ 𝐼 onde 𝐼 é a intensidade de cada pixel, sendo considerada como o calor da

equação que é propagado para os vizinhos de acordo com a variação espacial do calor. Apartir disso foi introduzida uma função de difusão para as bordas que varia a condutânciade acordo com o gradiente da imagem, prevenindo a “passagem de calor” pelas bordas,como expresso na equação (2.11) [27]:

𝜕𝐼

𝜕𝑡= 𝑑𝑖𝑣[𝑔(|| ▽ 𝐼|| ▽ 𝐼)], (2.11)

onde 𝑑𝑖𝑣 é o operador de divergência. Para a função de difusão das bordas 𝑔(𝑥) forampropostas duas expressões:

𝑔1(𝑥) = 11 + 𝑥2

𝜎2

e 𝑔2(𝑥) = 𝑒− 𝑥2𝜎2 , (2.12)

onde 𝜎 é o parâmetro de escala em relação à intensidade, que especifica em qual gradientea difusão deve ser interrompida, permitindo controlar a quantidade de borramento emrelação aos aspectos da imagem que não fazem parte das bordas mais nítidas. Apesarda eficiência na preservação das bordas, a complexidade do processo de difusão do filtroanisotrópico torna a técnica mais lenta [27].

2.3.5 Filtragem Homomórfica

A iluminação da imagem é geralmente caracterizada por variações espaciais lentas,enquanto a reflectância tende a variar abruptamente, como na junção de objetos diferentesou bordas. A filtragem homomórfica é uma técnica no domínio da frequência, que permitecontrolar separadamente os componentes de baixa frequência, relacionados à iluminação,e alta frequência, ligados à reflectância da imagem. Ela é utilizada para aprimorar aqualidade pela compressão da faixa dinâmica do brilho juntamente com o aumento docontraste [2]. Partindo da equação (2.13) que relaciona as componentes de iluminação ereflectância da imagem [28]:

𝑓(𝑥, 𝑦) = 𝐼(𝑥, 𝑦)𝜌(𝑥, 𝑦), (2.13)

onde 𝑓 representa a imagem, 𝐼 é a intensidade de iluminação e 𝜌 o componente de reflec-tância. Pode-se aprimorar a imagem com o aumento do contraste ao atenuar o componentede iluminação ao mesmo tempo em que se realça a reflectância. Mas para separar os doiscomponentes, eles devem ser aditivos e não multiplicativos. Por isso, a imagem é trans-formada para o domínio logarítmico, resultando na equação (2.14) [28]:

𝑙𝑛(𝑓) = 𝑙𝑛(𝐼) + 𝑙𝑛(𝜌) (2.14)

37

Para realçar a imagem, o filtro deve ter uma resposta maior nas regiões de altafrequência, fazendo com que os detalhes sejam acentuados. Assim, são utilizados parâme-tros de filtragem 𝛾𝐿 e 𝛾𝐻 , onde os valores são geralmente 𝛾𝐿 < 1 e 𝛾𝐻 > 1 de forma que𝑙𝑛(𝐼) seja um filtro passa-baixa e 𝑙𝑛(𝜌) passa-alta, respectivamente [4].

2.3.6 Non-Local Means (NLM)

O filtro de médias não-locais ou Non-Local Means (NLM) proposto por Buadeset al. [22] foi uma inovação em relação à maioria dos métodos de redução de ruído comoo filtro gaussiano e anisotrópico, que operam localmente na imagem. A ideia do NLMé restaurar um pixel realizando uma estimativa de todos os outros pixels da imagem,ponderados de forma proporcional à semelhança com os vizinhos do pixel analisado. Emoutras palavras, é uma média ponderada de todos os pixels onde o peso está relacionadoà similaridade com os vizinhos do pixel alvo, como é possível visualizar na fórmula daequação (2.15) [29]:

𝑁𝐿(𝑣)(𝑖) =∑︁𝑗∈𝐼

𝑤(𝑖, 𝑗)𝑣(𝑗), (2.15)

onde 𝑁𝐿(𝑣)(𝑖) é o valor do pixel 𝑖 restaurado, 𝐼 representa todos os valores de intensidadeda imagem, e 𝑤(𝑖, 𝑗) é o peso que representa a quantidade de semelhança entre os vizinhosdo pixel 𝑖 e de cada um dos outros pixels. A função de similaridade utilizada é geralmentea distância euclidiana, de forma que os pesos são computados pela fórmula da equação(2.16):

𝑤(𝑖, 𝑗) = 1𝑍(𝑖)𝑒−

||𝑣(𝑁𝑖)−𝑣(𝑁𝑗 )22,𝑎||

ℎ2 , (2.16)

onde 𝑍(𝑖) é um fator de normalização que equivale a ∑︀𝑗 𝑤(𝑖, 𝑗), e ℎ é um parâmetro para

controlar o valor dos pesos. Quando ℎ é maior, a diferença entre os pesos é reduzida emuito mais pixels são considerados para restaurar o pixel alvo, tornando a imagem maisborrada e com menos detalhes. Se ℎ for pequeno, os pesos tem valor relevante apenaspara os pixels bastante similares ao alvo, atenuando menos ruídos mas preservando osdetalhes.

Em uma imagem com 𝑀2 pixels, são computados 𝑀2 pesos, o que torna o algo-ritmo clássico impraticável, por isso foram realizadas otimizações para reduzir conside-ravelmente o número de pesos calculados e melhorar a sua complexidade, como calcularpreviamente a média de vários grupos de pixels e descartar os que possuem valor muitodiferente do alvo [29]. O algoritmo NLM também foi adaptado para vídeos como um mé-todo interframe ao incluir os pixels dos quadros adjacentes no cálculo da média para opixel alvo de um dado quadro, produzindo melhores resultados do que em uma execuçãointraframe [30].

Apesar da complexidade, o NLM é mais eficiente que vários métodos para vídeo,uma vez que não precisa realizar estimação de movimento devido à natureza não-local

38

do algoritmo, pois como foi argumentado pelo próprio Buades, ao considerar os gruposde pixels mais semelhantes do conjunto do pixel alvo de forma independente da sualocalização, a diferença de posição no quadro deixa de ser um problema [31]. Entretanto,em uma das modificações do NLM como uma aproximação dos k vizinhos mais próximos,a alegação de Buades foi criticada mostrando que a estimação de movimento bem como adiferenciação da informação espacial e temporal é importante para a remoção de algunsruídos mais estruturados [32].

O NLM é continuamente melhorado ao otimizar a busca pelos grupos ou segmentoscorretos (que são mais similares ao grupo do pixel alvo), utilizando abordagens estatísticasno lugar da distância euclidiana, sem contudo perder a ideia original do algoritmo [33].

2.3.7 Block-Matching 3D (BM3D)

Inspirado pelo agrupamento não-local do NLM, o algoritmo Block-Matching and3D Filtering (BM3D) proposto por Dabov et al. [34] é um dos métodos estado da arte pararedução de ruído em imagens e vídeos. Baseada em agrupamento e filtragem colaborativa,a técnica consiste em realizar a correspondência de blocos ou segmentos da imagem (blockmatching), separando-os em grupos onde cada grupo possui estrutura local semelhante[13].

A filtragem 3D refere-se às transformações no domínio da frequência realizadasnos grupos, que incluem uma transformação bidimensional em cada grupo (que pode serpor transformada discreta de Fourier, cosseno ou wavelet) seguida de uma transformaçãounidimensional através de todos os grupos. O algoritmo é realizado em duas etapas princi-pais, onde em cada uma é realizada a transformação tridimensional, seguida da filtragemdo espectro e a transformação inversa para retornar ao domínio espacial. A diferença emcada etapa está na operação executada no espectro: na primeira é uma limiarização fortedos valores, enquanto na segunda o filtro de Wiener é utilizado para produzir uma estima-tiva de cada grupo. O algoritmo finaliza executando uma média ponderada da estimativados grupos em relação a cada pixel alvo para filtragem do ruído. O desempenho do BM3Dé altamente dependente da etapa de correspondência dos blocos e portanto da intensidadede ruído presente na imagem ou vídeo [34].

Posteriormente, uma variante ainda superior do BM3D foi desenvolvida denomi-nada BM4D, que mantém a estratégia de agrupamento de blocos do BM3D, mas tambémutiliza técnicas de super resolução para aprimorar a nitidez da imagem final [35]. Masapesar de eficiente, a complexidade computacional é maior do que em qualquer outrométodo devido à realização da estimação de movimento e ao processamento de dados comalta quantidade de dimensões [36].

A tabela 1 sintetiza os atributos dos algoritmos de filtragem apresentados na seção2.3.

39

Tabela 1 – Algoritmos de filtragem

Filtro Domínio Interframe Linear LocalMédia e Gaussiano Espacial Não Sim Sim

Mediana Espacial Não Não SimBilateral Espacial Não Não Sim

Anisotrópico Espacial Não Não SimHomomórfico Frequência Não Não Sim

Médias não-locais Espacial Sim Não NãoBlock-matching 3D Frequência Sim Não Não

2.4 Métricas de Qualidade de Vídeo

É importante que existam métricas que permitam quantificar a qualidade de umvídeo ou imagem, de forma que seja possível avaliar o desempenho de serviços como porexemplo um sistema de transmissão de vídeos, ou ainda a eficiência de métodos pararestauração e melhoramento de imagens ou vídeos [37].

Em praticamente todos os casos, as aplicações de vídeo ou imagem são utilizadaspor humanos, então são os próprios humanos que podem decidir com maior precisão oseu grau de qualidade. A avaliação realizada por pessoas é denominada métrica subjetiva,como por exemplo no caso do Mean Opinion Score (MOS), ou pontuação média dasopiniões [38].

Porém, devido ao custo em tempo e dinheiro, é inviável que se utilize humanosem processos de controle de qualidade. Assim, se faz necessária a utilização de métricasobjetivas que possam ser calculadas automaticamente por uma máquina, e que possuamalta correlação com as métricas subjetivas como o MOS [37].

As métricas objetivas são geralmente classificadas em três categorias [39]:

∙ Referência Completa (Full Reference): podem ser utilizadas se a versão original dovídeo também está disponível.

∙ Referência Parcial ou Reduzida (Reduced Reference): quando se tem algumas infor-mações ou parâmetros do vídeo original.

∙ Sem Referência (No Reference): são utilizadas se apenas o vídeo distorcido ou pro-cessado está disponível para análise.

Neste trabalho, foram utilizadas algumas métricas FR e NR, que serão descritasnas próximas subseções.

40

2.4.1 Métricas de Referência Completa

As métricas de referência completa requerem, além da imagem ou vídeo ruidososou processados, a utilização da sua versão original para comparação, que é consideradacomo a versão “perfeita” ou não degradada.

2.4.1.1 Mean Squared Error (MSE)

A métrica MSE calcula o erro quadrático médio entre duas imagens ou quadros devídeo, assim ela mede o quão diferentes duas imagens são. Pode ser definida pela equação(2.17) [37]:

𝑀𝑆𝐸 = 1𝑁

𝑁∑︁𝑖=1

(𝑋𝑖 − 𝑌𝑖)2, (2.17)

onde 𝑁 é o número total de pixels da imagem ou quadro de vídeo, e 𝑋𝑖 e 𝑌𝑖 são os 𝑖-ésimospixels da versão original e processada, respectivamente.

A métrica é adaptada para vídeo considerando a média do valor obtido para cadaquadro, logo, os vídeos devem possuir a mesma quantidade de quadros. Quanto mais altoo resultado da MSE, maior a diferença entre os vídeos [37].

2.4.1.2 Peak Signal-To-Noise Ratio (PSNR)

A PSNR ou “relação sinal-ruído de pico” define a similaridade entre dois sinais,estando relacionado à métrica MSE como pode ser observado pela fórmula (2.18), onde255 representa a intensidade máxima de um pixel da imagem [40].

𝑃𝑆𝑁𝑅 = 10. log102552

𝑀𝑆𝐸(2.18)

A avaliação com a PSNR é feita a partir da MSE resultante do vídeo. Quantomaior o valor da métrica PSNR, maior a “fidelidade” do vídeo em relação ao original. Aunidade da PSNR é o decibel (dB), cujo valor para vídeos muito próximos da referênciavaria entre 30 e 40 dB [38]. Já em [40], é argumentado que a PSNR só pode ser levada emconsideração como medida de qualidade se o resultado for acima de 35 dB, e que abaixodisso é duvidoso pois a causa da diminuição do valor da métrica é desconhecida.

As métricas MSE e PSNR ainda são muito utilizadas devido à baixa complexidade,mas não correspondem muito com as métricas subjetivas, pois representam respectiva-mente a quantidade de diferença e similaridade entre duas imagens ou vídeos de forma“puramente matemática”, sem incorporar elementos da qualidade percebida pelo sistemavisual humano [37]. Uma utilização mais adequada destas métricas é quando o conteúdonão se altera, como na comparação de técnicas de compressão com perda de informação[41].

41

2.4.1.3 Structural Similarity (SSIM)

A métrica SSIM proposta por Wang et al. (2004) [42] é baseada na ideia de queimagens naturais são altamente estruturadas. Isto é, os sinais existentes em uma imagemdigital possuem fortes relações entre si, contendo informações sobre as estruturas dosobjetos na cena.

O algoritmo mede a similaridade estrutural de uma imagem 𝑦 em relação à re-ferência 𝑥 a partir de 3 características: a luminância, o contraste e a estrutura. As trêscomponentes são combinadas na fórmula geral dada pela equação (2.19) [42]:

𝑆𝑆𝐼𝑀(𝑥, 𝑦) = [𝑙(𝑥, 𝑦)]𝛼.[𝑐(𝑥, 𝑦)]𝛽.[𝑠(𝑥, 𝑦)]𝛾, (2.19)

onde 𝛼, 𝛽 e 𝛾 são parâmetros que definem a importância da luminância, contraste, eestrutura na comparação, respectivamente. Como o valor de 1 é normalmente consideradopara os três parâmetros, a equação (2.19) pode ser expressa como (2.20), onde as variáveis𝐶1, 𝐶2 e 𝐶3 são constantes calculadas como 𝐶1 = (𝐾1.𝐿)2, 𝐶2 = (𝐾2.𝐿)2 e 𝐶3 = 𝐶2

2 , com|𝐾1| ≪ 1 e |𝐾2| ≪ 1, e 𝐿 é a amplitude do valor dos pixels, que geralmente é 255 [42].

𝑆𝑆𝐼𝑀(𝑥, 𝑦) = (2𝜇𝑥𝜇𝑦 + 𝐶1)(2𝜎𝑥𝑦 + 𝐶2)(𝜇2

𝑥 + 𝜇2𝑦 + 𝐶1)(𝜎2

𝑥 + 𝜎2𝑦 + 𝐶2)

(2.20)

O resultado da métrica SSIM pode variar entre 0 e 1, onde um valor mais alto indicamaior similaridade. A utilização da métrica em vídeos como uma adaptação intraframenão é capaz de detectar artefatos temporais [43], mas ao contrário das métricas MSE ePSNR, a SSIM possui boa correlação com as métricas subjetivas [38].

2.4.1.4 Video Quality Metric (VQM)

O algoritmo VQM é uma métrica específica para vídeos, proposta por Wolf ePinson (1999) da National Telecommunications and Information Administration (NTIA),que consiste em dividir o vídeo processado e o de referência em vários segmentos (quepodem ser especificados) denominados blocos espaço-temporais, e para cada um delesmensurar e comparar diversas características visuais como distorções de cor, borrões,blocking, movimentação irregular e ruídos globais [44]. A técnica pode ser dividida nosseguintes estágios [37]:

∙ Calibração: é a fase de preparação dos vídeos para a extração de características,onde deslocamentos espaciais e temporais são corrigidos e diferenças de brilho econtraste são compensadas.

∙ Extração de características de qualidade: nesta etapa um conjunto de característicasrelacionadas à percepção da crominância e intensidade no espaço e tempo é extraída

42

dos segmentos de cada vídeo. O cálculo das características é feito a partir de filtrosde realce seguidos de limiarização.

∙ Estimação dos parâmetros de qualidade: um conjunto de parâmetros é calculadopela comparação entre as características extraídas do vídeo processado e do vídeode referência.

∙ Estimação da qualidade: o resultado final da métrica é calculado usando uma com-binação linear de todos os parâmetros de qualidade.

Assim como na SSIM, o resultado da VQM varia entre 0 e 1, onde um valor maisalto indica qualidade superior. O algoritmo VQM possui a maior complexidade entre asmétricas objetivas de qualidade, mas também apresenta a melhor correspondência com asmétricas subjetivas, tendo obtido um coeficiente de correlação de 0.95 em testes realizadospor Wolf e Pinson [38, 40].

2.4.2 Métricas Sem Referência

Em muitos casos, não há uma versão da imagem ou vídeo de referência pararealizar a comparação pelas métricas FR. Assim, são utilizadas métricas sem referência,que avaliam características ou artefatos específicos da imagem ou vídeo. Apesar de pessoasconseguirem facilmente avaliar um vídeo sem a necessidade de uma referência, projetaruma métrica sem referência é uma tarefa difícil. Mas como nas métricas FR, as métricasNR que buscam considerar a qualidade percebida pelo sistema visual humano são maiseficientes, ou seja, possuem maior correlação com as métricas subjetivas [37].

2.4.2.1 Entropia

A utilização da entropia como forma de mensurar o contraste foi proposta aindaem 1991, com origem na teoria da informação [45]. A entropia discreta 𝐻 de uma imagemcom intensidade variando de 0 a 255 pode ser definida pela equação (2.21) [19]:

𝐻 = −255∑︁𝑖=0

𝑝(𝑖) log2 𝑝(𝑖), (2.21)

onde 𝑝(𝑖) é a probabilidade (normalizada) de ocorrência da intensidade de valor 𝑖. Para ointervalo com 256 valores possíveis dos pixels, o valor de 𝐻 pode variar entre 0 e 8.

Uma maior entropia não necessariamente representa o aprimoramento da qua-lidade, mas descreve a riqueza dos detalhes até certo ponto [19]. Dessa forma, muitosmétodos de aumento do contraste buscam maximizar a entropia de uma imagem ou aentropia média dos quadros de um vídeo [11, 46].

43

2.4.2.2 Brightness Flicking Metric (BFM)

A BFM ou métrica de oscilação do brilho é um algoritmo que calcula a diferençada intensidade média do canal de luminância entre dois quadros adjacentes de um vídeo,podendo ser definida pela equação (2.22) [47]:

𝐵𝐹𝑀𝑖 = ||𝐿𝑖 − ¯𝐿𝑖+1||, (2.22)

onde 𝐿𝑖 é o valor médio do canal de luminância de um quadro 𝑖 do vídeo, e ¯𝐿𝑖+1 o valordo próximo quadro. O resultado final da métrica é considerado como a média de todos os𝐵𝐹𝑀𝑖 calculados.

45

3 TRABALHOS RELACIONADOS

Muitos trabalhos tem sido realizados para desenvolver algoritmos cada vez maiseficientes no melhoramento de vídeos a partir da atenuação de ruído e ajuste de brilhoe contraste. Neste capítulo, primeiramente são discutidos estudos que são direcionados aapenas um dos itens, pois possuem pontos bastante relevantes ao trabalho. Em seguida,são identificadas algumas abordagens que buscam tanto a solução de ambos os problemasno mesmo processamento (geralmente de forma sequencial) como as que avaliam diferentesmétodos para atingir o objetivo de aprimoramento do vídeo final.

O trabalho de Ji et al. [7] é um dos poucos relacionados à redução de ruído queaponta a importância de modelar a estrutura do ruído presente nos vídeos. Enquanto amaioria das técnicas assume uma generalização para um modelo de distribuição gaussiana,é explicado no trabalho que não só vídeos apresentam mais ruídos que imagens, comotambém que o ruído frequentemente possui características distintas, e que a eficiência dosmétodos está diretamente relacionada com o modelo de ruído esperado. Partindo dessapremissa, é afirmado que um algoritmo eficiente na remoção de ruídos naturais deve sercapaz de lidar com as mais diferentes distribuições de ruído que ocorrem nos vídeos. Otrabalho propõe um novo algoritmo robusto baseado em “completação” de matrizes, eexecuta testes em vídeos degradados por uma mistura dos ruídos gaussiano, poisson eimpulsivo. O desempenho é comparado com o de técnicas avançadas como o BM3D pormeio da métrica PSNR, mostrando resultados favoráveis para o algoritmo proposto.

Ainda em relação à atenuação de ruído, um trabalho recente apresentado por Shaoet al. em [3] faz uma revisão e comparação do desempenho de uma variedade de algo-ritmos incluindo o NLM e BM3D, porém apenas para imagem, utilizando as métricasPSNR e SSIM. Foram testadas diferentes imagens que são degradadas somente pelo ruídogaussiano com várias intensidades, onde o algoritmo BM3D apresentou o melhor resultadomédio pela SSIM, o que era provável já que o ruído gaussiano foi o modelo presumido noprojeto do algoritmo [35]. O artigo [33] é outro trabalho que utiliza as métricas PSNR eSSIM, desta vez para vídeos, na comparação do desempenho do NLM, BM3D e variantes,também simulando o ruído gaussiano. No trabalho é descrito que o problema destes al-goritmos é que o número de grupos ou segmentos aumenta excessivamente com múltiplosquadros de vídeo para analisar, mostrando ainda que o NLM pode obter performancesuperior ao melhorar a escolha dos grupos de pixels utilizados.

Em relação ao melhoramento do contraste em vídeos, há uma série de trabalhosque evidenciam a necessidade da preservação do brilho de forma que não aumente a suaoscilação entre os quadros de vídeo. Ao aumentar o contraste de um vídeo como se cadaquadro fosse independente, é possível degradar a sua qualidade de forma significante pela

46

inconsistência temporal, com a geração do artefato de cintilação ou oscilação do brilho,como é analisado no trabalho de Gu et al. [11]. Se o brilho do vídeo aumentar, é desejávelque isso ocorra de forma generalizada e a diferença ou oscilação natural entre os quadrosseja mantida ou no máximo diminuída (normalizada), mas nunca aumentada. Mesmo emimagens, a preservação do brilho médio é considerada importante para que o realce peloaumento do contraste não seja antinatural, como descrito nos trabalhos [10] e [18] ondeambos propõem uma variação da equalização de histograma para solucionar o problema.Com exceção de [10] onde é realizada uma análise visual dos resultados, os outros trabalhosutilizam a entropia como forma de mensurar o nível de contraste. A utilização da entropiaé recorrente; em [19], Wang et al. busca maximizar a entropia em imagens pela equalizaçãode histograma e ao mesmo tempo preservar o brilho médio da imagem.

Como evidenciado no trabalho realizado em [48], vídeos muito escuros são os quemais demandam melhoramento do contraste. Os métodos utilizados nos trabalhos podemvariar entre técnicas como a filtragem homomórfica e as de mapeamento dos valores comoa equalização de histograma. No trabalho [49], são comparados diferentes métodos demelhoramento do contraste para análise de imagens, incluindo variações da equalizaçãode histograma, a filtragem homomórfica e também a correção de gama, uma operaçãomultiplicativa para redistribuir os valores de luminância da imagem. Alguns resultadossão comparados visualmente e também é feita a degradação do contrate pelo ajuste dovalor de gama para comparação do melhoramento pela métrica SSIM. Entre as técnicasde equalização de histograma, pode-se destacar o CLAHE que também é utilizado em [21]para aprimorar a visualização de vídeos com neblina de um sistema em tempo real.

Nos trabalhos que abordam tanto a questão de ruído quanto de contraste emvídeos, pode-se considerar o trabalho realizado em [30], onde é analisada a redução deruído gaussiano com NLM quando existe mudança de iluminação entre os quadros, o quedegrada o contraste local e prejudica o processo de agrupamento do NLM interframe.Para esse caso é comparada a eficiência da aplicação intraframe e interframe utilizandoas métricas PSNR e SSIM, propondo então uma variação do NLM com utilização dohistograma que permite superar o problema da atenuação de ruído quando existe alteraçãode brilho na cena.

O trabalho realizado em [13] é uma tese que busca melhorar a qualidade de vídeosescuros filmados em veículos. É realizada a redução de ruído com BM3D, e para aumentaro contraste é utilizada a técnica do CLAHE. Os resultados são avaliados subjetivamentedevido à ausência de um vídeo de referência, pois o trabalho contou apenas com vídeosdistorcidos obtidos em veículos, contudo é considerada a possibilidade de futuramenterealizar a degradação artificial de vídeos para permitir a utilização de métricas objetivascomo a PSNR.

Em [50], se busca reduzir o ruído e melhorar o contraste de vídeos extremamente

47

escuros utilizando mapeamento com correção de gama e NLM, porém é realizada a atenu-ação dos ruídos por último. Os métodos são avaliados com diferentes métricas incluindoa PSNR e SSIM. Neste trabalho os vídeos não são degradados, em vez disso os vídeosde referência são obtidos separadamente onde a mesma cena é filmada com boa ilumina-ção. O artigo [12] é outro trabalho que utiliza NLM para a redução de ruído em vídeosmuito escuros, considerando uma mistura de ruídos gaussiano e impulsivo para simulaçãoe avaliação por PSNR, e correção de gama para ajustar o brilho e contraste do vídeoresultante. Outro trabalho de Wang et al. [14] descreve uma variedade de soluções paramelhoramento de vídeos com algoritmos de redução de ruído como a filtragem gaussiana,bilateral e anisotrópica, seguida do aumento de contraste por técnicas de equalização dehistograma, realizando testes pela métrica PSNR com a degradação dos vídeos pelos ruí-dos gaussiano e impulsivo, mostrando que os algoritmos não são aptos a melhorar vídeoscom diferentes características de exposição e detalhes.

O exame dos trabalhos relacionados à atenuação de ruído indica uma necessidadede avaliar a resposta das técnicas de filtragem em cenários mais diversificados e próximosde problemas reais, onde existem outros tipos de ruído além do gaussiano. Outro ponto éa defasagem das métricas de qualidade empregadas nos testes em relação à evolução dosfiltros, com baixa utilização de métricas de maior convergência com a percepção humanae voltadas para a avaliação de vídeos, onde a qualidade temporal também deve ser levadaem consideração. Da mesma forma, no melhoramento do contraste de vídeos a comparaçãodas técnicas é feita em relação ao valor da entropia sem considerar os possíveis efeitosnegativos na oscilação de brilho do vídeo.

49

4 PROCEDIMENTOS METODOLÓGICOS

Este capítulo descreve como os conceitos e métodos apresentados no capítulo 2são utilizados para a obtenção e análise dos resultados no capítulo 5, bem como os vídeosutilizados e outros detalhes relacionados na execução dos testes.

Foi usada uma base bastante conhecida na área de processamento digital de vídeos,que é empregada em vários dos trabalhos relacionados que foram descritos no capítulo3. São vídeos em formato YUV sem compressão com perda de informação, que podemser obtidos no site da Arizona State University1 ou Video Coders2. Foram selecionados osseguintes vídeos:

∙ Bus: resolução de 352 x 288 pixels, 150 quadros;

∙ Foreman: resolução de 352 x 288 pixels, 300 quadros;

∙ Waterfall: resolução de 352 x 288 pixels, 260 quadros;

∙ Tennis: resolução de 176 x 144 pixels, 150 quadros;

∙ Salesman: resolução de 176 x 144 pixels, 449 quadros.

A implementação para todos os testes de processamento de vídeo foi realizadana linguagem C++ com o auxílio da biblioteca de funções do OpenCV3, que possuimuitas ferramentas úteis para a manipulação de imagens e vídeos, conversão entre modelosde cores, disponibilização de alguns filtros básicos e transformadas para o domínio dafrequência. A capacidade da biblioteca de trabalhar cada imagem ou quadro de vídeo emnível de matriz de pixels foi essencial para a implementação dos algoritmos testados.

Os testes são divididos em duas partes, onde primeiramente são avaliados e com-parados os algoritmos para atenuação de ruído, e em seguida as técnicas para realce como ajuste de brilho e contraste. Cada etapa será descrita nas próximas seções.

4.1 Atenuação de Ruído

Para a redução de ruído do vídeo, são avaliadas as técnicas apresentadas na seção2.3, com exceção da filtragem homomórfica que é aplicada no aumento de contraste.Da categoria de filtros lineares como o filtro de média e gaussiano, será consideradoapenas o filtro gaussiano, visto que as duas técnicas possuem resultados bastante similares,1 <http://trace.eas.asu.edu/yuv/>2 <http://videocoders.com/yuv.html>3 <http://opencv.org>

http://trace.eas.asu.edu/yuv/

http://videocoders.com/yuv.html

http://opencv.org

50

com um desempenho levemente superior no caso do filtro gaussiano. Dessa forma, osalgoritmos aplicados nos testes são o filtro gaussiano (FG), filtro de mediana (FM), filtrobilateral (FB), filtro anisotrópico (FA), filtro de médias não-locais (NLM) e filtro Block-Matching 3D (BM3D). No caso do NLM e BM3D, são executadas as versões interframedos algoritmos, para realizar o processo de agrupamento considerando para cada quadrode vídeo os pixels os dois quadros vizinhos.

Os tipos de ruídos simulados são os que foram descritos na seção 2.2: gaussiano,impulsivo, uniforme, poisson e gama. Como foi explicado, cada tipo de ruído é caracteri-zado por diferentes distribuições de probabilidade, que podem ser utilizadas para simularos ruídos nos quadros de vídeo com a aplicação aditiva dos valores gerados. A intensidadedos mesmos é indicada pelo desvio padrão (𝜎) da distribuição, assim, os testes são reali-zados considerando três intensidades de ruído, para 𝜎 = 10, 𝜎 = 20 e 𝜎 = 30, buscandoa simulação de cenários com ruído “fraco”, “médio”, e “forte”, respectivamente. Comoos vídeos são coloridos, é feita a separação da luminância e crominância dos quadros devídeo com a conversão do espaço RGB para o CIELAB, conforme descrito na seção 2.1.1,e os ruídos são aplicados separadamente no canal de intensidade dos pixels.

As métricas utilizadas foram apresentadas na seção 2.4, onde para esta etapa sãoconsideradas apenas as métricas de referência completa (2.4.1), que requerem o vídeooriginal para comparação com o vídeo degradado ou processado. O resultado da métricaMSE não é incluído, visto que ele é utilizado para cálculo do PSNR de maneira queo resultado de ambos representa a mesma proporção de erro, além disso, o PSNR égeralmente considerado um representante de todas as métricas puramente matemáticas[40]. Assim, a avaliação dos testes será feita com as métricas da relação sinal-ruído depico (PSNR), similaridade estrutural (SSIM) e Video Quality Metric (VQM). Como foidescrito na fundamentação teórica, as duas primeiras métricas não são tão alinhadas coma percepção humana como a VQM, mas elas são empregadas nos testes devido ao grandenúmero de trabalhos relacionados que utilizam as métricas, logo elas são necessárias paracomparação com resultados anteriores.

Para realizar a avaliação, primeiramente o vídeo será degradado artificialmentecom ruído, então será aplicado o algoritmo de filtragem no vídeo deteriorado. O vídeoprocessado resultante será então avaliado pelas métricas de referência completa, que re-querem o vídeo não degradado como referência. O processamento total consiste em avaliarcom cada métrica o desempenho de cada técnica de filtragem na redução de cada tipo deruído simulado no vídeo. O fluxograma da figura 2 representa o processo realizado nostestes.

O fluxograma não leva em conta a variação da intensidade do ruído, que é conside-rada nos resultados. Além disso, há outro processo de repetição mais externo na realizaçãodos testes, que é o ajuste de parâmetros dos algoritmos de filtragem. Em cada tipo de

51

Figura 2 – Fluxograma para comparação das técnicas de atenuação de ruído

avaliação, os parâmetros das técnicas são alterados manualmente e os testes são repetidosalgumas vezes para certificar que o resultado obtido para determinada técnica é o maispróximo possível do valor máximo para o conjunto específico do teste.

A princípio, o vídeo selecionado para os testes de redução de ruído não é de granderelevância como no melhoramento do contraste, pois o desempenho de cada algoritmo deatenuação de ruído está mais relacionado ao modelo de ruído presente do que o conteúdodo vídeo original [7], o que também foi verificado empiricamente nos resultados.

Os resultados serão apresentados na forma de tabelas, onde cada tabela contémos valores das métricas obtidos para um determinado tipo de ruído. Cada linha da tabelacorresponde a uma técnica utilizada, e as colunas são divididas em relação às métricas, nascolunas mais internas, e a intensidade do ruído considerada, representada pelo seu desviopadrão (𝜎), nas colunas externas. Para complementar os resultados numéricos, também éapresentado um quadro do vídeo processado para cada algoritmo avaliado.

4.2 Ajuste de Brilho e Contraste

Para o realce do vídeo com o ajuste do brilho e contraste, são avaliadas as técnicasde equalização de histograma apresentadas na seção 2.1, que incluem a equalização clássica

52

(EH) e o CLAHE, mais a filtragem homomórfica (FH) da seção 2.3.5.

Nesta etapa, não é do interesse a degradação do vídeo por ruídos que podem seragravados, assim as técnicas são primeiramente aplicadas na versão original do vídeo,com a avaliação realizada utilizando as métricas sem referência (2.4.2), mensurando ocontraste pela entropia (H), a alteração do brilho médio do vídeo (indicada por Δ𝐿), ea oscilação do brilho pela métrica BFM. Estes testes objetivam verificar o valor máximoobtido na entropia e a consequência disto na qualidade temporal do vídeo. Por outro lado,o melhoramento do contraste é altamente dependente do conteúdo do vídeo [14], assimpara esta etapa são considerados os diferentes vídeos da base que possuem iluminação ecaracterísticas distintas. O processamento total consiste em avaliar com cada métrica odesempenho de cada técnica para diferentes vídeos, como representado no fluxograma dafigura 3.

Figura 3 – Fluxograma para comparação das técnicas de ajuste de brilho e contraste

Similarmente aos testes para redução de ruído, os parâmetros dos métodos apli-cados nesta etapa são ajustados repetidamente a fim de encontrar um resultado próximodo valor máximo para o conjunto específico do teste. As técnicas de realce são aplicadastanto na luminância como na crominância dos pixels, para isso é feita a conversão decada quadro do vídeo para o modelo do HSV descrito na seção 2.1.1, e os algoritmos sãoexecutados sequencialmente no canal da saturação (S) e brilho (V), pois como foi visto em

53

trabalhos relacionados, este tipo de abordagem produz melhores resultados de contraste[5].

Após a realização dos testes com a aplicação das técnicas diretamente no vídeooriginal, são feitos os mesmos testes com a degradação do contraste do vídeo, permitindoa aplicação das métricas de referência completa da mesma forma que na avaliação dastécnicas para redução de ruído. A degradação do contraste pode ser aplicada com umaoperação de ajuste dada pela equação (4.1) [16]:

𝑔(𝑥) = 𝑎𝑓(𝑥) + 𝑏 (4.1)

onde 𝑓(𝑥) é o valor antigo de um pixel da imagem 𝑥, 𝑔(𝑥) é o novo valor, e 𝑎 e 𝑏 sãoparâmetros chamados de ganho e bias (viés) que alteram o contraste e o brilho, respec-tivamente. Um valor baixo de 𝑎 realiza a compressão dos valores no histograma (2.1.3)reduzindo a visibilidade da cena, ou seja, o seu contraste. Para degradar o contraste dosvídeos testados, são considerados os valores de 𝑎 = 0.3 e 𝑎 = 0.1, respectivamente. Emseguida, o processamento pelas técnicas é executado na versão degradada do vídeo, queé então comparada com a versão original pelas métricas PSNR, SSIM e VQM, comoilustrado no fluxograma da figura 4.

Figura 4 – Fluxograma para comparação das técnicas de aprimoramento com degradaçãodo contraste

O formato das tabelas de resultados é o mesmo descrito na seção 4.1, complemen-tando com a parte visual pelos quadros processados do vídeo.

55

5 RESULTADOS

Neste capítulo são apresentados e discutidos os resultados alcançados. Ao final éfeita uma síntese relacionando os melhores algoritmos para cada caso. Conforme especifi-cado na metodologia descrita no capítulo 4, os testes para melhoramento do vídeo com aatenuação de ruído e ajuste de brilho e contraste são separados nas etapas apresentadasnas próximas seções.

5.1 Comparação dos métodos de atenuação de ruído

Primeiramente são mostrados dois resultados para os ruídos gaussiano e impulsivo,que são os mais considerados nos trabalhos relacionados, em seguida são apresentados osresultados para os ruídos dos tipos uniforme, poisson e gama respectivamente, seguindoo formato especificado no capítulo 4.

5.1.1 Atenuação de ruído gaussiano

A tabela 2 apresenta os resultados obtidos na redução do ruído gaussiano comdesvio padrão (𝜎) de 10, 20 e 30. No caso da intensidade mais fraca do ruído de 𝜎 = 10,pode-se observar que tanto o filtro bilateral quanto o BM3D obtiveram bons resultados,onde o o filtro bilateral obteve um resultado melhor pela métrica PSNR, e o algoritmoBM3D foi superior pela métrica VQM, enquanto pela similaridade estrutural (SSIM) am-bos filtros tiveram o mesmo resultado. Já para o desvio padrão de 20, o filtro anisotrópicofoi superior pela métrica VQM, enquanto nas outras duas métricas o BM3D novamenteobteve o melhor resultado.

Tabela 2 – Redução de ruído gaussiano

Ruído 𝜎 = 10 𝜎 = 20 𝜎 = 30

FiltroMétrica PSNR SSIM VQM PSNR SSIM VQM PSNR SSIM VQM

— 28,01 0,66 0,77 22,13 0,41 0,51 18,74 0,29 0,27FG 23,65 0,67 0,88 23,14 0,57 0,80 22,41 0,47 0,71FM 23,47 0,65 0,82 22,71 0,51 0,73 21,70 0,40 0,65FB 30,45 0,79 0,85 23,18 0,46 0,58 19,22 0,31 0,32FA 25,33 0,72 0,92 24,99 0,70 0,87 24,31 0,64 0,79

NLM 25,43 0,69 0,82 25,48 0,70 0,80 24,63 0,66 0,74BM3D 29,73 0,79 0,93 28,02 0,73 0,84 23,79 0,51 0,66

Para a maior intensidade do ruído gaussiano, com 𝜎 = 30, o filtro anisotrópiconovamente obteve o maior resultado na métrica VQM, mas nesse caso o filtro de médias

56

não-locais foi mais eficiente pelas métricas PSNR e SSIM. A figura 5 mostra o resultado doprocessamento pelas diversas técnicas de um quadro do vídeo Tennis, que foi deterioradopelo ruído gaussiano com maior intensidade. É possível constatar visualmente que o NLMde fato removeu praticamente todo o ruído visível, mas também retirou muitos detalhescom um efeito de borramento nas áreas similares da imagem, fazendo com que o seuresultado fosse um pouco inferior pela métrica VQM em relação ao filtro anisotrópico.

Figura 5 – Redução de ruído gaussiano com 𝜎 = 30

Como foi dito na parte teórica, no caso do ruído gaussiano era esperado um de-sempenho superior das técnicas NLM e BM3D, visto que são algoritmos projetados espe-cificamente para esse tipo de ruído. Contudo, o filtro bilateral mostrou um desempenhoigualmente elevado para os testes com ruídos mais fracos, onde as técnicas mais complexasnão conseguiram executar uma atenuação mais leve independentemente dos parâmetros,enquanto o filtro anisotrópico também obteve boa avaliação no caso dos ruídos mais inten-sos, pela métrica VQM. Os diferentes resultados apontados para o mesmo cenário indicamque no mínimo a diferença no desempenho dos algoritmos não é tão discrepante.

5.1.2 Atenuação de ruído impulsivo

A tabela 3 apresenta os resultados obtidos na atenuação do ruído impulsivo. Pode-se verificar que apenas o filtro de mediana foi capaz de remover os ruídos, com umadiminuição razoável dos resultados conforme se aumenta a intensidade de ruído, enquantoos outros algoritmos não tiveram efeito positivo ou reduziram ainda mais a qualidadedo vídeo; devido a característica nítida desse tipo de ruído, filtros como o bilateral eanisotrópico não são nem um pouco eficazes por tratar o ruído como borda.

57

Tabela 3 – Redução de ruído impulsivo

Ruído 𝜎 = 10 𝜎 = 20 𝜎 = 30


- 17,48 0,28 0,93 14,56 0,16 0,83 12,89 0,11 0,54FG 23,49 0,49 0,73 21,63 0,36 0,57 20,30 0,29 0,46FM 26,36 0,79 0,95 25,49 0,77 0,92 24,11 0,72 0,91FB 17,45 0,25 0,92 14,55 0,14 0,84 12,89 0,10 0,56FA 19,41 0,26 0,92 16,71 0,16 0,76 14,99 0,12 0,47

NLM 19,94 0,40 0,91 15,04 0,18 0,82 12,97 0,11 0,54BM3D 18,54 0,26 0,93 15,70 0,15 0,83 13,94 0,11 0,54

É possível verificar também que o efeito negativo do ruído impulsivo é muito maisevidente no resultado das métricas PSNR e SSIM, onde o valor já é bastante baixo paraa menor intensidade do ruído, enquanto a métrica VQM mostra ter pouca sensibilidade aesse tipo de ruído, com resultados altos enquanto o ruído não atinge a maior intensidade.Pode-se observar que quanto mais forte o ruído impulsivo, maior a disparidade entre aeficiência do filtro de mediana e as outras técnicas. Na figura 6 pode-se visualizar o efeitodos algoritmos sobre um quadro danificado pelo ruído impulsivo de maior intensidade.Como mostrado pela tabela 3, apenas o filtro de mediana foi capaz de remover o ruídoimpulsivo, que é a sua especialidade como foi explicado na seção 2.3.2. Quase não épossível identificar diferença entre o resultado dos outros algoritmos e o quadro ruidoso,com exceção do filtro gaussiano, que pelo efeito de borramento generalizado acabou ficandomais próximo do vídeo de referência, o que também é indicado pela tabela 3.

Figura 6 – Redução de ruído impulsivo

58

5.1.3 Atenuação de ruído uniforme

A tabela 4 apresenta os resultados obtidos na redução de ruído uniforme com osdiferentes valores do desvio padrão.

Tabela 4 – Redução de ruído uniforme

Ruído 𝜎 = 10 𝜎 = 20 𝜎 = 30


— 24,29 0,69 0,70 16,02 0,39 0,29 12,60 0,27 0,07FG 24,14 0,71 0,76 16,29 0,54 0,71 13,32 0,42 0,53FM 24,19 0,79 0,78 16,03 0,43 0,59 12,98 0,30 0,33FB 24,84 0,87 0,89 17,08 0,67 0,80 13,42 0,57 0,61FA 24,31 0,83 0,84 16,20 0,52 0,76 13,01 0,54 0,59

NLM 23,47 0,75 0,81 16,71 0,64 0,78 13,67 0,60 0,72BM3D 24,25 0,85 0,86 16,74 0,69 0,75 13,33 0,43 0,34

Pode-se observar que o filtro bilateral foi o mais eficiente para os primeiros cenáriosde ruído com 𝜎 = 10 e 𝜎 = 20, com exceção da métrica SSIM para 𝜎 = 20 onde o algoritmoBM3D obteve o maior resultado. O filtro de médias não-locais também produziu bonsresultados, mas só obteve os melhores valores para todas as métricas quando o ruído foimais intenso, com 𝜎 = 30.

Figura 7 – Redução de ruído uniforme com 𝜎 = 20

A figura 7 mostra um quadro do vídeo Salesman deteriorado pelo caso médio doruído uniforme de 𝜎 = 20. Assim como no ruído gaussiano, pode-se verificar de forma maisclara que o filtro NLM praticamente remove o ruído, mas às custas de grande parte da

59

qualidade da imagem, mesmo aplicando um valor baixo do parâmetro ℎ (2.3.6). Assim oBM3D e até mesmo o filtro anisotrópico obtém maiores resultados pelas métricas quandoo ruído não é tão intenso.

5.1.4 Atenuação de ruído poisson e gama

Para o ruído poisson, pode-se observar pela tabela 5 que os resultados tambémforam similares ao ruído gaussiano com pequenas diferenças, como o filtro bilateral queobteve a maior similaridade pela métrica PSNR para a simulação de ruído com desviopadrão de 10.

Tabela 5 – Redução de ruído poisson

Ruído 𝜎 = 10 𝜎 = 20 𝜎 = 30


— 24,93 0,66 0,76 19,03 0,41 0,48 15,68 0,29 0,16FG 22,28 0,67 0,87 19,53 0,56 0,76 17,11 0,45 0,63FM 22,30 0,64 0,82 19,76 0,49 0,72 17,38 0,37 0,60FB 25,98 0,76 0,85 19,44 0,44 0,53 15,80 0,29 0,19FA 24,27 0,72 0,92 21,17 0,69 0,84 17,90 0,61 0,73

NLM 23,52 0,68 0,82 20,52 0,67 0,79 18,03 0,65 0,75BM3D 25,25 0,78 0,92 21,07 0,71 0,82 17,71 0,49 0,62

É possível notar também que os valores são levemente superiores, apesar de man-tida a proporção dos resultados, mostrando que a atenuação do ruído poisson é maiseficiente. Na figura 8 é mostrado o resultado dos algoritmos para o ruído uniforme menosintenso de 𝜎 = 10, onde pode-se observar que filtros menos complexos como o bilateraltambém são eficientes na solução do problema.

A tabela 6 apresenta os resultados para o ruído gama, que são semelhantes aosobtidos para o ruído poisson em intensidades menores, mas para 𝜎 = 30 o NLM não foio único algoritmo apontado pela métricas, já que o filtro anisotrópico obteve o melhorresultado pelo PSNR. A grandeza dos resultados é próxima dos valores obtidos para oruído gama, sendo um pouco inferior quando a intensidade é menor, estando mais próximodo ruído uniforme.

Na figura 9 pode-se observar o resultado do processamento no mesmo quadro dovídeo Tennis, deteriorado pela intensidade média do ruído. Verifica-se que a maior remoçãodo ruído realmente ocorreu para os últimos 3 filtros (anisotrópico, NLM e BM3D), ondeno resultado NLM o ruído não é mais visível, porém a nitidez da imagem foi prejudicada,enquanto nos demais ainda é possível identificar o ruído mas a qualidade se manteverealista.

60

Figura 8 – Redução de ruído poisson com 𝜎 = 10

Tabela 6 – Redução de ruído gama

Ruído 𝜎 = 10 𝜎 = 20 𝜎 = 30


— 23,38 0,66 0,76 17,58 0,42 0,46 14,15 0,30 0,12FG 21,37 0,67 0,87 17,86 0,56 0,75 14,96 0,45 0,60FM 21,51 0,65 0,82 18,32 0,53 0,72 15,44 0,40 0,56FB 24,06 0,75 0,86 17,88 0,45 0,56 14,30 0,31 0,17FA 23,59 0,71 0,92 19,41 0,68 0,84 15,73 0,61 0,72

NLM 22,33 0,67 0,82 18,48 0,65 0,79 15,46 0,62 0,75BM3D 23,49 0,78 0,92 18,85 0,71 0,82 15,45 0,52 0,65

Figura 9 – Redução de ruído gama com 𝜎 = 20

61

As tabelas 7, 8 e 9 sintetizam os resultados obtidos apresentando o filtro mais eficazpara cada tipo de ruído nas três diferentes intensidades respectivamente, em relação a cadauma das métricas.

Tabela 7 – Comparação dos resultados para atenuação de ruído (𝜎 = 10)

RuídoMétrica PSNR SSIM VQM

Gaussiano Bilateral Bilateral e BM3D BM3DImpulsivo Mediana Mediana MedianaUniforme Bilateral Bilateral Bilateral

Poisson Bilateral BM3D Anisotrópico e BM3DGama Bilateral BM3D Anisotrópico e BM3D



Gaussiano BM3D BM3D AnisotrópicoImpulsivo Mediana Mediana MedianaUniforme Bilateral BM3D Bilateral

Poisson Anisotrópico BM3D AnisotrópicoGama Anisotrópico BM3D Anisotrópico



Gaussiano NLM NLM AnisotrópicoImpulsivo Mediana Mediana MedianaUniforme NLM NLM NLM

Poisson NLM NLM NLMGama Anisotrópico NLM NLM

É evidente que a métrica utilizada tem grande relevância na avaliação objetiva dastécnicas, pois quando os resultados são próximos, cada métrica aponta um filtro diferentecomo mais eficiente, visto que o PSNR tem um funcionamento mais focado na similaridadematemática para computar o resultado, o SSIM leva em conta fatores estruturais quesão percebidos pelo sistema visual humano, assim como o VQM que analisa também aqualidade temporal pelo conjunto de quadros, já que avalia o vídeo por segmentos. Detoda forma, levando-se todas as métricas em consideração pode-se garantir que o filtro demédias não-locais se mostrou ideal quando o ruído é intenso (com desvio padrão próximo

62

de 30), enquanto nos ruídos gaussiano, gama e poisson existe uma oscilação entre astécnicas do filtro anisotrópico e BM3D. No caso dos ruídos de menor intensidade (comdesvio padrão de 10) e para os primeiros cenários do ruído uniforme, o filtro bilateral foiideal na remoção do ruído. A maior exceção é o ruído impulsivo, onde apenas o filtro demediana é eficiente.

Para levar em consideração o aspecto da viabilidade das técnicas, a tabela 10apresenta o tempos de processamento médio para a execução de cada algoritmo nos vídeos,em relação aos dois tipos de resolução da base testada.

Tabela 10 – Tempo de processamento médio das técnicas de redução de ruído

FiltroResolução 176 x 144 pixels 352 x 288 pixels

Gaussiano 0,05 segundos 0,11 segundosMediana 0,04 segundos 0,09 segundosBilateral 4,62 segundos 8,97 segundos

Anisotrópico 11,31 segundos 22,95 segundosNLM 88,06 segundos 270,28 segundos

BM3D 376,02 segundos 2202,69 segundos

Pode-se verificar que os filtros gaussiano e de mediana, embora mais simples, rea-lizam o processamento quase instantaneamente, permitindo inclusive a sua aplicação emtempo real. Os filtros bilateral e anisotrópico são um pouco mais lentos, mas não tive-ram tempo de processamento superior a um minuto, tornando-os ainda mais satisfatóriospara os vários cenários em que tiveram um desempenho tão alto quanto as técnicas maiscomplexas. Já o NLM e BM3D tiveram processamentos bastante demorados, mesmo con-siderando que os vídeos testados são de baixa resolução. Dessa forma, o seu uso pode serinviável em várias aplicações de vídeo.

5.2 Comparação dos métodos de ajuste de brilho e contraste

A avaliação do brilho e contraste é realizada primeiramente aplicando-se as técni-cas diretamente no vídeo, onde o aumento do contraste é quantificado pelo aumento naentropia, verificando a alteração do brilho do vídeo e a sua oscilação, que idealmente nãodeve ser maior que no vídeo original. Em seguida, os métodos são testados nos vídeos comdegradação de contraste, considerando um valor de 𝑎 = 0, 3 e 𝑎 = 0, 1, como explicado nocapítulo 3.

5.2.1 Teste sem degradação de contraste

Na figura 10, pode-se visualizar um quadro processado do vídeo Bus resultanteapós a aplicação das técnicas de equalização de histograma, CLAHE e filtragem homo-

63

mórfica.

Figura 10 – Ajuste de brilho e contraste (Bus)

É possível observar que as técnicas de equalização aumentaram o brilho, já queo vídeo original era relativamente mais escuro. Em todos os casos pode-se visualizarque o contraste também melhorou consideravelmente, porém é evidente que a técnica doCLAHE possibilitou a visualização de mais detalhes do que as demais, como as manchasna parede. Na tabela 11 são apresentados os resultados do processamento, com a avaliaçãodas técnicas em relação à entropia, alteração da iluminação e oscilação de brilho do vídeo.

Tabela 11 – Ajuste de brilho e contraste no vídeo Bus

TécnicaMétrica Entropia (H) Δ𝐿 Oscilação do brilho (BFM)

- 7,24 0 0,43EH 7,67 49,71 0,04

CLAHE 7,93 50,10 0,61FH 7,36 0,05 0,43

Pelo valor da entropia, de fato o CLAHE foi o que mais aumentou o contraste.As técnicas de equalização aumentaram excessivamente o brilho médio do vídeo com

64

um valor de 50, e a oscilação do brilho aumentou razoavelmente no caso do CLAHE,enquanto a equalização de histograma clássica praticamente retirou a oscilação. No casodo filtro homomórfico, pela sua capacidade de isolar iluminação e reflectância, tanto obrilho quanto a oscilação ficaram praticamente inalteradas em relação ao vídeo original,porém o contraste não aumentou tanto quanto para as outras duas técnicas.

A figura 11 apresenta o valor do BFM ou oscilação do brilho entre cada par dequadros do vídeo.

Figura 11 – Oscilação de brilho no vídeo Bus

Pode-se observar que a equalização não adaptativa reduz imensamente a oscilaçãodo brilho, independente da variação original. Como descrito na seção 2.1.3, isto se deveà propriedade da equalização de alterar o brilho para aproximadamente o valor médio deintensidade. Já o vídeo processado pelo CLAHE teve oscilações maiores que o originalem vários momentos, apesar de ter sido a técnica que mais aumentou o contraste. Comomostrado na tabela 11, a filtragem homomórfica não teve diferença na oscilação, assim asua linha no gráfico apenas acompanha a oscilação original do vídeo.

5.2.2 Teste com degradação de contraste (a = 0,3)

A tabela 12 mostra os resultados para outro vídeo com uma degradação de con-traste de 𝑎 = 0, 3.

Pode-se constar que novamente que o CLAHE foi a melhor técnica para o me-lhoramento do contraste, tendo obtido a maior recuperação da qualidade original pelasmétricas PSNR, SSIM e VQM, bem como a maior entropia. Os valores das métricas de

65

Tabela 12 – Ajuste de brilho e contraste no vídeo Foreman

TécnicaMétrica PSNR SSIM VQM H BFM

- 11,07 0,39 0,58 5,09 1,06EH 18,05 0,73 0,71 7,51 0,04

CLAHE 18,93 0,75 0,77 7,69 1,13FH 11,68 0,44 0,63 5,94 1,09

referência completa só não são superiores provavelmente pelo fato do contraste aprimo-rado ser ainda melhor que o contraste do vídeo original, o que é um problema na avaliaçãodo realce de vídeos e imagens. A filtragem homomórfica teve um desempenho bastanteinferior em relação às técnicas de equalização, mas mostra ter se aproximado mais dailuminação original do vídeo. O resultado pode ser visualizado na figura 12.

Figura 12 – Ajuste de brilho e contraste no vídeo Foreman degradado (a = 0,3)

A oscilação novamente se manteve próxima da original para o filtro homomórfico, efoi reduzida pela equalização de histograma. Como mostrado na figura 13, o vídeo originalpossui grande oscilação na metade do vídeo, pois nessa parte a câmera é apontada parao céu, mas ainda assim o valor médio da oscilação foi relativamente maior no caso do

66

CLAHE.

Figura 13 – Oscilação de brilho no vídeo Foreman

5.2.3 Teste com degradação de contraste (a = 0,1)

A tabela 13 apresenta os resultados da avaliação para o vídeo Waterfall com de-gradação do contraste de 𝑎 = 0, 1. Com exceção da filtragem homomórfica, a recuperaçãoda qualidade pelas técnicas foi alta, ainda que os valores sejam inferiores ao teste ante-rior, devido à maior degradação do contraste. A figura 14 apresenta um quadro do vídeoprocessado para cada uma das técnicas, onde a diferença no contraste pode ser percebidapela variação nos tons de verde presentes.

Tabela 13 – Ajuste de brilho e contraste no vídeo Waterfall

TécnicaMétrica PSNR SSIM VQM H BFM

- 8,88 0,09 0,03 3,52 0,001EH 16,54 0,70 0,76 7,22 0,135

CLAHE 18,13 0,74 0,81 7,68 0,248FH 9,23 0,18 0,23 4,75 0,008

A equalização adaptativa realizada pelo CLAHE mostra ser a técnica com maioreficiência no melhoramento do contraste. A resposta das técnicas de equalização nestevídeo em relação ao brilho foi mais anormal que nos testes anteriores, com oscilaçãomuito maior do que no vídeo original, como pode ser observado no gráfico da figura 15.

67

Figura 14 – Ajuste de brilho e contraste no vídeo Waterfall degradado (a = 0,1)

Pode-se concluir que as técnicas que mais aprimoraram o contraste, também ten-deram a aumentar a oscilação original do brilho do vídeo, principalmente no caso doCLAHE. A piora da qualidade temporal pela oscilação do brilho do vídeo depende do seuconteúdo, tendo sido muito mais perceptiva no vídeo Waterfall. A equalização clássica

Figura 15 – Oscilação de brilho no vídeo Waterfall

68

de histograma não aumentou a oscilação nos demais vídeos e obteve bons resultados decontraste, assim ainda pode ser considerada uma alternativa nos casos em que o CLAHEnão é satisfatório. A filtragem homomórfica conseguiu aprimorar o contraste sem interferirno brilho, mas seus resultados não são tão bons quanto nas técnicas de equalização.

Outra vantagem das técnicas de equalização de histograma foram os tempos deprocessamento, como pode ser verificado na tabela 14. Nas duas resoluções de vídeo, aexecução pode ser feita de maneira instantânea. O filtro homomórfico não é tão lento,mas não pode ser aplicado em tempo real.

Tabela 14 – Tempo de processamento médio das técnicas para brilho e contraste

TécnicaResolução 176 x 144 pixels 352 x 288 pixels

EH 0,72 segundos 1,23 segundosCLAHE 0,78 segundos 1,83 segundos

FH 16,98 segundos 35,64 segundos

69

6 CONCLUSÃO

A aquisição de vídeos digitais é suscetível a diferentes tipos de ruídos e artefatos,que requerem o uso de métodos mais refinados para restaurar e aprimorar a sua quali-dade visual. Este trabalho apresentou algumas das técnicas utilizadas para solucionar osproblemas encontrados, e comparou o seu desempenho em diferentes cenários a partir demétricas objetivas de qualidade.

Os testes realizados mostraram que a eficiência dos algoritmos de redução de ruídovaria de acordo com o tipo e quantidade de ruído presente no vídeo, comprovando assima importância de analisar o ruído para adaptar o método utilizado. Os resultados obtidospelas métricas corroboraram os encontrados na literatura em relação aos ruídos do tipoimpulsivo e gaussiano que são os mais considerados, enquanto os demais tipos forneceramresultados complementares. O ruído impulsivo ou “sal e pimenta” é o tipo mais discrepanteque deteriora os pixels apenas com valores extremos, por isso o filtro de mediana foi o únicocapaz de eliminá-los com maior eficácia enquanto as técnicas mais complexas não surtiramefeito positivo, já que confundem o ruído com as bordas devido à sua nitidez. Este tipode técnica, como o Block-Matching 3D e o filtro de médias não-locais, é mais eficientena redução do ruído gaussiano, que é o modelo comum presumido desde a concepçãodestes algoritmos. Foi verificado que tanto o BM3D como o filtro anisotrópico superaramo NLM em vídeos degradados com quantidades razoáveis de ruído, mas ao simular cenáriosextremos (com desvio padrão de 30), por mais que se ajustasse os parâmetros, a técnicaBM3D se mostrou impedida de realizar a correspondência de blocos, e o NLM alcançouo melhor resultado em relação a todas as métricas.

Os demais ruídos do tipo gama e poisson possuem uma distribuição de valores maisequilibrada e próxima da normal gaussiana, assim a resposta obtida pelos filtros foi menosdiferenciada. No caso do ruído uniforme e nas menores intensidades de ruído, múltiplastécnicas foram eficientes, mas o filtro bilateral obteve maior destaque em grande parte porser capaz de uma atenuação mais leve quando uma atuação grande não é necessária. Jáo filtro gaussiano não foi superior em nenhum dos testes pelo seu funcionamento linear enão preservação das bordas, mas seus resultados podem servir para efeito de comparaçãocom as demais técnicas.

Nos resultados também foi constatado que diferentes métricas de qualidade pro-duzem avaliações distintas para o mesmo cenário, pois cada métrica possui um níveldiferente de sensibilidade a determinado tipo de distorção e também aos efeitos de suavi-zação causados pelos algoritmos de redução de ruído. Apesar de convergirem na avaliaçãogeral, a diferença é grande o suficiente para que diferentes filtros sejam apontados comoos mais eficazes em um cenário específico. No caso médio de ruído com desvio padrão de

70

20, em vários testes a métrica de similaridade estrutural (SSIM), bastante utilizada naliteratura, mostrou que a técnica BM3D foi mais eficiente, enquanto a métrica VQM, demaior correspondência com a avaliação subjetiva, foi mais favorável ao filtro anisotrópico.Dessa forma, os resultados mostram que além de aperfeiçoar os métodos de atenuação deruído, é essencial aplicar métricas que estejam mais alinhadas com a percepção humana,garantindo a validade dos resultados.

Em relação ao aprimoramento do vídeo com o ajuste de brilho e contraste, os resul-tados mostraram que há um balanço entre o aumento do contraste individual dos quadrosde vídeo e a intensificação da oscilação do seu brilho, que degrada a qualidade temporaldo vídeo. O método do CLAHE, bastante utilizado em outros trabalhos relacionados,foi claramente o mais eficiente no melhoramento do contraste, tanto pela análise visualdo resultado quanto no valor da entropia e na recuperação pelas métricas de referênciacompleta em relação aos vídeos com degradação de contraste. Porém, dependendo do con-teúdo do vídeo, o realce pode ser excessivo e causar o artefato da oscilação de brilho. Poroutro lado, a equalização clássica de histograma normaliza quase totalmente o brilho, oque também não é o ideal já que remove a variação natural do brilho do vídeo que podeser uma característica importante do seu conteúdo. Já a filtragem homomórfica foi a únicatécnica capaz de aprimorar o contraste de maneira independente do brilho, mantendo asua oscilação original, o que pode ser mais adequado para determinadas aplicações.

Por fim, também foi possível verificar a viabilidade das técnicas a partir dos seustempos de processamento. No caso da atenuação de ruído, as técnicas NLM e BM3Dtiveram um tempo de processamento extremamente alto mesmo para os vídeos de baixaresolução e poucos quadros que foram testados, enquanto as demais não tiveram temposuperior a um minuto. Assim, em muitas aplicações que não dispõem de longo tempo deprocessamento local para uma pequena diferença na qualidade final, a utilização de umfiltro menos complexo como o anisotrópico pode ser mais vantajosa do que uma técnicacomo o BM3D, por exemplo. No caso dos métodos para aumento do contraste, apenas ofiltro homomórfico não é tão eficiente no processamento, já os algoritmos de equalizaçãosão extremamente rápidos a ponto de viabilizarem a sua aplicação em tempo real.

Em trabalhos futuros pode-se considerar algumas questões decorrentes deste tra-balho, como: o problema de foco em vídeos, que prejudica o contraste com a diminuiçãoda nitidez das bordas e detalhes; a automatização da seleção de parâmetros para váriosdos algoritmos empregados, visto que isto foi um empecilho na realização dos testes, bemcomo uma solução mais generalizada para o problema de atenuação de ruído pela adapta-ção da filtragem de acordo com o tipo de ruído detectado no vídeo; e a partir de resultadosobtidos pelas métricas de referência completa, o desenvolvimento de uma métrica sem re-ferência para avaliar vídeos com deterioração real de ruído e contraste, que não possuemuma versão não degradada para comparação.

71

REFERÊNCIAS

[1] BOVIK, A. C. Handbook of image and video processing. [S.l.]: Academic press, 2010.

[2] GONZALEZ, R. C.; WOODS, R. E. Digital image processing. Prentice Hall, 2008.

[3] SHAO, L. et al. From heuristic optimization to dictionary learning: a review andcomprehensive comparison of image denoising algorithms. IEEE Transactions onCybernetics, IEEE, v. 44, n. 7, p. 1001–1013, 2014.

[4] FILHO, M. O.; NETO, H. V. Processamento digital de imagens. Rio de Janeiro:Brasport, 1999.

[5] JEON, G. Color image enhancement by histogram equalization in heterogeneouscolor space. Int. J. Multimedia Ubiquitous Eng, Citeseer, v. 9, n. 7, p. 309–318, 2014.

[6] AMER, A.; DUBOIS, E. Fast and reliable structure-oriented video noise estimation.IEEE Transactions on Circuits and Systems for Video Technology, IEEE, v. 15, n. 1,p. 113–118, 2005.

[7] JI, H. et al. Robust video denoising using low rank matrix completion. In:CITESEER. CVPR. [S.l.], 2010. p. 1791–1798.

[8] MARQUES, O. Digital video processing techniques and applications. Wiley-IEEEPress, 2013.

[9] WANG, Q.; WARD, R. K. Fast image/video contrast enhancement based onweighted thresholded histogram equalization. IEEE transactions on ConsumerElectronics, IEEE, v. 53, n. 2, p. 757–764, 2007.

[10] KIM, Y.-T. Contrast enhancement using brightness preserving bi-histogramequalization. IEEE transactions on Consumer Electronics, IEEE, v. 43, n. 1, p. 1–8,1997.

[11] GU, K. et al. Brightness preserving video contrast enhancement using s-shapedtransfer function. In: IEEE. Visual Communications and Image Processing (VCIP),2013. [S.l.], 2013. p. 1–6.

[12] XU, Q. et al. A new approach for very dark video denoising and enhancement.In: 2010 IEEE International Conference on Image Processing. [S.l.: s.n.], 2010. p.1185–1188. ISSN 1522-4880.

[13] JUNGENFELT, N.; RASKI, T. Contrast enhancement, denoising and fusion indark video for applications in automobile safety. Chalmers University of Technology,2012.

[14] WANG, C. et al. Video enhancement using adaptive spatio-temporal connectivefilter and piecewise mapping. EURASIP Journal on Advances in Signal Processing,Springer International Publishing, v. 2008, n. 1, p. 1, 2008.

[15] VASEGHI, S. V. Advanced digital signal processing and noise reduction. [S.l.]: JohnWiley & Sons, 2008.

72

[16] SZELISKI, R. Computer vision: algorithms and applications. [S.l.]: Springer Science& Business Media, 2010.

[17] DAI, J. et al. Color video denoising based on combined interframe and intercolorprediction. IEEE Transactions on Circuits and Systems for Video Technology, IEEE,v. 23, n. 1, p. 128–141, 2013.

[18] CHEN, S.-D.; RAMLI, A. R. Minimum mean brightness error bi-histogramequalization in contrast enhancement. IEEE transactions on Consumer Electronics,IEEE, v. 49, n. 4, p. 1310–1319, 2003.

[19] WANG, C.; YE, Z. Brightness preserving histogram equalization with maximumentropy: a variational perspective. IEEE Transactions on Consumer Electronics,IEEE, v. 51, n. 4, p. 1326–1334, 2005.

[20] STARK, J. A. Adaptive image contrast enhancement using generalizations ofhistogram equalization. IEEE Transactions on image processing, IEEE, v. 9, n. 5, p.889–896, 2000.

[21] YADAV, G.; MAHESHWARI, S.; AGARWAL, A. Contrast limited adaptivehistogram equalization based enhancement for real time video system. In: IEEE.Advances in Computing, Communications and Informatics (ICACCI, 2014International Conference on. [S.l.], 2014. p. 2392–2397.

[22] BUADES, A.; COLL, B.; MOREL, J.-M. A non-local algorithm for image denoising.In: IEEE. 2005 IEEE Computer Society Conference on Computer Vision andPattern Recognition (CVPR’05). [S.l.], 2005. v. 2, p. 60–65.

[23] BOYAT, A. K.; JOSHI, B. K. A review paper: Noise models in digital imageprocessing. arXiv preprint arXiv:1505.03489, 2015.

[24] FAROOQUE, M. A.; ROHANKAR, J. S. Survey on various noises and techniquesfor denoising the color image. International Journal of Application or Innovation inEngineering & Management (IJAIEM), v. 2, n. 11, p. 217–221, 2013.

[25] RANTANEN, H. et al. Color video signal processing with median filters. IEEEtransactions on consumer electronics, IEEE, v. 38, n. 3, p. 157–161, 1992.

[26] PHAM, T. Q.; VLIET, L. J. V. Separable bilateral filtering for fast videopreprocessing. In: IEEE. 2005 IEEE International Conference on Multimedia andExpo. [S.l.], 2005. p. 4–pp.

[27] DURAND, F.; DORSEY, J. Fast bilateral filtering for the display of high-dynamic-range images. In: ACM. ACM transactions on graphics (TOG). [S.l.], 2002. v. 21,n. 3, p. 257–266.

[28] AL-AMRI, S. S.; KALYANKAR, N.; KHAMITKAR, S. Linear and non-linearcontrast enhancement image. International Journal of Computer Science andNetwork Security, v. 10, n. 2, p. 139–143, 2010.

[29] MAHMOUDI, M.; SAPIRO, G. Fast image and video denoising via nonlocal meansof similar neighborhoods. IEEE signal processing letters, IEEE, v. 12, n. 12, p.839–842, 2005.

73

[30] REN, J. et al. Illumination-invariant non-local means based video denoising. In:IEEE. 2012 19th IEEE International Conference on Image Processing. [S.l.], 2012.p. 1185–1188.

[31] BUADES, A.; COLL, B.; MOREL, J.-M. Denoising image sequences does notrequire motion estimation. In: IEEE. IEEE Conference on Advanced Video andSignal Based Surveillance, 2005. [S.l.], 2005. p. 70–74.

[32] LIU, C.; FREEMAN, W. T. A high-quality video denoising algorithm based onreliable motion estimation. In: SPRINGER. European conference on computervision. [S.l.], 2010. p. 706–719.

[33] LUO, E. et al. Adaptive non-local means for multiview image denoising: Searchingfor the right patches via a statistical approach. In: IEEE. 2013 IEEE InternationalConference on Image Processing. [S.l.], 2013. p. 543–547.

[34] DABOV, K.; FOI, A.; EGIAZARIAN, K. Video denoising by sparse 3d transform-domain collaborative filtering. In: Signal Processing Conference, 2007 15th European.[S.l.: s.n.], 2007. p. 145–149.

[35] MAGGIONI, M. et al. Video denoising, deblocking, and enhancement throughseparable 4-d nonlocal spatiotemporal transforms. IEEE Transactions on imageprocessing, IEEE, v. 21, n. 9, p. 3952–3966, 2012.

[36] REEJA, S.; KAVYA, N. Real time video denoising. In: IEEE. Engineering Education:Innovative Practices and Future Trends (AICERA), 2012 IEEE InternationalConference on. [S.l.], 2012. p. 1–5.

[37] FARIAS, M. C. Video quality metrics. [S.l.]: INTECH Open Access Publisher, 2010.

[38] WANG, Y. Survey of objective video quality measurements. 2006.

[39] WINKLER, S.; MOHANDAS, P. The evolution of video quality measurement: frompsnr to hybrid metrics. IEEE Transactions on Broadcasting, IEEE, v. 54, n. 3, p.660–668, 2008.

[40] KOTEVSKI, Z. G.; MITREVSKI, P. J. Performance assessment of metrics for videoquality estimation. 2010.

[41] HUYNH-THU, Q.; GHANBARI, M. Scope of validity of psnr in image/video qualityassessment. Electronics letters, IET, v. 44, n. 13, p. 800–801, 2008.

[42] WANG, Z. et al. Image quality assessment: from error visibility to structuralsimilarity. IEEE transactions on image processing, IEEE, v. 13, n. 4, p. 600–612,2004.

[43] WANG, Z.; LU, L.; BOVIK, A. C. Video quality assessment based on structuraldistortion measurement. Signal processing: Image communication, Elsevier, v. 19,n. 2, p. 121–132, 2004.

[44] PINSON, M. H.; WOLF, S. A new standardized method for objectively measuringvideo quality. IEEE Transactions on broadcasting, IEEE, v. 50, n. 3, p. 312–322,2004.

74

[45] KHELLAF, A.; BEGHDADI, A.; DUPOISOT, H. Entropic contrast enhancement.IEEE Transactions on Medical Imaging, v. 10, n. 4, p. 589–592, Dec 1991. ISSN0278-0062.

[46] GAYATHRI, S.; MOHANAPRIYA, N.; KALAAVATHI, B. Efficient contrastenhancement using gamma correction with multilevel thresholding and probabilitybased entropy. [S.l.]: Citeseer, 2014.

[47] VATOLIN, D.; NOSKOV, A. Brightness Flicking Metric. 2002. Disponível em: <http://www.compression.ru/video/quality_measure/metric_plugins/bfm_en.htm>.Acesso em: 15.8.2016.

[48] GOH, K.; HUANG, Y.; HUI, L. Automatic video contrast enhancement. In: IEEE.Consumer Electronics, 2004 IEEE International Symposium on. [S.l.], 2004. p.359–364.

[49] AMIRI, S. A.; HASSANPOUR, H. A preprocessing approach for image analysisusing gamma correction. Department of Computer Engineering Shahrood Universityof Technology Iran, Citeseer, 2012.

[50] KIM, M. et al. A novel approach for denoising and enhancement of extremelylow-light video. IEEE Transactions on Consumer Electronics, IEEE, v. 61, n. 1, p.72–80, 2015.

http://www.compression.ru/video/quality_measure/metric_plugins/bfm_en.htm

http://www.compression.ru/video/quality_measure/metric_plugins/bfm_en.htm

Documents

RAFAELLUCIENBAHRARIAS - uel.br · de intensidade da imagem de forma a obter um histograma uniforme, cujo valor de