METODOLOGIA PARA OBTENÇÃO DE IMAGENS DE ......À Santos Lab Com. e Ind. Aeroespacial LTDA, em especial Sr Tin Muskardin. À equipe VANT LANU II do Instituto Militar de Engenharia

INSTITUTO MILITAR DE ENGENHARIA

1° Ten NINA MACHADO FIGUEIRA

METODOLOGIA PARA OBTENÇÃO DE IMAGENS

DE SUPER-RESOLUÇÃO UTILIZANDO CÂMARAS EMBARCADAS

EM VANTs

Dissertação de Mestrado apresentada ao Programa de Pós-

Graduação em Engenharia de Defesa do Instituto Militar

de Engenharia, como requisito parcial para a obtenção do

título de Mestre em Ciências em Engenharia de Defesa.

Orientadores: Prof. Leonardo Castro de Oliveira - D.E.

Prof.ª Carla Liberal Pagliari - Ph.D.

Rio de Janeiro

2011

2

c2011


Praça General Tibúrcio, 80 – Praia Vermelha.

Rio de Janeiro - RJ CEP: 22290-270

Este exemplar é de propriedade do Instituto Militar de Engenharia, que poderá incluí-lo em

base de dados, armazenar em computador, microfilmar ou adotar qualquer forma de

arquivamento.

São permitidas a menção, reprodução parcial ou integral e a transmissão entre bibliotecas

deste trabalho, sem modificação de seu texto, em qualquer meio que esteja ou venha a ser

fixado, para pesquisa acadêmica, comentários e citações, desde que sem finalidade comercial

e que seja feita a referência bibliográfica completa.

Os conceitos expressos neste trabalho são de responsabilidade do autor e do orientador.

621.3 Figueira, Nina Machado.

T465s Metodologia para Obtenção de Imagens de Super-Resolução

utilizando câmaras embarcadas em VANTs/Nina Machado

Figueira.-Rio de Janeiro: Instituto Militar de Engenharia, 2011.

149 p.

Dissertação (mestrado) – Instituto Militar de Engenharia –

Rio de Janeiro, 2011

1. Super-Resolução. 2. Imageamento. 3. Videografia.

4. VANT. 5. Análise Objetiva e Subjetiva.

I. Figueira, Nina M. II. Título III. Instituto Militar de

Engenharia.

CDD 621.3

3


1° Ten NINA MACHADO FIGUEIRA

METODOLOGIA PARA OBTENÇÃO DE IMAGENS DE

SUPER-RESOLUÇÃO UTILIZANDO CÂMARAS EMBARCADAS

EM VANTs

Dissertação de Mestrado apresentada ao Curso de Pós-Graduação em Engenharia de

Defesa do Instituto Militar de Engenharia, como requisito parcial para a obtenção do título de

Mestre em Ciências em Engenharia de Defesa.

Orientadores: Prof. Leonardo Castro de Oliveira - D.E.

Prof.ª Carla Liberal Pagliari - Ph.D.

Aprovada em 30 de novembro de 2011 pela seguinte Banca Examinadora:

__________________________________________________________________

Prof. Leonardo Castro de Oliveira - D.E. do IME - Presidente

__________________________________________________________________

Prof.ª Carla Liberal Pagliari - Ph.D. do IME

_________________________________________________________________

Prof. Paulo Fernando Ferreira Rosa - Ph.D. do IME

_________________________________________________________________

Cel Clovis Gaboardi - D.E. da DSG

_________________________________________________________________

Prof. Maurício Galo - D.E. da UNESP

Rio de Janeiro

2011

4

Dedico esse trabalho ao meu marido Ricardo, à minha

filha Maria Clara e ao meu pai Leo (in memorian).

5

AGRADECIMENTOS

Agradeço primeiramente a Deus pelas bênçãos recebidas ao longo destes dois anos. Pela

força nos momentos de desânimo e de angústia, pelos momentos alegres que me recarregaram

as energias, pela luz incessante que iluminou meu caminho até aqui.

Em segundo lugar agradeço às pessoas que me incentivaram, apoiaram e possibilitaram

essa oportunidade.

Ao meu amado e grande incentivador Ricardo pela paciência, dedicação e carinho.

À minha filha Maria Clara pelas inúmeras vezes em que pulou no meu colo, me abraçou e

disse: “Mamãe... sai desse computador”.

A minha mãe Néa, meu irmão Lucas, Tia Márcia e Lidinha pelos momentos de socorro.

Aos meus orientadores Leonardo e Carla, pela ajuda fundamental ao longo do curso.

Aos amigos e colegas da pós-graduação em especial aos queridos Izabela, Itiro, Oberdan,

Renan, Ferrari, Benevento, Andrezo, Vanessa, Toscano e Cardoso.

Aos professores pelos aprendizados nas aulas e nos seminários, em especial ao Prof.

Felipe pelas enfáticas críticas construtivas.

Ao Exército Brasileiro e ao Instituto Militar de Engenharia, pela oportunidade de

realização do Curso.

Ao Cap Apolinário da equipe VANT VT-15 do CTEx.

À AGX tecnologia, em especial ao Sr Adriano Kancelkis.

Ao Cel Laux, Maj Gramkow e Ten Zanini do esquadrão VANT da FAB.

À Santos Lab Com. e Ind. Aeroespacial LTDA, em especial Sr Tin Muskardin.

À equipe VANT LANU II do Instituto Militar de Engenharia.

6

"Cada dia que vivo mais me convenço de que o

desperdício da vida está no amor que não damos, nas

forças que não usamos, na prudência egoísta que nada

arrisca e que, esquivando-nos do sofrimento, perdemos

também a felicidade.”

Carlos Drummond de Andrade

http://pensador.uol.com.br/autor/carlos_drummond_de_andrade/

7

SUMÁRIO

LISTA DE ILUSTRAÇÕES ...................................................................................................... 9

LISTA DE TABELAS ............................................................................................................. 14

LISTA DE ABREVIATURAS …………………………………………………………14

LISTA DE SIGLAS ................................................................................................................. 16

1 INTRODUÇÃO ........................................................................................................... 19

1.1 Objetivo ........................................................................................................................ 21

1.2 Justificativa ................................................................................................................... 21

1.3 Descrição geral do trabalho .......................................................................................... 23

2 SUPER-RESOLUÇÃO E VIDEOGRAFIA AÉREA DIGITAL: ASPECTOS

RELEVANTES ....................................................................................................................... 24

2.1 Imagens Digitais ........................................................................................................... 24

2.2 Super-Resolução ........................................................................................................... 27

2.3 Modelagem do Processo de Aquisição de Imagens ..................................................... 34

2.3.1 Modelo de Transformação Geométrica - Registro ....................................................... 35

2.3.2 Modelos de Degradação da Imagem ............................................................................ 40

2.3.3 Modelos de Observação de Imagens Utilizados em Super-Resolução: Formulação

Matemática ................................................................................................................... 44

2.4 Fotogrametria Aérea X Videografia Aérea Digital ...................................................... 46

2.5 Conclusões .................................................................................................................... 63

3 GERAÇÃO DE IMAGENS DE SUPER-RESOLUÇÃO ........................................ 64

3.1 Descrição dos Ambientes Computacionais Utilizados ................................................. 64

3.2 Descrição da Metodologia do Trabalho ....................................................................... 71

8

3.2.1 Geração de Imagens HR a partir de Dados Simulados ................................................. 73

3.2.2 Geração de Imagens HR a partir de Dados Reais ......................................................... 75

3.2.3 Geração de Mosaico de HR a partir de Dados Simulados ............................................ 77

3.3 Análise aa Qualidade das Imagens SR ......................................................................... 78

3.3.1 Análise Objetiva da Qualidade das Imagens SR .......................................................... 78

3.3.2 Análise Subjetiva da Qualidade das Imagens HR ........................................................ 79

3.4 Conclusões .................................................................................................................... 80

4 RESULTADOS ............................................................................................................ 81

4.1 Resultados da Geração de Imagens HR a partir de Dados Simulados ......................... 81

4.2 Resultados da Geração de Imagens HR a partir de Dados Reais .............................. 107

4.3 Resultados da Geração de Mosaicos a partir de Dados Simulados ............................ 113

4.4 Conclusões .................................................................................................................. 115

5 CONCLUSÕES E TRABALHOS FUTUROS ....................................................... 117

5.1 Conclusões .................................................................................................................. 117

5.2 Trabalhos Futuros ....................................................................................................... 118

6 REFERÊNCIAS BIBLIOGRÁFICAS .................................................................... 120

7 APÊNDICES .............................................................................................................. 128

7.1 Apêndice 1: Métodos de Registro Utilizados ............................................................. 129

7.2 Apêndice 2: Métodos de Reconstrução Utilizados ................................................... 134

7.3 Apêndice 3: Código de Conversão AVI-TIFF .......................................................... 149

9

LISTA DE ILUSTRAÇÕES

FIG. 1.1 VANT VT-15 (CTEx, 2010). .................................................................................. 22

FIG. 1.2 Amostras de imagens da câmara Axis 233D doVANT VT-15 (CTEx, 2010). ........ 23

FIG. 2.1 Alvo teste de resolução da ISO 12223 utilizado para determinar a resolução espacial

de sistemas e sensores de imageamento (ISO 12223). ............................................................. 24

FIG. 2.2 Degradação da resolução espacial. (INTERGRAPH, 2011) .................................... 25

FIG. 2.3: Processo de degradação da qualidade, adaptado de PARK ET AL. (2003). ........... 26

FIG. 2.4 Amostragem temporal e espacial de uma sequência de vídeo. ................................. 26

FIG. 2.5 Uma cena estática de vídeo (esquerda); após equalização de histograma a placa do

automóvel continua ilegível devido ao ruído natural da imagem (direita), adaptado de CAPEL

(2001). ...................................................................................................................................... 28

FIG. 2.6 Captura da região de interesse (esquerda); a SR estima a cena subjacente a partir de

50 imagens (direita); adaptado de CAPEL (2001). .................................................................. 28

FIG. 2.7 Legibilidade da placa como resultado da media do conjunto cada vez maior de

imagens, adaptado de CAPEL (2001). ..................................................................................... 28

FIG. 2.8 Premissa básica para a SR (PARK ET AL., 2003). .................................................. 30

FIG. 2.9 Esquema geral da Super-Resolução. ......................................................................... 31

FIG. 2.10 Correlação entre as imagens (FONSECA & MANJUNAH, 1996). ....................... 36

FIG. 2.11 Etapas do registro de uma imagem (ZITOVÁ & FLUSSER, 2003). ..................... 38

FIG. 2.12 Tipos de transformações geométricas (PUC, 2011). .............................................. 39

FIG. 2.13 Efeito do borramento através da Point Spread Function ........................................ 40

FIG. 2.14 Efeito da matriz de reamostragem D-1

em uma imagem 3x3 e a matriz de

subamostragem D na correspondente imagem reamostrada 9x9. (IMAGE FUSION, 2008) . 43

FIG. 2.15 Métodos de interpolação de uma imagem (ZITOVÁ & FLUSSER, 2003). ........... 43

FIG. 2.16 Modelo de observação que relaciona as imagens LR à imagem HR. ..................... 44

FIG. 2.17 Aplicação de uma PSF contínua. (IMAGE FUSION, 2008) ................................... 45

FIG. 2.18 Modelagem matemática da SR (IMAGE FUSION, 2008). ..................................... 46

FIG. 2.19 Subdivisões da Fotogrametria (ASPRS, 1997). ....................................................... 47

FIG. 2.20 Exemplo de possibilidades de aplicações VANT na atualização cartográfica.

Mosaico construído a partir de sequência real (amostra de vídeo VANT Arara-M1). ............ 48

10

FIG. 2.21 Imagem vertical x Imagem oblíqua (adaptado de KRAUS, 1992). ......................... 50

FIG. 2.22 ERT e ângulo de visada, adaptado de LILLESAND & KIEFER (1987). ............... 51

FIG. 2.23 Voo fotogramétrico realizado em faixas (REDWEIK, 2007). ................................ 51

FIG. 2.24 Sobreposições do projeto aerofotogramétrico (REDWEIK, 2007). ...................... 52

FIG. 2.25 Recobrimento com a ocorrência de deriva e desvio (IBGE, 2011). ...................... 52

FIG. 2.26 Exemplo de deriva e aquisição de imagens inclinadas. Mosaico construído a partir

de sequência real (amostra de vídeo VANT Carcará). ............................................................. 52

FIG. 2.27 Tipos de traçado de voo (REDWEIK, 2007). .......................................................... 53

FIG. 2.28 Esquema do plano de voo (REDWEIK, 2007). ..................................................... 55

FIG. 2.29 Inserção de técnicas de SR no processo cartográfico. ........................................... 56

FIG. 2.30 Decolagem VANT Arara-M1 (AGX, 2010). ........................................................... 57

FIG. 2.31 Área de interesse e cálculo da distância à base para a transmissão dos dados

telemétricos (AGX, 2010). ....................................................................................................... 58

FIG. 2.32 Planejamento da operação Membeca 2008 (AGX, 2010). ..................................... 58

FIG. 2.33 Dados processados na operação Membeca 2008 (AGX, 2010). .............................. 59

FIG. 2.34 Identificação de alvos na operação Membeca 2008 (AGX, 2010). ......................... 59

FIG. 2.35 Teatro de operações OPAN (CTEx, 2010). ............................................................. 61

FIG. 2.36 Especificações da câmara de vídeo Axis 233D do VANT VT-15 .......................... 62

FIG. 2.37 Geometria de aquisição das imagens VANT VT-15. .............................................. 62

FIG. 3.1 Super-Resolution Appication (SRA) (VANDERWALLE ET AL., 2007). ............... 65

FIG. 3.2 Super-Resolution Toolbox (SRT) (GEVREKCI & GUNTURK, 2006). .................. 66

FIG. 3.3 MDSP Enhancement Program (MDSP) (FARSIU ET AL, 2004c)........................... 67

FIG. 3.4 Esquema geral da metodologia do trabalho. ............................................................. 72

FIG. 3.5 Imagens LR simuladas utilizando a SRA. ................................................................ 73

FIG. 3.6 Metodologia de obtenção de imagens SR. ................................................................ 76

FIG. 3.7 Simulação do voo videográfico - construção das faixas e modelos. ........................ 77

FIG. 3.8 Pontuação média de opinião (adaptado de ITU-R 500-5, 1992). ............................. 80

FIG. 4.1 Resultado do experimento 2. .................................................................................... 82

11

FIG. 4.2 Resultado do experimento 2. KE (esquerda) e VA (direita). .................................... 82

FIG. 4.3 Resultado do experimento 2 para a IMG0570. ......................................................... 83



FIG. 4.6 Resultado do experimento 1 para a IMG 1038. ........................................................ 86

FIG. 4.7 Resultado do experimento 3 KE a partir de 4, 6, 8 e 10 imagens LR, reconstrução

INT. .......................................................................................................................................... 87

FIG. 4.8 Resultado do experimento 3 registro KE, reconstrução 4 imagens LR, reconstrução

INT, NC, POCS e IBP_R. ........................................................................................................ 88

FIG. 4.9 Resultado do experimento 3, registro KE, reconstrução 10 imagens LR,

reconstrução INT, NC, POCS e IBP_R. ................................................................................... 89

FIG. 4.10 Resultado dos mapas de similaridades (SSIM_map) do experimento 3, registro

KE, 10 imagens LR, reconstrução INT, NC, POCS e IBP_R. ................................................. 89

FIG. 4.11 Resultado do experimento 3 para a IMG0570 KE a partir de 4, 6, 8 e 10 imagens

LR, reconstrução INT. .............................................................................................................. 91

FIG. 4.12 Resultado dos mapas de similaridades (SSIM_map) do experimento 3 para a

IMG0570, registro KE, 10 imagens LR, reconstrução INT, NC, POCS e IBP_R. .................. 92

FIG. 4.13 Resultado do experimento 3 para a IMG0570, registro KE, reconstrução 10

imagens LR, reconstrução INT, NC, POCS e IBP_R. ............................................................. 93

FIG. 4.14 Resultado do experimento 3 a partir da IMG0744, registro KE, 10 imagens LR,


FIG. 4.15 Resultado do experimento 3 para o alvo teste, registro KE a partir de 4, 6, 8 e 10

imagens LR, reconstrução NC. ................................................................................................ 95

FIG. 4.16 Resultado dos mapas de similaridades (SSIM_map) do experimento 3 para a

IMG0744, registro KE, 6 imagens LR, reconstrução INT, NC, POCS e IBP_R. .................... 95

FIG. 4.17 Resultado dos mapas de similaridades (SSIM_map) do experimento 4, registro VA,


FIG. 4.18 Resultado dos mapas de similaridades (SSIM_map) do experimento 4, registro VA,

reconstrução NC, aplicados a conjuntos de 4 imagens LR (esquerda) e 10 imagens LR

(direita). .................................................................................................................................... 97

FIG. 4.19 Resultado dos mapas de similaridades (SSIM_map) do experimento 4 para

conjuntos de 10 imagens, registro KE (esquerda), VA (direita), reconstrução NC. ................ 98

12

FIG. 4.20 Resultado dos mapas de similaridades (SSIM_map) do experimento 4, registro

manual (0,5 pixel) aplicados a conjuntos de 4 imagens LR, reconstrução INT, NC, POCS e

IBP_R. ...................................................................................................................................... 99

FIG. 4.21 Resultado dos mapas de similaridades (SSIM_map) do experimento 5, registro CA,

aplicados a conjuntos de 4 imagens LR, reconstrução MAP_GC(esquerda), MAP_TV(direita),

MAP_SD (acima). .................................................................................................................. 100

FIG. 4.22 SSIM_Map gerado a partir de 80 imagens LR, registro FO, reconstrução (da

esquerda para a direita, de cima para baixo) (1) SAD, (2) Bilateral SAD, (3) S&A com

remoção de borramento iterativa, (4) Bilateral SAD com remoção de borramento iterativa, (5)

Mediana SAD, (6) Mediana SAD com remoção de borramento iterativa. ............................ 102

FIG. 4.23 SSIM_Map gerado a partir de 80 imagens LR, registro FO, reconstrução (da

esquerda para a direita, de cima para baixo) (7) SAD com norma L2 iterativa, (8) SAD com

norma L1 iterativa, (9) SAD com Norma L2 e com regularização L1, (10)IBP_R com

regularização L2, (11) IBP_R com regularização L1, (12) Interpolação com spline cúbica. 103

FIG. 4.24 SSIM_Map gerado a partir de 10 imagens LR (esquerda) e 80 imagens LR (direita)

registro FO, reconstrução SAD_N2L1. .................................................................................. 104

FIG. 4.25 SSIM_Map gerado a partir de conjuntos de imagens LR, registro FO, reconstrução

ITER_SAD. (a) 10 imagens, (b) 20 imagens, (c) 40 imagens e (d) 80 imagens. ................... 105

FIG. 4.26 Imagem SR resultante do vídeo gerado pelo VANT Arara-M1, através do método

MAP_GC. ............................................................................................................................... 108

FIG. 4.27 Imagem SR resultante do vídeo gerado pelo VANT Carcará, através do método

MAP_GC. ............................................................................................................................... 109

FIG. 4.28 Imagem SR resultante do vídeo gerado pelo VANT RQ450, através do método

MAP_GC. ............................................................................................................................... 110

FIG. 4.29 Imagem SR resultante do vídeo gerado pelo VANT LANU, através do método

MAP_GC. ............................................................................................................................... 111

FIG. 4.30 Imagem SR resultante do vídeo gerado pelo VANT VT-15, através do método

MAP_GC. ............................................................................................................................... 112

FIG. 4.31 Posicionamento do recorte a11. (sendo IMG0570 a matriz Aij, 9x9). ................. 113

FIG. 4.32 Mosaicagem de imagens a partir de dados simulados (imagem fonte HR

IMG0570). (esquerda) Imagem Original, dividida em 9 partes iguais (direita) mosaicagem das

SR. .......................................................................................................................................... 113

FIG. 4.33 Aplicação de técnicas de SR na construção de mosaicos. (esquerda) mosaico LR,

(direita) mosaico HR através do método NC. ........................................................................ 114

FIG. 4.34 (acima, esquerda) mosaico de imagens LR (93x64), (acima, direita) zoom 10x

aplicado ao mosaico, (abaixo) mosaico HR (1269x506) a partir do método de SR

(CA+MAP_GC). .................................................................................................................... 114

13

FIG. 7.1 (acima) cálculo da matriz de homografia que relaciona os

pontos. (abaixo) estabelecimento da correspondência entre as imagens (CAPEL, 2001). .... 132

FIG. 7.2 Um exemplo do método IBP (PARK ET AL., 2003). ............................................ 135

FIG. 7.3 Relacionamento entre a matriz de reamostragem DT e a matriz de subamostragem D

(FARSIU ET AL., 2004c). ..................................................................................................... 137

FIG. 7.4 Projeção em conjuntos convexos (TELLES, 2008). ............................................... 140

FIG. 7.5 Fusão de imagens no padrão Bayer (adaptado de FARSIU ET AL., 2006d). ........ 147

14

LISTA DE TABELAS

TAB. 2.1 Especificações do voo fotogramétrico. ................................................................... 48

TAB. 3.1 Informações pertinentes aos VANT contemplados neste trabalho. ........................ 68

TAB. 3.2 Detalhes referentes à aquisição das amostras de insumos VANT. ......................... 69

TAB. 3.3 Detalhes referentes às imagens do VANT ARARA M1 utilizadas na simulação das

imagens LR. ............................................................................................................................. 70

TAB. 4.1 Classificação dos algorítmos de registro na SRA. .................................................. 86

TAB. 4.2 Resultado do registro KE para um conjunto de 10 imagens LR, reconstrução INT,

NC, POCS, IBP_R. .................................................................................................................. 90

TAB. 4.3 Resultado registro KE para um conjunto de 10 imagens LR a partir da IMG0570,

reconstrução INT, NC, POCS, IBP_R. ................................................................................... 93

TAB. 4.4 Resultado registro KE para conjuntos de imagens LR a partir da IMG0744,

reconstrução INT, NC, POCS, IBP_R. ................................................................................... 96

TAB. 4.5 Resultado registro VA, reconstrução INT, NC, POCS e IBP_R. ........................... 98

TAB. 4.6 Resultado registro manual (0.5 pixel), reconstrução INT, NC, POCS e IBP_R. ... 99

TAB. 4.7 Resultado registro CA, reconstrução MAP_SD, MAP_GC e MAP_TV. ............ 101

TAB. 4.8 Resultado do método SAD_N2L1, registro FO aplicado a conjuntos de 10, 20, 40 e

80 imagens. ............................................................................................................................ 104

TAB. 4.9 Resultado do método ITER_SAD, registro FO, aplicado a imagens coloridas. ... 106

TAB. 4.10 Resultado do Mean Opinion Score VANT Arara-M1. ....................................... 108

TAB. 4.11 Resultado do Mean Opinion Score VANT Carcará. ........................................... 109

TAB. 4.12 Resultado do Mean Opinion Score VANT RQ450. ............................................ 110

TAB. 4.13 Resultado do Mean Opinion Score VANT LANU. ............................................ 111

TAB. 4.14 Resultado do Mean Opinion Score VANT VT-15. ............................................. 112

TAB. 4.15 Avaliação dos métodos NC e MAP_GC aplicado a imagens LR´s simuladas a

partir da IMG_a11. ................................................................................................................. 115

TAB. 4.16 Avaliação do mosaico gerado a partir de 3 images SR. ...................................... 115

TAB. 4.17 Avaliação do mosaico gerado a partir de 6 imagens SR. .................................... 115

15

LISTA DE ABREVIATURAS

BTV - Bilateral Total Variation

CCD - Charge Coupled Device

DIGICAM - Digital Camera

EQ. - Equação

FIG. - Figura

GD - Gradient Descent

GPS - Global Positioning System

HR - Hight Resolution

IBP - Iterative Back Projection

INS - Inercial Navigation System

LR - Low Resolution

LSI - Linear Shift Invariant

LSV - Linear Shift Variant

MAP - Maximum a Posteriori

MPS - Mission Planning System

MTF - Modulation Transfer Function

NC - Normalized Convolution

POCS - Projection Onto Convex Sets

PSF - Point Spread Function

PSNR - Peak Signal-to-Noise Ratio

ROI - Region of Interest

SD - Steepest Descent

SSIM - Structural Similarity Index

SAD - Shift-and-Add

SR - Super-Resolução

TAB. - Tabela

TV - Total Variation

VAD - Videografia Aérea Digital

VANT - Veículo Aéreo Não-Tripulado

16

LISTA DE SIGLAS

AFA Academia da Força Aérea

AMAN Academia Militar das Agulhas Negras

CPRM Companhia de Pesquisa e Recursos Minerais

CTA Centro Tecnológico da Aeronáutica

CTEx Centro Tecnológico do Exército

DSG Diretoria de Serviço Geográfico

EB Exército Brasileiro

EPFL École Polytechnique Fedérale de Lausanne

FAB Força Aérea Brasileira

IBGE Instituto Brasileiro de Geografia e Estatística

IME Instituto Militar de Engenharia

INPE Instituto Nacional de Pesquisas Espaciais

LSU Lousiana State University

MB Marinha do Brasil

NASA National Aeronautics and Space Administration

SGB Serviço Geológico do Brasil

UCLA University of Califórnia, Los Angeles

UNESP Universidade Estadual Paulista

17

RESUMO

Os VANTs já são uma realidade no âmbito do Ministério da Defesa (MD) e nos últimos cinco

anos têm sido empregados em operações de vigilância e reconhecimento. Essas aeronaves são

equipadas com sistemas de posicionamento por satélites e inerciais além de possuir câmaras

que geram imagens de foto (armazenada) e vídeo (transmitidas em tempo real). A resolução

espacial de uma imagem depende do sensor do sistema de aquisição. Várias técnicas

aumentam a resolução espacial de um sistema de imageamento, sendo uma delas a Super-

Resolução (SR), que consiste basicamente de uma etapa de registro seguida de uma etapa de

reconstrução. Uma vez que a banda passante para a transmissão de uma imagem, ou vídeo,

mesmo codificado com algum padrão de compressão, é bastante alta, a idéia é

adquirir/transmitir, em tempo real, imagens/vídeos com baixa-resolução (LR), consumindo

assim menos bits, e utilizar as técnicas de SR para gerar as versões em resoluções mais altas

(HR). Essa pesquisa tem por objetivo apresentar uma proposta de metodologia de obtenção de

imagens HR aplicadas a sequências de imagens aéreas LR oriundas de distintos sistemas

sensores, embarcados em VANTs, que figuram no contexto operacional do MD utilizando

técnicas de SR. Foram utilizadas amostras de imagens adquiridas durante voos experimentais

de cinco VANTs em regiões e épocas distintas. As imagens obtidas por câmara fotográfica

foram adquiridas com visada nadir e as de vídeo foram adquiridas com visada oblíqua e zoom

variante. Na revisão bibliográfica foram abordados alguns aspectos relevantes referentes à

estrutura de imagens digitais, SR, aerofotogrametria, videografia aérea digital (VAD) e as

possibilidades de inter-relacionamento entre essas técnicas. A metodologia é constituída pelas

seguintes etapas (a) geração de imagens LR simuladas a partir de uma imagem HR ground-

truth; (b) avaliação dos métodos de registro e reconstrução quando aplicados a dados

simulados; (c) avaliação das imagens HR resultantes através de métricas objetivas PSNR e

SSIM; (d) aplicação aos dados reais (sequência LR de vídeo) dos métodos que apresentaram

melhores resultados com os dados simulados; (e) avaliação das imagens HR resultantes

através do teste subjetivo MOS, em virtude de não haver imagem de referência para

comparação; (f) construção de um mosaico, no qual conceitos de videografia aérea foram

utilizados na obtenção de imagens HR, geradas através do método que obteve melhores

resultados nos exprimentos anteriores. Foram utilizados os métodos de registro e de

reconstrução mais consagrados pela literatura, implementados em três distintas interfaces

gráficas para usuários desenvolvidas em laboratórios acadêmicos de Processamento Digital de

Imagens (PDI), no ambiente MATLAB. Constatou-se que para dados reais e simulados o

processo de SR deve ser diferenciado em função de características dos métodos de registro e

reconstrução. Uma das conclusões obtidas é que os métodos de reconstrução baseados em

modelos matemáticos que possuem termos de regularização apresentam superioridade quando

comparados com métodos convencionais. Outra importante conclusão é que o sucesso das

técnicas de SR, assim como a videografia aérea digital (VAD), dependem do total controle de

atitude do movimento do sensor e da plataforma, quanto maior o planejamento da aquisição

(projeto de voo), mais parâmetros são conhecidos acerca do movimento e maiores são as

possibilidades de identificação e posicionamento de alvos. Com a experiência adquirida,

juntamente com a bibliografia indicada, conclui-se que insumos produzidos pela videografia

realizada pelos VANTs, associados a técnicas de SR, produzem relevantes contribuições na

obtenção de informações do terreno e no apoio ao processo cartográfico em geral.

18

ABSTRACT

The UAV are already a reality within the Ministry of Defence (MD) and in the last five years

have been used in surveillance and reconnaissance operations. These aircraft are equipped

with satellite positioning systems and inertial addition to having cameras generate photo

images (stored) and video (broadcast in real time to a ground control station). The spatial

resolution of an image (or video) depends on the sensor acquisition system. Several

techniques increase the spatial resolution of an imaging system, one of the Super-Resolution

(SR), which basically consists of a registration step followed by a phase of reconstruction.

Since the bandwidth for the transmission of an image, or video, even if codified into a pattern

of compression is high enough, the idea is to acquire/transmit real-time image/video with low-

resolution (LR) thus consuming fewer bits, and use techniques to generate the SR versions at

higher resolutions (HR). This research aims to propose a method of obtaining images with

high resolution (HR) sequences applied to aerial images of low resolution (LR) originating

from different sensor systems, embedded in UAV, which are included in the operational

context using the MD SR techniques. Samples of images acquired during experimental flights

of five UAV in different regions and eras. The images obtained by camera were acquired with

nadir sight and video were acquired with oblique target and zoom variant. Were addressed in

the literature review some relevant aspects related to the structure of digital images, SR, aerial

photography, digital aerial videography (VAD) and the possibilities of inter-relationship

between these techniques. The methodology is the following steps (a) generation of

simulated LR images from an HR image called "true" (b) evaluation of methods of recording

and reconstruction when applied to simulated data, (c) evaluation of HR images derived

through objective metrics PSNR and SSIM (d) application to real data (LR video sequence)

the methods that produced best results with the simulated data, (e) evaluation of the images

through the HR resulting MOS subjective test because they do not be the reference image for

comparison, (f) case study, in which concepts of aerial videography were used to construct a

mosaic from HR images generated by the method achieved better results in previous trials.

The methods most recommended by literature were used to register (KE, VA, MA, LU, FOR

and CA) and reconstruct (IBP, POCs, NC, SAD and MAP), implemented in three different

graphical user interfaces (SRA, and SRT MDSP), developed in academic laboratories of PDI,

in MATLAB. We emphasize the superiority of the registration method CA and reconstruction

method MAP_GC for real data. For the simulated datas, stood out the registration FO and

reconstruction SAD_N2L1 for images in grayscale and for color images reconstruction

ITER_SAD. One of the conclusions reached is that the reconstructions methods SAD

MAD_GD, NC, which are based on mathematical models that have terms of regularization,

have superiority when compared with conventional methods and IBP_R POCs. Another

important conclusion is that the success of SR techniques as well as Digital aerial

videography (DAV) depend on the total attitude control of the motion sensor and platform

the higher the acquisition planning (flight design), more parameters are known about the

movement and greater the chances of identification and positioning of targets. With

experience, along with the literature indicated, it is concluded that inputs produced by the

videography done by UAVs, associated with SR techniques, produce relevant contributions in

obtaining the land information and mapping support to the process in general.

19

1 INTRODUÇÃO

Atualmente o conhecimento tecnológico tornou-se um dos bens mais valorizados. Quem

o tem exerce algum tipo de poder sobre quem não o possui, seja nos campos político, militar,

econômico e social. O alto custo e a dependência da obtenção do conhecimento tecnológico a

partir de outros países são fatores importantes a serem considerados pelo Exército Brasileiro e

e pelas empresas em geral.

No contexto anteriormente descrito, pode-se afirmar que o fornecimento de imagens

digitais adquiridas através de satélites imageadores de alta resolução (pixel menor que 1 m)

seria uma solução para o mapeamento do Território Brasileiro, mas, novamente, a

dependência da tecnologia estrangeira e a cadeia de suprimento para obtenção dessas imagens

em tempo hábil devem ser analisadas. Segundo FERREIRA (2001), mesmo com a resolução

submétrica dos novos satélites, os processos de produção de cartas em escalas cadastrais

continuarão a ser feitos por Aerofotogrametria devido a vários fatores de ordem técnica, a

exemplo da precisão final requerida para a carta. Outro aspecto a ser levantado é a dificuldade

de aquisição de imagens da região amazônica por satélites imageadores que operam na região

do espectro eletromagnético visível ou infravermelho, por causa das nuvens, principalmente

no período de chuvas (6 meses do ano).

O pixel é o menor elemento de uma imagem digital, quanto mais pixels utilizados para

representar uma imagem, mais essa imagem se aproxima ou se “assemelha” ao objeto original

- teoricamente esse conceito está associado à qualidade. O número de pixels em uma imagem

também se associa ao conceito de resolução. A resolução espacial ou geométrica de uma

imagem é a capacidade de registrar detalhes em uma cena (CHAUDHURI, 2001).

Atualmente são adquiridas câmaras de vídeo digitais convencionais com resolução

espacial da ordem de dezenas de mega pixels, a preços acessíveis, proporcionando condições

para o estudo de suas potencialidades, principalmente para a área da Videografia digital.

Segundo NEWCOME (2004), uma plataforma alternativa capaz de acoplar sensores para

a obtenção de imagens do terreno são os Veículos Aéreos Não-Tripulados (VANTs). Esses

veículos, em sua grande maioria, são dotados de sistemas GPS (Sistema de Posicionamento

Global) e INS (Sistema de Navegação Inercial), além de câmaras de vídeo e fotográficas que

fornecem dados georreferenciados em tempo real para uma base em solo.

20

Os VANTs são uma realidade para o Ministério da Defesa desde os anos 80 em projetos

como o Acauã (BRASIL, 2004), desenvolvido pelo Centro Tecnológico da Aeronáutica em

1984, abandonado em 1988, retomado em 2004 e concluído em junho de 2010.

Pode-se citar também o projeto do alvo aéreo Harpia, desenvolvido pela Marinha do

Brasil no ano de 2005. Atualmente no âmbito da Força Terrestre, o VANT figura oficialmente

em Linhas de Pesquisa e em projetos tais como o Projeto VANT VT-15 do Exército

(PEREIRA, 2008). Um dos requisitos fundamentais dos VANTs é a sua independência de

controle externo, ou seja, a autonomia suficiente para se deslocar em segurança e reagir

adequadamente frente às situações mais diversas em imprevistos (BRASIL, 2009).

No entanto, um problema comum é o uso de imagens de baixa resolução espacial, o que

dificulta a visualização precisa de detalhes dos fenômenos imageados. A análise de imagens é

fundamental para sistemas de planejamento de missão (MPS) de VANTs, possibilitando ações

de reconhecimento, controle e mobilidade (NEWCOME, 2004).

A resolução de uma imagem depende da resolução do dispositivo de aquisição. Aumentar

a resolução do sensor de imagem é claramente um modo de aumentar a resolução da imagem

adquirida. No entanto, deve-se ressaltar que para o caso dos VANTs existe a limitação da

banda-passante para transmissões em tempo real.

Super-resolução (SR) é o nome das técnicas que aumentam a resolução espacial de um

sistema de imageamento através de um conjunto de imagens baixa-resolução (LR). Pode ser

formado através de conjuntos extraídos de uma aquisição contínua de vídeo ou adquirido por

múltiplos sensores capturando uma mesma cena durante certo período de tempo.

Esta técnica permite que imagens ou vídeos de baixa resolução espacial, que podem ser

comprimidos e transmitidos a taxas de bits bem menores do que vídeos os imagens em alta

resolução, sejam posteriormente processadas em resoluções mais altas. A finalidade é gerar

uma imagem de alta resolução (HR) a partir de uma sequência LR sem introduzir artefatos

como borramento, uma vez que são empregadas técnicas de interpolação. Na verdade, não se

pode criar a informação perdida na aquisição da cena LR, ou seja, detalhes existentes na cena

que se adquiridos em resoluções mais altas poderiam ser percebidos serão perdidos na versão

LR. As técnicas de SR inferem os eventuais detalhes perdidos para criar uma imagem em HR.

21

1.1 OBJETIVO

O objetivo dessa dissertação é desenvolver uma metodologia para a construção de

imagens de super-resolução (SR) a partir de dados reais e simulados de sistemas sensores

visuais embarcados em VANTs. Os sensores contemplados serão câmaras de vídeo e

fotográfica.

1.2 JUSTIFICATIVA

Alguns esforços estão sendo feitos no sentido de proporcionar uma solução para a

obtenção de imagens de regiões de interesse da Força Terrestre com um nível de

detalhamento que permita sua utilização em diversas atividades, tais como: identificação de

alvos, atualização cartográfica, geração de mosaicos, construção de modelos digitais de

superfície, cartas-imagem entre outros.

No entanto, para atingir esse objetivo, é necessária a integração de diversas instituições

de ensino e pesquisa do país, dos componentes do Sistema Cartográfico Brasileiro, órgãos

federais de planejamento e gestão, além de empresas na área de Geoprocessamento e

Aerolevantamento. Nesse sentido, destacam-se os seguintes projetos: GEOMA (INPE, 2006);

Radiografia da Amazônia (DSG, 2010); e Mapeamento Móvel (OLIVEIRA, 2001), além de

acordos de cooperação técnica com as empresas AGX tecnologia e Flight Technologies.

O Projeto GEOMA, do Instituto Nacional de Pesquisas Espaciais (INPE), realizado em

maio a junho de 2006 teve por objetivo realizar um sobrevoo de reconhecimento para coletar

dados e identificar alvos da superfície terrestre da região Amazônica. Aeronaves estáveis e

tripuladas foram embarcadas com câmaras de vídeo associadas a sistemas GPS e INS, além de

câmaras fotográficas para controle da posição. A partir de insumos de vídeo foram gerados

mosaicos de toda a região sobrevoada (INPE, 2006).

O projeto MAPEAMENTO MÓVEL é desenvolvido desde 1997 pelo Departamento de

Cartografia da Universidade Estadual Paulista (UNESP). Basicamente “consiste de uma

plataforma móvel, em geral, um veículo automotor, que recebe distintos sensores de

navegação, de posicionamento, de mensuração e de aquisição de imagens que são integrados

em um sistema que produz imagens georreferenciadas dos lugares por onde transita”

(OLIVEIRA, 2001).

O projeto RADIOGRAFIA DA AMAZÔNIA (DSG) é o projeto do Radar da banda “P”

aerotransportado, coordenado pelo Censipam e realizado em parceria com Exército, Marinha,

22

Aeronáutica e Companhia de Pesquisa e Recursos Minerais (CPRM). A proposta é cobrir os

“vazios cartográficos” da região amazônica, uma vez que a banda P penetra nas copas das

áreas e fornece o real relevo da floresta. Esse é um perfeito exemplo da necessidade da Força

Terrestre em imagear áreas de difícil acesso. Vislumbra-se do projeto um VANT-SAR

projetado pela empresa AGX, especificamente para receber um radar, que possa ser lançado

em condições extremas de dificuldade e sem risco de vida para a tripulação (DSG, 2010).

As empresas AGX Tecnologia e Flight Technologies, desde 2007, possuem acordos de

cooperação técnica com o Exército Brasileiro referente ao fornecimento de tecnologia de

aviônicos e sistemas em VANTs. Essas empresas operam em esferas distintas, sendo a AGX

operante junto à Artilharia Divisionária em operações de localização e reconhecimento de

alvos, com operacionalidade testada em operações anuais desde 2007. Já a Flight possui

acordo de cooperação referente à construção junto ao CTEx do VANT VT-15, ilustrado na

FIG. 1.1, com alcance de 15 km (BRASIL, 2009).

FIG. 1.1: VANT VT-15 (CTEx, 2010).

Após situar os principais projetos em andamento e vislumbrar as suas potencialidades,

constata-se que o aproveitamento cartográfico de imagens obtidas a partir de câmaras de

vídeo embarcadas em VANTs são de grande importância para a concepção de um sistema de

imageamento videográfico de baixo custo, quando comparado à cobertura fotogramétrica ou à

imagens de satélite.

Para tal devem ser considerados os seguintes fatores: (1) em todos os projetos descritos,

trabalha-se com câmaras de vídeo e/ou fotográfica; (2) quanto maior a resolução espacial da

imagem, maior o detalhamento em relação à cena original; (3) o aumento da resolução

engloba a elevação significativa da quantidade de dados a serem armazenados e/ou enviados

na transmissão, esbarrando, assim, em limitações de disponibilidade de espaço e de banda.

Uma alternativa para solucionar esse tipo de problema, ilustrado na FIG. 1.2 é aplicar

técnicas de super-resolução a imagens selecionadas da seqüência de vídeo com resolução

espacial reduzida. Dessa maneira, a análise das imagens oriundas de dados de câmaras de

23

vídeo embarcadas em VANTs poderia ser otimizada pela aplicação de técnicas de SR com

vistas à reconstrução da cena.

FIG. 1.2: Amostras de imagens da câmara Axis 233D doVANT VT-15 (CTEx, 2010).

1.3 DESCRIÇÃO GERAL DO TRABALHO

O presente trabalho é descrito nos seguintes capítulos

Capítulo 2: neste capítulo são abordados fundamentos teóricos sobre imagens digitais,

super-resolução e suas tendências atuais, voo fotogramétrico e voo videográfico, conceitos

estes necessários à compreensão do desenvolvimento do trabalho.

Capítulo 3: apresenta os materias que foram utilizados na realização do trabalho bem

como a metodologia utilizada na elaboração das etapas para a geração de imagens de SR. Este

capítulo apresenta também os conceitos que envolvem os critérios de avaliação da qualidade

das imagens super-resolvidas. Os critérios abrangem métodos subjetivos visuais estabelecidos

por normas internacionais tais como o MOS (ITU-R 500-5) e métricas objetivas tais como o

PSNR e o SSIM (WANG ET AL., 2004).

Capitulo 4: são apresentados os resultados dos experimentos propostos pela metodologia

no processo de geração das imagens e do mosaico de SR, explicitada no capítulo anterior,

obtidas a partir de sequências de imagens simuladas LR e de sequências de imagens de vídeo.

Capitulo 5: são apresentadas as conclusões retiradas a partir da análise dos resultados

obtidos e propostas para trabalhos futuros.

24

2 SUPER-RESOLUÇÃO E VIDEOGRAFIA AÉREA DIGITAL: ASPECTOS

RELEVANTES

Neste capítulo são abordados fundamentos teóricos sobre imagens digitais, Super-

Resolução e suas possíveis aplicações à Videografia Aérea Digital (VAD), conceitos estes

necessários à compreensão do desenvolvimento da pesquisa.

2.1 IMAGENS DIGITAIS

Segundo IMAGE FUSION (2008) as imagens HR e os vídeos são matéria básica para as

áreas de análise e processamento de imagens digitais. A obtenção de imagens HR possui dois

grandes objetivos: melhoramento das informações para interpretação humana e auxílio à

representação para a percepção automática em ambientes computacionais. A resolução

descreve os detalhes contidos em uma imagem: quanto maior a resolução, mais detalhes na

imagem. A resolução de uma imagem digital pode ser classificada da seguinte maneira:

resolução espacial, resolução espectral, resolução temporal e resolução radiométrica. No

contexto dessa pesquisa, se está interessado principalmente na resolução espacial.

Resolução espacial: uma imagem digital é composta de pequenos elementos de imagem

chamados de pixels. Resolução espacial refere-se à densidade de pixels em uma imagem em

medidas de pixels por unidade de área. A FIG 2.1 mostra um alvo clássico para determinação

da resolução espacial de um sistema de imagem.

FIG. 2.1: Alvo teste de resolução da ISO 12223 utilizado para determinar a resolução

espacial de sistemas e sensores de imageamento (ISO 12223).

25

A resolução espacial é limitada pelo dispositivo de aquisição. Os sensores utilizados

atualmente são: Charge Coupled Device (CCD) e o Complementary Metal Oxide

Semiconductor (CMOS). O tamanho do sensor e o número de elementos sensores por unidade

de área determina a resolução espacial da imagem no instante da aquisição. Uma imagem

desse sistema com detectores pequenos ou em pouca quantidade gera imagens de baixa

resolução (LR) com artefatos, devido ao aliasing. A FIG 2.2 ilustra o efeito visual da

resolução espacial, quanto menor o tamanho do pixel maior o detalhamento na imagem.

FIG. 2.2: Degradação da resolução espacial. (INTERGRAPH, 2011)

A imagem digital pode sofrer um processo de degradação (FIG. 2.3) de sua qualidade

devido a alguns fatores, como, por exemplo:

Aberrações das lentes da câmara, que causam um efeito de borramento circular;

Focalização incorreta, o que ocorre quando o sensor não está corretamente

posicionado no plano da imagem;

Deslocamento do sistema sensor durante a aquisição da imagem, o que causa o

chamado arrastamento;

Deslocamento de um objeto da cena, o que causa um borramento equivalente ao

arrastamento;

Deficiência ou excesso de iluminação;

Espalhamento atmosférico.

26

FIG. 2.3: Processo de degradação da qualidade, adaptado de PARK ET AL. (2003).

Uma cena de vídeo natural é espacial e temporalmente contínua (não amostrada). A

digitalização de um vídeo requer a amostragem temporal, que divide o vídeo em uma

sequência de imagens estáticas (quadros ou frames), e a amostragem espacial (que divide cada

imagem em pontos, denominados picture elements ou simplesmente pixels) conforme ilustra a

FIG. 2.4. Cada pixel é representado como um número ou conjunto de números que descreve o

brilho (luminância) e a cor (crominância) dessa amostra. A quantidade de pixels em cada

imagem define a resolução espacial do vídeo, enquanto a quantidade de quadros por segundo

define a resolução temporal.

FIG. 2.4: Amostragem temporal e espacial de uma sequência de vídeo.

27

Quanto maior a resolução espacial de um vídeo, maior o detalhamento em relação à cena

original. Um problema quanto ao aumento da resolução engloba a elevação significativa da

quantidade de dados a serem armazenados e/ou enviados na transmissão, esbarrando, assim,

em limitações de disponibilidade de memória e de largura de banda. Uma alternativa para

contornar essas limitações é utilizar todos os quadros com resolução mais baixa

(consequentemente perdendo detalhes) ou utilizar somente alguns quadros com grande

resolução espacial e os outros quadros da sequência de vídeo com resolução espacial

reduzida, desse modo, preservando o máximo detalhamento em alguns dos quadros, ou ainda

comprimir os vídeos com sistemas de compressão consagrados tais como o H264/AVC

(RICHARDSON, 2010). No entanto, esta alternativa pode introduzir artefatos (elementos

indesejáveis nas imagens).

2.2 SUPER-RESOLUÇÃO

Foi visto no tópico anterior que a resolução espacial está diretamente ligada à quantidade

de pixels existentes no sensor, bem como ao tamanho do pixel, que depende das

características do sensor.

De acordo com MILANFAR (2010), Super-Resolução (SR) são técnicas que constroem

imagens de alta resolução (HR) a partir de várias imagens LR observadas, aumentando assim

os componentes de alta freqüência (que fornecem os detalhes finos da imagem) e removendo

as degradações causadas pelo processo de imageamento da câmara de baixa resolução. A

idéia básica por trás de SR é combinar as informações não redundantes contidas em várias

imagens LR para gerar uma imagem HR.

Para cenas estáticas (FIG. 2.5) as observações são relacionadas por deslocamentos

globais em nível de fração de pixel (geralmente ocorrendo devido a posições relativas das

câmaras ou movimento do próprio sensor). As cenas dinâmicas (FIG. 2.6) são relacionadas a

deslocamentos de subpixel devido a movimento local dos próprios objetos, juntamente com

deslocamentos globais (CAPEL, 2001). Em ambos os casos o objetivo da SR é utilizar o

conjunto de imagens de baixa resolução ou de quadros numa sequência para gerar uma

imagem com maior resolução espacial (FIG. 2.7).

28

FIG. 2.5: Uma cena estática de vídeo (esquerda); após equalização de histograma a placa do

automóvel continua ilegível devido ao ruído natural da imagem (direita), adaptado de CAPEL

(2001).

FIG. 2.6: Captura da região de interesse (esquerda); a SR estima a cena subjacente a

partir de 50 imagens (direita); adaptado de CAPEL (2001).

FIG. 2.7: Legibilidade da placa como resultado da media do conjunto cada vez maior de

imagens, adaptado de CAPEL (2001).

29

Uma técnica intimamente relacionada com SR é a interpolação de imagem, que pode ser

usada também para aumentar o seu tamanho. No entanto, uma vez que não há nenhuma

informação adicional fornecida, a qualidade da interpolação de uma única imagem é muito

limitada, devido a natureza 1mal-condicionada do problema. Nestes casos pequenas alterações

nos dados de entrada geram grandes alterações nos resultados, dessa maneira as componentes

de freqüência perdidas não podem ser recuperadas. Como na SR existem várias observações

disponíveis para a reconstrução, o problema torna-se mais restrito.

As informações não redundantes contidas nas imagens LR são normalmente oriundas do

deslocamento subpixel entre elas (FIG. 2.8). Estas mudanças a nivel de subpixel podem

ocorrer devido a movimentos descontrolados entre o sistema de imageamento e a cena, como

por exemplo, os movimentos de objetos, ou devido a movimentos controlados, como por

exemplo, o sistema de imageamento de satélites que orbitam ao redor da Terra com uma

trajetória e velocidade pré-definidas. Cada quadro LR é uma decimação, uma observação que

apresenta aliasing da cena real. A SR só é possível se existir movimentos subpixel entre esses

quadros LR, sendo assim o problema chamado mal-condicionado pode ser mais bem-

condicionado. (MILANFAR, 2010).

A FIG. 2.9 mostra um diagrama simplificado descrevendo a idéia básica da reconstrução

através da SR. No processo de imageamento a câmara captura vários quadros LR, que são

subamostrados da cena de HR com deslocamento de subpixel (fração de pixel) entre si. A SR

inverte este processo, alinhando (registrando) as LR com precisão subpixel e os combina em

uma grade de HR (Interpolação), superando desta maneira a capacidade de resolução do

sensor.

1 Problemamal-condicionado: um problema que não tem solução ou tem mais de uma solução e depende de poucos dados contendo alguns

erros de aproximação ou de medição, ou corrompido por ruído e/ou outras perturbações, que vão dificultar o seu tratamento matemático.

30

FIG. 2.8: Premissa básica para a SR (PARK ET AL., 2003).

Do que foi apresentado anteriormente pode-se resumir então a estratégia geral que

caracteriza a super-resolução em três grandes passos (FIG. 2.9):

1. Aquisição de imagens LR: Aquisição de uma seqüência de imagens LR da mesma cena

com deslocamentos geométricos não inteiros (em termos de distâncias interpixel) entre

qualquer uma das duas imagens.

2. Registro de imagem / compensação de movimento: Estimativa da transformação

geométrica subpixel de cada imagem de referência no que diz respeito à grade HR de

referência desejável.

3. Reconstrução de imagens HR: Solução do problema de reconstruir uma imagem de HR

através dos dados disponíveis fornecidos pelas imagens fonte LR. Essa etapa também pode

ser dividida em uma etapa de interpolação na grade de HR e acrescida à outra etapa de

restauração para correção de foco e remoção de ruído.

31

FIG. 2.9: Esquema geral da Super-Resolução.

Os principais trabalhos de SR fazem referência ao algoritmo descrito por TSAI &

HUANG (1984). Eles descrevem um método no domínio da freqüência que é aplicada a

imagens de satélite.

Uma boa visão geral dos atuais métodos de SR é dada por BORMAN & STEVENSON

(1998). Edições especiais sobre super-resolução de imagens foram publicadas em IEEE

Signal Processing Magazine (2003) e no Journal EURASIP em Applied Signal Processing

(2005). Também foram publicadas implementações no ambiente Matlab com interface gráfica

para o usuário (GUI) de Super-Resolução. Algoritmos foram também publicados por FARSIU

ET AL. (2004a), FARSIU ET AL. (2004e), FARSIU ET AL. (2004f), VANDEWALLE ET

AL. (2007), GEVREKCI & GUNTURK (2006), ZIBETTI (2007), ZHANG ET AL. (2010),

TAKEMURA (2010), TELLES (2008) e ALMEIDA (2001).

Neste trabalho optou-se por utilizar como objeto de estudo os conjuntos de métodos

publicados por FARSIU ET AL. (2004c), VANDEWALLE ET AL. (2007) e GEVREKCI &

GUNTURK (2006), em virtude das mesmas contemplarem métodos que têm apresentado

bons desempenhos relacionados a imagens terrestres, no entanto, pouco explorados quando se

trata de imagens aéreas.

Os métodos de SR são geralmente classificados em dois grandes grupos:

Métodos no domínio da frequência: utilizam séries de Fourier e exploram problemas

na geração da amostragem (aliasing). Podemos citar o Recursive Least Square (RLS) e o

Total Least Square (LS).

32

Métodos no domínio espacial: utilizam séries de Taylor. O modelo de observação

linear do domínio espacial abrange movimento global e não global (local), borramento devido

ao sistema óptico, borramento devido ao movimento do sensor, variabilidade espacial da

função de espalhamento pontual (PSF), amostragem não ideal, artefatos oriundos do processo

de compressão, etc. A reconstrução no domínio espacial possibilita a inclusão de restrições a

priori, resultando em uma extrapolação da largura da banda no processo de reconstrução.

Observa-se na FIG. 2.9 que após a aquisição, o registro de imagens é a primeira parte da

maioria dos métodos de SR, podendo ser realizado tanto no domínio do espaço quanto no

domínio da freqüência. Métodos de registro de imagens foram pesquisados por BROWN

(1992) e por ZITOVA & FLUSSER (2003). Estão descritas a seguir algumas das técnicas

mais utilizadas no domínio espacial, posteriormente descreve-se os métodos mais utilizados

para o registro no domínio da freqüência.

Uma técnica muito utilizada é calcular os pontos característicos salientes é mapear as

funções correspondentes em diferentes imagens (CAPEL & ZISSERMAN, 2003; IRANI &

PELEG, 1991).

Outra abordagem utiliza séries de Taylor para a aproximação das imagens. Os

parâmetros de movimento são as incógnitas na aproximação e podem ser calculados a partir

do conjunto de equações que pode ser derivada a partir desta aproximação. Em virtude da

série de Taylor fornecer uma boa aproximação apenas para pequenos deslocamentos, estes

métodos de registro são geralmente aplicados iterativamente usando uma pirâmide gaussiana

(IRANI & PELEG, 1991; KEREN ET AL. 1988).

Outros métodos são baseados no cálculo de um campo de fluxo óptico (GALVIN ET

AL., 1998; LUCAS & KANADE, 1981) que pode discriminar diferentes padrões de

movimento em uma única imagem.

Os métodos no domínio da freqüência são limitados ao movimento translacional global

em um plano paralelo ao plano da imagem. Pequenos deslocamentos planares podem ser

modelados como deslocamentos de fase linear no domínio da freqüência, enquanto rotações

(no plano da imagem), no domínio espacial, correspondem a rotações no domínio da

freqüência. Além disso, os modelos de movimento mais gerais são mais dificeis de se modelar

no domínio da freqüência. Entretanto, os métodos de registro no domínio da frequência

podem ser computacionalmente muito eficientes e oferecem boas ferramentas para modelar o

aliasing.

33

Se as imagens de entrada não são subamostradas e se o movimento puder ser aproximado

por um deslocamento planar, este deslocamento pode ser calculado como a diferença de fase

linear entre as duas imagens (VANDERWALLE ET AL., 2007).

A rotação planar pode ser modelada no domínio da freqüência por uma rotação sobre o

mesmo ângulo. Estes parâmetros de deslocamento e rotação podem ser estimados

separadamente porque o deslocamento afeta apenas a informação da fase, enquanto a rotação

afeta tanto a fase quanto a amplitude da transformada de Fourier. REDDY & CHATTERJI

(1996) e MARCEL ET AL.(1997) utilizaram esses conceitos em seu algoritmo de registro de

imagens. Para estimar a rotação, eles transformaram a imagem no domínio de Fourier em

coordenadas polares, de tal forma que o ângulo de rotação é transformado em deslocamento.

Outro método de estimativa de rotação é apresentado por LUCCHESE &

CORTELAZZO (2000). Eles calcularam o ângulo de rotação pesquisando os cruzamentos

(zero crossing) entre o espectro de uma imagem e uma versão espelhada do espectro da outra

imagem. MARCEL ET AL.(1997) estimaram o deslocamento da mesma forma.

Se as imagens de baixa resolução possuem aliasing então essas relações simples não

possuem mais validade. Se parte do espectro (geralmente a baixas frequências) está livre do

aliasing, os parâmetros de mudança ainda podem ser estimados utilizando apenas esta parte.

O método para estimar a rotação baseado em baixas freqüências foi elaborado por

VANDEWALLE ET AL (2005), nesse caso, o aliasing pode ser considerado como (parte do)

ruído. Se o aliasing não pode ser negligenciado em qualquer parte do espectro, devem ser

aplicados outros métodos para que se consiga modelá-lo. Esses métodos foram apresentados

por VANDERWALLE ET AL. (2007).

A segunda parte dos métodos de super-resolução é a reconstrução, na qual uma imagem

de alta resolução é reconstruída a partir do registro de imagens LR. Uma boa visão geral é

dada por PARK ET AL. (2003). Segundo o autor, primeiramente, há um conjunto de métodos

de interpolação não uniforme que reconstrói um sinal de banda limitado em um conjunto de

amostras irregulares. Como descrito anteriormente, existem os métodos no domínio da

frequência que foram adaptados para modelar o ruído e o borramento.

Outra categoria de algoritmos de reconstrução baseia-se no método de Projeção no

conjunto convexo – POCS. Estes são algoritmos iterativos nos quais a reconstrução ocorre

sucessivamente, em diferentes conjuntos convexos representando a informação prévia sobre a

imagem HR. Depois de um número de iterações, a imagem reconstruída converge para a

imagem no cruzamento de diferentes conjuntos (PATTI ET AL., 1997).

34

Da mesma forma, os algoritmos de Iterative Backprojection (IBP) usam um modelo do

processo de imagens para estimar a imagens de baixa resolução que seria criado ao capturar a

estimativa de reconstrução em curso. A estimativa de alta resolução é então corrigida através

de um termo relativo a diferença entre as imagens LR estimadas e as reais.

ZOMET ET AL. (2001) propõem o algoritmo Robust Super Resolution que é

basicamente uma versão melhorada do Iterated Back Projection onde a única diferença reside

no fato de que ao somar todos os erros para a estimação da imagem de alta resolução, esse

método utiliza como imagem gradiente a média de todos os erros.

Uma abordagem de máximo a posteriori (MAP) também pode ser usada para a

reconstrução, este método permite facilmente adicionar diferentes prioridades na imagem

reconstruída no modelo. FARSIU ET AL. (2004) aumentou a robustez do algoritmo por

ELAD E HEL-OR (2001) substituindo a minimização da norma L2 pela minimização da

norma L1. Eles também acrescentaram um termo de regularização para estabilizar a

reconstrução.

O algoritmo Structure-Adaptive Normalized Convolution proposto por PHAM ET AL.

(2006) usa convolução normalizada para reconstruir a imagem de alta resolução. Duas opções

podem ser habilitadas para esse algoritmo robustez a ruídos que basicamente analisa todas as

imagens de baixa resolução e decide quais pixels podem estar ruidosos e não os considera no

processamento e um segundo processamento para realizar a correção de possíveis erros. Essa

segunda etapa basicamente adapta o tamanho e a orientação dos filtros gaussianos na

convolução normalizada. Isso pode resultar em uma imagem mais realçada. O

aprofundamento dos métodos abordados por este trabalho encontra-se nos APÊNDICES 7.1 e

7.2.

2.3 MODELAGEM DO PROCESSO DE AQUISIÇÃO DE IMAGENS

A solução do problema da Super-Resolução requer a modelagem da relação entre a

imagem HR e as imagens LR disponíveis, que podem ser consideradas como versões

distorcidas geometricamente e degradadas do quadro HR ideal que desejamos construir. A

primeira relação que deve ser modelada é a da transformação geométrica entre as grades LR

grades e a grade HR selecionada para expressar a imagem HR. A próxima relação é

estabelecida pela modelagem do processo de degradação que ocorre durante a aquisição da

imagem. Supõe-se que a imagem foi capturada por uma câmara fictícia perfeita com alta

resolução, pode-se supor que os quadros observados LR são o resultado de degradações desta

imagem ideal. Estes podem envolver o borramento, a subamostragem ou a presença de ruído.

35

As seções seguintes descrevem em detalhe os modelos mais comumente utilizados que

relacionam a imagem HR ideal com as imagens LR (IMAGE FUSION, 2008).

2.3.1 MODELO DE TRANSFORMAÇÃO GEOMÉTRICA - REGISTRO

Um registro de alta precisão das imagens LR em uma grade HR de referência é essencial

para o sucesso de qualquer algoritmo de SR. A precisão deste processo determina a eficiência

da reconstrução geral. O registro de imagens é um procedimento amplamente utilizado no

campo da análise de imagens (IMAGE FUSION, 2008). Embora o aprofundamento de várias

metodologias esteja além do escopo deste trabalho, alguns dos seus princípios fundamentais

são listados a seguir.

O objetivo do registro de imagens é a identificação de uma transformação geométrica

local ou global , que mapeia as coordenadas x = [x, y]T de um quadro atual para um novo

sistema de coordenadas do quadro de referência, com coordenadas x’ = [x’, y’]T:

x’= (x)

A transformação é determinada através da minimização de um critério de similaridade

entre as duas imagens. Esta medida de similaridade pode ser baseada em

1. Correlação Cruzada Normalizada;

Uma pequena janela de pontos na imagem de referência é estatisticamente

comparada com janelas de mesmo tamanho da imagem percebida. Este processo é ilustrado

na FIG. 2.10.

Considere a imagem percebida S com M linhas e N colunas, e n janelas Wz, com z = 1 a

n, com K linhas e L colunas extraídas da imagem de referência R e centrada no

ponto (az, bz). Sij (KxL) é a subimagem de S, sendo (i, j) a coordenada do canto esquerdo

superior na janela onde Sij(l, m) = S( i+l, j+m).

Para 0≤l≤K-1, 0≤m≤L-1 e 0≤i≤M-K, 0≤j≤N-L cada janela Wz é comparada a

cada subimagem Sij na imagem S. Após encontrar a subimagem Sij, cada melhor combinação

Wz e seus centros (az, bz) e (i+(K-1)/2, j+(L-1)/2) são tidos como os pontos de controle no

cálculo das transformações paramétricas.

36

FIG. 2.10: Correlação entre as imagens (FONSECA & MANJUNAH, 1996).

Em seguida os pontos de controle podem ser usados para calcular os parâmetros de

transformação. A comparação utiliza métricas de similaridade para medir a semelhança

entre duas janelas de dados e é maximizada sobre todos os prováveis pontos. Para a janela

W, e a subimagem Sij definida anteriormente, a correlação cruzada normalizada pode ser

matematicamente representada por:

( ) ∑ ∑

( ) ( )

√∑ ∑ ( )∑ ∑

( )

, (2.1)

onde

- Janela da imagem de referência;

- Janela da imagem de ajuste.

As janelas mais parecidas possuem o máximo valor R(i, j).

2. Mínimos Quadrados da Diferença de Intensidade (restrições de fluxo óptico)

Seja I (x, y, t) a intensidade da imagem no pixel (x,y) no tempo t, primeiramente é

assumido que o intervalo de tempo dt entre duas imagens é muito curto e a intensidade da

imagem não se altera neste intervalo de tempo (GALVIN ET AL., 1998; LUCAS &

KANADE, 1981).

I(x, y,t) = I(x+dx, y +dy,t +dt) (2.2)

A equação anterior pode ser expandida pela série de Taylor e reescrita como:

( ) ( )

+ O2 (2.3)

37

Aglutinando-se as duas equações eliminando O2, que são termos de alta ordem, obtém-

se:

( ) ( )

(2.4)

Eliminando o elemento comum em ambas as parcelas, obtém-se:

(2.5)

Dividindo todos os termos por dt obtém-se:

(2.6)

onde = (dx/dt , dy/dt) são os dois componentes do vetor velocidade (procurado) V.

O gradiente da função imagem nas direções x e y, (

) são denominados como .

Desta forma a equação de restrição do Fluxo Óptico torna-se:

(2.7)

3. Informação Mútua

A entropia H(X) de uma v.a. discreta X é definida por:

( ) ∑ ( ) ( ) (2.8)

Considere duas variáveis aleatórias X e Y com distribuição conjunta p(x, y) e

distribuições marginais p(x) e p(y). A informação mútua I(X;Y) é a entropia relativa entre a

distribuição conjunta e o produto das marginais:

( ) ∑ ∑ ( ) ( )

( ) ( ) ( ( )‖ ( ) ( ))

( ) [ ( )

( ) ( )] (2.9)

Grande parte dos métodos de registro consiste de quatro etapas (FIG. 2.11):

a) Detecção de pontos característicos: objetos salientes e de fácil identificação (limites,

bordas, contornos, cruzamentos de linha, cantos, etc) são manualmente ou, de preferência,

automaticamente

38

detectados para posterior processamento. Esses pontos característicos podem ser

representados por seus pontos de representação (centros da gravidade, final de linha, pontos

distintos), que são chamados pontos de controle (PCs) na literatura.

b) Correspondência entre os pontos característicos: nesta etapa, a correspondência é

estabelecida entre as características detectadas na imagem de ajuste e as detectadas na

imagem de referência. Vários pontos característicos e medidas de similaridade, juntamente

com as relações espaciais entre esses pontos, são utilizados para esse fim.

FIG. 2.11: Etapas do registro de uma imagem (ZITOVÁ & FLUSSER, 2003).

c) Estimação do modelo de transformação: são estimados o tipo e os parâmetros das

funções de mapeamento, alinhando a imagem de ajuste com a imagem de referência. Os

parâmetros das funções de mapeamento são calculados através das características de

correspondência estabelecidas.

d) Reamostragem e transformação: a imagem de ajuste é transformada através de

funções de mapeamento. Valores de imagem em coordenadas não inteiras são calculados

através de técnicas de interpolação apropriadas.

Segundo IMAGE FUSION (2008), dependendo da forma da função de transformação ,

podemos classificar as metodologias como sendo: paramétrica (global) e não paramétrica

(local).

39

2.3.1.1 ABORDAGEM PARAMÉTRICA (GLOBAL)

Neste caso, possui uma forma analítica, o que é explicitamente identificada como um

conjunto de parâmetros desconhecidos. Dois modelos paramétricos frequentemente utilizados

em SR são os seguintes:

FIG. 2.12: Tipos de transformações geométricas (PUC, 2011).

• Transformação Afim - A transformação afim possui seis parâmetros: dois de

translação, um de rotação, um de não ortogonalidade entre os eixos e dois fatores de escala

diferentes para os eixos X e Y. Este mapeamento preserva as linhas retas e os paralelismos

entre retas (OLIVEIRA, 2001). Pode ser usado para registro multivisada, assumindo que: a

distância da câmara à cena é grande em comparação com o tamanho da área digitalizada, a

câmara é ideal, a cena é plana, e a transformação geométrica entre os dois quadros é

puramente global, sem componentes locais extras.

• Transformação Perspectiva (ou projetiva) - Se a condição de distância infinita da

câmara à cena não é satisfeita, a transformação perspectiva de oito parâmetros deve ser usada

(OLIVEIRA, 2001). Este modelo descreve exatamente a deformação de uma cena plana

fotografada por uma câmara ideal, sendo que o eixo óptico da câmara não é perpendicular à

cena. O modelo perspectivo é mais abrangente e inclui o modelo afim como um caso especial.

2.3.1.2 ABORDAGEM NÃO PARAMÉTRICA (LOCAL)

Este método tenta identificar diretamente o vetor de movimento para cada pixel

individualmente. Esse processo é realizado através da minimização de uma função que avalia

40

a discrepância global entre duas imagens, usando uma das três medidas de similaridade

descritas anteriormente (correlação cruzada normalizada, restrições de fluxo óptico e

informação mútua). Tal abordagem, apesar de possuir alto custo computacional, pode

caracterizar uma ampla gama de distorções geométricas, incluindo deformações não rígidas

ou elásticas.

2.3.2 MODELOS DE DEGRADAÇÃO DA IMAGEM

2.3.2.1 BORRAMENTO

Segundo IMAGE FUSION (2008), essa fonte de degradação inclui três tipos principais

1. Embaçamento da câmara

Justificado por duas fontes de degradação: (a) imagem óptica imperfeita e (b) limitações

na capacidade de resolução do sensor, conforme especificado pela sua Função de

Transferência de Modulação (MTF). Estes dois fatores determinam uma função de

espalhamento pontual (PSF) para o sistema de imagem.

FIG. 2.13: Efeito do borramento através da Point Spread Function

(ROHAN, 2011).

Um artefato conhecido é o obscurecimento fora de foco. Este tipo de indefinição se

deve principalmente aos efeitos da abertura da câmara, que resultam em um ponto fonte que é

representado como uma estrutura contendo dados binários (BLOB). Como o conhecimento

preciso de todos os fatores que criam tais efeitos geralmente são desconhecidos (distância

focal, tamanho da abertura da câmara e forma, etc), vários modelos uniformes têm sido

adotados para aproximar as PSF, resultando em:

41

*Borramento uniforme fora de foco: Nestes modelos a desfocagem simples é encontrada

em uma variedade de sistemas de imagens como uma distribuição uniforme de intensidade

dentro de um disco circular:

h(x,y) = {

√

(2.10)

*Borramento uniforme bidimensional: Esta é uma forma mais grave de degradação que

se aproxima de um borrão fora de foco, e é utilizado em simulações:

h (x,y) = {

(2.11)

2. Dispersão atmosférica.

É uma deformação geralmente presente no caso das imagens de sensoriamento remoto e

fotogrametria, pode ser modelada por uma PSF Gaussiana:

h (x,y) =K

(2.12)

onde K é uma constante de normalização para garantir o valor unitário na integração da

PSF e σ2 é a variância que determina a dispersão da indefinição.

2. Indefinição do Movimento

Este efeito é resultado da baixa velocidade do obturador da câmara em relação ao rápido

movimento da câmara. Em geral, ele representa a média uniforme local unidimensional dos

pixels vizinhos. Um exemplo de movimento horizontal pode ser expresso por:

h (x,y) = {

(2.13)

O borramento da imagem pode ser modelado por um filtro de convolução passa baixa de

kernel que compreende todos os três processos de degradação e pode ser aproximada por uma

matriz da seguinte forma H = Hcam*Hatm*Hmovimento (Hcam a matriz de borramento que

representa o sistema da câmara; Hatm a matriz de borramento que representa o espalhamento

atmosférico; Hmovimento a matriz de borramento que representa o borramento por deslocamento

do sensor) (IMAGE FUSION, 2008).

A matriz H pode representar tanto o borramento Linear Shift-Invariant (LSI) ou Linear

Shift-Variant (LSV). Algumas das maneiras de estimar a PSF em geral incluem o uso de

42

informações do fabricante das câmaras (informação geralmente difícil de obter) ou a análise

da degradação de uma imagem de um objeto conhecido.

A metodologia de SR a partir de dados LR sem qualquer informação sobre o processo de

degradação é chamado de Blind SR e pertence ao grupo geral de técnicas de deconvolução

ditas “cegas”, onde o problema é a restauração de uma imagem original a partir de uma

observação degradada, sem qualquer informação sobre a indefinição. Métodos existentes de

deconvolução “cega” podem ser categorizados em duas classes principais:

1. Métodos que separam a identificação da indefinição como um processo separado do

processo de reconstrução;

2. Métodos que combinam a identificação da indefinição e de reconstrução em um

procedimento.

Os Métodos de deconvolução “cega” também podem ser generalizados para lidar com

múltiplas observações. A deconvolução “cega” multi-quadro é melhor na supressão de ruído e

artefatos de ponta e evita estimativas incorretas da PSF. Outras abordagens envolvem

algoritmos de maximização expectativa (EM), a fim de encontrar uma estimativa de máxima

verossimilhança dos parâmetros.

2.3.2.2 AMOSTRAGEM ESPACIAL

A subamostragem é a principal diferença entre os modelos relacionados com super-

resolução e os modelos clássicos de restauração / reconstrução de imagens. No âmbito da SR,

cada pixel da imagem LR pode ser considerado como o resultado da média de um bloco de

pixels de HR. Nestes modelos a integração espacial da intensidade de luz sobre uma região de

superfície é realizada por sensores de aquisição CCD. Uma alternativa para gerar a média de

D é considerar uma matriz de subamostragem através da realização de uma amostragem

homogênea, como mostrado na FIG 2.14.

43

FIG. 2.14 Efeito da matriz de reamostragem D-1

em uma imagem 3x3 e a matriz de

subamostragem D na correspondente imagem reamostrada 9x9. (IMAGE FUSION, 2008)

A FIG 2.15 exemplifica a amostragem espacial através de diferentes métodos de

interpolação de uma imagem, a imagem original foi ampliada cinco vezes utilizando três

técnicas diferentes de interpolação: vizinho mais próximo, bilinear, e bicúbica.

FIG. 2.15: Métodos de interpolação de uma imagem (ZITOVÁ & FLUSSER, 2003).

Imagem original

Bicúbica

Bilinear

Vizinho mais próximo

44

2.3.2.3 RUÍDO ADITIVO

Na super-resolução, assim como em outras técnicas de processamento de imagens,

geralmente assume-se que o ruído é aditivo e possui distribuição com média zero. O

pressuposto da distribuição normal do ruído não é preciso na maioria dos casos. Como

geralmente o ruído no processo de imageamento não é gaussiano (quantização, ruído da

câmara, etc). Modelá-lo de forma mais realista geraria um grande e complexo problema de

otimização, que normalmente é muito difícil de resolver. Alguns métodos utilizam o sinal

dependente do ruído, que leva a abordagens não lineares para a restauração da imagem.

2.3.3 MODELOS DE OBSERVAÇÃO DE IMAGENS UTILIZADOS EM SUPER-

RESOLUÇÃO: FORMULAÇÃO MATEMÁTICA

Segundo THILLOU & MIRMEHDI (2007) o problema da SR é geralmente modelado

como a reversão da degradação do processo de aquisição. Este é um exemplo de um problema

inverso, onde a fonte de informação (imagem de SR) é calculada a partir dos dados

observados (imagens de baixa resolução). Resolver o problema inverso geralmente requer

primeiramente a construção do modelo descrito na FIG. 2.16.

FIG. 2.16: Modelo de observação que relaciona as imagens LR à imagem HR.

A maioria dos dispositivos de imagem pode ser descrita como uma lente de câmara e de

abertura que produzem imagens desfocadas da cena, contaminadas pelo ruído adicional de

várias fontes: quantização de erros, sensor de medição ou erros do modelo. Então, para uma

imagem HR “X”, de tamanho M x N e um conjunto de k imagens LR “Yk”, o modelo de

observação pode ser expresso através do produto vetorial como sendo:

Yk= D*Bk* Wk* X + Nk (2.14)

Cena

Contínua Contínuo para

discreto sem

aliasing

Reamostragem

passa-banda

- Óptico;

- Movimento;

- Sensor PSF Etc.

- Translação;

- Rotação Etc.

Amostragem Distorções Borramento Subamostragem Yk

Ruído

Nk

45

onde:

*Wk é uma matriz de rotação e translação M x N que mapeia as coordenadas da imagem

de alta resolução para as de baixa e representa o movimento que ocorre durante a

aquisição;

*Bk é uma matriz M x N de deformação causada pelo sistema óptico, pelo movimento

relativo durante o período de aquisição e pela função de espalhamento pontual (PSF) do

sensor LR;

*D é a matriz de tamanho (M x N) ² /(L x P) sendo L um fator de subamostragem na

direção horizontal e P um fator de subamostragem na direção vertical;

*Nk é o ruído associado;

*D e Yk costumam ser os dados de entrada nos algoritmos de SR.

Usando o reordenamento de colunas e o empilhamento das equações resultantes, (2.14)

pode ser reescrita como:

Y =H*X + N (2.15)

onde H representa todas as degradações, ou seja, H = D*Bk*Wk, para todo k. A FIG. 2.15

basicamente corresponde à aplicação consecutiva das três matrizes D, Bk, Wk.

Pode-se utilizar também uma PSF contínua aplicada à imagem HR (FIG. 2.17) utilizando

o vetor de movimento dos locais das amostras LR. Então os pesos da PSF

correspondentes às imagens HR são obtidos e, finalmente, a soma dos pesos das HR é

calculada para simular as imagens LR. Repetindo esse processo para todos os locais das

amostras de baixa resolução a imagem LR é obtida. Este método é ilustrado na FIG. 2.18.

FIG. 2.17: Aplicação de uma PSF contínua. (IMAGE FUSION, 2008)

46

FIG. 2.18: Modelagem matemática da SR (IMAGE FUSION, 2008).

A super-resolução é um problema que possui um custo computacional alto. Por exemplo,

a SR de uma seqüência de frames de 50 x 50 pixel LR em uma imagem de 200 x 200 por um

fator de 4 em cada direção envolve 40.000 pixels desconhecidos. Como já mencionado, SR é

um problema inverso e mal-condicionado, devido à evidente falta de frames LR e o ruído

adicional. Portanto a matriz H é sub-determinada e as técnicas de regularização podem ser

usadas para solucionar este problema no processo de SR.

2.4 FOTOGRAMETRIA AÉREA X VIDEOGRAFIA AÉREA DIGITAL

Conhecer o espaço físico que habitamos é fundamental para o planejamento de qualquer

atividade relacionada à localização e à estratégia. Uma das maneiras de se obter esse tipo de

informação é através da visualização aérea da região da superfície física do planeta, onde se

deseja desenvolver a atividade.

Mapear uma região significa aplicar o processo cartográfico sobre uma coleção de dados

ou informações, com vistas à obtenção de uma representação gráfica da realidade

perceptível, comunicada a partir da associação de símbolos e outros recursos gráficos que

caracterizam a linguagem cartográfica (IBGE, 2011).

A fotogrametria é a ciência que extrai um conjunto de fotografias de uma região. Esses

dados são a base para a realização do mapeamento de uma determinada área. Pode se dividir

em fotogrametria métrica e interpretativa, conforme ilustra a FIG. 2.19.

47

A fotogrametria métrica permite executar medições precisas utilizando fotografias.

Embora apresente uma série de aplicações nos mais diferentes campos e ramos da ciência,

como na topografia, astronomia, medicina, meteorologia e tantos outros, tem sua maior

aplicação no mapeamento topográfico (ASPRS, 1997).

FIG. 2.19: Subdivisões da Fotogrametria (ASPRS, 1997).

A fotogrametria aérea é o processo cartográfico que adquire fotografias aéreas através de

câmaras fotogramétricas aero-transportadas (eixo óptico posicionado na vertical), utilizando-

se aparelhos e métodos estereoscópicos obedecendo a normas específicas quanto ao voo.

Inicialmente deve-se fazer o planejamento da operação, um estudo detalhado de todas as

especificações sobre o tipo de cobertura a ser executada, em seguida é relizado o voo

fotogramétrico. O conhecimento das condições climáticas e meteorológicas é fundamental

para se estabelecer o mês e dias favoráveis à realização do voo (IBGE, 2011). São

apresentadas na TAB. 2.1 as principais especificações sobre o tipo de cobertura a ser

realizado em um voo fotogramétrico.

A fotogrametria interpretativa abrange o sensoriamento remoto e a fotointerpretação,

onde informações do terreno são obtidas contínua e remotamente, podendo ser armazenadas

durante a aquisição ou transmitidas em tempo real para uma estação em solo. Essa técnica

permite que uma mesma fonte de insumos seja utilizada em distintas aplicações, tais como:

policiamento ambiental, atualização e validação de documentos cartográficos (FIG. 2.20),

estudo de vegetações etc. Nesse contexto se destaca a videografia aérea digital (VAD).

FOTOGRAMETRIA

MÉTRICA

AÉREA TERRESTRE

INTERPRETATIVA

SENSORIAMENTO REMOTO

FOTOINTERPRETAÇÃO

48

TAB. 2.1: Especificações do voo fotogramétrico.

CONDIÇÕES

NATURAIS DA

REGIÃO

APOIO

LOGÍST

ICO

CONDIÇÕES TÉCNICAS

- Local a ser

fotografado

- Área a fotografar

- Dimensões da área

- Relevo

- Regime de ventos

- Altitude média do terreno

- Variação de altura do

terreno

- Mês para execução do voo

- Nº de dias favoráveis ao

voo

- Transporte

- Hospitais

- Alimentação

- Base de operação e recursos

disponíveis

- Alternativa de pouso

- Modelo da aeronave

- Autonomia

- Teto de serviço operacional

- Velocidade média de cruzeiro

- Tripulação

- Altura e altitude de voo

- Escala das fotografias

- Superposição longitudinal e lateral

- Câmara aérea

- Tipo e quantidade de filme empregados

- Rumo das faixas

- Nº de faixas e nº de fotos

- Velocidade máxima

- Tempo de exposição ideal

- Intervalo de exposição

- Distância entre faixas

- Base das fotos

- Unidade de armazenamento OBS: As fotografias aéreas devem ser tomadas sempre com elevação do sol superior a 30º, em dias

claros, nos quais as condições climáticas sejam tais que permitam a aquisição de negativos fotográficos claros

e bem definidos, isto é, bem contrastados.

FIG. 2.20: Exemplo de possibilidades de aplicações VANT na atualização cartográfica.

Mosaico construído a partir de sequência real (amostra de vídeo VANT Arara-M1).

A VAD consiste na aquisição de imagens por câmara de vídeo aerotransportada a baixa

altitude utilizando sistema composto por câmara, GPS e altímetro interligados. O sistema

utiliza uma ou mais câmaras de vídeo, acopladas a uma aeronave, de forma a obter imagens

49

verticais. Um dos motivos para o emprego desta técnica é o seu baixo custo para a obtenção

das imagens e a rapidez com que estas podem ser capturadas, processadas e analisadas. O

produto gerado possui maior resolução espacial quando comparado com alguns sensores

orbitais tais como o CBERS e a série LANDSAT (POMPERMAYER NETO, 2002).

A VAD tem se tornado uma importante ferramenta para análise e monitoramento de

informações do terreno e tem sido amplamente utilizada na validação dos produtos gerados

por imagens orbitais.

De acordo com BITTENCOURT ET AL. (2010) as principais vantagens da VAD são:

baixo custo;

tempo real de aquisição e processamento das imagens;

capacidade de coleta dos dados nas faixas espectrais do visível ao infravermelho

próximo (0,5 a 1,2 μm) e no infravermelho médio (1,35 a 2,50 μm), com a mínima influência

atmosférica;

possibilidade de interpretação dos alvos ou das cenas diretamente no monitor do vídeo

ou em posteriores trabalhos de processamento de imagens.

A altitude de sobrevoo para levantamentos aéreos pode variar de 300m a 3.000m,

dependendo do tipo de aeronave utilizada e do tipo de sensor acoplado. Para levantamentos

por VAD de pequenas áreas ou área urbana, a altitude usual e de 600m até 1.800m. No caso

dos VANTs esses valores podem variar de 150m até 5.000m.

Os avanços nos sistemas de gravação e processamento das imagens através de

computadores têm viabilizado o uso do vídeo como sensor remoto. Para que seja possível

obter imagens métricas a partir da VAD faz-se necessário um estudo detalhado, similar ao que

é realizado no projeto fotogramétrico. Serão apresentados a seguir os dados fundamentais à

elaboração de um projeto fotogramétrico, bem como as alterações necessárias para adaptá-lo a

um projeto videográfico utilizando VANTs.

* Plano de voo: tem por objetivo selecionar e calcular os elementos para a elaboração do

mapa de voo que orientará a equipe a bordo do avião durante a cobertura aerofotogramétrica.

No caso dos VANTs esse mapa irá definir as configurações do voo autônomo e orientar o

piloto de emergência no caso de haver necessidade de assumir o comando do veículo

(remotamente). No APÊNDICE 7.4 é apresentado um modelo de formulário para o plano de

voo.

* Escala da imagem: a escala fotogramétrica advém da relação entre a distância focal e a

50

altura da aeronave em relação ao terreno, considerando a foto vertical. Estabelecendo-se o

valor da escala desejada para o projeto é possível estabelecer a que altura a aeronave deve

realizar o voo.

Para os VANTs, por ocasião de um voo de reconhecimento e vigilância (não controlado),

as imagens são oblíquas em relação ao solo, logo a formulação deve considerar o ângulo que

o eixo óptico forma com a vertical ao terreno (FIG. 2.21). Além disso, tratando-se de imagens

digitais, o termo “escala” não é aplicável. A grandeza equivalente apropriada é o Elemento de

Resolução no Terreno (ERT), conforme ilustra a FIG. 2.22. Neste caso além da distância focal

deve-se considerar também para o cálculo de H o tamanho do quadro (em pixels) o tamanho

do CCD (em mm) e a velocidade de cruzeiro da aeronave. Relações geométricas simples são

aplicáveis a esta etapa e serão demonstradas através do estudo de caso do VANT VT-15.

FIG. 2.21: Imagem vertical x Imagem oblíqua (adaptado de KRAUS, 1992).

51

FIG. 2.22: ERT e ângulo de visada, adaptado de LILLESAND & KIEFER (1987).

* Cobertura fotográfica – sobreposições: trata-se da representação do terreno por meio

de fotografias aéreas expostas sucessivamente, ao longo de uma direção de voo. Conforme

ilustra a FIG. 2.23, a sucessão é realizada respeitando-se um intervalo de tempo tal que, entre

duas fotografias haja uma superposição longitudinal de cerca de 60%, formando uma faixa.

Nas faixas expostas, para compor a cobertura de uma área é mantida uma distância entre os

eixos de voo de forma que haja uma superposição lateral de 30% entre as faixas adjacentes.

Alguns pontos do terreno dentro da zona de recobrimento são fotografados várias vezes em

ambas as faixas (REDWEIK, 2007).

FIG. 2.23: Voo fotogramétrico realizado em faixas (REDWEIK, 2007).

52

O recobrimento de 60% evita a ocorrência de falhas na cobertura (FIG. 2.24) que podem

ocorrer principalmente devido às oscilações da altura de voo e da ação do vento (FIG. 2.25).

No caso dos VANTs deve-se atentar para as grandes oscilações que são inerentes às pequenas

aeronaves. O exemplo de deriva e oscilação pode ser observado na construção de um mosaico

(FIG. 2.26) a partir de imagens de VAD obtidas através do VANT Carcará (Marinha do

Brasil/Santos Lab).

FIG. 2.24: Sobreposições do projeto aerofotogramétrico (REDWEIK, 2007).

FIG. 2.25: Recobrimento com a ocorrência de deriva e desvio (IBGE, 2011).

FIG. 2.26: Exemplo de deriva e aquisição de imagens inclinadas. Mosaico construído a

partir de sequência real (amostra de vídeo VANT Carcará).

53

* Câmaras a utilizar: a câmara aérea se desloca durante a exposição, necessitando de

objetivas adequadas, obturadores de alta velocidade e filmes de emulsão ultrarrápida,

reduzindo a um mínimo o tempo de exposição, sem prejudicar a qualidade da imagem. Essas

câmaras se classificam de acordo com o ângulo que define a cobertura proporcionada pela

câmara

- Ângulo normal: até 75º (para abranger uma área a uma determinada altura de voo);

- Grande angular: de 75º até 100º (a altura de voo será menor, com menor distância focal f);

- Super grande angular: maior que 100º.

Também são classificadas em função da distância focal da objetiva:

- Curta (ou pequena): até 150 mm;

- Normal: de 150 a 300 mm;

- Longa (ou grande): acima de 300 mm.

Em relação aos VANTs, são inúmeras as possibilidades de câmaras de vídeo que

possibilitam a execução de um recobrimento aéreo. Geralmente são utilizadas câmaras de

vigilância com zoom óptico de até 12x e que priorizam o volume de informações a ser

transmitido em tempo real em detrimento da qualidade da imagem.

Dois fatores que devem ser considerados por ocasião da escolha da câmara são o peso

(em função do limite de carga útil) e o custo (em função do risco de perda do veículo).

* Traçado de voo: são os mesmos tanto para o voo fotogramétrico quanto para o voo

videográfico realizados pelos VANTs. Estão ilustrados na FIG. 2.27 abaixo dois casos típicos

de traçado de voo. À esquerda pode-se observar o voo realizado em faixas, abrangendo uma

determinada região e à direita o recobrimento ao longo de uma estrada.

FIG. 2.27: Tipos de traçado de voo (REDWEIK, 2007).

* Época do voo: trata-se das condições climáticas e meteorológicas em relação ao

período estabelecido para a aquisição. Prioriza-se o período da primavera em função de um

volume menor de nuvens. Em relação ao horário, quanto mais próximo do meio dia menor

54

será a interferência de sombras na imagem.

* Material de apoio: composto da documentação cartográfica existente do local,

imagens de satélites, ortofotos, cartas topográficas, banco de dados etc. Estes dados são

válidos tanto para o projeto fotogramétrico quanto para o videográfico.

* Características das aeronaves: devem ser estudadas as características pertinentes à

aeronave selecionada para o voo fotogramétrico. Adaptações devem ser feitas ao projeto em

relação às características operacionais dos VANTs. Esses veículos podem voar a altitudes

mais baixas (150m) ou muito mais altas (5.000m) do que as aeronaves normalmente utilizadas

na fotogrametria aérea. Uma das grandes vantagens dos VANTs é a alta repetibilidade com

que podem executar o voo. Acompanhando-se a qualidade das imagens da estação de solo,

pode-se solicitar que o veículo refaça a área por ocasião de algum prejuízo (nuvens, falha na

transmissão, exagero nas inclinações, etc).

* Orçamento: para o planejamento e o cálculo do orçamento considera-se o caso geral

da cobertura de uma área retangular (L x Q) em faixas paralelas, considerando as fotografias

verticais e o terreno plano. Observam-se na FIG. 2.28 as variáveis que permitem a elaboração

do plano de voo e o orçamento. Trata-se de um processo caro e dispendioso que demanda

tempo e equipe capacitada para a realização da atividade, incluindo a necessidade de

existência do piloto (vôo fotogramétrico). Para os VANTs, o orçamento do projeto é um dos

fatores mais atrativos, devido ao baixo custo da atividade, uma vez que não necessita de

meios humanos significativos de apoio (POMPERMAYER NETO, 2002).

55

FIG. 2.28: Esquema do plano de voo (REDWEIK, 2007).

Os dados relacionados a seguir e ilustrados na FIG. 2.28 são fundamentais para a geração

do plano de voo.

A - distancia entre as linhas de voo;

B - distancia entre os CP’s de duas tomadas consecutivas;

c - distancia focal (ou f);

S1 - lado da imagem na direção do voo;

S2 - lado da imagem na direção perpendicular ao voo;

h - altura acima do solo;

Z - cota do terreno;

Z0 - altura absoluta do avião;

Em função do que foi apresentado, constatou-se que é possível aplicar conceitos

fotogramétricos à VAD realizada pelos VANTs com vistas à obtenção controlada de insumos.

Sabe-se também que a SR é uma técnica de melhoramento da resolução da imagem de baixa

resolução na qual a etapa de registro é fundamental. Face ao exposto, vislumbra-se a

existência de forte correlação entre as técnicas de SR e a VAD realizada pelos VANTs.

56

Uma vez que a banda passante para a transmissão de uma imagem, ou vídeo, mesmo

codificado com algum padrão de compressão é bastante alta, a idéia é adquirir/transmitir, em

tempo real, imagens/vídeos com baixa-resolução, consumindo assim menos bits, e utilizar as

técnicas de SR para gerar as versões em resoluções mais altas. A FIG. 2.29 ilustra de que

maneira a SR poderia ser associada à VAD e inserida no processo cartográfico.

FIG. 2.29: Inserção de técnicas de SR no processo cartográfico.

A seguir serão apresentados dois estudos de caso de VAD realizada pelos VANTs

contemplados nessa dissertação, com o objetivo de destacar os principais aspectos que devem

ser obedecidos para viabilizar a aplicação de técnicas de SR aos insumos obtidos durante o

voo.

ESTUDO DE CASO PARA O VANT ARARA-M1

Nos anos de 2007 e 2008 a empresa AGX tecnologia, juntamente com a Artilharia

Divisionária do Exército (AD/1), realizaram na Academia Militar das Agulhas Negras

(AMAN), Resende – RJ, a operação MEMBECA, com duração de 7 dias, que teve por

principal objetivo o adestramento conjunto de cadetes das diferentes armas, quadros e

serviços do Exército.

57

FIG. 2.30: Decolagem VANT Arara-M1 (AGX, 2010).

O VANT Arara-M1 (FIG. 2.30) foi utilizado na operação com o objetivo de reconhecer a

área do exercício (teatro de operações), identificar alvos e estimar o posicionamento dos

mesmos no decorrer da operação, com base em documentos cartográficos pré-existentes e

informações do GPS de bordo.

As características do veículo fornecidas pela AGX são:

• Características operacionais

Motor 40cc, 2T, 5HP, AVGAS;

Peso máximo de decolagem 20kg;

Carga útil 3kg;

Autonomia de voo 4h;

Velocidade de cruzeiro 100km/h;

Velocidade de estol 40km/h;

Sistema autônomo ou remotamente pilotado;

Pára-quedas de emergência;

Gerador de energia/motor de partida;

Estação de controle móvel;

Decolagem em veículo terrestre.

• Sensores instalados a bordo

Receptor GPS;

Câmara fotográfica Canon Rebel T2i integrada a sistema de vídeo em tempo real;

Altímetro;

Velocímetro (velocidade aerodinâmica);

58

Temperatura;

Sensor de atitude baseado em GPS.

Inicialmente foi realizado pela equipe da AGX um planejamento da operação com a

delimitação da área a ser sobrevoada, distância da estação de solo (link de comunicação) e

plano de voo com base nos waypoints que deveriam ser percorridos para o recobrimento do

teatro de operações, conforme ilustram as FIG. 2.31 e 2.32.

FIG. 2.31: Área de interesse e cálculo da distância à base para a transmissão dos dados

telemétricos (AGX, 2010).

FIG. 2.32: Planejamento da operação Membeca 2008 (AGX, 2010).

As imagens foram adquiridas pela câmara Canon Rebel T2i (foto e vídeo), em faixas e

com as recomendações fotogramétricas quanto ao recobrimento. As fotografias foram

armazenadas em mídia na aeronave, enquanto que o vídeo foi transmitido em tempo real para

a estação de solo.

O acompanhamento do voo em tempo real (vídeo) pela equipe de inteligência possibilitou

a seleção prévia de trechos do vídeo que deveriam ser analisados com maior detalhamento. As

fotografias armazenadas na câmara foram posteriormente descarregadas e processadas.

59

Com base nas coordenadas do GPS de bordo, fotografias obtidas e sincronização com o

tempo do vídeo, foi possível processar os dados (FIG. 2.33), reconhecer o terreno, observar a

movimentação das tropas, identificar alvos através de banco de dados (FIG. 2.34), bem como

estimar a posição dos mesmos.

FIG. 2.33: Dados processados na operação Membeca 2008 (AGX, 2010).

FIG. 2.34: Identificação de alvos na operação Membeca 2008 (AGX, 2010).

60

Do estudo de caso apresentado, conclui-se que o desempenho da VAD realizada pelo

VANT Arara-M1 poderia ter sido otimizado por ocasião da elaboração de um projeto, com

base nas especificações descritas na TAB. 2.1 e nos dados fundamentais do planejamento,

com vistas a aplicações cartográficas.

Em virtude de não ser este o objetivo principal da operação, não foram coletados pontos

de controle no terreno para posterior amarração dos modelos e dos mosaicos. O

georreferenciamento foi feito apenas com as coordenadas do GPS de bordo, sem considerar o

deslocamento devido ao relevo, o que contraria as especificações fotogramétricas. O mosaico

gerado não foi avaliado quanto à qualidade geométrica, devido ao fato do emprego de VANTs

para o MD estar restrito, por enquanto, apenas à operações de vigilância e reconhecimento.

ESTUDO DE CASO PARA O VANT VT-15

Em novembro de 2010 a empresa Flight Technologies, juntamente com Centro

Tecnológico do Exército (CTEx), realizaram na Academia da Força Aérea (AFA), na cidade

de Pirassununga - SP, uma participação na Operação Agulhas Negras (OPAN), com duração

de 4 dias.

De acordo com o Estado Maior do Exército (EME), o objetivo desta participação foi

auxiliar a Divisão de Exército (DE) no levantamento de dados de inteligência por intermédio

das imagens do VANT VT-15 para auxílio à tomada de decisão do comandante da DE. A

OPAN foi uma operação de adestramento de grande envergadura que envolveu a participação

de tropas estratégicas do Exército. O emprego do sistema VANT VT-15 foi de grande

importância para o levantamento das posições inimigas.

As características do veículo fornecidas pelo CTEx foram:

• Características operacionais

Teto 3.000m

Peso máximo de decolagem 75kg;

Carga útil 12kg;

Autonomia de voo 2h;

Velocidade de cruzeiro 126km/h;

Sistema autônomo ou remotamente pilotado;

Gerador de energia/motor de partida;

Estação de controle móvel;

Decolagem manual.

61

• Sensores instalados a bordo

Receptor GPS;

Sistema composto de câmara de vídeo Axis 233D com transmissão em tempo real;

Altímetro;

Velocímetro (velocidade aerodinâmica);

Temperatura;

Sensor de atitude baseado em GPS.

Inicialmente foi realizado pela equipe da Flight Technologies um planejamento da

operação com a delimitação da área a ser sobrevoada (FIG. 2.35), distância da estação de solo

(link de comunicação), e plano de voo com base nos waypoints que deveriam ser percorridos

para o recobrimento do teatro de operações.

FIG. 2.35: Teatro de operações OPAN (CTEx, 2010).

Em virtude de não ser este o objetivo principal da operação, o voo não foi realizado com

base em um projeto de VAD e somente imagens de vídeo LR foram geradas. Não foram

coletados pontos de controle no terreno para posterior amarração dos modelos e dos mosaicos,

não foi realizado qualquer tipo de processamento desse material, devido ao fato do emprego

de VANTs para o MD estar restrito, por enquanto, apenas à operações de vigilância e

reconhecimento.

A seção de inteligência do Comando Militar do Sudeste (CMSE) elaborou o relatório da

missão com base na gravação do vídeo gerado. Mediante autorização do EME, trechos desse

62

vídeo foram disponibilizados pelo CTEx para dar subsídio a essa pesquisa, sendo fornecidos

também dados fundamentais (voo e configuração da câmara) para o cálculo do ERT.

Foi realizado o cálculo do ERT para uma análise preliminar do material obtido. Foram

fornecidos os valores da velocidade, a altura de voo, o Common Intermediate Format (CIF)

(número de pixels na vertical e na horizontal em cada quadro). A distância focal e o FOV não

foram fornecidos, portanto foram utilizados valores com base na FIG. 2.36.

FIG. 2.36: Especificações da câmara de vídeo Axis 233D do VANT VT-15

(AXIS, 2010).

Na FIG. 2.37 observa-se a geometria de aquisição das imagens. Para o cálculo estimado

do ERT considera-se o triângulo formado pelo avião, o pé da perpendicular e o ponto limite

do FOV, ou seja, D/2.

FIG. 2.37: Geometria de aquisição das imagens VANT VT-15.

Sendo:

Tg (w/2) = (D/2)/H (2.16)

63

Substituindo os valores do w e H em (2.18) obtém-se D =1058,945m, dividindo esse

valor pelo número de pixels (CIF horizontal de 288px) obtém-se o tamanho de um pixel, ou

seja, o ERT estimado para os dados em questão é de 3,67m, para o pior caso, ou seja, para o

limite inferior da câmara.

Esse cálculo foi fundamental para estimar a ordem de grandeza da resolução espacial.

Porém, pode-se observar que há inconsistências a serem analisadas, uma vez que as amostras

fornecidas não permitem a percepção de detalhes compatível com o valor obtido. Trata-se de

um típico problema de sequenciamento de imagens de vídeo cuja proposta de melhoramento

da resolução será apresentada através das técnicas de SR.

2.5 CONCLUSÕES

Neste capítulo foram apresentados os fundamentos teóricos sobre imagens digitais e

Super-Resolução, conceitos estes necessários à compreensão do desenvolvimento do trabalho.

Também foram apresentados conceitos fotogramétricos e os aspectos relevantes do processo

de execução de um voo videográfico (considerando a viabilidade atual do uso do vídeo como

sensor remoto) aos quais técnicas de SR podem ser associadas por ocasião de uma aquisição

controlada de imagens.

O próximo capítulo descreve os materiais que foram utilizados na realização do trabalho

bem como a metodologia utilizada na elaboração das etapas para a geração de imagens de SR

e para a construção de um mosaico de imagens após a etapa de SR. Este capítulo apresenta

também os conceitos que envolvem os critérios de avaliação da qualidade das imagens SR.

64

3 GERAÇÃO DE IMAGENS DE SUPER-RESOLUÇÃO

No Capítulo 2 foram apresentados os fundamentos teóricos sobre imagens digitais e

Super-Resolução, conceitos estes necessários à compreensão do desenvolvimento do trabalho.

Também foi apresentado o processo videográfico no qual as técnicas de SR podem ser

aplicadas por ocasião de uma aquisição controlada de imagens como é executado no voo

fotogramétrico. Neste Capítulo serão apresentados os materiais utilizados, tais como

máquinas, recursos computacionais, códigos e insumos obtidos por câmaras de video e

fotográficas embarcadas nos VANTs. Posteriormente será apresentada a metodologia

desenvolvida para geração de imagens de SR que será dividida nos seguintes tópicos:

(a) geração de imagens SR a partir de uma sequência simulada de imagens de baixa

resolução;

(b) geração de imagens SR a partir de uma sequência de dados reais, obtidos

exclusivamente por câmaras de vídeo;

(c) construção de um mosaico de SR simulando a aquisição de imagens SR através de um

voo videográfico realizado em faixas utilizando as técnicas de SR.

Este capítulo apresenta também os conceitos que envolvem os critérios de avaliação da

qualidade das imagens SR. Os critérios abrangem métodos subjetivos visuais estabelecidos

por normas internacionais tais como o MOS (ITU 500-R, 1992) e métricas objetivas tais como

o PSNR e o SSIM (WANG ET AL., 2005).

3.1 DESCRIÇÃO DOS AMBIENTES COMPUTACIONAIS UTILIZADOS

Os seguintes materiais foram utilizados na realização deste trabalho:

Computadores:

Notebook DELL VOSTRO 3550 com processador Intel(R) Core (TM) i5-2410M CPU

@ 2.30GHz, 4GB de Memória RAM, Sistema Operacional Windows 7 Professional 64 bits.

Softwares:

Matlab: versão 7.9.0.529 (R2009b) 64 bit (win64).

VLC: "Video LAN Client”, criado na Ecole Centrale de Paris e licenciado na GNU

General Public License em 1 de fevereiro de 2001. É um reprodutor e pré-processador de

mídias de vídeo, versão 1.1.11, compilador GCC 4.4.4, interface Qt4, direito de cópia do

grupo VIDEO LAN.

http://pt.wikipedia.org/wiki/%C3%89cole_centrale

http://pt.wikipedia.org/wiki/GNU_General_Public_License

http://pt.wikipedia.org/wiki/GNU_General_Public_License

http://pt.wikipedia.org/wiki/1_de_fevereiro

65

Virtual Dub: é um utilitário que captura/processa vídeos. Está disponível para as

plataformas 32-bit e 64-bit do Windows (98/ME/NT4/2000/XP/Vista/7), licenciado sob a

GNU General Public License (GPL). Sua estrutura é principalmente voltada para o

processamento de arquivos AVI.

As seguintes interfaces gráficas de usuário (GUI) no ambiente Matlab foram utilizadas:

SUPER-RESOLUTION APPLICATION (VANDERWALLE ET AL., 2007)

implementa o registro de imagens e vários algoritmos de reconstrução para a super-resolução

de imagens. Este programa é distribuído sob a General Public Licence (GPL). A

documentação que descreve as suas potencialidades foi elaborada por VANDERWALLE ET

Al., (2007). Neste trabalho esta interface gráfica será denominada SRA (FIG. 3.1) e suas

representações terão a coloração vermelha nos fluxogramas. Serão descritas a seguir os

conteúdos que abrangem cada etapa da SR na referida interface:

a) Aquisição: aceita sequências de imagens no formato .TIFF, permite gerar sequências

de imagens a partir de uma imagem HR no formato .TIFF, não aceita entrada

de vídeos;

b) Registro: Transformada de Fourier, Série de Taylor;

c) Interpolação: Bicúbica;

d) Reconstrução: POCS, IBP Robusta, NC.

FIG. 3.1: Super-Resolution Appication (SRA) (VANDERWALLE ET AL., 2007).

SUPER-RESOLUTION TOOLBOX (GEVREKCI & GUNTURK, 2006): conjunto de

rotinas de restauração de imagens que inclui módulos de registro geométrico e fotométrico,

um módulo de restauração com várias técnicas de super-resolução. Neste trabalho esta

GUI_1

66

interface gráfica será denominada SRT (FIG. 3.2) e suas representações terão a coloração azul

nos fluxogramas. Serão descritas a seguir os conteúdos que abrangem cada etapa da SR na

referida interface

a) Aquisição: aceita sequências de imagens no formato .TIFF, não permite gerar sequências

a partir de uma imagem HR, não aceita entrada de vídeos;

b) Registro: Harris Corner detector + Correlação Cruzada + RANSAC;

c) Interpolação: Bilinear, Bicúbica e Vizinho mais próximo;

d) Reconstrução: MAP_TV, MAP_SD e MAP_GC;

FIG. 3.2: Super-Resolution Toolbox (SRT) (GEVREKCI & GUNTURK, 2006).

MDSP PROGRAM (FARSIU ET AL, 2004c): conjunto de rotinas utilizadas para o

aprimoramento da resolução de um vídeo ou de uma sequência de imagens, desenvolvido no

Laboratório de Pesquisa em Processamento de Sinais Multi-Dimensional (MDSP) da

Universidade da Califórnia em Santa Cruz, liderados por Peyman Milanfar. O objetivo

principal é a implementação de várias técnicas de SR. Neste trabalho será denominada MDSP

(FIG. 3.3) e suas representações terão a coloração verde nos fluxogramas. Serão descritas a

seguir os conteúdos que abrangem cada etapa da SR na referida interface

a) Aquisição: não aceita sequências de imagens, permite gerar sequências no formato .MAT

ou .AVI a partir de uma imagem HR no formato .MAT, aceita entrada de

vídeos no formato .AVI;

b) Registro: Fluxo Óptico;

GUI_2

67

c) Interpolação: Cubic Spline;

d) Reconstrução: Shift-and-Add (MAP-Fast and Robust).

FIG. 3.3: MDSP Enhancement Program (MDSP) (FARSIU ET AL, 2004c).

Imagens e Vídeos Utilizados

Foram coletadas amostras de fotografias aéreas e vídeos a partir de câmaras embarcadas

nos cinco VANTs contemplados neste trabalho. As tabelas 3.1 e 3.2 e 3.3 a seguir descrevem

as principais informações dos VANTs, as características do material coletado bem como as

justificativas de escolha.

GUI_3

68

TAB. 3.1: Informações pertinentes aos VANT contemplados neste trabalho.

Nome: Arara M1.

Usuários: Artilharia Divisionária do Exército (AD/1), Polícia ambiental

do estado de São Paulo.

Atividades:localização de alvos e de crimes ambientais.

Câmaras: Canon S95, Canon Rebel T2i, Canon EOS 5d Mark II.

Tipos de mídia: vídeo e fotografia.

Período de aquisição: Operação Membeca – AMAN, Resende (RJ),

(2007 e 2008) e voo teste (2011).

Fonte: AGX Tecnologia (2011).

Nome: VT-15.

Usuário: Centro Tecnológico do Exército (CTEx).

Atividades: vigilância, reconhecimento e localização de alvos.

Câmaras: Axis 233D

Tipos de mídia: vídeo.

Período de aquisição: Operação Agulhas Negras – AFA, Pirassununga

(SP), (2010).

Fonte: Fligh Technologies (2010).

Nome: RQ - 450.

Usuário: Força Aérea Brasileira (FAB).


Câmaras: COMPASS IV


Período de aquisição: Operação Ágatha II – Santa Rosa (RS), (2011).

Fonte: Elbit Systems (2011).

Nome: Carcará.

Usuário: Marinha do Brasil (MB).


Câmaras: Sony FCB_IX_11A.


Período de aquisição: vídeo teste – Bogotá, Colômbia, (2008).

Fonte: Santos Lab (2011).

Nome: LANU II.

Usuário: Instituto Militar de Engenharia (IME), Exército Brasileiro

(EB).


Câmaras; SpyCam


Período de aquisição: vídeo teste – CAEx, Rio de Janeiro (RJ), (2011).

Fonte: IME (2011).

69

Do material obtido o que apresentou imagens de maior resolução espacial (HR) para a

construção das imagens simuladas de baixa resolução (LR) foi o VANT ARARA-M1. Além

da imagem de um alvo teste (ISO 12223) foram selecionadas quatro imagens obtidas pelo

VANT ARARA-M1 de áreas distintas contendo alvos civis e militares distribuídos em areas

urbanas e rurais.

As amostras de imagens que foram fornecidas para este trabalho para a obtenção das

sequências simuladas foram obtidas do VANT Arara-M1. A sequência de imagens simuladas

será utilizada para gerar imagens SR assim como as sequências reais oriundas de amostras de

vídeo dos 5 VANTs listados na tabela 3.2 a seguir.

TAB. 3.2: Detalhes referentes à aquisição das amostras de insumos VANT.

VANT Arara-M1

(AGX/ AD-1)

VT-15

(CTEX)

LANU II

(IME)

Carcará

(MB) RQ-450 (FAB)

REGIÃO E

DATA DO

VOO

AMAN,Resende,

RJ, Brasil,

ago2008

AFA,

Pirassununga,

SP, Brasil,

nov2010

CAEX, Rio de

Janeiro, RJ,

Brasil, jan2011

Cercanía de Melgar,

Colômbia, dez2008

Santa Rosa,

RS, Brasil,

set2011

ALTURA

DO VOO 300m 1000m 200m 200m 5000m

VELOCIDADE

DO VANT 100 km/h 126 km/h 36km/h 40km/h 117 km/h

CÂMARA

(VÍDEO) Canon Rebel T2i Axis 233D SpyCam Sony FCB_IX_11A Compass IV

ZOOM - 12x óptico - 40x óptico 0,8° a 24°

DIMENSÃO

DO CCD - 6.35mm - 6,35mm 8,46mm

DISTÂNCIA

FOCAL 28mm 119mm 5,5mm 4.2 a 42mm -

TAXA DE

TRANSMISSÃO

1300kb/s 1273kb/s 281000kb/s 13000kb/s 9Mb/s

TIPO DE

COMPRESSÃO 24 bits (RV24)

MPEG-4

(FMP4) ? Cinepak vídeo (cvid)

MPEG-4 Video

(DIVX)

VELOCIDADE

DO

OBTURADOR

30 – 1/4000 de

seg - - - -

RESOLUÇÃO CMOS 4272 x

2848

CCD

352x288 CMOS 640x480 CCD 640x480

CCD 640x480

FLIR- 752x482

ÂNGULO DE

VISADA - 55.8° 65° 46° 48°

70

TAB. 3.3: Detalhes referentes às imagens do VANT ARARA M1 utilizadas na simulação das

imagens LR.

Nome: IMG0570

Tamanho: 1460x1140pixels (recorte na imagem original)

Justificativa de escolha: a imagem apresenta duas viaturas

militares além da linearidade da forma da estrada não

pavimentada.

Nome: IMG0744


Justificativa de escolha: a imagem apresenta formas

geométricas variadas e bem definidas.

Nome: IMG1038


Justificativa de escolha: a imagem apresenta culturas ao

longo de estrada pavimentada e edificações de formas

euclidianas.

Nome: IMG0890


Justificativa de escolha: a imagem apresenta formas

euclidianas bem definidas.

71

3.2 DESCRIÇÃO DA METODOLOGIA DO TRABALHO

De modo a atingir os objetivos da pesquisa foi proposta uma determinada metodologia. A

mesma pode ser dividida em duas relevantes abordagens conforme o esquema ilustrado no

fluxograma da FIG. 3.4.

A primeira abordagem consiste em simular imagens LR a partir de uma imagem HR

ground-truth e aplicar os métodos de SR às imagens LR simuladas. Dessa maneira pode se

obter um controle maior do processo de reconstrução de imagens SR além de se estabelecer

uma imagem de referência para posterior comparação. A segunda abordagem consiste em

utilizar os métodos que apresentaram melhores resultados na primeira abordagem, em relação

à avaliação objetiva, e aplicá-los às sequências de imagens LR reais obtidas das amostras de

vídeo descritas na TAB. 3.1.

Após o desenvolvimento das duas abordagens descritas anteriormente, para demonstrar a

aplicação das técnicas de SR no contexto das áreas de conhecimento da Cartográfia,

Sensoriamento Remoto e Fotogrametria, serão descritas as etapas para a construção de um

mosaico, com vistas ao emprego das técnicas de SR à sequências de imagens oriundas de um

voo videográfico.

72

FIG. 3.4: Esquema geral da metodologia do trabalho.

ANÁLISE

OBJETIVA

(PSNR, SSIM)

IMAGEM HR (FOTO)

SEQUÊNCIAS DE

IMAGENS LR

SIMULADAS

IMAGENS SR

MÉTODO X DE SR MÉTODO

Y DE SR

MÉTODO Z DE SR

SEQUÊNCIAS DE

IMAGENS LR (VÍDEO)

SUPER-RESOLUÇÃO

ANÁLISE

SUBJETIVA

(MOS)

IMAGENS SR

ESQUEMA GERAL DA METODOLOGIA

DADOS SIMULADOS DADOS REAIS

MÉTODO X DE SR

MÉTODO Y DE SR

MÉTODO Z DE SR

73

3.2.1 GERAÇÃO DE IMAGENS HR A PARTIR DE DADOS SIMULADOS

Serão descritas a seguir as etapas que compõem a geração de imagens SR a partir de

conjuntos de imagens LR simuladas. As imagens fonte para as simulações são as imagens HR

do alvo teste (ISO 12223), que será denominado BW e as imagens HR da TAB. 3.3.

Geração dos dados simulados (SRA): serão geradas sequências de imagens LR a partir

de uma imagem HR obtida através da câmara fotográfica embarcada no VANT Arara-M1.

Essa operação terá por objetivo simular a aquisição de uma câmara de vídeo (quadros em

baixa resolução) principalmente devido à compressão para a transmissão dos dados para uma

estação em solo, em tempo real, sendo esta particularidade específica dos VANTs de emprego

militar. Será utilizada nessa etapa a SRA por possuir recursos compatíveis com a necessidade

do trabalho tais como simulação de imagens LR, algoritmos de registro e de reconstrução das

imagens LR.

As imagem HR foram subamostradas por um fator igual a 4, sendo estabelecidos como

parâmetros deslocamentos (translacional e rotacional) e o ruído aleatórios, borramento Linear

Space Invariant (LSI) e desconhecido. A princípio foram gerados subconjuntos de 4, 6, 8 e 10

imagens LR (FIG. 3.5) a partir das imagens HR apresentadas na TAB. 3.3. A execução dessas

etapas se dará através do experimento 1.

FIG. 3.5: Imagens LR simuladas utilizando a SRA.

Avaliação dos métodos de registro (SRA): avaliar os métodos de registro disponíveis

na SRA e verificar qual deles apresenta melhor qualidade visual. Os métodos de registro

utilizados foram os do domínio da frequência (utiliza a correlação da fase nas séries de

Fourier) desenvolvidos por VANDERWALLE ET AL. (2007), MARCEL ET AL. (1997),

LUCHESE & CORTELAZZO (2000) e o do domínio espacial (utiliza a expansão das séries

de Taylor) desenvolvido por KEREN ET AL., (1988), e serão denominados, respectivamente,

VA, MA, LU, CO e KE ao longo deste trabalho. Os detalhes referentes a cada um desses

métodos encontra-se no APÊNDICE 7.1.

Serão utilizadas sequências de 10 imagens LR simuladas a partir do alvo teste (ISO

12223) e a partir da imagem IMG0570. O fator de subamostragem foi 4 e para etapa da

74

reconstrução foi aplicado o método da interpolação bicúbica sem qualquer método de

restauração associado. As imagens resultantes serão avaliadas através das métricas objetivas

PSNR e SSIM. A execução dessas etapas se dará através do experimento 2.

Avaliação dos métodos de reconstrução (SRA): avaliar os métodos de reconstrução

disponíveis na SRA que são: Interpolação bicúbica, Robust Iterative Back Projection

(ZOMET & PELEG, 2002), Normalized Convolution (PHAM ET AL., 2006), Projections

Onto Convex Sets (PATTI ET AL., 1997), denominados respectivamente INT, IBP_R, NC e

POCS ao longo deste trabalho.

Serão utilizadas sequências de 4, 6, 8 e 10 imagens LR geradas a partir do alvo teste (ISO

12223) e das imagens selecionadas da TAB. 3.3, reamostradas por um fator 4. O método de

registro a ser utilizado será o que apresentar melhor resposta no experimento 2. A execução

dessas etapas se dará através do experimento 3.

Validação dos métodos de reconstrução (SRA): validar os métodos de reconstrução

disponíveis na SRA. O objetivo desta etapa é a verificação da oscilação dos valores de PSNR

e SSIM dos métodos avaliados no experimento 2, através da alteração do método de registro.

Serão utilizadas sequências de 4, 6, 8 e 10 imagens LR geradas a partir do alvo teste (ISO

12223) e das imagens selecionadas da TAB. 3.3, reamostradas por um fator 4. O método de

registro utilizado será o que apresentar a segunda melhor resposta visual no experimento 3. O

mesmo processo se dará para o método de registro manual com deslocamento de 0.5 pixel na

direção horizontal e vertical. A execução dessas etapas se dará através do experimento 4.

Avaliação dos métodos de reconstrução (SRT): avaliar os métodos de reconstrução

disponíveis na SRT que se constitui do método MAP e suas variações (devido a distintos

termos de regularização para remoção de ruído e borramento) que são: MAP Steepest

Descent, MAP Gradient Descent e MAP Total Variation. Esses métodos estão detalhados no

APÊNDICE 7.2 e serão denominados, respectivamente, MAP_SD, MAP_GC e MAP_TV ao

longo deste trabalho.

Serão utilizadas sequências de 4, 6, 8 e 10 imagens LR geradas pela SRA a partir do alvo

teste (ISO 12223) e das imagens selecionadas da TAB. 3.3, reamostradas por um fator 4. O

método de registro utilizado foi o proposto por CAPEL (2001), detalhado no APÊNDICE 7.1.

A execução dessas etapas se dará através do experimento 5.

75

Avaliação do método de reconstrução SAD (MDSP): avaliar o método bayesiano SAD

e suas variantes implementado na MDSP quando aplicado às imagens em tons de cinza e às

imagens coloridas, uma vez que foram propostas por FARSIU ET AL. (2004) abordagens

distintas para cada grupo.

Imagens em tons de cinza (BW)

Serão simuladas imagens LR utilizando o recurso de simulação de imagens LR

disponível na MDSP. Às imagens será aplicado o método bayesiano Shift-And-Add (SAD) e

suas dez variantes para imagens BW conforme está detalhado no APÊNDICE 7.2.

Serão utilizadas sequências de 10, 20, 40 e 80 imagens LR geradas pela MDSP a partir do

alvo teste (ISO 12223), reamostradas por um fator 4. O método de registro utilizado foi o

implementado por Dirk Robinson em (FARSIU ET Al., 2004a) que tem por base o método de

fluxo óptico de LUCAS & KANADE (1981). Esse método de registro está detalhado no

APÊNDICE 7.1 e será denominado FO ao longo deste trabalho.

Imagens coloridas (COLOR)

Serão simuladas imagens LR filtradas através de um filtro de cores (único canal)

utilizando o recurso de simulação de imagens LR disponível na MDSP. Às imagens filtradas

será aplicado o método SAD com regularização BTV detalhado no APÊNDICE 7.2.

Serão utilizadas sequências de 10, 20, 40 e 80 imagens LR geradas pela MDSP a partir da

IMG0570, reamostradas por um fator 4. O método registro utilizado foi o FO. A execução

dessas etapas se dará através do experimento 6.

3.2.2 GERAÇÃO DE IMAGENS HR A PARTIR DE DADOS REAIS

Para esta abordagem serão utilizadas as sequências de imagens LR apresentadas na TAB.

4.2. Inicialmente esta hipótese havia sido descartada em função de não haver uma imagem de

referência para análise posterior. Porém, optou-se, com base no que foi apresentado no

Capítulo 2, por aplicar às sequências reais (vídeo) os métodos que obtiverem o melhor

resultado quando aplicado às sequências simuladas e avaliar o resultado através de técnicas

subjetivas.

Aplicação dos melhores métodos de SR (SRA, SRT e MDSP): Esta abordagem

consiste em aplicar os métodos de reconstrução que apresentarem melhores resultados nos

experimentos 1 a 5 às sequências de imagens de vídeo dos VANTs relacionados na TAB. 3.1.

Esta etapa será realizada através do experimento 7.

Uma visão mais detalhada da metodologia proposta pode ver visualizada no fluxograma

da FIG. 3.6 a seguir.

76

FIG. 3.6: Metodologia de obtenção de imagens SR.

IMAGENS HR

SEQUÊNCIAS DE

IMAGENS REAIS LR

(VÍDEO)

METODOLOGIA DE OBTENÇÃO DE

IMAGENS SR

GERAÇÃO DE

SEQUÊNCIAS DE

IMAGENS

SIMULADAS LR

IMAGENS LR

GERAÇÃO DE

SEQUÊNCIAS DE

IMAGENS

SIMULADAS LR

APLICAÇÃO DO MELHOR

MÉTODO VERIFICADO NOS

EXPERIMENTOS DE 1 A 5

AVALIAÇÃO DOS MÉTODOS DE REGISTRO: KE, VA, LU E MA

AVALIAÇÃO DOS MÉTODOS DE RECONSTRUÇÃO: POCS,

IBP_R E NC

VALIDAÇÃO DOS RESULTADOS DOS MÉTODOS DE

RECONSTRUÇÃO ATRAVÉS DA APLICAÇÃO DE NOVOS

REGISTROS (VA E 0,5 px)

AVALIAÇÃO DOS MÉTODOS DE RECONSTRUÇÃO

MAP_TV, MAP_SD E MAP_CG

AVALIAÇÃO DO MÉTODO DE

RECONSTRUÇÃO SAD

Exp 6

IMAGENS SR

IMAGENS SR

Exp 1

Exp 2

Exp 3

Exp 4

Exp 5

COLORIDA (COLOR) TONS DE CINZA (BW)

Exp 7

MOSAICO SR

Exp 8

77

3.2.3 GERAÇÃO DE MOSAICO DE HR A PARTIR DE DADOS SIMULADOS

Para demonstrar a aplicação das técnicas de SR no contexto da produção cartográfica será

construído um mosaico de imagens SR obtidas a partir de imagens simuladas LR. O método

escolhido para a reconstrução será o que obtiver melhores resultados nos experimentos 1 a 5.

Serão descritas a seguir as etapas utilizadas para a construção do mosaico de SR:

a) Seleção da imagem a ser recortada. Esta será a imagem referência que será utilizada

para avaliação da qualidade do processo;

b) Recorte da imagem em 9 sub-imagens (matriz 3x3) obedecendo as regras do

recobrimento fotogramétrico e simulando a aquisição em 3 faixas de voo, conforme ilustra a

FIG. 3.7;

c) Geração das imagens LR: a partir de cada uma das 9 imagens, simulando uma

sequência de vídeo com 90 quadros;

d) Determinação do método de SR a ser aplicado com base nos experimentos 1 a 6;

e) Obtenção de imagens SR referentes à cada sub-imagem;

f) Identificação de pontos de controle para a correspondência entre as sub-imagens;

g) Mosaicagem das sub-imagens;

h) Avaliação do resultado utilizando o PSNR e o SSIM.

FIG. 3.7: Simulação do voo videográfico - construção das faixas e modelos.

78

3.3 ANÁLISE DA QUALIDADE DAS IMAGENS SR

Exitem dois tipos de avaliação da qualidade de uma imagem: avaliação da qualidade

objetiva e avaliação da qualidade subjetiva.

3.3.1 ANÁLISE OBJETIVA DA QUALIDADE DAS IMAGENS SR

A análise objetiva utiliza modelos matemáticos cujos resultados se aproximam aos da

análise subjetiva. O objetivo dessa técnica é desenvolver uma medida quantitativa que possa

prever a qualidade da imagem percebida. É classificada de acordo com a disponibilidade de se

obter uma imagem original com a qual a imagem processada (SR) deve ser comparada.

Podem ser totalmente referenciadas ou com referências parciais.

Neste trabalho, na etapa da simulação das imagens LR, utilizou-se as métricas totalmente

referênciadas apresentadas a seguir.

3.3.1.1 PEAK SIGNAL TO NOISE RATIO – PSNR

A relação sinal-ruído de pico (PSNR), utilizada em CANDOCIA & PRINCIPE (1999), é

a métrica de avaliação objetiva mais utilizada pela comunidade científica. Esse método tem

por base o erro médio quadrático (MSE) (3.37), que é simplesmente a média das diferenças ao

quadrado para cada pixel. Sendo i e j as coordenadas do pixel, I(i,j) representa o valor da

intensidade do pixel nas coordenadas i,j na imagem original e K(i,j) representa o valor da

intensidade do pixel nas coordenadas i,j na imagem processada. As imagens I e K possuem M

linhas e N colunas, logo o produto desses valores representa o número de pixels nas imagens.

O MSE pode ser obtido usando a Eq. 3.37. O PSNR é expresso em decibéis (dB) e um valor

mais elevado corresponde a indicação de erro menor e, consequentemente, de uma maior

qualidade.

∑ ∑ [ ( ) ( )]

(3.37)

(

) (

√ ) (3.38)

onde MAX é o valor máximo possível de um pixel.

3.3.1.2 STRUCTURAL SIMILARITY INDEX – SSIM

O índice de similaridade estrutural (SSIM) é um método para medir a similaridade entre

duas imagens. O SSIM, assim como o PSNR, é uma métrica completamente referenciada, ou

79

seja, a medida da qualidade da imagem precisa necessariamente ter por base uma imagem

original isenta de compressão ou distorções. O SSIM foi desenvolvido visando o

aperfeiçoamento dos métodos tradicionais, como a relação sinal-ruído de pico (PSNR) e o

erro médio quadrático, que provaram de acordo com a revisão bibliográfica, ser inconsistentes

em relação à percepção do olho humano.

O SSIM é calculado através de várias janelas (subdivisões MxM das imagens a serem

comparadas em blocos menores). A medida entre duas janelas x e y de mesmo tamanho NxN

é:

( ) ( )( )

(

)(

) (3.39)

onde:

µx e µy representam as médias da luminância de cada imagem;

é a variância de x;

é a variância de y;

σxy é a covariância de x e y;

= ( ) ( )

duas variáveis para estabilizar a divisão no caso do

denominador ser pequeno;

L é o dynamic range dos valores dos pixels (geralmente );

=0.01 e =0.03.

A fim de avaliar a qualidade da imagem esta fórmula é aplicada somente à luminância. O

índice SSIM resultante é um valor decimal entre 0 e 1, sendo o valor 1 apenas acessível no

caso de dois conjuntos idênticos de dados. Geralmente é calculado com janelas de tamanho

8x8. A janela pode ser deslocada pixel a pixel na imagem, mas os autores propõem utilizar

apenas um subgrupo das janelas visando reduzir a complexidade dos cálculos (WANG &

BOVIK, 2002).

3.3.2 ANÁLISE SUBJETIVA DA QUALIDADE DAS IMAGENS HR

O melhor método para avaliar a qualidade da imagem SR geralmente depende do

domínio de aplicação. Em muitas aplicações, um observador humano é o usuário final da

imagem. Portanto, a percepção humana e a interpretação são muito importantes. Uma forma

de avaliar as imagens SR é através da avaliação subjetiva. Esse tipo de avaliação leva em

consideração as percepções captadas pelo sistema visual humano em relação às características

das imagens analisadas.

80

São aplicados testes nos quais os observadores humanos são convidados a ver uma série

de imagens SR e avaliá-las. Os testes subjetivos são geralmente precisos se realizados

corretamente. No entanto, em alguns casos podem ser inconvenientes, caros e demorados,

portanto os testes estarão restritos às imagens SR obtidas através de dados reais, em virtude de

não haver imagem de referência que justifique a aplicação de algumas das métricas objetivas

apresentadas anteriormente.

A avaliação subjetiva é regida pela norma de avaliação subjetiva para imagens ITU-R

500-5 (1992). Dentre os testes de avaliação subjetiva propostos pela norma, será utilizado

para a avaliação das imagens SR geradas nesta dissertação o Mean Opinion Score – MOS.

3.3.2.1 MEAN OPINION SCORE – MOS

A pontuação média de opinião (MOS) fornece uma indicação numérica da qualidade

percebida a partir da perspectiva dos usuários após o processamento da imagem

(reconstrução). O MOS é expresso como um número único no intervalo de 1 a 5, onde 1 é

mais baixa qualidade e 5 é a mais alta medição da qualidade percebida na imagem.

O MOS (FIG. 3.8) é gerado pela média dos resultados de um conjunto de padrões, testes

subjetivos, onde usuários de imagens (pelo menos 15), de diferentes níveis e complexidades,

são obrigados a dar uma classificação para as imagens reconstruídas.

FIG. 3.8: Pontuação média de opinião (adaptado de ITU-R 500-5, 1992).

O MOS se dá através da média aritmética de todas as notas individuais e pode variar de 1

(qualidade ruim) a 5 ( qualidade excelente).

3.4 CONCLUSÕES

Neste capítulo foram descritos os ambientes computacionais e os insumos utilizados na

elaboração deste trabalho. Foi também apresentada a metodologia de obtenção de imagens de

super-resolução a partir de sequências de imagens LR (simuladas e reais). Foram descritas

duas métricas para a avaliação objetiva e outra de avaliação subjetiva disponíveis na literatura

que foram aplicadas às imagens SR resultantes. Os resultados obtidos serão apresentados e

avaliados no próximo capítulo.

81

4 RESULTADOS

4.1 RESULTADOS DA GERAÇÃO DE IMAGENS HR A PARTIR DE DADOS

SIMULADOS

Como descrito anteriormente, as métricas objetivas referenciadas utilizadas para calcular

o desempenho das imagens SR foram o PSNR e o SSIM. Os valores obtidos por estas

métricas são apresentados nas tabelas deste Capítulo.

Experimento 1: foram geradas sequências de imagens LR a partir de imagens HR do

alvo teste e das imagens coloridas da TAB. 3.3. As sequências foram geradas pela SRA e pela

MDSP e serão utilizadas na geração de imagens SR dos experimentos seguintes. A estrutura

da SRA modela o movimento translacional e rotacional além de possibilitar a geração de

conjuntos LR de 2, 4, 6, 8 e 10 imagens. Trata-se de uma limitação em termos da análise

computacional e do registro, uma vez que não é possível gerar um volume grande de dados

(acima de 10 imagens). Já a MDSP modela apenas o movimento translacional, no entanto

possibilita a geração de grandes volumes de imagens LR (limitada pelo tamanho da imagem

HR e pelo fator de interpolação).

Experimento 2: foram avaliados os métodos de registro disponibilizados na SRA

(KE, VA, LU e MA) em relação ao desempenho quando aplicados às imagens VANT. Os

resultados obtidos estão ilustrados na FIG. 4.1 Observa-se que dentre os quatro modelos de

registro propostos o método de KE foi o que obteve a melhor resposta visual dentre os

demais, apresentando um número menor de artefatos na imagem. O segundo melhor

resultado foi VA, seguido por LU. O método que apresentou o pior resultado foi MA. A

primeira vista não é grande a diferença visual entre as propostas de KE e de VA, porém a

FIG.4.2 confirma a superioridade de KE.

82

FIG. 4.1: Resultado do experimento 2.

FIG. 4.2: Resultado do experimento 2. KE (esquerda) e VA (direita).

O mesmo procedimento aplicado às imagens LR, geradas a partir do alvo teste, foi

também aplicado a imagens LR geradas a partir das imagens IMG0570, IMG0744, IMG0890,

IMG1038 extraídas da câmara fotográfica, embarcada no VANT Arara-M1.

Os resultados estão ilustrados nas figuras 4.3, 4.4, 4.5 e 4.6. Pode-se observar através

da visualização das imagens coloridas que KE apresentou o melhor desempenho quando

comparado aos propostos por LU, MA e VA. Para as demais imagens coloridas, em ordem de

melhor desempenho, tem-se VA, LU e por último MA.

KE LU

MA

VA

83

FIG. 4.3: Resultado do experimento 2 para a IMG0570.

KE

LU

MA VA

84


LU

MA VA

KE

85


KE LU

MA VA

86

FIG. 4.6: Resultado do experimento 1 para a IMG 1038.

A TAB. 4.1 apresenta uma classificação dos métodos de registro estudados nesse

experimento. Tanto para a imagem em tons de cinza do alvo teste quanto para as imagens

coloridas VANT o método de KE apresentou o melhor desempenho quando comparado aos

propostos por LU, MA e VA. O método proposto por VA apresentou o segundo melhor

resultado seguido do proposto por LU. O método proposto por MA apresentou o pior

desempenho dentre os demais.

TAB. 4.1: Classificação dos algorítmos de registro na SRA.

REGISTRO CLASSIFICAÇÃO

KE 1º

VA 2º

LU 3º

MA 4º

KE

VA MA

LU

87

Experimento 3: foram avaliados os métodos os reconstrução disponibilizados na

SRA em relação ao desempenho quando aplicados às imagens VANT. As imagens foram

registradas através do método de KE devido ao fato de que o este método apresentou os

melhores resultados no experimento 2.

Quando os conjuntos de 4, 6, 8 e 10 imagens LR foram registrados através do método

de KE o resultado obtido foi o ilustrado na FIG. 4.7. Observa-se, comparando o conjunto de 4

imagens com o conjunto de 10 imagens, que não há grandes diferenças visuais entre os grupos

comparados. No entanto, cabe ressaltar que ocorre suavização nas regiões de alta frequência.

FIG. 4.7: Resultado do experimento 3 KE a partir de 4, 6, 8 e 10 imagens LR,

reconstrução INT.

4

8 10

6

88

Quando os métodos de reconstrução (INT, NC, POCS e IBP_R) foram aplicados a

conjuntos de 4 imagens LR observou-se que o método que apresentou melhor resposta visual,

com um menor número de artefatos, foi o NC, conforme ilustra a FIG. 4.8.

FIG. 4.8: Resultado do experimento 3 registro KE, reconstrução 4 imagens LR,

reconstrução INT, NC, POCS e IBP_R.

Quando os mesmos métodos de reconstrução citados anteriormente foram aplicados a

conjuntos de 10 imagens LR, observou-se que o método que resultou em melhor resposta

visual, com um menor número de artefatos, também foi o NC, conforme ilustra a FIG. 4.9.

A FIG. 4.10 apresenta os mapas de similaridade associados a cada tipo de reconstrução.

Deve-se observar que, de acordo com a estruturação da métrica objetiva totalmente

referenciada SSIM, quanto mais próximo de um (mais clara a imagem) mais similar é a

imagem em relação à imagem original, quanto mais próximo de zero (mais escura é a

imagem), menos similar em reação à imagem original. Esses dados são também observados

na TAB. 4.2.

INT

POCS IBP_R

NC

89

FIG. 4.9: Resultado do experimento 3, registro KE, reconstrução 10 imagens LR,

reconstrução INT, NC, POCS e IBP_R.

FIG. 4.10: Resultado dos mapas de similaridades (SSIM_map) do experimento 3,

registro KE, 10 imagens LR, reconstrução INT, NC, POCS e IBP_R.

INT

T NC

IBP_R POCS

INT

T NC

POCS IBP_R

90

TAB. 4.2: Resultado do registro KE para um conjunto de 10 imagens LR, reconstrução

INT, NC, POCS, IBP_R.

KE_BW INT IBP_R

4LR 6LR 8LR 10LR 4LR 6LR 8LR 10LR

PSNR (dB) 21,64 22.53 22.2437 22.2120 17.0518 11.4506 9.8753 6.1507

SSIM 0.8702 0.8823 0.8828 0.8818 0.7246 0.3242 0.2342 0.0627

KE_BW POCS NC


PSNR (dB) 14.2499 13.6013 13.6550 13.1028 22.0430 23.3329 23.0849 22.7366

SSIM 0.6357 0.6006 0.6104 0.5991 0.8752 0.8910 0.8890 0.8874

Da FIG. 4.10 e da TAB. 4.2 pode-se observar que o método que apresentou melhor

desempenho foi o NC, seguido pelo método INT e POCS. O método que apresentou o pior

desempenho foi o IBP_R.

Todos os procedimentos aplicados ao alvo teste foram também aplicados a duas imagens

coloridas (IMG0570 e IMG0744). Essas imagens foram selecionadas dentre as quatro da TAB

3.3 em função de apresentarem conjuntos de alvos militares e altas frequências. Os resultados

apresentados nas figuras 4.11 a 4.16 e pelas tabelas 4.3 e 4.4 confirmam os resultados obtidos

com a imagem teste.

91

FIG. 4.11: Resultado do experimento 3 para a IMG0570 KE a partir de 4, 6, 8 e 10

imagens LR, reconstrução INT.

4

10 8

6

92

FIG. 4.12: Resultado dos mapas de similaridades (SSIM_map) do experimento 3 para a

IMG0570, registro KE, 10 imagens LR, reconstrução INT, NC, POCS e IBP_R.

INT NC

IBP_R POCS

93

FIG. 4.13: Resultado do experimento 3 para a IMG0570, registro KE, reconstrução 10

imagens LR, reconstrução INT, NC, POCS e IBP_R.

TAB. 4.3: Resultado registro KE para um conjunto de 10 imagens LR a partir da

IMG0570, reconstrução INT, NC, POCS, IBP_R.

KE_ IMG0570 INT IBP_R


PSNR (dB) 24.2344 24.6433 24.8284 24.4281 23.4072 22.9976 23.0362 20.3253

SSIM 0.8007 0.8406 0.8517 0.8148 0.5849 0.5776 0.5794 0.3600

KE_ IMG0570 POCS NC


PSNR (dB) 22.3478 22.2174 22.0342 21.3298 23.9328 25.0457 25.2651 24.8185

SSIM 0.6253 0.6054 0.5389 0.5207 0.7699 0.8415 0.8601 0.8217

INT

POCS IBP_R

NC

94

FIG. 4.14: Resultado do experimento 3 a partir da IMG0744, registro KE, 10 imagens

LR, reconstrução INT, NC, POCS e IBP_R.

INT NC

POCS IBP_R

95

FIG. 4.15: Resultado do experimento 3 para o alvo teste, registro KE a partir de 4, 6, 8 e

10 imagens LR, reconstrução NC.

FIG. 4.16: Resultado dos mapas de similaridades (SSIM_map) do experimento 3 para a

IMG0744, registro KE, 6 imagens LR, reconstrução INT, NC, POCS e IBP_R.

4

10

6

8

INT

IBP_R POCS

NC

96

TAB. 4.4: Resultado registro KE para conjuntos de imagens LR a partir da IMG0744,

reconstrução INT, NC, POCS, IBP_R.

KE_IMG0744 INT IBP_R


PSNR (dB) 23.3097 23.5035 23.3811 23.4234 22.2174 21.9182 21.9013 21.9154

SSIM 0.8775 0.8974 0.8909 0.8980 0.6306 0.6109 0.6183 0.5916

KE_IMG0744 POCS NC


PSNR (dB) 21.4692 21.1408 21.0993 21.3645 23.3754 23.7264 23.7097 23.7364

SSIM 0.6573 0.6359 0.6117 0.6337 0.8670 0.9004 0.8932 0.9019

Experimento 4: foram validados os métodos de reconstrução disponíveis na SRA

(INT, NC, POCS e IBP_R) em relação ao mesmo conjunto de imagens do experimento 3. A

validação foi realizada através das seguintes etapas:

(a) As imagens foram registradas através do método VA (que apresentou o segundo

melhor desempenho na avaliação do experimento 2) e do registro manual (0,5 pixel de

deslocamento em cada direção) ;

(b) A reconstrução foi realizada através dos mesmos métodos do experimento 3 ((INT,

NC, POCS e IBP_R);

(c) Foram comparados os valores de PSNR e SSIM de cada método para cada um dos

tipos de registro (KE e VA).

Quando os métodos de reconstrução foram aplicados a conjuntos de 4, 6, 8 e 10 imagens

LR observou-se que o método que apresentou melhor resposta visual, com um menor número

de artefatos, foi o NC.

Foi realizada a validação apenas para os métodos de reconstrução disponíveis na SRA,

em virtude de ser a única estrutura a possibilitar alternativas para o registro.

97


registro VA, reconstrução INT, NC, POCS e IBP_R.


registro VA, reconstrução NC, aplicados a conjuntos de 4 imagens LR (esquerda) e 10

imagens LR (direita).

INT NC

IBP_R POCS

98

TAB. 4.5: Resultado registro VA, reconstrução INT, NC, POCS e IBP_R.

VA_ BW INT IBP_R


PSNR (dB) 16.7930 18.5637 17.0077 17.8016 12.5690 10.2432 12.6687 12.9568

SSIM 0.7510 0.8046 0.7657 0.7799 0.4471 0.2291 0.4455 0.4544

VA_BW POCS NC


PSNR (dB) 15.1091 16.9656 15.1974 14.3639 14.9627 18.8894 17.1009 18.4981

SSIM 0.6753 0.7276 0.6833 0.6561 0.7101 0.8108 0.7688 0.7973

Das FIG. 4.17, 4.18 e da TAB. 4.5 pode-se observar que o método que apresentou melhor

desempenho foi o método NC, seguido pelo método da INT e POCS. O método que

apresentou o pior desempenho foi o IBP_R.

Comparando os valores de PSNR e SSIM apresentados na TAB. 4.5 com os valores

apresentados na tabela 5.2 observa-se a superioridade do método de KE sobre os demais.

FIG. 4.19: Resultado dos mapas de similaridades (SSIM_map) do experimento 4 para

conjuntos de 10 imagens, registro KE (esquerda), VA (direita), reconstrução NC.

As imagens também foram registradas através do registro manual deslocadas de 0.5 pixel

na horizontal e na vertical. Quando os métodos de reconstrução (INT, NC, POCS e IBP_R)

foram aplicados a conjuntos de 4, 6, 8 e 10 imagens LR observou-se que o método que

apresentou melhor resposta visual, com um menor número de artefatos, foi o INT, conforme

ilustra o mapa de similaridade da FIG. 4.19 e a TAB. 4.6.

99


registro manual (0,5 pixel) aplicados a conjuntos de 4 imagens LR, reconstrução INT, NC,

POCS e IBP_R.

TAB. 4.6: Resultado registro manual (0.5 pixel), reconstrução INT, NC, POCS e IBP_R.

MANUAL_ BW INT IBP_R


PSNR (dB) 17.1793 17.3420 17.3822 17.3924 15.6338 15.5983 15.5870 15.5698

SSIM 0.7802 0.7906 0.7954 0.7980 0.6992 0.6961 0.6950 0.6932

MANUAL_ BW POCS NC


PSNR (dB) 14.9840 14.9840 14.9840 14.9840 3.6587 3.6634 3.6656 3.6668

SSIM 0.5412 0.5412 0.5412 0.5412 0.1268 0.1294 0.1306 0.1314


apresentados nas tabelas 4.2 e 4.5 observa-se a superioridade do método de registro de KE,

sobre os demais.

INT

IBP_R POCS

NC

100

Experimento 5: foram avaliados os métodos de reconstrução disponíveis na SRT que

são MAP_SD, MAP_GC e MAP_TV. Esses métodos foram aplicados a sequências de 4, 6, 8

e 10 imagens LR geradas pela SRA uma vez que não existe esse recurso na SRT. As imagens

referentes ao alvo teste (ISO 12223) foram reamostradas de um fator 4, o método registro

utilizado foi o CA, que utiliza correlação cruzada normalizada (detalhes no APÊNDICE 7.2).

Os resultados apresentados na FIG. 4.21 e pela TAB. 4.7 indicam que o melhor

desempenho foi alcançado pelo método MAP_GC, o segundo melhor resultado foi obtido

pelo método MAP_TV. O método que apresentou o pior desempenho foi o MAP_SD.

FIG. 4.21: Resultado dos mapas de similaridades (SSIM_map) do experimento 5, registro

CA, aplicados a conjuntos de 4 imagens LR, reconstrução MAP_GC(esquerda),

MAP_TV(direita), MAP_SD (acima).

101

TAB. 4.7: Resultado registro CA, reconstrução MAP_SD, MAP_GC e MAP_TV.

CA_ BW MAP_TV

4LR 6LR 8LR 10LR

PSNR (dB) 12.6857 13.2235 12.6019 11.7558

SSIM 0.6206 0.6473 0.5987 0.5147

CA_ BW MAP_SD MAP_GC


PSNR (dB) 12.6377 12.6665 12.3666 11.4732 12.8667 13.4744 12.8721 12.0012

SSIM 0.6361 0.6765 0.6311 0.5549 0.6268 0.6734 0.6309 0.5641

CA_IMG0570 MAP_SD MAP_GC MAP_TV

PSNR (dB) 17,2841 17,6971 17,3405

SSIM 0,1752 0,2628 0,1544


apresentados nas tabelas 4.2, 4.5 e 4.6 observa-se a superioridade do método de KE sobre os

demais métodos.

Experimento 6: foram avaliados os métodos de reconstrução disponíveis na MDSP

que são SAD e suas variações além do método IBP_R modificado e da Interpolação com

spline cúbica (APÊNDICE 7.2). As imagens em tons de cinza (BW) e as imagens coloridas

(COLOR) geradas a partir do alvo teste e da IMG0570 foram registradas através do método

de registro FO (APÊNDICE 7.1) utilizando recurso de geração de imagens LR a partir de

imagem HR disponível na MDSP.

A imagem BW foi reconstruída através dos seguintes métodos SAD, Bilateral SAD, SAD

com remoção de borramento iterativa, Bilateral SAD com remoção de borramento iterativa,

Mediana SAD, Mediana SAD com remoção de borramento iterativa, SAD com norma L2

iterativa, SAD com norma L1 iterativa, SAD com norma L2 com regularização L1, IBP_R com

regularização L2, IBP_R com regularização L1, Interpolação com spline cúbica. Todos esses

métodos são descritos no APÊNDICE 7.2. A partir da análise dos valores do PSNR e do SSIM

verificou-se que o método que apresentou melhores resultados nessa etapa foi o SAD com norma

L2 e regularização L1(APÊNDICE 7.2), denominado SAD_N2L1 ao longo deste trabalho.

102

A imagem COLOR foi reconstruída através do método SAD iterativo denominado

ITER_SAD ao longo deste trabalho. Os resultados obtidos para a imagem BW podem ser

observados nas figuras 4.22 e 4.23 e pela TAB. 4.8. Pode-se observar que o método que

apresentou melhor desempenho foi o SAD_N2L1.

Aplicando o melhor método SAD_N1L2 a conjuntos distintos de 10 e 80 imagens LR,

observa-se através dos mapas de similaridade equivalentes a cada conjunto que o conjunto de

80 imagens apresentou desempenho superior ao de 10 imagens, resultado este que pode ser

visualmente constatado na FIG. 4.24 e numericamente na TAB. 4.8.

FIG. 4.22: SSIM_Map gerado a partir de 80 imagens LR, registro FO, reconstrução (da

esquerda para a direita, de cima para baixo) (1) SAD, (2) Bilateral SAD, (3) S&A com

remoção de borramento iterativa, (4) Bilateral SAD com remoção de borramento iterativa, (5)

Mediana SAD, (6) Mediana SAD com remoção de borramento iterativa.

103

(1)

FIG. 4.23: SSIM_Map gerado a partir de 80 imagens LR, registro FO, reconstrução (da esquerda

para a direita, de cima para baixo) (7) SAD com norma L2 iterativa, (8) SAD com norma L1

iterativa, (9) SAD com Norma L2 e com regularização L1, (10)IBP_R com regularização L2,

(11) IBP_R com regularização L1, (12) Interpolação com spline cúbica.

104

FIG. 4.24: SSIM_Map gerado a partir de 10 imagens LR (esquerda) e 80 imagens LR

(direita) registro FO, reconstrução SAD_N2L1.

TAB. 4.8 Resultado do método SAD_N2L1, registro FO aplicado a conjuntos de 10, 20,

40 e 80 imagens.

SAD_N2_L1_BW 10LR 20LR 40LR 80LR

PSNR (dB) 30.8721 31.1521 32.2016 31.9343

SSIM 0.9824 0.9872 0.9899 0.9895

TEMPO EM (s) 114 203 380 719


apresentados nas tabelas 4.2, 4.5, 4.6 e 4.7, observa-se a superioridade do método de registro

de FO e do método de reconstrução SAD sobre os demais métodos aplicados às imagens BW.

Os resultados obtidos para a imagem colorida IMG0570 podem ser observados na FIG

4.25 e pela TAB. 4.9.

Aplicando o método ITER_SAD a conjuntos de 10, 20, 40 e 80 imagens LR observa-se

através dos mapas de similaridade equivalentes a cada conjunto que o conjunto de 20 imagens

foi o que apresentou melhor desempenho quanto ao PSNR tendo apresentado pequena

discrepância quanto ao SSIM.

105

(a)

(b)

(c)

(d)

FIG. 4.25: SSIM_Map gerado a partir de conjuntos de imagens LR, registro FO, reconstrução

ITER_SAD. (a) 10 imagens, (b) 20 imagens, (c) 40 imagens e (d) 80 imagens.

106

TAB. 4.9: Resultado do método ITER_SAD, registro FO, aplicado a imagens coloridas.

IMG_0570_ ITER_SAD 10LR 20LR 40LR 80LR

PSNR (dB) 34.3453 34.6262 32.8465 30.1542

SSIM 0.9866 0.9708 0.9168 0.8295

TEMPO EM (s) 103 107 110 112

Em relação aos resultados que foram obtidos cabe ressaltar que o método SAD tem uma

vantagem no aspecto computacional sobre outros métodos, incluindo POCS. Nesse método,

uma função de custo robusta foi proposta, para o qual um número de métodos numéricos

eficientes de minimização (otimização) são aplicáveis (GC, PGC, Jacobi). Ao contrário disso,

POCS utiliza o steepest descent para minimização não robusta da norma L2 da função custo.

A robustez é alcançada através da modificação do método steepest descent, onde o operador

mediana é usado no lugar do operador de soma no cálculo do termo gradiente da função custo.

O mesmo esquema de substituição de operador soma pelo operador mediana em métodos

computacionalmente mais eficientes tais como o gradient descent não é uma tarefa simples.

Além disso, não há garantias que o steepest descent modificado e que a minimização do

gradiente conjugado convirjam para a mesma resposta.

Observou-se que no método SAD o modelo foi limitado para o caso do movimento de

translação em função das seguintes razões: (a) tal modelo permite uma dinâmica

extremamente rápida e eficiente de memória; (b) embora simples, o modelo se aproxima

bastante ao movimento contido em seqüências de muitas imagens, onde a cena está parada e

somente a câmara move-se em forma aproximadamente linear; (c) por possuirem altas taxas

de quadros, muitos modelos de movimento podem ser (ao menos localmente) aproximados

pelo modelo de translação.

107

4.2 RESULTADOS DA GERAÇÃO DE IMAGENS HR A PARTIR DE DADOS REAIS

Foram geradas imagens SR a partir de sequências de vídeo LR. Os dados resultantes

foram avaliados quanto a qualidade através do MOS conforme descrito no capítulo anterior.

Experimento 7: com base na análise dos resultados dos experimentos 1 a 6 (geração

de imagens SR a partir de dados simulados) pode-se constatar que os métodos que

apresentaram melhores desempenhos foram

*SRA Registro KE + Reconstrução NC;

*SRT Registro CA + Reconstrução MAP_GC;

*MDSP Registro FO + Reconstrução SAD_N2L1 (imagens em tons de cinza) e

Registro FO + Reconstrução ITER_SA (imagens coloridas no padrão bayer).

Para a avaliação subjetiva, o teste do MOS foi aplicado a conjuntos de imagens SR

gerados através dos métodos que obtiveram melhores resultados nos experimentos anteriores.

Foram utilizados 5 grupos de imagens de vídeo a partir dos 5 distintos sistemas de aquisição

dos 5 VANTs contemplados neste trabalho: ARARA-M1, CARCARÁ, RQ450, LANU e VT-

15. Para cada grupo foram geradas 3 imagens HR a partir do melhor método obtido em cada

interface gráfica, e verificados pelos experimentos anteriores. Os 5 grupos compostos por 3

imagens HR cada foram apresentados aos observadores. Cada observador associou uma nota

variando de 5 a 1, correspondendo à qualidade (excelente, boa, regular, pobre, ruim) para cada

imagem SR gerada.

O método que obteve melhores resultados no teste do MOS, conforme as tabelas 4.10 a

4.14, foi o MAP_GC. As figuras 4.26 a 4.30 ilustram as imagens resultantes da aplicação do

método MAP_GC às sequências de imagens reais.

108

FIG. 4.26: Imagem SR resultante do vídeo gerado pelo VANT Arara-M1, através do método

MAP_GC.

TAB. 4.10: Resultado do Mean Opinion Score VANT Arara-M1.

109

FIG. 4.27: Imagem SR resultante do vídeo gerado pelo VANT Carcará, através do método

MAP_GC.

TAB. 4.11: Resultado do Mean Opinion Score VANT Carcará.

110

FIG. 4.28: Imagem SR resultante do vídeo gerado pelo VANT RQ450, através do método

MAP_GC.

TAB. 4.12: Resultado do Mean Opinion Score VANT RQ450.

111

FIG. 4.29: Imagem SR resultante do vídeo gerado pelo VANT LANU, através do método

MAP_GC.

TAB. 4.13: Resultado do Mean Opinion Score VANT LANU.

112

FIG. 4.30: Imagem SR resultante do vídeo gerado pelo VANT VT-15, através do método

MAP_GC.

TAB. 4.14: Resultado do Mean Opinion Score VANT VT-15.

113

4.3 RESULTADOS DA GERAÇÃO DE MOSAICOS A PARTIR DE DADOS SIMULADOS

Experimento 8: incialmente a imagem HR IMG0570 foi dividida em 9 partes (FIG.

4.31), obedecendo as normas estabelecidas pelo recobrimento fotogramétrico. Na SRA, cada

imagem HR gerou 10 imagens LR representando um vídeo de baixa resolução de 90 quadros.

Optou-se por simular imagens LR somente na SRA em virtude da mesma modelar os

movimentos translacional e rotacional e também devido ao volume excessivo de arquivos (em

função do padrão Bayer) que é gerado nas simulações da MDSP (só modela o movimento

translacional) e na flexibilidade de formatos de saída da SRA.

FIG. 4.31: Posicionamento do recorte a11. (sendo IMG0570 a matriz Aij, 9x9).

A sequência simulada foi então submetida aos métodos NC (melhor resultado na SRA) e

MAP_GC (melhor resultado na SRT). As imagens SR resultantes foram então mosaicadas

através do Microsoft Image Composite Editor (FIG. 4.32, 4.33), em preto podemos observar o

erro devido ao processo de registro.

Os resultados são apresentados nas tabelas 4.15 a 4.17 e pela FIG. 4.34.

FIG. 4.32: Mosaicagem de imagens a partir de dados simulados (imagem fonte HR

IMG0570). (esquerda) Imagem Original, dividida em 9 partes iguais (direita) mosaicagem das

SR.

114

FIG. 4.33: Aplicação de técnicas de SR na construção de mosaicos. (esquerda) mosaico

LR, (direita) mosaico HR através do método NC.

FIG. 4.34: (acima, esquerda) mosaico de imagens LR (93x64), (acima, direita) zoom 10x

aplicado ao mosaico, (abaixo) mosaico HR (1269x506) a partir do método de SR

(CA+MAP_GC).

115

TAB. 4.15: Avaliação dos métodos NC e MAP_GC aplicado a imagens LR´s simuladas a

partir da IMG_a11.

IMG_a11_HR NC MAP_GC

PSNR (dB) 19,76 17,6971

SSIM 0,6537 0,2628

TAB. 4.16: Avaliação do mosaico gerado a partir de 3 images SR.

M1_3IMG(a11, a12,

a13)_M_ICE NC MAP_GC

PSNR (dB) 24,034 24,0405

SSIM 0,7056 0,7077

TAB. 4.17: Avaliação do mosaico gerado a partir de 6 imagens SR.

M2_6IMG(a11, a12, ... , a23)_M_ICE NC MAP_GC

PSNR (dB) 23,3477 17,79

SSIM 0,545 0,26

4.4 CONCLUSÕES

Neste Capítulo foram descritos os resultados da aplicação de métodos de SR (métodos de

registro e de reconstrução) a distintos grupos de sequências de imagens LR reais (oriundas de

câmara de vídeo) e simuladas a partir de uma imagem HR (oriunda de câmara fotográfica),

em três diferentes interfaces gráficas para usuários (GUI). Também foram apresentados os

resultados da aplicação de técnicas de SR à mosaicos com vistas a otimizar a aquisição de

imagens através de um voo videográfico.

As imagens geradas através de sequências simuladas e as imagens que compuseram o

mosaico foram avaliadas por métricas objetivas totalmente referenciadas por haver uma

imagem ground-truth para comparação. Foram utilizados neste processo o PSNR e o SSIM.

As imagens geradas através de sequências reais foram avaliadas por métricas subjetivas por

não haver uma imagem de referência para comparação. Foram utilizados neste processo o

teste do MOS.

Os resultados obtidos confirmam a necessidade de utilização de um algoritmo robusto de

registro. O método de registro KE obteve os melhores resultados quando comparado com os

métodos VA, LU e MA.

116

Os métodos de reconstrução baseados em modelos matemáticos que possuíam termos de

regularização (para potencializar a remoção de ruído e borramento), tais como Tikhonov e

Total Variation associados a otimizações steepest descent e gradient descent apresentaram

superioridade quando comparados com métodos convencionais, tais como POCS e IBP_R.

Destaca-se a superioridade do método de registro CA associado à reconstrução MAP_GC

para os dados reais. Para os dados simulados destacaram-se o registro FO seguido de

reconstrução SAD_N2L1 para imagens em tons de cinza e FO seguido de ITER_SAD para a

modelagem específica de imagens coloridas (imagens filtradas).

117

5 CONCLUSÕES E TRABALHOS FUTUROS

5.1 CONCLUSÕES

Da revisão bibliográfica, da concepção metodológica proposta para essa pesquisa, dos

experimentos realizados, dos resultados e análises apresentadas, é possível estabelecer

algumas conclusões.

Devido à necessidade de se obter o controle do processo de aquisição, existe a

necessidade de tratar com distinção dados reais e dados simulados quando submetidos às

técnicas de SR. Isto se dá devido ao fato de que o registro ou estimação de movimento é a

etapa mais importante da SR. Quando os parâmetros de aquisição dos dados reais são

conhecidos (voo controlado) existe um domínio do processo, que possibilita a identificação

da melhor técnica de SR.

Os conjuntos de métodos da SRA apresentam diversidade quanto aos métodos de registro

e reconstrução, sendo geradas imagens SR de melhor qualidade quando associados o registro

KE e a reconstrução NC. No entanto existem limitações no que se refere a volume de dados.

Trata-se de uma inconsistência em relação à teoria que estabelece que, quanto maior o volume

da sequência maior a probabilidade de aumento de resolução. Nesse contexto o aumento do

número de imagens demanda métodos cada vez mais robustos para realizar com êxito o

alinhamento entre as imagens (registro) e, consequentemente, eleva o custo computacional.

Os conjuntos de métodos da SRT utilizam diferentes termos de regularização e técnicas

de otimização ao método MAP, em especial o método MAP_GC associado ao registro CA,

comprovaram ser a combinação mais eficiente para se obter uma imagem SR a partir de

dados reais.

Os conjuntos de métodos da MDSP, embora apresentem potencialidades que a

distinguem das demais na geração de simulações e métodos de registro e de reconstrução

modernos e com melhores desempenhos segundo a bibliografia, não possuem uma

documentação detalhada em relação a sua estruturação, o que inviabiliza tecnicamente muitos

de seus aplicativos. A combinação registro FO e reconstrução SAD_N2L1 é a mais

recomendada para a geração de imagens SR BW e a combinação registro FO e reconstrução

ITER_SAD apresenta excelente qualidade quando aplicada a imagens COLOR filtradas no

padrão Bayer.

118

Em relação ao estudo de caso da simulação de um voo videográfico em faixas, através da

construção de um mosaico, a análise dos resultados constatou que a mosaicagem não interfere

na SR de modo a prejudicar a visualização do terreno e a identificação de alvos. Também não

há perda significativa na qualidade da imagem conforme comprovaram os valores do PSNR e

do SSIM.

A conclusão principal desta pesquisa é a de que o sucesso das técnicas de SR, assim

como a videografia aérea digital (VAD), depende do total controle de atitude do movimento

do sensor e da plataforma. Quanto maior o planejamento da aquisição (projeto de voo), mais

parâmetros são conhecidos acerca do instante de aquisição da cena e maiores são as

possibilidades de identificação e posicionamento de alvos. Diante do que foi apresentado

existe indicadores da potencial aplicação das técnicas de SR ao processo cartográfico como

um todo.

5.2 TRABALHOS FUTUROS

Visando dar continuidade ao que foi apresentado nesta pesquisa são propostas as

seguintes sugestões para trabalhos futuros

Realização de um voo videográfico controlado (projeto de voo) executado pelos VANTs

abordados nessa pesquisa, com câmara apontada para o nadir e zoom óptico fixo, para que

possa haver controle no processo de aquisição e possibilidades de aplicação das técnicas

videográficas segundo os conceitos da aerofotogrametria;

Estudar os efeitos da compressão nas imagens VANT (por ocasião da transmissão de

dados em tempo real), geradas através de vídeos com diferentes tamanhos de quadro, em

diferentes taxas e com diferentes CODECs. Avaliar a contribuição das técnicas de SR através

da análise métrica objetiva dos resultados;

Gerar pares estereoscópicos a partir de um voo VANT e estudar a potencialidades de

aplicação da SR ao processo fotogramétrico;

Utilização das imagens e técnicas de SR para a construção de produtos cartográficos;

Utilização de técnicas de SR simultânea (na qual é gerada uma sequência de imagens HR

ao invés de uma única imagem HR) aplicadas aos dados gerados por videografia VANT;

Otimização da etapa de registro a partir da implementação de algoritmos mais robustos

que permitam variações de movimento mais complexas;

119

Integração à metodologia deste trabalho das técnicas de Wavelets (TAKEMURA, 2010),

MAP_GC simultânea (ZIBETTI, 2007) e POCS utilizando Interpolação Sync (TELLES Jr,

2008);

Coletar amostras em terrenos com relevo plano e acentuado para obtenção de pontos de

controle visando a produção de uma ortoimagem a partir de imagens SR;

Estudo de utilização dos aplicativos relacionados estimativa robusta de movimento;

Aplicação das técnicas de Change Detection (CD) às imagens VANT.

120

6 REFERÊNCIAS BIBLIOGRÁFICAS

AGX. VANT ARARA AGX. Email para AGX TECNOLOGIA ([email protected])

[mensagem capturada em 25 mar. 2010].

ALAM, M. S., BOGNAR, J. G., HARDIE, R. C. e YASUDA, B. J. Infrared image

registration using multiple translationally shifted aliased video frames. IEEE

Instrum. Meas. Mag., 49(5), Oct 2000.

ALMEIDA, L. L, TOMASELLI, A. M. G. Melhoramento da resolução a partir de

sequência de imagens. Boletim de Ciências Geodésicas. Artigos. Curitiba, v.9, n°2,

p.163-178, jul-dez, 2003.

ASPRS. Digital photogrammetry an addendum to the manual of photogrammetry.

Estados Unidos The American Society for Photogrammetry and Remote Sensing, 1997.

AXIS. Manual da Câmara Axis 233D. Disponível em:

http://www.axis.com/products/cam_233d/ [capturado em 2 agosto 2010].

BORMAN, S. e STEVENSON, R. Spatial resolution enhancement of low-resolution

image sequences - a comprehensive review with directions for future research.

University of Notre Dame, 1998.

BOSE, N. K., KIM, H. C. e VALENZUELA, H. M. Recursive implementation of total least

squares algorithm for image reconstruction from noisy,undersampled multiframes.

Proceedings of the IEEE Conference on Acoustics, Speech and Signal Processing,

volume 5, pages 269–272, 1993.

BITTENCOURT, F. F. B., COSTA, L. A. da., TELLO, J. C. R., BITTENCOURT, D. da C.

Desenvolvimento do SISVDA – Sistema de videografia Digital de alta resolução

espacial. Anais XV Simpósio Brasileiro de Sensoriamento Remoto - SBSR, Curitiba, PR,

Brasil, 30 de abril a 05 de maio de 2011, INPE p.8992

BRASIL. MEMÓRIA 013. Projeto VANT. Centro Tecnológico do Exército (CTEx), Rio de

Janeiro, RJ, 21 setembro 2009.

BRASIL. Portaria Normativa n° 606/MD, de 11 de junho de 2004. Diretriz de Obtenção de

Veículo Aéreo Não Tripulado (VANT). Diário Oficial da União (DOU), 14 junho 2004.

BROWN, L. G. A survey of image registration techniques. ACM Comput. Surv. 24(4), pp.

325-376, 1992.

CANDOCIA, F. M. e PRINCIPE, J. C. Superresolution of images based on local

correlations. IEEE Transactions on Neural Networks 10 (2) (1999) 372– 380.

CAPEL, D. Image mosaicing and super-resolution. Ph.D. dissertation, University of

Oxford, 2001.

http://www.axis.com/products/cam_233d/

121

CAPEL, D. e ZISSERMAN, A. Computer vision applied to super resolution. IEEE Signal

Processing Magazine 20, pp. 75-86, May 2003.

CHAUDHURI, S. Super Resolution Imaging. Norwell, MA Kluwer, 2001. 279 p.

CTEx. Pereira. A. R. Pesquisa e desenvolvimento de veículo aéreo não tripulado no

CTEX. In Anais do I Simpósio do DCT sobre Veículo Aéreo Não Tripulado (I

SIMVANT), Brasília, Julho 2008.

DSG. Projeto Radiografia da Amazônia - 2008, 2008. Disponivel http

//www.dsg.eb.mil.br/prjram/ [capturado em 2 agosto 2010].

ELAD, M. e FEUER, A. Restoration of single super-resolution image from several

blurred, noisy and down-sampled measured images. IEEE Trans. Image Processing,

vol. 6, no. 12, pp. 1646-1658, Dec. 1997.

ELAD, M. e HEL-OR, Y. A fast super-resolution reconstruction algorithm for pure

transla-tional motion and common space invariant blur. IEEE Trans. Image

Processing, vol. 10, no. 8, pp. 1187-1193, Aug. 2001.

EURASIP journal on applied signal processing. Special issue on super-resolution. 2005.

FARSIU, S., ELAD, M. e MILANFAR, P Multi-frame demosaicing and super-resolution

from under-sampled color images. Proc. of the 2004 IS&T/SPIE 16th Annual

Symposium on Electronic Imaging, Jan. 2004a.

FARSIU, S. MDSP Resolution Enhancement Software Users Manual. MDSP Lab,

University of California at Santa Cruz, USA, 2004b. Disponivel http

//www.soe.ucsc.edu/ milanfar [capturado em 10 novembro 2010].

FARSIU, S., ROBINSON, D. e MILANFAR, P. MDSP resolution enhancement software.

2004c. Disponivel http //www.soe.ucsc.edu/ milanfar/SR-Software.htm [capturado em

10 novembro 2010].

FARSIU, S., ROBINSON, D., ELAD, M. e MILANFAR, P. Advances and challenges in

super-resolution. Invited paper to appear in the Inter-national Journal of Imaging

Systems and Technology, Summer 2004d.

FARSIU, S., ROBINSON, D., ELAD, M. e MILANFAR, P. Fast and robust multi-frame

super-resolution. To appear in IEEE Trans. Image Processing, Oct. 2004e.

FARSIU, S., ROBINSON, D., ELAD, M. e MILANFAR, P. Fast dynamic super-resolution.

Proc. SPIE's Conf. on Image Reconstruction from Incomplete Data, Denver, CO. Aug.

2004f.

FARSIU, S., ROBINSON, D., ELAD, M. e MILANFAR, P. Robust shift and add approach

to super-resolution. Proc. of the 2003 SPIE Conf. on Applications of Digital Signal and

Image Processing, pp. 121-130, Aug. 2003.

http://users.soe.ucsc.edu/~milanfar/software/superresolution.html

http://users.soe.ucsc.edu/~milanfar/research/

122

FERREIRA, J. M. C. Obtenção de Ortomosaico a partir de câmara fotográfica digital

não-métrica. Mestrado, Dissertação. Departamento de Engenharia Cartográfica, Instituto

Militar de Engenharia, Rio de janeiro. p. 165. 2001.

FISCHLER, M. A. e BOLLES, R. C. Random sample consensus A paradigm for model

fitting with applications to image analysis and automated cartography. Comm.

Assoc. Comp.Mach., 24(6) 381-395, 1981.

FONSECA, L.M. G.; MANJUNATH, B.S. Registration Techniques for Multisensor

Remotely Sensed Imagery. Photogrammetric Engineering & Remote Sensing, Vol. 62,

nº 9, September 1996, pp. 1049-1056.

GALO, M., HASEGAWA, J. K., TOMMASELLI, A. M. G. Avaliação geométrica de

câmaras de vídeo para uso em fotogrametria digital. Congresso Brasileiro de

Cartografia, 1999.

GALVIN, B., MCCANE, B., NOVINS, K., MASON, D., e MILLS, S. Recovering motion

fields An evaluation of eight optical flow algorithms. Proceedings of the British

Machine Vision Conference, pp. 454-460, September 1998.

GEVREKCI, M., GUNTURK, B. K. MATLAB Functions for Super Resolution User

Interface. 2006. Electrical & Computer Engineering, Louisiana State University.

Disponível http // www.ece.lsu.edu/ipl/Demos.html / [capturado em 21 de janeiro de

2010].

GERCHBERG, R. W. Super-resolution through error energy reduction. Optica Acta 21,

pp. 709–720, 1974.

GONZALEZ, R. C., WOODS, R. E., EDDINS, S. L. Digital Image Processing Using

MATLAB. New Jersey Prentice Hall, 1998.

GUNTURK, B. K. e GEVREKCI, M. High-Resolution Image Reconstruction from

Differently Exposed Images. IEEE Signal Processing Letters, vol.13, no. 4, pp.197-200,

April 2006.

HARRIS, C. J. E STEPHENS, M. A combined corner and edge detector. In Proc. 4th

Alvey Vision Conference,Manchester, pages 147.151, 1988.

HUYNH-THU, Q.; GHANBARI, M. (2008). Scope of validity of PSNR in image/video

quality assessment. Electronics Letters 44 (13) 800–801.

IBGE. Processo cartográfico. Disponível http

//www.ibge.gov.br/home/geociencias/cartografia/manual_nocoes/processo_cartografico.h

tml [capturada em 20 de março de 2011].

IEEE Signal Processing Magazine. Special issue on super-resolution. May 2003.

http://www.ece.lsu.edu/ipl/Demos.html%20/

http://www.ece.lsu.edu/ipl/Published_Papers/IEEE_SPL2006.pdf

http://www.ece.lsu.edu/ipl/Published_Papers/IEEE_SPL2006.pdf

http://www.ibge.gov.br/home/geociencias/cartografia/manual_nocoes/processo_cartografico.html



123

IMAGEFUSION. 2008. Disponível http //www.imagefusion.org/ [capturada em 23 de

janeiro de 2010].

INPE. Projeto GEOMA. 2006. Disponivel http

//www.dpi.inpe.br/geoma/videografia/relatorio.pdf [capturado em 3 maio 2010].

INTERGRAPH. Resolução espacial. Disponível http

//www.intergraph.com/applications/events/cameraconference2007/W2-

Keynote_RReulke.pdf [capturado em 21 de janeiro de 2010].

IRANI, M. e PELEG, S. Improving resolution by image registration. CVGIP Graphical

Models and ImageProcessing 53, pp. 231-239, May 1991.

ISO 12233, Photography - Electronic still picture imaging - Resolution and spatial

frequency responses, 2011.

ITU-R 500-5, Method for the subjective assessment of the quality of television pictures,

International Telecommunication Union, Sep, 1992.

KANG, M. J. E. A. The Digital Image Acquisition of High-Resolution by Enhancement

the Multiple Images. ASPRS - Proceedings - Launching the Geospational Information

Age. Washington. 2000.

KATARTZIS, A. e PETROU, M. Robust Bayesian estimation and normalized convolution

for super-resolution image reconstruction. IEEE CVPR Workshop on Image

Registration and Fusion, 2007.

KEREN, D., PELEG, S. e BRADA, R. Image sequence enhancement using sub-pixel

displacement. Proceedings IEEE Conference on Computer Vision and Pattern

Recognition, pp. 742-746, June 1988.

KIM, S. P. e SU, W. –Y. Subpixel accuracy image registration by spectrum cancellation.

in Proceedings IEEE International Conference on Acoustics, Speech and Signal

Processing, 5, pp. 153-156, April 1993.

KIM, S. P., BOSE, N. K. e VALENZUELA, H. M. Recursive reconstruction of high

resolution image from noisy undersampled multiframes. IEEE Transactions on

Acoustics, Speech, and Signal Processing 38, pp. 1013-1027, June 1990.

KRAUS, Karl. Fundamentals and standard processes. Institute for Photogrammetry Vienna

University of Technology. Volume I, 4ª Edição, 1992

LERTRATTANAPANICH, S. e BOSE, N. K. High resolution image formation from low

resolution frames using delaunay triangulation. IEEE Trans. Image Process., 11(12)

1427–1441, Dec 2002.

LILLESAND, T. M. e KIEFER, R. W. Remote Sensing and Image Interpretation; New

York. John Wiley & Sons. 2ed. 1987.

http://www.imagefusion.org/

http://www.intergraph.com/applications/events/cameraconference2007/W2-Keynote_RReulke.pdf



http://www.iso.org/iso/catalogue_detail.htm?csnumber=59419&lang=en&utm_source=ISO&utm_medium=RSS&utm_campaign=Catalogue

http://www.iso.org/iso/catalogue_detail.htm?csnumber=59419&lang=en&utm_source=ISO&utm_medium=RSS&utm_campaign=Catalogue

124

LUCAS, B e KANADE, T. An iterative image registration technique with an application

to sterio vision. In Proc. of DARPA Image Understanding Workshop, 1981, pp. 121–

130.

LUCCHESE, L. e CORTELAZZO, G. M. A noise-robust frequency domain technique for

estimating planar rototranslations. IEEE Transactions on Signal Processing 48, pp.

1769-1786, June 2000.

MANCAS-THILLOU, C. e MIRMEHDI, M. An Introduction to Super-Resolution Text.

Digital Document Processing Major Directions and Recent Advances, Springer-Verlag,

2007.

MARCEL, B., BRIOT, M. e MURRIETA, R. Calcul de translation et rotation par la

transformation de Fourier. Traitement du Signal 14(2), pp. 135-149, 1997.

MATLAB. Creating graphical user interface. Versão 7, The MathWorks, Inc., 2004.

MATLAB. MATLAB programming. Versão 7, The MathWorks, Inc., 2004.

MATLAB. R2009b documentation. Disponível http

//www.mathworks.com/help/index.html

MATLAB. Using MATLAB graphics. Versão 7, The MathWorks, Inc., 2004.

MILANFAR, P., Super-Resolution Imaging, CRC Press Taylor & Francis Group, Florida,

USA, 2010.

MIRMEHDI, M., THILLOU, C. M. An Introduction to Super-Resolution Text. Belgium,

2007.

NEWCOME, L. R. Unmanned Aviation A Brief History of Unmanned Aerial Vehicles.

American Institute of Aeronautics and Astronautic, Inc. Reston, VA. 2004.

NGUYEN, N. e MILANFAR, P. An efficient wavelet-based algorithm for image

superresolution. Proc. Int. Conf. Image Processing, vol. 2, 2000, pp. 351-354

OLIVEIRA, R. A. Concepção, Desenvolvimento e Aplicação do Banco de Imagens

Georreferenciadas no Contexto do Mapeamento Terrestre Móvel. Mestrado,

dissertação. Curso de Pós Graduação em Ciências Cartográfica. Presidente Prudente, p.

74. 2001.

PAPOULIS, A. A new algorithm in spectral analysis and band-limited extrapolation.

IEEE Transactions on Circuits and Systems 22, pp. 735–742, 1975.

PAPOULIS, A. Generalized sampling expansion. IEEE Transactions on Circuits and

Systems 24, pp. 652-654, November 1977.

PARK, S. C., PARK, M. K. e KANG, M. G. Super-resolution image reconstruction A

technical overview. IEEE Signal Processing Magazine 20, pp. 21-36, May 2003.

http://www.springer.com/uk/home/generic/search/results?SGWID=3-40109-22-173660007-0

125

PATTI, A. J., SEZAN, M. I., e TEKALP, A. M. Superresolution video reconstruction with

arbitrary sampling lattices and nonzero aperture time. IEEE Transactions on Image

Processing 6, pp. 1064-1076, August 1997.

PEREIRA, A. R. Pesquisa e desenvolvimento de VANT no CTEX. In Anais do I Simpósio

do DCT sobre Veículo Aéreo Não Tripulado (I SIMVANT). Brasília [s.n.]. julho 2008.

PHAM, T., VAN VLIET, L. e SCHUTTE, K. Robust fusion of irregularly sampled data

using adaptive normalized convolution. EURASIP Journal on Applied Signal

Processing, Vol. 2006, 2006, pp. 1–12.

POMPERMAYER NETO, P. Utilização da videografia aérea na detecção de áreas com

deficiências nutricionais em plantios de eucalipto. 2002. 75f. Dissertação (Mestrado

em Ciências Florestais), Escola Superior de Agronomia Luiz de Queiroz, Universidade de

São Paulo, Piracicaba, 2002.

PRATAP, R., Getting started with MATLAB 7 – A quick introduction for scientists and

engeneers, Oxford University Press, Inc., New York, 2006.

PRATT, W. K. Digital Image Processing. New York John Wiley & Sons, Inc., 3rd

ed., 2001.

PUC. Disponível em www.puc-rio.br [capturada em 23 de janeiro de 2010].

REDDY, B. S. e CHATTERJI, B. N. An fft-based technique for translation, rotation and

scale-invariant image registration. IEEE Transactions on Image Processing 5, pp.

1266-1271, August 1996.

REDWEIK, P. Fotogrametria Aérea. Departamento de Engenharia Geográfica, Geofísica e

Energia. Faculdade de Ciência da Universidade de Lisboa, 2007.

RHEE, S. H. e KANG, M. G. Discrete cosine transform based regularized high-resolution

image reconstruction algorithm. Opt. Eng., vol. 38, no. 8, pp. 1348-1356, Aug. 1999.

RICHARDSON, I., The H.264/AVC Advanced Video Compression Standard, Second

Edition Wiley 2010.

ROHAN. Point Spread Function. Disponível http //www-

rohan.sdsu.edu/doc/matlab/toolbox/images/deblurr9.html [capturado em 14 de junho de

2011].

RUBERT, C., FONSECA L. e VELHO, L. Super-Resolucao de Imagens de Sensores

Remotos Usando a Transformada de Cor YUV para Estimacao das Altas

Frequencias. IV Workshop dos Cursos de Computacao Aplicada. INPE, 2004.

SCHULTZ, R. R., MENG, L. e STEVENSON, R. L. Subpixel motion estimation for super-

resolution image sequence enhancement. Journal of Visual Communication and Image

Representation 9, pp. 38-50, March 1998.

http://www.puc-rio.br/

http://www-rohan.sdsu.edu/doc/matlab/toolbox/images/deblurr9.html

http://www-rohan.sdsu.edu/doc/matlab/toolbox/images/deblurr9.html

126

SHAH, N. R. e ZAKHOR, A. Resolution enhancement of color video sequences. IEEE

Trans. Image Processing, vol. 8, pp. 879-885, June 1999.

SILVA, I. Curso de Fotogrametria Digital. Deptº de Transportes da Escola de Engenharia

de São Carlos, USP; ExpoGEO; 1999. (cópias de transparências).

TAKEMURA, E. S. Algorítmos para super-resolução de imagens baseados nas filtragens

de wiener e adaptativa usando a transformada wavelet. 2010. Dissertação (Mestrado

em Engenharia Elétrica) – Universidade Federal do Rio de Janeiro, COPPE/UFRJ, 2010.

TANAKA, M. e OKUTOMI, M. A fast MAP-based super-resolution algorithm for

general motion. Electronic Imaging Computational Imaging IV, 6065 1–12, 2006.

TELLES JR., M.A.B.G. Super-resolução de imagens de sensoriamento remoto. 2008.

Doutorado, Tese. Instituto de Geociências, Universidade de Brasília, 2008.

TOM, B. C. e KATSAGGELOS, A. K. Resolution enhancement of monochrome and color

video using motion compensation. IEEE Transactions on Image Processing 10, pp. 278-

287, February 2001.

TSAI, R. Y. e HUANG, T. S. Multiframe image restoration and registration. Advances in

Computer Vision and Image Processing, T. S. Huang, ed., vol. 1, pp. 317-339, JAI Press,

1984.

UR, H. e GROSS, D. Improved resolution from subpixel shifted pictures. CVGIP

Graphical Models and Image Processing, 54(2) 181–186, 1992.

VANDERWALLE, P., KRICHANE, K., ZBINDEN, P. Superresolution graphical user

interface Documentation. Disponível http

//lcav.epfl.ch/reproduceble_research/VanderwalleSV05/SRTechDoc.pdf [capturado em

10 de outubro de 2010].

VANDEWALLE, P., P., SÄUSSTRUNK, S. e VETTERLI, M. A frequency domain

approach to registration of aliased images with application to super-resolution.

Accepted to EURASIP Journal on Applied Signal Processing, Special Issue on Super-

Resolution Imaging, 2005.

VANDEWALLE, P., ZBINDEN, P., SÄUSSTRUNK, S. e VETTERLI, M. Super-resolution

software. 2007. Disponivel http //lcav.epfl.ch/software/superresolution [capturado em 10

novembro 2010].

VIDEO LAN. Video Lan Client. Disponível www.videolan.org [capturado em 7 outubro de

2010].

VIRTUALDUB. VirtualDub. Disponível www.virtualdub.org [capturado em 7 outubro de

2010].

WANG, Z., BOVIK, A. C. A universal image quality index. IEEE Signal Processing

Letters, v. 9, p. 81-84, March 2002.

http://lcav.epfl.ch/reproduceble_research/VanderwalleSV05/SRTechDoc.pdf

http://lcav.epfl.ch/reproduceble_research/VanderwalleSV05/SRTechDoc.pdf

http://lcav.epfl.ch/software/superresolution

http://www.videolan.org/

http://www.virtualdub.org/

127

WANG, Z., BOVIK, A. C., SIMONCELLI, E. P. Structural approaches to image quality

assessment. Handbook of Image and Video Processing. 2. ed. San Diego [s.n.], 2005.

WANG, Z., BOVIK, A., SHEIKH, H. R., e SIMONCELLI, E. P. Image quality assessment

From error visibility to structural similarity. IEEE Trans. On Image Processing, Vol.

13, no. 4, 600-612, April 2004.

WANG, Z., LU, L., BOVIK, A. C. Video quality assessment using structural distortion

measurement. In International Conference on Image Processing. [S.1. s.n.], 2002. v.3, p.

65-68.

WANG, Z., SIMONCELLI, E. P., BOVIK, A. C. Multiscale structural similarity for image

quality assessment. In Conference Record of the Thirty-Seventh Asilomar Conference

on Signals, System and Computers. [S.1. s.n.], 2003. v. 2, p. 1398-1402.

WILLETT, R. M., ET AL. Wavelet-based superresolution in astronomy. Proceedings of

the Astronomical Data Analysis Software and Systems (ADASS) XIII, Strasbourg,

France, 2004, pp. 107.

WILLIAMS, D., BURNS, P. D. Low-Frequency MTF Estimation for Digital Imaging

Devices using Slanted Edge Analysis. Anais do SPIE, Volume 5294, 2004. Disponivel

http //www.i3a.org/downloads_iso_tools.html [capturado em 3 maio 2010].

YEN, L. J. On non-uniform sampling of bandwidth limited signals. IRE Transactions on

Circuits Theory, 3(4) 251–257, 1956

ZHANG, L., ZHANG, H., SHEN, H., ZHANG, P. L. A super-resolution reconstruction

algorithm for surveillance images. Disponível http

//www.lmars.whu.edu.cn/973/links/admin/edit/UploadFile/2011223171644341.pdf

[capturado em 03 de junho de 2010].

ZIBETTI, M. V. W. Super-resolução Simultânea para Seqüencias de Imagens. Doutorado,

Tese. Departamento de Engenharia Elétrica. Universidade Federal de Santa Catarina,

2007.

ZITOVA, B. e FLUSSER, J. Image registration methods a survey, Image and Vision

Computing 21 (2003), 977–1000.

ZOMET, A. e PELEG, S. Multi-sensor super resolution. in In Proc. of the IEEE Workshop

on Applications of Computer Vision, pp. 27-31, December 2002.

ZOMET, A., RAV-ACHA, A. e PELEG, S. Robust super resolution. in In Proc. of the Int.

Conf. on Computer Vision and Patern Recognition (CVPR), vol. 1, Dec. 2001, pp. 645-

650.

http://www.lmars.whu.edu.cn/973/links/admin/edit/UploadFile/2011223171644341.pdf

http://www.lmars.whu.edu.cn/973/links/admin/edit/UploadFile/2011223171644341.pdf

http://pessoal.utfpr.edu.br/marcelozibetti/arquivos/tese.pdf

128

7 APÊNDICES

129

7.1 APÊNDICE 1: MÉTODOS DE REGISTRO UTILIZADOS

130

MÉTODOS DE REGISTRO UTILIZADOS NA SRA

(VA) - VANDEWALLE ET AL. (2005)

Este método desenvolvido na EPFL utiliza a propriedade de que um deslocamento no

domínio espacial é traduzido em uma mudança linear na fase da Transformada de Fourier

da imagem. Da mesma forma, uma rotação no domínio espacial é visível na

amplitude da Transformada de Fourier.

Assim, nesse método de registro calcula-se a Transformada de Fourier das imagens e

determinam-se os deslocamentos 1-D em ambas as suas amplitudes e fases. Uma

as vantagens deste método é que ele descarta as componentes de alta frequência onde possa

ter ocorrido o aliasing, a fim de ser mais robusto.

(MA) - MARCEL ET AL. (1997)

O método é similar ao proposto por VANDEWALLE ET AL. (2005), utiliza

análises no domínio da frequência a fim de determinar o deslocamento e a rotação.

(LU) - LUCCHESE ET AL. (2000)

Desenvolveu um método de estimativa da rotação baseado na seguinte propriedade a

magnitude da Transformada de Fourier de uma imagem e a versão espelho da magnitude da

imagem rotacionada possue um par de linhas ortogonais “zero-crossing”. O ângulo que estas

linhas fazem com os eixos é igual à metade do ângulo de rotação entre duas imagens.

Os deslocamentos horizontal e vertical são estimados a partir de métodos de

correlação de fase.

(KE) - KEREN ET AL (1988)

O algoritmo de estimativa de movimento proposto por KEREN ET AL. (1988) utiliza

diferentes versões de subamostragem das imagens analisadas a fim de alcançar seu

objetivo. Primeiramente a imagem é subamostrada de um fator igual a 4 (4x) e essa versão é

utilizada para realizar uma estimativa do deslocamento e rotação utilizando série de Taylor. O

mesmo é feito com a imagem subamostragem de um fator igual a 2 (2x), mas após correção

para os deslocamentos e rotações estimado anteriormente. Finalmente, o mesmo é feito com

as imagens de alta resolução para o refinamento ainda maior das estimativas.

131

MÉTODO DE REGISTRO UTILIZADOS NA SRT

(CA) - CAPEL (2001)

O método de registro utilizado por GEVREKCI & GUNTURK (2006) na SRT foi

descrito por CAPEL (2001), consiste basicamente do cálculo da matriz de homografia 2D

entre duas imagem através das seguintes etapas

1. Identificação de pontos característicos cálculo dos pontos de interesse (pontos

característicos) em cada imagem com acurácia sub-pixel, como por exemplo, detecção dos

cantos proposta por HARRIS & STEPHENS (1988).

2. Correspondência preliminar: cálculo da correspondência de um conjunto inicial de

pontos de interesse baseado na proximidade e similaridade com base na intensidade da

vizinhança (nornalized cross correlation).

3. Estimação robusta: através do algoritmo RANSAC (FISCHLER & BOLLES, 1981) repetir

o procedimento para N amostras

(a) Selecionar uma amostra aleatória de quatro correspondências e calcular o homografia H;

(b) Calcular um erro de distância geométrica de imagem para cada suposta correspondência;

(c) Calcular o número de inliers consistente com H pelo número de correspondências para o

qual o erro a distância é inferior a um limiar. Escolher o H com o maior número de inliers.

4. Estimativa ideal: H é novamente estimada a partir de todas

as correspondências classificadas como inliers, maximizando a função de

verossimilhança usando um método de otimização numérica.

5. Correspondência guiada: correspondências depontos adicionais são agora determinadas

usando a matriz H estimada para definir uma região de busca. As duas últimas etapas podem

ser iteradas até que o número de correspondências seja estável (atinjam o critério de

convergência).

132

FIG. 7.1: (acima) cálculo da matriz de homografia que relaciona os

pontos. (abaixo) estabelecimento da correspondência entre as imagens (CAPEL, 2001).

133

MÉTODO DE REGISTRO UTILIZADOS NA MDSP

(FO) - FLUXO ÓPTICO POR DIRK ROBINSON (FARSIU, 2004)

Esse método se baseia nos campos de fluxo geral (sem restrições) que não costumam ser

descritos por qualquer modelo paramétrico global. Diferentes modelos locais têm sido usados

para facilitar o processo de estimação, incluindo (a) fluxo constante dentro de uma janela

local ou (b) fluxo contínuo. O primeiro facilita a estimativa direta local, enquanto que

o último modelo requer técnicas iterativas de relaxação, também existem os autores que

combinam estes dois tipos de modelos locais. O modelo local escolhido por ROBINSON foi o

fluxo constante dentro de uma janela de pixels 5x5 em cada nível da pirâmide. Este é o

modelo Sarne como o usado por LUCAS & KANADE (1981) que na MDSP foi incorporado

como um modelo local.

134

7.2 APÊNDICE 2: MÉTODOS DE RECONSTRUÇÃO UTILIZADOS

135

MÉTODOS DE RECONSTRUÇÃO UTILIZADOS NA SRA

(IBP) - ITERATIVE BACK PROJECTION (IRANI & PELEG, 1991)

Segundo ZIBETTI (2007) a IBP é uma técnica iterativa criada a partir de modificações

das técnicas de Back Projection utilizadas em tomografia computadorizada. Estas técnicas

também estão entre as mais antigas aplicadas na área de super-resolução. O IBP utiliza um

procedimento iterativo de minimização do erro entre dados e a saída do modelo teórico,

segundo:

∑ (

) (7.1)

sendo que n é a iteração corrente e é operador de Back Projection.

Os métodos IBP são bastante similares aos métodos iterativos para solução de mínimos

quadrados, como steepest descent, Jacobi e Gauss-Seidel. Uma das grandes vantagens desses

métodos é a velocidade de convergência. Entretanto, para que se obtenha uma grande

velocidade de convergência, o operador de back projection deve ser escolhido para tal.

FIG. 7.2: Um exemplo do método IBP (PARK ET AL., 2003).

Devido ao problema de super-resolução ser mal condicionado, o operador de back

projection deve ser muito bem especificado; caso contrário, a solução pode divergir ou será

dependente da estimativa inicial. Isso ocorre porque esses métodos nem sempre apresentam

136

uma formulação adequada para a função custo. Sem isso não se pode garantir unicidade e

estabilidade da solução. Outro problema é que se está restrito a uma mesma ferramenta

iterativa para encontrar a solução e não há condições de inserir facilmente informações a

priori sobre a solução. Devido a essas limitações, esses métodos foram desconsiderados para

desenvolvimento neste trabalho.

(IBP_R) - ITERATIVE BACK PROJECTION ROBUSTO (ZOMET ET AL., 2001)

Um método de SR robusto foi proposto tendo por base o conceito do método IBP.

[∑ ‖ ‖

] (7.2)

Obtém-se a robustez modificando o gradiente da noma L2 da função custo (7.2).

∑ ∑

( ) ∑

(7.3)

em que é o gradiente resultante do quadro k e representa o vetor residual. Eles

substituíram (7.3) com a seguinte aproximação :

(7.4)

onde MED, onde é um operador “pixelwise median”. Em seguida, uma minimização

através do método “steepest descent” foi utilizada para calcular onde é o tamanho do

passo na direção do gradiente.

(7.5)

Observa-se que para certos cenários de imagens, o gradiente aproximado (7.4) é zero em

todas as iterações, o que significa que a HR na enésima iteração ( ) é o mesmo quadro da

estimativa inicial, então o método falha. Para apreciar este fato, vamos começar com uma

caixa quadrada em que efeito de desfoque (borramento) é insignificante (ou seja , é uma

matriz identidade, resultando em =

).

137

FIG. 7.3: Relacionamento entre a matriz de reamostragem DT e a matriz de

subamostragem D (FARSIU ET AL., 2004c).

Observando a FIG. 7.3 acima constatamos que apenas um dos elementos na em

um valor diferente de zero. Além disso, vale lembrar que apenas registra vetores

em

relação ao movimento relativo estimado sem alterar seu valor.

De acordo com (7.4), (i) (o iésimo elemento do vetor gradiente) é igual a

MED{ ( )}

. Como N-1 elementos em { ( )}

têm valor zero, sua mediana também

será zero. Portanto, cada elemento vetor gradiente aproximado será zero.Mesmo para um caso

mais geral em qual o efeito de desfoque matriz não é desprezível ( é uma matriz forma de

m x n desfoque kernel), a mesma abordagem pode ser empregada para mostrar que a menos

que (m x n ˃ ), o gradiente permanece zero para todas as iterações.

A condição de (m x n ˃ ) também é válido para os casos sobre-determinados nos

quais a distribuição de vetores de movimento é uniforme (nos quais o número de medidas de

imagens LR disponíveis para cada pixel na grade de RH é igual). Portanto, esta condição não

depende do número de quadros LR disponíveis. Em particular, considerar o borramento como

uma matriz identidade, onde a adição de qualquer novo quadro é equivalente à adição de

um novo vetor gradiente com ( ) vezes mais elementos zero (resultante da

sobreamostragem) do que elementos diferentes de zero para a pilha de vetores gradiente.

Entretanto, se:

( ) { ( )}

(7.6)

mesmo após a adição de quadros LR uniformemente espalhados (i)

=MED{ ( )}

ainda será zero (como -1 valores de elementos recém adicionados são

138

zeros). Segundo FARSIU ET AL. (2004) a generalização dessa propriedade para no caso de

número arbitrário de quadros LR com distribuição de movimento uniforme é simples.

Esta limitação pode ser superada através da modificação do operador MDE em (7.6). Este

operador mediana modificado não consideraria aqueles elementos ( ) que são o resultado

do preenchimento de zeros. É interessante notar que essa hipótese irá resultar na estimativa de

imagem HR como a mediana dos quadros LR registrados após o preenchimento com zeros,

que é a interpretação exata de usar minimização da norma L1.

(NC) - NORMALIZED CONVOLUTION (PHAM ET AL, 2006) (IMAGE FUSION, 2008)

O método NC é uma técnica para reconstrução do sinal local, utilizando um mapa de

certeza que descreve a confiança nos dados que constituem o sinal desconhecido. Dado uma

imagem LR amostrada irregularmente ZD (x), sua reconstrução (x) (imagem SR) é obtida

através de projeções sobre um conjunto de funções de base, usando ponderação local dos

mínimos quadrados em vizinhanças quadradas de v pixels. As funções de base mais comuns

são polinômiais {1, X, Y, X2, Y

2, XY,. . .}, Onde 1 = [1, 1,. . . , 1]

T (v entradas), X = [x1,

x2,. . . , xv] t, x

2=[

, ,...,

] T, e assim por diante. Estes polinômios são construídos a partir

de coordenadas locais de amostras com v entradas. Dado um conjunto de polinômios m,

dentro de uma vizinhança centrada em x0 = [x0, y0] T

, o valor de intensidade na posição

x=[x0 + x’, y0 + y’]T é aproximada por uma expansão polinomial:

( ) ( ) ( ) ( )

( ) ( )

(7.7)

onde [x’, y’] T

são as coordenadas locais com relação ao centro x0 da referida vizinhança. u

(x0) = [u0 (x0), u1 (x0),. . . , um (x0)] T

são os coeficientes de projeção sobre o conjunto de

funções de base polinomiais m em x0. A identificação dos coeficientes u é realizada

utilizando uma abordagem de mínimos quadrados ponderados. O objetivo é a minimização

do seguinte erro de aproximação:

( ) ∑( ( ) ( )) ( ) ( ) (7.8)

onde 0 ≤ c(x )≤ 1 é o sinal “certeza” que especifica a confiabilidade dos dados de sinal

em cada ponto x. A prática sugere que os dados que faltam na amostragem irregular da

imagem tem uma “certeza” igual a zero, enquanto as amostras observadas têm uma “certeza”

igual a um. Por outro lado, α(x - x0) é a chamada função de aplicabilidade localiza a ajuste

polinomial. Uma forma comumente usada dessa função é uma gaussiana isotrópica de Kernel,

139

cujo tamanho depende da escala da análise. Tanto a função de aplicabilidade quanto o sinal

“certeza” controlam o impacto de uma amostra em particular para o ajuste polinomial local.

A solução de mínimos quadrados para os coeficientes polinomiais u é então dada por:

( ) (7.9)

onde ZDν é um vetor ν × 1 representando a imagem amostrados na vizinhança, B = [b1 b2. . .

bm] é uma matriz ν × m das funções de base m amostrados em coordenadas locais de ν

amostras de entrada, e W = diag (c) · diag (α) é uma matriz diagonal ν × v construído a partir

do produto elemento por elemento do sinal “certeza” c e da aplicabilidade amostrada α (cada

um deles representado por um vetor ν × 1). Tendo identificado os coeficientes de u, a imagem

pode ser reconstruída localmente usando a aproximação em (7.7). Uma propriedade

interessante desta formulação é que, para polinômios de ordem zero, NC pode ser

implementada de forma muito eficiente utilizando operações de convolução simples.

Neste caso, os mínimos quadrados na solução (7.9) dá uma imagem aproximada igual a:

( ) ( ) ( ( ) ( ))

( ) ( ) (7.10)

com * denotando o operador de convolução. No entanto, apesar da sua simplicidade, NC de

ordem zero com uma função de base constante não é capaz de modelar pontos característicos

de imagens, como bordas ou cumes. Em tais casos, funções de base polinomial de ordem

superior são obrigatórias.

(POCS) - PROJEÇÃO NO CONJUNTO CONVEXO (PAPOULIS, 1975), (GERCHBERG,

1974) E (TELLES, 2008).

O método POCS é um dos mais utilizados em super-resolução e foi um dos primeiros a

apresentar modelos de aquisição espaço-variantes e informações a priori na super-resolução.

Esse método trabalha no domínio da frequência, os pixels são posicionados em uma grade HR

e a imagem passa por um filtro passa-baixa que se aproxima da PSF da câmara.

A idéia dos algoritmos POCS é utilizar todos os modelos e informações a priori

disponíveis para compor uma série de conjuntos convexos (ZIBETTI, 2007). Assim, em um

procedimento iterativo, o resultado da iteração corrente é projetado em cada um dos

conjuntos, segundo:

(7.11)

140

sendo que Pm é o operador de projeção para o m-ésimo conjunto convexo, assumindo que são

usados q + 1 conjuntos convexos. A solução desse problema está na intersecção dos conjuntos

como ilustra a FIG 7.6. Se os conjuntos forem adequadamente especificados haverá, pelo

menos, uma solução para o problema.

O método POCS possui como desvantagem a dificuldade na determinação dos operadores

de projeção, os quais podem requerer o cálculo de matrizes inversas ou, em alguns casos, a

execução de procedimentos iterativos (TELLES, 2008). Veja um exemplo da projeção no

conjunto formado pelos dados capturados. Com base na Eq. XX (modelo matemático da SR)

o conjunto é expresso como:

‖ ‖ (7.12)

o respectivo operador de projeção é dado por:

(

) ( )

(7.13)

Na qual é a pseudo-inversa de

, I é a matriz identidade é:

‖ ‖ (7.14)

FIG. 7.4: Projeção em conjuntos convexos (TELLES, 2008).

141

MÉTODOS DE RECONSTRUÇÃO UTILIZADOS NA SRT

(MAP_SD) - MAP COM OTIMIZAÇÃO STEEPEST DESCENT (GEVREKCI &

GUNTURK, 2005)

Denotando Zi como sendo as observações (LR), q a imagem HR, Vi como o termo aditivo

de ruído (devido ao ruído) e Wi como o erro de quantização, o processo de aquisição global

pode ser formulado como:

( ) (7.15)

onde f (·) é a função não-linear de resposta da câmara, αi é o fator de ganho, βi é o fator

de compensação, e Hi é o mapeamento linear que incorpora o movimento, PSF, vinhetas, e

reamostragem.

Sendo g (·) ≡ f-1

(·) e usando uma expansão em série de Taylor equação, (7.15) pode ser

escrita como:

( ) ( ) (7.16)

Com esta linearização, podemos facilmente aplicar técnicas padrões de estimativa linear.

Considerando que Vi e Wi possuem médias zero e ruído Gaussiano com variâncias e

respectivamente. Pode-se demonstrar que o ruído total, Vi + g’ (Zi)

Wi, também possui

ruído gaussiano com média zero e variância:

( )

(7.17)

Uma implicação crítica deste resultado é que a variância total do ruído é uma função

de resposta da câmara e mede a intensidade de pixel Zi. A Eq. 7.17 indica que a variância total

do ruído é maior para os valores dos pixels saturados. Denotando K como a matriz de

covariância do ruído total, e usando uma “prioridade” Gaussiana para q com imagem média

igual a μq e matriz de covariância , o estimador de máximo a posteriori (MAP) de q

minimiza a função de custo a seguir:

( )

∑ (

( )

)

( ( )

)

( )

( ) (7.18)

Uma forma de obter a estimativa MAP na Eq. 7.18 é a técnica steepest descent

(MAP_SD). A estimativa atual q é atualizada na direção do gradiente negativo de E ( ):

( ) (7.19)

142

onde α é o tamanho do passo, e E (q) pode ser encontrada usando:

( ) ∑

( ( )

) ( ) (7.20)

O tamanho do passo k na Eq. 7.19 pode ser corrigido ou atualizado de forma adaptativa

durante as iterações. A Hessiana de E (q) pode ser usado para mudar k (nesse método a

hessiana foi utilizada para determinar k em cada iteração).

(MAP_GC) - MAP COM OTIMIZAÇÃO GRADIENT CONJUGATED (GEVREKCI &

GUNTURK, 2005)

Com base no que foi apresentado no método MAP_SD utiliza-se a técnica do gradiente

conjugado (MAP_GC) para resolver (7.18), q pode ser estimado iterativamente atualizando

uma estimativa inicial da direção do gradiente negativo de E(q). Na k-ésima iteração, a

estimativa é:

( ) ( ) ( ( )) (7.21)

onde α é o tamanho do passo, e pode ser encontrado como:

( ) ∑ (

( )

) ( ) (7.22)

O tamanho do passo α em (7.21) pode ser corrigido ou atualizado de forma adaptativa

durante as iterações. A Hessiana de E(q) pode ser usado mudando α para:

( ( ( )))

( ( ( )))

( ( ( ))) ( ( ( )))

(7.23)

onde H é a Hessiana da matriz dada por:

∑ (7.24)

(MAP_TV) - MAP COM REGULARIZAÇÃO TOTAL VARIATION (GEVREKCI &

GUNTURK, 2005) (FARSIU ET AL., 2004)

Neste método de reconstrução o termo de regularização para remoção de ruído e

borramento utilizado por (GEVREKCI & GUNTURK, 2005) foi o Total Variation (TV), o

mesmo utilizado por (FARSIU ET AL., 2004) na construção do método SHIFT-AND-ADD.

Maiores detalhes sobre o termo de regularização estão detalhados na descrição do método

SHIFT-AND-ADD (SAD).

143

MÉTODOS DE RECONSTRUÇÃO UTILIZADOS NA MDSP

(SAD) – SHIFT-AND-ADD ou MAP-FAST-ROBUST (FARSIU ET AL., 2004)

Imagem em tons de cinza

Segundo FARSIU ET AL. (2006), a norma L1 é usada para definir os termos

equivalentes ao erro resultantes na reconstrução robusta da imagem HR na presença de

incertezas, tais como erro de movimento. Considerando o modelo geral da SR apresentado no

Capítulo 2, os termos de pena de fidelidade dos dados (imagem em tons de cinza) são

representados como:

( ) ∑ ‖ ( ) ( ) ( ) ( )‖

(7.25)

Nota-se que a minimização da norma L1 é a estimativa máxima verossimilhança (ML)

dos dados na presença do ruído Laplaciano. FARSIL ET AL. (2003) realizou uma análise

estatística e experimentos que justificam a utilização da PDF Laplaciano em vez da PDF

Gaussiana.

A regularização pode ajudar o algoritmo na remoção de artefatos e a melhorar a taxa de

convergência. Dos muitos termos de regularização existentes se faz necessário um que resulte

em imagens HR com bordas bem definidas e de fácil implementação.

Nesse sentido FARSIL ET AL. (2004) utilizou o critério “Total Variation” e o

relacionou com a técnica da filtragem bilateral para apresentar um termo de regularização

robusto chamado de Variação Total Bilateral (BTV), que possui baixo custo computacional e

preserva as bordas. A função de regularização BTV :

( ) ∑ | | | |‖

‖

(7.26)

Onde

são os operadores correspondentes ao deslocamento da imagem

representada por X por l pixels na direção horizontal e por m pixels na direção vertical,

respectivamente. Esta função custo calcula a derivada aravés das múltiplas escalas de

resolução (como determinado pelo parâmetro “P"). O peso escalar α, 0 <α <1, é aplicado para

dar um efeito de decaimento espacial para a soma dos termos de regularização.

Combinando as idéias apresentadas até agora, propomos uma solução robusta do

problema SR da seguinte forma:

144

⌊∑ ‖ ( ) ( ) ( ) ( )‖ ∑ | | | |‖

‖

⌋ (7.27)

Utilizando o steepest descent para encontrar a solução para este problema de

minimização obtém-se:

{∑ ( ) ( ) ( ) ( ( ) ( ) ( ) ( ))

∑ | | | |[

] (

)

}

(7.28)

Onde β é um escalar que define o tamanho do passo na direção do gradiente.

são as transpostas das matrizes

respectivamente, e têm um efeito de deslocamento na

direção oposta. As matrizes W, B, D, S e suas transpostas podem ser exatamente interpretadas

como operadores diretos na imagem, tais como deslocamento, borramento e decimação

(subamostragem).

Método SAD e suas variantes aplicado à imagens em tons de cinza e disponíveis na

MDSP

1. SAD: utiliza o algoritmo proposto por ELAD & HEL-OR (2001) conhecido também

como método MAP-Fast-Robust apresentado por (FARSIU ET AL., 2006). Utiliza-se nesse

método uma interpolação linear além das sub-rotinas de deconvolução do MATLAB Wiener,

Lucy e Blind Lucy;

2. Bilateral SAD:acrescenta ao método anterior à filtragem bilateral (FARSIU ET AL.,

2003) para a detecção/remoção de outliers;

3. SAD com remoção de borramento iterativa: nesse método pode-se optar por se utilizar

a regularização Tikonov (L2) ou Bilateral TV (L1) essas duas opções também são válidas

para os termos de penalidade para os termos de fidelidade dos dados. Utiliza-se nesse método

a deconvolução de Kernel;

4. Bilateral SAD com remoção de borramento iterativa: adiciona a filtragem bilateral

ao método anterior;

145

5. Mediana S&A: similar ao método S&A acrescentando o pré-condicionamento da

etapa de fusão S&A através do operador mediana;

6. Bilateral S&A com remoção de borramento iterativa: similar ao método anterior

acrescentando a filtragem bilateral;

7. Norma 2 iterativa: MAP com regularização Tikhonov e norma L2 usada como termo

de fidelidade dos dados;

8. Norma 1 iterativa : MAP com regularização BTV;

9. Norma 2 com regularização L1: utiliza a norma L2 como termo de penalidade dos

dados e utiliza as vantagens da BTV;

10. IBP Robusto (gradiente médio) com regularização L2: método IBP Robusto

acrescido da regularização Tikhonov;

11. IBP Robusto (gradiente médio) com regularização L1: método IBP Robusto

acrescida da regularização BTV;

12. Interpolação com spline cúbica: consiste basicamente em interpolar o

primeiro quadro da sequência com o método da spline cúbica.

Imagem colorida

FARSIU ET AL. (2006) aborda o problema da SR para imagens coloridas uma vez que a

solução mais comum envolve a aplicação de algoritmos SR monocromáticos a cada um dos

canais de cor independentemente. Outra abordagem, proposta por RUBERT ET AL. (2004), é

a transferência do problema a um espaço de cor diferente onde camadas de crominância são

separadas da de luminância, e onde SR é aplicada somente ao canal de luminância.

A imagem colorida é representada pela combinação de três diferentes imagens

monocromáticas. Idealmente, cada pixel reflete três medidas de dados, um para cada faixa de

cor. Na prática, para reduzir o custo de produção muitas câmaras digitais têm apenas uma

medição de cor (vermelho, verde ou azul) por pixel. A matriz de detecção é uma grade de

CCDs que se tornam sensiveis a uma cor, colocando um filtro de cores chamado Color Filter

Array (CFA) em frente ao CCD. Os valores das bandas que faltam em cada pixel são muitas

vezes sintetizados utilizando alguma forma de interpolação de valores de pixels vizinhos. Este

processo é conhecido como demosaicagem (color demosaicing).

Muitos métodos de demosaicagem de um único quadro já foram propostos, como o de

ZOMET & PELEG (2002), mas até a presente data nenhum deles se mostrou diretamente

146

aplicável ao problema da demosaicagem colorida para múltiplos quadros, devido a diferença

fundamental entre suas geometrias.

A FIG 7.5 ilustra o padrão das medições do sensor na grade HR, em tal situação, o

padrão de amostragem é bastante arbitrário, dependendo do movimento relativo das imagens

LR. Este necessita de um algoritmo de demosaicagem diferente dos projetados para o padrão

Bayer original. Nesta figura observa-se a fusão de 7 imagens LR no padrão Bayer com

movimento relativo translacional resultando em uma imagem HR que não segue padrão

Bayer. O símbolo “?” representa os valores de pixel de HR que foram indeterminados após a

fusão, como resultado do número insuficiente de quadros LR.

A SR colorida é mais complexa do que a SR de imagens monocromáticas e não deve ser

resolvida através da aplicação de métodos monocromáticos, aplicados de forma independente

em cada canal de cor, por três razões

1) A subamostragem adicional de cada canal de cor, devido ao CFA torna a reconstrução

independente de cada canal muito mais difícil. Em muitas situações, as informações contidas

em um único canal são insuficientes para resolver um problema tão mal-condicionado,

comprometendo dessa forma o desempenho do método.

2) Há correlações naturais entre os canais de cor que deve ser aproveitados durante o


3) O sistema visual humano é muito sensível a certos artefatos em imagens coloridas que

só podem ser evitados através do processamento de todos os canais juntos. A aplicação de um

algoritmo simples de demosaicagem só amplificar esses artefatos e levar a uma queda no

desempenho. Em vez disso, todos os três canais devem ser estimados simultaneamente para

maximizar o desempenho geral da SR.

4) A subamostragem adicional de cada canal de cor, devido ao CFA torna a reconstrução

independente de cada canal muito mais difícil. Em muitas situações, as informações contidas

em um único canal são insuficientes para resolver um problema tão mal-condicionado,

comprometendo dessa forma o desempenho do método.

5) Há correlações naturais entre os canais de cor que deve ser aproveitados durante o


6) O sistema visual humano é muito sensível a certos artefatos em imagens coloridas que

só podem ser evitados através do processamento de todos os canais juntos. A aplicação de um

algoritmo simples de demosaicagem só amplificar esses artefatos e levar a uma queda no

desempenho. Em vez disso, todos os três canais devem ser estimados simultaneamente para

maximizar o desempenho geral da SR.

147

FIG. 7.5: Fusão de imagens no padrão Bayer (adaptado de FARSIU ET AL., 2006d).

Nesse caso da SR para imagens coloridas, as funções de penalidade adicional de

regularização são obrigatórias. Consideremos os canais da imagem HR colorida como sendo,

XG, XB, e XR. A função de custo final é composta dos seguintes termos

1) Fidelidade dos dados: os termos de penalidade da fidelidade dos dados utilizam a

norma L1 para adicionar robustez:

( ) ∑ ∑ ‖ ( ) ( ) ( ) ( )‖ (7.29)

onde Yi (t) é a componente vermelha, verde ou azul de cor (filtrada) do quadro LR, e Di

representa o efeito da subamostragem do CCD e do CFA nas bandas do vermelho, verde ou

azul. Assim, a primeira fase do algoritmo é a aplicação do operador mediana SHIFT-AND-

ADD (SAD) detalhado em FARSIU ET AL. (2004), para produzir uma imagem HR borrada

. Neste caso o operador mediana é aplicado a cada um dos canais de cor de forma

independente.

2) Regularização da luminância: utiliza-se um termo de penalidade para regularizar a

componente luminância da imagem HR imagem em vez de cada canal de cor separadamente.

Isso ocorre porque o olho humano é mais sensível aos detalhes da componente luminância de

uma imagem do que os detalhes da componente crominância. Aplica-se então a regularização

BTV para a componente luminância para a preservação das bordas e o aumento da robustez.

Os termos de regularização da luminância são:

( ) ∑ | | | |‖

‖ (7.30)

148

onde a imagem de luminância pode ser calculada como a soma ponderada das componentes

RGB XL =0.299XR + 0.597XG + 0.114 XB. (PRATT, 2001)

3) Regularização da crominância: este termo de penalidade garante a suavidade na

componente crominância da imagem HR. Isso remove muitos dos artefatos de cor ofensivos

ao olho humano. Mais uma vez, os dois canais de crominância e XC1 XC2 podem ser

calculados como a combinação ponderada das imagens RGB utilizando de acordo com

PRATT (2001) os pesos (-0,169, -0.331, 0.5) para C1 e (0,5, -0,419, -0,081) para C2. Como o

olho humano é menos sensível à resolução do canal de crominância, ela pode ser suavizada de

forma mais ostensiva.

( ) ‖ ‖ ‖ ‖

(7.31)

onde é a matriz realização de um operador passa-alta, como por exemplo o filtro

Laplaciano.

4) Regularização da orientação: Este termo penaliza a não homogeneidade de orientação

das bordas em todos os canais de cor. Apesar de bandas diferentes poderem apresentar

magnitudes do gradiente maior ou menor em uma determinada borda, é razoável supor que

todos os canais de cores possuam a mesma orientação de borda. Ou seja, se uma borda

vertical (ou horizontal) aparece na faixa vermelha, é provável que uma borda com orientação

semelhante apareça nas faixas verde e azul. Minimizar a norma do produto vetorial de

quaisquer dois pixels de cor adjacentes obriga diferentes bandas a terem orientação de borda

similar. Propõe-se como termo de penalidade de orientação a seguinte função custo

diferenciável:

( ) ∑ [‖

‖ ‖

‖

‖

‖ ] (7.32)

onde é o operador de multiplicação elemento por elemento. A função custo total é a soma

das funções de custo descritas nas subseções anteriores:

[ ( ) ( ) ( ) ( )] (7.33)

149

7.3 APÊNDICE 3: CÓDIGO DE CONVERSÃO AVI-TIFF

Este APÊNDICE apresenta o código implementado no software MATLAB para converter

um vídeo em AVI em uma sequência de imagens TIFF que possibilite entrada de dados na

SRA e na SRT.

xyloObj = mmreader('nomedovideo.avi'); %carregamento video em avi

nFrames = xyloObj.NumberOfFrames; vidHeight = xyloObj.Height; vidWidth = xyloObj.Width;

% pré-alocando a estrutura do video. mov(1 nFrames) = ... struct('cdata', zeros(vidHeight, vidWidth, 3, 'uint8'),... 'colormap', []); sequencetif=struct('cdata', zeros(vidHeight, vidWidth, 3,

'uint8'),... 'colormap', []);

% leitura de um quadro de cada vez. for k = 1 nFrames mov(k).cdata = read(xyloObj, k); end

% o tamanho da figura se baseia na largura e na altura do vídeo. hf = figure; set(hf, 'position', [150 150 vidWidth vidHeight])

% reproduz o video de acordo com a taxa de quadros.

movie(hf, mov, 1, xyloObj.FrameRate);

%carregar sequencetif

for k = 1 nFrames sequencetif(k).cdata = tifconv(mov(k).cdata);

end

for imgidx = 1 length(sequencetif) img = sequencetif(imgidx).cdata; fname=sprintf('imagem%d.tiff',imgidx);

%nomeia as imagens que estão sendo criadas. imwrite(img,fname,'TIFF');

end

150

Documents

METODOLOGIA PARA OBTENÇÃO DE IMAGENS DE ......À Santos Lab Com. e Ind. Aeroespacial LTDA, em especial Sr Tin Muskardin. À equipe VANT LANU II do Instituto Militar de Engenharia