Upload
others
View
2
Download
0
Embed Size (px)
Citation preview
INSTITUTO MILITAR DE ENGENHARIA
1° Ten NINA MACHADO FIGUEIRA
METODOLOGIA PARA OBTENÇÃO DE IMAGENS
DE SUPER-RESOLUÇÃO UTILIZANDO CÂMARAS EMBARCADAS
EM VANTs
Dissertação de Mestrado apresentada ao Programa de Pós-
Graduação em Engenharia de Defesa do Instituto Militar
de Engenharia, como requisito parcial para a obtenção do
título de Mestre em Ciências em Engenharia de Defesa.
Orientadores: Prof. Leonardo Castro de Oliveira - D.E.
Prof.ª Carla Liberal Pagliari - Ph.D.
Rio de Janeiro
2011
2
c2011
INSTITUTO MILITAR DE ENGENHARIA
Praça General Tibúrcio, 80 – Praia Vermelha.
Rio de Janeiro - RJ CEP: 22290-270
Este exemplar é de propriedade do Instituto Militar de Engenharia, que poderá incluí-lo em
base de dados, armazenar em computador, microfilmar ou adotar qualquer forma de
arquivamento.
São permitidas a menção, reprodução parcial ou integral e a transmissão entre bibliotecas
deste trabalho, sem modificação de seu texto, em qualquer meio que esteja ou venha a ser
fixado, para pesquisa acadêmica, comentários e citações, desde que sem finalidade comercial
e que seja feita a referência bibliográfica completa.
Os conceitos expressos neste trabalho são de responsabilidade do autor e do orientador.
621.3 Figueira, Nina Machado.
T465s Metodologia para Obtenção de Imagens de Super-Resolução
utilizando câmaras embarcadas em VANTs/Nina Machado
Figueira.-Rio de Janeiro: Instituto Militar de Engenharia, 2011.
149 p.
Dissertação (mestrado) – Instituto Militar de Engenharia –
Rio de Janeiro, 2011
1. Super-Resolução. 2. Imageamento. 3. Videografia.
4. VANT. 5. Análise Objetiva e Subjetiva.
I. Figueira, Nina M. II. Título III. Instituto Militar de
Engenharia.
CDD 621.3
3
INSTITUTO MILITAR DE ENGENHARIA
1° Ten NINA MACHADO FIGUEIRA
METODOLOGIA PARA OBTENÇÃO DE IMAGENS DE
SUPER-RESOLUÇÃO UTILIZANDO CÂMARAS EMBARCADAS
EM VANTs
Dissertação de Mestrado apresentada ao Curso de Pós-Graduação em Engenharia de
Defesa do Instituto Militar de Engenharia, como requisito parcial para a obtenção do título de
Mestre em Ciências em Engenharia de Defesa.
Orientadores: Prof. Leonardo Castro de Oliveira - D.E.
Prof.ª Carla Liberal Pagliari - Ph.D.
Aprovada em 30 de novembro de 2011 pela seguinte Banca Examinadora:
__________________________________________________________________
Prof. Leonardo Castro de Oliveira - D.E. do IME - Presidente
__________________________________________________________________
Prof.ª Carla Liberal Pagliari - Ph.D. do IME
_________________________________________________________________
Prof. Paulo Fernando Ferreira Rosa - Ph.D. do IME
_________________________________________________________________
Cel Clovis Gaboardi - D.E. da DSG
_________________________________________________________________
Prof. Maurício Galo - D.E. da UNESP
Rio de Janeiro
2011
4
Dedico esse trabalho ao meu marido Ricardo, à minha
filha Maria Clara e ao meu pai Leo (in memorian).
5
AGRADECIMENTOS
Agradeço primeiramente a Deus pelas bênçãos recebidas ao longo destes dois anos. Pela
força nos momentos de desânimo e de angústia, pelos momentos alegres que me recarregaram
as energias, pela luz incessante que iluminou meu caminho até aqui.
Em segundo lugar agradeço às pessoas que me incentivaram, apoiaram e possibilitaram
essa oportunidade.
Ao meu amado e grande incentivador Ricardo pela paciência, dedicação e carinho.
À minha filha Maria Clara pelas inúmeras vezes em que pulou no meu colo, me abraçou e
disse: “Mamãe... sai desse computador”.
A minha mãe Néa, meu irmão Lucas, Tia Márcia e Lidinha pelos momentos de socorro.
Aos meus orientadores Leonardo e Carla, pela ajuda fundamental ao longo do curso.
Aos amigos e colegas da pós-graduação em especial aos queridos Izabela, Itiro, Oberdan,
Renan, Ferrari, Benevento, Andrezo, Vanessa, Toscano e Cardoso.
Aos professores pelos aprendizados nas aulas e nos seminários, em especial ao Prof.
Felipe pelas enfáticas críticas construtivas.
Ao Exército Brasileiro e ao Instituto Militar de Engenharia, pela oportunidade de
realização do Curso.
Ao Cap Apolinário da equipe VANT VT-15 do CTEx.
À AGX tecnologia, em especial ao Sr Adriano Kancelkis.
Ao Cel Laux, Maj Gramkow e Ten Zanini do esquadrão VANT da FAB.
À Santos Lab Com. e Ind. Aeroespacial LTDA, em especial Sr Tin Muskardin.
À equipe VANT LANU II do Instituto Militar de Engenharia.
6
"Cada dia que vivo mais me convenço de que o
desperdício da vida está no amor que não damos, nas
forças que não usamos, na prudência egoísta que nada
arrisca e que, esquivando-nos do sofrimento, perdemos
também a felicidade.”
Carlos Drummond de Andrade
7
SUMÁRIO
LISTA DE ILUSTRAÇÕES ...................................................................................................... 9
LISTA DE TABELAS ............................................................................................................. 14
LISTA DE ABREVIATURAS …………………………………………………………14
LISTA DE SIGLAS ................................................................................................................. 16
1 INTRODUÇÃO ........................................................................................................... 19
1.1 Objetivo ........................................................................................................................ 21
1.2 Justificativa ................................................................................................................... 21
1.3 Descrição geral do trabalho .......................................................................................... 23
2 SUPER-RESOLUÇÃO E VIDEOGRAFIA AÉREA DIGITAL: ASPECTOS
RELEVANTES ....................................................................................................................... 24
2.1 Imagens Digitais ........................................................................................................... 24
2.2 Super-Resolução ........................................................................................................... 27
2.3 Modelagem do Processo de Aquisição de Imagens ..................................................... 34
2.3.1 Modelo de Transformação Geométrica - Registro ....................................................... 35
2.3.2 Modelos de Degradação da Imagem ............................................................................ 40
2.3.3 Modelos de Observação de Imagens Utilizados em Super-Resolução: Formulação
Matemática ................................................................................................................... 44
2.4 Fotogrametria Aérea X Videografia Aérea Digital ...................................................... 46
2.5 Conclusões .................................................................................................................... 63
3 GERAÇÃO DE IMAGENS DE SUPER-RESOLUÇÃO ........................................ 64
3.1 Descrição dos Ambientes Computacionais Utilizados ................................................. 64
3.2 Descrição da Metodologia do Trabalho ....................................................................... 71
8
3.2.1 Geração de Imagens HR a partir de Dados Simulados ................................................. 73
3.2.2 Geração de Imagens HR a partir de Dados Reais ......................................................... 75
3.2.3 Geração de Mosaico de HR a partir de Dados Simulados ............................................ 77
3.3 Análise aa Qualidade das Imagens SR ......................................................................... 78
3.3.1 Análise Objetiva da Qualidade das Imagens SR .......................................................... 78
3.3.2 Análise Subjetiva da Qualidade das Imagens HR ........................................................ 79
3.4 Conclusões .................................................................................................................... 80
4 RESULTADOS ............................................................................................................ 81
4.1 Resultados da Geração de Imagens HR a partir de Dados Simulados ......................... 81
4.2 Resultados da Geração de Imagens HR a partir de Dados Reais .............................. 107
4.3 Resultados da Geração de Mosaicos a partir de Dados Simulados ............................ 113
4.4 Conclusões .................................................................................................................. 115
5 CONCLUSÕES E TRABALHOS FUTUROS ....................................................... 117
5.1 Conclusões .................................................................................................................. 117
5.2 Trabalhos Futuros ....................................................................................................... 118
6 REFERÊNCIAS BIBLIOGRÁFICAS .................................................................... 120
7 APÊNDICES .............................................................................................................. 128
7.1 Apêndice 1: Métodos de Registro Utilizados ............................................................. 129
7.2 Apêndice 2: Métodos de Reconstrução Utilizados ................................................... 134
7.3 Apêndice 3: Código de Conversão AVI-TIFF .......................................................... 149
9
LISTA DE ILUSTRAÇÕES
FIG. 1.1 VANT VT-15 (CTEx, 2010). .................................................................................. 22
FIG. 1.2 Amostras de imagens da câmara Axis 233D doVANT VT-15 (CTEx, 2010). ........ 23
FIG. 2.1 Alvo teste de resolução da ISO 12223 utilizado para determinar a resolução espacial
de sistemas e sensores de imageamento (ISO 12223). ............................................................. 24
FIG. 2.2 Degradação da resolução espacial. (INTERGRAPH, 2011) .................................... 25
FIG. 2.3: Processo de degradação da qualidade, adaptado de PARK ET AL. (2003). ........... 26
FIG. 2.4 Amostragem temporal e espacial de uma sequência de vídeo. ................................. 26
FIG. 2.5 Uma cena estática de vídeo (esquerda); após equalização de histograma a placa do
automóvel continua ilegível devido ao ruído natural da imagem (direita), adaptado de CAPEL
(2001). ...................................................................................................................................... 28
FIG. 2.6 Captura da região de interesse (esquerda); a SR estima a cena subjacente a partir de
50 imagens (direita); adaptado de CAPEL (2001). .................................................................. 28
FIG. 2.7 Legibilidade da placa como resultado da media do conjunto cada vez maior de
imagens, adaptado de CAPEL (2001). ..................................................................................... 28
FIG. 2.8 Premissa básica para a SR (PARK ET AL., 2003). .................................................. 30
FIG. 2.9 Esquema geral da Super-Resolução. ......................................................................... 31
FIG. 2.10 Correlação entre as imagens (FONSECA & MANJUNAH, 1996). ....................... 36
FIG. 2.11 Etapas do registro de uma imagem (ZITOVÁ & FLUSSER, 2003). ..................... 38
FIG. 2.12 Tipos de transformações geométricas (PUC, 2011). .............................................. 39
FIG. 2.13 Efeito do borramento através da Point Spread Function ........................................ 40
FIG. 2.14 Efeito da matriz de reamostragem D-1
em uma imagem 3x3 e a matriz de
subamostragem D na correspondente imagem reamostrada 9x9. (IMAGE FUSION, 2008) . 43
FIG. 2.15 Métodos de interpolação de uma imagem (ZITOVÁ & FLUSSER, 2003). ........... 43
FIG. 2.16 Modelo de observação que relaciona as imagens LR à imagem HR. ..................... 44
FIG. 2.17 Aplicação de uma PSF contínua. (IMAGE FUSION, 2008) ................................... 45
FIG. 2.18 Modelagem matemática da SR (IMAGE FUSION, 2008). ..................................... 46
FIG. 2.19 Subdivisões da Fotogrametria (ASPRS, 1997). ....................................................... 47
FIG. 2.20 Exemplo de possibilidades de aplicações VANT na atualização cartográfica.
Mosaico construído a partir de sequência real (amostra de vídeo VANT Arara-M1). ............ 48
10
FIG. 2.21 Imagem vertical x Imagem oblíqua (adaptado de KRAUS, 1992). ......................... 50
FIG. 2.22 ERT e ângulo de visada, adaptado de LILLESAND & KIEFER (1987). ............... 51
FIG. 2.23 Voo fotogramétrico realizado em faixas (REDWEIK, 2007). ................................ 51
FIG. 2.24 Sobreposições do projeto aerofotogramétrico (REDWEIK, 2007). ...................... 52
FIG. 2.25 Recobrimento com a ocorrência de deriva e desvio (IBGE, 2011). ...................... 52
FIG. 2.26 Exemplo de deriva e aquisição de imagens inclinadas. Mosaico construído a partir
de sequência real (amostra de vídeo VANT Carcará). ............................................................. 52
FIG. 2.27 Tipos de traçado de voo (REDWEIK, 2007). .......................................................... 53
FIG. 2.28 Esquema do plano de voo (REDWEIK, 2007). ..................................................... 55
FIG. 2.29 Inserção de técnicas de SR no processo cartográfico. ........................................... 56
FIG. 2.30 Decolagem VANT Arara-M1 (AGX, 2010). ........................................................... 57
FIG. 2.31 Área de interesse e cálculo da distância à base para a transmissão dos dados
telemétricos (AGX, 2010). ....................................................................................................... 58
FIG. 2.32 Planejamento da operação Membeca 2008 (AGX, 2010). ..................................... 58
FIG. 2.33 Dados processados na operação Membeca 2008 (AGX, 2010). .............................. 59
FIG. 2.34 Identificação de alvos na operação Membeca 2008 (AGX, 2010). ......................... 59
FIG. 2.35 Teatro de operações OPAN (CTEx, 2010). ............................................................. 61
FIG. 2.36 Especificações da câmara de vídeo Axis 233D do VANT VT-15 .......................... 62
FIG. 2.37 Geometria de aquisição das imagens VANT VT-15. .............................................. 62
FIG. 3.1 Super-Resolution Appication (SRA) (VANDERWALLE ET AL., 2007). ............... 65
FIG. 3.2 Super-Resolution Toolbox (SRT) (GEVREKCI & GUNTURK, 2006). .................. 66
FIG. 3.3 MDSP Enhancement Program (MDSP) (FARSIU ET AL, 2004c)........................... 67
FIG. 3.4 Esquema geral da metodologia do trabalho. ............................................................. 72
FIG. 3.5 Imagens LR simuladas utilizando a SRA. ................................................................ 73
FIG. 3.6 Metodologia de obtenção de imagens SR. ................................................................ 76
FIG. 3.7 Simulação do voo videográfico - construção das faixas e modelos. ........................ 77
FIG. 3.8 Pontuação média de opinião (adaptado de ITU-R 500-5, 1992). ............................. 80
FIG. 4.1 Resultado do experimento 2. .................................................................................... 82
11
FIG. 4.2 Resultado do experimento 2. KE (esquerda) e VA (direita). .................................... 82
FIG. 4.3 Resultado do experimento 2 para a IMG0570. ......................................................... 83
FIG. 4.4 Resultado do experimento 2 para a IMG0744. ......................................................... 84
FIG. 4.5 Resultado do experimento 2 para a IMG0890. ......................................................... 85
FIG. 4.6 Resultado do experimento 1 para a IMG 1038. ........................................................ 86
FIG. 4.7 Resultado do experimento 3 KE a partir de 4, 6, 8 e 10 imagens LR, reconstrução
INT. .......................................................................................................................................... 87
FIG. 4.8 Resultado do experimento 3 registro KE, reconstrução 4 imagens LR, reconstrução
INT, NC, POCS e IBP_R. ........................................................................................................ 88
FIG. 4.9 Resultado do experimento 3, registro KE, reconstrução 10 imagens LR,
reconstrução INT, NC, POCS e IBP_R. ................................................................................... 89
FIG. 4.10 Resultado dos mapas de similaridades (SSIM_map) do experimento 3, registro
KE, 10 imagens LR, reconstrução INT, NC, POCS e IBP_R. ................................................. 89
FIG. 4.11 Resultado do experimento 3 para a IMG0570 KE a partir de 4, 6, 8 e 10 imagens
LR, reconstrução INT. .............................................................................................................. 91
FIG. 4.12 Resultado dos mapas de similaridades (SSIM_map) do experimento 3 para a
IMG0570, registro KE, 10 imagens LR, reconstrução INT, NC, POCS e IBP_R. .................. 92
FIG. 4.13 Resultado do experimento 3 para a IMG0570, registro KE, reconstrução 10
imagens LR, reconstrução INT, NC, POCS e IBP_R. ............................................................. 93
FIG. 4.14 Resultado do experimento 3 a partir da IMG0744, registro KE, 10 imagens LR,
reconstrução INT, NC, POCS e IBP_R. ................................................................................... 94
FIG. 4.15 Resultado do experimento 3 para o alvo teste, registro KE a partir de 4, 6, 8 e 10
imagens LR, reconstrução NC. ................................................................................................ 95
FIG. 4.16 Resultado dos mapas de similaridades (SSIM_map) do experimento 3 para a
IMG0744, registro KE, 6 imagens LR, reconstrução INT, NC, POCS e IBP_R. .................... 95
FIG. 4.17 Resultado dos mapas de similaridades (SSIM_map) do experimento 4, registro VA,
reconstrução INT, NC, POCS e IBP_R. ................................................................................... 97
FIG. 4.18 Resultado dos mapas de similaridades (SSIM_map) do experimento 4, registro VA,
reconstrução NC, aplicados a conjuntos de 4 imagens LR (esquerda) e 10 imagens LR
(direita). .................................................................................................................................... 97
FIG. 4.19 Resultado dos mapas de similaridades (SSIM_map) do experimento 4 para
conjuntos de 10 imagens, registro KE (esquerda), VA (direita), reconstrução NC. ................ 98
12
FIG. 4.20 Resultado dos mapas de similaridades (SSIM_map) do experimento 4, registro
manual (0,5 pixel) aplicados a conjuntos de 4 imagens LR, reconstrução INT, NC, POCS e
IBP_R. ...................................................................................................................................... 99
FIG. 4.21 Resultado dos mapas de similaridades (SSIM_map) do experimento 5, registro CA,
aplicados a conjuntos de 4 imagens LR, reconstrução MAP_GC(esquerda), MAP_TV(direita),
MAP_SD (acima). .................................................................................................................. 100
FIG. 4.22 SSIM_Map gerado a partir de 80 imagens LR, registro FO, reconstrução (da
esquerda para a direita, de cima para baixo) (1) SAD, (2) Bilateral SAD, (3) S&A com
remoção de borramento iterativa, (4) Bilateral SAD com remoção de borramento iterativa, (5)
Mediana SAD, (6) Mediana SAD com remoção de borramento iterativa. ............................ 102
FIG. 4.23 SSIM_Map gerado a partir de 80 imagens LR, registro FO, reconstrução (da
esquerda para a direita, de cima para baixo) (7) SAD com norma L2 iterativa, (8) SAD com
norma L1 iterativa, (9) SAD com Norma L2 e com regularização L1, (10)IBP_R com
regularização L2, (11) IBP_R com regularização L1, (12) Interpolação com spline cúbica. 103
FIG. 4.24 SSIM_Map gerado a partir de 10 imagens LR (esquerda) e 80 imagens LR (direita)
registro FO, reconstrução SAD_N2L1. .................................................................................. 104
FIG. 4.25 SSIM_Map gerado a partir de conjuntos de imagens LR, registro FO, reconstrução
ITER_SAD. (a) 10 imagens, (b) 20 imagens, (c) 40 imagens e (d) 80 imagens. ................... 105
FIG. 4.26 Imagem SR resultante do vídeo gerado pelo VANT Arara-M1, através do método
MAP_GC. ............................................................................................................................... 108
FIG. 4.27 Imagem SR resultante do vídeo gerado pelo VANT Carcará, através do método
MAP_GC. ............................................................................................................................... 109
FIG. 4.28 Imagem SR resultante do vídeo gerado pelo VANT RQ450, através do método
MAP_GC. ............................................................................................................................... 110
FIG. 4.29 Imagem SR resultante do vídeo gerado pelo VANT LANU, através do método
MAP_GC. ............................................................................................................................... 111
FIG. 4.30 Imagem SR resultante do vídeo gerado pelo VANT VT-15, através do método
MAP_GC. ............................................................................................................................... 112
FIG. 4.31 Posicionamento do recorte a11. (sendo IMG0570 a matriz Aij, 9x9). ................. 113
FIG. 4.32 Mosaicagem de imagens a partir de dados simulados (imagem fonte HR
IMG0570). (esquerda) Imagem Original, dividida em 9 partes iguais (direita) mosaicagem das
SR. .......................................................................................................................................... 113
FIG. 4.33 Aplicação de técnicas de SR na construção de mosaicos. (esquerda) mosaico LR,
(direita) mosaico HR através do método NC. ........................................................................ 114
FIG. 4.34 (acima, esquerda) mosaico de imagens LR (93x64), (acima, direita) zoom 10x
aplicado ao mosaico, (abaixo) mosaico HR (1269x506) a partir do método de SR
(CA+MAP_GC). .................................................................................................................... 114
13
FIG. 7.1 (acima) cálculo da matriz de homografia que relaciona os
pontos. (abaixo) estabelecimento da correspondência entre as imagens (CAPEL, 2001). .... 132
FIG. 7.2 Um exemplo do método IBP (PARK ET AL., 2003). ............................................ 135
FIG. 7.3 Relacionamento entre a matriz de reamostragem DT e a matriz de subamostragem D
(FARSIU ET AL., 2004c). ..................................................................................................... 137
FIG. 7.4 Projeção em conjuntos convexos (TELLES, 2008). ............................................... 140
FIG. 7.5 Fusão de imagens no padrão Bayer (adaptado de FARSIU ET AL., 2006d). ........ 147
14
LISTA DE TABELAS
TAB. 2.1 Especificações do voo fotogramétrico. ................................................................... 48
TAB. 3.1 Informações pertinentes aos VANT contemplados neste trabalho. ........................ 68
TAB. 3.2 Detalhes referentes à aquisição das amostras de insumos VANT. ......................... 69
TAB. 3.3 Detalhes referentes às imagens do VANT ARARA M1 utilizadas na simulação das
imagens LR. ............................................................................................................................. 70
TAB. 4.1 Classificação dos algorítmos de registro na SRA. .................................................. 86
TAB. 4.2 Resultado do registro KE para um conjunto de 10 imagens LR, reconstrução INT,
NC, POCS, IBP_R. .................................................................................................................. 90
TAB. 4.3 Resultado registro KE para um conjunto de 10 imagens LR a partir da IMG0570,
reconstrução INT, NC, POCS, IBP_R. ................................................................................... 93
TAB. 4.4 Resultado registro KE para conjuntos de imagens LR a partir da IMG0744,
reconstrução INT, NC, POCS, IBP_R. ................................................................................... 96
TAB. 4.5 Resultado registro VA, reconstrução INT, NC, POCS e IBP_R. ........................... 98
TAB. 4.6 Resultado registro manual (0.5 pixel), reconstrução INT, NC, POCS e IBP_R. ... 99
TAB. 4.7 Resultado registro CA, reconstrução MAP_SD, MAP_GC e MAP_TV. ............ 101
TAB. 4.8 Resultado do método SAD_N2L1, registro FO aplicado a conjuntos de 10, 20, 40 e
80 imagens. ............................................................................................................................ 104
TAB. 4.9 Resultado do método ITER_SAD, registro FO, aplicado a imagens coloridas. ... 106
TAB. 4.10 Resultado do Mean Opinion Score VANT Arara-M1. ....................................... 108
TAB. 4.11 Resultado do Mean Opinion Score VANT Carcará. ........................................... 109
TAB. 4.12 Resultado do Mean Opinion Score VANT RQ450. ............................................ 110
TAB. 4.13 Resultado do Mean Opinion Score VANT LANU. ............................................ 111
TAB. 4.14 Resultado do Mean Opinion Score VANT VT-15. ............................................. 112
TAB. 4.15 Avaliação dos métodos NC e MAP_GC aplicado a imagens LR´s simuladas a
partir da IMG_a11. ................................................................................................................. 115
TAB. 4.16 Avaliação do mosaico gerado a partir de 3 images SR. ...................................... 115
TAB. 4.17 Avaliação do mosaico gerado a partir de 6 imagens SR. .................................... 115
15
LISTA DE ABREVIATURAS
BTV - Bilateral Total Variation
CCD - Charge Coupled Device
DIGICAM - Digital Camera
EQ. - Equação
FIG. - Figura
GD - Gradient Descent
GPS - Global Positioning System
HR - Hight Resolution
IBP - Iterative Back Projection
INS - Inercial Navigation System
LR - Low Resolution
LSI - Linear Shift Invariant
LSV - Linear Shift Variant
MAP - Maximum a Posteriori
MPS - Mission Planning System
MTF - Modulation Transfer Function
NC - Normalized Convolution
POCS - Projection Onto Convex Sets
PSF - Point Spread Function
PSNR - Peak Signal-to-Noise Ratio
ROI - Region of Interest
SD - Steepest Descent
SSIM - Structural Similarity Index
SAD - Shift-and-Add
SR - Super-Resolução
TAB. - Tabela
TV - Total Variation
VAD - Videografia Aérea Digital
VANT - Veículo Aéreo Não-Tripulado
16
LISTA DE SIGLAS
AFA Academia da Força Aérea
AMAN Academia Militar das Agulhas Negras
CPRM Companhia de Pesquisa e Recursos Minerais
CTA Centro Tecnológico da Aeronáutica
CTEx Centro Tecnológico do Exército
DSG Diretoria de Serviço Geográfico
EB Exército Brasileiro
EPFL École Polytechnique Fedérale de Lausanne
FAB Força Aérea Brasileira
IBGE Instituto Brasileiro de Geografia e Estatística
IME Instituto Militar de Engenharia
INPE Instituto Nacional de Pesquisas Espaciais
LSU Lousiana State University
MB Marinha do Brasil
NASA National Aeronautics and Space Administration
SGB Serviço Geológico do Brasil
UCLA University of Califórnia, Los Angeles
UNESP Universidade Estadual Paulista
17
RESUMO
Os VANTs já são uma realidade no âmbito do Ministério da Defesa (MD) e nos últimos cinco
anos têm sido empregados em operações de vigilância e reconhecimento. Essas aeronaves são
equipadas com sistemas de posicionamento por satélites e inerciais além de possuir câmaras
que geram imagens de foto (armazenada) e vídeo (transmitidas em tempo real). A resolução
espacial de uma imagem depende do sensor do sistema de aquisição. Várias técnicas
aumentam a resolução espacial de um sistema de imageamento, sendo uma delas a Super-
Resolução (SR), que consiste basicamente de uma etapa de registro seguida de uma etapa de
reconstrução. Uma vez que a banda passante para a transmissão de uma imagem, ou vídeo,
mesmo codificado com algum padrão de compressão, é bastante alta, a idéia é
adquirir/transmitir, em tempo real, imagens/vídeos com baixa-resolução (LR), consumindo
assim menos bits, e utilizar as técnicas de SR para gerar as versões em resoluções mais altas
(HR). Essa pesquisa tem por objetivo apresentar uma proposta de metodologia de obtenção de
imagens HR aplicadas a sequências de imagens aéreas LR oriundas de distintos sistemas
sensores, embarcados em VANTs, que figuram no contexto operacional do MD utilizando
técnicas de SR. Foram utilizadas amostras de imagens adquiridas durante voos experimentais
de cinco VANTs em regiões e épocas distintas. As imagens obtidas por câmara fotográfica
foram adquiridas com visada nadir e as de vídeo foram adquiridas com visada oblíqua e zoom
variante. Na revisão bibliográfica foram abordados alguns aspectos relevantes referentes à
estrutura de imagens digitais, SR, aerofotogrametria, videografia aérea digital (VAD) e as
possibilidades de inter-relacionamento entre essas técnicas. A metodologia é constituída pelas
seguintes etapas (a) geração de imagens LR simuladas a partir de uma imagem HR ground-
truth; (b) avaliação dos métodos de registro e reconstrução quando aplicados a dados
simulados; (c) avaliação das imagens HR resultantes através de métricas objetivas PSNR e
SSIM; (d) aplicação aos dados reais (sequência LR de vídeo) dos métodos que apresentaram
melhores resultados com os dados simulados; (e) avaliação das imagens HR resultantes
através do teste subjetivo MOS, em virtude de não haver imagem de referência para
comparação; (f) construção de um mosaico, no qual conceitos de videografia aérea foram
utilizados na obtenção de imagens HR, geradas através do método que obteve melhores
resultados nos exprimentos anteriores. Foram utilizados os métodos de registro e de
reconstrução mais consagrados pela literatura, implementados em três distintas interfaces
gráficas para usuários desenvolvidas em laboratórios acadêmicos de Processamento Digital de
Imagens (PDI), no ambiente MATLAB. Constatou-se que para dados reais e simulados o
processo de SR deve ser diferenciado em função de características dos métodos de registro e
reconstrução. Uma das conclusões obtidas é que os métodos de reconstrução baseados em
modelos matemáticos que possuem termos de regularização apresentam superioridade quando
comparados com métodos convencionais. Outra importante conclusão é que o sucesso das
técnicas de SR, assim como a videografia aérea digital (VAD), dependem do total controle de
atitude do movimento do sensor e da plataforma, quanto maior o planejamento da aquisição
(projeto de voo), mais parâmetros são conhecidos acerca do movimento e maiores são as
possibilidades de identificação e posicionamento de alvos. Com a experiência adquirida,
juntamente com a bibliografia indicada, conclui-se que insumos produzidos pela videografia
realizada pelos VANTs, associados a técnicas de SR, produzem relevantes contribuições na
obtenção de informações do terreno e no apoio ao processo cartográfico em geral.
18
ABSTRACT
The UAV are already a reality within the Ministry of Defence (MD) and in the last five years
have been used in surveillance and reconnaissance operations. These aircraft are equipped
with satellite positioning systems and inertial addition to having cameras generate photo
images (stored) and video (broadcast in real time to a ground control station). The spatial
resolution of an image (or video) depends on the sensor acquisition system. Several
techniques increase the spatial resolution of an imaging system, one of the Super-Resolution
(SR), which basically consists of a registration step followed by a phase of reconstruction.
Since the bandwidth for the transmission of an image, or video, even if codified into a pattern
of compression is high enough, the idea is to acquire/transmit real-time image/video with low-
resolution (LR) thus consuming fewer bits, and use techniques to generate the SR versions at
higher resolutions (HR). This research aims to propose a method of obtaining images with
high resolution (HR) sequences applied to aerial images of low resolution (LR) originating
from different sensor systems, embedded in UAV, which are included in the operational
context using the MD SR techniques. Samples of images acquired during experimental flights
of five UAV in different regions and eras. The images obtained by camera were acquired with
nadir sight and video were acquired with oblique target and zoom variant. Were addressed in
the literature review some relevant aspects related to the structure of digital images, SR, aerial
photography, digital aerial videography (VAD) and the possibilities of inter-relationship
between these techniques. The methodology is the following steps (a) generation of
simulated LR images from an HR image called "true" (b) evaluation of methods of recording
and reconstruction when applied to simulated data, (c) evaluation of HR images derived
through objective metrics PSNR and SSIM (d) application to real data (LR video sequence)
the methods that produced best results with the simulated data, (e) evaluation of the images
through the HR resulting MOS subjective test because they do not be the reference image for
comparison, (f) case study, in which concepts of aerial videography were used to construct a
mosaic from HR images generated by the method achieved better results in previous trials.
The methods most recommended by literature were used to register (KE, VA, MA, LU, FOR
and CA) and reconstruct (IBP, POCs, NC, SAD and MAP), implemented in three different
graphical user interfaces (SRA, and SRT MDSP), developed in academic laboratories of PDI,
in MATLAB. We emphasize the superiority of the registration method CA and reconstruction
method MAP_GC for real data. For the simulated datas, stood out the registration FO and
reconstruction SAD_N2L1 for images in grayscale and for color images reconstruction
ITER_SAD. One of the conclusions reached is that the reconstructions methods SAD
MAD_GD, NC, which are based on mathematical models that have terms of regularization,
have superiority when compared with conventional methods and IBP_R POCs. Another
important conclusion is that the success of SR techniques as well as Digital aerial
videography (DAV) depend on the total attitude control of the motion sensor and platform
the higher the acquisition planning (flight design), more parameters are known about the
movement and greater the chances of identification and positioning of targets. With
experience, along with the literature indicated, it is concluded that inputs produced by the
videography done by UAVs, associated with SR techniques, produce relevant contributions in
obtaining the land information and mapping support to the process in general.
19
1 INTRODUÇÃO
Atualmente o conhecimento tecnológico tornou-se um dos bens mais valorizados. Quem
o tem exerce algum tipo de poder sobre quem não o possui, seja nos campos político, militar,
econômico e social. O alto custo e a dependência da obtenção do conhecimento tecnológico a
partir de outros países são fatores importantes a serem considerados pelo Exército Brasileiro e
e pelas empresas em geral.
No contexto anteriormente descrito, pode-se afirmar que o fornecimento de imagens
digitais adquiridas através de satélites imageadores de alta resolução (pixel menor que 1 m)
seria uma solução para o mapeamento do Território Brasileiro, mas, novamente, a
dependência da tecnologia estrangeira e a cadeia de suprimento para obtenção dessas imagens
em tempo hábil devem ser analisadas. Segundo FERREIRA (2001), mesmo com a resolução
submétrica dos novos satélites, os processos de produção de cartas em escalas cadastrais
continuarão a ser feitos por Aerofotogrametria devido a vários fatores de ordem técnica, a
exemplo da precisão final requerida para a carta. Outro aspecto a ser levantado é a dificuldade
de aquisição de imagens da região amazônica por satélites imageadores que operam na região
do espectro eletromagnético visível ou infravermelho, por causa das nuvens, principalmente
no período de chuvas (6 meses do ano).
O pixel é o menor elemento de uma imagem digital, quanto mais pixels utilizados para
representar uma imagem, mais essa imagem se aproxima ou se “assemelha” ao objeto original
- teoricamente esse conceito está associado à qualidade. O número de pixels em uma imagem
também se associa ao conceito de resolução. A resolução espacial ou geométrica de uma
imagem é a capacidade de registrar detalhes em uma cena (CHAUDHURI, 2001).
Atualmente são adquiridas câmaras de vídeo digitais convencionais com resolução
espacial da ordem de dezenas de mega pixels, a preços acessíveis, proporcionando condições
para o estudo de suas potencialidades, principalmente para a área da Videografia digital.
Segundo NEWCOME (2004), uma plataforma alternativa capaz de acoplar sensores para
a obtenção de imagens do terreno são os Veículos Aéreos Não-Tripulados (VANTs). Esses
veículos, em sua grande maioria, são dotados de sistemas GPS (Sistema de Posicionamento
Global) e INS (Sistema de Navegação Inercial), além de câmaras de vídeo e fotográficas que
fornecem dados georreferenciados em tempo real para uma base em solo.
20
Os VANTs são uma realidade para o Ministério da Defesa desde os anos 80 em projetos
como o Acauã (BRASIL, 2004), desenvolvido pelo Centro Tecnológico da Aeronáutica em
1984, abandonado em 1988, retomado em 2004 e concluído em junho de 2010.
Pode-se citar também o projeto do alvo aéreo Harpia, desenvolvido pela Marinha do
Brasil no ano de 2005. Atualmente no âmbito da Força Terrestre, o VANT figura oficialmente
em Linhas de Pesquisa e em projetos tais como o Projeto VANT VT-15 do Exército
(PEREIRA, 2008). Um dos requisitos fundamentais dos VANTs é a sua independência de
controle externo, ou seja, a autonomia suficiente para se deslocar em segurança e reagir
adequadamente frente às situações mais diversas em imprevistos (BRASIL, 2009).
No entanto, um problema comum é o uso de imagens de baixa resolução espacial, o que
dificulta a visualização precisa de detalhes dos fenômenos imageados. A análise de imagens é
fundamental para sistemas de planejamento de missão (MPS) de VANTs, possibilitando ações
de reconhecimento, controle e mobilidade (NEWCOME, 2004).
A resolução de uma imagem depende da resolução do dispositivo de aquisição. Aumentar
a resolução do sensor de imagem é claramente um modo de aumentar a resolução da imagem
adquirida. No entanto, deve-se ressaltar que para o caso dos VANTs existe a limitação da
banda-passante para transmissões em tempo real.
Super-resolução (SR) é o nome das técnicas que aumentam a resolução espacial de um
sistema de imageamento através de um conjunto de imagens baixa-resolução (LR). Pode ser
formado através de conjuntos extraídos de uma aquisição contínua de vídeo ou adquirido por
múltiplos sensores capturando uma mesma cena durante certo período de tempo.
Esta técnica permite que imagens ou vídeos de baixa resolução espacial, que podem ser
comprimidos e transmitidos a taxas de bits bem menores do que vídeos os imagens em alta
resolução, sejam posteriormente processadas em resoluções mais altas. A finalidade é gerar
uma imagem de alta resolução (HR) a partir de uma sequência LR sem introduzir artefatos
como borramento, uma vez que são empregadas técnicas de interpolação. Na verdade, não se
pode criar a informação perdida na aquisição da cena LR, ou seja, detalhes existentes na cena
que se adquiridos em resoluções mais altas poderiam ser percebidos serão perdidos na versão
LR. As técnicas de SR inferem os eventuais detalhes perdidos para criar uma imagem em HR.
21
1.1 OBJETIVO
O objetivo dessa dissertação é desenvolver uma metodologia para a construção de
imagens de super-resolução (SR) a partir de dados reais e simulados de sistemas sensores
visuais embarcados em VANTs. Os sensores contemplados serão câmaras de vídeo e
fotográfica.
1.2 JUSTIFICATIVA
Alguns esforços estão sendo feitos no sentido de proporcionar uma solução para a
obtenção de imagens de regiões de interesse da Força Terrestre com um nível de
detalhamento que permita sua utilização em diversas atividades, tais como: identificação de
alvos, atualização cartográfica, geração de mosaicos, construção de modelos digitais de
superfície, cartas-imagem entre outros.
No entanto, para atingir esse objetivo, é necessária a integração de diversas instituições
de ensino e pesquisa do país, dos componentes do Sistema Cartográfico Brasileiro, órgãos
federais de planejamento e gestão, além de empresas na área de Geoprocessamento e
Aerolevantamento. Nesse sentido, destacam-se os seguintes projetos: GEOMA (INPE, 2006);
Radiografia da Amazônia (DSG, 2010); e Mapeamento Móvel (OLIVEIRA, 2001), além de
acordos de cooperação técnica com as empresas AGX tecnologia e Flight Technologies.
O Projeto GEOMA, do Instituto Nacional de Pesquisas Espaciais (INPE), realizado em
maio a junho de 2006 teve por objetivo realizar um sobrevoo de reconhecimento para coletar
dados e identificar alvos da superfície terrestre da região Amazônica. Aeronaves estáveis e
tripuladas foram embarcadas com câmaras de vídeo associadas a sistemas GPS e INS, além de
câmaras fotográficas para controle da posição. A partir de insumos de vídeo foram gerados
mosaicos de toda a região sobrevoada (INPE, 2006).
O projeto MAPEAMENTO MÓVEL é desenvolvido desde 1997 pelo Departamento de
Cartografia da Universidade Estadual Paulista (UNESP). Basicamente “consiste de uma
plataforma móvel, em geral, um veículo automotor, que recebe distintos sensores de
navegação, de posicionamento, de mensuração e de aquisição de imagens que são integrados
em um sistema que produz imagens georreferenciadas dos lugares por onde transita”
(OLIVEIRA, 2001).
O projeto RADIOGRAFIA DA AMAZÔNIA (DSG) é o projeto do Radar da banda “P”
aerotransportado, coordenado pelo Censipam e realizado em parceria com Exército, Marinha,
22
Aeronáutica e Companhia de Pesquisa e Recursos Minerais (CPRM). A proposta é cobrir os
“vazios cartográficos” da região amazônica, uma vez que a banda P penetra nas copas das
áreas e fornece o real relevo da floresta. Esse é um perfeito exemplo da necessidade da Força
Terrestre em imagear áreas de difícil acesso. Vislumbra-se do projeto um VANT-SAR
projetado pela empresa AGX, especificamente para receber um radar, que possa ser lançado
em condições extremas de dificuldade e sem risco de vida para a tripulação (DSG, 2010).
As empresas AGX Tecnologia e Flight Technologies, desde 2007, possuem acordos de
cooperação técnica com o Exército Brasileiro referente ao fornecimento de tecnologia de
aviônicos e sistemas em VANTs. Essas empresas operam em esferas distintas, sendo a AGX
operante junto à Artilharia Divisionária em operações de localização e reconhecimento de
alvos, com operacionalidade testada em operações anuais desde 2007. Já a Flight possui
acordo de cooperação referente à construção junto ao CTEx do VANT VT-15, ilustrado na
FIG. 1.1, com alcance de 15 km (BRASIL, 2009).
FIG. 1.1: VANT VT-15 (CTEx, 2010).
Após situar os principais projetos em andamento e vislumbrar as suas potencialidades,
constata-se que o aproveitamento cartográfico de imagens obtidas a partir de câmaras de
vídeo embarcadas em VANTs são de grande importância para a concepção de um sistema de
imageamento videográfico de baixo custo, quando comparado à cobertura fotogramétrica ou à
imagens de satélite.
Para tal devem ser considerados os seguintes fatores: (1) em todos os projetos descritos,
trabalha-se com câmaras de vídeo e/ou fotográfica; (2) quanto maior a resolução espacial da
imagem, maior o detalhamento em relação à cena original; (3) o aumento da resolução
engloba a elevação significativa da quantidade de dados a serem armazenados e/ou enviados
na transmissão, esbarrando, assim, em limitações de disponibilidade de espaço e de banda.
Uma alternativa para solucionar esse tipo de problema, ilustrado na FIG. 1.2 é aplicar
técnicas de super-resolução a imagens selecionadas da seqüência de vídeo com resolução
espacial reduzida. Dessa maneira, a análise das imagens oriundas de dados de câmaras de
23
vídeo embarcadas em VANTs poderia ser otimizada pela aplicação de técnicas de SR com
vistas à reconstrução da cena.
FIG. 1.2: Amostras de imagens da câmara Axis 233D doVANT VT-15 (CTEx, 2010).
1.3 DESCRIÇÃO GERAL DO TRABALHO
O presente trabalho é descrito nos seguintes capítulos
Capítulo 2: neste capítulo são abordados fundamentos teóricos sobre imagens digitais,
super-resolução e suas tendências atuais, voo fotogramétrico e voo videográfico, conceitos
estes necessários à compreensão do desenvolvimento do trabalho.
Capítulo 3: apresenta os materias que foram utilizados na realização do trabalho bem
como a metodologia utilizada na elaboração das etapas para a geração de imagens de SR. Este
capítulo apresenta também os conceitos que envolvem os critérios de avaliação da qualidade
das imagens super-resolvidas. Os critérios abrangem métodos subjetivos visuais estabelecidos
por normas internacionais tais como o MOS (ITU-R 500-5) e métricas objetivas tais como o
PSNR e o SSIM (WANG ET AL., 2004).
Capitulo 4: são apresentados os resultados dos experimentos propostos pela metodologia
no processo de geração das imagens e do mosaico de SR, explicitada no capítulo anterior,
obtidas a partir de sequências de imagens simuladas LR e de sequências de imagens de vídeo.
Capitulo 5: são apresentadas as conclusões retiradas a partir da análise dos resultados
obtidos e propostas para trabalhos futuros.
24
2 SUPER-RESOLUÇÃO E VIDEOGRAFIA AÉREA DIGITAL: ASPECTOS
RELEVANTES
Neste capítulo são abordados fundamentos teóricos sobre imagens digitais, Super-
Resolução e suas possíveis aplicações à Videografia Aérea Digital (VAD), conceitos estes
necessários à compreensão do desenvolvimento da pesquisa.
2.1 IMAGENS DIGITAIS
Segundo IMAGE FUSION (2008) as imagens HR e os vídeos são matéria básica para as
áreas de análise e processamento de imagens digitais. A obtenção de imagens HR possui dois
grandes objetivos: melhoramento das informações para interpretação humana e auxílio à
representação para a percepção automática em ambientes computacionais. A resolução
descreve os detalhes contidos em uma imagem: quanto maior a resolução, mais detalhes na
imagem. A resolução de uma imagem digital pode ser classificada da seguinte maneira:
resolução espacial, resolução espectral, resolução temporal e resolução radiométrica. No
contexto dessa pesquisa, se está interessado principalmente na resolução espacial.
Resolução espacial: uma imagem digital é composta de pequenos elementos de imagem
chamados de pixels. Resolução espacial refere-se à densidade de pixels em uma imagem em
medidas de pixels por unidade de área. A FIG 2.1 mostra um alvo clássico para determinação
da resolução espacial de um sistema de imagem.
FIG. 2.1: Alvo teste de resolução da ISO 12223 utilizado para determinar a resolução
espacial de sistemas e sensores de imageamento (ISO 12223).
25
A resolução espacial é limitada pelo dispositivo de aquisição. Os sensores utilizados
atualmente são: Charge Coupled Device (CCD) e o Complementary Metal Oxide
Semiconductor (CMOS). O tamanho do sensor e o número de elementos sensores por unidade
de área determina a resolução espacial da imagem no instante da aquisição. Uma imagem
desse sistema com detectores pequenos ou em pouca quantidade gera imagens de baixa
resolução (LR) com artefatos, devido ao aliasing. A FIG 2.2 ilustra o efeito visual da
resolução espacial, quanto menor o tamanho do pixel maior o detalhamento na imagem.
FIG. 2.2: Degradação da resolução espacial. (INTERGRAPH, 2011)
A imagem digital pode sofrer um processo de degradação (FIG. 2.3) de sua qualidade
devido a alguns fatores, como, por exemplo:
Aberrações das lentes da câmara, que causam um efeito de borramento circular;
Focalização incorreta, o que ocorre quando o sensor não está corretamente
posicionado no plano da imagem;
Deslocamento do sistema sensor durante a aquisição da imagem, o que causa o
chamado arrastamento;
Deslocamento de um objeto da cena, o que causa um borramento equivalente ao
arrastamento;
Deficiência ou excesso de iluminação;
Espalhamento atmosférico.
26
FIG. 2.3: Processo de degradação da qualidade, adaptado de PARK ET AL. (2003).
Uma cena de vídeo natural é espacial e temporalmente contínua (não amostrada). A
digitalização de um vídeo requer a amostragem temporal, que divide o vídeo em uma
sequência de imagens estáticas (quadros ou frames), e a amostragem espacial (que divide cada
imagem em pontos, denominados picture elements ou simplesmente pixels) conforme ilustra a
FIG. 2.4. Cada pixel é representado como um número ou conjunto de números que descreve o
brilho (luminância) e a cor (crominância) dessa amostra. A quantidade de pixels em cada
imagem define a resolução espacial do vídeo, enquanto a quantidade de quadros por segundo
define a resolução temporal.
FIG. 2.4: Amostragem temporal e espacial de uma sequência de vídeo.
27
Quanto maior a resolução espacial de um vídeo, maior o detalhamento em relação à cena
original. Um problema quanto ao aumento da resolução engloba a elevação significativa da
quantidade de dados a serem armazenados e/ou enviados na transmissão, esbarrando, assim,
em limitações de disponibilidade de memória e de largura de banda. Uma alternativa para
contornar essas limitações é utilizar todos os quadros com resolução mais baixa
(consequentemente perdendo detalhes) ou utilizar somente alguns quadros com grande
resolução espacial e os outros quadros da sequência de vídeo com resolução espacial
reduzida, desse modo, preservando o máximo detalhamento em alguns dos quadros, ou ainda
comprimir os vídeos com sistemas de compressão consagrados tais como o H264/AVC
(RICHARDSON, 2010). No entanto, esta alternativa pode introduzir artefatos (elementos
indesejáveis nas imagens).
2.2 SUPER-RESOLUÇÃO
Foi visto no tópico anterior que a resolução espacial está diretamente ligada à quantidade
de pixels existentes no sensor, bem como ao tamanho do pixel, que depende das
características do sensor.
De acordo com MILANFAR (2010), Super-Resolução (SR) são técnicas que constroem
imagens de alta resolução (HR) a partir de várias imagens LR observadas, aumentando assim
os componentes de alta freqüência (que fornecem os detalhes finos da imagem) e removendo
as degradações causadas pelo processo de imageamento da câmara de baixa resolução. A
idéia básica por trás de SR é combinar as informações não redundantes contidas em várias
imagens LR para gerar uma imagem HR.
Para cenas estáticas (FIG. 2.5) as observações são relacionadas por deslocamentos
globais em nível de fração de pixel (geralmente ocorrendo devido a posições relativas das
câmaras ou movimento do próprio sensor). As cenas dinâmicas (FIG. 2.6) são relacionadas a
deslocamentos de subpixel devido a movimento local dos próprios objetos, juntamente com
deslocamentos globais (CAPEL, 2001). Em ambos os casos o objetivo da SR é utilizar o
conjunto de imagens de baixa resolução ou de quadros numa sequência para gerar uma
imagem com maior resolução espacial (FIG. 2.7).
28
FIG. 2.5: Uma cena estática de vídeo (esquerda); após equalização de histograma a placa do
automóvel continua ilegível devido ao ruído natural da imagem (direita), adaptado de CAPEL
(2001).
FIG. 2.6: Captura da região de interesse (esquerda); a SR estima a cena subjacente a
partir de 50 imagens (direita); adaptado de CAPEL (2001).
FIG. 2.7: Legibilidade da placa como resultado da media do conjunto cada vez maior de
imagens, adaptado de CAPEL (2001).
29
Uma técnica intimamente relacionada com SR é a interpolação de imagem, que pode ser
usada também para aumentar o seu tamanho. No entanto, uma vez que não há nenhuma
informação adicional fornecida, a qualidade da interpolação de uma única imagem é muito
limitada, devido a natureza 1mal-condicionada do problema. Nestes casos pequenas alterações
nos dados de entrada geram grandes alterações nos resultados, dessa maneira as componentes
de freqüência perdidas não podem ser recuperadas. Como na SR existem várias observações
disponíveis para a reconstrução, o problema torna-se mais restrito.
As informações não redundantes contidas nas imagens LR são normalmente oriundas do
deslocamento subpixel entre elas (FIG. 2.8). Estas mudanças a nivel de subpixel podem
ocorrer devido a movimentos descontrolados entre o sistema de imageamento e a cena, como
por exemplo, os movimentos de objetos, ou devido a movimentos controlados, como por
exemplo, o sistema de imageamento de satélites que orbitam ao redor da Terra com uma
trajetória e velocidade pré-definidas. Cada quadro LR é uma decimação, uma observação que
apresenta aliasing da cena real. A SR só é possível se existir movimentos subpixel entre esses
quadros LR, sendo assim o problema chamado mal-condicionado pode ser mais bem-
condicionado. (MILANFAR, 2010).
A FIG. 2.9 mostra um diagrama simplificado descrevendo a idéia básica da reconstrução
através da SR. No processo de imageamento a câmara captura vários quadros LR, que são
subamostrados da cena de HR com deslocamento de subpixel (fração de pixel) entre si. A SR
inverte este processo, alinhando (registrando) as LR com precisão subpixel e os combina em
uma grade de HR (Interpolação), superando desta maneira a capacidade de resolução do
sensor.
1 Problemamal-condicionado: um problema que não tem solução ou tem mais de uma solução e depende de poucos dados contendo alguns
erros de aproximação ou de medição, ou corrompido por ruído e/ou outras perturbações, que vão dificultar o seu tratamento matemático.
30
FIG. 2.8: Premissa básica para a SR (PARK ET AL., 2003).
Do que foi apresentado anteriormente pode-se resumir então a estratégia geral que
caracteriza a super-resolução em três grandes passos (FIG. 2.9):
1. Aquisição de imagens LR: Aquisição de uma seqüência de imagens LR da mesma cena
com deslocamentos geométricos não inteiros (em termos de distâncias interpixel) entre
qualquer uma das duas imagens.
2. Registro de imagem / compensação de movimento: Estimativa da transformação
geométrica subpixel de cada imagem de referência no que diz respeito à grade HR de
referência desejável.
3. Reconstrução de imagens HR: Solução do problema de reconstruir uma imagem de HR
através dos dados disponíveis fornecidos pelas imagens fonte LR. Essa etapa também pode
ser dividida em uma etapa de interpolação na grade de HR e acrescida à outra etapa de
restauração para correção de foco e remoção de ruído.
31
FIG. 2.9: Esquema geral da Super-Resolução.
Os principais trabalhos de SR fazem referência ao algoritmo descrito por TSAI &
HUANG (1984). Eles descrevem um método no domínio da freqüência que é aplicada a
imagens de satélite.
Uma boa visão geral dos atuais métodos de SR é dada por BORMAN & STEVENSON
(1998). Edições especiais sobre super-resolução de imagens foram publicadas em IEEE
Signal Processing Magazine (2003) e no Journal EURASIP em Applied Signal Processing
(2005). Também foram publicadas implementações no ambiente Matlab com interface gráfica
para o usuário (GUI) de Super-Resolução. Algoritmos foram também publicados por FARSIU
ET AL. (2004a), FARSIU ET AL. (2004e), FARSIU ET AL. (2004f), VANDEWALLE ET
AL. (2007), GEVREKCI & GUNTURK (2006), ZIBETTI (2007), ZHANG ET AL. (2010),
TAKEMURA (2010), TELLES (2008) e ALMEIDA (2001).
Neste trabalho optou-se por utilizar como objeto de estudo os conjuntos de métodos
publicados por FARSIU ET AL. (2004c), VANDEWALLE ET AL. (2007) e GEVREKCI &
GUNTURK (2006), em virtude das mesmas contemplarem métodos que têm apresentado
bons desempenhos relacionados a imagens terrestres, no entanto, pouco explorados quando se
trata de imagens aéreas.
Os métodos de SR são geralmente classificados em dois grandes grupos:
Métodos no domínio da frequência: utilizam séries de Fourier e exploram problemas
na geração da amostragem (aliasing). Podemos citar o Recursive Least Square (RLS) e o
Total Least Square (LS).
32
Métodos no domínio espacial: utilizam séries de Taylor. O modelo de observação
linear do domínio espacial abrange movimento global e não global (local), borramento devido
ao sistema óptico, borramento devido ao movimento do sensor, variabilidade espacial da
função de espalhamento pontual (PSF), amostragem não ideal, artefatos oriundos do processo
de compressão, etc. A reconstrução no domínio espacial possibilita a inclusão de restrições a
priori, resultando em uma extrapolação da largura da banda no processo de reconstrução.
Observa-se na FIG. 2.9 que após a aquisição, o registro de imagens é a primeira parte da
maioria dos métodos de SR, podendo ser realizado tanto no domínio do espaço quanto no
domínio da freqüência. Métodos de registro de imagens foram pesquisados por BROWN
(1992) e por ZITOVA & FLUSSER (2003). Estão descritas a seguir algumas das técnicas
mais utilizadas no domínio espacial, posteriormente descreve-se os métodos mais utilizados
para o registro no domínio da freqüência.
Uma técnica muito utilizada é calcular os pontos característicos salientes é mapear as
funções correspondentes em diferentes imagens (CAPEL & ZISSERMAN, 2003; IRANI &
PELEG, 1991).
Outra abordagem utiliza séries de Taylor para a aproximação das imagens. Os
parâmetros de movimento são as incógnitas na aproximação e podem ser calculados a partir
do conjunto de equações que pode ser derivada a partir desta aproximação. Em virtude da
série de Taylor fornecer uma boa aproximação apenas para pequenos deslocamentos, estes
métodos de registro são geralmente aplicados iterativamente usando uma pirâmide gaussiana
(IRANI & PELEG, 1991; KEREN ET AL. 1988).
Outros métodos são baseados no cálculo de um campo de fluxo óptico (GALVIN ET
AL., 1998; LUCAS & KANADE, 1981) que pode discriminar diferentes padrões de
movimento em uma única imagem.
Os métodos no domínio da freqüência são limitados ao movimento translacional global
em um plano paralelo ao plano da imagem. Pequenos deslocamentos planares podem ser
modelados como deslocamentos de fase linear no domínio da freqüência, enquanto rotações
(no plano da imagem), no domínio espacial, correspondem a rotações no domínio da
freqüência. Além disso, os modelos de movimento mais gerais são mais dificeis de se modelar
no domínio da freqüência. Entretanto, os métodos de registro no domínio da frequência
podem ser computacionalmente muito eficientes e oferecem boas ferramentas para modelar o
aliasing.
33
Se as imagens de entrada não são subamostradas e se o movimento puder ser aproximado
por um deslocamento planar, este deslocamento pode ser calculado como a diferença de fase
linear entre as duas imagens (VANDERWALLE ET AL., 2007).
A rotação planar pode ser modelada no domínio da freqüência por uma rotação sobre o
mesmo ângulo. Estes parâmetros de deslocamento e rotação podem ser estimados
separadamente porque o deslocamento afeta apenas a informação da fase, enquanto a rotação
afeta tanto a fase quanto a amplitude da transformada de Fourier. REDDY & CHATTERJI
(1996) e MARCEL ET AL.(1997) utilizaram esses conceitos em seu algoritmo de registro de
imagens. Para estimar a rotação, eles transformaram a imagem no domínio de Fourier em
coordenadas polares, de tal forma que o ângulo de rotação é transformado em deslocamento.
Outro método de estimativa de rotação é apresentado por LUCCHESE &
CORTELAZZO (2000). Eles calcularam o ângulo de rotação pesquisando os cruzamentos
(zero crossing) entre o espectro de uma imagem e uma versão espelhada do espectro da outra
imagem. MARCEL ET AL.(1997) estimaram o deslocamento da mesma forma.
Se as imagens de baixa resolução possuem aliasing então essas relações simples não
possuem mais validade. Se parte do espectro (geralmente a baixas frequências) está livre do
aliasing, os parâmetros de mudança ainda podem ser estimados utilizando apenas esta parte.
O método para estimar a rotação baseado em baixas freqüências foi elaborado por
VANDEWALLE ET AL (2005), nesse caso, o aliasing pode ser considerado como (parte do)
ruído. Se o aliasing não pode ser negligenciado em qualquer parte do espectro, devem ser
aplicados outros métodos para que se consiga modelá-lo. Esses métodos foram apresentados
por VANDERWALLE ET AL. (2007).
A segunda parte dos métodos de super-resolução é a reconstrução, na qual uma imagem
de alta resolução é reconstruída a partir do registro de imagens LR. Uma boa visão geral é
dada por PARK ET AL. (2003). Segundo o autor, primeiramente, há um conjunto de métodos
de interpolação não uniforme que reconstrói um sinal de banda limitado em um conjunto de
amostras irregulares. Como descrito anteriormente, existem os métodos no domínio da
frequência que foram adaptados para modelar o ruído e o borramento.
Outra categoria de algoritmos de reconstrução baseia-se no método de Projeção no
conjunto convexo – POCS. Estes são algoritmos iterativos nos quais a reconstrução ocorre
sucessivamente, em diferentes conjuntos convexos representando a informação prévia sobre a
imagem HR. Depois de um número de iterações, a imagem reconstruída converge para a
imagem no cruzamento de diferentes conjuntos (PATTI ET AL., 1997).
34
Da mesma forma, os algoritmos de Iterative Backprojection (IBP) usam um modelo do
processo de imagens para estimar a imagens de baixa resolução que seria criado ao capturar a
estimativa de reconstrução em curso. A estimativa de alta resolução é então corrigida através
de um termo relativo a diferença entre as imagens LR estimadas e as reais.
ZOMET ET AL. (2001) propõem o algoritmo Robust Super Resolution que é
basicamente uma versão melhorada do Iterated Back Projection onde a única diferença reside
no fato de que ao somar todos os erros para a estimação da imagem de alta resolução, esse
método utiliza como imagem gradiente a média de todos os erros.
Uma abordagem de máximo a posteriori (MAP) também pode ser usada para a
reconstrução, este método permite facilmente adicionar diferentes prioridades na imagem
reconstruída no modelo. FARSIU ET AL. (2004) aumentou a robustez do algoritmo por
ELAD E HEL-OR (2001) substituindo a minimização da norma L2 pela minimização da
norma L1. Eles também acrescentaram um termo de regularização para estabilizar a
reconstrução.
O algoritmo Structure-Adaptive Normalized Convolution proposto por PHAM ET AL.
(2006) usa convolução normalizada para reconstruir a imagem de alta resolução. Duas opções
podem ser habilitadas para esse algoritmo robustez a ruídos que basicamente analisa todas as
imagens de baixa resolução e decide quais pixels podem estar ruidosos e não os considera no
processamento e um segundo processamento para realizar a correção de possíveis erros. Essa
segunda etapa basicamente adapta o tamanho e a orientação dos filtros gaussianos na
convolução normalizada. Isso pode resultar em uma imagem mais realçada. O
aprofundamento dos métodos abordados por este trabalho encontra-se nos APÊNDICES 7.1 e
7.2.
2.3 MODELAGEM DO PROCESSO DE AQUISIÇÃO DE IMAGENS
A solução do problema da Super-Resolução requer a modelagem da relação entre a
imagem HR e as imagens LR disponíveis, que podem ser consideradas como versões
distorcidas geometricamente e degradadas do quadro HR ideal que desejamos construir. A
primeira relação que deve ser modelada é a da transformação geométrica entre as grades LR
grades e a grade HR selecionada para expressar a imagem HR. A próxima relação é
estabelecida pela modelagem do processo de degradação que ocorre durante a aquisição da
imagem. Supõe-se que a imagem foi capturada por uma câmara fictícia perfeita com alta
resolução, pode-se supor que os quadros observados LR são o resultado de degradações desta
imagem ideal. Estes podem envolver o borramento, a subamostragem ou a presença de ruído.
35
As seções seguintes descrevem em detalhe os modelos mais comumente utilizados que
relacionam a imagem HR ideal com as imagens LR (IMAGE FUSION, 2008).
2.3.1 MODELO DE TRANSFORMAÇÃO GEOMÉTRICA - REGISTRO
Um registro de alta precisão das imagens LR em uma grade HR de referência é essencial
para o sucesso de qualquer algoritmo de SR. A precisão deste processo determina a eficiência
da reconstrução geral. O registro de imagens é um procedimento amplamente utilizado no
campo da análise de imagens (IMAGE FUSION, 2008). Embora o aprofundamento de várias
metodologias esteja além do escopo deste trabalho, alguns dos seus princípios fundamentais
são listados a seguir.
O objetivo do registro de imagens é a identificação de uma transformação geométrica
local ou global , que mapeia as coordenadas x = [x, y]T de um quadro atual para um novo
sistema de coordenadas do quadro de referência, com coordenadas x’ = [x’, y’]T:
x’= (x)
A transformação é determinada através da minimização de um critério de similaridade
entre as duas imagens. Esta medida de similaridade pode ser baseada em
1. Correlação Cruzada Normalizada;
Uma pequena janela de pontos na imagem de referência é estatisticamente
comparada com janelas de mesmo tamanho da imagem percebida. Este processo é ilustrado
na FIG. 2.10.
Considere a imagem percebida S com M linhas e N colunas, e n janelas Wz, com z = 1 a
n, com K linhas e L colunas extraídas da imagem de referência R e centrada no
ponto (az, bz). Sij (KxL) é a subimagem de S, sendo (i, j) a coordenada do canto esquerdo
superior na janela onde Sij(l, m) = S( i+l, j+m).
Para 0≤l≤K-1, 0≤m≤L-1 e 0≤i≤M-K, 0≤j≤N-L cada janela Wz é comparada a
cada subimagem Sij na imagem S. Após encontrar a subimagem Sij, cada melhor combinação
Wz e seus centros (az, bz) e (i+(K-1)/2, j+(L-1)/2) são tidos como os pontos de controle no
cálculo das transformações paramétricas.
36
FIG. 2.10: Correlação entre as imagens (FONSECA & MANJUNAH, 1996).
Em seguida os pontos de controle podem ser usados para calcular os parâmetros de
transformação. A comparação utiliza métricas de similaridade para medir a semelhança
entre duas janelas de dados e é maximizada sobre todos os prováveis pontos. Para a janela
W, e a subimagem Sij definida anteriormente, a correlação cruzada normalizada pode ser
matematicamente representada por:
( ) ∑ ∑
( ) ( )
√∑ ∑ ( )∑ ∑
( )
, (2.1)
onde
- Janela da imagem de referência;
- Janela da imagem de ajuste.
As janelas mais parecidas possuem o máximo valor R(i, j).
2. Mínimos Quadrados da Diferença de Intensidade (restrições de fluxo óptico)
Seja I (x, y, t) a intensidade da imagem no pixel (x,y) no tempo t, primeiramente é
assumido que o intervalo de tempo dt entre duas imagens é muito curto e a intensidade da
imagem não se altera neste intervalo de tempo (GALVIN ET AL., 1998; LUCAS &
KANADE, 1981).
I(x, y,t) = I(x+dx, y +dy,t +dt) (2.2)
A equação anterior pode ser expandida pela série de Taylor e reescrita como:
( ) ( )
+ O2 (2.3)
37
Aglutinando-se as duas equações eliminando O2, que são termos de alta ordem, obtém-
se:
( ) ( )
(2.4)
Eliminando o elemento comum em ambas as parcelas, obtém-se:
(2.5)
Dividindo todos os termos por dt obtém-se:
(2.6)
onde = (dx/dt , dy/dt) são os dois componentes do vetor velocidade (procurado) V.
O gradiente da função imagem nas direções x e y, (
) são denominados como .
Desta forma a equação de restrição do Fluxo Óptico torna-se:
(2.7)
3. Informação Mútua
A entropia H(X) de uma v.a. discreta X é definida por:
( ) ∑ ( ) ( ) (2.8)
Considere duas variáveis aleatórias X e Y com distribuição conjunta p(x, y) e
distribuições marginais p(x) e p(y). A informação mútua I(X;Y) é a entropia relativa entre a
distribuição conjunta e o produto das marginais:
( ) ∑ ∑ ( ) ( )
( ) ( ) ( ( )‖ ( ) ( ))
( ) [ ( )
( ) ( )] (2.9)
Grande parte dos métodos de registro consiste de quatro etapas (FIG. 2.11):
a) Detecção de pontos característicos: objetos salientes e de fácil identificação (limites,
bordas, contornos, cruzamentos de linha, cantos, etc) são manualmente ou, de preferência,
automaticamente
38
detectados para posterior processamento. Esses pontos característicos podem ser
representados por seus pontos de representação (centros da gravidade, final de linha, pontos
distintos), que são chamados pontos de controle (PCs) na literatura.
b) Correspondência entre os pontos característicos: nesta etapa, a correspondência é
estabelecida entre as características detectadas na imagem de ajuste e as detectadas na
imagem de referência. Vários pontos característicos e medidas de similaridade, juntamente
com as relações espaciais entre esses pontos, são utilizados para esse fim.
FIG. 2.11: Etapas do registro de uma imagem (ZITOVÁ & FLUSSER, 2003).
c) Estimação do modelo de transformação: são estimados o tipo e os parâmetros das
funções de mapeamento, alinhando a imagem de ajuste com a imagem de referência. Os
parâmetros das funções de mapeamento são calculados através das características de
correspondência estabelecidas.
d) Reamostragem e transformação: a imagem de ajuste é transformada através de
funções de mapeamento. Valores de imagem em coordenadas não inteiras são calculados
através de técnicas de interpolação apropriadas.
Segundo IMAGE FUSION (2008), dependendo da forma da função de transformação ,
podemos classificar as metodologias como sendo: paramétrica (global) e não paramétrica
(local).
39
2.3.1.1 ABORDAGEM PARAMÉTRICA (GLOBAL)
Neste caso, possui uma forma analítica, o que é explicitamente identificada como um
conjunto de parâmetros desconhecidos. Dois modelos paramétricos frequentemente utilizados
em SR são os seguintes:
FIG. 2.12: Tipos de transformações geométricas (PUC, 2011).
• Transformação Afim - A transformação afim possui seis parâmetros: dois de
translação, um de rotação, um de não ortogonalidade entre os eixos e dois fatores de escala
diferentes para os eixos X e Y. Este mapeamento preserva as linhas retas e os paralelismos
entre retas (OLIVEIRA, 2001). Pode ser usado para registro multivisada, assumindo que: a
distância da câmara à cena é grande em comparação com o tamanho da área digitalizada, a
câmara é ideal, a cena é plana, e a transformação geométrica entre os dois quadros é
puramente global, sem componentes locais extras.
• Transformação Perspectiva (ou projetiva) - Se a condição de distância infinita da
câmara à cena não é satisfeita, a transformação perspectiva de oito parâmetros deve ser usada
(OLIVEIRA, 2001). Este modelo descreve exatamente a deformação de uma cena plana
fotografada por uma câmara ideal, sendo que o eixo óptico da câmara não é perpendicular à
cena. O modelo perspectivo é mais abrangente e inclui o modelo afim como um caso especial.
2.3.1.2 ABORDAGEM NÃO PARAMÉTRICA (LOCAL)
Este método tenta identificar diretamente o vetor de movimento para cada pixel
individualmente. Esse processo é realizado através da minimização de uma função que avalia
40
a discrepância global entre duas imagens, usando uma das três medidas de similaridade
descritas anteriormente (correlação cruzada normalizada, restrições de fluxo óptico e
informação mútua). Tal abordagem, apesar de possuir alto custo computacional, pode
caracterizar uma ampla gama de distorções geométricas, incluindo deformações não rígidas
ou elásticas.
2.3.2 MODELOS DE DEGRADAÇÃO DA IMAGEM
2.3.2.1 BORRAMENTO
Segundo IMAGE FUSION (2008), essa fonte de degradação inclui três tipos principais
1. Embaçamento da câmara
Justificado por duas fontes de degradação: (a) imagem óptica imperfeita e (b) limitações
na capacidade de resolução do sensor, conforme especificado pela sua Função de
Transferência de Modulação (MTF). Estes dois fatores determinam uma função de
espalhamento pontual (PSF) para o sistema de imagem.
FIG. 2.13: Efeito do borramento através da Point Spread Function
(ROHAN, 2011).
Um artefato conhecido é o obscurecimento fora de foco. Este tipo de indefinição se
deve principalmente aos efeitos da abertura da câmara, que resultam em um ponto fonte que é
representado como uma estrutura contendo dados binários (BLOB). Como o conhecimento
preciso de todos os fatores que criam tais efeitos geralmente são desconhecidos (distância
focal, tamanho da abertura da câmara e forma, etc), vários modelos uniformes têm sido
adotados para aproximar as PSF, resultando em:
41
*Borramento uniforme fora de foco: Nestes modelos a desfocagem simples é encontrada
em uma variedade de sistemas de imagens como uma distribuição uniforme de intensidade
dentro de um disco circular:
h(x,y) = {
√
(2.10)
*Borramento uniforme bidimensional: Esta é uma forma mais grave de degradação que
se aproxima de um borrão fora de foco, e é utilizado em simulações:
h (x,y) = {
(2.11)
2. Dispersão atmosférica.
É uma deformação geralmente presente no caso das imagens de sensoriamento remoto e
fotogrametria, pode ser modelada por uma PSF Gaussiana:
h (x,y) =K
(2.12)
onde K é uma constante de normalização para garantir o valor unitário na integração da
PSF e σ2 é a variância que determina a dispersão da indefinição.
2. Indefinição do Movimento
Este efeito é resultado da baixa velocidade do obturador da câmara em relação ao rápido
movimento da câmara. Em geral, ele representa a média uniforme local unidimensional dos
pixels vizinhos. Um exemplo de movimento horizontal pode ser expresso por:
h (x,y) = {
(2.13)
O borramento da imagem pode ser modelado por um filtro de convolução passa baixa de
kernel que compreende todos os três processos de degradação e pode ser aproximada por uma
matriz da seguinte forma H = Hcam*Hatm*Hmovimento (Hcam a matriz de borramento que
representa o sistema da câmara; Hatm a matriz de borramento que representa o espalhamento
atmosférico; Hmovimento a matriz de borramento que representa o borramento por deslocamento
do sensor) (IMAGE FUSION, 2008).
A matriz H pode representar tanto o borramento Linear Shift-Invariant (LSI) ou Linear
Shift-Variant (LSV). Algumas das maneiras de estimar a PSF em geral incluem o uso de
42
informações do fabricante das câmaras (informação geralmente difícil de obter) ou a análise
da degradação de uma imagem de um objeto conhecido.
A metodologia de SR a partir de dados LR sem qualquer informação sobre o processo de
degradação é chamado de Blind SR e pertence ao grupo geral de técnicas de deconvolução
ditas “cegas”, onde o problema é a restauração de uma imagem original a partir de uma
observação degradada, sem qualquer informação sobre a indefinição. Métodos existentes de
deconvolução “cega” podem ser categorizados em duas classes principais:
1. Métodos que separam a identificação da indefinição como um processo separado do
processo de reconstrução;
2. Métodos que combinam a identificação da indefinição e de reconstrução em um
procedimento.
Os Métodos de deconvolução “cega” também podem ser generalizados para lidar com
múltiplas observações. A deconvolução “cega” multi-quadro é melhor na supressão de ruído e
artefatos de ponta e evita estimativas incorretas da PSF. Outras abordagens envolvem
algoritmos de maximização expectativa (EM), a fim de encontrar uma estimativa de máxima
verossimilhança dos parâmetros.
2.3.2.2 AMOSTRAGEM ESPACIAL
A subamostragem é a principal diferença entre os modelos relacionados com super-
resolução e os modelos clássicos de restauração / reconstrução de imagens. No âmbito da SR,
cada pixel da imagem LR pode ser considerado como o resultado da média de um bloco de
pixels de HR. Nestes modelos a integração espacial da intensidade de luz sobre uma região de
superfície é realizada por sensores de aquisição CCD. Uma alternativa para gerar a média de
D é considerar uma matriz de subamostragem através da realização de uma amostragem
homogênea, como mostrado na FIG 2.14.
43
FIG. 2.14 Efeito da matriz de reamostragem D-1
em uma imagem 3x3 e a matriz de
subamostragem D na correspondente imagem reamostrada 9x9. (IMAGE FUSION, 2008)
A FIG 2.15 exemplifica a amostragem espacial através de diferentes métodos de
interpolação de uma imagem, a imagem original foi ampliada cinco vezes utilizando três
técnicas diferentes de interpolação: vizinho mais próximo, bilinear, e bicúbica.
FIG. 2.15: Métodos de interpolação de uma imagem (ZITOVÁ & FLUSSER, 2003).
Imagem original
Bicúbica
Bilinear
Vizinho mais próximo
44
2.3.2.3 RUÍDO ADITIVO
Na super-resolução, assim como em outras técnicas de processamento de imagens,
geralmente assume-se que o ruído é aditivo e possui distribuição com média zero. O
pressuposto da distribuição normal do ruído não é preciso na maioria dos casos. Como
geralmente o ruído no processo de imageamento não é gaussiano (quantização, ruído da
câmara, etc). Modelá-lo de forma mais realista geraria um grande e complexo problema de
otimização, que normalmente é muito difícil de resolver. Alguns métodos utilizam o sinal
dependente do ruído, que leva a abordagens não lineares para a restauração da imagem.
2.3.3 MODELOS DE OBSERVAÇÃO DE IMAGENS UTILIZADOS EM SUPER-
RESOLUÇÃO: FORMULAÇÃO MATEMÁTICA
Segundo THILLOU & MIRMEHDI (2007) o problema da SR é geralmente modelado
como a reversão da degradação do processo de aquisição. Este é um exemplo de um problema
inverso, onde a fonte de informação (imagem de SR) é calculada a partir dos dados
observados (imagens de baixa resolução). Resolver o problema inverso geralmente requer
primeiramente a construção do modelo descrito na FIG. 2.16.
FIG. 2.16: Modelo de observação que relaciona as imagens LR à imagem HR.
A maioria dos dispositivos de imagem pode ser descrita como uma lente de câmara e de
abertura que produzem imagens desfocadas da cena, contaminadas pelo ruído adicional de
várias fontes: quantização de erros, sensor de medição ou erros do modelo. Então, para uma
imagem HR “X”, de tamanho M x N e um conjunto de k imagens LR “Yk”, o modelo de
observação pode ser expresso através do produto vetorial como sendo:
Yk= D*Bk* Wk* X + Nk (2.14)
Cena
Contínua Contínuo para
discreto sem
aliasing
Reamostragem
passa-banda
- Óptico;
- Movimento;
- Sensor PSF Etc.
- Translação;
- Rotação Etc.
Amostragem Distorções Borramento Subamostragem Yk
Ruído
Nk
45
onde:
*Wk é uma matriz de rotação e translação M x N que mapeia as coordenadas da imagem
de alta resolução para as de baixa e representa o movimento que ocorre durante a
aquisição;
*Bk é uma matriz M x N de deformação causada pelo sistema óptico, pelo movimento
relativo durante o período de aquisição e pela função de espalhamento pontual (PSF) do
sensor LR;
*D é a matriz de tamanho (M x N) ² /(L x P) sendo L um fator de subamostragem na
direção horizontal e P um fator de subamostragem na direção vertical;
*Nk é o ruído associado;
*D e Yk costumam ser os dados de entrada nos algoritmos de SR.
Usando o reordenamento de colunas e o empilhamento das equações resultantes, (2.14)
pode ser reescrita como:
Y =H*X + N (2.15)
onde H representa todas as degradações, ou seja, H = D*Bk*Wk, para todo k. A FIG. 2.15
basicamente corresponde à aplicação consecutiva das três matrizes D, Bk, Wk.
Pode-se utilizar também uma PSF contínua aplicada à imagem HR (FIG. 2.17) utilizando
o vetor de movimento dos locais das amostras LR. Então os pesos da PSF
correspondentes às imagens HR são obtidos e, finalmente, a soma dos pesos das HR é
calculada para simular as imagens LR. Repetindo esse processo para todos os locais das
amostras de baixa resolução a imagem LR é obtida. Este método é ilustrado na FIG. 2.18.
FIG. 2.17: Aplicação de uma PSF contínua. (IMAGE FUSION, 2008)
46
FIG. 2.18: Modelagem matemática da SR (IMAGE FUSION, 2008).
A super-resolução é um problema que possui um custo computacional alto. Por exemplo,
a SR de uma seqüência de frames de 50 x 50 pixel LR em uma imagem de 200 x 200 por um
fator de 4 em cada direção envolve 40.000 pixels desconhecidos. Como já mencionado, SR é
um problema inverso e mal-condicionado, devido à evidente falta de frames LR e o ruído
adicional. Portanto a matriz H é sub-determinada e as técnicas de regularização podem ser
usadas para solucionar este problema no processo de SR.
2.4 FOTOGRAMETRIA AÉREA X VIDEOGRAFIA AÉREA DIGITAL
Conhecer o espaço físico que habitamos é fundamental para o planejamento de qualquer
atividade relacionada à localização e à estratégia. Uma das maneiras de se obter esse tipo de
informação é através da visualização aérea da região da superfície física do planeta, onde se
deseja desenvolver a atividade.
Mapear uma região significa aplicar o processo cartográfico sobre uma coleção de dados
ou informações, com vistas à obtenção de uma representação gráfica da realidade
perceptível, comunicada a partir da associação de símbolos e outros recursos gráficos que
caracterizam a linguagem cartográfica (IBGE, 2011).
A fotogrametria é a ciência que extrai um conjunto de fotografias de uma região. Esses
dados são a base para a realização do mapeamento de uma determinada área. Pode se dividir
em fotogrametria métrica e interpretativa, conforme ilustra a FIG. 2.19.
47
A fotogrametria métrica permite executar medições precisas utilizando fotografias.
Embora apresente uma série de aplicações nos mais diferentes campos e ramos da ciência,
como na topografia, astronomia, medicina, meteorologia e tantos outros, tem sua maior
aplicação no mapeamento topográfico (ASPRS, 1997).
FIG. 2.19: Subdivisões da Fotogrametria (ASPRS, 1997).
A fotogrametria aérea é o processo cartográfico que adquire fotografias aéreas através de
câmaras fotogramétricas aero-transportadas (eixo óptico posicionado na vertical), utilizando-
se aparelhos e métodos estereoscópicos obedecendo a normas específicas quanto ao voo.
Inicialmente deve-se fazer o planejamento da operação, um estudo detalhado de todas as
especificações sobre o tipo de cobertura a ser executada, em seguida é relizado o voo
fotogramétrico. O conhecimento das condições climáticas e meteorológicas é fundamental
para se estabelecer o mês e dias favoráveis à realização do voo (IBGE, 2011). São
apresentadas na TAB. 2.1 as principais especificações sobre o tipo de cobertura a ser
realizado em um voo fotogramétrico.
A fotogrametria interpretativa abrange o sensoriamento remoto e a fotointerpretação,
onde informações do terreno são obtidas contínua e remotamente, podendo ser armazenadas
durante a aquisição ou transmitidas em tempo real para uma estação em solo. Essa técnica
permite que uma mesma fonte de insumos seja utilizada em distintas aplicações, tais como:
policiamento ambiental, atualização e validação de documentos cartográficos (FIG. 2.20),
estudo de vegetações etc. Nesse contexto se destaca a videografia aérea digital (VAD).
FOTOGRAMETRIA
MÉTRICA
AÉREA TERRESTRE
INTERPRETATIVA
SENSORIAMENTO REMOTO
FOTOINTERPRETAÇÃO
48
TAB. 2.1: Especificações do voo fotogramétrico.
CONDIÇÕES
NATURAIS DA
REGIÃO
APOIO
LOGÍST
ICO
CONDIÇÕES TÉCNICAS
- Local a ser
fotografado
- Área a fotografar
- Dimensões da área
- Relevo
- Regime de ventos
- Altitude média do terreno
- Variação de altura do
terreno
- Mês para execução do voo
- Nº de dias favoráveis ao
voo
- Transporte
- Hospitais
- Alimentação
- Base de operação e recursos
disponíveis
- Alternativa de pouso
- Modelo da aeronave
- Autonomia
- Teto de serviço operacional
- Velocidade média de cruzeiro
- Tripulação
- Altura e altitude de voo
- Escala das fotografias
- Superposição longitudinal e lateral
- Câmara aérea
- Tipo e quantidade de filme empregados
- Rumo das faixas
- Nº de faixas e nº de fotos
- Velocidade máxima
- Tempo de exposição ideal
- Intervalo de exposição
- Distância entre faixas
- Base das fotos
- Unidade de armazenamento OBS: As fotografias aéreas devem ser tomadas sempre com elevação do sol superior a 30º, em dias
claros, nos quais as condições climáticas sejam tais que permitam a aquisição de negativos fotográficos claros
e bem definidos, isto é, bem contrastados.
FIG. 2.20: Exemplo de possibilidades de aplicações VANT na atualização cartográfica.
Mosaico construído a partir de sequência real (amostra de vídeo VANT Arara-M1).
A VAD consiste na aquisição de imagens por câmara de vídeo aerotransportada a baixa
altitude utilizando sistema composto por câmara, GPS e altímetro interligados. O sistema
utiliza uma ou mais câmaras de vídeo, acopladas a uma aeronave, de forma a obter imagens
49
verticais. Um dos motivos para o emprego desta técnica é o seu baixo custo para a obtenção
das imagens e a rapidez com que estas podem ser capturadas, processadas e analisadas. O
produto gerado possui maior resolução espacial quando comparado com alguns sensores
orbitais tais como o CBERS e a série LANDSAT (POMPERMAYER NETO, 2002).
A VAD tem se tornado uma importante ferramenta para análise e monitoramento de
informações do terreno e tem sido amplamente utilizada na validação dos produtos gerados
por imagens orbitais.
De acordo com BITTENCOURT ET AL. (2010) as principais vantagens da VAD são:
baixo custo;
tempo real de aquisição e processamento das imagens;
capacidade de coleta dos dados nas faixas espectrais do visível ao infravermelho
próximo (0,5 a 1,2 μm) e no infravermelho médio (1,35 a 2,50 μm), com a mínima influência
atmosférica;
possibilidade de interpretação dos alvos ou das cenas diretamente no monitor do vídeo
ou em posteriores trabalhos de processamento de imagens.
A altitude de sobrevoo para levantamentos aéreos pode variar de 300m a 3.000m,
dependendo do tipo de aeronave utilizada e do tipo de sensor acoplado. Para levantamentos
por VAD de pequenas áreas ou área urbana, a altitude usual e de 600m até 1.800m. No caso
dos VANTs esses valores podem variar de 150m até 5.000m.
Os avanços nos sistemas de gravação e processamento das imagens através de
computadores têm viabilizado o uso do vídeo como sensor remoto. Para que seja possível
obter imagens métricas a partir da VAD faz-se necessário um estudo detalhado, similar ao que
é realizado no projeto fotogramétrico. Serão apresentados a seguir os dados fundamentais à
elaboração de um projeto fotogramétrico, bem como as alterações necessárias para adaptá-lo a
um projeto videográfico utilizando VANTs.
* Plano de voo: tem por objetivo selecionar e calcular os elementos para a elaboração do
mapa de voo que orientará a equipe a bordo do avião durante a cobertura aerofotogramétrica.
No caso dos VANTs esse mapa irá definir as configurações do voo autônomo e orientar o
piloto de emergência no caso de haver necessidade de assumir o comando do veículo
(remotamente). No APÊNDICE 7.4 é apresentado um modelo de formulário para o plano de
voo.
* Escala da imagem: a escala fotogramétrica advém da relação entre a distância focal e a
50
altura da aeronave em relação ao terreno, considerando a foto vertical. Estabelecendo-se o
valor da escala desejada para o projeto é possível estabelecer a que altura a aeronave deve
realizar o voo.
Para os VANTs, por ocasião de um voo de reconhecimento e vigilância (não controlado),
as imagens são oblíquas em relação ao solo, logo a formulação deve considerar o ângulo que
o eixo óptico forma com a vertical ao terreno (FIG. 2.21). Além disso, tratando-se de imagens
digitais, o termo “escala” não é aplicável. A grandeza equivalente apropriada é o Elemento de
Resolução no Terreno (ERT), conforme ilustra a FIG. 2.22. Neste caso além da distância focal
deve-se considerar também para o cálculo de H o tamanho do quadro (em pixels) o tamanho
do CCD (em mm) e a velocidade de cruzeiro da aeronave. Relações geométricas simples são
aplicáveis a esta etapa e serão demonstradas através do estudo de caso do VANT VT-15.
FIG. 2.21: Imagem vertical x Imagem oblíqua (adaptado de KRAUS, 1992).
51
FIG. 2.22: ERT e ângulo de visada, adaptado de LILLESAND & KIEFER (1987).
* Cobertura fotográfica – sobreposições: trata-se da representação do terreno por meio
de fotografias aéreas expostas sucessivamente, ao longo de uma direção de voo. Conforme
ilustra a FIG. 2.23, a sucessão é realizada respeitando-se um intervalo de tempo tal que, entre
duas fotografias haja uma superposição longitudinal de cerca de 60%, formando uma faixa.
Nas faixas expostas, para compor a cobertura de uma área é mantida uma distância entre os
eixos de voo de forma que haja uma superposição lateral de 30% entre as faixas adjacentes.
Alguns pontos do terreno dentro da zona de recobrimento são fotografados várias vezes em
ambas as faixas (REDWEIK, 2007).
FIG. 2.23: Voo fotogramétrico realizado em faixas (REDWEIK, 2007).
52
O recobrimento de 60% evita a ocorrência de falhas na cobertura (FIG. 2.24) que podem
ocorrer principalmente devido às oscilações da altura de voo e da ação do vento (FIG. 2.25).
No caso dos VANTs deve-se atentar para as grandes oscilações que são inerentes às pequenas
aeronaves. O exemplo de deriva e oscilação pode ser observado na construção de um mosaico
(FIG. 2.26) a partir de imagens de VAD obtidas através do VANT Carcará (Marinha do
Brasil/Santos Lab).
FIG. 2.24: Sobreposições do projeto aerofotogramétrico (REDWEIK, 2007).
FIG. 2.25: Recobrimento com a ocorrência de deriva e desvio (IBGE, 2011).
FIG. 2.26: Exemplo de deriva e aquisição de imagens inclinadas. Mosaico construído a
partir de sequência real (amostra de vídeo VANT Carcará).
53
* Câmaras a utilizar: a câmara aérea se desloca durante a exposição, necessitando de
objetivas adequadas, obturadores de alta velocidade e filmes de emulsão ultrarrápida,
reduzindo a um mínimo o tempo de exposição, sem prejudicar a qualidade da imagem. Essas
câmaras se classificam de acordo com o ângulo que define a cobertura proporcionada pela
câmara
- Ângulo normal: até 75º (para abranger uma área a uma determinada altura de voo);
- Grande angular: de 75º até 100º (a altura de voo será menor, com menor distância focal f);
- Super grande angular: maior que 100º.
Também são classificadas em função da distância focal da objetiva:
- Curta (ou pequena): até 150 mm;
- Normal: de 150 a 300 mm;
- Longa (ou grande): acima de 300 mm.
Em relação aos VANTs, são inúmeras as possibilidades de câmaras de vídeo que
possibilitam a execução de um recobrimento aéreo. Geralmente são utilizadas câmaras de
vigilância com zoom óptico de até 12x e que priorizam o volume de informações a ser
transmitido em tempo real em detrimento da qualidade da imagem.
Dois fatores que devem ser considerados por ocasião da escolha da câmara são o peso
(em função do limite de carga útil) e o custo (em função do risco de perda do veículo).
* Traçado de voo: são os mesmos tanto para o voo fotogramétrico quanto para o voo
videográfico realizados pelos VANTs. Estão ilustrados na FIG. 2.27 abaixo dois casos típicos
de traçado de voo. À esquerda pode-se observar o voo realizado em faixas, abrangendo uma
determinada região e à direita o recobrimento ao longo de uma estrada.
FIG. 2.27: Tipos de traçado de voo (REDWEIK, 2007).
* Época do voo: trata-se das condições climáticas e meteorológicas em relação ao
período estabelecido para a aquisição. Prioriza-se o período da primavera em função de um
volume menor de nuvens. Em relação ao horário, quanto mais próximo do meio dia menor
54
será a interferência de sombras na imagem.
* Material de apoio: composto da documentação cartográfica existente do local,
imagens de satélites, ortofotos, cartas topográficas, banco de dados etc. Estes dados são
válidos tanto para o projeto fotogramétrico quanto para o videográfico.
* Características das aeronaves: devem ser estudadas as características pertinentes à
aeronave selecionada para o voo fotogramétrico. Adaptações devem ser feitas ao projeto em
relação às características operacionais dos VANTs. Esses veículos podem voar a altitudes
mais baixas (150m) ou muito mais altas (5.000m) do que as aeronaves normalmente utilizadas
na fotogrametria aérea. Uma das grandes vantagens dos VANTs é a alta repetibilidade com
que podem executar o voo. Acompanhando-se a qualidade das imagens da estação de solo,
pode-se solicitar que o veículo refaça a área por ocasião de algum prejuízo (nuvens, falha na
transmissão, exagero nas inclinações, etc).
* Orçamento: para o planejamento e o cálculo do orçamento considera-se o caso geral
da cobertura de uma área retangular (L x Q) em faixas paralelas, considerando as fotografias
verticais e o terreno plano. Observam-se na FIG. 2.28 as variáveis que permitem a elaboração
do plano de voo e o orçamento. Trata-se de um processo caro e dispendioso que demanda
tempo e equipe capacitada para a realização da atividade, incluindo a necessidade de
existência do piloto (vôo fotogramétrico). Para os VANTs, o orçamento do projeto é um dos
fatores mais atrativos, devido ao baixo custo da atividade, uma vez que não necessita de
meios humanos significativos de apoio (POMPERMAYER NETO, 2002).
55
FIG. 2.28: Esquema do plano de voo (REDWEIK, 2007).
Os dados relacionados a seguir e ilustrados na FIG. 2.28 são fundamentais para a geração
do plano de voo.
A - distancia entre as linhas de voo;
B - distancia entre os CP’s de duas tomadas consecutivas;
c - distancia focal (ou f);
S1 - lado da imagem na direção do voo;
S2 - lado da imagem na direção perpendicular ao voo;
h - altura acima do solo;
Z - cota do terreno;
Z0 - altura absoluta do avião;
Em função do que foi apresentado, constatou-se que é possível aplicar conceitos
fotogramétricos à VAD realizada pelos VANTs com vistas à obtenção controlada de insumos.
Sabe-se também que a SR é uma técnica de melhoramento da resolução da imagem de baixa
resolução na qual a etapa de registro é fundamental. Face ao exposto, vislumbra-se a
existência de forte correlação entre as técnicas de SR e a VAD realizada pelos VANTs.
56
Uma vez que a banda passante para a transmissão de uma imagem, ou vídeo, mesmo
codificado com algum padrão de compressão é bastante alta, a idéia é adquirir/transmitir, em
tempo real, imagens/vídeos com baixa-resolução, consumindo assim menos bits, e utilizar as
técnicas de SR para gerar as versões em resoluções mais altas. A FIG. 2.29 ilustra de que
maneira a SR poderia ser associada à VAD e inserida no processo cartográfico.
FIG. 2.29: Inserção de técnicas de SR no processo cartográfico.
A seguir serão apresentados dois estudos de caso de VAD realizada pelos VANTs
contemplados nessa dissertação, com o objetivo de destacar os principais aspectos que devem
ser obedecidos para viabilizar a aplicação de técnicas de SR aos insumos obtidos durante o
voo.
ESTUDO DE CASO PARA O VANT ARARA-M1
Nos anos de 2007 e 2008 a empresa AGX tecnologia, juntamente com a Artilharia
Divisionária do Exército (AD/1), realizaram na Academia Militar das Agulhas Negras
(AMAN), Resende – RJ, a operação MEMBECA, com duração de 7 dias, que teve por
principal objetivo o adestramento conjunto de cadetes das diferentes armas, quadros e
serviços do Exército.
57
FIG. 2.30: Decolagem VANT Arara-M1 (AGX, 2010).
O VANT Arara-M1 (FIG. 2.30) foi utilizado na operação com o objetivo de reconhecer a
área do exercício (teatro de operações), identificar alvos e estimar o posicionamento dos
mesmos no decorrer da operação, com base em documentos cartográficos pré-existentes e
informações do GPS de bordo.
As características do veículo fornecidas pela AGX são:
• Características operacionais
Motor 40cc, 2T, 5HP, AVGAS;
Peso máximo de decolagem 20kg;
Carga útil 3kg;
Autonomia de voo 4h;
Velocidade de cruzeiro 100km/h;
Velocidade de estol 40km/h;
Sistema autônomo ou remotamente pilotado;
Pára-quedas de emergência;
Gerador de energia/motor de partida;
Estação de controle móvel;
Decolagem em veículo terrestre.
• Sensores instalados a bordo
Receptor GPS;
Câmara fotográfica Canon Rebel T2i integrada a sistema de vídeo em tempo real;
Altímetro;
Velocímetro (velocidade aerodinâmica);
58
Temperatura;
Sensor de atitude baseado em GPS.
Inicialmente foi realizado pela equipe da AGX um planejamento da operação com a
delimitação da área a ser sobrevoada, distância da estação de solo (link de comunicação) e
plano de voo com base nos waypoints que deveriam ser percorridos para o recobrimento do
teatro de operações, conforme ilustram as FIG. 2.31 e 2.32.
FIG. 2.31: Área de interesse e cálculo da distância à base para a transmissão dos dados
telemétricos (AGX, 2010).
FIG. 2.32: Planejamento da operação Membeca 2008 (AGX, 2010).
As imagens foram adquiridas pela câmara Canon Rebel T2i (foto e vídeo), em faixas e
com as recomendações fotogramétricas quanto ao recobrimento. As fotografias foram
armazenadas em mídia na aeronave, enquanto que o vídeo foi transmitido em tempo real para
a estação de solo.
O acompanhamento do voo em tempo real (vídeo) pela equipe de inteligência possibilitou
a seleção prévia de trechos do vídeo que deveriam ser analisados com maior detalhamento. As
fotografias armazenadas na câmara foram posteriormente descarregadas e processadas.
59
Com base nas coordenadas do GPS de bordo, fotografias obtidas e sincronização com o
tempo do vídeo, foi possível processar os dados (FIG. 2.33), reconhecer o terreno, observar a
movimentação das tropas, identificar alvos através de banco de dados (FIG. 2.34), bem como
estimar a posição dos mesmos.
FIG. 2.33: Dados processados na operação Membeca 2008 (AGX, 2010).
FIG. 2.34: Identificação de alvos na operação Membeca 2008 (AGX, 2010).
60
Do estudo de caso apresentado, conclui-se que o desempenho da VAD realizada pelo
VANT Arara-M1 poderia ter sido otimizado por ocasião da elaboração de um projeto, com
base nas especificações descritas na TAB. 2.1 e nos dados fundamentais do planejamento,
com vistas a aplicações cartográficas.
Em virtude de não ser este o objetivo principal da operação, não foram coletados pontos
de controle no terreno para posterior amarração dos modelos e dos mosaicos. O
georreferenciamento foi feito apenas com as coordenadas do GPS de bordo, sem considerar o
deslocamento devido ao relevo, o que contraria as especificações fotogramétricas. O mosaico
gerado não foi avaliado quanto à qualidade geométrica, devido ao fato do emprego de VANTs
para o MD estar restrito, por enquanto, apenas à operações de vigilância e reconhecimento.
ESTUDO DE CASO PARA O VANT VT-15
Em novembro de 2010 a empresa Flight Technologies, juntamente com Centro
Tecnológico do Exército (CTEx), realizaram na Academia da Força Aérea (AFA), na cidade
de Pirassununga - SP, uma participação na Operação Agulhas Negras (OPAN), com duração
de 4 dias.
De acordo com o Estado Maior do Exército (EME), o objetivo desta participação foi
auxiliar a Divisão de Exército (DE) no levantamento de dados de inteligência por intermédio
das imagens do VANT VT-15 para auxílio à tomada de decisão do comandante da DE. A
OPAN foi uma operação de adestramento de grande envergadura que envolveu a participação
de tropas estratégicas do Exército. O emprego do sistema VANT VT-15 foi de grande
importância para o levantamento das posições inimigas.
As características do veículo fornecidas pelo CTEx foram:
• Características operacionais
Teto 3.000m
Peso máximo de decolagem 75kg;
Carga útil 12kg;
Autonomia de voo 2h;
Velocidade de cruzeiro 126km/h;
Sistema autônomo ou remotamente pilotado;
Gerador de energia/motor de partida;
Estação de controle móvel;
Decolagem manual.
61
• Sensores instalados a bordo
Receptor GPS;
Sistema composto de câmara de vídeo Axis 233D com transmissão em tempo real;
Altímetro;
Velocímetro (velocidade aerodinâmica);
Temperatura;
Sensor de atitude baseado em GPS.
Inicialmente foi realizado pela equipe da Flight Technologies um planejamento da
operação com a delimitação da área a ser sobrevoada (FIG. 2.35), distância da estação de solo
(link de comunicação), e plano de voo com base nos waypoints que deveriam ser percorridos
para o recobrimento do teatro de operações.
FIG. 2.35: Teatro de operações OPAN (CTEx, 2010).
Em virtude de não ser este o objetivo principal da operação, o voo não foi realizado com
base em um projeto de VAD e somente imagens de vídeo LR foram geradas. Não foram
coletados pontos de controle no terreno para posterior amarração dos modelos e dos mosaicos,
não foi realizado qualquer tipo de processamento desse material, devido ao fato do emprego
de VANTs para o MD estar restrito, por enquanto, apenas à operações de vigilância e
reconhecimento.
A seção de inteligência do Comando Militar do Sudeste (CMSE) elaborou o relatório da
missão com base na gravação do vídeo gerado. Mediante autorização do EME, trechos desse
62
vídeo foram disponibilizados pelo CTEx para dar subsídio a essa pesquisa, sendo fornecidos
também dados fundamentais (voo e configuração da câmara) para o cálculo do ERT.
Foi realizado o cálculo do ERT para uma análise preliminar do material obtido. Foram
fornecidos os valores da velocidade, a altura de voo, o Common Intermediate Format (CIF)
(número de pixels na vertical e na horizontal em cada quadro). A distância focal e o FOV não
foram fornecidos, portanto foram utilizados valores com base na FIG. 2.36.
FIG. 2.36: Especificações da câmara de vídeo Axis 233D do VANT VT-15
(AXIS, 2010).
Na FIG. 2.37 observa-se a geometria de aquisição das imagens. Para o cálculo estimado
do ERT considera-se o triângulo formado pelo avião, o pé da perpendicular e o ponto limite
do FOV, ou seja, D/2.
FIG. 2.37: Geometria de aquisição das imagens VANT VT-15.
Sendo:
Tg (w/2) = (D/2)/H (2.16)
63
Substituindo os valores do w e H em (2.18) obtém-se D =1058,945m, dividindo esse
valor pelo número de pixels (CIF horizontal de 288px) obtém-se o tamanho de um pixel, ou
seja, o ERT estimado para os dados em questão é de 3,67m, para o pior caso, ou seja, para o
limite inferior da câmara.
Esse cálculo foi fundamental para estimar a ordem de grandeza da resolução espacial.
Porém, pode-se observar que há inconsistências a serem analisadas, uma vez que as amostras
fornecidas não permitem a percepção de detalhes compatível com o valor obtido. Trata-se de
um típico problema de sequenciamento de imagens de vídeo cuja proposta de melhoramento
da resolução será apresentada através das técnicas de SR.
2.5 CONCLUSÕES
Neste capítulo foram apresentados os fundamentos teóricos sobre imagens digitais e
Super-Resolução, conceitos estes necessários à compreensão do desenvolvimento do trabalho.
Também foram apresentados conceitos fotogramétricos e os aspectos relevantes do processo
de execução de um voo videográfico (considerando a viabilidade atual do uso do vídeo como
sensor remoto) aos quais técnicas de SR podem ser associadas por ocasião de uma aquisição
controlada de imagens.
O próximo capítulo descreve os materiais que foram utilizados na realização do trabalho
bem como a metodologia utilizada na elaboração das etapas para a geração de imagens de SR
e para a construção de um mosaico de imagens após a etapa de SR. Este capítulo apresenta
também os conceitos que envolvem os critérios de avaliação da qualidade das imagens SR.
64
3 GERAÇÃO DE IMAGENS DE SUPER-RESOLUÇÃO
No Capítulo 2 foram apresentados os fundamentos teóricos sobre imagens digitais e
Super-Resolução, conceitos estes necessários à compreensão do desenvolvimento do trabalho.
Também foi apresentado o processo videográfico no qual as técnicas de SR podem ser
aplicadas por ocasião de uma aquisição controlada de imagens como é executado no voo
fotogramétrico. Neste Capítulo serão apresentados os materiais utilizados, tais como
máquinas, recursos computacionais, códigos e insumos obtidos por câmaras de video e
fotográficas embarcadas nos VANTs. Posteriormente será apresentada a metodologia
desenvolvida para geração de imagens de SR que será dividida nos seguintes tópicos:
(a) geração de imagens SR a partir de uma sequência simulada de imagens de baixa
resolução;
(b) geração de imagens SR a partir de uma sequência de dados reais, obtidos
exclusivamente por câmaras de vídeo;
(c) construção de um mosaico de SR simulando a aquisição de imagens SR através de um
voo videográfico realizado em faixas utilizando as técnicas de SR.
Este capítulo apresenta também os conceitos que envolvem os critérios de avaliação da
qualidade das imagens SR. Os critérios abrangem métodos subjetivos visuais estabelecidos
por normas internacionais tais como o MOS (ITU 500-R, 1992) e métricas objetivas tais como
o PSNR e o SSIM (WANG ET AL., 2005).
3.1 DESCRIÇÃO DOS AMBIENTES COMPUTACIONAIS UTILIZADOS
Os seguintes materiais foram utilizados na realização deste trabalho:
Computadores:
Notebook DELL VOSTRO 3550 com processador Intel(R) Core (TM) i5-2410M CPU
@ 2.30GHz, 4GB de Memória RAM, Sistema Operacional Windows 7 Professional 64 bits.
Softwares:
Matlab: versão 7.9.0.529 (R2009b) 64 bit (win64).
VLC: "Video LAN Client”, criado na Ecole Centrale de Paris e licenciado na GNU
General Public License em 1 de fevereiro de 2001. É um reprodutor e pré-processador de
mídias de vídeo, versão 1.1.11, compilador GCC 4.4.4, interface Qt4, direito de cópia do
grupo VIDEO LAN.
65
Virtual Dub: é um utilitário que captura/processa vídeos. Está disponível para as
plataformas 32-bit e 64-bit do Windows (98/ME/NT4/2000/XP/Vista/7), licenciado sob a
GNU General Public License (GPL). Sua estrutura é principalmente voltada para o
processamento de arquivos AVI.
As seguintes interfaces gráficas de usuário (GUI) no ambiente Matlab foram utilizadas:
SUPER-RESOLUTION APPLICATION (VANDERWALLE ET AL., 2007)
implementa o registro de imagens e vários algoritmos de reconstrução para a super-resolução
de imagens. Este programa é distribuído sob a General Public Licence (GPL). A
documentação que descreve as suas potencialidades foi elaborada por VANDERWALLE ET
Al., (2007). Neste trabalho esta interface gráfica será denominada SRA (FIG. 3.1) e suas
representações terão a coloração vermelha nos fluxogramas. Serão descritas a seguir os
conteúdos que abrangem cada etapa da SR na referida interface:
a) Aquisição: aceita sequências de imagens no formato .TIFF, permite gerar sequências
de imagens a partir de uma imagem HR no formato .TIFF, não aceita entrada
de vídeos;
b) Registro: Transformada de Fourier, Série de Taylor;
c) Interpolação: Bicúbica;
d) Reconstrução: POCS, IBP Robusta, NC.
FIG. 3.1: Super-Resolution Appication (SRA) (VANDERWALLE ET AL., 2007).
SUPER-RESOLUTION TOOLBOX (GEVREKCI & GUNTURK, 2006): conjunto de
rotinas de restauração de imagens que inclui módulos de registro geométrico e fotométrico,
um módulo de restauração com várias técnicas de super-resolução. Neste trabalho esta
GUI_1
66
interface gráfica será denominada SRT (FIG. 3.2) e suas representações terão a coloração azul
nos fluxogramas. Serão descritas a seguir os conteúdos que abrangem cada etapa da SR na
referida interface
a) Aquisição: aceita sequências de imagens no formato .TIFF, não permite gerar sequências
a partir de uma imagem HR, não aceita entrada de vídeos;
b) Registro: Harris Corner detector + Correlação Cruzada + RANSAC;
c) Interpolação: Bilinear, Bicúbica e Vizinho mais próximo;
d) Reconstrução: MAP_TV, MAP_SD e MAP_GC;
FIG. 3.2: Super-Resolution Toolbox (SRT) (GEVREKCI & GUNTURK, 2006).
MDSP PROGRAM (FARSIU ET AL, 2004c): conjunto de rotinas utilizadas para o
aprimoramento da resolução de um vídeo ou de uma sequência de imagens, desenvolvido no
Laboratório de Pesquisa em Processamento de Sinais Multi-Dimensional (MDSP) da
Universidade da Califórnia em Santa Cruz, liderados por Peyman Milanfar. O objetivo
principal é a implementação de várias técnicas de SR. Neste trabalho será denominada MDSP
(FIG. 3.3) e suas representações terão a coloração verde nos fluxogramas. Serão descritas a
seguir os conteúdos que abrangem cada etapa da SR na referida interface
a) Aquisição: não aceita sequências de imagens, permite gerar sequências no formato .MAT
ou .AVI a partir de uma imagem HR no formato .MAT, aceita entrada de
vídeos no formato .AVI;
b) Registro: Fluxo Óptico;
GUI_2
67
c) Interpolação: Cubic Spline;
d) Reconstrução: Shift-and-Add (MAP-Fast and Robust).
FIG. 3.3: MDSP Enhancement Program (MDSP) (FARSIU ET AL, 2004c).
Imagens e Vídeos Utilizados
Foram coletadas amostras de fotografias aéreas e vídeos a partir de câmaras embarcadas
nos cinco VANTs contemplados neste trabalho. As tabelas 3.1 e 3.2 e 3.3 a seguir descrevem
as principais informações dos VANTs, as características do material coletado bem como as
justificativas de escolha.
GUI_3
68
TAB. 3.1: Informações pertinentes aos VANT contemplados neste trabalho.
Nome: Arara M1.
Usuários: Artilharia Divisionária do Exército (AD/1), Polícia ambiental
do estado de São Paulo.
Atividades:localização de alvos e de crimes ambientais.
Câmaras: Canon S95, Canon Rebel T2i, Canon EOS 5d Mark II.
Tipos de mídia: vídeo e fotografia.
Período de aquisição: Operação Membeca – AMAN, Resende (RJ),
(2007 e 2008) e voo teste (2011).
Fonte: AGX Tecnologia (2011).
Nome: VT-15.
Usuário: Centro Tecnológico do Exército (CTEx).
Atividades: vigilância, reconhecimento e localização de alvos.
Câmaras: Axis 233D
Tipos de mídia: vídeo.
Período de aquisição: Operação Agulhas Negras – AFA, Pirassununga
(SP), (2010).
Fonte: Fligh Technologies (2010).
Nome: RQ - 450.
Usuário: Força Aérea Brasileira (FAB).
Atividades: vigilância, reconhecimento e localização de alvos.
Câmaras: COMPASS IV
Tipos de mídia: vídeo.
Período de aquisição: Operação Ágatha II – Santa Rosa (RS), (2011).
Fonte: Elbit Systems (2011).
Nome: Carcará.
Usuário: Marinha do Brasil (MB).
Atividades: vigilância, reconhecimento e localização de alvos.
Câmaras: Sony FCB_IX_11A.
Tipos de mídia: vídeo.
Período de aquisição: vídeo teste – Bogotá, Colômbia, (2008).
Fonte: Santos Lab (2011).
Nome: LANU II.
Usuário: Instituto Militar de Engenharia (IME), Exército Brasileiro
(EB).
Atividades: vigilância, reconhecimento e localização de alvos.
Câmaras; SpyCam
Tipos de mídia: vídeo.
Período de aquisição: vídeo teste – CAEx, Rio de Janeiro (RJ), (2011).
Fonte: IME (2011).
69
Do material obtido o que apresentou imagens de maior resolução espacial (HR) para a
construção das imagens simuladas de baixa resolução (LR) foi o VANT ARARA-M1. Além
da imagem de um alvo teste (ISO 12223) foram selecionadas quatro imagens obtidas pelo
VANT ARARA-M1 de áreas distintas contendo alvos civis e militares distribuídos em areas
urbanas e rurais.
As amostras de imagens que foram fornecidas para este trabalho para a obtenção das
sequências simuladas foram obtidas do VANT Arara-M1. A sequência de imagens simuladas
será utilizada para gerar imagens SR assim como as sequências reais oriundas de amostras de
vídeo dos 5 VANTs listados na tabela 3.2 a seguir.
TAB. 3.2: Detalhes referentes à aquisição das amostras de insumos VANT.
VANT Arara-M1
(AGX/ AD-1)
VT-15
(CTEX)
LANU II
(IME)
Carcará
(MB) RQ-450 (FAB)
REGIÃO E
DATA DO
VOO
AMAN,Resende,
RJ, Brasil,
ago2008
AFA,
Pirassununga,
SP, Brasil,
nov2010
CAEX, Rio de
Janeiro, RJ,
Brasil, jan2011
Cercanía de Melgar,
Colômbia, dez2008
Santa Rosa,
RS, Brasil,
set2011
ALTURA
DO VOO 300m 1000m 200m 200m 5000m
VELOCIDADE
DO VANT 100 km/h 126 km/h 36km/h 40km/h 117 km/h
CÂMARA
(VÍDEO) Canon Rebel T2i Axis 233D SpyCam Sony FCB_IX_11A Compass IV
ZOOM - 12x óptico - 40x óptico 0,8° a 24°
DIMENSÃO
DO CCD - 6.35mm - 6,35mm 8,46mm
DISTÂNCIA
FOCAL 28mm 119mm 5,5mm 4.2 a 42mm -
TAXA DE
TRANSMISSÃO
1300kb/s 1273kb/s 281000kb/s 13000kb/s 9Mb/s
TIPO DE
COMPRESSÃO 24 bits (RV24)
MPEG-4
(FMP4) ? Cinepak vídeo (cvid)
MPEG-4 Video
(DIVX)
VELOCIDADE
DO
OBTURADOR
30 – 1/4000 de
seg - - - -
RESOLUÇÃO CMOS 4272 x
2848
CCD
352x288 CMOS 640x480 CCD 640x480
CCD 640x480
FLIR- 752x482
ÂNGULO DE
VISADA - 55.8° 65° 46° 48°
70
TAB. 3.3: Detalhes referentes às imagens do VANT ARARA M1 utilizadas na simulação das
imagens LR.
Nome: IMG0570
Tamanho: 1460x1140pixels (recorte na imagem original)
Justificativa de escolha: a imagem apresenta duas viaturas
militares além da linearidade da forma da estrada não
pavimentada.
Nome: IMG0744
Tamanho: 1460x1140pixels (recorte na imagem original)
Justificativa de escolha: a imagem apresenta formas
geométricas variadas e bem definidas.
Nome: IMG1038
Tamanho: 1460x1140pixels (recorte na imagem original)
Justificativa de escolha: a imagem apresenta culturas ao
longo de estrada pavimentada e edificações de formas
euclidianas.
Nome: IMG0890
Tamanho: 1460x1140pixels (recorte na imagem original)
Justificativa de escolha: a imagem apresenta formas
euclidianas bem definidas.
71
3.2 DESCRIÇÃO DA METODOLOGIA DO TRABALHO
De modo a atingir os objetivos da pesquisa foi proposta uma determinada metodologia. A
mesma pode ser dividida em duas relevantes abordagens conforme o esquema ilustrado no
fluxograma da FIG. 3.4.
A primeira abordagem consiste em simular imagens LR a partir de uma imagem HR
ground-truth e aplicar os métodos de SR às imagens LR simuladas. Dessa maneira pode se
obter um controle maior do processo de reconstrução de imagens SR além de se estabelecer
uma imagem de referência para posterior comparação. A segunda abordagem consiste em
utilizar os métodos que apresentaram melhores resultados na primeira abordagem, em relação
à avaliação objetiva, e aplicá-los às sequências de imagens LR reais obtidas das amostras de
vídeo descritas na TAB. 3.1.
Após o desenvolvimento das duas abordagens descritas anteriormente, para demonstrar a
aplicação das técnicas de SR no contexto das áreas de conhecimento da Cartográfia,
Sensoriamento Remoto e Fotogrametria, serão descritas as etapas para a construção de um
mosaico, com vistas ao emprego das técnicas de SR à sequências de imagens oriundas de um
voo videográfico.
72
FIG. 3.4: Esquema geral da metodologia do trabalho.
ANÁLISE
OBJETIVA
(PSNR, SSIM)
IMAGEM HR (FOTO)
SEQUÊNCIAS DE
IMAGENS LR
SIMULADAS
IMAGENS SR
MÉTODO X DE SR MÉTODO
Y DE SR
MÉTODO Z DE SR
SEQUÊNCIAS DE
IMAGENS LR (VÍDEO)
SUPER-RESOLUÇÃO
ANÁLISE
SUBJETIVA
(MOS)
IMAGENS SR
ESQUEMA GERAL DA METODOLOGIA
DADOS SIMULADOS DADOS REAIS
MÉTODO X DE SR
MÉTODO Y DE SR
MÉTODO Z DE SR
73
3.2.1 GERAÇÃO DE IMAGENS HR A PARTIR DE DADOS SIMULADOS
Serão descritas a seguir as etapas que compõem a geração de imagens SR a partir de
conjuntos de imagens LR simuladas. As imagens fonte para as simulações são as imagens HR
do alvo teste (ISO 12223), que será denominado BW e as imagens HR da TAB. 3.3.
Geração dos dados simulados (SRA): serão geradas sequências de imagens LR a partir
de uma imagem HR obtida através da câmara fotográfica embarcada no VANT Arara-M1.
Essa operação terá por objetivo simular a aquisição de uma câmara de vídeo (quadros em
baixa resolução) principalmente devido à compressão para a transmissão dos dados para uma
estação em solo, em tempo real, sendo esta particularidade específica dos VANTs de emprego
militar. Será utilizada nessa etapa a SRA por possuir recursos compatíveis com a necessidade
do trabalho tais como simulação de imagens LR, algoritmos de registro e de reconstrução das
imagens LR.
As imagem HR foram subamostradas por um fator igual a 4, sendo estabelecidos como
parâmetros deslocamentos (translacional e rotacional) e o ruído aleatórios, borramento Linear
Space Invariant (LSI) e desconhecido. A princípio foram gerados subconjuntos de 4, 6, 8 e 10
imagens LR (FIG. 3.5) a partir das imagens HR apresentadas na TAB. 3.3. A execução dessas
etapas se dará através do experimento 1.
FIG. 3.5: Imagens LR simuladas utilizando a SRA.
Avaliação dos métodos de registro (SRA): avaliar os métodos de registro disponíveis
na SRA e verificar qual deles apresenta melhor qualidade visual. Os métodos de registro
utilizados foram os do domínio da frequência (utiliza a correlação da fase nas séries de
Fourier) desenvolvidos por VANDERWALLE ET AL. (2007), MARCEL ET AL. (1997),
LUCHESE & CORTELAZZO (2000) e o do domínio espacial (utiliza a expansão das séries
de Taylor) desenvolvido por KEREN ET AL., (1988), e serão denominados, respectivamente,
VA, MA, LU, CO e KE ao longo deste trabalho. Os detalhes referentes a cada um desses
métodos encontra-se no APÊNDICE 7.1.
Serão utilizadas sequências de 10 imagens LR simuladas a partir do alvo teste (ISO
12223) e a partir da imagem IMG0570. O fator de subamostragem foi 4 e para etapa da
74
reconstrução foi aplicado o método da interpolação bicúbica sem qualquer método de
restauração associado. As imagens resultantes serão avaliadas através das métricas objetivas
PSNR e SSIM. A execução dessas etapas se dará através do experimento 2.
Avaliação dos métodos de reconstrução (SRA): avaliar os métodos de reconstrução
disponíveis na SRA que são: Interpolação bicúbica, Robust Iterative Back Projection
(ZOMET & PELEG, 2002), Normalized Convolution (PHAM ET AL., 2006), Projections
Onto Convex Sets (PATTI ET AL., 1997), denominados respectivamente INT, IBP_R, NC e
POCS ao longo deste trabalho.
Serão utilizadas sequências de 4, 6, 8 e 10 imagens LR geradas a partir do alvo teste (ISO
12223) e das imagens selecionadas da TAB. 3.3, reamostradas por um fator 4. O método de
registro a ser utilizado será o que apresentar melhor resposta no experimento 2. A execução
dessas etapas se dará através do experimento 3.
Validação dos métodos de reconstrução (SRA): validar os métodos de reconstrução
disponíveis na SRA. O objetivo desta etapa é a verificação da oscilação dos valores de PSNR
e SSIM dos métodos avaliados no experimento 2, através da alteração do método de registro.
Serão utilizadas sequências de 4, 6, 8 e 10 imagens LR geradas a partir do alvo teste (ISO
12223) e das imagens selecionadas da TAB. 3.3, reamostradas por um fator 4. O método de
registro utilizado será o que apresentar a segunda melhor resposta visual no experimento 3. O
mesmo processo se dará para o método de registro manual com deslocamento de 0.5 pixel na
direção horizontal e vertical. A execução dessas etapas se dará através do experimento 4.
Avaliação dos métodos de reconstrução (SRT): avaliar os métodos de reconstrução
disponíveis na SRT que se constitui do método MAP e suas variações (devido a distintos
termos de regularização para remoção de ruído e borramento) que são: MAP Steepest
Descent, MAP Gradient Descent e MAP Total Variation. Esses métodos estão detalhados no
APÊNDICE 7.2 e serão denominados, respectivamente, MAP_SD, MAP_GC e MAP_TV ao
longo deste trabalho.
Serão utilizadas sequências de 4, 6, 8 e 10 imagens LR geradas pela SRA a partir do alvo
teste (ISO 12223) e das imagens selecionadas da TAB. 3.3, reamostradas por um fator 4. O
método de registro utilizado foi o proposto por CAPEL (2001), detalhado no APÊNDICE 7.1.
A execução dessas etapas se dará através do experimento 5.
75
Avaliação do método de reconstrução SAD (MDSP): avaliar o método bayesiano SAD
e suas variantes implementado na MDSP quando aplicado às imagens em tons de cinza e às
imagens coloridas, uma vez que foram propostas por FARSIU ET AL. (2004) abordagens
distintas para cada grupo.
Imagens em tons de cinza (BW)
Serão simuladas imagens LR utilizando o recurso de simulação de imagens LR
disponível na MDSP. Às imagens será aplicado o método bayesiano Shift-And-Add (SAD) e
suas dez variantes para imagens BW conforme está detalhado no APÊNDICE 7.2.
Serão utilizadas sequências de 10, 20, 40 e 80 imagens LR geradas pela MDSP a partir do
alvo teste (ISO 12223), reamostradas por um fator 4. O método de registro utilizado foi o
implementado por Dirk Robinson em (FARSIU ET Al., 2004a) que tem por base o método de
fluxo óptico de LUCAS & KANADE (1981). Esse método de registro está detalhado no
APÊNDICE 7.1 e será denominado FO ao longo deste trabalho.
Imagens coloridas (COLOR)
Serão simuladas imagens LR filtradas através de um filtro de cores (único canal)
utilizando o recurso de simulação de imagens LR disponível na MDSP. Às imagens filtradas
será aplicado o método SAD com regularização BTV detalhado no APÊNDICE 7.2.
Serão utilizadas sequências de 10, 20, 40 e 80 imagens LR geradas pela MDSP a partir da
IMG0570, reamostradas por um fator 4. O método registro utilizado foi o FO. A execução
dessas etapas se dará através do experimento 6.
3.2.2 GERAÇÃO DE IMAGENS HR A PARTIR DE DADOS REAIS
Para esta abordagem serão utilizadas as sequências de imagens LR apresentadas na TAB.
4.2. Inicialmente esta hipótese havia sido descartada em função de não haver uma imagem de
referência para análise posterior. Porém, optou-se, com base no que foi apresentado no
Capítulo 2, por aplicar às sequências reais (vídeo) os métodos que obtiverem o melhor
resultado quando aplicado às sequências simuladas e avaliar o resultado através de técnicas
subjetivas.
Aplicação dos melhores métodos de SR (SRA, SRT e MDSP): Esta abordagem
consiste em aplicar os métodos de reconstrução que apresentarem melhores resultados nos
experimentos 1 a 5 às sequências de imagens de vídeo dos VANTs relacionados na TAB. 3.1.
Esta etapa será realizada através do experimento 7.
Uma visão mais detalhada da metodologia proposta pode ver visualizada no fluxograma
da FIG. 3.6 a seguir.
76
FIG. 3.6: Metodologia de obtenção de imagens SR.
IMAGENS HR
SEQUÊNCIAS DE
IMAGENS REAIS LR
(VÍDEO)
METODOLOGIA DE OBTENÇÃO DE
IMAGENS SR
GERAÇÃO DE
SEQUÊNCIAS DE
IMAGENS
SIMULADAS LR
IMAGENS LR
GERAÇÃO DE
SEQUÊNCIAS DE
IMAGENS
SIMULADAS LR
APLICAÇÃO DO MELHOR
MÉTODO VERIFICADO NOS
EXPERIMENTOS DE 1 A 5
AVALIAÇÃO DOS MÉTODOS DE REGISTRO: KE, VA, LU E MA
AVALIAÇÃO DOS MÉTODOS DE RECONSTRUÇÃO: POCS,
IBP_R E NC
VALIDAÇÃO DOS RESULTADOS DOS MÉTODOS DE
RECONSTRUÇÃO ATRAVÉS DA APLICAÇÃO DE NOVOS
REGISTROS (VA E 0,5 px)
AVALIAÇÃO DOS MÉTODOS DE RECONSTRUÇÃO
MAP_TV, MAP_SD E MAP_CG
AVALIAÇÃO DO MÉTODO DE
RECONSTRUÇÃO SAD
Exp 6
IMAGENS SR
IMAGENS SR
Exp 1
Exp 2
Exp 3
Exp 4
Exp 5
COLORIDA (COLOR) TONS DE CINZA (BW)
Exp 7
MOSAICO SR
Exp 8
77
3.2.3 GERAÇÃO DE MOSAICO DE HR A PARTIR DE DADOS SIMULADOS
Para demonstrar a aplicação das técnicas de SR no contexto da produção cartográfica será
construído um mosaico de imagens SR obtidas a partir de imagens simuladas LR. O método
escolhido para a reconstrução será o que obtiver melhores resultados nos experimentos 1 a 5.
Serão descritas a seguir as etapas utilizadas para a construção do mosaico de SR:
a) Seleção da imagem a ser recortada. Esta será a imagem referência que será utilizada
para avaliação da qualidade do processo;
b) Recorte da imagem em 9 sub-imagens (matriz 3x3) obedecendo as regras do
recobrimento fotogramétrico e simulando a aquisição em 3 faixas de voo, conforme ilustra a
FIG. 3.7;
c) Geração das imagens LR: a partir de cada uma das 9 imagens, simulando uma
sequência de vídeo com 90 quadros;
d) Determinação do método de SR a ser aplicado com base nos experimentos 1 a 6;
e) Obtenção de imagens SR referentes à cada sub-imagem;
f) Identificação de pontos de controle para a correspondência entre as sub-imagens;
g) Mosaicagem das sub-imagens;
h) Avaliação do resultado utilizando o PSNR e o SSIM.
FIG. 3.7: Simulação do voo videográfico - construção das faixas e modelos.
78
3.3 ANÁLISE DA QUALIDADE DAS IMAGENS SR
Exitem dois tipos de avaliação da qualidade de uma imagem: avaliação da qualidade
objetiva e avaliação da qualidade subjetiva.
3.3.1 ANÁLISE OBJETIVA DA QUALIDADE DAS IMAGENS SR
A análise objetiva utiliza modelos matemáticos cujos resultados se aproximam aos da
análise subjetiva. O objetivo dessa técnica é desenvolver uma medida quantitativa que possa
prever a qualidade da imagem percebida. É classificada de acordo com a disponibilidade de se
obter uma imagem original com a qual a imagem processada (SR) deve ser comparada.
Podem ser totalmente referenciadas ou com referências parciais.
Neste trabalho, na etapa da simulação das imagens LR, utilizou-se as métricas totalmente
referênciadas apresentadas a seguir.
3.3.1.1 PEAK SIGNAL TO NOISE RATIO – PSNR
A relação sinal-ruído de pico (PSNR), utilizada em CANDOCIA & PRINCIPE (1999), é
a métrica de avaliação objetiva mais utilizada pela comunidade científica. Esse método tem
por base o erro médio quadrático (MSE) (3.37), que é simplesmente a média das diferenças ao
quadrado para cada pixel. Sendo i e j as coordenadas do pixel, I(i,j) representa o valor da
intensidade do pixel nas coordenadas i,j na imagem original e K(i,j) representa o valor da
intensidade do pixel nas coordenadas i,j na imagem processada. As imagens I e K possuem M
linhas e N colunas, logo o produto desses valores representa o número de pixels nas imagens.
O MSE pode ser obtido usando a Eq. 3.37. O PSNR é expresso em decibéis (dB) e um valor
mais elevado corresponde a indicação de erro menor e, consequentemente, de uma maior
qualidade.
∑ ∑ [ ( ) ( )]
(3.37)
(
) (
√ ) (3.38)
onde MAX é o valor máximo possível de um pixel.
3.3.1.2 STRUCTURAL SIMILARITY INDEX – SSIM
O índice de similaridade estrutural (SSIM) é um método para medir a similaridade entre
duas imagens. O SSIM, assim como o PSNR, é uma métrica completamente referenciada, ou
79
seja, a medida da qualidade da imagem precisa necessariamente ter por base uma imagem
original isenta de compressão ou distorções. O SSIM foi desenvolvido visando o
aperfeiçoamento dos métodos tradicionais, como a relação sinal-ruído de pico (PSNR) e o
erro médio quadrático, que provaram de acordo com a revisão bibliográfica, ser inconsistentes
em relação à percepção do olho humano.
O SSIM é calculado através de várias janelas (subdivisões MxM das imagens a serem
comparadas em blocos menores). A medida entre duas janelas x e y de mesmo tamanho NxN
é:
( ) ( )( )
(
)(
) (3.39)
onde:
µx e µy representam as médias da luminância de cada imagem;
é a variância de x;
é a variância de y;
σxy é a covariância de x e y;
= ( ) ( )
duas variáveis para estabilizar a divisão no caso do
denominador ser pequeno;
L é o dynamic range dos valores dos pixels (geralmente );
=0.01 e =0.03.
A fim de avaliar a qualidade da imagem esta fórmula é aplicada somente à luminância. O
índice SSIM resultante é um valor decimal entre 0 e 1, sendo o valor 1 apenas acessível no
caso de dois conjuntos idênticos de dados. Geralmente é calculado com janelas de tamanho
8x8. A janela pode ser deslocada pixel a pixel na imagem, mas os autores propõem utilizar
apenas um subgrupo das janelas visando reduzir a complexidade dos cálculos (WANG &
BOVIK, 2002).
3.3.2 ANÁLISE SUBJETIVA DA QUALIDADE DAS IMAGENS HR
O melhor método para avaliar a qualidade da imagem SR geralmente depende do
domínio de aplicação. Em muitas aplicações, um observador humano é o usuário final da
imagem. Portanto, a percepção humana e a interpretação são muito importantes. Uma forma
de avaliar as imagens SR é através da avaliação subjetiva. Esse tipo de avaliação leva em
consideração as percepções captadas pelo sistema visual humano em relação às características
das imagens analisadas.
80
São aplicados testes nos quais os observadores humanos são convidados a ver uma série
de imagens SR e avaliá-las. Os testes subjetivos são geralmente precisos se realizados
corretamente. No entanto, em alguns casos podem ser inconvenientes, caros e demorados,
portanto os testes estarão restritos às imagens SR obtidas através de dados reais, em virtude de
não haver imagem de referência que justifique a aplicação de algumas das métricas objetivas
apresentadas anteriormente.
A avaliação subjetiva é regida pela norma de avaliação subjetiva para imagens ITU-R
500-5 (1992). Dentre os testes de avaliação subjetiva propostos pela norma, será utilizado
para a avaliação das imagens SR geradas nesta dissertação o Mean Opinion Score – MOS.
3.3.2.1 MEAN OPINION SCORE – MOS
A pontuação média de opinião (MOS) fornece uma indicação numérica da qualidade
percebida a partir da perspectiva dos usuários após o processamento da imagem
(reconstrução). O MOS é expresso como um número único no intervalo de 1 a 5, onde 1 é
mais baixa qualidade e 5 é a mais alta medição da qualidade percebida na imagem.
O MOS (FIG. 3.8) é gerado pela média dos resultados de um conjunto de padrões, testes
subjetivos, onde usuários de imagens (pelo menos 15), de diferentes níveis e complexidades,
são obrigados a dar uma classificação para as imagens reconstruídas.
FIG. 3.8: Pontuação média de opinião (adaptado de ITU-R 500-5, 1992).
O MOS se dá através da média aritmética de todas as notas individuais e pode variar de 1
(qualidade ruim) a 5 ( qualidade excelente).
3.4 CONCLUSÕES
Neste capítulo foram descritos os ambientes computacionais e os insumos utilizados na
elaboração deste trabalho. Foi também apresentada a metodologia de obtenção de imagens de
super-resolução a partir de sequências de imagens LR (simuladas e reais). Foram descritas
duas métricas para a avaliação objetiva e outra de avaliação subjetiva disponíveis na literatura
que foram aplicadas às imagens SR resultantes. Os resultados obtidos serão apresentados e
avaliados no próximo capítulo.
81
4 RESULTADOS
4.1 RESULTADOS DA GERAÇÃO DE IMAGENS HR A PARTIR DE DADOS
SIMULADOS
Como descrito anteriormente, as métricas objetivas referenciadas utilizadas para calcular
o desempenho das imagens SR foram o PSNR e o SSIM. Os valores obtidos por estas
métricas são apresentados nas tabelas deste Capítulo.
Experimento 1: foram geradas sequências de imagens LR a partir de imagens HR do
alvo teste e das imagens coloridas da TAB. 3.3. As sequências foram geradas pela SRA e pela
MDSP e serão utilizadas na geração de imagens SR dos experimentos seguintes. A estrutura
da SRA modela o movimento translacional e rotacional além de possibilitar a geração de
conjuntos LR de 2, 4, 6, 8 e 10 imagens. Trata-se de uma limitação em termos da análise
computacional e do registro, uma vez que não é possível gerar um volume grande de dados
(acima de 10 imagens). Já a MDSP modela apenas o movimento translacional, no entanto
possibilita a geração de grandes volumes de imagens LR (limitada pelo tamanho da imagem
HR e pelo fator de interpolação).
Experimento 2: foram avaliados os métodos de registro disponibilizados na SRA
(KE, VA, LU e MA) em relação ao desempenho quando aplicados às imagens VANT. Os
resultados obtidos estão ilustrados na FIG. 4.1 Observa-se que dentre os quatro modelos de
registro propostos o método de KE foi o que obteve a melhor resposta visual dentre os
demais, apresentando um número menor de artefatos na imagem. O segundo melhor
resultado foi VA, seguido por LU. O método que apresentou o pior resultado foi MA. A
primeira vista não é grande a diferença visual entre as propostas de KE e de VA, porém a
FIG.4.2 confirma a superioridade de KE.
82
FIG. 4.1: Resultado do experimento 2.
FIG. 4.2: Resultado do experimento 2. KE (esquerda) e VA (direita).
O mesmo procedimento aplicado às imagens LR, geradas a partir do alvo teste, foi
também aplicado a imagens LR geradas a partir das imagens IMG0570, IMG0744, IMG0890,
IMG1038 extraídas da câmara fotográfica, embarcada no VANT Arara-M1.
Os resultados estão ilustrados nas figuras 4.3, 4.4, 4.5 e 4.6. Pode-se observar através
da visualização das imagens coloridas que KE apresentou o melhor desempenho quando
comparado aos propostos por LU, MA e VA. Para as demais imagens coloridas, em ordem de
melhor desempenho, tem-se VA, LU e por último MA.
KE LU
MA
VA
86
FIG. 4.6: Resultado do experimento 1 para a IMG 1038.
A TAB. 4.1 apresenta uma classificação dos métodos de registro estudados nesse
experimento. Tanto para a imagem em tons de cinza do alvo teste quanto para as imagens
coloridas VANT o método de KE apresentou o melhor desempenho quando comparado aos
propostos por LU, MA e VA. O método proposto por VA apresentou o segundo melhor
resultado seguido do proposto por LU. O método proposto por MA apresentou o pior
desempenho dentre os demais.
TAB. 4.1: Classificação dos algorítmos de registro na SRA.
REGISTRO CLASSIFICAÇÃO
KE 1º
VA 2º
LU 3º
MA 4º
KE
VA MA
LU
87
Experimento 3: foram avaliados os métodos os reconstrução disponibilizados na
SRA em relação ao desempenho quando aplicados às imagens VANT. As imagens foram
registradas através do método de KE devido ao fato de que o este método apresentou os
melhores resultados no experimento 2.
Quando os conjuntos de 4, 6, 8 e 10 imagens LR foram registrados através do método
de KE o resultado obtido foi o ilustrado na FIG. 4.7. Observa-se, comparando o conjunto de 4
imagens com o conjunto de 10 imagens, que não há grandes diferenças visuais entre os grupos
comparados. No entanto, cabe ressaltar que ocorre suavização nas regiões de alta frequência.
FIG. 4.7: Resultado do experimento 3 KE a partir de 4, 6, 8 e 10 imagens LR,
reconstrução INT.
4
8 10
6
88
Quando os métodos de reconstrução (INT, NC, POCS e IBP_R) foram aplicados a
conjuntos de 4 imagens LR observou-se que o método que apresentou melhor resposta visual,
com um menor número de artefatos, foi o NC, conforme ilustra a FIG. 4.8.
FIG. 4.8: Resultado do experimento 3 registro KE, reconstrução 4 imagens LR,
reconstrução INT, NC, POCS e IBP_R.
Quando os mesmos métodos de reconstrução citados anteriormente foram aplicados a
conjuntos de 10 imagens LR, observou-se que o método que resultou em melhor resposta
visual, com um menor número de artefatos, também foi o NC, conforme ilustra a FIG. 4.9.
A FIG. 4.10 apresenta os mapas de similaridade associados a cada tipo de reconstrução.
Deve-se observar que, de acordo com a estruturação da métrica objetiva totalmente
referenciada SSIM, quanto mais próximo de um (mais clara a imagem) mais similar é a
imagem em relação à imagem original, quanto mais próximo de zero (mais escura é a
imagem), menos similar em reação à imagem original. Esses dados são também observados
na TAB. 4.2.
INT
POCS IBP_R
NC
89
FIG. 4.9: Resultado do experimento 3, registro KE, reconstrução 10 imagens LR,
reconstrução INT, NC, POCS e IBP_R.
FIG. 4.10: Resultado dos mapas de similaridades (SSIM_map) do experimento 3,
registro KE, 10 imagens LR, reconstrução INT, NC, POCS e IBP_R.
INT
T NC
IBP_R POCS
INT
T NC
POCS IBP_R
90
TAB. 4.2: Resultado do registro KE para um conjunto de 10 imagens LR, reconstrução
INT, NC, POCS, IBP_R.
KE_BW INT IBP_R
4LR 6LR 8LR 10LR 4LR 6LR 8LR 10LR
PSNR (dB) 21,64 22.53 22.2437 22.2120 17.0518 11.4506 9.8753 6.1507
SSIM 0.8702 0.8823 0.8828 0.8818 0.7246 0.3242 0.2342 0.0627
KE_BW POCS NC
4LR 6LR 8LR 10LR 4LR 6LR 8LR 10LR
PSNR (dB) 14.2499 13.6013 13.6550 13.1028 22.0430 23.3329 23.0849 22.7366
SSIM 0.6357 0.6006 0.6104 0.5991 0.8752 0.8910 0.8890 0.8874
Da FIG. 4.10 e da TAB. 4.2 pode-se observar que o método que apresentou melhor
desempenho foi o NC, seguido pelo método INT e POCS. O método que apresentou o pior
desempenho foi o IBP_R.
Todos os procedimentos aplicados ao alvo teste foram também aplicados a duas imagens
coloridas (IMG0570 e IMG0744). Essas imagens foram selecionadas dentre as quatro da TAB
3.3 em função de apresentarem conjuntos de alvos militares e altas frequências. Os resultados
apresentados nas figuras 4.11 a 4.16 e pelas tabelas 4.3 e 4.4 confirmam os resultados obtidos
com a imagem teste.
91
FIG. 4.11: Resultado do experimento 3 para a IMG0570 KE a partir de 4, 6, 8 e 10
imagens LR, reconstrução INT.
4
10 8
6
92
FIG. 4.12: Resultado dos mapas de similaridades (SSIM_map) do experimento 3 para a
IMG0570, registro KE, 10 imagens LR, reconstrução INT, NC, POCS e IBP_R.
INT NC
IBP_R POCS
93
FIG. 4.13: Resultado do experimento 3 para a IMG0570, registro KE, reconstrução 10
imagens LR, reconstrução INT, NC, POCS e IBP_R.
TAB. 4.3: Resultado registro KE para um conjunto de 10 imagens LR a partir da
IMG0570, reconstrução INT, NC, POCS, IBP_R.
KE_ IMG0570 INT IBP_R
4LR 6LR 8LR 10LR 4LR 6LR 8LR 10LR
PSNR (dB) 24.2344 24.6433 24.8284 24.4281 23.4072 22.9976 23.0362 20.3253
SSIM 0.8007 0.8406 0.8517 0.8148 0.5849 0.5776 0.5794 0.3600
KE_ IMG0570 POCS NC
4LR 6LR 8LR 10LR 4LR 6LR 8LR 10LR
PSNR (dB) 22.3478 22.2174 22.0342 21.3298 23.9328 25.0457 25.2651 24.8185
SSIM 0.6253 0.6054 0.5389 0.5207 0.7699 0.8415 0.8601 0.8217
INT
POCS IBP_R
NC
94
FIG. 4.14: Resultado do experimento 3 a partir da IMG0744, registro KE, 10 imagens
LR, reconstrução INT, NC, POCS e IBP_R.
INT NC
POCS IBP_R
95
FIG. 4.15: Resultado do experimento 3 para o alvo teste, registro KE a partir de 4, 6, 8 e
10 imagens LR, reconstrução NC.
FIG. 4.16: Resultado dos mapas de similaridades (SSIM_map) do experimento 3 para a
IMG0744, registro KE, 6 imagens LR, reconstrução INT, NC, POCS e IBP_R.
4
10
6
8
INT
IBP_R POCS
NC
96
TAB. 4.4: Resultado registro KE para conjuntos de imagens LR a partir da IMG0744,
reconstrução INT, NC, POCS, IBP_R.
KE_IMG0744 INT IBP_R
4LR 6LR 8LR 10LR 4LR 6LR 8LR 10LR
PSNR (dB) 23.3097 23.5035 23.3811 23.4234 22.2174 21.9182 21.9013 21.9154
SSIM 0.8775 0.8974 0.8909 0.8980 0.6306 0.6109 0.6183 0.5916
KE_IMG0744 POCS NC
4LR 6LR 8LR 10LR 4LR 6LR 8LR 10LR
PSNR (dB) 21.4692 21.1408 21.0993 21.3645 23.3754 23.7264 23.7097 23.7364
SSIM 0.6573 0.6359 0.6117 0.6337 0.8670 0.9004 0.8932 0.9019
Experimento 4: foram validados os métodos de reconstrução disponíveis na SRA
(INT, NC, POCS e IBP_R) em relação ao mesmo conjunto de imagens do experimento 3. A
validação foi realizada através das seguintes etapas:
(a) As imagens foram registradas através do método VA (que apresentou o segundo
melhor desempenho na avaliação do experimento 2) e do registro manual (0,5 pixel de
deslocamento em cada direção) ;
(b) A reconstrução foi realizada através dos mesmos métodos do experimento 3 ((INT,
NC, POCS e IBP_R);
(c) Foram comparados os valores de PSNR e SSIM de cada método para cada um dos
tipos de registro (KE e VA).
Quando os métodos de reconstrução foram aplicados a conjuntos de 4, 6, 8 e 10 imagens
LR observou-se que o método que apresentou melhor resposta visual, com um menor número
de artefatos, foi o NC.
Foi realizada a validação apenas para os métodos de reconstrução disponíveis na SRA,
em virtude de ser a única estrutura a possibilitar alternativas para o registro.
97
FIG. 4.17: Resultado dos mapas de similaridades (SSIM_map) do experimento 4,
registro VA, reconstrução INT, NC, POCS e IBP_R.
FIG. 4.18: Resultado dos mapas de similaridades (SSIM_map) do experimento 4,
registro VA, reconstrução NC, aplicados a conjuntos de 4 imagens LR (esquerda) e 10
imagens LR (direita).
INT NC
IBP_R POCS
98
TAB. 4.5: Resultado registro VA, reconstrução INT, NC, POCS e IBP_R.
VA_ BW INT IBP_R
4LR 6LR 8LR 10LR 4LR 6LR 8LR 10LR
PSNR (dB) 16.7930 18.5637 17.0077 17.8016 12.5690 10.2432 12.6687 12.9568
SSIM 0.7510 0.8046 0.7657 0.7799 0.4471 0.2291 0.4455 0.4544
VA_BW POCS NC
4LR 6LR 8LR 10LR 4LR 6LR 8LR 10LR
PSNR (dB) 15.1091 16.9656 15.1974 14.3639 14.9627 18.8894 17.1009 18.4981
SSIM 0.6753 0.7276 0.6833 0.6561 0.7101 0.8108 0.7688 0.7973
Das FIG. 4.17, 4.18 e da TAB. 4.5 pode-se observar que o método que apresentou melhor
desempenho foi o método NC, seguido pelo método da INT e POCS. O método que
apresentou o pior desempenho foi o IBP_R.
Comparando os valores de PSNR e SSIM apresentados na TAB. 4.5 com os valores
apresentados na tabela 5.2 observa-se a superioridade do método de KE sobre os demais.
FIG. 4.19: Resultado dos mapas de similaridades (SSIM_map) do experimento 4 para
conjuntos de 10 imagens, registro KE (esquerda), VA (direita), reconstrução NC.
As imagens também foram registradas através do registro manual deslocadas de 0.5 pixel
na horizontal e na vertical. Quando os métodos de reconstrução (INT, NC, POCS e IBP_R)
foram aplicados a conjuntos de 4, 6, 8 e 10 imagens LR observou-se que o método que
apresentou melhor resposta visual, com um menor número de artefatos, foi o INT, conforme
ilustra o mapa de similaridade da FIG. 4.19 e a TAB. 4.6.
99
FIG. 4.20: Resultado dos mapas de similaridades (SSIM_map) do experimento 4,
registro manual (0,5 pixel) aplicados a conjuntos de 4 imagens LR, reconstrução INT, NC,
POCS e IBP_R.
TAB. 4.6: Resultado registro manual (0.5 pixel), reconstrução INT, NC, POCS e IBP_R.
MANUAL_ BW INT IBP_R
4LR 6LR 8LR 10LR 4LR 6LR 8LR 10LR
PSNR (dB) 17.1793 17.3420 17.3822 17.3924 15.6338 15.5983 15.5870 15.5698
SSIM 0.7802 0.7906 0.7954 0.7980 0.6992 0.6961 0.6950 0.6932
MANUAL_ BW POCS NC
4LR 6LR 8LR 10LR 4LR 6LR 8LR 10LR
PSNR (dB) 14.9840 14.9840 14.9840 14.9840 3.6587 3.6634 3.6656 3.6668
SSIM 0.5412 0.5412 0.5412 0.5412 0.1268 0.1294 0.1306 0.1314
Comparando os valores de PSNR e SSIM apresentados na TAB. 4.6 com os valores
apresentados nas tabelas 4.2 e 4.5 observa-se a superioridade do método de registro de KE,
sobre os demais.
INT
IBP_R POCS
NC
100
Experimento 5: foram avaliados os métodos de reconstrução disponíveis na SRT que
são MAP_SD, MAP_GC e MAP_TV. Esses métodos foram aplicados a sequências de 4, 6, 8
e 10 imagens LR geradas pela SRA uma vez que não existe esse recurso na SRT. As imagens
referentes ao alvo teste (ISO 12223) foram reamostradas de um fator 4, o método registro
utilizado foi o CA, que utiliza correlação cruzada normalizada (detalhes no APÊNDICE 7.2).
Os resultados apresentados na FIG. 4.21 e pela TAB. 4.7 indicam que o melhor
desempenho foi alcançado pelo método MAP_GC, o segundo melhor resultado foi obtido
pelo método MAP_TV. O método que apresentou o pior desempenho foi o MAP_SD.
FIG. 4.21: Resultado dos mapas de similaridades (SSIM_map) do experimento 5, registro
CA, aplicados a conjuntos de 4 imagens LR, reconstrução MAP_GC(esquerda),
MAP_TV(direita), MAP_SD (acima).
101
TAB. 4.7: Resultado registro CA, reconstrução MAP_SD, MAP_GC e MAP_TV.
CA_ BW MAP_TV
4LR 6LR 8LR 10LR
PSNR (dB) 12.6857 13.2235 12.6019 11.7558
SSIM 0.6206 0.6473 0.5987 0.5147
CA_ BW MAP_SD MAP_GC
4LR 6LR 8LR 10LR 4LR 6LR 8LR 10LR
PSNR (dB) 12.6377 12.6665 12.3666 11.4732 12.8667 13.4744 12.8721 12.0012
SSIM 0.6361 0.6765 0.6311 0.5549 0.6268 0.6734 0.6309 0.5641
CA_IMG0570 MAP_SD MAP_GC MAP_TV
PSNR (dB) 17,2841 17,6971 17,3405
SSIM 0,1752 0,2628 0,1544
Comparando os valores de PSNR e SSIM apresentados na TAB. 4.7 com os valores
apresentados nas tabelas 4.2, 4.5 e 4.6 observa-se a superioridade do método de KE sobre os
demais métodos.
Experimento 6: foram avaliados os métodos de reconstrução disponíveis na MDSP
que são SAD e suas variações além do método IBP_R modificado e da Interpolação com
spline cúbica (APÊNDICE 7.2). As imagens em tons de cinza (BW) e as imagens coloridas
(COLOR) geradas a partir do alvo teste e da IMG0570 foram registradas através do método
de registro FO (APÊNDICE 7.1) utilizando recurso de geração de imagens LR a partir de
imagem HR disponível na MDSP.
A imagem BW foi reconstruída através dos seguintes métodos SAD, Bilateral SAD, SAD
com remoção de borramento iterativa, Bilateral SAD com remoção de borramento iterativa,
Mediana SAD, Mediana SAD com remoção de borramento iterativa, SAD com norma L2
iterativa, SAD com norma L1 iterativa, SAD com norma L2 com regularização L1, IBP_R com
regularização L2, IBP_R com regularização L1, Interpolação com spline cúbica. Todos esses
métodos são descritos no APÊNDICE 7.2. A partir da análise dos valores do PSNR e do SSIM
verificou-se que o método que apresentou melhores resultados nessa etapa foi o SAD com norma
L2 e regularização L1(APÊNDICE 7.2), denominado SAD_N2L1 ao longo deste trabalho.
102
A imagem COLOR foi reconstruída através do método SAD iterativo denominado
ITER_SAD ao longo deste trabalho. Os resultados obtidos para a imagem BW podem ser
observados nas figuras 4.22 e 4.23 e pela TAB. 4.8. Pode-se observar que o método que
apresentou melhor desempenho foi o SAD_N2L1.
Aplicando o melhor método SAD_N1L2 a conjuntos distintos de 10 e 80 imagens LR,
observa-se através dos mapas de similaridade equivalentes a cada conjunto que o conjunto de
80 imagens apresentou desempenho superior ao de 10 imagens, resultado este que pode ser
visualmente constatado na FIG. 4.24 e numericamente na TAB. 4.8.
FIG. 4.22: SSIM_Map gerado a partir de 80 imagens LR, registro FO, reconstrução (da
esquerda para a direita, de cima para baixo) (1) SAD, (2) Bilateral SAD, (3) S&A com
remoção de borramento iterativa, (4) Bilateral SAD com remoção de borramento iterativa, (5)
Mediana SAD, (6) Mediana SAD com remoção de borramento iterativa.
103
(1)
FIG. 4.23: SSIM_Map gerado a partir de 80 imagens LR, registro FO, reconstrução (da esquerda
para a direita, de cima para baixo) (7) SAD com norma L2 iterativa, (8) SAD com norma L1
iterativa, (9) SAD com Norma L2 e com regularização L1, (10)IBP_R com regularização L2,
(11) IBP_R com regularização L1, (12) Interpolação com spline cúbica.
104
FIG. 4.24: SSIM_Map gerado a partir de 10 imagens LR (esquerda) e 80 imagens LR
(direita) registro FO, reconstrução SAD_N2L1.
TAB. 4.8 Resultado do método SAD_N2L1, registro FO aplicado a conjuntos de 10, 20,
40 e 80 imagens.
SAD_N2_L1_BW 10LR 20LR 40LR 80LR
PSNR (dB) 30.8721 31.1521 32.2016 31.9343
SSIM 0.9824 0.9872 0.9899 0.9895
TEMPO EM (s) 114 203 380 719
Comparando os valores de PSNR e SSIM apresentados na TAB. 4.8 com os valores
apresentados nas tabelas 4.2, 4.5, 4.6 e 4.7, observa-se a superioridade do método de registro
de FO e do método de reconstrução SAD sobre os demais métodos aplicados às imagens BW.
Os resultados obtidos para a imagem colorida IMG0570 podem ser observados na FIG
4.25 e pela TAB. 4.9.
Aplicando o método ITER_SAD a conjuntos de 10, 20, 40 e 80 imagens LR observa-se
através dos mapas de similaridade equivalentes a cada conjunto que o conjunto de 20 imagens
foi o que apresentou melhor desempenho quanto ao PSNR tendo apresentado pequena
discrepância quanto ao SSIM.
105
(a)
(b)
(c)
(d)
FIG. 4.25: SSIM_Map gerado a partir de conjuntos de imagens LR, registro FO, reconstrução
ITER_SAD. (a) 10 imagens, (b) 20 imagens, (c) 40 imagens e (d) 80 imagens.
106
TAB. 4.9: Resultado do método ITER_SAD, registro FO, aplicado a imagens coloridas.
IMG_0570_ ITER_SAD 10LR 20LR 40LR 80LR
PSNR (dB) 34.3453 34.6262 32.8465 30.1542
SSIM 0.9866 0.9708 0.9168 0.8295
TEMPO EM (s) 103 107 110 112
Em relação aos resultados que foram obtidos cabe ressaltar que o método SAD tem uma
vantagem no aspecto computacional sobre outros métodos, incluindo POCS. Nesse método,
uma função de custo robusta foi proposta, para o qual um número de métodos numéricos
eficientes de minimização (otimização) são aplicáveis (GC, PGC, Jacobi). Ao contrário disso,
POCS utiliza o steepest descent para minimização não robusta da norma L2 da função custo.
A robustez é alcançada através da modificação do método steepest descent, onde o operador
mediana é usado no lugar do operador de soma no cálculo do termo gradiente da função custo.
O mesmo esquema de substituição de operador soma pelo operador mediana em métodos
computacionalmente mais eficientes tais como o gradient descent não é uma tarefa simples.
Além disso, não há garantias que o steepest descent modificado e que a minimização do
gradiente conjugado convirjam para a mesma resposta.
Observou-se que no método SAD o modelo foi limitado para o caso do movimento de
translação em função das seguintes razões: (a) tal modelo permite uma dinâmica
extremamente rápida e eficiente de memória; (b) embora simples, o modelo se aproxima
bastante ao movimento contido em seqüências de muitas imagens, onde a cena está parada e
somente a câmara move-se em forma aproximadamente linear; (c) por possuirem altas taxas
de quadros, muitos modelos de movimento podem ser (ao menos localmente) aproximados
pelo modelo de translação.
107
4.2 RESULTADOS DA GERAÇÃO DE IMAGENS HR A PARTIR DE DADOS REAIS
Foram geradas imagens SR a partir de sequências de vídeo LR. Os dados resultantes
foram avaliados quanto a qualidade através do MOS conforme descrito no capítulo anterior.
Experimento 7: com base na análise dos resultados dos experimentos 1 a 6 (geração
de imagens SR a partir de dados simulados) pode-se constatar que os métodos que
apresentaram melhores desempenhos foram
*SRA Registro KE + Reconstrução NC;
*SRT Registro CA + Reconstrução MAP_GC;
*MDSP Registro FO + Reconstrução SAD_N2L1 (imagens em tons de cinza) e
Registro FO + Reconstrução ITER_SA (imagens coloridas no padrão bayer).
Para a avaliação subjetiva, o teste do MOS foi aplicado a conjuntos de imagens SR
gerados através dos métodos que obtiveram melhores resultados nos experimentos anteriores.
Foram utilizados 5 grupos de imagens de vídeo a partir dos 5 distintos sistemas de aquisição
dos 5 VANTs contemplados neste trabalho: ARARA-M1, CARCARÁ, RQ450, LANU e VT-
15. Para cada grupo foram geradas 3 imagens HR a partir do melhor método obtido em cada
interface gráfica, e verificados pelos experimentos anteriores. Os 5 grupos compostos por 3
imagens HR cada foram apresentados aos observadores. Cada observador associou uma nota
variando de 5 a 1, correspondendo à qualidade (excelente, boa, regular, pobre, ruim) para cada
imagem SR gerada.
O método que obteve melhores resultados no teste do MOS, conforme as tabelas 4.10 a
4.14, foi o MAP_GC. As figuras 4.26 a 4.30 ilustram as imagens resultantes da aplicação do
método MAP_GC às sequências de imagens reais.
108
FIG. 4.26: Imagem SR resultante do vídeo gerado pelo VANT Arara-M1, através do método
MAP_GC.
TAB. 4.10: Resultado do Mean Opinion Score VANT Arara-M1.
109
FIG. 4.27: Imagem SR resultante do vídeo gerado pelo VANT Carcará, através do método
MAP_GC.
TAB. 4.11: Resultado do Mean Opinion Score VANT Carcará.
110
FIG. 4.28: Imagem SR resultante do vídeo gerado pelo VANT RQ450, através do método
MAP_GC.
TAB. 4.12: Resultado do Mean Opinion Score VANT RQ450.
111
FIG. 4.29: Imagem SR resultante do vídeo gerado pelo VANT LANU, através do método
MAP_GC.
TAB. 4.13: Resultado do Mean Opinion Score VANT LANU.
112
FIG. 4.30: Imagem SR resultante do vídeo gerado pelo VANT VT-15, através do método
MAP_GC.
TAB. 4.14: Resultado do Mean Opinion Score VANT VT-15.
113
4.3 RESULTADOS DA GERAÇÃO DE MOSAICOS A PARTIR DE DADOS SIMULADOS
Experimento 8: incialmente a imagem HR IMG0570 foi dividida em 9 partes (FIG.
4.31), obedecendo as normas estabelecidas pelo recobrimento fotogramétrico. Na SRA, cada
imagem HR gerou 10 imagens LR representando um vídeo de baixa resolução de 90 quadros.
Optou-se por simular imagens LR somente na SRA em virtude da mesma modelar os
movimentos translacional e rotacional e também devido ao volume excessivo de arquivos (em
função do padrão Bayer) que é gerado nas simulações da MDSP (só modela o movimento
translacional) e na flexibilidade de formatos de saída da SRA.
FIG. 4.31: Posicionamento do recorte a11. (sendo IMG0570 a matriz Aij, 9x9).
A sequência simulada foi então submetida aos métodos NC (melhor resultado na SRA) e
MAP_GC (melhor resultado na SRT). As imagens SR resultantes foram então mosaicadas
através do Microsoft Image Composite Editor (FIG. 4.32, 4.33), em preto podemos observar o
erro devido ao processo de registro.
Os resultados são apresentados nas tabelas 4.15 a 4.17 e pela FIG. 4.34.
FIG. 4.32: Mosaicagem de imagens a partir de dados simulados (imagem fonte HR
IMG0570). (esquerda) Imagem Original, dividida em 9 partes iguais (direita) mosaicagem das
SR.
114
FIG. 4.33: Aplicação de técnicas de SR na construção de mosaicos. (esquerda) mosaico
LR, (direita) mosaico HR através do método NC.
FIG. 4.34: (acima, esquerda) mosaico de imagens LR (93x64), (acima, direita) zoom 10x
aplicado ao mosaico, (abaixo) mosaico HR (1269x506) a partir do método de SR
(CA+MAP_GC).
115
TAB. 4.15: Avaliação dos métodos NC e MAP_GC aplicado a imagens LR´s simuladas a
partir da IMG_a11.
IMG_a11_HR NC MAP_GC
PSNR (dB) 19,76 17,6971
SSIM 0,6537 0,2628
TAB. 4.16: Avaliação do mosaico gerado a partir de 3 images SR.
M1_3IMG(a11, a12,
a13)_M_ICE NC MAP_GC
PSNR (dB) 24,034 24,0405
SSIM 0,7056 0,7077
TAB. 4.17: Avaliação do mosaico gerado a partir de 6 imagens SR.
M2_6IMG(a11, a12, ... , a23)_M_ICE NC MAP_GC
PSNR (dB) 23,3477 17,79
SSIM 0,545 0,26
4.4 CONCLUSÕES
Neste Capítulo foram descritos os resultados da aplicação de métodos de SR (métodos de
registro e de reconstrução) a distintos grupos de sequências de imagens LR reais (oriundas de
câmara de vídeo) e simuladas a partir de uma imagem HR (oriunda de câmara fotográfica),
em três diferentes interfaces gráficas para usuários (GUI). Também foram apresentados os
resultados da aplicação de técnicas de SR à mosaicos com vistas a otimizar a aquisição de
imagens através de um voo videográfico.
As imagens geradas através de sequências simuladas e as imagens que compuseram o
mosaico foram avaliadas por métricas objetivas totalmente referenciadas por haver uma
imagem ground-truth para comparação. Foram utilizados neste processo o PSNR e o SSIM.
As imagens geradas através de sequências reais foram avaliadas por métricas subjetivas por
não haver uma imagem de referência para comparação. Foram utilizados neste processo o
teste do MOS.
Os resultados obtidos confirmam a necessidade de utilização de um algoritmo robusto de
registro. O método de registro KE obteve os melhores resultados quando comparado com os
métodos VA, LU e MA.
116
Os métodos de reconstrução baseados em modelos matemáticos que possuíam termos de
regularização (para potencializar a remoção de ruído e borramento), tais como Tikhonov e
Total Variation associados a otimizações steepest descent e gradient descent apresentaram
superioridade quando comparados com métodos convencionais, tais como POCS e IBP_R.
Destaca-se a superioridade do método de registro CA associado à reconstrução MAP_GC
para os dados reais. Para os dados simulados destacaram-se o registro FO seguido de
reconstrução SAD_N2L1 para imagens em tons de cinza e FO seguido de ITER_SAD para a
modelagem específica de imagens coloridas (imagens filtradas).
117
5 CONCLUSÕES E TRABALHOS FUTUROS
5.1 CONCLUSÕES
Da revisão bibliográfica, da concepção metodológica proposta para essa pesquisa, dos
experimentos realizados, dos resultados e análises apresentadas, é possível estabelecer
algumas conclusões.
Devido à necessidade de se obter o controle do processo de aquisição, existe a
necessidade de tratar com distinção dados reais e dados simulados quando submetidos às
técnicas de SR. Isto se dá devido ao fato de que o registro ou estimação de movimento é a
etapa mais importante da SR. Quando os parâmetros de aquisição dos dados reais são
conhecidos (voo controlado) existe um domínio do processo, que possibilita a identificação
da melhor técnica de SR.
Os conjuntos de métodos da SRA apresentam diversidade quanto aos métodos de registro
e reconstrução, sendo geradas imagens SR de melhor qualidade quando associados o registro
KE e a reconstrução NC. No entanto existem limitações no que se refere a volume de dados.
Trata-se de uma inconsistência em relação à teoria que estabelece que, quanto maior o volume
da sequência maior a probabilidade de aumento de resolução. Nesse contexto o aumento do
número de imagens demanda métodos cada vez mais robustos para realizar com êxito o
alinhamento entre as imagens (registro) e, consequentemente, eleva o custo computacional.
Os conjuntos de métodos da SRT utilizam diferentes termos de regularização e técnicas
de otimização ao método MAP, em especial o método MAP_GC associado ao registro CA,
comprovaram ser a combinação mais eficiente para se obter uma imagem SR a partir de
dados reais.
Os conjuntos de métodos da MDSP, embora apresentem potencialidades que a
distinguem das demais na geração de simulações e métodos de registro e de reconstrução
modernos e com melhores desempenhos segundo a bibliografia, não possuem uma
documentação detalhada em relação a sua estruturação, o que inviabiliza tecnicamente muitos
de seus aplicativos. A combinação registro FO e reconstrução SAD_N2L1 é a mais
recomendada para a geração de imagens SR BW e a combinação registro FO e reconstrução
ITER_SAD apresenta excelente qualidade quando aplicada a imagens COLOR filtradas no
padrão Bayer.
118
Em relação ao estudo de caso da simulação de um voo videográfico em faixas, através da
construção de um mosaico, a análise dos resultados constatou que a mosaicagem não interfere
na SR de modo a prejudicar a visualização do terreno e a identificação de alvos. Também não
há perda significativa na qualidade da imagem conforme comprovaram os valores do PSNR e
do SSIM.
A conclusão principal desta pesquisa é a de que o sucesso das técnicas de SR, assim
como a videografia aérea digital (VAD), depende do total controle de atitude do movimento
do sensor e da plataforma. Quanto maior o planejamento da aquisição (projeto de voo), mais
parâmetros são conhecidos acerca do instante de aquisição da cena e maiores são as
possibilidades de identificação e posicionamento de alvos. Diante do que foi apresentado
existe indicadores da potencial aplicação das técnicas de SR ao processo cartográfico como
um todo.
5.2 TRABALHOS FUTUROS
Visando dar continuidade ao que foi apresentado nesta pesquisa são propostas as
seguintes sugestões para trabalhos futuros
Realização de um voo videográfico controlado (projeto de voo) executado pelos VANTs
abordados nessa pesquisa, com câmara apontada para o nadir e zoom óptico fixo, para que
possa haver controle no processo de aquisição e possibilidades de aplicação das técnicas
videográficas segundo os conceitos da aerofotogrametria;
Estudar os efeitos da compressão nas imagens VANT (por ocasião da transmissão de
dados em tempo real), geradas através de vídeos com diferentes tamanhos de quadro, em
diferentes taxas e com diferentes CODECs. Avaliar a contribuição das técnicas de SR através
da análise métrica objetiva dos resultados;
Gerar pares estereoscópicos a partir de um voo VANT e estudar a potencialidades de
aplicação da SR ao processo fotogramétrico;
Utilização das imagens e técnicas de SR para a construção de produtos cartográficos;
Utilização de técnicas de SR simultânea (na qual é gerada uma sequência de imagens HR
ao invés de uma única imagem HR) aplicadas aos dados gerados por videografia VANT;
Otimização da etapa de registro a partir da implementação de algoritmos mais robustos
que permitam variações de movimento mais complexas;
119
Integração à metodologia deste trabalho das técnicas de Wavelets (TAKEMURA, 2010),
MAP_GC simultânea (ZIBETTI, 2007) e POCS utilizando Interpolação Sync (TELLES Jr,
2008);
Coletar amostras em terrenos com relevo plano e acentuado para obtenção de pontos de
controle visando a produção de uma ortoimagem a partir de imagens SR;
Estudo de utilização dos aplicativos relacionados estimativa robusta de movimento;
Aplicação das técnicas de Change Detection (CD) às imagens VANT.
120
6 REFERÊNCIAS BIBLIOGRÁFICAS
AGX. VANT ARARA AGX. Email para AGX TECNOLOGIA ([email protected])
[mensagem capturada em 25 mar. 2010].
ALAM, M. S., BOGNAR, J. G., HARDIE, R. C. e YASUDA, B. J. Infrared image
registration using multiple translationally shifted aliased video frames. IEEE
Instrum. Meas. Mag., 49(5), Oct 2000.
ALMEIDA, L. L, TOMASELLI, A. M. G. Melhoramento da resolução a partir de
sequência de imagens. Boletim de Ciências Geodésicas. Artigos. Curitiba, v.9, n°2,
p.163-178, jul-dez, 2003.
ASPRS. Digital photogrammetry an addendum to the manual of photogrammetry.
Estados Unidos The American Society for Photogrammetry and Remote Sensing, 1997.
AXIS. Manual da Câmara Axis 233D. Disponível em:
http://www.axis.com/products/cam_233d/ [capturado em 2 agosto 2010].
BORMAN, S. e STEVENSON, R. Spatial resolution enhancement of low-resolution
image sequences - a comprehensive review with directions for future research.
University of Notre Dame, 1998.
BOSE, N. K., KIM, H. C. e VALENZUELA, H. M. Recursive implementation of total least
squares algorithm for image reconstruction from noisy,undersampled multiframes.
Proceedings of the IEEE Conference on Acoustics, Speech and Signal Processing,
volume 5, pages 269–272, 1993.
BITTENCOURT, F. F. B., COSTA, L. A. da., TELLO, J. C. R., BITTENCOURT, D. da C.
Desenvolvimento do SISVDA – Sistema de videografia Digital de alta resolução
espacial. Anais XV Simpósio Brasileiro de Sensoriamento Remoto - SBSR, Curitiba, PR,
Brasil, 30 de abril a 05 de maio de 2011, INPE p.8992
BRASIL. MEMÓRIA 013. Projeto VANT. Centro Tecnológico do Exército (CTEx), Rio de
Janeiro, RJ, 21 setembro 2009.
BRASIL. Portaria Normativa n° 606/MD, de 11 de junho de 2004. Diretriz de Obtenção de
Veículo Aéreo Não Tripulado (VANT). Diário Oficial da União (DOU), 14 junho 2004.
BROWN, L. G. A survey of image registration techniques. ACM Comput. Surv. 24(4), pp.
325-376, 1992.
CANDOCIA, F. M. e PRINCIPE, J. C. Superresolution of images based on local
correlations. IEEE Transactions on Neural Networks 10 (2) (1999) 372– 380.
CAPEL, D. Image mosaicing and super-resolution. Ph.D. dissertation, University of
Oxford, 2001.
121
CAPEL, D. e ZISSERMAN, A. Computer vision applied to super resolution. IEEE Signal
Processing Magazine 20, pp. 75-86, May 2003.
CHAUDHURI, S. Super Resolution Imaging. Norwell, MA Kluwer, 2001. 279 p.
CTEx. Pereira. A. R. Pesquisa e desenvolvimento de veículo aéreo não tripulado no
CTEX. In Anais do I Simpósio do DCT sobre Veículo Aéreo Não Tripulado (I
SIMVANT), Brasília, Julho 2008.
DSG. Projeto Radiografia da Amazônia - 2008, 2008. Disponivel http
//www.dsg.eb.mil.br/prjram/ [capturado em 2 agosto 2010].
ELAD, M. e FEUER, A. Restoration of single super-resolution image from several
blurred, noisy and down-sampled measured images. IEEE Trans. Image Processing,
vol. 6, no. 12, pp. 1646-1658, Dec. 1997.
ELAD, M. e HEL-OR, Y. A fast super-resolution reconstruction algorithm for pure
transla-tional motion and common space invariant blur. IEEE Trans. Image
Processing, vol. 10, no. 8, pp. 1187-1193, Aug. 2001.
EURASIP journal on applied signal processing. Special issue on super-resolution. 2005.
FARSIU, S., ELAD, M. e MILANFAR, P Multi-frame demosaicing and super-resolution
from under-sampled color images. Proc. of the 2004 IS&T/SPIE 16th Annual
Symposium on Electronic Imaging, Jan. 2004a.
FARSIU, S. MDSP Resolution Enhancement Software Users Manual. MDSP Lab,
University of California at Santa Cruz, USA, 2004b. Disponivel http
//www.soe.ucsc.edu/ milanfar [capturado em 10 novembro 2010].
FARSIU, S., ROBINSON, D. e MILANFAR, P. MDSP resolution enhancement software.
2004c. Disponivel http //www.soe.ucsc.edu/ milanfar/SR-Software.htm [capturado em
10 novembro 2010].
FARSIU, S., ROBINSON, D., ELAD, M. e MILANFAR, P. Advances and challenges in
super-resolution. Invited paper to appear in the Inter-national Journal of Imaging
Systems and Technology, Summer 2004d.
FARSIU, S., ROBINSON, D., ELAD, M. e MILANFAR, P. Fast and robust multi-frame
super-resolution. To appear in IEEE Trans. Image Processing, Oct. 2004e.
FARSIU, S., ROBINSON, D., ELAD, M. e MILANFAR, P. Fast dynamic super-resolution.
Proc. SPIE's Conf. on Image Reconstruction from Incomplete Data, Denver, CO. Aug.
2004f.
FARSIU, S., ROBINSON, D., ELAD, M. e MILANFAR, P. Robust shift and add approach
to super-resolution. Proc. of the 2003 SPIE Conf. on Applications of Digital Signal and
Image Processing, pp. 121-130, Aug. 2003.
122
FERREIRA, J. M. C. Obtenção de Ortomosaico a partir de câmara fotográfica digital
não-métrica. Mestrado, Dissertação. Departamento de Engenharia Cartográfica, Instituto
Militar de Engenharia, Rio de janeiro. p. 165. 2001.
FISCHLER, M. A. e BOLLES, R. C. Random sample consensus A paradigm for model
fitting with applications to image analysis and automated cartography. Comm.
Assoc. Comp.Mach., 24(6) 381-395, 1981.
FONSECA, L.M. G.; MANJUNATH, B.S. Registration Techniques for Multisensor
Remotely Sensed Imagery. Photogrammetric Engineering & Remote Sensing, Vol. 62,
nº 9, September 1996, pp. 1049-1056.
GALO, M., HASEGAWA, J. K., TOMMASELLI, A. M. G. Avaliação geométrica de
câmaras de vídeo para uso em fotogrametria digital. Congresso Brasileiro de
Cartografia, 1999.
GALVIN, B., MCCANE, B., NOVINS, K., MASON, D., e MILLS, S. Recovering motion
fields An evaluation of eight optical flow algorithms. Proceedings of the British
Machine Vision Conference, pp. 454-460, September 1998.
GEVREKCI, M., GUNTURK, B. K. MATLAB Functions for Super Resolution User
Interface. 2006. Electrical & Computer Engineering, Louisiana State University.
Disponível http // www.ece.lsu.edu/ipl/Demos.html / [capturado em 21 de janeiro de
2010].
GERCHBERG, R. W. Super-resolution through error energy reduction. Optica Acta 21,
pp. 709–720, 1974.
GONZALEZ, R. C., WOODS, R. E., EDDINS, S. L. Digital Image Processing Using
MATLAB. New Jersey Prentice Hall, 1998.
GUNTURK, B. K. e GEVREKCI, M. High-Resolution Image Reconstruction from
Differently Exposed Images. IEEE Signal Processing Letters, vol.13, no. 4, pp.197-200,
April 2006.
HARRIS, C. J. E STEPHENS, M. A combined corner and edge detector. In Proc. 4th
Alvey Vision Conference,Manchester, pages 147.151, 1988.
HUYNH-THU, Q.; GHANBARI, M. (2008). Scope of validity of PSNR in image/video
quality assessment. Electronics Letters 44 (13) 800–801.
IBGE. Processo cartográfico. Disponível http
//www.ibge.gov.br/home/geociencias/cartografia/manual_nocoes/processo_cartografico.h
tml [capturada em 20 de março de 2011].
IEEE Signal Processing Magazine. Special issue on super-resolution. May 2003.
123
IMAGEFUSION. 2008. Disponível http //www.imagefusion.org/ [capturada em 23 de
janeiro de 2010].
INPE. Projeto GEOMA. 2006. Disponivel http
//www.dpi.inpe.br/geoma/videografia/relatorio.pdf [capturado em 3 maio 2010].
INTERGRAPH. Resolução espacial. Disponível http
//www.intergraph.com/applications/events/cameraconference2007/W2-
Keynote_RReulke.pdf [capturado em 21 de janeiro de 2010].
IRANI, M. e PELEG, S. Improving resolution by image registration. CVGIP Graphical
Models and ImageProcessing 53, pp. 231-239, May 1991.
ISO 12233, Photography - Electronic still picture imaging - Resolution and spatial
frequency responses, 2011.
ITU-R 500-5, Method for the subjective assessment of the quality of television pictures,
International Telecommunication Union, Sep, 1992.
KANG, M. J. E. A. The Digital Image Acquisition of High-Resolution by Enhancement
the Multiple Images. ASPRS - Proceedings - Launching the Geospational Information
Age. Washington. 2000.
KATARTZIS, A. e PETROU, M. Robust Bayesian estimation and normalized convolution
for super-resolution image reconstruction. IEEE CVPR Workshop on Image
Registration and Fusion, 2007.
KEREN, D., PELEG, S. e BRADA, R. Image sequence enhancement using sub-pixel
displacement. Proceedings IEEE Conference on Computer Vision and Pattern
Recognition, pp. 742-746, June 1988.
KIM, S. P. e SU, W. –Y. Subpixel accuracy image registration by spectrum cancellation.
in Proceedings IEEE International Conference on Acoustics, Speech and Signal
Processing, 5, pp. 153-156, April 1993.
KIM, S. P., BOSE, N. K. e VALENZUELA, H. M. Recursive reconstruction of high
resolution image from noisy undersampled multiframes. IEEE Transactions on
Acoustics, Speech, and Signal Processing 38, pp. 1013-1027, June 1990.
KRAUS, Karl. Fundamentals and standard processes. Institute for Photogrammetry Vienna
University of Technology. Volume I, 4ª Edição, 1992
LERTRATTANAPANICH, S. e BOSE, N. K. High resolution image formation from low
resolution frames using delaunay triangulation. IEEE Trans. Image Process., 11(12)
1427–1441, Dec 2002.
LILLESAND, T. M. e KIEFER, R. W. Remote Sensing and Image Interpretation; New
York. John Wiley & Sons. 2ed. 1987.
124
LUCAS, B e KANADE, T. An iterative image registration technique with an application
to sterio vision. In Proc. of DARPA Image Understanding Workshop, 1981, pp. 121–
130.
LUCCHESE, L. e CORTELAZZO, G. M. A noise-robust frequency domain technique for
estimating planar rototranslations. IEEE Transactions on Signal Processing 48, pp.
1769-1786, June 2000.
MANCAS-THILLOU, C. e MIRMEHDI, M. An Introduction to Super-Resolution Text.
Digital Document Processing Major Directions and Recent Advances, Springer-Verlag,
2007.
MARCEL, B., BRIOT, M. e MURRIETA, R. Calcul de translation et rotation par la
transformation de Fourier. Traitement du Signal 14(2), pp. 135-149, 1997.
MATLAB. Creating graphical user interface. Versão 7, The MathWorks, Inc., 2004.
MATLAB. MATLAB programming. Versão 7, The MathWorks, Inc., 2004.
MATLAB. R2009b documentation. Disponível http
//www.mathworks.com/help/index.html
MATLAB. Using MATLAB graphics. Versão 7, The MathWorks, Inc., 2004.
MILANFAR, P., Super-Resolution Imaging, CRC Press Taylor & Francis Group, Florida,
USA, 2010.
MIRMEHDI, M., THILLOU, C. M. An Introduction to Super-Resolution Text. Belgium,
2007.
NEWCOME, L. R. Unmanned Aviation A Brief History of Unmanned Aerial Vehicles.
American Institute of Aeronautics and Astronautic, Inc. Reston, VA. 2004.
NGUYEN, N. e MILANFAR, P. An efficient wavelet-based algorithm for image
superresolution. Proc. Int. Conf. Image Processing, vol. 2, 2000, pp. 351-354
OLIVEIRA, R. A. Concepção, Desenvolvimento e Aplicação do Banco de Imagens
Georreferenciadas no Contexto do Mapeamento Terrestre Móvel. Mestrado,
dissertação. Curso de Pós Graduação em Ciências Cartográfica. Presidente Prudente, p.
74. 2001.
PAPOULIS, A. A new algorithm in spectral analysis and band-limited extrapolation.
IEEE Transactions on Circuits and Systems 22, pp. 735–742, 1975.
PAPOULIS, A. Generalized sampling expansion. IEEE Transactions on Circuits and
Systems 24, pp. 652-654, November 1977.
PARK, S. C., PARK, M. K. e KANG, M. G. Super-resolution image reconstruction A
technical overview. IEEE Signal Processing Magazine 20, pp. 21-36, May 2003.
125
PATTI, A. J., SEZAN, M. I., e TEKALP, A. M. Superresolution video reconstruction with
arbitrary sampling lattices and nonzero aperture time. IEEE Transactions on Image
Processing 6, pp. 1064-1076, August 1997.
PEREIRA, A. R. Pesquisa e desenvolvimento de VANT no CTEX. In Anais do I Simpósio
do DCT sobre Veículo Aéreo Não Tripulado (I SIMVANT). Brasília [s.n.]. julho 2008.
PHAM, T., VAN VLIET, L. e SCHUTTE, K. Robust fusion of irregularly sampled data
using adaptive normalized convolution. EURASIP Journal on Applied Signal
Processing, Vol. 2006, 2006, pp. 1–12.
POMPERMAYER NETO, P. Utilização da videografia aérea na detecção de áreas com
deficiências nutricionais em plantios de eucalipto. 2002. 75f. Dissertação (Mestrado
em Ciências Florestais), Escola Superior de Agronomia Luiz de Queiroz, Universidade de
São Paulo, Piracicaba, 2002.
PRATAP, R., Getting started with MATLAB 7 – A quick introduction for scientists and
engeneers, Oxford University Press, Inc., New York, 2006.
PRATT, W. K. Digital Image Processing. New York John Wiley & Sons, Inc., 3rd
ed., 2001.
PUC. Disponível em www.puc-rio.br [capturada em 23 de janeiro de 2010].
REDDY, B. S. e CHATTERJI, B. N. An fft-based technique for translation, rotation and
scale-invariant image registration. IEEE Transactions on Image Processing 5, pp.
1266-1271, August 1996.
REDWEIK, P. Fotogrametria Aérea. Departamento de Engenharia Geográfica, Geofísica e
Energia. Faculdade de Ciência da Universidade de Lisboa, 2007.
RHEE, S. H. e KANG, M. G. Discrete cosine transform based regularized high-resolution
image reconstruction algorithm. Opt. Eng., vol. 38, no. 8, pp. 1348-1356, Aug. 1999.
RICHARDSON, I., The H.264/AVC Advanced Video Compression Standard, Second
Edition Wiley 2010.
ROHAN. Point Spread Function. Disponível http //www-
rohan.sdsu.edu/doc/matlab/toolbox/images/deblurr9.html [capturado em 14 de junho de
2011].
RUBERT, C., FONSECA L. e VELHO, L. Super-Resolucao de Imagens de Sensores
Remotos Usando a Transformada de Cor YUV para Estimacao das Altas
Frequencias. IV Workshop dos Cursos de Computacao Aplicada. INPE, 2004.
SCHULTZ, R. R., MENG, L. e STEVENSON, R. L. Subpixel motion estimation for super-
resolution image sequence enhancement. Journal of Visual Communication and Image
Representation 9, pp. 38-50, March 1998.
126
SHAH, N. R. e ZAKHOR, A. Resolution enhancement of color video sequences. IEEE
Trans. Image Processing, vol. 8, pp. 879-885, June 1999.
SILVA, I. Curso de Fotogrametria Digital. Deptº de Transportes da Escola de Engenharia
de São Carlos, USP; ExpoGEO; 1999. (cópias de transparências).
TAKEMURA, E. S. Algorítmos para super-resolução de imagens baseados nas filtragens
de wiener e adaptativa usando a transformada wavelet. 2010. Dissertação (Mestrado
em Engenharia Elétrica) – Universidade Federal do Rio de Janeiro, COPPE/UFRJ, 2010.
TANAKA, M. e OKUTOMI, M. A fast MAP-based super-resolution algorithm for
general motion. Electronic Imaging Computational Imaging IV, 6065 1–12, 2006.
TELLES JR., M.A.B.G. Super-resolução de imagens de sensoriamento remoto. 2008.
Doutorado, Tese. Instituto de Geociências, Universidade de Brasília, 2008.
TOM, B. C. e KATSAGGELOS, A. K. Resolution enhancement of monochrome and color
video using motion compensation. IEEE Transactions on Image Processing 10, pp. 278-
287, February 2001.
TSAI, R. Y. e HUANG, T. S. Multiframe image restoration and registration. Advances in
Computer Vision and Image Processing, T. S. Huang, ed., vol. 1, pp. 317-339, JAI Press,
1984.
UR, H. e GROSS, D. Improved resolution from subpixel shifted pictures. CVGIP
Graphical Models and Image Processing, 54(2) 181–186, 1992.
VANDERWALLE, P., KRICHANE, K., ZBINDEN, P. Superresolution graphical user
interface Documentation. Disponível http
//lcav.epfl.ch/reproduceble_research/VanderwalleSV05/SRTechDoc.pdf [capturado em
10 de outubro de 2010].
VANDEWALLE, P., P., SÄUSSTRUNK, S. e VETTERLI, M. A frequency domain
approach to registration of aliased images with application to super-resolution.
Accepted to EURASIP Journal on Applied Signal Processing, Special Issue on Super-
Resolution Imaging, 2005.
VANDEWALLE, P., ZBINDEN, P., SÄUSSTRUNK, S. e VETTERLI, M. Super-resolution
software. 2007. Disponivel http //lcav.epfl.ch/software/superresolution [capturado em 10
novembro 2010].
VIDEO LAN. Video Lan Client. Disponível www.videolan.org [capturado em 7 outubro de
2010].
VIRTUALDUB. VirtualDub. Disponível www.virtualdub.org [capturado em 7 outubro de
2010].
WANG, Z., BOVIK, A. C. A universal image quality index. IEEE Signal Processing
Letters, v. 9, p. 81-84, March 2002.
127
WANG, Z., BOVIK, A. C., SIMONCELLI, E. P. Structural approaches to image quality
assessment. Handbook of Image and Video Processing. 2. ed. San Diego [s.n.], 2005.
WANG, Z., BOVIK, A., SHEIKH, H. R., e SIMONCELLI, E. P. Image quality assessment
From error visibility to structural similarity. IEEE Trans. On Image Processing, Vol.
13, no. 4, 600-612, April 2004.
WANG, Z., LU, L., BOVIK, A. C. Video quality assessment using structural distortion
measurement. In International Conference on Image Processing. [S.1. s.n.], 2002. v.3, p.
65-68.
WANG, Z., SIMONCELLI, E. P., BOVIK, A. C. Multiscale structural similarity for image
quality assessment. In Conference Record of the Thirty-Seventh Asilomar Conference
on Signals, System and Computers. [S.1. s.n.], 2003. v. 2, p. 1398-1402.
WILLETT, R. M., ET AL. Wavelet-based superresolution in astronomy. Proceedings of
the Astronomical Data Analysis Software and Systems (ADASS) XIII, Strasbourg,
France, 2004, pp. 107.
WILLIAMS, D., BURNS, P. D. Low-Frequency MTF Estimation for Digital Imaging
Devices using Slanted Edge Analysis. Anais do SPIE, Volume 5294, 2004. Disponivel
http //www.i3a.org/downloads_iso_tools.html [capturado em 3 maio 2010].
YEN, L. J. On non-uniform sampling of bandwidth limited signals. IRE Transactions on
Circuits Theory, 3(4) 251–257, 1956
ZHANG, L., ZHANG, H., SHEN, H., ZHANG, P. L. A super-resolution reconstruction
algorithm for surveillance images. Disponível http
//www.lmars.whu.edu.cn/973/links/admin/edit/UploadFile/2011223171644341.pdf
[capturado em 03 de junho de 2010].
ZIBETTI, M. V. W. Super-resolução Simultânea para Seqüencias de Imagens. Doutorado,
Tese. Departamento de Engenharia Elétrica. Universidade Federal de Santa Catarina,
2007.
ZITOVA, B. e FLUSSER, J. Image registration methods a survey, Image and Vision
Computing 21 (2003), 977–1000.
ZOMET, A. e PELEG, S. Multi-sensor super resolution. in In Proc. of the IEEE Workshop
on Applications of Computer Vision, pp. 27-31, December 2002.
ZOMET, A., RAV-ACHA, A. e PELEG, S. Robust super resolution. in In Proc. of the Int.
Conf. on Computer Vision and Patern Recognition (CVPR), vol. 1, Dec. 2001, pp. 645-
650.
130
MÉTODOS DE REGISTRO UTILIZADOS NA SRA
(VA) - VANDEWALLE ET AL. (2005)
Este método desenvolvido na EPFL utiliza a propriedade de que um deslocamento no
domínio espacial é traduzido em uma mudança linear na fase da Transformada de Fourier
da imagem. Da mesma forma, uma rotação no domínio espacial é visível na
amplitude da Transformada de Fourier.
Assim, nesse método de registro calcula-se a Transformada de Fourier das imagens e
determinam-se os deslocamentos 1-D em ambas as suas amplitudes e fases. Uma
as vantagens deste método é que ele descarta as componentes de alta frequência onde possa
ter ocorrido o aliasing, a fim de ser mais robusto.
(MA) - MARCEL ET AL. (1997)
O método é similar ao proposto por VANDEWALLE ET AL. (2005), utiliza
análises no domínio da frequência a fim de determinar o deslocamento e a rotação.
(LU) - LUCCHESE ET AL. (2000)
Desenvolveu um método de estimativa da rotação baseado na seguinte propriedade a
magnitude da Transformada de Fourier de uma imagem e a versão espelho da magnitude da
imagem rotacionada possue um par de linhas ortogonais “zero-crossing”. O ângulo que estas
linhas fazem com os eixos é igual à metade do ângulo de rotação entre duas imagens.
Os deslocamentos horizontal e vertical são estimados a partir de métodos de
correlação de fase.
(KE) - KEREN ET AL (1988)
O algoritmo de estimativa de movimento proposto por KEREN ET AL. (1988) utiliza
diferentes versões de subamostragem das imagens analisadas a fim de alcançar seu
objetivo. Primeiramente a imagem é subamostrada de um fator igual a 4 (4x) e essa versão é
utilizada para realizar uma estimativa do deslocamento e rotação utilizando série de Taylor. O
mesmo é feito com a imagem subamostragem de um fator igual a 2 (2x), mas após correção
para os deslocamentos e rotações estimado anteriormente. Finalmente, o mesmo é feito com
as imagens de alta resolução para o refinamento ainda maior das estimativas.
131
MÉTODO DE REGISTRO UTILIZADOS NA SRT
(CA) - CAPEL (2001)
O método de registro utilizado por GEVREKCI & GUNTURK (2006) na SRT foi
descrito por CAPEL (2001), consiste basicamente do cálculo da matriz de homografia 2D
entre duas imagem através das seguintes etapas
1. Identificação de pontos característicos cálculo dos pontos de interesse (pontos
característicos) em cada imagem com acurácia sub-pixel, como por exemplo, detecção dos
cantos proposta por HARRIS & STEPHENS (1988).
2. Correspondência preliminar: cálculo da correspondência de um conjunto inicial de
pontos de interesse baseado na proximidade e similaridade com base na intensidade da
vizinhança (nornalized cross correlation).
3. Estimação robusta: através do algoritmo RANSAC (FISCHLER & BOLLES, 1981) repetir
o procedimento para N amostras
(a) Selecionar uma amostra aleatória de quatro correspondências e calcular o homografia H;
(b) Calcular um erro de distância geométrica de imagem para cada suposta correspondência;
(c) Calcular o número de inliers consistente com H pelo número de correspondências para o
qual o erro a distância é inferior a um limiar. Escolher o H com o maior número de inliers.
4. Estimativa ideal: H é novamente estimada a partir de todas
as correspondências classificadas como inliers, maximizando a função de
verossimilhança usando um método de otimização numérica.
5. Correspondência guiada: correspondências depontos adicionais são agora determinadas
usando a matriz H estimada para definir uma região de busca. As duas últimas etapas podem
ser iteradas até que o número de correspondências seja estável (atinjam o critério de
convergência).
132
FIG. 7.1: (acima) cálculo da matriz de homografia que relaciona os
pontos. (abaixo) estabelecimento da correspondência entre as imagens (CAPEL, 2001).
133
MÉTODO DE REGISTRO UTILIZADOS NA MDSP
(FO) - FLUXO ÓPTICO POR DIRK ROBINSON (FARSIU, 2004)
Esse método se baseia nos campos de fluxo geral (sem restrições) que não costumam ser
descritos por qualquer modelo paramétrico global. Diferentes modelos locais têm sido usados
para facilitar o processo de estimação, incluindo (a) fluxo constante dentro de uma janela
local ou (b) fluxo contínuo. O primeiro facilita a estimativa direta local, enquanto que
o último modelo requer técnicas iterativas de relaxação, também existem os autores que
combinam estes dois tipos de modelos locais. O modelo local escolhido por ROBINSON foi o
fluxo constante dentro de uma janela de pixels 5x5 em cada nível da pirâmide. Este é o
modelo Sarne como o usado por LUCAS & KANADE (1981) que na MDSP foi incorporado
como um modelo local.
135
MÉTODOS DE RECONSTRUÇÃO UTILIZADOS NA SRA
(IBP) - ITERATIVE BACK PROJECTION (IRANI & PELEG, 1991)
Segundo ZIBETTI (2007) a IBP é uma técnica iterativa criada a partir de modificações
das técnicas de Back Projection utilizadas em tomografia computadorizada. Estas técnicas
também estão entre as mais antigas aplicadas na área de super-resolução. O IBP utiliza um
procedimento iterativo de minimização do erro entre dados e a saída do modelo teórico,
segundo:
∑ (
) (7.1)
sendo que n é a iteração corrente e é operador de Back Projection.
Os métodos IBP são bastante similares aos métodos iterativos para solução de mínimos
quadrados, como steepest descent, Jacobi e Gauss-Seidel. Uma das grandes vantagens desses
métodos é a velocidade de convergência. Entretanto, para que se obtenha uma grande
velocidade de convergência, o operador de back projection deve ser escolhido para tal.
FIG. 7.2: Um exemplo do método IBP (PARK ET AL., 2003).
Devido ao problema de super-resolução ser mal condicionado, o operador de back
projection deve ser muito bem especificado; caso contrário, a solução pode divergir ou será
dependente da estimativa inicial. Isso ocorre porque esses métodos nem sempre apresentam
136
uma formulação adequada para a função custo. Sem isso não se pode garantir unicidade e
estabilidade da solução. Outro problema é que se está restrito a uma mesma ferramenta
iterativa para encontrar a solução e não há condições de inserir facilmente informações a
priori sobre a solução. Devido a essas limitações, esses métodos foram desconsiderados para
desenvolvimento neste trabalho.
(IBP_R) - ITERATIVE BACK PROJECTION ROBUSTO (ZOMET ET AL., 2001)
Um método de SR robusto foi proposto tendo por base o conceito do método IBP.
[∑ ‖ ‖
] (7.2)
Obtém-se a robustez modificando o gradiente da noma L2 da função custo (7.2).
∑ ∑
( ) ∑
(7.3)
em que é o gradiente resultante do quadro k e representa o vetor residual. Eles
substituíram (7.3) com a seguinte aproximação :
(7.4)
onde MED, onde é um operador “pixelwise median”. Em seguida, uma minimização
através do método “steepest descent” foi utilizada para calcular onde é o tamanho do
passo na direção do gradiente.
(7.5)
Observa-se que para certos cenários de imagens, o gradiente aproximado (7.4) é zero em
todas as iterações, o que significa que a HR na enésima iteração ( ) é o mesmo quadro da
estimativa inicial, então o método falha. Para apreciar este fato, vamos começar com uma
caixa quadrada em que efeito de desfoque (borramento) é insignificante (ou seja , é uma
matriz identidade, resultando em =
).
137
FIG. 7.3: Relacionamento entre a matriz de reamostragem DT e a matriz de
subamostragem D (FARSIU ET AL., 2004c).
Observando a FIG. 7.3 acima constatamos que apenas um dos elementos na em
um valor diferente de zero. Além disso, vale lembrar que apenas registra vetores
em
relação ao movimento relativo estimado sem alterar seu valor.
De acordo com (7.4), (i) (o iésimo elemento do vetor gradiente) é igual a
MED{ ( )}
. Como N-1 elementos em { ( )}
têm valor zero, sua mediana também
será zero. Portanto, cada elemento vetor gradiente aproximado será zero.Mesmo para um caso
mais geral em qual o efeito de desfoque matriz não é desprezível ( é uma matriz forma de
m x n desfoque kernel), a mesma abordagem pode ser empregada para mostrar que a menos
que (m x n ˃ ), o gradiente permanece zero para todas as iterações.
A condição de (m x n ˃ ) também é válido para os casos sobre-determinados nos
quais a distribuição de vetores de movimento é uniforme (nos quais o número de medidas de
imagens LR disponíveis para cada pixel na grade de RH é igual). Portanto, esta condição não
depende do número de quadros LR disponíveis. Em particular, considerar o borramento como
uma matriz identidade, onde a adição de qualquer novo quadro é equivalente à adição de
um novo vetor gradiente com ( ) vezes mais elementos zero (resultante da
sobreamostragem) do que elementos diferentes de zero para a pilha de vetores gradiente.
Entretanto, se:
( ) { ( )}
(7.6)
mesmo após a adição de quadros LR uniformemente espalhados (i)
=MED{ ( )}
ainda será zero (como -1 valores de elementos recém adicionados são
138
zeros). Segundo FARSIU ET AL. (2004) a generalização dessa propriedade para no caso de
número arbitrário de quadros LR com distribuição de movimento uniforme é simples.
Esta limitação pode ser superada através da modificação do operador MDE em (7.6). Este
operador mediana modificado não consideraria aqueles elementos ( ) que são o resultado
do preenchimento de zeros. É interessante notar que essa hipótese irá resultar na estimativa de
imagem HR como a mediana dos quadros LR registrados após o preenchimento com zeros,
que é a interpretação exata de usar minimização da norma L1.
(NC) - NORMALIZED CONVOLUTION (PHAM ET AL, 2006) (IMAGE FUSION, 2008)
O método NC é uma técnica para reconstrução do sinal local, utilizando um mapa de
certeza que descreve a confiança nos dados que constituem o sinal desconhecido. Dado uma
imagem LR amostrada irregularmente ZD (x), sua reconstrução (x) (imagem SR) é obtida
através de projeções sobre um conjunto de funções de base, usando ponderação local dos
mínimos quadrados em vizinhanças quadradas de v pixels. As funções de base mais comuns
são polinômiais {1, X, Y, X2, Y
2, XY,. . .}, Onde 1 = [1, 1,. . . , 1]
T (v entradas), X = [x1,
x2,. . . , xv] t, x
2=[
, ,...,
] T, e assim por diante. Estes polinômios são construídos a partir
de coordenadas locais de amostras com v entradas. Dado um conjunto de polinômios m,
dentro de uma vizinhança centrada em x0 = [x0, y0] T
, o valor de intensidade na posição
x=[x0 + x’, y0 + y’]T é aproximada por uma expansão polinomial:
( ) ( ) ( ) ( )
( ) ( )
(7.7)
onde [x’, y’] T
são as coordenadas locais com relação ao centro x0 da referida vizinhança. u
(x0) = [u0 (x0), u1 (x0),. . . , um (x0)] T
são os coeficientes de projeção sobre o conjunto de
funções de base polinomiais m em x0. A identificação dos coeficientes u é realizada
utilizando uma abordagem de mínimos quadrados ponderados. O objetivo é a minimização
do seguinte erro de aproximação:
( ) ∑( ( ) ( )) ( ) ( ) (7.8)
onde 0 ≤ c(x )≤ 1 é o sinal “certeza” que especifica a confiabilidade dos dados de sinal
em cada ponto x. A prática sugere que os dados que faltam na amostragem irregular da
imagem tem uma “certeza” igual a zero, enquanto as amostras observadas têm uma “certeza”
igual a um. Por outro lado, α(x - x0) é a chamada função de aplicabilidade localiza a ajuste
polinomial. Uma forma comumente usada dessa função é uma gaussiana isotrópica de Kernel,
139
cujo tamanho depende da escala da análise. Tanto a função de aplicabilidade quanto o sinal
“certeza” controlam o impacto de uma amostra em particular para o ajuste polinomial local.
A solução de mínimos quadrados para os coeficientes polinomiais u é então dada por:
( ) (7.9)
onde ZDν é um vetor ν × 1 representando a imagem amostrados na vizinhança, B = [b1 b2. . .
bm] é uma matriz ν × m das funções de base m amostrados em coordenadas locais de ν
amostras de entrada, e W = diag (c) · diag (α) é uma matriz diagonal ν × v construído a partir
do produto elemento por elemento do sinal “certeza” c e da aplicabilidade amostrada α (cada
um deles representado por um vetor ν × 1). Tendo identificado os coeficientes de u, a imagem
pode ser reconstruída localmente usando a aproximação em (7.7). Uma propriedade
interessante desta formulação é que, para polinômios de ordem zero, NC pode ser
implementada de forma muito eficiente utilizando operações de convolução simples.
Neste caso, os mínimos quadrados na solução (7.9) dá uma imagem aproximada igual a:
( ) ( ) ( ( ) ( ))
( ) ( ) (7.10)
com * denotando o operador de convolução. No entanto, apesar da sua simplicidade, NC de
ordem zero com uma função de base constante não é capaz de modelar pontos característicos
de imagens, como bordas ou cumes. Em tais casos, funções de base polinomial de ordem
superior são obrigatórias.
(POCS) - PROJEÇÃO NO CONJUNTO CONVEXO (PAPOULIS, 1975), (GERCHBERG,
1974) E (TELLES, 2008).
O método POCS é um dos mais utilizados em super-resolução e foi um dos primeiros a
apresentar modelos de aquisição espaço-variantes e informações a priori na super-resolução.
Esse método trabalha no domínio da frequência, os pixels são posicionados em uma grade HR
e a imagem passa por um filtro passa-baixa que se aproxima da PSF da câmara.
A idéia dos algoritmos POCS é utilizar todos os modelos e informações a priori
disponíveis para compor uma série de conjuntos convexos (ZIBETTI, 2007). Assim, em um
procedimento iterativo, o resultado da iteração corrente é projetado em cada um dos
conjuntos, segundo:
(7.11)
140
sendo que Pm é o operador de projeção para o m-ésimo conjunto convexo, assumindo que são
usados q + 1 conjuntos convexos. A solução desse problema está na intersecção dos conjuntos
como ilustra a FIG 7.6. Se os conjuntos forem adequadamente especificados haverá, pelo
menos, uma solução para o problema.
O método POCS possui como desvantagem a dificuldade na determinação dos operadores
de projeção, os quais podem requerer o cálculo de matrizes inversas ou, em alguns casos, a
execução de procedimentos iterativos (TELLES, 2008). Veja um exemplo da projeção no
conjunto formado pelos dados capturados. Com base na Eq. XX (modelo matemático da SR)
o conjunto é expresso como:
‖ ‖ (7.12)
o respectivo operador de projeção é dado por:
(
) ( )
(7.13)
Na qual é a pseudo-inversa de
, I é a matriz identidade é:
‖ ‖ (7.14)
FIG. 7.4: Projeção em conjuntos convexos (TELLES, 2008).
141
MÉTODOS DE RECONSTRUÇÃO UTILIZADOS NA SRT
(MAP_SD) - MAP COM OTIMIZAÇÃO STEEPEST DESCENT (GEVREKCI &
GUNTURK, 2005)
Denotando Zi como sendo as observações (LR), q a imagem HR, Vi como o termo aditivo
de ruído (devido ao ruído) e Wi como o erro de quantização, o processo de aquisição global
pode ser formulado como:
( ) (7.15)
onde f (·) é a função não-linear de resposta da câmara, αi é o fator de ganho, βi é o fator
de compensação, e Hi é o mapeamento linear que incorpora o movimento, PSF, vinhetas, e
reamostragem.
Sendo g (·) ≡ f-1
(·) e usando uma expansão em série de Taylor equação, (7.15) pode ser
escrita como:
( ) ( ) (7.16)
Com esta linearização, podemos facilmente aplicar técnicas padrões de estimativa linear.
Considerando que Vi e Wi possuem médias zero e ruído Gaussiano com variâncias e
respectivamente. Pode-se demonstrar que o ruído total, Vi + g’ (Zi)
Wi, também possui
ruído gaussiano com média zero e variância:
( )
(7.17)
Uma implicação crítica deste resultado é que a variância total do ruído é uma função
de resposta da câmara e mede a intensidade de pixel Zi. A Eq. 7.17 indica que a variância total
do ruído é maior para os valores dos pixels saturados. Denotando K como a matriz de
covariância do ruído total, e usando uma “prioridade” Gaussiana para q com imagem média
igual a μq e matriz de covariância , o estimador de máximo a posteriori (MAP) de q
minimiza a função de custo a seguir:
( )
∑ (
( )
)
( ( )
)
( )
( ) (7.18)
Uma forma de obter a estimativa MAP na Eq. 7.18 é a técnica steepest descent
(MAP_SD). A estimativa atual q é atualizada na direção do gradiente negativo de E ( ):
( ) (7.19)
142
onde α é o tamanho do passo, e E (q) pode ser encontrada usando:
( ) ∑
( ( )
) ( ) (7.20)
O tamanho do passo k na Eq. 7.19 pode ser corrigido ou atualizado de forma adaptativa
durante as iterações. A Hessiana de E (q) pode ser usado para mudar k (nesse método a
hessiana foi utilizada para determinar k em cada iteração).
(MAP_GC) - MAP COM OTIMIZAÇÃO GRADIENT CONJUGATED (GEVREKCI &
GUNTURK, 2005)
Com base no que foi apresentado no método MAP_SD utiliza-se a técnica do gradiente
conjugado (MAP_GC) para resolver (7.18), q pode ser estimado iterativamente atualizando
uma estimativa inicial da direção do gradiente negativo de E(q). Na k-ésima iteração, a
estimativa é:
( ) ( ) ( ( )) (7.21)
onde α é o tamanho do passo, e pode ser encontrado como:
( ) ∑ (
( )
) ( ) (7.22)
O tamanho do passo α em (7.21) pode ser corrigido ou atualizado de forma adaptativa
durante as iterações. A Hessiana de E(q) pode ser usado mudando α para:
( ( ( )))
( ( ( )))
( ( ( ))) ( ( ( )))
(7.23)
onde H é a Hessiana da matriz dada por:
∑ (7.24)
(MAP_TV) - MAP COM REGULARIZAÇÃO TOTAL VARIATION (GEVREKCI &
GUNTURK, 2005) (FARSIU ET AL., 2004)
Neste método de reconstrução o termo de regularização para remoção de ruído e
borramento utilizado por (GEVREKCI & GUNTURK, 2005) foi o Total Variation (TV), o
mesmo utilizado por (FARSIU ET AL., 2004) na construção do método SHIFT-AND-ADD.
Maiores detalhes sobre o termo de regularização estão detalhados na descrição do método
SHIFT-AND-ADD (SAD).
143
MÉTODOS DE RECONSTRUÇÃO UTILIZADOS NA MDSP
(SAD) – SHIFT-AND-ADD ou MAP-FAST-ROBUST (FARSIU ET AL., 2004)
Imagem em tons de cinza
Segundo FARSIU ET AL. (2006), a norma L1 é usada para definir os termos
equivalentes ao erro resultantes na reconstrução robusta da imagem HR na presença de
incertezas, tais como erro de movimento. Considerando o modelo geral da SR apresentado no
Capítulo 2, os termos de pena de fidelidade dos dados (imagem em tons de cinza) são
representados como:
( ) ∑ ‖ ( ) ( ) ( ) ( )‖
(7.25)
Nota-se que a minimização da norma L1 é a estimativa máxima verossimilhança (ML)
dos dados na presença do ruído Laplaciano. FARSIL ET AL. (2003) realizou uma análise
estatística e experimentos que justificam a utilização da PDF Laplaciano em vez da PDF
Gaussiana.
A regularização pode ajudar o algoritmo na remoção de artefatos e a melhorar a taxa de
convergência. Dos muitos termos de regularização existentes se faz necessário um que resulte
em imagens HR com bordas bem definidas e de fácil implementação.
Nesse sentido FARSIL ET AL. (2004) utilizou o critério “Total Variation” e o
relacionou com a técnica da filtragem bilateral para apresentar um termo de regularização
robusto chamado de Variação Total Bilateral (BTV), que possui baixo custo computacional e
preserva as bordas. A função de regularização BTV :
( ) ∑ | | | |‖
‖
(7.26)
Onde
são os operadores correspondentes ao deslocamento da imagem
representada por X por l pixels na direção horizontal e por m pixels na direção vertical,
respectivamente. Esta função custo calcula a derivada aravés das múltiplas escalas de
resolução (como determinado pelo parâmetro “P"). O peso escalar α, 0 <α <1, é aplicado para
dar um efeito de decaimento espacial para a soma dos termos de regularização.
Combinando as idéias apresentadas até agora, propomos uma solução robusta do
problema SR da seguinte forma:
144
⌊∑ ‖ ( ) ( ) ( ) ( )‖ ∑ | | | |‖
‖
⌋ (7.27)
Utilizando o steepest descent para encontrar a solução para este problema de
minimização obtém-se:
{∑ ( ) ( ) ( ) ( ( ) ( ) ( ) ( ))
∑ | | | |[
] (
)
}
(7.28)
Onde β é um escalar que define o tamanho do passo na direção do gradiente.
são as transpostas das matrizes
respectivamente, e têm um efeito de deslocamento na
direção oposta. As matrizes W, B, D, S e suas transpostas podem ser exatamente interpretadas
como operadores diretos na imagem, tais como deslocamento, borramento e decimação
(subamostragem).
Método SAD e suas variantes aplicado à imagens em tons de cinza e disponíveis na
MDSP
1. SAD: utiliza o algoritmo proposto por ELAD & HEL-OR (2001) conhecido também
como método MAP-Fast-Robust apresentado por (FARSIU ET AL., 2006). Utiliza-se nesse
método uma interpolação linear além das sub-rotinas de deconvolução do MATLAB Wiener,
Lucy e Blind Lucy;
2. Bilateral SAD:acrescenta ao método anterior à filtragem bilateral (FARSIU ET AL.,
2003) para a detecção/remoção de outliers;
3. SAD com remoção de borramento iterativa: nesse método pode-se optar por se utilizar
a regularização Tikonov (L2) ou Bilateral TV (L1) essas duas opções também são válidas
para os termos de penalidade para os termos de fidelidade dos dados. Utiliza-se nesse método
a deconvolução de Kernel;
4. Bilateral SAD com remoção de borramento iterativa: adiciona a filtragem bilateral
ao método anterior;
145
5. Mediana S&A: similar ao método S&A acrescentando o pré-condicionamento da
etapa de fusão S&A através do operador mediana;
6. Bilateral S&A com remoção de borramento iterativa: similar ao método anterior
acrescentando a filtragem bilateral;
7. Norma 2 iterativa: MAP com regularização Tikhonov e norma L2 usada como termo
de fidelidade dos dados;
8. Norma 1 iterativa : MAP com regularização BTV;
9. Norma 2 com regularização L1: utiliza a norma L2 como termo de penalidade dos
dados e utiliza as vantagens da BTV;
10. IBP Robusto (gradiente médio) com regularização L2: método IBP Robusto
acrescido da regularização Tikhonov;
11. IBP Robusto (gradiente médio) com regularização L1: método IBP Robusto
acrescida da regularização BTV;
12. Interpolação com spline cúbica: consiste basicamente em interpolar o
primeiro quadro da sequência com o método da spline cúbica.
Imagem colorida
FARSIU ET AL. (2006) aborda o problema da SR para imagens coloridas uma vez que a
solução mais comum envolve a aplicação de algoritmos SR monocromáticos a cada um dos
canais de cor independentemente. Outra abordagem, proposta por RUBERT ET AL. (2004), é
a transferência do problema a um espaço de cor diferente onde camadas de crominância são
separadas da de luminância, e onde SR é aplicada somente ao canal de luminância.
A imagem colorida é representada pela combinação de três diferentes imagens
monocromáticas. Idealmente, cada pixel reflete três medidas de dados, um para cada faixa de
cor. Na prática, para reduzir o custo de produção muitas câmaras digitais têm apenas uma
medição de cor (vermelho, verde ou azul) por pixel. A matriz de detecção é uma grade de
CCDs que se tornam sensiveis a uma cor, colocando um filtro de cores chamado Color Filter
Array (CFA) em frente ao CCD. Os valores das bandas que faltam em cada pixel são muitas
vezes sintetizados utilizando alguma forma de interpolação de valores de pixels vizinhos. Este
processo é conhecido como demosaicagem (color demosaicing).
Muitos métodos de demosaicagem de um único quadro já foram propostos, como o de
ZOMET & PELEG (2002), mas até a presente data nenhum deles se mostrou diretamente
146
aplicável ao problema da demosaicagem colorida para múltiplos quadros, devido a diferença
fundamental entre suas geometrias.
A FIG 7.5 ilustra o padrão das medições do sensor na grade HR, em tal situação, o
padrão de amostragem é bastante arbitrário, dependendo do movimento relativo das imagens
LR. Este necessita de um algoritmo de demosaicagem diferente dos projetados para o padrão
Bayer original. Nesta figura observa-se a fusão de 7 imagens LR no padrão Bayer com
movimento relativo translacional resultando em uma imagem HR que não segue padrão
Bayer. O símbolo “?” representa os valores de pixel de HR que foram indeterminados após a
fusão, como resultado do número insuficiente de quadros LR.
A SR colorida é mais complexa do que a SR de imagens monocromáticas e não deve ser
resolvida através da aplicação de métodos monocromáticos, aplicados de forma independente
em cada canal de cor, por três razões
1) A subamostragem adicional de cada canal de cor, devido ao CFA torna a reconstrução
independente de cada canal muito mais difícil. Em muitas situações, as informações contidas
em um único canal são insuficientes para resolver um problema tão mal-condicionado,
comprometendo dessa forma o desempenho do método.
2) Há correlações naturais entre os canais de cor que deve ser aproveitados durante o
processo de reconstrução;
3) O sistema visual humano é muito sensível a certos artefatos em imagens coloridas que
só podem ser evitados através do processamento de todos os canais juntos. A aplicação de um
algoritmo simples de demosaicagem só amplificar esses artefatos e levar a uma queda no
desempenho. Em vez disso, todos os três canais devem ser estimados simultaneamente para
maximizar o desempenho geral da SR.
4) A subamostragem adicional de cada canal de cor, devido ao CFA torna a reconstrução
independente de cada canal muito mais difícil. Em muitas situações, as informações contidas
em um único canal são insuficientes para resolver um problema tão mal-condicionado,
comprometendo dessa forma o desempenho do método.
5) Há correlações naturais entre os canais de cor que deve ser aproveitados durante o
processo de reconstrução;
6) O sistema visual humano é muito sensível a certos artefatos em imagens coloridas que
só podem ser evitados através do processamento de todos os canais juntos. A aplicação de um
algoritmo simples de demosaicagem só amplificar esses artefatos e levar a uma queda no
desempenho. Em vez disso, todos os três canais devem ser estimados simultaneamente para
maximizar o desempenho geral da SR.
147
FIG. 7.5: Fusão de imagens no padrão Bayer (adaptado de FARSIU ET AL., 2006d).
Nesse caso da SR para imagens coloridas, as funções de penalidade adicional de
regularização são obrigatórias. Consideremos os canais da imagem HR colorida como sendo,
XG, XB, e XR. A função de custo final é composta dos seguintes termos
1) Fidelidade dos dados: os termos de penalidade da fidelidade dos dados utilizam a
norma L1 para adicionar robustez:
( ) ∑ ∑ ‖ ( ) ( ) ( ) ( )‖ (7.29)
onde Yi (t) é a componente vermelha, verde ou azul de cor (filtrada) do quadro LR, e Di
representa o efeito da subamostragem do CCD e do CFA nas bandas do vermelho, verde ou
azul. Assim, a primeira fase do algoritmo é a aplicação do operador mediana SHIFT-AND-
ADD (SAD) detalhado em FARSIU ET AL. (2004), para produzir uma imagem HR borrada
. Neste caso o operador mediana é aplicado a cada um dos canais de cor de forma
independente.
2) Regularização da luminância: utiliza-se um termo de penalidade para regularizar a
componente luminância da imagem HR imagem em vez de cada canal de cor separadamente.
Isso ocorre porque o olho humano é mais sensível aos detalhes da componente luminância de
uma imagem do que os detalhes da componente crominância. Aplica-se então a regularização
BTV para a componente luminância para a preservação das bordas e o aumento da robustez.
Os termos de regularização da luminância são:
( ) ∑ | | | |‖
‖ (7.30)
148
onde a imagem de luminância pode ser calculada como a soma ponderada das componentes
RGB XL =0.299XR + 0.597XG + 0.114 XB. (PRATT, 2001)
3) Regularização da crominância: este termo de penalidade garante a suavidade na
componente crominância da imagem HR. Isso remove muitos dos artefatos de cor ofensivos
ao olho humano. Mais uma vez, os dois canais de crominância e XC1 XC2 podem ser
calculados como a combinação ponderada das imagens RGB utilizando de acordo com
PRATT (2001) os pesos (-0,169, -0.331, 0.5) para C1 e (0,5, -0,419, -0,081) para C2. Como o
olho humano é menos sensível à resolução do canal de crominância, ela pode ser suavizada de
forma mais ostensiva.
( ) ‖ ‖ ‖ ‖
(7.31)
onde é a matriz realização de um operador passa-alta, como por exemplo o filtro
Laplaciano.
4) Regularização da orientação: Este termo penaliza a não homogeneidade de orientação
das bordas em todos os canais de cor. Apesar de bandas diferentes poderem apresentar
magnitudes do gradiente maior ou menor em uma determinada borda, é razoável supor que
todos os canais de cores possuam a mesma orientação de borda. Ou seja, se uma borda
vertical (ou horizontal) aparece na faixa vermelha, é provável que uma borda com orientação
semelhante apareça nas faixas verde e azul. Minimizar a norma do produto vetorial de
quaisquer dois pixels de cor adjacentes obriga diferentes bandas a terem orientação de borda
similar. Propõe-se como termo de penalidade de orientação a seguinte função custo
diferenciável:
( ) ∑ [‖
‖ ‖
‖
‖
‖ ] (7.32)
onde é o operador de multiplicação elemento por elemento. A função custo total é a soma
das funções de custo descritas nas subseções anteriores:
[ ( ) ( ) ( ) ( )] (7.33)
149
7.3 APÊNDICE 3: CÓDIGO DE CONVERSÃO AVI-TIFF
Este APÊNDICE apresenta o código implementado no software MATLAB para converter
um vídeo em AVI em uma sequência de imagens TIFF que possibilite entrada de dados na
SRA e na SRT.
xyloObj = mmreader('nomedovideo.avi'); %carregamento video em avi
nFrames = xyloObj.NumberOfFrames; vidHeight = xyloObj.Height; vidWidth = xyloObj.Width;
% pré-alocando a estrutura do video. mov(1 nFrames) = ... struct('cdata', zeros(vidHeight, vidWidth, 3, 'uint8'),... 'colormap', []); sequencetif=struct('cdata', zeros(vidHeight, vidWidth, 3,
'uint8'),... 'colormap', []);
% leitura de um quadro de cada vez. for k = 1 nFrames mov(k).cdata = read(xyloObj, k); end
% o tamanho da figura se baseia na largura e na altura do vídeo. hf = figure; set(hf, 'position', [150 150 vidWidth vidHeight])
% reproduz o video de acordo com a taxa de quadros.
movie(hf, mov, 1, xyloObj.FrameRate);
%carregar sequencetif
for k = 1 nFrames sequencetif(k).cdata = tifconv(mov(k).cdata);
end
for imgidx = 1 length(sequencetif) img = sequencetif(imgidx).cdata; fname=sprintf('imagem%d.tiff',imgidx);
%nomeia as imagens que estão sendo criadas. imwrite(img,fname,'TIFF');
end