of 31 /31
Introdução ao Processamento Digital de Imagens José Eustáquio Rangel de Queiroz 1 , Herman Martins Gomes 1 Resumo: O objetivo desse tutorial é fornecer uma visão introdutória para a área de Processamento Digital de Imagens (PDI) de modo que possa servir como base de estudo para iniciantes na área ou como referência para estudos mais avançados. O tutorial está dividido em duas partes: uma parte principal contemplando os fundamentos e uma parte complementar descrevendo aplicações. A parte de fundamentos apresenta o processo de formação de imagens, incluindo uma sucinta apresentação da estrutura do olho humano e sua analogia com uma câmera digital, bem como comentários sobre um sistema típico de PDI. O núcleo do tutorial aborda as principais operações sobre imagens, tais como, operações sobre cores, filtragem espacial, segmentação, transformações em escala e resolução, dentre outras. Na parte de aplicações, são apresentados exemplos de aplicações envolvendo segmentação de imagens, reconhecimento de palavras manuscritas e recuperação de imagens por conteúdo. Palavras-chave: processamento digital de imagens, operações sobre imagens, aplicações de processamento de imagens Abstract: The goal of this tutorial is to provide an introductory view of the Digital Image Processing (IP) area that can be used as a study guide for beginners or as basic reference for more advanced studies. The tutorial is divided into two parts: the main part is about the IP fundamentals and a complementary part discusses some application examples. The main part presents the image formation process, including a succinct description of the human eye structure and its relation to a digital camera, as well as comments about a typical IP system. The core of the tutorial is about image operations, such as color operations, spatial filtering, segmentation, scale and resolution transforms, among others. The applications part contains a number of examples, involving image segmentation, handwritten word recognition and content-based image retrieval. Keywords: digital image processing, image operations, image processing applications 1 Departamento de Sistemas e Computação, UFCG, Caixa Postal 10106 {rangel,hmg}@dsc.ufcg.edu.br.br

Rita Tutorial PDI

Embed Size (px)

DESCRIPTION

tutorial pdi

Text of Rita Tutorial PDI

  • Introduo ao Processamento Digital de Imagens

    Jos Eustquio Rangel de Queiroz 1, Herman Martins Gomes 1

    Resumo: O objetivo desse tutorial fornecer uma viso introdutria para a rea de Processamento Digital de Imagens (PDI) de modo que possa servir como base de estudo para iniciantes na rea ou como referncia para estudos mais avanados. O tutorial est dividido em duas partes: uma parte principal contemplando os fundamentos e uma parte complementar descrevendo aplicaes. A parte de fundamentos apresenta o processo de formao de imagens, incluindo uma sucinta apresentao da estrutura do olho humano e sua analogia com uma cmera digital, bem como comentrios sobre um sistema tpico de PDI. O ncleo do tutorial aborda as principais operaes sobre imagens, tais como, operaes sobre cores, filtragem espacial, segmentao, transformaes em escala e resoluo, dentre outras. Na parte de aplicaes, so apresentados exemplos de aplicaes envolvendo segmentao de imagens, reconhecimento de palavras manuscritas e recuperao de imagens por contedo.

    Palavras-chave: processamento digital de imagens, operaes sobre imagens, aplicaes de processamento de imagens

    Abstract: The goal of this tutorial is to provide an introductory view of the Digital Image Processing (IP) area that can be used as a study guide for beginners or as basic reference for more advanced studies. The tutorial is divided into two parts: the main part is about the IP fundamentals and a complementary part discusses some application examples. The main part presents the image formation process, including a succinct description of the human eye structure and its relation to a digital camera, as well as comments about a typical IP system. The core of the tutorial is about image operations, such as color operations, spatial filtering, segmentation, scale and resolution transforms, among others. The applications part contains a number of examples, involving image segmentation, handwritten word recognition and content-based image retrieval.

    Keywords: digital image processing, image operations, image processing applications

    1 Departamento de Sistemas e Computao, UFCG, Caixa Postal 10106 {rangel,hmg}@dsc.ufcg.edu.br.br

  • Revista RITA: instrues para preparao de documentos em Word

    2 RITA Volume VIII Nmero 1 2001

    1 Consideraes Iniciais

    1.1 Entendendo o Processamento Digital de Imagens

    O Processamento Digital de Imagens (PDI) no uma tarefa simples, na realidade envolve um conjunto de tarefas interconectadas (vide Fig. 1). Tudo se inicia com a captura de uma imagem, a qual, normalmente, corresponde iluminao que refletida na superfcie dos objetos, realizada atravs e um sistema de aquisio. Aps a captura por um processo de digitalizao, uma imagem precisa ser representada de forma apropriada para tratamento computacional. Imagens podem ser representadas em duas ou mais dimenses. O primeiro passo efetivo de processamento comumente conhecido como pr-processamento [1][2][3], o qual envolve passos como a filtragem de rudos introduzidos pelos sensores e a correo de distores geomtricas causadas pelo sensor.

    Fig. 1 - Uma hierarquia de tarefas de processamento de imagens (adaptada de [1]).

    Uma cadeia maior de processos necessria para a anlise e identificao de objetos. Primeiramente, caractersticas ou atributos das imagens precisam ser extrados, tais como as

    Visualizao Quantitativa

    Formao de Imagem 2-D

    Formao de Imagem 3-D

    Objetos 2D, 3D

    Digitalizao

    Imagens 2D, 3D Iluminao

    Imagem Digital

    Calibrao Radiomtrica e

    Geomtrica

    Regularizao, Restaurao e

    Modelagem

    Deteco de Bordas

    Extrao de Estruturas

    Simples

    Determinao do Movimento

    Descrio de Texturas

    Imagens de Caractersticas

    Integrao, Filtragem de

    Rudos

    Segmentao de Regies

    Anlise de Formas

    Morfologia Matemtica

    Classificao de Pixels ou

    Objetos

    Descries de Objetos

    Imagens de Regies

    Classes de Objetos

  • Revista RITA: instrues para preparao de documentos em Word

    RITA Volume VIII Nmero 1 2001 3

    bordas, texturas e vizinhanas. Outra caracterstica importante o movimento. Em seguida, objetos precisam ser separados do plano de fundo (background), o que significa que necessrio identificar, atravs de um processo de segmentao, caractersticas constantes e descontinuidades [2]. Esta tarefa pode ser simples, se os objetos so facilmente destacados da imagem de fundo, mas normalmente este no o caso, sendo necessrias tcnicas mais sofisticadas como regularizao e modelagem. Essas tcnicas usam vrias estratgias de otimizao para minimizar o desvio entre os dados de imagem e um modelo que incorpora conhecimento sobre os objetos da imagem. Essa mesma abordagem matemtica pode ser utilizada para outras tarefas que envolvem restaurao e reconstruo [1]. A partir da forma geomtrica dos objetos, resultante da segmentao, pode-se utilizar operadores morfolgicos [1][2][3] para analisar e modificar essa forma bem como extrair informaes adicionais do objeto, as quais podem ser teis na sua classificao. A classificao considerada como uma das tarefas de mais alto nvel e tem como objetivo reconhecer, verificar ou inferir a identidade dos objetos a partir das caractersticas e representaes obtidas pelas etapas anteriores do processamento. Como ltimo comentrio, deve-se observar que, para problemas mais difceis, so necessrios mecanismos de retro-alimentao (feedback) entre as tarefas de modo a ajustar parmetros como aquisio, iluminao, ponto de observao, para que a classificao se torne possvel. Esse tipo de abordagem tambm conhecido como viso ativa [4][5]. Em um cenrio de agentes inteligentes, fala-se de ciclos de ao-percepo.

    1.2 Relao entre Processamento de Imagens e Computao Grfica

    Em geral, autores de livros em Computao Grfica (CG) e Processamento de Imagens (PDI) vm tratando as duas reas como distintas. O conhecimento em ambas as reas tem crescido consideravelmente, o que tem permitido a resoluo de problemas cada vez mais complexos. Numa viso simplificada, CG busca imagens fotos-realsticas de cenas tridimensionais geradas por computador, enquanto PDI tenta reconstruir uma cena tridimensional a partir de uma imagem real, obtida atravs de uma cmera. Neste sentido, PDI busca um procedimento inverso ao de CG, anlise ao invs de sntese, mas ambas as reas atuam sobre o mesmo conhecimento, o qual inclui, dentre outros aspectos, a interao entre iluminao e objetos e projees de uma cena tri-dimensional em um plano de imagem. O cenrio envolvendo todas as disciplinas que tenham algum ingrediente de processamento da informao visual, dentre as quais a CG e o PDI ocupam posio de destaque, definido por alguns autores como Computao Visual.

    1.3 Natureza Interdisciplinar do Processamento de Imagens

    A rea de Processamento de Imagens incorpora fundamentos de vrias cincias, como Fsica, Computao, Matemtica. Conceitos como ptica, Fsica do Estado Slido, Projeto de Circuitos, Teoria dos Grafos, lgebra, Estatstica, dentre outros, so comumente requeridos no projeto de um sistema de processamento de imagens. Existe tambm uma interseco forte entre PDI e outras disciplinas como Redes Neurais, Inteligncia Artificial, Percepo Visual, Cincia Cognitiva. H igualmente um nmero

  • Revista RITA: instrues para preparao de documentos em Word

    4 RITA Volume VIII Nmero 1 2001

    de disciplinas as quais, por razes histricas, se desenvolveram de forma parcialmente independente do PDI, como Fotogrametria, Sensoriamento Remoto usando imagens areas e de satlite, Astronomia e Imageamento Mdico.

    1.4 Organizao do Tutorial

    O tutorial est estruturado em duas partes: a primeira parte (principal) trata dos fundamentos de PDI e a segunda (complementar) apresenta exemplos de aplicaes. As prximas duas sees contemplam a parte de fundamentos, incluindo o processo de formao da imagem e uma seleo de operaes tpicas sobre imagens. A Seo 4 apresenta alguns exemplos de aplicaes. Finalmente, na Seo 5 esto as consideraes finais.

    2. Conceitos Fundamentais

    2.1 Natureza da luz

    Sendo radiao eletromagntica, a luz apresenta um comportamento ondulatrio caracterizado por sua freqncia (f) e comprimento de onda (). A faixa do espectro eletromagntico qual o sistema visual humano sensvel se estende aproximadamente de 400 a 770 nm e denomina-se luz visvel [2]. Radiao eletromagntica com comprimentos de onda fora desta faixa no percebida pelo olho humano. Dentro dessa faixa, o olho percebe comprimentos de onda diferentes como cores distintas, sendo que fontes de radiao com um nico comprimento de onda denominam-se monocromticas e a cor da radiao denomina-se cor espectral pura [3][4]. O espectro eletromagntico a distribuio da intensidade da radiao eletromagntica com relao ao seu comprimento de onda e/ ou freqncia [6]. Na Fig. 2, apresenta-se uma sntese do espectro eletromagntico, destacando-se a faixa de luz visvel.

    Fig. 2 - Espectro eletromagntico.

    103 102 10 1 10-1 10-2 10-3 10-4 10-5 10-6 10-7 10-8 10-9 10-10 10-11 10-12

    106 107 108 109 1010 1011 1012 1013 1014 1015 1016 1017 1018 1019 1020

    Comprimento de Onda (m)

    Freqncia (Hz)

    Mais curtos

    Mais altas

    Molcula de guaProtena

    VrusBactriaClula

    PontoBola de BaseballCampo de Futebol Casa

    Rdio AM

    Cavidade de RF Rdio FM

    Forno de Microondas RADAR

    Seres Humanos

    Lmpadas Incandescentes

    ALS Equipamentos de Raios X

    Elementos Radioativos

    ONDAS DE RDIO

    MICROONDAS

    INFRAVERMELHO ULTRAVIOLETA RAIOS X PESADOS

    RAIOS RAIOS X LEVES

    700 600 500 400700 600 500 400

    RadiaRadiao o Infravermelha (IR)Infravermelha (IR)

    RadiaRadiao o Ultravioleta (UV)Ultravioleta (UV)

    Comprimento de Onda (nm)Comprimento de Onda (nm)RadiaRadiao Viso Visvelvel

    103 102 10 1 10-1 10-2 10-3 10-4 10-5 10-6 10-7 10-8 10-9 10-10 10-11 10-12

    106 107 108 109 1010 1011 1012 1013 1014 1015 1016 1017 1018 1019 1020

    Comprimento de Onda (m)

    Freqncia (Hz)

    Mais curtos

    Mais altas

    Molcula de guaProtena

    VrusBactriaClula

    PontoBola de BaseballCampo de Futebol Casa

    Rdio AM

    Cavidade de RF Rdio FM

    Forno de Microondas RADAR

    Seres Humanos

    Lmpadas Incandescentes

    ALS Equipamentos de Raios X

    Elementos Radioativos

    ONDAS DE RDIO

    MICROONDAS

    INFRAVERMELHO ULTRAVIOLETA RAIOS X PESADOS

    RAIOS RAIOS X LEVES

    700 600 500 400700 600 500 400

    RadiaRadiao o Infravermelha (IR)Infravermelha (IR)

    RadiaRadiao o Ultravioleta (UV)Ultravioleta (UV)

    Comprimento de Onda (nm)Comprimento de Onda (nm)RadiaRadiao Viso Visvelvel

    700 600 500 400700 600 500 400700 600 500 400700 600 500 400

    RadiaRadiao o Infravermelha (IR)Infravermelha (IR)

    RadiaRadiao o Ultravioleta (UV)Ultravioleta (UV)

    Comprimento de Onda (nm)Comprimento de Onda (nm)RadiaRadiao Viso Visvelvel

  • Revista RITA: instrues para preparao de documentos em Word

    RITA Volume VIII Nmero 1 2001 5

    2.2 Estrutura do Olho Humano

    De conformao aproximadamente esfrica, o olho humano possui um dimetro mdio aproximado variando de 2 a 2,5 cm [2][3][4]. A radiao luminosa advinda de objetos do mundo real penetra no olho a partir de uma abertura frontal na ris, denominada pupila, e de uma lente denominada cristalino, atingindo ento a retina, que constitui a camada interna posterior do globo ocular [3] (vide Fig. 3).

    Fig. 3 - Olho humano: (A) viso geral; e (B) detalhamento dos componentes.

    A focalizao apropriada da cena implica a formao ntida de sua imagem invertida sobre a retina. A retina contm dois tipos de fotossensores, os cones (sensveis a cores e com alta resoluo, operantes apenas em cenas suficientemente iluminadas) e os bastonetes, (insensveis a cores, com baixa resoluo, operantes em condies de baixa luminosidade), encarregados do processo de converso da energia luminosa em impulsos eltricos que sero transmitidos ao crebro, para posterior interpretao. A visualizao de um objeto consiste do posicionamento do olho pela estrutura muscular que o controla, implicando a projeo da imagem do objeto sobre a fvea [3]. Em essncia, toda cmara fotogrfica uma cmara escura, projetada para apreender a energia luminosa proveniente de uma cena, produzindo uma imagem adequada para propsitos os mais diversificados. Trata-se de uma extenso do olho humano, o qual compe imagens a partir de excitao luminosa e as transmite ao crebro sob a forma de impulsos bioeltricos. A plpebra do olho tem uma funo anloga quela do obturador da cmara. O diafragma (ou ris) de uma cmera funciona analogamente ris do olho humano, controlando a quantidade de luz que atravessa a lente. A lente da cmera anloga ao conjunto formado pelo cristalino do olho, a crnea e, em menor grau, o humor aquoso e o humor vtreo. Ambos tm o propsito de focalizar a luz, de modo a tornar ntidas as imagens que se formaro invertidas no plano focal [6]. A diferena que o cristalino se deforma para focalizar a imagem, enquanto a lente dotada de um mecanismo manual ou automtico para o ajuste da distncia focal, exceo das lentes das cmaras de foco fixo, projetadas para dar foco a partir de uma distncia mnima (usualmente a partir de 1,5m). A coride funciona como a cmara escura de uma cmara fotogrfica. A retina corresponde ao sensor da cmara fotogrfica (componente digital ou filme). A Fig. 4 ilustra essa analogia.

    A B

    Nerv

    o

    pti

    co

    e F

    eix

    e

    Vasc

    ula

    r

    Esclertica

    Eixo Visual

    Coride

    Retina

    Fvea

    Ponto Cego

    TnicasMsculos Ciliares

    Ligamentos Suspensrios do Cristalino

    ris

    Crnea

    Cmara Anterior

    Cristalino

    Corpo Ciliar

    Cmara Posterior com Humor

    Vtreo

    Nerv

    o

    pti

    co

    e F

    eix

    e

    Vasc

    ula

    r

    Esclertica

    Eixo Visual

    Coride

    Retina

    Fvea

    Ponto Cego

    TnicasMsculos Ciliares

    Ligamentos Suspensrios do Cristalino

    ris

    Crnea

    Cmara Anterior

    Cristalino

    Corpo Ciliar

    Cmara Posterior com Humor

    Vtreo

    Nervo Nervo

    Tnicas da retinaTnicas da retina

    Humor vHumor vtreotreo

    pticoptico

    Vasos sangVasos sangneosneos

    EscleraEsclera

    ConjuntivaConjuntiva

    CCrnearnea

    risris

    PupilaPupila

    LenteLente

    Tnicas da retinaTnicas da retina

    Humor vHumor vtreotreo

    pticoptico

    Vasos sangVasos sangneosneos

    EscleraEsclera

    ConjuntivaConjuntiva

    CCrnearnea

    risris

    PupilaPupila

    LenteLente

    Nervo Nervo

    Tnicas da retinaTnicas da retina

    Humor vHumor vtreotreo

    pticoptico

    Vasos sangVasos sangneosneos

    EscleraEsclera

    ConjuntivaConjuntiva

    CCrnearnea

    risris

    PupilaPupila

    LenteLente

    Tnicas da retinaTnicas da retina

    Humor vHumor vtreotreo

    pticoptico

    Vasos sangVasos sangneosneos

    EscleraEsclera

    ConjuntivaConjuntiva

    CCrnearnea

    risris

    PupilaPupila

    LenteLente

  • Revista RITA: instrues para preparao de documentos em Word

    6 RITA Volume VIII Nmero 1 2001

    Fig. 4 Analogia olho humano-cmara digital.

    2.3 Modelos Cromticos

    Objetos que emitem luz visvel so percebidos em funo da soma das cores espectrais emitidas. Tal processo de formao denominado aditivo. O processo aditivo pode ser interpretado como uma combinao varivel em proporo de componentes monocromticas nas faixas espectrais associadas s sensaes de cor verde, vermelho e azul, as quais so responsveis pela formao de todas as demais sensaes de cores registradas pelo olho humano. Assim, as cores verde, vermelho e azul so ditas cores primrias. Este processo de gerao suscitou a concepo de um modelo cromtico denominado RGB (Red, Green, e Blue) [2][3], para o qual a Comisso Internacional de Iluminao (CIE) estabeleceu as faixas de comprimento de onda das cores primrias [7]. A combinao dessas cores, duas a duas e em igual intensidade, produz as cores secundrias, Ciano, Magenta e Amarelo (ver Fig. 5).

    Fig. 5 - Modelo cromtico RGB.

    (1,1,0)(0,1,0)

    (0,0,0)RR

    GG

    BB

    (1,1,1)(0,1,1)

    (1,0,1)

    (1,0,0)

    (0,0,1)

    Preto

    Branco

    (1,1,0)(0,1,0)

    (0,0,0)RR

    GG

    BB

    (1,1,1)(0,1,1)

    (1,0,1)

    (1,0,0)

    (0,0,1)

    Preto

    Branco

    Pre

    to

    Bra

    nco

    Pre

    to

    Bra

    nco

    Primria (nm) Vermelho 700,0 Verde 546,1 Azul 435,8

    Combinao de Primrias Secundria Resultante Vermelho + Verde Amarelo Vermelho + Azul Magenta Verde + Azul Ciano

    ris

    Eixo Visual

    CorideRetina

    Fvearis

    CrneaCmara Anterior

    Cristalino

    Cmara Posterior com Humor Vtreo

    Lente

    Diafragma

    Cmara escura

    Sensor

    Plpebra

    Obturador

  • Revista RITA: instrues para preparao de documentos em Word

    RITA Volume VIII Nmero 1 2001 7

    A cor oposta a uma determinada cor secundria a cor primria que no entra em sua composio. Assim, o verde oposto ao magenta, o vermelho ao ciano e o azul ao amarelo. A cor branca gerada pela combinao balanceada de vermelho, verde e azul, assim como pela combinao de qualquer cor secundria com sua oposta. Objetos que no emitem radiao eletromagntica visvel prpria so, em contraposio, percebidos em funo dos pigmentos que os compem [3]. Assim sendo, objetos diferentemente pigmentados absorvem (ou subtraem) da radiao eletromagntica incidente uma faixa do espectro visvel, refletindo o restante [6]. O processo de composio cromtica pode ser interpretado como a absoro ou reflexo, em propores variveis, das componentes verde, vermelho e azul da radiao eletromagntica visvel incidente. Tome-se como exemplo um objeto amarelo. As componentes vermelha e verde da luz branca incidente so refletidas, enquanto a componente azul subtrada por absoro pelo objeto. Assim, a cor amarela pode ser encarada como o resultado da subtrao do azul da cor branca. As cores primrias no modelo CMY so definidas em funo da absoro de uma cor primria da luz branca incidente e da reflexo das demais componentes, ou seja, as cores primrias so as secundrias do modelo RGB - Ciano, Magenta e Amarelo (Fig. 6).

    Fig. 6 - Modelo cromtico CMY.

    A formao de imagens em um terminal de vdeo se d por emisso de radiao eletromagntica visvel, em um processo que integra, em diferentes propores, as cores verde, vermelha e azul. J os dispositivos de impresso coloridos (e.g. impressoras e traadores grficos) adotam o sistema CMY (Cyan, Magenta, Yellow). Uma vez que os pigmentos empregados (tintas em cartuchos ou toners) no produzem o preto quando combinados de modo balanceado, necessrio acrescent-lo como um quarto pigmento, o novo sistema cromtico denominado CMYK (Cyan, Magenta, Yellow, blacK). H vrios outros modelos cromticos nos quais a caracterizao da cor no se d conforme o comportamento fisiolgico da retina humana, mas sim em funo de outros atributos de percepo cromtica empregados por seres humanos [2][3][6]. Ao invs da caracterizao da cor a partir de combinaes de vermelho, verde e azul, tais modelos adotam outros atributos, tais como a intensidade, o matiz ou tonalidade (hue) e a saturao ou pureza.

    Branco

    (0,0,0)

    (1,1,0)

    CC

    MM

    YY

    (1,1,1)(0,1,1)

    (1,0,1)

    (1,0,0)

    (0,1,0)

    (0,0,1)

    Preto

    Branco

    (0,0,0)

    (1,1,0)

    CC

    MM

    YY

    (1,1,1)(0,1,1)

    (1,0,1)

    (1,0,0)

    (0,1,0)

    (0,0,1)

    Preto

    Combinao de Primrias Secundria Resultante Ciano + Magenta Azul Magenta + Amarelo Vermelho Amarelo + Ciano Verde

  • Revista RITA: instrues para preparao de documentos em Word

    8 RITA Volume VIII Nmero 1 2001

    2.4 Modelo de Imagem Digital

    Uma imagem monocromtica uma funo bidimensional contnua f(x,y), na qual x e y so coordenadas espaciais e o valor de f em qualquer ponto (x,y) proporcional intensidade luminosa (brilho ou nvel de cinza) no ponto considerado [1][2][4][6][8]. Como os computadores no so capazes de processar imagens contnuas, mas apenas arrays de nmeros digitais, necessrio representar imagens como arranjos bidimensionais de pontos.

    Cada ponto na grade bidimensional que representa a imagem digital denominado elemento de imagem ou pixel. Na Fig. 7, apresenta-se a notao matricial usual para a localizao de um pixel no arranjo de pixels de uma imagem bidimensional. O primeiro ndice denota a posio da linha, m, na qual o pixel se encontra, enquanto o segundo, n, denota a posio da coluna. Se a imagem digital contiver M linhas e N colunas, o ndice m variar de 0 a M-1, enquanto n variar de 0 a N-1. Observe-se o sentido de leitura (varredura) e a conveno usualmente adotada na representao espacial de uma imagem digital.

    Fig. 7 Representao de uma imagem digital bidimensional.

    A intensidade luminosa no ponto (x,y) pode ser decomposta em: (i) componente de iluminao, i(x,y), associada quantidade de luz incidente sobre o ponto (x,y); e a componente de reflectncia, r(x,y), associada quantidade de luz refletida pelo ponto (x,y) [3]. O produto de i(x,y) e r(x,y) resulta em:

    f(x,y) = i(x,y).r(x,y) (1)

    na qual 0 < i(x,y) < e 0 < r(x,y) < 1, sendo i(x,y) dependente das caractersticas da fonte de iluminao, enquanto r(x,y) dependente das caractersticas das superfcies dos objetos.

    Em uma imagem digital colorida no sistema RGB, um pixel pode ser visto como um vetor cujas componentes representam as intensidades de vermelho, verde e azul de sua cor. A imagem colorida pode ser vista como a composio de trs imagens monocromticas, i.e.:

    f (x, y) = fR(x,y) + fG(x,y) + fB(x,y), (2)

    Coluna(n)

    ColunaColuna((nn))

    Linha(m)

    LinhaLinha((mm))

    PretoPretoPreto000

    Tonsde

    Cinza

    TonsTonsde de

    CinzaCinza

    255255255 BrancoBrancoBranco

    PixelPixelPixel000000

    M-1MM--11

    N-1NN--11

  • Revista RITA: instrues para preparao de documentos em Word

    RITA Volume VIII Nmero 1 2001 9

    na qual fR(x,y), fG(x,y), fB(x,y) representam, respectivamente, as intensidades luminosas das componentes vermelha, verde e azul da imagem, no ponto (x,y).

    Na Fig. 8, so apresentados os planos monocromticos de uma imagem e o resultado da composio dos trs planos. Os mesmos conceitos formulados para uma imagem digital monocromtica aplicam-se a cada plano de uma imagem colorida [3][6][8].

    Fig. 8 Representao de uma imagem digital bidimensional.

    2.5 Amostragem e Quantizao

    Como j foi anteriormente mencionado, para que uma imagem possa ser armazenada e/ ou processada em um computador, torna-se necessria sua discretizao tanto em nvel de coordenadas espaciais quanto de valores de brilho. O processo de discretizao das coordenadas espaciais denomina-se amostragem, enquanto a discretizao dos valores de brilho denomina-se quantizao [1][2][3][4][5][6]. Usualmente, ambos os processos so uniformes, o que implica a amostragem da imagem f(x,y) em pontos igualmente espaados, distribudos na forma de uma matriz M x N, na qual cada elemento uma aproximao do nvel de cinza da imagem no ponto amostrado para um valor no conjunto {0, 1, ..., L - 1}.

    (3)

    Costuma-se associar o limite inferior (0) da faixa de nveis de cinza de um pixel ao preto e ao limite superior (L1) ao branco. Pixels com valores entre 0 e L-1 sero visualizados em diferentes tons de cinza, os quais sero to mais escuros quanto mais prximo de zero forem seus valores [1][2][3].

    Uma vez que os processos de amostragem e quantizao implicam a supresso de

    )1,1(),1(),0(

    )1,1()1,1()0,1(1,0()1,0()0,0(

    NMfMfMf

    NfffNfff

    F

    LMMMM

    LL

  • Revista RITA: instrues para preparao de documentos em Word

    10 RITA Volume VIII Nmero 1 2001

    informao de uma imagem analgica, seu equivalente digital uma aproximao, cuja qualidade depende essencialmente dos valores de M, N e L. Usualmente, o nmero de valores de brilho, L, associado a potncias de 2:

    L = 2l (4)

    com l . Assim sendo, o nmero de bits necessrio para representar uma imagem digital de dimenses M x N ser:

    b = M x N x l (5)

    Percebe-se, a partir da Eq. 5, que embora o aumento de M, N e l implique a elevao da qualidade da imagem, isto tambm implica o aumento do nmero de bits necessrios para a codificao binria da imagem e, por conseguinte, o aumento do volume de dados a serem armazenados, processados e/ou transmitidos. O Quadro 1 contm o nmero de bytes empregado na representao de uma imagem digital monocromtica para alguns valores tpicos de M e N, com 2, 5 e 8 nveis de cinza.

    Quadro 1 Nmero de bytes para uma imagem monocromtica.

    Nmero de Bytes (L) M N L = 2 L = 32 L = 256

    480 640 38400 192000 307200 600 800 60000 300000 480000 768 1024 98304 491520 786432

    1200 1600 240000 1200000 1920000 O nmero de amostras e o nmero de nveis de cinza necessrios para a representao

    de uma imagem digital de qualidade adequada funo tanto de caractersticas da imagem, tais como suas dimenses e a complexidade dos alvos nela contidos, quanto da aplicao qual se destina. Nas Figs. 9(A) a (D), ilustra-se a influncia dos parmetros de digitalizao na qualidade visual de uma imagem monocromtica.

    Fig. 9 Influncia da variao do nmero de amostras e de nveis de quantizao

    na qualidade de uma imagem digital: (A) 200 x 200 pixels/ 256 nveis; (B) 100 x 100 pixels/ 256 nveis; (C) 25 x 25 pixels/ 256 nveis; e (D) 200 x 200 pixels/ 2 nveis.

    A B C D

  • Revista RITA: instrues para preparao de documentos em Word

    RITA Volume VIII Nmero 1 2001 11

    Em geral, costuma-se amostrar de forma idntica os diferentes planos de uma imagem colorida [1][2]. O nmero de cores que um pixel pode assumir em uma imagem RGB com LR nveis de quantizao no plano R, LG no plano G e LB no plano B LR x LG x LG. Considerando a Eq. (6), se lR = log2(LR), lG = log2 (LG)e lB = log2 (LB), o nmero de bits por pixel necessrios para representar as cores ser igual a lR + lG + lB e o nmero de bits necessrio para representar uma imagem digital de dimenses M x N ser:

    b = M x N x (lR + lG + lB) (6)

    Seja, por exemplo, LR = LG = LG = 28 = 256 nveis de cinza possveis em cada banda. Assim sendo, cada pixel da imagem colorida poder assumir uma das 16.777.216 cores da paleta, uma vez que ser representado por 3 x 8 = 24 bits. O Quadro 2 contm o nmero de bytes empregado na representao de uma imagem digital colorida para alguns valores tpicos de M e N, com 2, 5 e 8 nveis de cinza.

    Quadro 2 Nmero de bytes para uma imagem colorida.

    2.6 Sistema Tpico para Processamento Digital de Imagens

    Vrios modelos de sistemas para processamento de imagens tm sido propostos e comercializados no mundo inteiro nas duas ltimas dcadas. Entre meados das dcadas de 80 e 90, com a progressiva reduo nos custos das tecnologias de hardware, as tendncias de mercado voltaram-se para placas projetadas, segundo padres industriais, para uso em computadores pessoais e estaes de trabalho [3]. Assim, surgiram diversas empresas que se especializaram no desenvolvimento de software dedicado ao processamento de imagens. Nos dias atuais, o extenso uso dos sistemas para processamento de imagens desta natureza ainda um fato, sobretudo em aplicaes de sensoriamento remoto (processamento de produtos aerofotogramtricos e orbitais) [7] e imageamento biomdico (processamento de imagens geradas a partir de MR, CT, PET/ SPEC, tomografia ptica, ultra-sonografia e raios X) [8]. Todavia, tendncias recentes apontam para a miniaturizao e integrao do hardware especializado para processamento de imagens a computadores de pequeno porte de uso geral.

    A representao do hardware e o diagrama em blocos da Fig. 10 ilustram os componentes de um sistema de uso geral tipicamente utilizado para o processamento digital de imagens. O papel de cada componente ser discutido, em linhas gerais, a seguir. No tocante aquisio (tambm referida como sensoriamento) de imagens digitais, afiguram-se relevantes dois elementos, a saber: (i) o dispositivo fsico sensvel faixa de energia irradiada pelo alvo de interesse; e (ii) o dispositivo conversor da sada do o dispositivo fsico de

    Nmero de Bytes (LR = LG = LB = L) M N L = 2 L = 32 L = 256

    480 640 115200 576000 921600 600 800 180000 900000 1440000 768 1024 294912 1474560 2359296

    1200 1600 720000 3600000 5760000

  • Revista RITA: instrues para preparao de documentos em Word

    12 RITA Volume VIII Nmero 1 2001

    sensoriamento em um formato digital (usualmente referido como digitalizador) [1][2][3]. Tome-se como exemplo uma cmara de vdeo digital. Os sensores CCD so expostos luz refletida pelo alvo de interesse, o feixe de radiao eletromagntica capturada convertido em impulsos eltricos proporcionais intensidade luminosa incidente nos diferentes pontos da superfcie do sensor e, finalmente, o digitalizador converte os impulsos eltricos em dados digitais.

    Fig. 10 - Diagrama em blocos de um sistema tpico para processamento de imagens.

    Em geral, o hardware especializado para processamento de imagens consiste de um digitalizador integrado a um hardware destinado execuo de outras operaes primitivas, e.g. uma unidade lgico-aritmtica (ULA) para a realizao de operaes aritmticas e lgicas em imagens inteiras, medida que so digitalizadas. O diferencial do hardware desta natureza, tambm denominado subsistema front-end, a velocidade de processamento em operaes que requerem transferncias rpidas de dados da entrada para a sada, e.g., digitalizao e remoo de rudo em sinais de vdeo capturados a uma taxa de 30 quadros/s, tarefa que um computador tpico no consegue realizar com o mesmo desempenho.

    Em nvel do processamento propriamente dito, o computador em um sistema para processamento de imagens um hardware de uso geral que pode ser desde um PDA at um supercomputador, em funo da capacidade de processamento exigida pela tarefa. Embora aplicaes dedicadas possam requerer computadores especialmente projetados e configurados para atingir o grau de desempenho exigido pela tarefa de interesse, os sistemas de uso geral para processamento de imagens utilizam computadores pessoais tpicos para a execuo de tarefas offline [3].

    O armazenamento um dos grandes desafios para a rea de processamento de imagens, uma vez que os sistemas de aquisio vm sendo cada vez mais aprimorados para a captura de volumes de dados cada vez maiores, o que requer dispositivos com capacidades de armazenamento cada vez maiores, alm de taxas de transferncia de dados mais elevadas e maiores ndices robustez e confiabilidade do processo de armazenamento. Costuma-se discriminar a etapa de armazenamento em trs nveis, a saber: (i) armazenamento de curta durao (memria RAM), durante o uso temporrio das imagens de interesse em diferentes etapas de processamento; (ii) armazenamento online ou de massa, tpico em operaes

    HardwareHardwarede impressode impresso

    HardwareHardware de de visualizavisualizaoo

    SoftwareSoftware para para processamentoprocessamento

    de imagensde imagens

    SensoresSensoresde imagemde imagem

    HardwareHardware para para processamentoprocessamento

    de imagensde imagensComputadorComputador

    RedeRede

  • Revista RITA: instrues para preparao de documentos em Word

    RITA Volume VIII Nmero 1 2001 13

    relativamente rpidas de recuperao de imagens; e (iii) arquivamento de imagens, com fins ao acesso infreqente e recuperao quando o uso se fizer necessrio [2][3][8].

    No mbito da sada do sistema de processamento de imagens, so tpicas duas alternativas, a saber: (i) a visualizao de dados; e (ii) a impresso de dados. A visualizao requer tipicamente monitores de vdeo coloridos e preferencialmente de tela plana, que recebem dados de placas grficas comerciais ou dedicadas [2][3][8]. H circunstncias em que se torna necessrio o uso de visualizadores estreo, e.g. em aplicaes que lidam com pares estereoscpicos de produtos aerofotogramtricos [6]. No tocante impresso, costuma-se utilizar diferentes dispositivos de impresso de pequeno, mdio e grande porte - impressoras e/ou traadores grficos (plotters) de jato de tinta, sublimao de cera ou laser [2][3][8]. Costuma-se tambm incluir nesta etapa a gerao de produtos em filme, que oferecem a mais alta resoluo possvel [6].

    O software para processamento de imagens consiste, em geral, de mdulos destinados realizao de tarefas especficas (e.g. operaes de processamento radiomtrico e/ou geomtrico de imagens monocromticas ou coloridas, mono ou multiespectrais). H pacotes que incluem facilidades de integrao de mdulos e gerao de cdigo em uma ou mais linguagens de programao. Por fim, faz-se pertinente comentar que a conexo em rede de sistemas para processamento de imagens parece ser uma funo tpica nos dias atuais, uma vez que, para diversas aplicaes, se faz necessria a transmisso de grandes volumes de dados. Para tais aplicaes, a considerao mais relevante a largura de faixa, uma vez que a comunicao com sites remotos via Internet pode constituir um obstculo para a transferncia eficiente de dados de imagens.

    3 Operaes sobre Imagens

    3.1 Operaes no Domnio do Espao

    As operaes no domnio do espao so caracterizadas pela manipulao direta dos pixels da imagem [1][2][3][4][5][6][8]. Pode-se representar uma operao genrica O sobre uma seqncia de n imagens, fe1, fe2, ..., fen (vide Fig. 13(A), produzindo uma imagem de sada fs, i.e.:

    fs = O(fe1, fe2, ..., fen) (7)

    Operaes desta natureza so denominadas n-rias, uma vez que a imagem de sada resulta de uma combinao de duas ou mais imagens de entrada. Quando n = 1, uma operao unria, a partir da qual uma nica imagem de entrada produz uma imagem de sada (vide Fig. 11(B)), sendo representada de forma simplificada como:

    fs = O(fe) (8)

    As operaes no domnio do espao podem ser classificadas, no tocante ao escopo de ao, como pontuais (ou ponto-a-ponto) ou locais (ou localizadas). Nas operaes pontuais, cada pixel da imagem de sada depende apenas do mesmo correspondente na imagem de entrada. Assim, qualquer operao pontual pode ser interpretada como um mapeamento de pixels da

  • Revista RITA: instrues para preparao de documentos em Word

    14 RITA Volume VIII Nmero 1 2001

    imagem de entrada para a imagem de sada. A Fig. 12 ilustra genericamente uma operao pontual unria.

    Fig. 11 Operaes no domnio do espao: (A) m-rias; e (B) unrias.

    Fig. 12 Operao pontual unria.

    Cada ponto da imagem de sada, fs(x,y), obtido por: (i) uma operao O entre os

    pontos de coordenadas homlogas das imagens de entrada, fe1(x,y), fe2(x,y),..., fen(x,y); ou (ii) uma transformao T do ponto de coordenadas homlogas da imagem de entrada, fe(x,y). No tocante operao O, esta pode ser qualquer operao aritmtica, lgica, de comparao, etc., admitida pela natureza dos valores dos pontos das imagens. A transformao T dever ser uma funo unvoca com um domnio equivalente faixa de valores permitidos para a imagem de entrada. Transformaes dessa natureza so comumente realizadas a partir de tabelas de transformao (LUT - Look-Up Tables) e interpretadas a partir de diagramas como aquele ilustrado na Fig. 13.

    Fig. 13 Exemplo de LUT e diagramas de transformao.

    ie(x,y)ie(x,y) is(x,y)is(x,y)

    (x,y)(x,y) (x,y)(x,y)

    ie(x,y)ie(x,y) is(x,y)is(x,y)

    (x,y)(x,y) (x,y)(x,y)

    0 L-1

    L-1

    1

    2

    3

    4

    56

    fe(x,y)

    T1 T2

    T3

    fs(x,y)

    0 L-1

    L-1

    1

    2

    3

    4

    56

    fe(x,y)

    T1 T2

    T3

    fs(x,y)LUT

    01234567

    00000246

    89

    101112131415

    810121315151515

    01234567

    00000246

    89

    101112131415

    810121315151515

    fe(x,y) fs(x,y)

    LUT

    01234567

    00000246

    89

    101112131415

    810121315151515

    01234567

    00000246

    89

    101112131415

    810121315151515

    fe(x,y) fs(x,y)

    fs = O(fe1, fe2, ..., fen) fs = O(fe)

    fe1 fe2

    fen

    fe fs fs

    A B

  • Revista RITA: instrues para preparao de documentos em Word

    RITA Volume VIII Nmero 1 2001 15

    Por outro lado, nas operaes locais, o valor de sada em uma coordenada especfica depende de valores de entrada daquela coordenada e sua vizinhana [1][2][3][4]. Os tipos de vizinhos de um pixel podem ser assim definidos: (i) os vizinhos mais prximos de um pixel p, de coordenadas (i,j), os pixels de coordenadas (i+1,j), (i-1,j), (i,j+1) e (i,j-1); (ii) os vizinhos mais distantes, os pixels de coordenadas (i-1,j-1), (i-1, j+1), (i+1,j-1) e (i+1,j+1). As vizinhanas tipicamente utilizadas em operaes locais esto na Fig. 14. A vizinhana 4-conectada envolve os vizinhos mais prximos do pixel considerado, enquanto a vizinhana 8-conectada envolve tanto os vizinhos mais prximos quanto os mais distantes do pixel considerado. conveniente mencionar possvel processar grades de pixels hexagonais, , que neste caso, operaes locais envolvero apenas os 6 vizinhos mais prximos (vizinhana 6-conectada).

    Fig. 14 Exemplo de LUT e diagramas de transformao.

    Nas subsees seguintes, so apresentadas algumas operaes pontuais e locais tipicamente conduzidas no domnio do espao.

    3.2 Modificao Histogrmica

    O realce de contraste visa o melhoramento da qualidade das imagens sob o ponto de vista subjetivo do olho humano, sendo usualmente empregada como uma etapa de pr-processamento em aplicaes de reconhecimento de padres [1][2][3][6]. O contraste entre dois alvos de uma cena pode ser definido como a razo entre os seus nveis de cinza mdios. Fundamentada neste conceito, a manipulao do contraste dos objetos presentes em uma imagem digital consiste em um remapeamento radiomtrico de cada pixel da imagem, a fim de aumentar a discriminao visual entre eles. Embora a escolha do mapeamento adequado seja, em princpio, essencialmente emprica, uma anlise prvia do histograma da imagem se afigura, em muitos casos, bastante til.

    O histograma de uma imagem traduz a distribuio estatstica dos seus nveis de cinza. Trata-se, pois, de uma representao grfica do nmero de pixels associado a cada nvel de cinza presente em uma imagem, podendo tambm ser expressa em termos do percentual do nmero total de pixels na imagem [3][6]. Assim sendo, dada uma imagem digital f(x,y) com M linhas e N colunas, seu histograma, Hf(C), pode ser definido por:

    Hf(C) = nC/M.N, (9)

    iiee(x,y)(x,y) iiss(x,y)(x,y)

    (x,y)(x,y)Tipos de VizinhanTipos de Vizinhanaa

    44--conectadaconectada

    66--conectadaconectada

    88--conectadaconectada

  • Revista RITA: instrues para preparao de documentos em Word

    16 RITA Volume VIII Nmero 1 2001

    sendo nC o nmero de vezes em que o nvel de cinza C se apresenta na imagem. A Fig. 15 ilustra alguns exemplos de histogramas.

    Fig. 15 Histogramas: (A) imagem com baixo contraste; (B) imagem usando toda a faixa de tons de cinza, com dois tons de cinza dominantes; e (C) imagem usando toda a faixa de tons de cinza, com componentes ocupando a faixa de modo mais eqidistante.

    Muitas operaes pontuais usam o histograma como parmetro de deciso para fornecer resultados para o pixel da imagem processada, como se pode ver nas subsees a seguir.

    3.2.1 Inverso da Escala de Cinza

    A inverso da escala de cinza de uma imagem pode ter diversas aplicaes. Uma delas que, em se tratando do negativo da imagem, aps o registro fotogrfico a partir de uma cmera convencional, a revelao do negativo do filme produzir uma imagem positiva, passvel de uso como slide. Adicionalmente, o negativo de uma imagem pode possibilitar melhor discriminao de alvos em determinados tipos de imagens (e.g. imagens mdicas). Na Fig. 16(A), representa-se o efeito da inverso de contraste sobre o histograma, enquanto que na Fig. 16(B), um exemplo de resultado do processo.

    Fig. 16 Inverso de contraste: (A) representao grfica do processo; e (B) exemplo.

    0255

    255

    nce

    h(nce)

    0255

    255

    nce

    h(nce)

    0 255

    255

    ncs

    nce0 255

    255

    ncs

    nce

    02

    55

    25

    5

    ncs

    h(n

    cs) 0

    25

    5

    25

    5

    ncs

    h(n

    cs)

    h(n

    cs)

    Imagem original Imagem com escala de cinza invertida

    A

    B

    pe

    rcen

    tua

    l d

    e p

    ixe

    ls

    nveis de cinza 2550

    3

    pe

    rcen

    tua

    l d

    e p

    ixe

    ls

    nveis de cinza 2550

    3

    pe

    rcen

    tua

    l d

    e p

    ixe

    ls

    nveis de cinza 2550

    1

    pe

    rcen

    tua

    l d

    e p

    ixe

    ls

    nveis de cinza 2550

    1

    pe

    rcen

    tua

    l d

    e p

    ixe

    ls

    nveis de cinza 2550

    2

    pe

    rcen

    tua

    l d

    e p

    ixe

    ls

    nveis de cinza 2550

    2A B C

  • Revista RITA: instrues para preparao de documentos em Word

    RITA Volume VIII Nmero 1 2001 17

    3.2.2 Expanso de Contraste

    Iluminao deficiente no instante da aquisio da imagem, abertura insuficiente do diafragma da cmera, tempo de exposio demasiadamente curto ou problemas de natureza diversa no processo de digitalizao so responsveis pela gerao de imagens de baixo contraste [3]. A reduo no contraste de uma cena dificulta o discernimento de seus componentes. O propsito da expanso de contraste redistribuir os tons de cinza dos pixels de uma imagem de modo a elevar o contraste na faixa de nveis possvel (vide Fig. 17(A)). Nos casos em que a faixa de tons de cinza j se encontra totalmente utilizada, a expanso de contraste por partes, linear ou no, possibilita melhor discriminao da poro realada da imagem, conforme ilustrado na Fig. 17(B).

    Fig. 17 Expanso de contraste: (A) representao grfica do processo tpico; (B) Exemplos de expanso de contraste linear por partes e no linear.

    he(nce)

    2 4 6 8 10 12 14

    nce

    0

    ncs

    2 4 6 8 10 12 140

    ncehs(n

    cs)

    24

    68

    10

    12

    14

    0

    ncs

    LUT

    01234567

    00000246

    89

    101112131415

    810121315151515

    nce ncs

    LUT

    01234567

    00000246

    89

    101112131415

    810121315151515

    nce ncs

    255

    255

    0

    ncs

    nce255

    255

    0

    ncs

    nce 255

    255

    0

    ncs

    nce

    C1

    ncs =C2.log(Knce)+C1

    1/K

    Assntotas

    Imagem original

    Imagem com expanso linear de contraste das componentes escuras

    Imagem com expanso no linear de contraste

    A

    B

  • Revista RITA: instrues para preparao de documentos em Word

    18 RITA Volume VIII Nmero 1 2001

    3.2.3 Equalizao Histogrmica

    O processo de equalizao de histograma visa o aumento da uniformidade da distribuio de nveis de cinza de uma imagem, sendo usualmente empregado para realar diferenas de tonalidade na imagem e resultando, em diversas aplicaes, em um aumento significativo no nvel de detalhes perceptveis [1][2][3][6][8]. Um modo simples de equalizar o histograma de uma imagem de dimenses M x N com L nveis de cinza advm da transformao:

    T(nce) = rnd[((L-1)/M.N).Hf(nce)], (10)

    na qual rnd representa o arredondamento do resultado da expresso para o inteiro mais prximo. Na Fig. 18, exemplifica-se processo da equalizao histogrmica.

    Fig.18 Exemplo de equalizao histogrmica.

    3.3 Filtragem Espacial

    Imagens apresentam reas com diferentes respostas espectrais, delimitadas por reas geralmente estreitas denominadas bordas. Tais limites usualmente ocorrem entre objetos ou feies distintas presentes na imagem (e.g. regies de um rosto, feies naturais ou artificiais em imagens multiespectrais da superfcie terrestre, estruturas de um corpo em imagens mdicas), podendo tambm representar o contato entre reas com diferentes condies de iluminao, em funo dos ngulos formados entre a radiao incidente e os planos da cena imageada. Assim sendo, as bordas representam, em imagens monocromticas, alteraes bruscas entre intervalos de nveis de cinza [3]. Sua representao grfica caracterizada por gradientes acentuados. Correspondem usualmente a feies de alta freqncia - limites entre reas iluminadas e sombreadas, redes naturais (e.g. drenagem) e artificiais (e.g. de transporte), dentre outras. Em contraponto, os alvos que variam mais uniformemente com a

  • Revista RITA: instrues para preparao de documentos em Word

    RITA Volume VIII Nmero 1 2001 19

    distncia apresentam-se, em geral, sob a forma de regies homogneas, correspondendo a feies de baixa freqncia (reas uniformes em imagens).

    Similarmente as tcnicas de manipulao de contraste, as tcnicas de filtragem de uma imagem implicam transformaes pixel a pixel. Todavia, diferem daquelas medida que a alterao efetuada em um pixel da imagem filtrada depende no apenas do nvel de cinza do pixel correspondente na imagem original, mas tambm dos valores dos nveis de cinza dos pixels situados em sua vizinhana. Sendo uma operao local, a filtragem espacial uma transformao dependente do contexto em que se insere cada pixel considerado.

    A filtragem espacial se fundamenta em uma operao de convoluo de uma mscara (mask, kernel ou template) e da imagem digital considerada. A mscara um arranjo matricial de dimenses inferiores s da imagem a ser filtrada e, em geral, quadrado, cujos valores so definidos como fatores de ponderao (pesos) a serem aplicados sobre pixels da imagem. A operao executada progressivamente sobre os pixels da imagem, coluna a coluna, linha a linha, como ilustrado na Fig. 19.

    Fig. 19 Representao grfica do processo de filtragem espacial.

    Dentre os filtros mais comuns utilizados em processamento digital de imagens encontram-se os da mdia, da mediana e da moda [2], todos destinados suavizao da imagem. Esses filtros atenuam variaes abruptas nos nveis de cinza da imagem, o que possibilita sua aplicao reduo de rudo de origens diversas.

    O filtro da mdia de ordem n produz como valor do pixel processado, a cada iterao da convoluo da mscara de filtragem com a matriz de imagem original, a mdia aritmtica dos valores dos pixels em uma vizinhana de (i, j) contendo n pixels. Assim sendo, a suavizao produzida funo do tamanho da vizinhana considerada: quanto maiores as dimenses da mscara utilizada, mais forte ser a suavizao das bordas das regies na imagem filtrada. Na Fig. 20, ilustra-se o efeito de filtragem de uma imagem ruidosa com mscaras 3x3 e 5x5.

    ParmetrosParmetros PretoPreto00

    Tonsde

    cinza

    Tonsde

    cinza

    255255 BrancoBranco

    TransformaTransformaoo

    p9p8p7

    p6pp55p4

    p3p2p1

    p9p8p7

    p6pp55p4

    p3p2p1 Is x y Ie x i y j m i jiM - 1

    j

    N - 1

    ( , ) ( , ). ( , ) = Ie(x,y) m(i, j) = = =

    0 0

  • Revista RITA: instrues para preparao de documentos em Word

    20 RITA Volume VIII Nmero 1 2001

    Fig. 20 Filtro da mdia: (A) imagem original; (B) imagem ruidosa; (C) imagem filtrada com mscara 3x3; e (D) imagem filtrada com mscara 5x5.

    Analogamente operao da mdia aritmtica no filtro da mdia, o filtro da mediana de ordem n produz como valor do pixel de sada a mediana dos valores dos pixels da imagem de entrada em uma vizinhana de (i, j) contendo n pixels. Vale ressaltar que a mediana de um conjunto de n pixels ordenados por valor o valor do pixel na posio central da lista ordenada, se n for mpar, ou a mdia dos valores dos dois pixels nas posies centrais da lista, se n for par. No caso de uma vizinhana 3 x 3 com os valores 21, 22, 17, 21, 19, 17, 21, 20, 23, aps a ordenao a seqncia ser 17, 17, 19, 20, 21, 21, 21, 22, 23. Deste modo, a mediana ser o valor central da seqncia ordenada, i.e., o valor do quinto elemento da lista, 21. Embora o filtro da mediana tambm tenda a produzir uma suavizao proporcional ao tamanho da vizinhana considerada, a preservao da definio das bordas das regies na imagem filtrada tende a ser superior do que no filtro da mdia. Na Fig. 21, ilustra-se uma comparao dos efeitos produzidos pelo filtro da mdia 3x3 (Fig. 21(C)) e da mediana 3x3 (Fig. 21(D)) sobre uma imagem ruidosa (Fig. 21(B)).

    Fig. 21 Filtros da mdia e mediana: (A) imagem original; (B) imagem ruidosa; (C) mdia 3x3; e (D) mediana 3x3.

    O filtro da moda de ordem n produz como valor do pixel de sada a moda dos valores dos pixels da imagem de entrada em uma vizinhana de (i, j) contendo n pixels (a moda de uma srie de valores o valor mais freqente da srie). Se a seqncia contiver dois ou mais valores com a mesma freqncia de ocorrncia, pode-se definir a mdia ou mediana dos valores em questo como valor de g(i, j).

    Enquanto os filtros da mdia, da moda e da mediana so empregados na suavizao de imagens, outra categoria de filtros espaciais, tais como os operadores de gradiente [3], produzem a acentuao ou aguamento de regies de uma imagem nas quais ocorrem variaes significativas de nveis de cinza. Define-se como gradiente de uma funo f,

    A B C D

    A B C D

  • Revista RITA: instrues para preparao de documentos em Word

    RITA Volume VIII Nmero 1 2001 21

    contnua em (i, j), o vetor:

    (11)

    O vetor G[f(i, j)] aponta no sentido da maior taxa de variao de f(i, j), sendo sua amplitude, G[f(i, j)], dada pela expresso:

    (12)

    que uma representao da taxa de variao de f(i, j) por unidade de distncia no sentido de G. A equao (11) embasa uma srie de abordagens de diferenciao de imagens digitais. Uma propriedade importante da amplitude do gradiente a sua isotropia, i.e., a independncia em relao direo do gradiente, o que possibilita a deteco de bordas independentemente da sua orientao. As desvantagens apresentadas por este operador so ser no-linear e perder a informao da direo das bordas (devido ao clculo dos quadrados).

    O clculo do gradiente pode ser obtido atravs de aproximaes numricas. Na horizontal, a aproximao dada pela diferena dos nveis de cinza de dois pixels consecutivos, i.e., Gx = f(i, j) f(i+1, j) e, similarmente, na vertical por Gy = f(i,j+1) f(i, j). A estimao do gradiente a partir de aproximaes numricas apresenta como desvantagem o clculo da derivada horizontal e a vertical em pontos diferentes:

    e , (13) o que pode ser contornado a partir da utilizao de janelas quadradas:

    e , (14)

    Pode-se obter a 2 derivada a partir do Laplaciano dos nveis de cinza da imagem f(x,y):

    (15)

    Fig. 22 Verificao da existncia de uma borda a partir do gradiente e do Laplaciano.

    [ ]11=xG = 11yG

    = 11 11xG

    = 11 11yG

    2

    2

    2

    22

    jf

    iff

    +

    =

    Borda suavizada 1 derivada 2 derivada

    Mximo Cruzamento por zero

    =jfif

    jifG )],([

    21

    22)],([

    +

    =

    jf

    ifjifG

  • Revista RITA: instrues para preparao de documentos em Word

    22 RITA Volume VIII Nmero 1 2001

    Alm da isotropia, a 2 derivada possibilita a preservao da informao de qual o lado mais claro/escuro da borda. Contrariamente ao gradiente, cujas amplitudes elevadas traduzem a existncia de bordas, no Laplaciano so os cruzamentos por zero (alternncia de sinal entre pixels adjacentes) que o fazem (vide Fig. 22).

    No espao 2-D, as aproximaes numricas resultam na seguinte janela de convoluo:

    (16)

    Embora haja uma grande variedade de operadores de gradiente, sero mencionados aqui apenas os operadores de Roberts, Prewitt e Sobel. O operador de Roberts (2 x 2) executa o gradiente cruzado, i.e.,o clculo das diferenas dos nveis de cinza executado em uma direo rotacionada de 45, ao invs do clculo nas direes horizontal e vertical.

    e (17)

    Alm da diferenciao, sem o enviesamento do gradiente digital, o operador de Prewitt suaviza a imagem, atenuando o rudo.

    e (18)

    Similar ao operador de Prewitt, o operador de Sobel difere apenas no tocante aos pesos conferidos aos vizinhos mais prximos no nulos do pixel central, apresentando sobre aquele a vantagem de produzir bordas diagonais menos atenuadas.

    e (19)

    3.4 Morfologia Matemtica

    Morfologia digital ou matemtica [13] uma modelagem destinada descrio ou anlise da forma de um objeto digital. O modelo morfolgico para a anlise de imagens fundamenta-se na extrao de informaes a partir de transformaes morfolgicas, nos conceitos da lgebra booleana e na teoria dos conjuntos e reticulados. O princpio de morfologia digital se embasa no fato de que a imagem um conjunto de pontos elementares (pixels ou voxels) que formam subconjuntos elementares bi ou tridimensionais. Os subconjuntos e a inter-relao entre eles formam estruturalmente a morfologia da imagem.

    As operaes bsicas da morfologia digital so: (i) a eroso, a partir da qual so removidos da imagem os pixels que no atendem a um dado padro; e (ii) a dilatao, a

    =

    1101410102

    = 10 01xG

    = 01 10yG

    =

    101101101

    xG

    = 111 000111

    Gy

    =

    101202101

    xG

    = 121 000121

    Gy

  • Revista RITA: instrues para preparao de documentos em Word

    RITA Volume VIII Nmero 1 2001 23

    partir da qual uma pequena rea relacionada a um pixel alterada para um dado padro. Todavia, dependendo do tipo de imagem sendo processada (preto e banco, tons de cinza ou colorida) a definio destas operaes muda, de forma que cada tipo deve ser considerado separadamente. As demais operaes e transformaes baseiam-se nos operadores bsicos dos conjuntos, algumas interativas, e nos dois operadores bsicos da morfologia matemtica.

    Seja a imagem da Fig. 23, na qual h dois objetos ou conjuntos de pixels A e B. Considere-se que os valores que os pixels podem assumir so binrios, i.e., 0 ou 1, o que permite restringir a anlise ao espao discreto Z2.

    Fig. 23 - Imagem binria contendo 2 objetos, i.e.,2 conjuntos de pontos.

    O objeto A consiste dos pontos com pelo menos uma propriedade em comum, a saber: Objeto A: (20)

    Assim sendo, o objeto B da Fig. 23 consistir de {[-2,0][-1,0][0,0][0,1]}. O fundo da imagem de A, denominado AC (complemento de A), consistir de todos os pontos que no pertencem ao objeto A:

    Fundo: (21)

    As operaes fundamentais associadas com um objeto so o conjunto padro de operaes: unio ({}), interseo ({}) e complemento ({C}) com translao. Dado um vetor x e um conjunto A, a translao, A + x, definida como:

    Translao: (22)

    O conjunto bsico de operaes de Minkowski [12], adio e subtrao, pode ser definido em funo das consideraes anteriores. Dados dois conjuntos A e B contidos em um conjunto C, a soma de Minkowski de A e B o subconjunto de C, denotado A B, dado por:

    (23)

    A diferena de Minkowski entre A e B o subconjunto de C, denotado A B, dado por:

    (24)

    A

    B

    m

    n

    ( ){ }VerdadeepropriedadA ==

    { }AAC =

    { } AxxA +=+

    { }bax,BbeAa:CxBA +=={ }bay,Aa(,Bb:CyBA ==

  • Revista RITA: instrues para preparao de documentos em Word

    24 RITA Volume VIII Nmero 1 2001

    Como mencionado anteriormente, as transformaes singulares so realizadas atravs dos operadores elementares, os quais foram denominados por [10] e [11] de transformaes de dilatao e eroso s quais foram incorporadas, posteriormente, mais duas transformaes denominadas de anti-dilatao e anti-eroso [12]. Dilataes e eroses so usadas para a criao de transformaes mais sofisticadas, as quais conduzem a vrios resultados relevantes quanto anlise de imagens, dentre os quais se citam os filtros morfolgicos, o preenchimento de buracos, a extrao de contornos e o reconhecimento de padres. Os operadores de dilatao e eroso invariante por translao, sobre imagens binrias, advieram originalmente das operaes de adio e subtrao de Minkowski, cada um dos quais pode, em geral, ser caracterizado por um subconjunto denominado elemento estruturante.

    Via de regra, a construo de sistemas morfolgicos implementada a partir da concepo do problema e da seleo dos operadores mais adequados soluo de interesse. A adequao de operadores constitui um dos grandes problemas encontrados na especificao dos elementos estruturantes. A criao de um mecanismo capaz de encontrar os elementos estruturantes adequados realizao da transformao de interesse uma possvel soluo para tal problema. A partir das operaes bsicas de Minkowski, podem-se definir as operaes bsicas da morfologia matemtica, dilatao e eroso:

    Dilatao: D(A, B) = A B = A B = {x E | Bx A } (25) Eroso: E (A, B) = A B = {x E | Bx A} (26)

    Tanto o conjunto A quanto o conjunto B podem ser considerados como sendo imagens. Todavia, A costuma ser considerado com sendo a imagem sob anlise e B como o elemento estruturante, o qual est para a morfologia como a mscara (mask, template ou kernel) est para teoria de filtragem linear. Os elementos estruturantes mais comuns so os conjuntos 4-conexes e 8-conexes, N4 e N8 (Fig. 24).

    Fig. 24 - Elementos estruturantes: (A) padro N4; e (B) padro N8.

    A dilatao, em geral, faz com que o objeto cresa no tamanho. Buracos menores do que o elemento estruturante so eliminados e o nmero de componentes pode diminuir. Por sua vez, a eroso reduz as dimenses do objeto. Objetos menores do que o elemento estruturante so eliminados e o nmero de componentes pode aumentar. O modo e a magnitude da expanso ou reduo da imagem dependem necessariamente do elemento estruturante B. A aplicao de uma transformao de dilatao ou eroso a uma imagem sem a especificao de um elemento estruturante, no produzir nenhum efeito.

    m

    n

    m

    n

    A B

  • Revista RITA: instrues para preparao de documentos em Word

    RITA Volume VIII Nmero 1 2001 25

    3.5 Segmentao

    Em processos de anlise de imagens, faz-se necessria a extrao de medidas, caractersticas ou informao de uma dada imagem por mtodos automticos ou semi-automticos. A primeira etapa da anlise de imagem , em geral, caracterizada por sua segmentao [3], que consiste na subdiviso da imagem em partes ou objetos constituintes. Algoritmos de segmentao possibilitam a identificao de diferenas entre dois ou mais objetos, assim como a discriminao das partes, tanto entre si quanto entre si e o background. No tocante segmentao de imagens monocromticas, os algoritmos fundamentam-se, em essncia, na descontinuidade e na similaridade dos nveis de cinza. A fundamentao na descontinuidade consiste no particionamento da imagem em zonas caracterizadas por mudanas bruscas dos nveis de cinza. O interesse recai usualmente na deteco de pontos isolados, de linhas e de bordas da imagem. Por outro lado, a fundamentao na similaridade consiste na limiarizao e no crescimento de regies.

    3.5.1 Limiarizao (Thresholding)

    Limiarizao uma abordagem para a segmentao fundamentada na anlise da similaridade de nveis de cinza, de modo a extrair objetos de interesse mediante a definio de um limiar T que separa os agrupamentos de nveis de cinza da imagem. Uma das dificuldades do processo reside na determinao do valor mais adequado de limiarizao, i.e., do ponto de separao dos pixels da imagem considerada. Atravs da anlise do histograma da imagem, possvel estabelecer um valor para T na regio do vale situado entre picos que caracterizam regies de interesse na imagem. H diversas variantes de limiarizao. A mais simples delas a tcnica do particionamento do histograma da imagem por um limiar nico T. A segmentao se d varrendo-se a imagem, pixel a pixel, e rotulando-se cada pixel como sendo do objeto ou do fundo, em funo da relao entre o valor do pixel e o valor do limiar. O sucesso deste mtodo depende inteiramente de quo bem definidas esto as massas de pixels no histograma da imagem a ser segmentada.

    3.5.2 Segmentao orientada a regies

    A segmentao orientada a regies se fundamenta na similaridade dos nveis de cinza da imagem. O crescimento de regies um procedimento que agrupa pixels ou sub-regies de uma imagem em regies maiores. A variante mais simples da segmentao orientada a regies a agregao de pixels, que se fundamenta na definio de uma semente, i.e., um conjunto de pontos similares em valor de cinza, a partir do qual as regies crescem com a agregao de cada pixel semente qual estes apresentem propriedades similares (e.g. nvel de cinza, textura ou cor). A tcnica apresenta algumas dificuldades fundamentais, se afigurando como problemas imediatos (i) a seleo de sementes que representem adequadamente as regies de interesse; e (ii) a seleo de propriedades apropriadas para a incluso de pontos nas diferentes regies, durante o processo de crescimento. A disponibilidade da informao apropriada possibilita, em cada pixel, o clculo do mesmo

  • Revista RITA: instrues para preparao de documentos em Word

    26 RITA Volume VIII Nmero 1 2001

    conjunto de propriedades que ser usado para atribuir os pixels s diferentes regies pr-definidas, durante o processo de crescimento. Caso o resultado de tal clculo implique agrupamentos de valores das propriedades, os pixels cujas propriedades se localizarem mais perto do centride desses agrupamentos podero ser usados como sementes.

    3.5.3 Segmentao Baseada em Bordas

    A deteco de bordas, anteriormente discutida, possibilita a anlise de descontinuidades nos nveis de cinza de uma imagem. As bordas na imagem de interesse caracterizam os contornos dos objetos nela presentes, sendo bastante teis para a segmentao e identificao de objetos na cena. Pontos de borda podem ser entendidos como as posies dos pixels com variaes abruptas de nveis de cinza. Os pontos de borda caracterizam as transies entre objetos diferentes. Vrias tcnicas de segmentao baseiam-se na deteco de bordas, sendo as mais simples aquelas nas quais as bordas so detectadas pelos operadores de gradiente (e.g. Sobel, Roberts, Laplaciano), seguida de um processo de limiarizao.

    3.6 Extrao de Caractersticas e Reconhecimento

    A prxima tarefa aps a segmentao o reconhecimento dos objetos ou regies resultantes. O objetivo do reconhecimento de padres identificar objetos na cena a partir de um conjunto de medies. Cada objeto um padro e os valores medidos so as caractersticas desse padro. Um conjunto de objetos similares, com uma ou mais caractersticas semelhantes, considerado como pertencente mesma classe de padres. H diversos tipos de caractersticas, cada uma das quais obtida a partir de uma tcnica especfica. Alm disso, caractersticas de ordem mais alta advm da combinao de caractersticas mais simples, e.g. cada letra do alfabeto composta por um conjunto de caractersticas como linhas verticais, horizontais e inclinadas, bem como segmentos curvilneos. Enquanto a letra A pode ser descrita por duas linhas inclinadas e outra horizontal, a letra B pode ser descrita por uma linha vertical e 2 curvilneas conectadas em pontos especficos. Outras caractersticas relevantes para um objeto 2D ou 3D so a rea, volume, permetro, superfcie, dentre outras, as quais podem ser medidas a partir da contagem de pixels.

    Analogamente, a forma de um objeto pode ser descrita em termos de suas bordas. Outros atributos mais especficos para a forma podem ser obtidos atravs de invariantes de momentos, descritores de Fourier, eixos medianos dos objetos, dentre outros [1][2][3][14]. Para realizar o reconhecimento de objeto, existe uma grande variedade de tcnicas de classificao. Uma representao geral para o processo de classificao ilustrada na Fig. 25.

    Fig. 25 - Representao geral para o processo de classificao.

    Extrao de

    Caractersticas Classificador

    Aprendizagem

    Padro de Teste

    Sada Classificada

    Padro da Amostra

    Extrao de Caractersticas

  • Revista RITA: instrues para preparao de documentos em Word

    RITA Volume VIII Nmero 1 2001 27

    As tcnicas de reconhecimento de padres podem ser divididas em 2 tipos principais: classificao baseada em aprendizagem supervisionada e no-supervisionada. Por sua vez, os algoritmos de classificao supervisionada subdividem-se em paramtricos e no-paramtricos. O classificador paramtrico treinado com uma grande quantidade de amostras rotuladas (conjunto de treinamento, padres cujas classes se conhecem a priori) para que possa estimar os parmetros estatsticos de cada classe de padro (e.g. mdia, varincia). Exemplos de classificadores supervisionados so os de distncia mnima e o de mxima verossimilhana. Na classificao no-paramtrica, os parmetros estimados do conjunto de treinamento no so levados em considerao. Um exemplo de classificador no paramtrico o dos K-vizinhos mais prximos. Na classificao no supervisionada, o classificador particiona o conjunto de dados de entrada a partir de algum critrio de similaridade, resultando em um conjunto de clusters ou grupos, cada um dos quais normalmente associado a uma classe. Na rea de reconhecimento de objetos, destacam-se os algoritmos e tcnicas baseadas em redes neurais [15] (com variantes tanto para classificao supervisionada como para classificao no-supervisionada). Outro importante exemplo so os classificadores bayesianos [3]. Uma viso mais aprofundada da rea de classificao de padres pode ser encontrada em [16].

    4 Exemplos de Aplicaes

    O objetivo desta seo fornecer exemplos que abordem alguns dos conceitos e operaes apresentadas nas sees anteriores. Com o fim de promover a disseminao da rea no Brasil, os exemplos de aplicaes apresentados a seguir foram selecionados dos anais do principal evento nacional da rea, o Simpsio Brasileiro de Computao Grfica e Processamento de Imagens.

    4.1 Segmentao de imagens

    Conforme visto na Seo 3.5, a segmentao de imagens tem como principal objetivo a separao de objetos de interesse do background da imagem. Na segmentao por limiarizao, a escolha de um limiar normalmente depende de caractersticas intrnsecas da imagem, e.g. entropia e outras estatsticas, no levando usualmente em conta a percepo humana do processo de segmentao. Numa abordagem alternativa para realizar a limiarizao de imagens em tons de cinza, foi proposto em [17] um mtodo de modelagem perceptiva que aprende a deciso humana na limiarizao atravs de uma rede de funes de base radial (RBFN), uma mquina de aprendizagem que permite aproximar a funo que mapeia caractersticas globais da imagem (e.g. desvio padro dos tons de cinza) em limiares escolhidos por humanos. A partir de imagens de treinamento, o usurio seleciona o limiar (nvel de cinza) que melhor separa os pixels do background daqueles do objeto. As decises so armazenadas em uma tabela de 2 colunas, a primeira coluna armazena o limiar escolhido e a outra armazena uma caracterstica global da imagem. Essa tabela ento utilizada para o treinamento da RBFN. Como resultado da comparao da modelagem perceptiva com trs outros mtodos automticos de segmentao por limiarizao, verificou-se que as respostas humanas possuam alta correlao com alguns dos mtodos automticos avaliados, demonstrando a viabilidade da abordagem proposta.

  • Revista RITA: instrues para preparao de documentos em Word

    28 RITA Volume VIII Nmero 1 2001

    Uma abordagem para a segmentao dos blocos de endereo em envelopes postais, baseada em histogramas 2D e a operao morfolgica de watershed, foi apresentada por [18]. Considerem-se uma imagem digital F = [f(x,y)] e sua verso G = [g(x,y)] filtrada atravs de um filtro de mdia ou, conforme proposto pelos autores, filtrada atravs de uma reconstruo morfolgica. Ambas as imagens possuem dimenses M N e com [0,...,L-1] tons de cinza. O histograma 2D C = [cij] de dimenses L L computado a partir de quaisquer pares de pixels f(x,y) e g(x,y) que possuem os tons de cinza iguais a i e j, respectivamente, podendo ser formalizado como segue: cij = #{( f(x,y), g(x,y) ) | f(x,y) = i, f(x,y) = j }, em que o operador # denota a cardinalidade do conjunto operando.

    A partir do histograma 2-D realizado um processo de agrupamento das regies da imagem que correspondem a 3 classes: blocos de endereo e carimbos postais, selos e background do envelope. Esse agrupamento conduzido atravs da operao de watershed. Uma vez que o histograma 2-D pode ser visto como uma topografia na qual os maiores valores correspondem a picos e os menores a vales, se uma gota de gua depositada em um ponto qualquer da regio do histograma, ela ir escoar para um vale (ponto de mnimo local). A rea da watershed associada ao mnimo M definida como sendo o agrupamento de todos esses pontos de mnimo cuja elevao tem valor igual a M. O ponto de encontro entre duas reas de watershed gera uma borda que o resultado final da operao. A complexidade das imagens de envelope gerou histogramas 2-D com um nmero muito elevado de vales (tipicamente mais de 25). Para evitar uma supersegmentao da imagem, realizou-se uma seqncia de eroses morfolgicas de modo a reduzir o nmero de regies para apenas 3, correspondendo exatamente ao nmero de classes a serem segmentadas. Uma avaliao experimental demonstrou que o bloco de endereo com carimbos postais foi segmentado corretamente em 75% dos casos, o que demonstra uma significativa robustez.

    4.2 Reconhecimento de Manuscritos

    Diferentemente da escrita mecnica, na qual h uma grande regularidade na forma, intensidade e posicionamento das palavras e caracteres, apesar das diferentes fontes e estilos, os manuscritos apresentam enorme variao em todos esses aspectos, alm de serem dependentes do autor. Aplicaes tpicas envolvem a verificao de assinaturas e o reconhecimento de textos manuscritos na forma de caracteres isolados e palavras inteiras, dentre outros.

    No trabalho de [19], foi apresentada uma avaliao de duas abordagens para o reconhecimento de palavras isoladas dos meses do ano: uma baseada em Redes Neurais (RN) e a outra baseada em Modelos de Markov Escondidos (MME). O primeiro estgio do processamento consistiu de 3 etapas: (i) correo da inclinao geral dos caracteres; (ii) deteco e correo de inclinaes na linha de base da palavra inteira; e (iii) utilizao de um filtro para atenuao de imperfeies e falhas nos manuscritos. O estgio seguinte foi especfico para cada classificador utilizado. Para o classificador neural, dividiu-se a imagem dos manuscritos em 8 sub-regies fixas, correspondendo a aproximadamente o nmero mdio de letras no conjunto de palavras a serem reconhecidas (meses do ano). Para cada uma das sub-regies, um total de 10 caractersticas perceptivas foi extrado, produzindo um padro com 80 caractersticas para cada palavra. As

  • Revista RITA: instrues para preparao de documentos em Word

    RITA Volume VIII Nmero 1 2001 29

    caractersticas perceptivas foram obtidas a partir da anlise direcional dos pixels e incluram as posies e tamanho das linhas ascendentes, descendentes e loops fechados, alm dos ngulos das concavidades e uma estimativa para o tamanho da palavra. A ausncia de uma essas caractersticas numa sub-regio particular foi indicada pelo valor 1. Para o classificador de Modelos de Markov Escondidos, a partir do histograma de projeo horizontal dos pixels da imagem do manuscrito, trs zonas foram definidas: ascendente, corpo e descendente. Um processo de segmentao varivel, dependente das transies escuro-claro presentes na linha central da palavra, aplicado. Em seguida, para cada segmento, foram identificadas caractersticas perceptivas e caractersticas baseadas em deficincias na concavidade/ convexidade dos traos encontrados nesses segmentos. Na avaliao experimental, 3600 imagens de manuscritos contendo os meses do ano foram utilizadas para treinamento, 1200 para teste e 1200 para validao dos classificadores. Como resultado, verificou-se que a melhor taxa de reconhecimento ocorreu para o classificador neural utilizando caractersticas perceptivas (81,8%), enquanto foi possvel obter uma taxa de reconhecimento muito superior combinando 3 classificadores (um baseado em Modelos de Markov Escondidos e 2 baseados em Redes Neurais), com um resultado de 90.4% de correta classificao.

    4.3 Classificao e Recuperao de Imagens por Contedo

    A classificao e recuperao de imagens por contedo tm forte relao com as reas de sistemas de informao e banco de dados. Uma consulta tradicional a um banco de dados normalmente envolve a utilizao de chaves textuais ou numricas como parte de expresses relacionais e lgicas. O prximo passo lgico justamente incluir campos e operaes (e.g. classificao, segmentao, etc.) sobre imagens na consulta. Atualmente existem vrios sistemas de banco de dados comerciais (e.g. Oracle) e no-comercias (e.g. Postgres) que permitem algumas funcionalidades envolvendo imagens.

    Um sistema para a classificao de imagens coletadas da Web em duas classes semnticas, grficos e fotografias, foi apresentado por [20]. O sistema utilizou um mtodo de classificao baseado em rvores de deciso (ID3, um algoritmo de induo de rvores de deciso a partir de exemplos, popular na rea de IA). Foi identificado um conjunto de caractersticas adequadas separao entre as duas classes semnticas escolhidas. Caractersticas marcantes de fotografias identificadas no trabalho foram: (i) existncias de objetos reais com uma tendncia a texturas e ausncia de regies com cores constantes; (ii) pequenas diferenas na proporo (altura x largura); (iii) poucas ocorrncias de regies com alta saturao de cores; e (iv) presena de um grande nmero de cores utilizadas. As caractersticas identificadas como marcantes de grficos foram: (i) presena de objetos artificiais com bordas bem definidas bem como a presena de regies cobertas com cores saturadas; e (ii) grandes diferenas na proporo e tendncia a serem menores em tamanho do que fotografias. Assim, foram definidas mtricas sobre o nmero de cores, a cor predominante, o vizinho mais distante, a saturao, o histograma de cores, o histograma do vizinho mais distante, a proporo das dimenses e a menor dimenso.

    As duas primeiras mtricas, diretas, no sero mencionadas neste texto. A mtrica do

  • Revista RITA: instrues para preparao de documentos em Word

    30 RITA Volume VIII Nmero 1 2001

    vizinho mais distante baseada nas transies entre cores. Para dois pixels p1 e p2, de cores (r1,g1,b1) e (r2,g2,b2), foi definida uma medida de distncia d como sendo: d = | r1- r2| + | g1- g2| + |b1- b2|. Considerando que cada componente de cor varia de 0 a 255, ento d varia de 0 a 765. A partir de uma vizinhana de 4 pixels (acima, abaixo, esquerda e direita), um vizinho p2 de p1 considerado como sendo o vizinho mais distante se a medida d para p2 for a maior de todas as distncias dentro da vizinhana. A mtrica de saturao de um pixel p = (r,g,b) definida como |m - n|, em que m e n so os valores mnimo e mximo entre os valores de r,g e b, respectivamente. A mtrica do histograma de cores definida a partir da correlao entre o histograma de uma imagem t de teste e os histogramas mdios para um conjunto de referncia f de fotografias e outro conjunto de referncia g para grficos. Supondo a = C(Ht, Hf) e b = C(Ht, Hg), em que C a correlao (produto interno) entre dois histogramas, a mtrica do histograma de cores foi definida como s = b / (a + b). Claramente, a medida que a aumenta, s tambm aumenta, e, medida em que b aumenta, s diminui. Assim, espera-se que fotografias tenham uma resposta maior em s quando comparadas a grficos. A mtrica do histograma do vizinho mais distante baseou-se nas mesmas premissas da mtrica do vizinho mais distante, mas fornece uma forma diferente de testar a imagem. A mtrica da proporo definida como m / l, em que m o valor mximo entre a altura e a largura da imagem e l o valor mnimo. Finalmente, a mtrica da menor dimenso simplesmente o valor de l.

    Na fase experimental, foram definidos dois conjuntos de treinamento, contendo grficos e fotografias nos formatos e imagem GIF (3058 grficos e 1350 fotografias) e JPEG (1434 grficos e 4763 fotografias). Para cada conjunto de treinamento, foram extradas as mtricas discutidas acima e cada vetor de caractersticas de uma dada imagem recebeu um rtulo (grfico ou fotografia) atravs de inspeo visual da imagem. A aplicao do algoritmo ID3 gerou uma rvore de deciso para a classificao de cada conjunto. As taxas mdias de classificao correta em imagens de teste, no utilizadas durante o treinamento, corresponderam a 97,3% para imagens GIF e 93,9% para imagens JPEG, com desvios padro de 1,6 e 2,6, respectivamente.

    5 Consideraes Finais

    O presente tutorial forneceu uma viso geral da rea de PDI, tendo como um dos objetivos despertar, por parte de alunos brasileiros de nvel tcnico e superior, o interesse pela rea. Outro objetivo foi o de permitir uma reciclagem ou um primeiro contato de profissionais dos diferentes setores da economia, cujas atividades envolvam alguma informao baseada em imagens. Por se tratar de uma rea bastante ampla, no foi possvel incluir todos os possveis tpicos relevantes, mas procurou-se fornecer um mnimo de detalhes associados a cada etapa de processamento em um sistema tpico de PDI, da aquisio classificao. Para aqueles interessados em se aprofundar nos tpicos pouco explorados, e.g. segmentao, extrao de caractersticas e classificao, ou em outros tpicos igualmente importantes que no puderam ser includos neste documento por restries de espao, e.g. transformaes geomtricas, representao no domnio da freqncia (transformada de Fourier e Wavelets), tcnicas de compresso, dentre muitos outros, podero faz-lo consultando as referncias apresentadas a seguir.

  • Revista RITA: instrues para preparao de documentos em Word

    RITA Volume VIII Nmero 1 2001 31

    Referncias

    [1] JHNE, B. Digital Image Processing. Springer-Verlag, 2002. [2] ACHARYA, T., RAY, A. K. Image Processing- Principles and Applications. John

    Wiley & Sons, Inc. 2005.

    [3] GONZALEZ, R., WOODS, P. Digital Image Processing. Prentice Hall, 2002, 2nd ed. [4] FORSYTH, D., PONCE, J. Computer Vision: A modern approach. Prentice Hall, 2001. [5] JHNE, B., HAUSSECKER, H. (Eds.) Handbook of Computer Vision and

    Applications. Academic Press, 2000. [6] RENCZ, A. N., RYERSON. R. A. (Eds.) Manual of Remote Sensing, Remote Sensing

    for the Earth Sciences. John Wiley & Sons, Inc. 1999, 3rd ed. [7] HANSEN, C. D., JOHNSON, C. R. Visualization Handbook. Elsevier, 2005. [8] RUSS, J. C. The image processing handbook. CRC Press LLC, 2000 3rd ed. [9] BANKMAN, I. (Ed.) Handbook of Medical Imaging: Processing and Analysis.

    Academic Press. 2000.

    [10] MATHERON, G. Random sets and integrated geometry. Wiley, 1975. [11] SERRA, J. Introduction to mathematical morphology, Computer Vision, Graphics and

    Image Processing, 35(3):283305, September 1986. [12] SERRA, J. Image analysis and mathematical morphology. Academic Press, London, 1988. [13] DOUGHERTY, E. R., LOTUFO, R. A. Hands-on Morphological Image Processing,

    SPIE Press, Bellingham, 2003, 1st ed.

    [14] CESAR JR, R. M., COSTA, L. F. Shape Analysis and Classification Theory and Practice. CRC Press, 2001.

    [15] HAYKIN, S. Neural Networks: A Comprehensive Foundation. Prentice Hall. 1998. 2nd ed. [16] DUDA, R. O. Pattern Classification, John Wiley & Sons, Inc., 2000, 2nd ed. [17] LOPES, L. M., CONSULARO, L. A. A RBFN Perceptive Model for Image

    Thresholding, Proc. of SIBGRAPI, pp 225-232, 2005. [18] YONEKURA, E., FACON, A. J. 2-D Histogram-based Segmentation of Postal

    Envelopes, Proc. of SIBGRAPI, pp 247-251, 2003. [19] OLIVEIRA JR., J. J., CARVALHO, J. M., FREITAS, C. O. A., SABOURIN, R.

    Evaluating NN and HMM Classifiers for Handwritten Work Recognition, Proc. of SIBGRAPI, pp 210-217, 2002.

    [20] OLIVEIRA, C. J. S., ARAJO, A. A., SEVERIANO JR, C. A.., GOMES, D. R. Classifying Images Collected on the World Wide Web, Proc. of SIBGRAPI, pp 327-334, 2002.