Upload
internet
View
106
Download
0
Embed Size (px)
Citation preview
Formação de Imagem - Sampling
www.dca.ufrn.br/~lmarcos/courses/visao
Visão adquirindo imagem
Visão - Formação de Imagem• Energia de uma fonte de luz é radiada
uniformemente em 4 radianos• Irradiância é a soma de toda a luz incidente na
imagem• Reflexão pode ser difusa ou especular, depende da
superfície e comprimento de onda da luz• Superfície que reflete energia eletro-magnética
modula o conteúdo do espectro, intensidade e polarização da luz incidente
• Função da intensidade radiante é projetada no plano imagem 2D, espacialmente amostrada e digitalizada a 30 fps.
Formação da imagem
• Geometria da câmera (lentes finas)– equação fundamental 1 /Z´ + 1/z´ = 1/f
• Radiometria E(p) = f(L(P))– reflexão Lambertiana L=Itn (I transposto)– ângulo sólido = A cos / r2
– equação fundamental E(p) = L(p) /4 (d/f)2 cos4
Formação Geométrica da Imagem
• Relação entre a posição dos pontos da cena com a imagem
• Câmera perspectiva
• Câmera com fraca perspectiva
Modelo perspectivo ideal
P
p
O
P
O o P1
p
p1
y x
z
yx
z
Plano imagem
Plano imagemf
f
oP1p1
Distorção perspectiva pin-hole
Modelo ideal
Equações perspectiva
x = f (X/Z)
y = f (Y/Z)
Equações são não lineares devido à divisão
O
Z
Yy
f
y
z
Perspectiva fraca• Requer que a distância entre dois pontos na
cena z ao longo do eixo z (isto é, a profundidade da cena) seja muito menor que a distância média dos pontos vistos da câmera.
x = f (X/Z) = f (X/Z´)
y = f (Y/Z) = f (Y/Z´)
• Neste caso, x=X e y=Y descrevem a ortográfica, viável para z < Z´/20
Refração
Inversão de Percepção
• “Se estímulos sensoriais são produzidos de um único modo pelo mundo, então como deveria ser o mundo para produzir este estímulo?”
estimulo = f(mundo)
mundo = f-1(estímulo)
• As funções f() são apenas parcialmente conhecidas e f-1(), inversa de f não é bem condicionada (não se comporta direito).
Conhecimento e Experiência
• Adquire-se através da associação de dados sensoriais de forma eficiente
• Conseguem preencher espaços inacessíveis pela processo de formação de imagens
• Engana o cérebro
Representação matricial
Imagem e seu gráfico
Reconstrução - Amostragem
Amostragem - resolução espacial• Variação da amostragem no espaço
– imagens com diferentes resoluções (pixels cobrem áreas diferentes)
Amostragem - quantização
• Variação da amostragem pela quantização– número de níveis de intensidade para cada pixel
varia de uma imagem para outra
Amostragem - quantização
Amostragem - quantização
Amostragem - quantização
Amostragem-resolução temporal
• Variação da amostragem no tempo– tempo de amostragem do sensor é diferente– usando sistemas de aquisição diferentes
• Influencia qualidade final de cada pixel
Propriedades espaciais
• Delta de dirac
• Esta função tem as seguintes propriedades:
Sifting property
Comentários
• A primeira propriedade sugere um tipo de máscara infinitesimal que amostra a imagem precisamente na posição (x,y)
• A segunda propriedade é conhecida como “Sifting property”.
Funções especiais
• Dirac delta (x)=0,x0
lim0 - (x)dx = 1
• Sifting property - f(x´)(x-x´)dx´=f(x)
• Scale (ax) = (x)/|a|
• Delta de Kronecker (n)=0, n0
(n)=1, n=0
• Sifting property m=- f(m)(n-m) =f(n)
Transformada de Fourier
• onde u é a freqüência espacial em ciclos por pixel , de modo que quando x é especificado em pixels, 2ux é em radianos, e i=-1
Pares transformados
Pares de transformadas
Propriedade: freqüência espacial• Se f(x,y) é a luminância e x,y as
coordenadas espaciais, então 1 e 2 (ou u,v) são as freqüências espaciais que representam a mudança de luminância com respeito às distâncias espaciais. As unidades 1 e 2 (ou u,v) são recíprocas de x e y respectivamente.
• Algumas vezes as coordenadas x,y são normalizadas pela distância de visualização da imagem f(x,y). Então as unidades 1 e 2 (u,v) são dadas em ciclos por grau (do ângulo de visualização).
Propriedade: unicidade
• Para funções contínuas, f(x,y) e F(1,2) são únicas com respeito uma à outra.
• Não há perda de informação se for preservada a transformada ao invés da função
Propriedade: separabilidade• O kernel da transformada de Fourier é separável,
de modo que ela pode ser escrita como uma transformação separável em x e y.
F(1,2)=f(x,y)exp(-i2x1)dxexp(-i2y2)dy
• Isso significa que a transformação 2D pode ser realizada por uma sucessão de duas transformações unidimensionais, ao longo de cada uma das coordenadas.
Teorema do deslocamento
De modo que
Convolução
• A convolução de duas funções f e g
• onde é uma variável de integração
Teorema da convolução
então
Teorema da amostragem
• Seja F()= transformada de Fourier de uma função f(t), com t(-,+ ). Assumimos que f é limitada em banda, isto é, F()= 0, para ||>c>0.
• Então, podemos formular o teorema da amostragem.
Teorema da amostragem
• A função f pode ser reconstruída exatamente para todo t(-,+ ), a partir de uma seqüência de amostras eqüidistantes fn=f(n/c), de acordo com a seguinte formula:
f(t)=-fn sin(ct-n)/(ct-n) =
-fn sinc(ct-n)
Aliasing• Uma função contínua no espaço f(x) é
amostrada pelo cálculo do produto de f(x) por g(x), uma seqüência infinita de deltas de Dirac
• Queremos determinar os efeitos da função de amostragem na energia espectral em f(x)
Aliasing• Pelo teorema da convolução, sabemos que o
produto destas duas funções espaciais é igual à convolução dos seus pares de Fourier
• Podemos escrever a função H(u) em termos de F(u):
Aliasing
Aliasing
• Deste modo, o espectro de freqüência da imagem amostrada consiste de duplicações do espectro da imagem original, distribuída a intervalos 1/x0 de freqüência.
• Seja R(u) um filtro passa-banda no domínio da freqüência.
0 caso contrário
Aliasing
• Quando os espectros replicados interferem, a interferência introduz relativa energia em altas freqüências mudando a aparência do sinal reconstruído
Teorema da amostragem (nyquist)
• Se a imagem não contém componentes de freqüência maiores que a metade da freqüência de amostragem, então a imagem contínua pode ser representada fielmente ou completamente na imagem amostrada.
Adquirindo imagens digitais
• Estrutura essencial de um sistema de aquisição de imagens
• Representação de imagens digitais em um computador
• Informações práticas em amostragem espacial e ruídos devido à câmera
Sistema de Visão Computacional
• Câmera visualizadora– tipicamente uma câmera CCD (mxn)
• Frame grabber– placa de aquisição
• Computador (Host computer)– processador e memória para processamento
Representação digital de imagem
• Matriz numérica (MxN)– E(i,j) representa o valor de cada pixel (brilho)
• i indexa a linha
• j indexa a coluna
• E(i,j) é geralmente inteiro, no range [0,255]– um byte é suficiente– usado em muitos sistemas atuais
Do CCD para o frame buffer
• xim=(n/N)xCCD
• yim=(m/M)yCCD
• n/N e m/M não são os únicos parâmetros responsáveis pela escala introduzida
• CCD tem nxn células geralmente com diferentes tamanhos horizontal e vertical
• Frame buffer: MxN
Diferentes escalas
Frame buffer (NxN)CCD (nxn)
Frame buffer (MxN)
Amostragem espacial
• Amostragem espacial inicia-se no CCD
• Assume-se que a distância d entre os elementos do CCD é a mesma, por simplicidade (vertical e horizontal).
• Do teorema da amostragem, sabe-se que d determina a freqüência espacial vc mais alta que pode ser capturada pelo sistema de aquisição, de acordo com: vc=1/2d
Comparação com freqüência espacial da imagem
• Teoria da difração: processo de imageamento pode ser expresso em termos de uma filtragem linear passa-baixa das freqüências espaciais do sinal visual
• Se a for o tamanho linear da abertura angular, do sistema ótico (diâmetro da abertura circular), o comprimento de onda da luz, e f a distância focal, freqüências espaciais maiores que v´c=a/(f) não contribuem para o espectro espacial da imagem (são filtradas).
Sistema típico• vc < v´c aproximadamente de uma ordem de
magnitude• Assim, desde que o padrão visto possa ter
freqüências espaciais maiores que vc, pode ocorrer aliasing
Aliasing• Se n é a quantidade de elementos no CCD
(direção horizontal), a câmera não pode ver mais que n´ linhas verticais (com n´ um pouco menor que n/2, digamos n´= n/3)
• Até que o número de linhas dentro do campo de vista permanece menor que n´, elas serão corretamente imageadas. Assim que este limite é atingido, se a distância da cena cresce, antes de efeitos de borra, a quantidade de linhas diminui.
Ocorrência de Aliasing
Estimando erros de aquisição
• Valores da imagem não são o esperado, pois são corrompidos durante aquisição
• Adquire várias imagens da mesma cena e calcula a variância para cada pixel:
E(i,j) = 1/(MN) k=0n E(i,j)
(i,j) = (1/(n-1) k=0n-1(E(i,j)- E(i,j))2)1/2
Razão sinal-ruído
• Média de (i,j) pela na imagem é estimação do ruído médio.
• Máximo (i,j), com (i;j) (0,M;0,N) dá o pior erro na imagem.
• Luz fluorescente pode influenciar o resultado.
• Ótimo teste para verificar o erro das câmeras adquiridas (presente de final de semana, veja transparência final:-).
Gráfico do erro ao de uma linha
Pixel 1 Pixel 255
+ -
Obs: erro sinal-ruído
• Expresso em decibéis: 10 vezes o logaritmo base 10 da razão entre as duas potências (sinal e ruído).
• Ex: SNR de 100 = 10log10100=20dB
Co-variância
• Valores de pixel não são completamente independentes uns dos outros.
• Interferência (cross-talking) entre sensores adjacentes devido ao modo que são lidos e enviados ao frame-buffer
• Padrão uniforme na cena, paralelo ao plano imagem, sob luz difusa
Co-variância
• Seja c = 1/N2, Ni´=N-i´-1, Nj´=N-j´-1.
• Dada imagem E, para cada i´,j´=0,...,N-1:
• CEE(i´,j´)=ci=0Ni´j=0
Nj´(E(i,j)-E(i,j)) (E(i+i
´,j+j´)-E(i+i´,j+j´))• Covariância pode ser estimada como a média
da função acima em várias amostras
• Outro presente pro final de semana!
Gráfico da covariância (média)
x
y
z
Parâmetros de câmera
• Reconstrução 3D ou cálculo da posição de objetos no espaço necessitam definir relações entre coordenadas de pontos 3D com as coordenadas 2D de imagens dos mesmos
• Alguns pressupostos devem ser assumidos
• Denomina-se frame a Sistema de referência
Pressupostos
• Frame da câmera pode ser localizado em relação a algum outro frame bem conhecido (frame de mundo)
• Coordenadas das imagens de pontos no frame de câmera podem ser obtidas das coordenadas de pixels (únicas disponíveis a partir da imagem)
Parâmetros intrínsecos e extrínsecos (internos e externos)
• Parâmetros intrínsecos são os necessários para ligar as coordenadas de pixel de um ponto na imagem com as respectivas coordenadas no frame de câmera.
• Parâmetros extrínsecos são os que definem a localização e orientação do frame de câmera com relação a um frame de mundo conhecido
Parâmetros intrínsecos
• Caracterizam as propriedades óticas, geométricas e digitais da câmera visualizadora. Para pin-hole, 3 conjuntos:– projeção perspectiva (único parâmetro é f)– transformação entre frames de câmera e píxels– distorção geométrica introduzida pelo sistema
ótico
De câmera para pixels• Devemos ligar (xim,yim), em pixels, com as
coordenadas (x,y) do mesmo ponto no frame de câmera
• Neglicenciando distorções e assumindo que o CCD é uma matriz retangular:
x = -(xim-ox)sx
y = -(yim-oy)sy
sendo (ox,oy) as coordenadas em pixel do centro da imagem (ponto principal) e (sx,sy) o tamanho efetivo do pixel (em milímetros) horizontal e verticalmente, respectivamente
Com distorção
• Com introdução de distorção:x = xd(1+k1r2+k2r4)y = yd(1+k1r2+k2r4)
sendo (xd,yd) as coordenadas dos pontos distorcidos e r2 = xd
2+yd2. Veja que a
distorção é um deslocamento radial dos pontos na imagem. Deslocamento é zero no centro da imagem, crescendo para as bordas
Parâmetros intrínsecos - resumo
• f = distância focal
• (ox,oy) = localização do centro da imagem, em coordenadas de pixel
• (sx,sy) = tamanho efetivo horizontal e vertical do pixel
• (k1, k2) = coeficientes de distorção, se forem requeridos
Parâmetros extrínsecos
• Frame de câmera permite escrever equações de projeção perspectiva de uma forma simples, mas o sistema de câmera é geralmente desconhecido
• Determinar a localização e orientação do frame de câmera em relação a algum frame de referência, usando apenas informação da imagem.
Parâmetros extrínsecos
• Qualquer conjunto de parâmetros que permitem identificar unicamente a transformação entre o frame desconhecido de câmera e um frame conhecido, normalmente denominado frame de mundo.
Descrevendo a transformação
• Vetor 3D de translação, T, que descreve as posições relativas das origens dos dois frames
• Uma matriz 3x3, de rotação, R, a princípio ortogonal (RtR=RRt), desejado ortonormal, que traz os eixos correspondentes dos dois frames um no outro
• Ortogonalidade reduz o número de graus de liberdade para 3
Notação• A relação entre as coordenadas de um ponto P em frame
de mundo (Pw) e câmera (Pc) é dada por: Pc=R(Pw-T)
r11 r12 r13
R = r21 r22 r23
r31 r32 r33
t1
T = t2
t3
Parâmetros extrínsecos - resumo
• T = vetor de translação
• R = matriz de rotação (ou os seus parâmetros livres)
• Especificam a transformação entre o frame de câmera e o frame de mundo
Calibração de câmera
• Estimar os valores dos parâmetros intrínsecos e extrínsecos
• Vários métodos, incluindo distorção, etc.
Calculando o raio refletido
Trabalhos para o final de semana prolongado
• 1) Trazer o gráfico das principais funções vistas e suas transformadas de Fourier (em papel)
• 2) Verificar o erro das câmeras adquiridas:– a) Calcular a média, o desvio padrão e a
variância, para 20 amostragens (3 bandas e média das 3);
– b) Escolher uma determinada linha da imagem e plotar um gráfico mostrando, para cada pixel, duas curvas: média mais desvio padrão; média menos desvio padrão (3 bandas e média das 3).
Continuação dos trabalhos
– c) Indique outros dados da imagem (nível de cinza mínimopara cada cor, nível máximo para cada cor, mostre 5 imagens das 20 adquiridas, taxa de amostragem máxima, etc).
• 3) Auto-covariância:– a) Calcular a covariância para as 25 imagens
amostradas pelas câmeras, numa área de 32x32 pixels, centrada no centro das imagens;
– b) Plotar o gráfico da média da covariância (bidimensional)