Extração de Características

1

Extraçãode

Características

•Esqueletização>Algoritmo de G&W>Morfologia matemática

•Detecção de Bordas•Momentum•Regiões de Pressão•Descrição estrutural

Classificação

•Teoria de Decisão de Bayes•K vmp•Redes Neurais

>MLP BP>GSN>Neuro-Fuzzy

Escopo de investigaçãoEscopo de investigação

Reconhecimento off-line de Assinaturas

2


• Esquemas de conexão entre as técnicas de extração de características

Assinatura Pré-processadacinza/binária

Bordacinza/binária

Esqueletocinza/binária

Regiões de Pressãocinza/binária

Inclinação Momentum Fatores de Pressão

Imagens

Vetores deCaracterísticas

3


Esquemas de conexão entre técnicas de extração de características e Esquemas de conexão entre técnicas de extração de características e reconhecimentoreconhecimento

Imagembinária

Imagemcinza

Vetor deCaracterísticas

GSN K vmp Neuro-Fuzzy MLP BP

4

• Base de Dados– 50 classes (autores)

– 20 assinaturas verdadeiras por classe

– 20 assinaturas falsas por classe• 10 simples ou randômicas

• 10 habilidosas

– Total de 2000 amostras


5

SegmentaçãoSegmentação Do formulário e das assinaturas individuaisDo formulário e das assinaturas individuais A partir das projeções vertical e horizontalA partir das projeções vertical e horizontal

Pré-processamentoPré-processamentoEqualização de

BackgroundAmortecimento

Binarização Extraçãoda imagem


6

Extração de característicasExtração de características

7

Momentum

8

Bordas e Inclinação

9

Regiões de Pressão

10

ArmazenamentoArmazenamento

ImagensImagens Original, segmentada e pré-processada, esqueleto, borda e Original, segmentada e pré-processada, esqueleto, borda e

pressãopressão Formato GIFFormato GIF

Vetor de características híbridoVetor de características híbrido Momentum padrão (6 valores)Momentum padrão (6 valores) Número de componentes verticaisNúmero de componentes verticais Inclinações (negativa, vertical, positiva)Inclinações (negativa, vertical, positiva) Limiar de alta pressão (Limiar de alta pressão (THPTHP)) Fator de pressão (Fator de pressão (PFPF))


11

ExperimentosExperimentos Apenas verificaçãoApenas verificação Classificadores K vmp, MLP MP e Neuro-FuzzyClassificadores K vmp, MLP MP e Neuro-Fuzzy Treinamento: 1 a 5 verdadeirasTreinamento: 1 a 5 verdadeiras Teste: 15 verdadeiras + 20 falsasTeste: 15 verdadeiras + 20 falsas Criterio de rejeiCriterio de rejeiçãção: Neuro-Fuzzy e K vmpo: Neuro-Fuzzy e K vmp

rejeitar rejeitar XX ( (C - RC - R) < ) < XX < ( < (C + RC + R))

Performance = Acerto - (ErroI + ErroII)Performance = Acerto - (ErroI + ErroII)

CC-R C+R


12

• K vizinhos mais próximos

Tipo de Falsificação Acerto Erro I Erro II Rejeição Performance Ktodas 60.51 13.70 20.00 23.69 26.81 2simuladas 35.57 10.60 10.00 49.13 4.97 3randômicas 82.30 7.40 14.40 6.80 60.50 1


13

Tipo de Falsificação Acerto Erro I Erro II Rejeição Performancetodas 50.22 58.60 32.13 0.00 -40.51 simuladas 52.23 63.40 32.13 0.00 -43.30 randômicas 57.03 53.80 32.13 0.00 -28.90

Tipo de Falsificação Acerto Erro I Erro II Rejeição Performancetodas 69.04 31.50 29.87 0.00 7.68 simuladas 64.27 41.60 29.87 0.00 -7.20 randômicas 74.37 21.40 29.87 0.00 23.10

• MLP Backpropagation– Investigadas 3 arquiteturas

• (a) entradas[12], escondida[12], saída[1]

• (b) entradas[12], escondida[6], saída[1] -- melhor

• (c) entradas[12], escondida[3], saída[1]

1o.padrão

melhorpadrão


14

• Classificador neural difuso

Tipo de Falsificação Acerto Erro I Erro II Rejeição Performancetodas 70.87 16.10 11.60 14.53 43.17 simuladas 70.87 30.00 11.60 1.27 29.27 randômicas 70.87 2.20 11.60 1.27 57.07


15

Atividades desenvolvidas Atividades desenvolvidas

Pesquisa bibliográfica nas áreas de redes neurais, processamento de imagens e

reconhecimento de padrões

Construção de uma base de dados de assinaturas utilizando técnicas

para aquisição, pré-processamento e segmentação

Investigação experimental de algumas configurações de técnicas sobre a base de

dados

Estudo teórico enfatizando técnicas

para extração de características e reconhecimento


16

Sistemas de Visão Biologicamente Inspirados

• Mechanisms from Biology

– Foveated vision: retina-like image representation (log-polar) has useful properties

– Visual attention: fixation gives insights where object features (or components) are likely to be found

– Primal sketch: provides more compact representations for image data and cues for an attention mechanism

17

• System’s architecture

Primitive models

Model relationships

Model base

Cluster objects

Update attention

Attention Map

Feature planes

Extract primal sketch planes

Foveate Image

Generic Scenes


18

• Image representation– Gaussian receptive field

function

– Local contrast normalisation for estimating original reflectance information

– Primal sketch features (edges, bars, blobs and ends) learned and extracted using a neural network approach

– Log-polar


19

• Traditional image feature extraction operators– Cartesian domain (artefact of sensor architecture)

– Work independently of each other

– Designed by hand

• Primate visual system– Mapping from retina to visual cortex is log-polar

– Learning

• Primal sketch [Marr82]

– Features like edges, bars, blobs, ends detected at a number of orientations and contrasts

– Grouping processes


20

• Related Work– Neural network learning of Edge features [CTR95,PB92]

• Limited to edges

• Comparable to Sobel or Canny performances

– Arbitrary features in the log-polar domain [GF96]

• Operators manually designed

• Poor sensitivity to the feature´s contrast

• Limited to a fixed window size

af

xe

dc

b

Edge@0= ABS(f+a+b-c-d-e)/3

Edge@60 = ABS(a+b+c-d-e-f)/3

...

+Blob = MIN(x-a,x-b,x-c,x-d,x-e,x-f)

Extração de Características

21

• Training process

Exemplarsof

Features

NormaliseOrientation

ComputeProjection

BuildTraining Set

Train NeuralNetworks

TrainingSet

NN

EdgeBarBlobEnd

PCs

EdgeBarBlobEnd

feature class and contrast

recep. field windows


22

• Testing process

TestImages

ExtractRecep. Fields

NormaliseOrientation

ApplyNeural

Networks

ComputeFeaturePlanes

NN

EdgeBarBlobEnd

PCs

EdgeBarBlobEnd

ComputeProjection

Planes

EdgeBarBlobEnd

Feature class, positioncontrast and orientation

position

orientation


23

• Principal Components from a set of synthetic features


24

• Neural network architecture

Ñ

N...

Receptive field window

[1x19] [19x17]

[1x17]

PCA projected window

Neural network

Principal components

Edg

eBar

Blob

End


25

• Evaluation – Ground truth for untrained synthetic features


26

• Output of the Edge neural module


27

• Testing on synthetic imagesIn

put

Ret

inal

Out

put

Edges +Bars -Blobs +Blobs


28

• Testing on real images

NeuralOutputs

RetinalImage

LogicalOperators

Input Image


29

• Conclusions– New learning-based approach to extracting primal

sketch features

– Better results when compared to a previous approach• More correctly classified features

• Good estimate for the feature´s contrast

• Can be easily applied to different window sizes and new feature types

– Successfully being used as the core representation in the problem of learning structural relationships from sets of 2D image-based models


30

Reconhecimento de Objetos Baseado na Aparência Usando SVM

• Base de Dados Minolta– Objetivo: avaliar o comportamento de SVM

diante do problema.– Base de dados: Minolta - da Universidade do

Estado de Ohio, disponível em sampl.eng.ohio-state.edu/~sampl/data/3DDB/RID/minolta.

– Foram selecionadas 10 classes de objetos (angel, brain, bottle, duck, face, frog, horn, lobster, pooh e valve).

– 20 visões diferentes de cada classe

31

– Preprocessamento: todas as imagens foram convertidas para níveis de cinza e re-escalonadas para o tamanho 100x100 pixels.

Figura 6 Objeto angel

Figura 7 Objeto horn


32

– Ferramenta: OSU SVM toolbox Matlab, eewww.eng.ohio-state.edu/~maj/osu_svm;

• Tipo de kernel: Polinomial de grau 2.• Tipo de algoritmo: classificador padrão.

– Foi utilizada a estratégia de construção de conjuntos de treinamento e teste com diferentes tamanhos:

• Cada conjunto de treinamento usou T amostras por classe e cada conjunto de teste usou (20-T) amostras por classe, onde T=1,2,...,19.


33

• Resultados:

Figura 8 Desempenho de SVM na base Minolta

–Taxa média de reconheci-mento foi 90%;–Melhor taxa 98%, para T=13;–Pior taxa 71% para T=1;


34

• Base de dados: COIL100 – disponível em www.cs.columbia.edu/CAVE.– É uma das melhores bases para investigar

algoritmos de reconhecimento baseado na aparência.

– Consiste de 7.200 imagens coloridas de 100 objetos.

– Cada imagem foi adquirida em uma variação de 5o, formando 72 visões para cada imagem, com dimensão 128x128.


http://www.cs.columbia.edu/CAVE

35

• Pré-processamento: todas as imagens foram convertidas para níveis de cinza e re-escalonadas para o tamanho 32x32 pixels.– Dependendo do ângulo algumas imagens parecem

maiores.

Figura 9 Alguns objetos da COIL100

Figura 10 Visões do objeto 44 , do ângulo 260o a 300o


36

• Ferramentas:– Para SVM: LIBSVM, disponível em

www.csie.ntu.edu.tw/~cjlin/libsvm.

– Para Redes Neurais: SNNS (Stuttgart Neural Network Simulator), disponível em www-ra.informatik.uni-tuebingen.de/SNNS.


http://www.csie.ntu.edu.tw/~cjlin/libsvm

http://www.ra.informatik.uni-tuebingen.de/SNNS

37

• Testando diferentes Kernels– Objetivo: fazer uma avaliação prática sobre a

precisão, comportamento e número de vetores de suporte produzidos por três tipos de kernel polinomial:

• linear;

• quadrático;

• cúbico.


38

• Treinamento/teste: Foram construídos conjuntos de treinamento/teste de diferentes tamanhos.– todas as 100 classes foram utilizadas e todas as

visões;– um total de 71 conjuntos de treinamento e de

teste foram criados;– T amostras (visões aleatórias) para treinamento

e (71-T) para testes, por classe, onde T=1,2,...,71.


39

Figura 11 Número de vetores de suporte criados versus tamanho do conjunto de treinamento (100*T) para os três tipos de kernel.

• Resultados:


40

• Resultados: pequena superioridade para o kernel quadrático.

• Foi realizada a estratégia k-fold cross validation para reforçar os resultados obtidos;– valor de k=10; – precisão média alcançada: 87,55%


41

• Resultados

Figura 12 Curvas de reconhecimento para os kernels: linear, quadrático e cúbico


42

• Estudo Comparativo: SVM x Redes Neurais– Objetivo: Comparar experimentalmente SVM e Redes

Neurais do tipo Multilayer Perceptron Backpropagation;

– Considerou apenas aspectos relativos à precisão;

– Estratégia de classificação multiclasses: “um-versus-um”;

– A estratégia multiclasses produziria um elevada quantidade de classificadores;

– Foi necessário portanto, reduzir a quantidade de classes.

– O número de classes utilizadas foi 10;


43

• Estudo Comparativo: SVM x Redes Neurais– Treinamento/teste: Foram construídos conjuntos de

treinamento/teste de diferentes tamanhos;– Todas as 10 classes foram utilizadas e todas as 72

visões;– Foram produzidos 45 classificadores binários para cada

tamanho de conjunto de treinamento/teste (71 conjuntos);

– Arquitetura da Rede:• Camada de Entrada: 1024 neurônios• Camada Escondida: 4 neurônios• Camada de Saída: 2 neurônios.


44

As técnicas apresentaram

desempenho semelhante

Figura 13

Curvas de reconhecimento para SVM e Redes Neurais


45

• Conclusões

– Apresentou SVM como como uma opção para realizar reconhecimento de objetos baseado na aparência;

• Investigou o desempenho da técnica nesse problema;

• Comparou três tipos de SVM;• Comparou SVM com Redes Neurais;

– Procurou apresentar a teoria de formaliza SVM utilizando uma linguagem mais didática e acessível


46

• Perspectivas de Trabalhos Futuros

– Realizar o estudo comparativo entre SVM e Redes Neurais utilizando todas as 100 classes;

– Testar extensões de SVM;– Estudo comparativo entre metodologias

multiclasses;– Extender o domínio de aplicação de SVM

para problemas como Regressão e Detecção de Novidades.


47

• Descrição do problema – Dirigir processamento intensivo da

informação visual;• Sistemas de Apoio ao Motorista (Driver

Support Systems – DSS);– Segurança;– Conforto.

• Segurança de tráfego Sinalização:– Desatenção;– Tráfego intenso;– O sistema como um co-piloto

Reconhecimento de Placas de Sinalização

48


• Objetivos e Relevância:– Escopo do trabalho;

– Objetivos principais:• Estudar e implementar um mecanismo de atenção

visual;• Investigar a utilização de uma Rede Neural para a

tarefa de classificação.

– Contribuições:• Perspectiva de geração de conhecimentos para o

desenvolvimento de tecnologia nacional em DSS;• Proposta de um modelo híbrido biologicamente

inspirado;– Mecanismo de Atenção Visual + Redes

Neurais.

49

• Objetivos e Relevância:– Contribuições:

• Demonstração da aplicabilidade de um mecanismo de atenção visual à tarefa de localização de placas;

• Perspectiva de parcerias.


50

• Trabalhos relacionados:– Detecção de obstáculos;

– Detecção de marcas da pista;

– Sistemas Integrados;

– Detecção e reconhecimento de sinais de tráfego:• Busca reduzida através de algum conhecimento a

priori;• Análise geométrica das arestas da imagem;• Reconhecimento Correlação cruzada


Piccioli e Colegas,

1996


51

• Trabalhos relacionados:– Detecção e reconhecimento de sinais de tráfego:

• Segmentação de cor (Color Structure Code);• Reconhecimento controle fuzzy;• Parceria: Daimler-Benz e Universidade Koblenz-

Landau

Priese e colegas,

1993


52

• Arquitetura Geral


53

• Experimentos preliminares:– Seleção manual de Placas;

– Classe: placas pare, proibido ultrapassar e imagens sem placas – 14 imagens;

– Pré-processamento;

– Treinando com T padrões e testando com 14-T;

– Resultados:• Melhor taxa – 100% ;

• Pior taxa – 56,41%;

• Indicaram a possibilidade de classificar imagens pequenas (20x20 pixels).


54

• Definição da Arquitetura Neural:– Camada de entrada = 400 neurônios tamanho das

imagens;

– Camada de saída = número de classes winner-takes-all;

– Camada escondida No de Neurônios SSE/1000 Épocas

7 29,8216

14 3,2632

21 1,0610

28 0,1326

3535 0,12610,1261

42 1,0976

49 1,0945

56 0,9165

63 0,7991

70 1,0807

Classes Saídas Desejadas

1 1 0 0 0 0 0 0

2 0 1 0 0 0 0 0

3 0 0 1 0 0 0 0

4 0 0 0 1 0 0 0

5 0 0 0 0 1 0 0

6 0 0 0 0 0 1 0

7 0 0 0 0 0 0 1


55

• Módulo de Detecção:– Imagens com placas 15 imagens 16 placas;

– Número fixo de regiões selecionadas (K);

– Resultados:• K=5 75% de localização (12 imagens);

• K=19 93,75% de localização (15 imagens);

– Análise a partir da complexidade da busca:• K=5 0,0059% dos pontos da imagem;

• K=19 0,0225% dos pontos imagem;

– Comparação com a geração randômica de pontos de interesse;


56

• Integração dos módulos:– Formação de novos conjuntos de treinamento e

teste;• Ocorrência de placas durante o vídeo;

• Poucas ocorrências escolhidas 2 por classe;

• Quadros sucessivos + microsacadas = 85 imagens por classe;

• 7 classes:

• Uma classe de imagens sem placas;


57

• Integração dos módulos:– Resultados – Módulo de Detecção:

• Mesmo método utilizado no primeiro experimento;

• Máscara com raio menor (5) menor risco de

inibição inesperada aumento no número de pontos

analisados;

• K=33 100% de localização 0,039% dos pontos

da imagem;

• Regiões selecionadas formam o conjunto de teste

para o Módulo de Reconhecimento.


58

• Integração dos módulos:– Resultados – Módulo de Reconhecimento:

• Arquitetura definida através de experimentos anteriores;

• Taxa de acerto no treinamento 100%;

• Baixas taxas de acerto nos testes:

Classe Taxa de Acerto

1 12,94 %

2 28,23 %

3 2,35 %

4 1,18 %

5 12,94 %

6 57,64 %

7 8,23 %


59

• Integração dos módulos:– Resultados – Módulo de Reconhecimento:

• Motivos principais:1. Falta de uma pré-processamento mais robusto e uma

representação mais compacta dos padrões;

2. Dimensionalidade do espaço de características;

3. A limitação da arquitetura MLP-BP em relação a translação dos objetos na imagem ( Kröner, 1996).

• Classificadores Binários combinação de classes duas a duas;

• Arquitetura baseada nos experimentos anteriores;

• Treinamento 100% de acerto para todas as redes.


60

• Integração dos módulos:– Resultados: Classe – Classe Taxa de Acerto

1 – 2 90 %

1 – 3 40 %

1 – 4 60 %

1 – 5 60 %

1 – 6 60 %

2 – 3 50 %

2 – 4 80 %

2 – 5 60 %

2 – 6 100 %

3 – 4 60 %

3 – 5 60 %

3 – 6 60 %

4 – 5 40 %

4 – 6 50 %

5 – 6 80 %

Módulo de Reconhecimento

ANÁLISE POR VOTAÇÃO


61

• Integração dos módulos:– Resultados:

Módulo de Reconhecimento

ANÁLISE ABSOLUTA

Classe – Classe Taxa de Acerto

1 – 2 84,12 %

1 – 3 40,59 %

1 – 4 54,12 %

1 – 5 52,94 %

1 – 6 57,64 %

2 – 3 41,17 %

2 – 4 58,82 %

2 – 5 53,52 %

2 – 6 80,58 %

3 – 4 51,17 %

3 – 5 63,53 %

3 – 6 52,35 %

4 – 5 43,52 %

4 – 6 52,35 %

5 – 6 55,88 %


62

• Análise dos resultados:– Alto desempenho do mecanismo de atenção na

localização das placas;

– Inibição de placas redução no raio da máscara;

– Regiões de fronteira com alta saliência;

– Possível classificar as regiões selecionadas através da abordagem neural:

• Aumento no número de padrões;

• Pré-processamento mais robusto;

• Representação através de características invariantes.


63

• Conclusões– O Trabalho apresentou:

• Estudo e implementação de uma mecanismo de atenção;

• Investigação preliminar no uso de Redes Neurais.

– Caráter multidisciplinar:• Inteligência Artificial, visão Computacional, Atenção

Visual, Neurofisiologia etc.

– Objetivos alcançados;• Módulo de Detecção eficiente:

– Demonstrando a utilidade na aplicação do mecanismo de atenção no problema investigado.


64

– Objetivos alcançados;• Investigação da abordagem neural:

– Resultados + características das imagens possível alcançar taxa melhores de classificação.

– Contribuições:• Estratégia de microsacadas;

• Aplicação do mecanismo de atenção na área de DSS;

• Experimentos com imagens reais de ruas e estradas.


65

• Dificuldades:– Nível experimental da área de atenção visual;

– Limitação dos recursos materiais:• Veículos adaptados, câmeras apropriadas, hardwares

dedicados, processamento paralelo, computadores de bordo, conservação das rodovias.

• Trabalhos futuros:– Finalizar a integração dos classificadores

binários;

– Aquisição de novas imagens;


66

• Trabalhos futuros:– Implementação do Módulo de Detecção em

uma arquitetura dedicada (ex. FPGA);

– Aplicar pré-processamento mais completo;

– Utilizar uma representação mais compacta das imagens;

– Investigar outras arquiteturas neurais para a tarefa de classificação (Kröner, 1996);


Documents

Extração de Características