A Review of Algorithms for Audio Fingerprinting Autores : Pedro Cano Ton Kalker IEEE - MMSP – International WorkShop on Multimedia Signal Processing 2003

A Review of Algorithms for Audio Fingerprinting

Autores : Pedro Cano Ton Kalker

IEEE - MMSP – International WorkShop on Multimedia Signal Processing

2003

Introdução

O AudioFingerPrint é uma assinatura gerada do conteúdo do sinal do áudio.

Pode ser utilizado para identificar um som desconhecido rapidamente em uma base de músicas ( idependente do formato do áudio )

Introdução

Neste trabalho avaliamos diferentes técnicas e modelos de Fingerprint.

Quando apresentado um audio desconhecido sua FingerPrint é calculada e comparada ( matching) com FingerPrints armazenadas em um Banco de Dados.

Usando bons algoritmos de matching até mesmo áudio com ruídos podem ser identificados.

Desafio

A grande dificuldade de identificar o audio automaticamente :

1 - Seu conteudo deriva de uma elevada dimensionalidade.

2 - Existe uma variancia significativa dos dados de audio para uma música similar.

Pré - Requisitos

O sistema deve ser equivalente ao reconhecimento humando de uma determinada música.

Pequenos trechos arbitrários de uma música, devem ser suficientes para o reconhecimento.

Deve ser robusto o suficiente contra ruídos, gravação de má qualidade, low bit-rate,etc.

Feature Extraction

Extração de features é uma etapa fundamental que influencia diretamente no desempenho geral do sistema.

A configuração atual do audio é segmentado em janelas, onde cada janela é mapeada em uma representação espectral.

Training

Os vetores de features são normalizados.

Utiliza-se um classificador linear que se baseia em uma representação compacta dos vetores de training.

A classificação é realizada usando um padrão NN ( Nearest Neighbor ).

Training VQ ( Vector Quantizantion ) K – means RMSE ( Root Mean Square Error)

Code Vector ( FingerPrint) Code Book

Matching Para cada música um codebook é gerado e associado a um metadado :

. Nome da Música . Artista . Genero

Para identificar um audio desconhecido, uma sequencia de vetores é gerado a partir da amostra deste audio e depois comparado ( aproximado ) a cada codebook da base de músicas.

Arquitetura do Sistema

Requisitos de Robustez

Cropping

Audio Encoding

Change volume

Noise

LoudSpeaker - Microfone

Requisitos Computacionais

Fingerprint é rápido.

Tarefa de matching é custosa dependendo do algoritmo de casamento, do tamanho da base e tamanho do “fingerprint”.

Avaliação

Um fator determinante no desempenho do sistema é a escolha de boas features.

. LoudNess

. SFM – ótima para discriminar diferentes sinais de áudio.

Avaliação

Avaliação

Aplicações

Monitoramento de rádio.

Identificação de uma música e “ linking” ao metadado.

Conclusões

Claramente ainda há um longo caminho para que o sistema seja tão eficaz em reconhecer determinada música comparado ao ouvido humano.

No entanto o atual nível de desempenho ja abre portas para um número interessante de aplicações.

Referências

K. El-Maleh, M. Klein, G. Petrucci, and P. Kabal. Speech music discrimination for multimedia applications. In ICASSP, vol. IV, pages 2445-2448, 2000.

E. Wold, T. Blum, D. Keislar, and J. Wheaton. Contentbased classification, search, and retrieval of audio. In IEEE Multimedia, vol. 3, pages 27-36, 1996.

A. K. Jain, R. P. W. Duin, and J. Mao. Statistical Pattern Recognition: A Review. IEEE Transaction

in Pattern Analysis and Machine Intelligence, 2(1), 2000.

E. Zwicker, and H. Fastl. Psychoacoustics. Springer, Berlin, 2nd edition, 1999.

N. Jayant, and P. Noll. Digital Coding of Waveforms.Prentice-Hall, Englewood Cliffs, NJ, 1984.

Documents

A Review of Algorithms for Audio Fingerprinting Autores : Pedro Cano Ton Kalker IEEE - MMSP – International WorkShop on Multimedia Signal Processing 2003