Upload
others
View
4
Download
0
Embed Size (px)
Citation preview
UNIVERSIDADE FEDERAL DO RIO DE JANEIRO
ESCOLA POLITÉCNICA
DEPARTAMENTO DE ENGENHARIA ELETRÔNICA E DE COMPUTAÇÃO
Cancelamento de Eco Acústico e Separação Cega de Fontes Aplicados à Telefonia Viva-Voz
Autor: _______________________________________________________
Felipe Sander Pereira Clark
Orientadora: _______________________________________________________
Profa. Mariane Rembold Petraglia, Ph.D.
Coorientador: ______________________________________________________
Prof. Diego Barreto Haddad, M.Sc.
Avaliador: ______________________________________________________
Prof. Luiz Wagner Pereira Biscainho, D.Sc.
Avaliador: ______________________________________________________
Prof. Júlio César Bosher Torres, D.Sc.
Avaliador: ______________________________________________________
Prof. Paulo Bulkool Batalheiro, D.Sc
DEL
DEZEMBRO DE 2010
ii
UNIVERSIDADE FEDERAL DO RIO DE JANEIRO
Escola Politécnica - Departamento de Eletrônica e de Computação
Centro de Tecnologia, Bloco H, sala H-217, Cidade Universitária
Rio de Janeiro - RJ CEP 21949-900
Este exemplar é de propriedade da Universidade Federal do Rio de Janeiro, que poderá incluí-
lo em base de dados, armazenar em computador, microfilmar ou adotar qualquer forma de
arquivamento.
É permitida a menção, reprodução parcial ou integral e a transmissão entre bibliotecas deste
trabalho, sem modificação do seu texto, em qualquer meio que esteja ou venha a ser fixado,
para pesquisa acadêmica, comentários e citações, desde que sem finalidade comercial e que
seja feita a referência bibliográfica completa.
Os conceitos expressos neste trabalho são de responsabilidade do autor e dos orientadores.
iii
DEDICATÓRIA
Dedico este trabalho à minha família, que sempre me apoiou e priorizou os estudos. Menciono
especialmente minha avó, que sempre disse que a maior realização da vida dela seria ver seus
dois netos graduados. Infelizmente, ela só pode vivenciar a graduação do meu irmão,
entretanto, deixo esta homenagem in memoriam à pessoa cuja convivência mais marcou a
minha vida; ela sempre renovava minhas esperanças todo fim de tarde, quando
conversávamos ao telefone, mesmo que trocássemos poucas palavras.
Também não posso deixar de mencionar em particular minha mãe, meu pai, meu irmão e
minha tia "velha", que sempre reclamaram que eu estudava demais e dormia de menos, mas
me apoiaram do começo ao fim da graduação com seu carinho e proporcionando momentos
especiais que faziam todo o sacrifício valer a pena. Se não fosse por um apoio tão forte, é
possível que estas linhas nem ao menos estivessem sendo escritas.
Deixo uma dedicatória particular para minha namorada que, muito pacientemente, passava
semanas sem me ver, pois eu precisava estudar e, no fim de semana, continuava sem se
encontrar comigo, já que eu continuava estudando. Obrigado pela compreensão.
iv
AGRADECIMENTO
Além da gratidão que tenho ao apoio familiar e à minha namorada, agradeço também à
Mariane Rembold Petraglia e Diego Barreto Haddad pela orientação e paciência.
Agradeço profundamente à Camila Simões da Costa Cunha Vasconcelos e ao Paulo Roberto
Yamasaki Catunda por terem me ajudado a realizar a aquisição dos sinais usados nos testes de
desempenho dos algoritmos desenvolvidos neste projeto. Se eles não tivessem tido a
paciência e a boa vontade de ficaram até 22 h no Fundão comigo, talvez os testes
apresentados fossem menos expressivos.
Destaco os vinte amigos que participaram dos testes subjetivos feitos no PADS. Em especial,
agradeço à Fernanda Duarte Vilela Reis de Oliveira, que não só participou do teste, avaliando
cada quesito com enorme cuidado, mas também convidou um grande grupo para realizá-lo.
Registro meu grande agradecimento e carinho pelos amigos que conquistei na faculdade. Sem
dúvida foram as melhores pessoas com quem já trabalhei e que fizeram com que eu
descobrisse que o trabalho em equipe - quando se tem o grupo certo - é extremamente
engrandecedor.
Por fim, destaco nominalmente aqueles que mais estiveram próximos de mim durante a
graduação, com quem compartilhei sorrisos e tristezas, notas boas e ruins, momentos de
descontração e horas de estudo pela madrugada.
Obrigado Carlos Vinícius Caldas Campos pelo suporte matemático (mesmo que algumas vezes
formal demais) que você nos deu.
Obrigado Dayana Sant’Anna Lole e Pedro Henrique Valverde Guimarães por todos os trabalhos
que fizemos juntos e todas as horas de estudo em grupo.
Obrigado Renan Mariano Almeida por ter estado sempre presente para ajudar seus amigos e
por ter sido o elo mais forte do nosso grupo.
Sem vocês este projeto não teria sido possível.
Muito obrigado a todos, jamais os esquecerei.
v
RESUMO
A criação do primeiro telefone por Antonio Santi Giuseppe Meucci em 1856 sinalizou o início
da revolução na maneira como nos comunicamos. Entretanto, desde sua criação, o telefone
apresenta o mesmo inconveniente: manter ao menos uma das mãos ocupadas enquanto
conversamos.
A inovação trazida pelos sistemas de viva-voz sanou este inconveniente, mas sua aplicação em
grande escala trouxe o problema do acoplamento entre caixa de som e microfone, causando
eco na conversação. Esta nova mazela começou a receber tratamento por meio de técnicas de
processamento de sinais na década de 1950 [1] e, atualmente, com o avanço dos
microcomputadores digitais, surgem novas perspectivas de solução a serem estudadas.
Este tratamento torna-se importante na medida em que o eco degrada a inteligibilidade da
comunicação. Além disto, se os dois interlocutores de uma conversação estiverem utilizando
sistema viva-voz, a realimentação do eco em ambos os terminais poderá instabilizar o sistema,
inviabilizando a compreensão da conversa.
Neste sentido, pretende-se formular uma solução computacional para o problema. O sistema
desenvolvido será híbrido, aplicando técnicas de filtragem adaptativa no domínio do tempo e
de separação cega de fontes, sendo o método a empregar a cada instante selecionado
automaticamente em função de características do sinal a processar.
Assim, a importância deste trabalho é podermos aplicar seus resultados aos sistemas de viva-
voz de maior porte, maximizando a inteligibilidade e permitindo a liberação das mãos durante
conversações telefônicas.
Palavras chave: processamento de sinais; filtragem adaptativa; cancelamento de eco acústico;
separação cega de fontes; clusterização; dependência estatística de alta ordem; direção de
chegada em arranjo de microfones.
vi
ABSTRACT
The assembly of the first telephone by Antonio Santi Giuseppe Meucci in 1856 characterized a
revolution in the way we communicate. Nevertheless, since its invention, the telephone
presents the inconvenience of keeping one of our hands busy while holding the hook.
Later innovative telephones that boasted loudspeakers and microphones were presented,
allowing, for the first time, hands-free communications. However, since the loudspeaker and
the microphone were enclosed in the same environment, their coupling would cause acoustic
echo in every conversation. This problem began to be treated by means of signal processing, in
the 1950s [1] and, nowadays, new solutions that profit from the stunning processing power of
modern computers are coming to light.
Those solutions are of the uttermost importance, since acoustic echo may severely
compromise a dialog’s intelligibility. Furthermore, more often than not, echo in both terminals
may turn the communication system unstable, making the conversation impossible.
Therefore, we propose a hybrid computational solution for this problematic aspect of hands-
free communication systems that mixes time-domain adaptive filtering and blind source
separation techniques. The switching between both methods depends only on certain
characteristics of the signals being processed, and happens automatically.
Hence, the importance of the techniques developed along this text is their use as an
improvement for hands-free communication systems, providing better comprehension and
quality.
Index terms: signal processing; adaptive filtering; acoustic echo cancellation; blind source
separation; clustering; higher order statistical dependency; direction of arrival.
vii
SIGLAS
UFRJ – Universidade Federal do Rio de Janeiro
PADS - Laboratório de Processamento Analógico e Digital de Sinais (UFRJ)
NLMS - Normalized Least Mean Squares
VAD - Voice Activity Detector
ALED - Adaptive Linear Energy Detector
LSED - Linear Sub-band Energy Detector
SMBVAD - Statistical Model Based Voice Activity Detector
DTD – Double-Talk Detector
BSS – Blind Source Separation
EDAOR – Exploração de dependências estatísticas de alta ordem
STFT – Short Time Fourier Transform
ICA – Independent Component Analysis
PDF – Probability Density Function
viii
SUMÁRIO
LISTA DE FIGURAS ..................................................................................................................... x
LISTA DE TABELAS ................................................................................................................... xii
Introdução ................................................................................................................................ 1
Capítulo 1 – Fundamentação Teórica ........................................................................................ 4
1.1 - Filtragem adaptativa ..................................................................................................... 4
1.1.1 - Predição Linear ....................................................................................................... 4
1.1.2 - Steepest Descent .................................................................................................... 7
1.1.3 - Least-Mean-Squares e Normalized Least-Mean-Squares (LMS/NLMS) ..................... 9
1.2 - Separação cega de fontes ............................................................................................ 12
1.3 - Técnicas de clusterização ............................................................................................ 18
1.3.1 - K-médias .............................................................................................................. 18
1.3.2 - Clusterização Fuzzy (Fuzzy C-Means Clustering) .................................................... 19
1.4 - Avaliação de desempenho da separação cega de fontes .............................................. 22
Capítulo 2 - Cancelamento de Eco Acústico por Método Adaptativo no Domínio do Tempo ..... 24
Capítulo 3 - Normalized Least-Mean-Squares .......................................................................... 27
Capítulo 4 - Detectores de Voz................................................................................................. 28
4.1 - Adaptive Linear Energy-Based Detector ....................................................................... 28
4.2 - Linear Sub-Band Energy Detector ................................................................................ 33
4.3 - Detector Estatístico ..................................................................................................... 36
Capítulo 5 - Detector de Fala Simultânea ................................................................................. 41
Capítulo 6 – Resultados do Sistema Integrado ......................................................................... 44
Capítulo 7 – Separação Cega de Fontes Aplicada ao Cancelamento de Eco .............................. 47
Capítulo 8 – Mascaramento em Frequência: A Separação Inicial de Fontes Usando Informações
de Direção de Chegada em Arranjo de Microfones .................................................................. 50
Capítulo 9 – Otimizando a Separação de Fontes Através da Exploração de Dependências
Estatísticas de Alta Ordem no Domínio da Frequência ............................................................. 54
Capítulo 10 – Resultados do Mecanismo de Separação Cega de Fontes ................................... 58
Testes objetivos .................................................................................................................. 58
Testes subjetivos ................................................................................................................. 72
Capítulo 11 – Conclusões e trabalhos futuros .......................................................................... 78
Bibliografia ............................................................................................................................. 80
Apêndice A ............................................................................................................................. 84
ix
Apêndice B.............................................................................................................................. 89
Apêndice C .............................................................................................................................. 90
x
LISTA DE FIGURAS
Fig. 1 - Diagrama de blocos do preditor linear ........................................................................... 4
Fig. 2 - Superfície de erro do preditor linear. ............................................................................. 5
Fig. 3 - Diagrama de blocos do método Steepest Descent. ......................................................... 7
Fig. 4 - Diagrama de blocos do NLMS. ...................................................................................... 10
Fig. 5 - Interpretação geométrica do NLMS (Adaptado de [5]) ................................................. 11
Fig. 6 - Tipos de misturas. ........................................................................................................ 12
Fig. 7 - Tipos de misturas (Adaptado de [24])........................................................................... 13
Fig. 8 - Ambiguidade de independência entre sinais. ............................................................... 15
Fig. 9 - Sinais branqueados (descorrelacionados)..................................................................... 17
Fig. 10 - Fluxo típico de BSS. .................................................................................................... 17
Fig. 11 - Clusterização k-médias............................................................................................... 18
Fig. 12 - Evolução dos centróides aplicando-se o fuzzy c-means. ............................................. 20
Fig. 13 - Invólucro probabilístico sobre os centroides (linha superior: em perspectiva; linha
inferior: vista superior)............................................................................................................ 21
Fig. 14 - Esquema de aplicação da filtragem adaptativa como solução do problema de
cancelamento de eco acústico. ............................................................................................... 25
Fig. 15 - Diagrama de blocos de um sistema de cancelamento de eco acústico com emprego de
VAD. ....................................................................................................................................... 26
Fig. 16 - Diagrama de blocos de um sistema de cancelamento de eco acústico com emprego de
VAD e DTD. ............................................................................................................................. 26
Fig. 17 - Aplicação do NLMS em cancelamento de eco acústico. .............................................. 27
Fig. 18 - Comparação de energia de um sinal com um limiar fixo. ............................................ 29
Fig. 19 - Desempenho do ALED. ............................................................................................... 31
Fig. 20 - Diagrama lógico do LSED. ........................................................................................... 33
Fig. 21 - Desempenho do LSED. ............................................................................................... 34
Fig. 22 - Degeneração do desempenho do LSED ...................................................................... 35
Fig. 23 – Diagrama de blocos do VAD no domínio estatístico (Adaptado de [11]). .................... 36
Fig. 24 - Desempenho do VAD estatístico. ............................................................................... 39
Fig. 25 - Diagrama de blocos de um sistema de cancelamento de eco acústico com emprego de
VAD e DTD. ............................................................................................................................. 41
Fig. 26 - Esquema lógico do DTD.............................................................................................. 42
Fig. 27 - Resultado do DTD. ..................................................................................................... 43
Fig. 28 - Resultados do sistema integrado................................................................................ 44
Fig. 29 - Resultado da filtragem adaptativa bem sucedida. ...................................................... 45
Fig. 30 - Resultado da filtragem adaptativa com divergência dos coeficientes do filtro. ........... 46
Fig. 31 - Longo período de dupla voz. ...................................................................................... 47
Fig. 32 - Sistema híbrido: adaptativo e BSS. ............................................................................. 48
Fig. 33 - Nova proposta de BSS ................................................................................................ 49
Fig. 34 - Explorando o arranjo espacial de um ambiente acústico. ........................................... 50
Fig. 35 - Dispersão dos ângulos. .............................................................................................. 52
Fig. 36 - Ambiente de testes montado no PADS. ...................................................................... 58
Fig. 37 - Análise de forma de onda e espectro para os resultados da Tab. 3 ............................. 66
xi
Fig. 38 - Análise de forma de onda e espectro para os resultados da Tab. 4 ............................. 67
Fig. 39 - Análise de forma de onda e espectro para os resultado da Tab. 5 .............................. 68
Fig. 40 - Resultados subjetivos em formato simplificado.......................................................... 74
xii
LISTA DE TABELAS
Tab. 1 - Comparativo entre algoritmos adaptativos ................................................................. 27
Tab. 2 - Critério de atualização de p ........................................................................................ 29
Tab. 3 – Avaliação em ambiente silencioso / Janela de Hanning / Com princípio da distorção
mínima. .................................................................................................................................. 60
Tab. 4 - Avaliação em ambiente ruidoso / Janela de Hanning / Sem princípio da distorção
mínima. .................................................................................................................................. 60
Tab. 5 - Avaliação em ambiente ruidoso / Janela de Hanning / Com princípio da distorção
mínima ................................................................................................................................... 61
Tab. 6 – Comparativo da SIR entre o uso da técnica de mascaramento binário (M) e após
aplicação da otimização proposta (O) para misturas simuladas. .............................................. 65
Tab. 7 - Comparativo de número de iterações e SIR entre a nova proposta e a técnica clássica
de separação de fontes. .......................................................................................................... 65
Tab. 8- Técnica clássica: Avaliação em ambiente silencioso / Janela de Hanning / Com princípio
da distorção mínima ............................................................................................................... 69
Tab. 9 - Técnica clássica: Avaliação em ambiente ruidoso / Janela de Hanning / Sem princípio
da distorção mínima – O símbolo indica que o método não convergiu ................................. 69
Tab. 10 - Técnica clássica: Avaliação em ambiente ruidoso / Janela de Hanning / Sem princípio
da distorção mínima ............................................................................................................... 70
Tab. 11 - Testes subjetivos para a técnica de branqueamento ................................................. 75
Tab. 12 - Testes subjetivos para a técnica de mascaramento binário de frequências ............... 76
Tab. 13 - Testes subjetivos para o novo método de separação cega de fontes ......................... 77
Tab. 14 - Avaliação em ambiente silencioso / Janela de Hanning / Com princípio da distorção
mínima. .................................................................................................................................. 84
Tab. 15 - Avaliação em ambiente silencioso / Janela de Hanning / Sem princípio da distorção
mínima. .................................................................................................................................. 85
Tab. 16 - Avaliação em ambiente ruidoso / Janela retangular / Sem princípio da distorção
mínima. .................................................................................................................................. 85
Tab. 17 - Avaliação em ambiente silencioso / Janela retangular / Sem princípio da distorção
mínima. .................................................................................................................................. 86
Tab. 18 - Avaliação em ambiente ruidoso / Janela de Hanning / Sem princípio da distorção
mínima. .................................................................................................................................. 86
Tab. 19 - Avaliação em ambiente silencioso / Janela de Hanning / Com princípio da distorção
mínima. .................................................................................................................................. 87
Tab. 20 - Avaliação em ambiente ruidoso / Janela retangular / Com princípio da distorção
mínima. .................................................................................................................................. 87
Tab. 21 - Avaliação em ambiente silencioso / Janela retangular / Com princípio da distorção
mínima. .................................................................................................................................. 88
1
Introdução Tema
Em sistemas de teleconferência de grande porte, não raro precisa-se de microfones eficazes e
de alto-falantes suficientemente potentes para atenderem a uma sala espaçosa. Entretanto,
justamente pela coexistência desses alto-falantes e microfones, muitas vezes estes terminam
por readquirir a informação reproduzida por aqueles.
Quando esta situação ocorre, temos a retransmissão da mensagem recebida para o outro
interlocutor. Supondo o uso do mesmo tipo de sistema pelos dois participantes da conversa,
teremos um eco contínuo sendo transmitido para ambas as partes.
Delimitação
Os sinais utilizados no estudo do processo de cancelamento de eco são originais e gravados
pelo autor do trabalho (exceto onde explicitamente mencionado). Esses sinais terão sua banda
restrita a 4 kHz e resolução de 16 bits por amostra, de modo a emular as mesmas
características presentes no sistema de telefonia fixa.
A aquisição de sinais foi realizada, em todos os exemplos desenvolvidos, por microfones
condensadores onidirecionais Behringer ECM8000 alimentados via phantom power por uma
mesa de som Behringer Eurorack MX 3242X cujas saídas direct-out foram conectadas às
entradas analógicas traseiras de uma placa de captura M-AUDIO Firewire 1814. As demais
características do sistema de captura de áudio, referentes ao hardware empregado, são: Intel
DG31PR, processamento por Intel Core2Duo 2.8 GHz e memória auxiliar de 2 Gb DDR2 667. O
software utilizado para aquisição dos sinais foi o Pro Tools M-Powered 8.
Destacamos que o desenvolvimento apresentado na parte III deste texto tem como intuito o
estudo e teste de uma implementação alternativa à solução clássica para os momentos de
double-talk apresentada na parte II. Entretanto, embora seja desenvolvida esta solução, ela
não foi testada em conjunto com os elementos desenvolvidos na segunda parte, já que isto
demandaria mecanismos de controle cujo desenvolvimento foge do escopo deste projeto.
Ademais, enfatizamos que todos os testes apresentados na terceira parte envolveram apenas
dois microfones porque dispúnhamos apenas desta quantidade.
Por outro lado, como a proposta apresentada na parte III representa um sistema inédito, seus
resultados serão submetidos a testes subjetivos, de modo que possamos investigar se a
inovação proposta é capaz de adequar-se às exigências do público-alvo.
Finalmente, ressaltamos que em todos os testes que utilizam sinais comprometidos por ruído
branco, este não foi gerado artificialmente e adicionado ao sinal; na realidade, modelamos o
ruído gerado pelo ar-condicionado do nosso ambiente de trabalho aproximadamente como
ruído branco de média nula e variância Desta forma, quanto tratamos de variações na
energia deste ruído, estamos nos referindo a gravações feitas em local mais próximo ou mais
distante do ar-condicionado ou de variações criadas via software neste ruído.
2
Justificativa
Embora seja possível conviver com o eco unilateral num sistema de comunicação, a
degradação da inteligibilidade não é desprezível. Além disto, se os dois interlocutores de uma
conversação estiverem utilizando aparelhos viva-voz, a realimentação do eco em ambos os
terminais poderá instabilizar o sistema, comprometendo integralmente a compreensão e a
continuidade da conversa.
Assim, a importância deste trabalho é podermos aplicar seus resultados aos sistemas de viva-
voz de maior porte, como em salas de teleconferência, maximizando a inteligibilidade e
permitindo a desocupação das mãos ao realizarmos telefonemas.
Objetivos do projeto
O objetivo geral é, portanto, realizar computacionalmente um sistema de cancelamento de
eco acústico abordando duas técnicas: processamento adaptativo no domínio do tempo e
separação cega de fontes.
Metodologia
Será elaborada a seguinte metodologia para alcançarmos o objetivo proposto: associados ao
sistema adaptativo no domínio do tempo, utilizaremos mais de um microfone para viabilizar o
emprego de técnicas de separação cega de fontes. Na primeira parte de tal abordagem a
estimativa do eco será controlada por “chaves” acionadas por voz, conhecidas como
detectores de atividade vocal (VAD, do inglês Voice Activity Detector) e detectores de
sobreposição de fala (DTD, do inglês Double-Talk Detector).
Enquanto o preditor será implementado mediante o algoritmo Normalized Least Mean
Squares (NLMS), a chave VAD utilizará uma de três tecnologias, duas delas utilizando a energia
dos sinais como referência (uma no domínio do tempo e outra no domínio da frequência) e a
terceira atuando no domínio estatístico dos sinais.
Na segunda parte, proporemos um novo mecanismo para solucionar o problema de separação
cega de fontes. Para tal, combinaremos de maneira inédita dois mecanismos já existentes: a
separação de fontes através de informações sobre a direção de chegada em um arranjo de
microfones e a solução explorando dependências estatísticas de alta ordem entre as
componentes em frequência dos sinais que se deseja obter.
Todos os blocos desenvolvidos serão submetidos a testes unitários, sendo o desempenho do
separador cego de fontes avaliado tanto objetivamente quanto subjetivamente. Os resultados
destes testes servirão de informação para o aperfeiçoamento posterior do desempenho dos
sistemas desenvolvidos.
O sucesso do trabalho está, portanto, em conseguirmos minimizar o eco que compromete um
telefonema viva-voz a um patamar de energia suficientemente reduzido, de modo a reduzir
sua inconveniência. É indispensável destacar que tal meta deve ser alcançada sem
comprometimento perceptível da qualidade do sinal restante após anular-se o eco.
3
Descrição
O Capítulo 1 apresenta a fundamentação teórica para o entendimento da proposta do projeto.
Este capítulo contém uma descrição resumida técnicas de filtragem adaptativa, separação cega
de fontes e métodos de clusterização.
O Capítulo 2 apresenta a visão geral do processo de cancelamento de eco acústico por método
adaptativo no domínio do tempo. Neste capítulo será feita, portanto, a familiarização com o
escopo e objetivo do projeto. Neste contexto, apresentamos o diagrama de blocos do sistema
que regerá os demais capítulos.
O Capítulo 3 justifica a escolha do filtro adaptativo Normalized Least-Mean-Squares como
bloco central do sistema apresentado no Capítulo 2.
O Capítulo 4 versa sobre detectores de voz: algoritmos usados como chaves de controle de
convergência dos coeficientes do filtro escolhido no Capítulo 3.
O Capítulo 5, assim como o Capítulo 4, apresenta um mecanismo de controle de convergência
por detecção de voz. Entretanto, este capítulo concentra-se na detecção de sobreposição de
vozes.
O Capítulo 6 apresenta resultados do emprego do sistema de cancelamento de eco acústico
conforme desenvolvido até o Capítulo 5.
O Capítulo 7 aponta falhas no mecanismo desenvolvido até o capítulo precedente e propõe
como solução o uso de técnicas de separação cega de fontes no domínio da frequência.
O Capítulo 8 apresenta a proposta de mascaramento binário de frequências, explorando a
esparsidade dos sinais de voz neste domínio como solução preliminar para a questão de
separação cega de fontes.
O Capítulo 9 demonstra como podemos aplicar a exploração de dependências estatísticas de
alta ordem entre frequências de uma mesma fonte para aperfeiçoar o resultado obtido ao fim
do processo descrito no Capítulo 8.
O Capítulo 10 apresenta e discute os resultados da técnica de separação cega de fontes
proposta.
Finalmente, o Capítulo 11 apresenta as conclusões e perspectivas de evolução deste projeto.
4
Parte I
Capítulo 1 – Fundamentação Teórica
1.1 - Filtragem adaptativa
1.1.1 - Predição Linear
A predição linear é um mecanismo simples e bastante eficaz para estimação de um elemento
de uma série temporal tomando como referência apenas suas N amostras passadas. Em outras
palavras, dada a série temporal ( ) ( ) ( ) ( ), a meta é computar
( ) por combinação linear dos demais N termos, ou equivalentemente, desejamos calcular
( ( ) ( ) ( )).
Para tal, cada uma das N amostras anteriores à
amostra que se deseja estimar deverá ser
multiplicada por uma constante e, ao fim,
realiza-se a soma destes produtos, conforme
exibido na Fig. 1.
Se denotarmos o conjunto formado por
( ) ( ) ( ) como ψ,
poderemos formalizar o preditor linear
conforme:
( ) ∑ ( )
(Eq. 1.1)
O erro associado a esta predição é dado por:
( ) ( ) ( ) (Eq. 1.2)
e, a fim de que possamos minimizar este
desacerto, utilizamos como métrica o erro
médio quadrático. Assim, minimizando-a,
argumenta-se que o erro de predição foi
reduzido.
, ( )- (Eq. 1.3)
Fig. 1 - Diagrama de blocos do preditor linear
5
, ( )- 0( ( ) ( )) 1
, ( )- [. ( ) ( ( ) ( ) ( ))/ ]
(Eq. 1.4)
Expandindo o argumento do operador valor esperado para o caso particular de predição por
dois coeficientes:
, ( ) ( ) ( ) ( ) ( ) ( )
( ) ( ) ( )-
(Eq. 1.5)
Como desejamos obter o mínimo erro médio quadrático em relação a e e, conforme
vemos na Fig. 2, esta função apresenta apenas um mínimo, cabe apenas realizarmos a
derivada parcial de , ( )- em relação a e , igualá-las a zero e resolver o sistema para
encontrarmos os valores de e que a minimizam.
Fig. 2 - Superfície de erro do preditor linear.
Assim, adotando a notação matricial para representar tais derivações, encontra-se
[ , ( )-
, ( )- ]
6
( ) ( ) ( ) ( ) ( )
( ) ( ) ( ) ( ) ( )7
[ , ( )- , ( ) ( )-
, ( ) ( )- , ( )-] 0 1 [
, ( ) ( )-
, ( ) ( )-]
(Eq. 1.6)
Para o caso de sinais de voz, considerando-se uma janela de observação curta (em geral, não
mais que 20 ms), pode-se dizer que u(n) é aproximadamente estacionário em sentido amplo,
ou seja, sua média independe do tempo e sua autocorrelação depende apenas do tamanho do
intervalo de observação, mas não do instante de início. Logo, simplifica-se a expressão
matricial anterior como
6
[ ( ) ( )
( ) ( )] 0 1 [
( )
( )] (Eq. 1.7)
onde ( ) denota a autocorrelação de u(n) com lag n.
Não é difícil demonstrar que no caso geral temos
[ ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( )
( ) ( ) ( ) ( ) ]
[
]
[
( ) ( )
( )
]
(Eq. 1.8)
Finalmente, calculamos o mínimo da expressão acima:
→
(Eq. 1.9)
onde denota o vetor ótimo de coeficientes.
7
1.1.2 - Steepest Descent
O método da descida mais íngreme (em inglês steepest descent) [3] é o mecanismo iterativo
fundamentado em análise de gradiente que nos permite criar um preditor linear que rastreie
as variações estatísticas de uma entrada ( ) sem que para isto seja preciso recalcular a Eq.
1.9 a cada interação. Desta forma, para o caso particular de sinais estacionários como a voz
quando consideramos curtos intervalos (até 20 ms), através de uma malha de realimentação e
partindo-se de um vetor * + arbitrário, consegue-se a cada iteração reduzir o
erro médio quadrático do preditor linear sem que seja preciso recalcular diversas vezes a
inversa da matriz de correlações do sinal de entrada. A estrutura que permite fazê-lo é
apresentada na Fig. 3.
Desta forma, dada uma função custo genérica
denotada por ( ), a meta é minimizá-la a cada
iteração do filtro, ou seja, ( ( ))
( ( )) até que se obtenha ( ), a resposta
ótima onde ( ) ( ) para todo
Entretanto, cabe destacar que, na prática, nem
sempre há convergência para ( ), podendo a
computação dos coeficientes até mesmo
divergir.
Para alcançar esta meta, o método steepest
descent trabalha ajustando iterativamente o
sistema em direção à descida mais íngreme de
( ) , isto é, no sentido contrário àquele
apontado por seu vetor gradiente ( ), que
assim minimiza o custo. Adotando a notação
( ) ( )
(Eq. 1.10)
temos formalizado o método steepest descent
conforme
( ) ( )
( ) (Eq. 1.11)
onde n representa o número da iteração e µ é uma constante positiva conhecida como
'tamanho do passo'.
Fig. 3 - Diagrama de blocos do método Steepest Descent.
8
Pode-se demonstrar que este resultado atende ao requisito de minimização da função custo a
cada iteração se expandirmos ( ( )) em série de Taylor em torno de ( )
( ( )) ( ( )) ( ) ( )
( ( )) ( ( ))
‖ ( )‖
(Eq. 1.12)
onde o operador transposto Hermitiano é usado para tornarmos o resultado mais genérico,
levando em conta, também, casos em que é um vetor de valores complexos.
Portanto, para valores pequenos e positivos de µ, temos que a cada iteração
( ( )) ( ( )) (Eq. 1.13)
e, adicionalmente, quanto maior n, mais ( ) tende ao mínimo, sendo este valor alcançado
quando no caso em que o filtro adaptativo tem ordem pelo menos igual à do sistema a
identificar.
9
1.1.3 - Least-Mean-Squares e Normalized Least-Mean-Squares (LMS/NLMS)
Na prática, o método steeptest descent apresenta um grave limitante: não é possível conhecer
a priori o vetor gradiente ( ), pois isto implica avaliar a matriz de correlação do sinal de
excitação ( ) e o vetor de correlação cruzada entre excitação e saída desejada ( ). Portanto,
em vez de tomarmos estes como pressupostos, devemos desenvolver uma estimativa de
( ) ( ) [3].
Utilizando-se estimativas instantâneas ( ) e ( )
( ) ( ) ( ) ( ) ( ) ( )
(Eq. 1.14)
obtemos
( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) (Eq. 1.15)
Substituindo a estimativa ( ) na equação de atualização do vetor ( ) do método steepest
descent, encontramos
( ) ( ) ( ), ( ) ( ) ( )- (Eq. 1.16)
Atentando aos seguintes fatos
( ) ( ) ( ) é a própria saída do filtro
( ) ( ) ( ) é o erro de estimativa do filtro
podemos reescrever a equação de atualização de ( ) conforme
( ) ( ) ( ) ( ) (Eq. 1.17)
Esta é a equação que descreve a atualização dos coeficientes do filtro LMS.
Nota-se que ( ) é diretamente proporcional a ( ). Portanto, se ( ) é grande, o LMS
sofre com o problema conhecido como "amplificação do ruído de gradiente". Para superá-lo,
normaliza-se ( ) pelo quadrado da norma euclidiana de ( )
( ) ( )
‖ ( )‖ ( )
( ) (Eq. 1.18)
dando origem à atualização dos coeficientes para a filtragem NLMS. Um diagrama de blocos
completo para este sistema é exibido na Fig. 4.
10
Fig. 4 - Diagrama de blocos do NLMS.
11
Nagumo e Noda [4] complementam o entendimento do NLMS através de uma interessante
interpretação geométrica, abordada por Lima [5] considerando-se o caso real e . Nesta
situação, o problema de minimização pode ser descrito como:
( )
‖ ( ) ( )‖
( ) ( ) ( ) (Eq. 1.19)
Ou seja, buscamos ( ) mais próximo possível de ( ) de modo que o erro calculado a
partir dos dados atuais, porém com o vetor de coeficientes já atualizado, seja nulo.
Geometricamente, ( ) será uma projeção de ( ) no hiperplano definido por:
* ( ) ( ) + (Eq. 1.20)
pois se trata da atualização de menor norma. Ademais, ( ) , já que a direção de
atualização é dada por ( ). A Fig. 5 simplifica a visualização destas constatações.
Fig. 5 - Interpretação geométrica do NLMS (Adaptado de [5])
Desta dedução pode-se interpretar, também, o papel da constante . Quando esta assume
valor nulo, ( ) ( ), ou seja, o algoritmo permanece parado no mesmo estado. Se
ou se , ( ) não atinge o hiperplano ou o ultrapassa,
respectivamente. Já quando , ‖ ( )‖ ‖ ( )‖
, ou seja, o algoritmo
distancia-se da solução ótima . No caso particular em que , ( )
Destarte, na prática, escolhe-se ( - como maneira de garantir a convergência do
algoritmo. Os valores pertinentes ao intervalo ( ), que seriam igualmente válidos, em geral
não são empregados, pois possuem mapeamento equivalente no intervalo ( - e causam
maior amplificação de ruído de gradiente.
12
1.2 - Separação cega de fontes
Separação cega de fontes (do inglês blind source separation – BSS) consiste na recuperação de
N fontes individuais a partir de M misturas (M realizações em que as N fontes interferem no
sensor de aquisição de cada uma das M misturas) [23][24]. Diz-se que esta separação é feita de
maneira cega, pois não é assumido qualquer conhecimento prévio dos sinais individuais que
compõem a mistura e tampouco do sistema responsável por elas.
Formalmente [24], se denominarmos ( ) , ( ) ( ) ( )- , com ( )
designando transposição, o vetor composto pelas fontes individuais e de
( ) , ( ) ( ) ( )- o vetor composto pelas misturas observadas,
poderemos relacioná-los, supondo misturas lineares, pela relação:
( ) ( ) (Eq. 1.21)
onde H é a matriz característica do sistema de mistura, denominada matriz de mistura, cuja
dimensão é e o operador * representa a convolução. Adotando o domínio da
transformada Z e assumindo que o sistema de mistura é um sistema causal, podemos
representar os elementos de H - que correspondem às respostas ao impulso dos diversos
caminhos percorridos pelos sinais até os sensores - genericamente por:
∑ ( )
(Eq. 1.22)
Desta formulação, destacamos dois casos relevantes: quando , os filtros são apenas
valores escalares e, neste caso, as misturas são ditas instantâneas. Se ( ) temos
misturas denominadas anecoicas (ou não reverberantes). Sintetizamos estas possibilidades na
Fig. 6.
Fig. 6 - Tipos de misturas.
Neste ponto, cabe fazermos algumas ressalvas referentes à relação entre N e M. Quando
diz-se que temos um problema de separação de fontes subdeterminado; quando
temos casos superdeterminados e quando denomina-se o caso de
determinado.
Misturas
Lineares
Instantâneas
Convolutivas
Reverberantes
Anecoicas Não lineares
13
Vista esta classificação, nota-se a forte analogia existente entre BSS e sistemas de equações.
De fato, podemos concretizar esta analogia se pensarmos que as variáveis de um sistema de
equações são as fontes individuais que desejamos obter e que as misturas são as equações de
que dispomos. Não é de se estranhar, portanto, que, assim como na resolução de sistemas de
equações, o problema de separação de fontes tenha sua dificuldade dependente da relação
entre N e M, sendo de solução mais difícil quando e mais simples quando .
Ademais, conforme representado pela Eq. 1.2, outra dificuldade que surge quando se
desenvolvem técnicas de separação de fontes é o desconhecimento a priori do número de
coeficientes dos filtros de mistura . A Fig. 7 resume a complexidade de solução da
separação de fontes em função destas análises.
Fig. 7 - Tipos de misturas (Adaptado de [24]).
Visando em superar estas dificuldades, as soluções para separação de fontes mais comuns têm
como pressuposto o fato de que diferentes sensores capturam diferentes misturas e a
conjectura de que as fontes misturadas são estatisticamente independentes. Assim sendo, a
solução do exercício de separação de fontes, embora não tenha como meta descobrir a
distribuição estatística de cada fonte, é em muito beneficiada por esta estimativa, a fim de que
possamos avaliar corretamente os parâmetros de separação [23]. Neste sentido, uma valiosa
informação inicial é sabermos que podemos representar a função densidade de probabilidade
conjunta do vetor de fontes como o produto das densidades marginais, isto é:
( ) ( ) ( ) ∏ ( )
(Eq. 1.23)
onde ( ) representa a PDF da i-ésima fonte.
14
Comumente, a obtenção das fontes é iniciada por uma transformada de domínios [24],
principalmente quando trabalhamos com misturas convolutivas e/ou subdeterminadas. No
caso das misturas convolutivas, costuma-se empregar métodos no domínio da frequência, já
que nesta representação, as custosas operações de convolução tornam-se produtos. No caso
de misturas subdeterminadas, é muito útil utilizar transformadas esparsificadoras, como a
STFT e wavelet [27][28][29][30] para permitir a extração das fontes que excedem o número de
misturas. Entretanto, é importante enfatizar que operações no domínio do tempo também
podem prover bons resultados, sobretudo quando as misturas são instantâneas ou anecoicas
[21].
Em seguida, faz-se a estimativa da(s) matrize(s) de mistura (ou diretamente de sua(s)
inversa(s)) a partir dos coeficientes da transformada. Finalmente, faz-se a transformada
inversa para obtenção das fontes individuais, para reconstruí-las no domínio do tempo.
Quando consideramos apenas os casos determinado ou superdeterminado (os casos de
interesse deste projeto), podemos resumir estes passos afirmando simplesmente que
desejamos encontrar a matriz W que retorne
( ) ( ) (Eq. 1.24)
como estimativa das N fontes.
Fica claro, portanto, que idealmente, para o caso instantâneo, ,
onde é uma matriz identidade de ordem N. Já para o caso convolutivo, buscamos os filtros
W que, quando combinados com os filtros H gerem filtros capazes de reconstituir
versões filtradas das fontes que não apresentem interferências. Todavia, visando a tornar esta
igualdade verdadeira, em geral, os algoritmos de BSS trabalham por otimização –
frequentemente empregando métodos de gradiente - de uma função custo com restrições
sobre W, o que origina dois problemas típicos desta classe de algoritmos: o escalamento da
matriz C e a permutação de suas colunas.
O primeiro problema se deve à nossa ignorância do nível dinâmico das fontes, somada ao fato
de as misturas manterem-se inalteradas caso multipliquemos a i-ésima fonte por um escalar e
dividamos a i-ésima coluna da matriz de mistura pelo mesmo escalar.
O segundo conflito também se origina da falta de conhecimento a priori sobre as informações
que se deseja separar. Neste panorama, não é possível distinguir qualquer permutação dos
dados de entrada – já que a indexação é um processo arbitrário - e, portanto, não se pode,
evidentemente, afirmar categoricamente que houve permutação das saídas. Por este motivo,
qualquer ordenação de saídas distintas é válida, sendo comum que as saídas dos mecanismos
de BSS alternem-se aleatoriamente após cada execução para fontes distintas a partir de
arranjo idêntico.
Podemos interpretar graficamente esta última dificuldade quando assumimos que os sinais
que desejamos identificar são independentes. Neste contexto, considerando que desejamos
separar misturas de dois sinais (consideramos dois sinais por simplicidade de representação,
mas sem perda de generalidade), teremos a seguinte situação a respeito de sua correlação e
covariância como verdadeira: , - e [22]. Alternativamente, podemos
15
interpretar a primeira relação como o produto escalar entre os vetores X e Y de k elementos:
⁄
( ) ⁄ , ou seja,
⁄ , o que deixa claro que estamos
tratando de sinais ortogonais. Ademais, como temos como pressuposto sinais independentes,
a seguinte propriedade sobre as densidades de probabilidade de X e Y é aplicável: ( )
( ) ( ) , -.
Tal propriedade de independência entre sinais implica não podermos deduzir nada a respeito
de X através de qualquer observação de Y e vice-versa, o que se depreende da observação da
Fig. 8, que representa um exemplo de distribuição que atende tais restrições para sinais que se
adequam ao modelo supergaussiano (como tipicamente se assume para sinais de voz).
Fig. 8 - Ambiguidade de independência entre sinais.
Podemos verificar que há ao menos duas situações ambíguas que podem representar a
independência dos sinais, de forma que, sem um critério preestabelecido, ambas são
igualmente válidas. Isto ocorre porque, conforme atestamos anteriormente, os mecanismos de
separação de fontes usualmente trabalham por minimização de uma função custo, aplicando a
restrição de independência dos sinais, mas nenhuma outra informação adicional. Portanto, há
diversos estados finais de separação que são igualmente válidos, sendo esta a origem do
inconveniente das permutações dos resultados.
Estes obstáculos tornam-se ainda mais críticos nas abordagens no domínio da frequência [24],
onde a solução típica é a busca de um conjunto de matrizes H que separe cada raia da DFT das
fontes individuais (assumindo independência) a partir das DFTs das misturas. Nesta
configuração, o problema de escalamento implica equalizar as fontes de maneira irregular e o
de permutação significa permitir frequências de cada fonte alternando-se nas saídas do
sistema.
Das diversas técnicas para contorno destes transtornos, este texto abordará, para o primeiro
caso, o princípio da distorção mínima e, para o segundo, o uso de informações estatísticas de
alta ordem para desambiguar quais frequências são pertinentes a cada fonte. Estas
abordagens serão desenvolvidas no Capítulo 9: “Otimizando a Separação de Fontes Através da
Exploração de Dependências Estatísticas de Alta Ordem no Domínio da Frequência”.
Neste ponto, visto que o cálculo da matriz W é comumente feito por métodos de otimização, é
interessante averiguarmos a melhor forma de inicializá-la. De fato, a independência entre
sinais é um critério estatístico muito forte; todavia, é sabido que [21] é possível transformar
+90o Rotação
16
qualquer mistura de componentes descorrelacionados em um conjunto de componentes
independentes através da computação da transformação linear ortogonal que levará as
componentes descorrelacionadas a se tornarem independentes.
Neste âmbito, a maneira mais célebre de se inicializar W é através de uma matriz que torne as
misturas descorrelacionadas - artifício conhecido como branqueamento ou esferização. Esta
técnica implica não só obtermos elementos descorrelacionados, mas, ainda, com variância
unitária. Portanto, para um vetor de componentes aleatórias e média zero , -
branqueado, podemos atestar que
[ ]
, - (Eq. 1.25)
onde representa a matriz identidade.
Prontamente, vemos que o objetivo das técnicas de branqueamento é a obtenção da matriz
que transformará um vetor de componentes aleatórias em outro vetor que atenda aos
critérios supracitados.
A solução para este problema é bem conhecida [21] e parte da decomposição em autovalores
e autovetores da matriz de covariância , -. Denotando por , - a matriz
cujas colunas são os autovetores de norma unitária de e por , - a
matriz diagonal de autovalores de , a matriz é encontrada por:
(Eq. 1.26)
onde é necessário que os autovalores sejam positivos para que exista. Na prática esta
restrição não é impeditiva à aplicação do método sobre sinais naturais, como sinais de voz.
É importante destacarmos que esta não é a única transformação válida. Na verdade, qualquer
transformação ortogonal da matriz V é igualmente válida como matriz de branqueamento.
Assim, destacamos outro resultado comumente empregado:
(Eq. 1.27)
Enfim, para comprovarmos a eficácia deste método, reescrevemos , com
satisfazendo (ou seja, uma matriz ortogonal) e verificamos que:
, - , ( ) - , - , -
(Eq. 1.28)
ou seja, a matriz de covariância de é realmente uma matriz identidade, comprovando o
branqueamento.
A Fig. 9 demonstra o resultado da aplicação da transformação num caso de mistura de duas
fontes em dois sensores. Fica claro que, após o branqueamento, resta apenas aplicar uma
rotação para que obtenhamos componentes independentes.
17
Fig. 9 - Sinais branqueados (descorrelacionados).
Finalmente, resumimos os métodos típicos de separação de fontes independentes no caso
(super)determinado na Fig. 10.
Fig. 10 - Fluxo típico de BSS.
Transformação de domínio
Branqueamento Separação de componentes BSS
18
1.3 - Técnicas de clusterização
1.3.1 - K-médias
O algoritmo K-médias é um dos mais simples mecanismos de mineração não supervisionada de
dados. Seu objetivo é particionar um conjunto de amostras N-dimensional em um número
predeterminado de grupos, denominados clusters.
Definido de maneira informal [38], este processo começa simplesmente pela escolha arbitrária
de K pontos que serão os centros dos grupos iniciais. Em seguida, para cada um dos n dados
disponíveis, calculamos sua distância aos K centros
∑∑‖ ( ) ‖
(Eq. 1.29)
onde ‖ ( ) ‖ representa qualquer medida de distância entre um dado
( ) e um centroide
(por exemplo, a norma euclidiana). Orientado por estas distâncias, cada dado é associado ao
centroide mais próximo, formando-se os clusters. Ao fim deste assentamento, calcula-se o
ponto médio de cada grupo e reinicia-se o algoritmo, utilizando-os como novos centroides. O
critério de parada é atingido quando os centroides não mais forem alterados entre duas
iterações sucessivas. A Fig. 11 demonstra a evolução deste mecanismo para uma massa de
dados de 500 pontos e 3 clusters.
Fig. 11 - Clusterização k-médias.
Embora seja um algoritmo eficaz, alguns problemas podem ocorrer [39], principalmente no
que concerne à sua convergência, já que a solução final do algoritmo é dependente do número
de clusters (que deve ser arbitrado), bem como dos centroides inicialmente escolhidos.
Ademais, a complexidade computacional do K-médias é elevada, já que é preciso calcular
distâncias a cada iteração.
19
1.3.2 - Clusterização Fuzzy (Fuzzy C-Means Clustering)
A técnica de clusterização Fuzzy foi proposta em 1973 por J. C. Dunn [40] e, desde então,
tornou-se um dos algoritmos mais populares. Diversas formas de aperfeiçoá-lo foram
propostas [41], entretanto para o escopo deste trabalho a proposta original faz-se suficiente.
Este procedimento assume que o número de clusters é conhecido a priori, tal qual no K-
médias, e minimiza
∑∑
‖ ‖
(Eq. 1.30)
onde m é um número real maior que 1, conhecido como “fator de fuzzificação” e ‖ ‖,
assim com no caso do k-médias, representa qualquer métrica de distância.
Esta expressão torna claro que a diferença entre o método fuzzy e o k-médias encontra-se,
portanto, nos elementos . Estes termos medem o grau de afinidade do dado ao i-ésimo
cluster . Em outras palavras, ao contrário do k-médias, em que cada dado pertence apenas a
um cluster, agora temos dados podendo pertencer a mais de um conjunto e uma métrica para
o quão “inserido” neste agrupamento o dado está, ou, numa interpretação alternativa que não
é de todo rigorosa, a probabilidade de que ele pertença àquele cluster.
Destarte, nota-se que existe uma restrição sobre as colunas da matriz1 , cujos elementos são
:
∑
(Eq. 1.31)
ou seja, a soma das probabilidades de encontrar uma mesma amostra de dado em cada cluster
não pode ultrapassar 1. Vista de outra forma, esta expressão apenas representa um dos
axiomas básicos da teoria de probabilidade: dado um dado espaço amostral , ( ) [22].
O problema de determinação dos centroides resume-se, então, a minimização de
atrelado à restrição apresentada acima. Utilizando multiplicadores de Lagrange, podemos
converter este problema em um de minimização sem restrições:
( ) ∑∑
‖ ‖
∑ ( ∑
)
(Eq. 1.32)
de onde se conclui:
1 U é uma matriz de dimensão CxN, onde C é o número de centroides e N é a quantidade de dados.
20
∑ 4‖ ‖
‖ ‖5
(Eq. 1.33)
Este resultado, quando aplicado na Eq. C.2, nos permite estabelecer que os clusters são
atualizados pela seguinte regra:
∑
∑
(Eq. 1.34)
As iterações terminam quando 2‖ ( )
‖3 , onde é um valor entre 0 e 1 e j
representa a iteração atual.
A Fig. 12 demonstra a evolução de um cenário em que se utilizou o método de clusterização
fuzzy com três clusters, e . Já a Fig. 13 representa em sequência a função que
descreve a afinidade de cada dado com os três centróides (linhas da matriz U).
Fig. 12 - Evolução dos centróides aplicando-se o fuzzy c-means.
21
Fig. 13 - Invólucro probabilístico sobre os centroides (linha superior: em perspectiva; linha inferior: vista superior).
22
1.4 - Avaliação de desempenho da separação cega de fontes
Em 2006 Emmanuel Vincent, Rémi Gribonval e Cédric Févotte propuseram quatro medidas
objetivas de qualidade para separação cega de fontes [36] conhecidos como razão fonte-
distorção (source-to-distortion ratio: SDR), razão fonte-interferência (source-to-interferences
ratio: SIR), razão fonte-artefato (source-to-artifact ratio: SAR) e razão fonte-ruído (source-to-
noise ratio: SNR). Neste projeto, adotamos apenas a SIR. Entretanto, como se tratam de
deduções semelhantes, abordaremos as quatro métricas.
O propósito destas computações é quantificar, respectivamente, a distorção imposta pelo
mecanismo de BSS aos sinais individuais obtidos, a interferência entre fontes nestes sinais (o
grau de sucesso da separação), a introdução de artefatos pelo algoritmo, como ruído musical e
distorções não lineares, e o quão relevante é o ruído introduzido pelos transdutores utilizados
para captação das misturas.
Desta forma, o preceito fundamental para o cálculo destes avaliadores de desempenho é
podermos entender cada estimativa das fontes individuais como uma composição do sinal
desejado ( ), interferência ( ), ruído ( ) e artefatos ( ):
Assim, demonstra-se [36] que esta decomposição pode ser efetuada por transformações
ortogonais. Denotando por ∏* + a matriz de projeção no subespaço formado pelos
vetores , teremos que tal matriz é uma matriz quadrada cuja dimensão é o
comprimento de cada um destes vetores e, considerando misturas instantâneas, teremos as
seguintes projeções ortogonais:
∏{ }
∏2( ) 3
∏2( ) ( ) 3
(Eqs. 1.35)
onde indica o número de fontes, o número de misturas e o ruído aditivo. Já quando
consideramos misturas convolutivas por processos invariantes no tempo, temos as seguintes
transformações:
∏2( )
3
∏{. /
}
∏{2( )
( ) 3
}
(Eqs. 1.36)
23
onde representa o comprimento do filtro de mistura das componentes e e
indicam,
respectivamente, o sinal das fontes e o ruído atrasados de , ou seja, ( ) e
( ).
Feitas estas projeções (vide[36]), podemos definir o SIR, SAR, SDR e SNR:
‖ ‖
‖ ‖
‖ ‖
‖ ‖
‖ ‖
‖ ‖
‖ ‖
‖ ‖
(Eqs. 1.37)
24
Parte II
Capítulo 2 - Cancelamento de Eco Acústico por
Método Adaptativo no Domínio do Tempo
Quando um sistema viva-voz é utilizado, eventualmente uma mensagem que chega ao alto-
falante de um dos telefones pode ser recapturada pelo microfone e reenviada para quem a
gerou. Neste caso, este ouvirá a si próprio após um atraso natural do sistema, configurando o
que denominamos eco acústico. Entretanto, o processo pode se repetir sucessivas vezes (por
meio de ecos de ecos), numa recursão altamente comprometedora da qualidade da
comunicação.
A grande dificuldade apresentada neste contexto é que não bastaria simplesmente subtrair do
sinal capturado pelo microfone o que foi reproduzido pelo alto-falante [2]. Esta solução, ainda
que pareça viável, não contempla as modificações que serão impostas ao sinal reproduzido
pelo meio, tais como mudanças de fase, amplitude e múltiplos percursos (reverberação).
Portanto, apenas realizar a subtração entre os sinais é improfícuo, podendo até mesmo piorar
a qualidade da conversação.
Assim, torna-se preciso que identifiquemos o sistema que modifica o sinal desde sua
reprodução no alto-falante até sua conversão em sinal elétrico pelo microfone [6]. Uma vez
feita esta identificação, ou seja, uma vez que se conheça a resposta ao impulso do ambiente
acústico que acopla os dois elementos, basta aplicá-lo ao sinal que chega ao alto-falante e
subtrair este resultado do sinal gerado pelo microfone.
Como a abordagem proposta é análoga à filtragem adaptativa para redução de ruído [3], é
coerente supor que este mesmo mecanismo seja capaz de sanar o problema que aflige os
sistemas de comunicação viva-voz de grande porte. Desta forma, a utilização desta classe de
filtros, tendo o sinal que chega ao alto-falante como referência da parcela a ser anulada do
sinal de entrada gerado pelo microfone, seria suficiente para compor um anulador de eco
acústico, conforme exibe a Fig. 14.
25
Fig. 14 - Esquema de aplicação da filtragem adaptativa como solução do problema de cancelamento de eco acústico.
Entretanto, algumas sutilezas pertinentes ao processo de cancelamento de eco acústico via
filtro adaptativo requerem cautela. Dentre elas, a mais notável é o fato de a voz não ser uma
informação presente durante todo o tempo de uso do sistema, contrariamente ao que
acontece com relação ao ruído de fundo. Isto ocorre porque há pausas entre sílabas e
palavras, momentos em que o interlocutor se cala e apenas escuta o outro e, em alguns casos,
até mesmo momentos de espera prolongada em silêncio.
Ora, se a filtragem adaptativa utiliza informações dos sinais que lhe são entregues para tentar
predizer a interferência que compromete o sinal de interesse e restaurá-lo, é intuitivo que a
inconstância das amostras de voz recebidas possa comprometer seu desempenho. De fato, é o
que ocorre [2].
Comumente, a solução empregada é restringir os momentos em que o filtro pode atualizar os
seus coeficientes [17]. Para isto, empregam-se detectores de presença de voz, de tal forma a
permitir que o algoritmo adapte-os somente quando o sinal recebido é representativo, o que
significa que eles somente poderão ser recalculados quando as amostras de referência forem
de voz [8].
Assim, constrói-se o sistema representado esquematicamente pelo diagrama de blocos da Fig.
15.
26
Fig. 15 - Diagrama de blocos de um sistema de cancelamento de eco acústico com emprego de VAD.
Entretanto, não é somente esta situação que compromete o desempenho da filtragem
adaptativa quando aplicada ao contexto de redução de eco acústico. Não raro, a
realimentação e a voz local ocorrem simultaneamente. Quando este cenário é verdadeiro, a
voz local atua como ruído sobre a métrica de adaptação do filtro, provocando divergência no
processo de atualização dos coeficientes do preditor [19]. Para contornar este problema,
utilizam-se sistemas chamados Double-Talk Detectors (DTD), responsáveis por detectar quando
este cenário ocorre.
Assim, passamos a ter o sistema mais robusto, conforme a Fig. 16.
Fig. 16 - Diagrama de blocos de um sistema de cancelamento de eco acústico com emprego de VAD e DTD.
27
Capítulo 3 - Normalized Least-Mean-Squares
O algoritmo de filtragem adaptativa usualmente utilizado para aplicações de cancelamento de eco acústico é o filtro Least-Mean-Squares (LMS) e suas variações, como o Normalized Least-Mean-Squares (NLMS) [2], que são mecanismos derivados da técnica Steepest Descent de predição linear. Obviamente, esta escolha não é feita levianamente, principalmente porque há diversas técnicas de filtragem adaptativa que poderiam ser adotadas. Portanto, cabe analisarmos a razão da preferência em torno do LMS.
Para tal, partiremos da comparação entre três populares algoritmos adaptativos: o Normalized Least-Mean-Squares (NLMS), o Affine Projection (AP) e o Recursive Least-Squares (RLS). Suas funções custo e complexidade computacional estão listadas na Tab. 1.
Algoritmo Função custo Complexidade computacional
NLMS , ( )- ( )
AP ,∑ ( )
- ( )
RLS ∑ ( ) , com ( )
Tab. 1 - Comparativo entre algoritmos adaptativos
É fácil verificar que o NLMS apresenta a função custo mais simples (e, portanto, implementação facilitada), além de possuir baixa complexidade computacional em função de N, o comprimento do filtro utilizado. Por esta razão, como em geral o intuito de implementações em processamento de voz é o emprego em tempo real, torna-se conveniente a escolha do filtro de menor complexidade. Cabe ressaltar que esta tabela aborda apenas os três algoritmos mais comumente referenciados; entretanto, há ainda outras alternativas, tais como outras variações do LMS (Data-Reusing LMS, Block LMS, Block-Normalized LMS, etc) e a família de filtros adaptativos por sub-bandas, dentre outros, sendo, ainda assim, o NLMS o mais utilizado, dada sua baixa complexidade [2].
Assim, escolhido o NLMS como o núcleo do sistema de cancelamento de eco, tem-se o erro
médio quadrático (em relação ao sinal que será transmitido) como função-custo. Neste caso, o
custo mínimo será alcançado quando não houver eco no sinal, ou seja, quando a energia por
ele imposta tender a ser nula. O papel dos coeficientes do filtro aplicado ao sinal de entrada
(sinal do alto-falante) será tentar mimetizar o ambiente acústico que acopla o alto-falante ao
microfone, permitindo o cancelamento efetivo do eco no subtrator, conforme Fig. 17.
Fig. 17 - Aplicação do NLMS em cancelamento de eco acústico.
28
Capítulo 4 - Detectores de Voz
Conforme abordado no Capítulo 2, um controle efetivo dos momentos durante os quais o filtro
pode ser atualizado exige o uso de ferramentas que detectem quando há ou não voz no sinal
de referência utilizado pelo filtro adaptativo. Neste âmbito, foram implementados três
algoritmos para que se pudesse escolher aquele com o melhor desempenho para compor o
sistema final: O Adaptive Linear Energy-Based Detector (ALED), o Linear Sub-Band Energy
Detector (LSED) [10] e um detector por características estatísticas da voz - Statistical Model-
Based Voice Activity Detector (SMBVAD) [11].
4.1 - Adaptive Linear Energy-Based Detector
O Adaptive Linear Energy-Based Detector (ALED) é um processo que, embasado nas variações
de energia de um sinal, consegue determinar a presença ou não de voz em um determinado
instante. Trata-se de um método muito referenciado na literatura como um dos mecanismos
para a racionalização do uso da banda em VoIP, pois, utilizando-o, consegue-se detectar
quando há voz a ser transmitida e quando há silêncio ou pausa entre palavras. Assim,
transmite-se o pacote de dados somente quando realmente necessário.
A implementação do ALED consiste em dividir o sinal em diversos quadros
* ( )+ ( )
(Eq. 4.1)
onde ( ) representa a i-ésima amostra de um sinal ( ), o j-ésimo quadro deste sinal e
o tamanho em amostras do quadro.
Uma vez feita a fragmentação do sinal em quadros, suas energias são calculadas segundo
∑ ( )
( )
(Eq. 4.2)
sendo a energia de .
Para um ambiente cuja energia do ruído de fundo é conhecida e praticamente constante,
pode-se dizer que há presença de sinal de interesse (voz) quando a energia de um quadro for
maior que o limiar de energia estabelecido pelo ruído (Fig. 18). Entretanto, se supusermos um
ambiente em que tal energia é variável, este método é falho. Imaginando que se mantenha um
limiar de comparação fixo, sempre que a energia de ruído for além dele, ruído será detectado
como sinal de interesse, o que é indesejável.
29
Fig. 18 - Comparação de energia de um sinal com um limiar fixo.
Para compensar este efeito, precisamos atualizar o limiar de detecção constantemente [10],
sendo o critério utilizado
( )
(Eq. 4.3)
onde representa o novo limiar, o último limiar utilizado e a energia
computada para o último quadro em que não havia voz.
Se adotarmos fixo, o processo de detecção de voz será pouco sensível às variações
estatísticas do ruído de fundo. Esta falta de robustez comprometeria a conversação e,
novamente, o desempenho do ALED. Portanto, utiliza-se informação estatística de segunda
ordem para a atualização de , o que é feito através da computação da variância do buffer que
armazena a energia dos últimos quadros detectados como silêncio.
, -
(Eq. 4.4)
As alterações do ruído de fundo são mapeadas em incrementos/decrementos da razão entre
antes e depois da inserção no buffer do valor da energia do último quadro detectado como
silêncio. Dependendo do valor desta razão, o valor de é alterado conforme a Tab. 2 [10].
0,25 0,20 0,15
0,10 Tab. 2 - Critério de atualização de p
30
Assim, é possível rastrear as variações de energia do ruído de fundo, elevando ou reduzindo o
limiar de detecção. Visto de outra maneira, estamos calculando a variância das variâncias de
diversos quadros silenciosos armazenados em buffer, o que pode ser entendido pela
interpretação da variância de um sinal como a energia da sua parte alternada (energia AC) e
como medida de quanto um conjunto de amostras afasta-se de sua média. Ou seja,
primeiramente utilizamos a variância em sua interpretação energética e guardamos este
resultado em buffer, utilizando, então, a interpretação da variância como distância entre uma
média (limiar de detecção definido anteriormente) e um conjunto de dados (valores de
energias armazenadas em buffer) para atualização do limítrofe de detecção.
Tão importante quanto esta atualização, a decisão pelo limiar inicial é crucial, pois é a partir
dele que os limiares seguintes serão definidos. Caso a escolha inicial seja muito elevada, todo
quadro será detectado como silêncio e a atualização ocorrerá incorretamente. Por outro lado,
se for escolhido um limiar aquém do necessário, todo quadro será detectado como voz e a
atualização não ocorrerá.
Portanto, é preciso que se tenha um método de estabelecimento do limiar que seja preciso e
dinâmico. Estas características podem ser conseguidas se simplesmente supusermos que os
primeiros quadros do sinal em análise são silenciosos (em geral esta afirmação é verdadeira,
pois raramente um usuário liga o sistema de conversação já falando) e estabelecermos como
limiar inicial a média das energias destes quadros, ou seja:
∑
(Eq. 4.5)
Embora o ALED, teoricamente, seja capaz de rastrear mudanças súbitas na energia do ruído de fundo através da ação de , nossos testes comprovaram que diversos casos reais seriam capazes de gerar resultados indesejados, conforme a sequência da Fig. 19 demonstra.
Todas as imagens representam a gravação da leitura de um fragmento do poema José de
Carlos Drummond de Andrade, havendo apenas mudanças arbitrárias feitas artificialmente por
software de edição na energia do ruído de fundo gerado por um ar-condicionado em nosso
laboratório (vide seção de delimitações para mais detalhes) .
Na Fig. 19 (a) observamos o resultado mais próximo do ideal que obtivemos. Podemos verificar
que a detecção - representada pelos períodos em que a linha em azul atinge seus máximos -
praticamente coincide com os períodos marcados em verde2 (onde efetivamente há voz). Já no
caso da Fig. 19 (b), o ruído variou suavemente antes mesmo de o período vocalizado ser
iniciado, permitindo ao algoritmo atualizar seu limiar de detecção corretamente de modo a
não informar esta região do sinal como voz.
2 Esta marcação foi feita por inspeção visual, auxiliada por inspeção auditiva da forma de onda do sinal
no software Pro Tools M-Powered 8.
31
(a) (b)
Fig. 19 - Desempenho do ALED.
(c) (d)
32
Quanto à Fig. 19 (c) e à Fig. 19 (d), temos resultados que simulam situações em que o ruído de
fundo varia muito abruptamente. No primeiro caso geramos variações em forma próxima a de
um degrau energia do ruído (incremento da energia em cerca de 20%), o que demonstrou que
a atualização do limiar não é rápida o bastante para acompanhar esta mudança, levando o
ruído a ser entendido como voz. Esta falha acabou comprometendo a consistência do buffer,
tornando as atualizações incorretas. Este fenômeno ocasionou a perda de precisão do
algoritmo, que detectou a vocalização a partir da metade do sinal em todas as amostras.
No último caso (Fig. 19 (d)), provocamos alteração abrupta da energia do ruído branco de
fundo aproximadamente 1 segundo antes do momento em que se inicia o período de fala, sem
retornar esta amplitude ao seu valor inicial. Nesta situação o ALED passou a detectar qualquer
amostra como voz, justamente por não ter havido tempo suficiente para o limiar de detecção
se elevar e não termos reduzido a energia do sinal após este momento.
Podemos traçar um paralelo entre estas situações geradas artificialmente e ocasiões reais que
poderiam comprometer um telefonema viva-voz. As variações abruptas no nível de ruído
seriam bastante frequentes se houvesse uma obra ocorrendo em uma sala vizinha àquela
onde está instalado o sistema telefônico ou se a janela desta sala estivesse defronte a uma
movimentada avenida. Destarte, como há situações reais comuns que poderiam comprometer
o desempenho do ALED, faz-se necessário investigar o desempenho de outro VAD que possa
substituí-lo.
33
4.2 - Linear Sub-Band Energy Detector
Visando a contornar os problemas observados no ALED, implementamos uma variação deste
mecanismo trabalhando no domínio da frequência, conhecida como Linear Sub-Band Energy
Detector (LSED) [10]. Este VAD é semelhante ao anterior; entretanto, a análise da energia dos
quadros é feita em sub-bandas, utilizando a transformada de cossenos discreta (DCT).
( ) * + (Eq. 4.6)
Estas sub-bandas são: 0-1 kHz, 1-2 kHz, 2-3 kHz e 3-4 kHz [10]. A energia de cada faixa de
frequências é calculada segundo , - ( ), e o critério de decisão para detecção de voz
e atualização dos limiares é feita conforme exposto para o ALED, havendo, agora, um limiar
para cada sub-banda (Fig. 20).
Fig. 20 - Diagrama lógico do LSED.
É interessante observar que, justamente pelo fato de a maior parte da energia da voz estar
concentrada na faixa 0-1 kHz, esta é a sub-banda dominante no processo LSED. Assim, passa a
ser preciso haver energia suficiente no primeiro conjunto de frequências e em qualquer outro
par das três demais sub-bandas para que ocorra detecção de fala. Portanto, teoricamente,
tornamos o processo de detecção mais robusto em contextos comprometidos por ruído
distribuído em mais de uma banda, já que há diluição de sua energia em cada região espectral.
Adicionalmente, se o ruído não comprometer a faixa dominante de 0-1 kHz, nunca ocorreria
sua detecção incorretamente como voz.
Esperar-se-ia que este método fosse mais robusto que o ALED e, embora de fato tenhamos
obtido melhores resultados para situações com pouco ou nenhum ruído (assim como no caso
anterior, utilizamos o ruído do ar condicionado do laboratório, variando sua energia
arbitrariamente via software de processamento de sinais em determinadas períodos), este
mecanismo também se mostrou falho em alguns cenários, como apresentam as Fig. 21 e 22.
34
Fig. 21 - Desempenho do LSED.
35
Fig. 22 - Degeneração do desempenho do LSED
Estes resultados nos mostram que em algumas situações, mesmo quando há ruído branco
(assim como no caso do ALED, trata-se do ruído do ar-condicionado do laboratório)
comprometendo o sinal (Fig. 21 (a), (b) e (c)), a detecção do LSED é bastante precisa3, o que o
tornaria um excelente candidato para emprego na versão final do sistema de cancelamento de
eco, à frente do ALED. Todavia, o LSED apresentou dois pontos gravíssimos de falha: o primeiro
quando o ruído branco (do ar-condicionado, conforme definido nas delimitações do projeto)
que compromete o sinal ganha energia abruptamente, levando todas as sub-bandas a terem
alta energia, violando o limiar de detecção. Neste caso, todas as amostras passam a ser
detectadas como voz, conforme destaca a Fig. 21 (d).
O segundo ocorre quando o ruído de fundo tem banda muito estreita (utilizamos um diapasão
eletrônico para realizar este tipo de ruído), sendo este resultado apresentado na Fig. 22. Neste
cenário, o limiar de detecção de uma das sub-bandas torna-se tão elevado que qualquer
combinação lógica que precise desta faixa de frequências para se tornar verdadeira torna-se
impossível. Esta situação é ainda mais crítica quando temos elevado nível de ruído na faixa de
0 kHz a 1 kHz, que é dominante no processo.
Novamente, vemos que há situações cotidianas que poderiam degenerar o desempenho do
LSED. Desta forma, foi necessário continuarmos a investigação por VADs que suplantem as
deficiências apresentadas pelo ALED e pelo LSED.
3 Novamente, a marcação dos períodos vocalizados foi feita por inspeção visual, auxiliada por inspeção
auditiva da forma de onda do sinal no software Pro Tools M-Powered 8.
36
4.3 - Detector Estatístico
As deficiências supracitadas do ALED e do LSED estimulam a alteração da abordagem dos
VADs. Neste sentido, adotamos técnicas estatísticas mais sofisticadas para a detecção da
atividade vocal.
O modelo proposto por J. Sohn, N. S. Kim e W. Sung [12] e aperfeiçoado por Y. D. Cho e A.
Kondoz [13] tem por pressuposto a menor variabilidade das estatísticas do ruído de fundo
quando comparadas às do sinal de voz. Desta forma, é possível estimar as características
estatísticas do ruído ao longo do tempo, o que permite diferenciar momentos em que ocorre
voz daqueles em que somente o ruído está presente (interlocutor em silêncio), ou seja, a
comparação das estimativas estatísticas do ruído de fundo com o sinal observado nos permite
distinguir quando ocorre a fala.
Fig. 23 – Diagrama de blocos do VAD no domínio estatístico (Adaptado de [11]).
Assim sendo, associamos uma métrica estatística robusta a um limiar de decisão sobre esta
para distinguirmos momentos com e sem voz no sinal observado. Nesta proposta, utiliza-se um
estimador de máxima verossimilhança tendo como ponto de partida a suposição de que
conhecemos as estatísticas a priori do ruído, que são aferidas pelo estimador de ruído. Este
paradigma é apresentado na Fig. 23
O modelo estatístico utilizado assume, ainda, que em cada janela de sinal analisado tanto o
ruído quanto a voz podem ser representados por processos estocásticos gaussianos e
independentes entre si. Desta forma, assume-se que os coeficientes da Transformada de
Fourier discreta de cada processo seriam variáveis aleatórias assintoticamente independentes
[16].
Destarte, as duas hipóteses a serem consideradas pelo VAD proposto são:
{
(Eq. 4.7)
sendo S (voz), N (ruído) e Y DFTs de dimensão L cujos k-ésimos elementos representamos por
, e , respectivamente. Isto posto, as funções densidade de probabilidade
condicionadas por e são dadas por
37
( ) ∏
( )
( )⁄ e ( ) ∏
( ( ) ( ))
( ( ) ( ))⁄
(Eqs. 4.8)
onde k indica a raia espectral e representam, respectivamente, a variância do espectro
do ruído e da voz. Para simplificar a notação, abandonamos os operadores de produtório:
( | )
⁄ e ( | )
( )
( )⁄ .
(Eqs. 4.9)
Reconhecidas estas PDFs, pode-se definir o estimador de máxima verossimilhança que
determinará a presença ou não de voz:
( )
( )
( )
( )⁄
(Eq. 4.10)
onde ⁄ e ⁄ .
Neste ponto, cabe definirmos o mecanismo de estimação da variância do ruído de fundo,
necessário para o cálculo de . Destacamos, também, que a variância do espectro da voz é
uma variável desconhecida e que, portanto, precisaremos de meios para estimar
diretamente, sem o conhecimento de . Estas duas estruturas serão explicitadas em
seguida, iniciando pelo estimador do ruído de fundo e, em seguida, o estimador para .
A primeira tem como base a probabilidade de ausência de voz em um trecho de sinal, o que
pode ser calculado por intermédio do teorema de Bayes:
( )
( ) ( )
(Eq. 4.11)
onde ψ será definido posteriormente e a probabilidade a priori - ( ) - de ausência de fala
é estimada [15] de maneira adaptativa por:
( )
( √ )
(Eq. 4.12)
em que representa a função de Bessel modificada de ordem zero.
O espectro de potência do ruído de fundo é estimado segundo:
(|
( )| | ( )) . |
( )/ ( ) ( . |
( )/) ( )
(Eq. 4.13)
de onde deduzimos sua variância, necessária para o cálculo de :
( )
( ) ( ) (|
( )| | ( )), (Eq. 4.14)
38
onde η atua como fator de controle da adaptabilidade do sistema, podendo ser interpretado
como um controle de aprendizado.
Resta-nos, portanto, estimar sem o conhecimento direto de . A proposta de Cho e
Kondoz utiliza o método decision-directed [13] proposto a seguir. Seja
( )
( ) ( ) (
( ) ), (Eq. 4.15)
sendo uma constante de ponderação cujo valor sugerido é 0,98 e a amplitude espectral
da parcela de voz, estimada utilizando a técnica de minimização de erro quadrático médio
proposta por Y. Ephraim e D. Malah [14], temos:
(Eq. 4.16)
Uma vez computadas estas grandezas, torna-se possível o cálculo de para cada janela de
sinal analisado. Dado que a decisão sobre presença ou não de voz em uma janela deve ser feita
por uma métrica que avalia o conjunto de raias da DFT – em vez de cada raia individualmente
– substitui-se por sua média geométrica em relação a k [13]. Esta nova medida é, então,
comparada a um limiar determinado heuristicamente que, quando superado, assinala a
ocorrência de fala.
Entretanto, observa-se que a aplicação direta desta média geométrica causa alguns efeitos
indesejados [13]. O termo atrasado ( )
no cálculo de pode fazer com que esta medida se
torne muito maior que , especialmente nas regiões de ataque e decaimento da voz, fazendo
com que a medida de verossimilhança não ultrapasse o limiar estabelecido. Desta forma,
torna-se essencial suavizar a resposta de , tornando seu decaimento menos crítico nas
regiões supracitadas. Isto é feito adicionando-se memória ao sistema, de tal modo que a
verossimilhança de uma janela passe a depender do resultado da janela anterior:
( )
( ) ( )
( )
(Eq. 4.17)
Nesta equação é o fator de suavização, cujo valor deve ser escolhido no intervalo [0,1) e,
uma vez aplicada esta relação, a média geométrica passa a ser calculada sobre ( ) ,
permitindo a suavidade pretendida.
Ao se utilizar esta nova abordagem, com e , obtivemos os resultados apresentados na Fig.24.
39
(a)
(b)
(c)
Fig. 24 - Desempenho do VAD estatístico.
40
É notável a superioridade deste modelo, que apresentou resultado quase impecável nos três
casos4. Destaca-se que exemplo da Fig. 24 (a) é a gravação da missão Apollo 13 informando à
base em Houston problemas com a nave. Esta gravação é bastante comprometida por ruído e,
mesmo assim, a detecção das regiões com voz foi precisa.
Já o segundo exemplo da Fig. 2024 (b) apresenta um diálogo telefônico cuja duração é 1:53 min. A detecção das regiões com fala também foi correta, assim como no exemplo (c), que traz a mesma gravação utilizada nos testes do ALED e LSED (Fig.19 (d) e Fig. 21 (d)).
Desta forma, a escolha natural de algoritmo de detecção de voz para compor o sistema de
cancelamento de eco acústico é o modelo estatístico, uma vez que os VADs que têm como
critério de decisão apenas a energia do sinal (ALED e LSED) apresentaram desempenho muito
inferior. Entretanto, cabe destacarmos que a complexidade computacional deste modelo
estatístico é muito superior à do ALED e LSED, o que torna estes dois algoritmos muito mais
indicados em situações em que a energia do ruído de fundo é bem conhecida. Ademais, o
modelo estatístico apresentado é específico para o discernimento sobre informações de voz,
não podendo ser aplicado para outros tipos de sinais, como, por exemplo, picos em um ECG,
sinais de sonar, redes de dados etc. O ALED e o LSED, por outro lado, têm como base apenas a
energia da observação e, portanto, podem ser aplicados à detecção de sinais que não sejam de
voz.
4 Novamente, a marcação dos períodos vocalizados foi feita por inspeção visual, auxiliada por inspeção
auditiva da forma de onda do sinal no software Pro Tools M-Powered 8.
41
Capítulo 5 - Detector de Fala Simultânea
Fig. 25 - Diagrama de blocos de um sistema de cancelamento de eco acústico com emprego de VAD e DTD.
Conforme elucidado no Capítulo 2, quando acontece a realimentação sobreposta à voz local,
esta última acaba por atuar como ruído sobre a função custo que rege a atualização do filtro
adaptativo [18], a peça central do cancelador de eco. Assim, torna-se necessário o uso de uma
ferramenta que permita detectar quando esta situação acontece: o detector de duas vozes
(double talk detector - DTD) precisa ser adicionado ao sistema, pois, como ilustrado na Fig. 25.
O trabalho do DTD é calcular correlações [19] e, fundamentado nestes resultados, impedir ou
permitir a atualização dos coeficientes do NLMS. Para entender como este processo funciona,
primeiramente, precisaremos reconhecer os sinais z(k), d(k) e e(k), apresentados na Fig. 25.
Estes sinais são, respectivamente, o sinal captado pelo microfone do sistema de
telecomunicação, a predição feita pelo NLMS e o resultado da diferença entre z(k) e d(k), ou
seja, o sinal de erro.
Supondo a situação em que acontece somente a realimentação, ou seja, o sinal recebido
contém voz, mas não há sinal local, o filtro adaptativo estará (após seus coeficientes já terem
convergido) gerando um sinal d(k) que é fortemente correlacionado com o sinal z(k)
(idealmente, igual a z(k)). Já quando há voz local e voz proveniente do caminho de
realimentação, como o filtro adaptativo pode prever, no caso ideal, somente a parcela de
realimentação, a correlação entre z(k) e d(k) se reduzirá e a correlação entre z(k) e e(k)
crescerá. O cálculo destas correlações é realizado pelo seguinte algoritmo [19]:
( ) | ( )
√ ( ) ( )|
( ) | ( )
√ ( ) ( )|
(Eqs. 5.1)
42
onde
( ) ( ) ( ) ( )
( ) ( ) ( ) ( )
( ) ( ) ( ) ( )
( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( )
⁄
(Eqs. 5.2)
e N é a ordem do filtro adaptativo. é a potência do sinal captado pelo microfone, é a
potência do eco estimado pelo sistema adaptativo, é a potência do sinal resultante do
subtrator, é a potência cruzada entre o sinal captado pelo microfone e aquele estimado
pelo filtro adaptativo e é a potência cruzada entre o sinal captado pelo microfone e o sinal
resultante do subtrator. Finalmente, é a correlação cruzada entre o sinal gerado pelo
microfone e a estimativa do filtro e é a correlação cruzada entre a aquisição do microfone
e o erro residual na saída do subtrator.
Há, ainda, a situação em que não há realimentação mas há voz local. Nesta situação, d(k) e z(k)
tornam-se naturalmente descorrelacionados e z(k) e e(k) tornam-se correlacionados. Assim, o
DTD consegue não só detectar a presença de duas vozes em z(k), mas também a presença
apenas local. O fluxograma deste sistema é apresentado na Fig. 26.
Fig. 26 - Esquema lógico do DTD.
A Fig. 27 demonstra como as correlações entre z(k) e d(k) e entre z(k) e e(k) variaram ao longo
do tempo quando foi utilizado para teste o sinal presente nesta mesma figura. É justamente
nos pontos em que Ze (correspondente à evolução de ) e Zd (correspondente à evolução
de ) se cruzam que começam ou terminam os períodos de dupla voz.
43
Fig. 27 - Resultado do DTD.
Os resultados apresentados pelo DTD foram tão precisos que não foi necessário compará-lo
com outras técnicas, ao contrário do que aconteceu com os VADs. Destacamos, por fim, que
para este exemplo foi empregado um filtro adaptativo de tamanho (determinado
empiricamente como ordem ótima).
44
Capítulo 6 – Resultados do Sistema Integrado
O sistema completo, conforme apresentado nas Fig. 16 e 25, foi composto pelo filtro
adaptativo, pelo VAD estatístico e pelo DTD. Nos testes utilizaram-se dois sistemas de
teleconferência montados em salas diferentes do PADS.
Através desta configuração foi mantido um diálogo entre duas salas do laboratório. Este foi
gravado e, posteriormente, submetido aos algoritmos desenvolvidos. Assim, pudemos
averiguar a melhoria na inteligibilidade promovida por nosso mecanismo de cancelamento de
eco acústico.
Fig. 28 - Resultados do sistema integrado5.
A Fig. 28 mostra em sua parte superior o sinal recebido em uma das salas. Já a curva
sobreposta a este sinal representa as detecções do algoritmo VAD estatístico. Abaixo, ao
centro da figura, encontra-se o sinal que foi gravado pelo microfone desta mesma sala. Nele,
há a combinação do sinal realimentado pela caixa de som com o sinal do interlocutor situado
na própria sala. A curva sobreposta a este sinal representa as detecções do DTD, sendo
5 Para não haver sobreposição dos sinais, foi adicionado nível DC de 1.5 ao sinal apresentado no centro
da figura (azul) e nível DC de 2.25 ao sinal apresentado na parte superior (rosa).
45
importante notar que o algoritmo detectou tanto os momentos em que houve apenas a fala
local quanto os momentos em que houve superposição desta e da realimentação.
As curvas presentes na parte inferior da imagem representam a variação das correlações entre
o sinal captado pelo microfone e o sinal de erro ( ) e entre o sinal captado pelo microfone e
a predição ( ) do NLMS (com 256 coeficientes). Cabe enfatizar novamente que é nos
momentos de cruzamento destas curvas que acontecem as detecções positivas do DTD.
Fig. 29 - Resultado da filtragem adaptativa bem sucedida6.
A Fig. 29 apresenta o sinal de referência comprometido por eco na parte superior e o resultado
da filtragem feita pelo NLMS quando controlado pelo DTD e pelo VAD na parte inferior. É
interessante notar que a parcela representativa de eco é reduzida paulatinamente - ao
término do sinal, entre 15 s e 20 s, a energia do eco é aproximadamente 100 vezes menor do
que entre 4 s e 7 s - o que é justificado pela convergência gradual dos coeficientes do filtro
adaptativo para valores próximos dos ótimos.
Também devemos notar que a energia do eco apresentou sempre tendência ao decaimento,
justamente porque havia a atuação do DTD e do VAD impedindo que os coeficientes do filtro
adaptativo fossem atualizados nos contextos de dupla voz e ausência de sinal alimentando o
alto-falante do sistema. Sem a ação destes dois blocos poderíamos ter incrementos da parcela
de eco após instantes de silêncio ou dupla voz ou, no pior caso, divergência do filtro, conforme
exibido na Fig. 30, em que abandonamos tais blocos.
6 Para não haver sobreposição dos sinais apresentados, foi adicionado nível DC unitário ao sinal exibido
na parte superior desta figura.
46
Fig. 30 - Resultado da filtragem adaptativa com divergência dos coeficientes do filtro.
Neste caso particular, a filtragem vinha transcorrendo melhor que no caso com ação do VAD e
do DTD. Conforme podemos averiguar, no intervalo entre 4 s e 7 s a energia do eco já estava
mais reduzida que a aquela apresentada na Fig. 29. Entretanto, no entorno de 19 s os
coeficientes do filtro adaptativo divergiram, pois se tratava de um momento de transição entre
a situação de realimentação e de apenas voz local. Como faltou um mecanismo que
controlasse a atualização do filtro durante esta passagem, houve divergência.
47
Parte III
Capítulo 7 – Separação Cega de Fontes Aplicada
ao Cancelamento de Eco
O sistema de cancelamento de eco acústico desenvolvido ao longo da primeira parte deste
texto, embora eficaz, ainda apresenta um grande inconveniente. Nota-se que quando um
período de dupla voz prolonga-se (vide Fig. 31), como o mecanismo adaptativo deixa de
atualizar os seus coeficientes ao longo de todo este intervalo, perdemos a capacidade de
rastrear mudanças no ambiente acústico em que o sistema está inserido. Desta forma,
estaremos realizando a anulação do eco usando coeficientes de filtragem inadequados, o que
pode permitir que o eco que se instaura no sistema volte a níveis perceptíveis, devendo
portanto ser contornada, afinal tal retorno representaria uma degeneração severa. Quando
isto ocorre, o sistema não só tem que passar por um novo intervalo de adaptação de seus
coeficientes, mas também deixa transparecer ao usuário que este processo está acontecendo,
reduzindo sua qualidade perceptual.
Fig. 31 - Longo período de dupla voz.
48
Embora este cenário seja raro, dados os motivos supracitados, é pertinente que se
desenvolvam mecanismos para suplantá-lo. Neste âmbito, a proposta deste projeto é
interpretar os momentos de dupla voz como situações em que se podem aplicar técnicas de
separação cega de fontes (Blind Source Separation – BSS), desde que se modifiquem os
sistemas de aquisição, que passarão a contar com mais de um microfone (Vide Fig. 32). Cabe
lembrar (vide seção de delimitações) que o escopo deste projeto aborda a proposta de um
mecanismo de separação cega de fontes que possa ser empregado no contexto de
cancelamento de eco acústico. Questões pertinentes à integração do sistema de filtragem
adaptativa e do sistema BSS, como atraso entre blocos, continuidade de fase e continuidade
de energia do sinal nos momentos de chaveamento entre os sistemas não serão abordadas
nestes texto.
Fig. 32 - Sistema híbrido: adaptativo e BSS.
Todavia, muitos métodos de BSS apresentam um grave empecilho à sua aplicação num
cancelador de eco acústico: a permutação das saídas do sistema [21]. Desta forma, embora
seja verdadeiro que podemos separar a parcela de realimentação da voz local empregando
esta classe de algoritmos, não teríamos meios para diferenciar as observações resultantes, ou
seja, um mecanismo automático que determine qual dos sinais separados é a parcela de
realimentação e qual é a voz local.
Assim, faz-se necessário a adoção de mais informações do que somente as misturas. É preciso
que se tenham dados a priori do sinal de realimentação e da voz local. Neste contexto,
propomos um novo artifício de separação de fontes que integre duas técnicas no domínio da
frequência: uma que utiliza o conhecimento do arranjo espacial da sala onde se tem instalado
o sistema de comunicação, de modo que informações sobre a diferença de percurso entre os
sinais captados pelos sensores que compõem o sistema de aquisição possam ser usadas para
gerar uma separação inicial das fontes [27][28][29], e outra, a Separação Cega de Fontes por
Exploração de Dependências Estatísticas de Alta Ordem (EDAOR) [32] (em inglês, Blind Source
Separation Exploiting Higher-Order Frequency Dependencies), que otimizará a solução
encontrada ao final do primeiro estágio.
49
Fig. 33 - Nova proposta de BSS
A inovação proposta reside, portanto, na integração dos dois mecanismos supracitados que
são, em princípio, incompatíveis. Este não casamento ocorre porque ao passo que o primeiro
estágio gera máscaras a serem aplicadas sobre a representação frequencial das misturas por
um mecanismo variável por janela e frequência analisada (a definição de janela será dada no
Capítulo 8), a inicialização da EDAOR requer um conjunto de matrizes lineares para a
separação de cada frequência individualmente. Em outras palavras, por associar cada ponto do
espaço de uma das misturas a apenas uma das estimativas, o processo
de mascaramento é não linear. Já o EDAOR necessita, para sua inicialização, de matrizes em
cada raia que efetuem uma separação (ou branqueamento) preliminar. Estas matrizes efetuam
uma transformação linear nas misturas, o que não é diretamente compatível com o processo
não linear de mascaramento. A forma encontrada de compatibilizar estas abordagens reside
na busca de matrizes de inicialização que aproximem, numa transformação linear, a
transformação não linear provocada pelo branqueamento.
Nos próximos capítulos abordaremos o desenvolvimento da arquitetura representada na Fig.
33, desde a implementação do mecanismo de separação inicial dos sinais utilizando
informações relativas ao caminho de propagação e como linearizar a solução gerada por este
primeiro estágio, até como a EDAOR atua otimizando-a. Em seguida, apresentaremos os
resultados do emprego deste fluxo de processamento como solução para os momentos de
dupla voz.
Informações de diferença de
percurso Linearização EDAOR
Nova proposta de
processo BSS
50
Capítulo 8 – Mascaramento em Frequência: A
Separação Inicial de Fontes Usando Informações
de Direção de Chegada em Arranjo de Microfones
Muitos estudos recentes [27][28][29] demonstram a viabilidade da separação de fontes
utilizando informações relativas à diferença de caminho entre os sinais captados por um
conjunto de microfones. Este conceito envolve a noção física do tempo de propagação dos
sinais e pode ser mais bem entendida observando-se a Fig. 34.
Fig. 34 - Explorando o arranjo espacial de um ambiente acústico.
Neste esquema representa a distância entre microfones, representa a velocidade do som
no meio onde os microfones e a fonte sonora estão inseridos e representa o ângulo de
chegada do sinal ao microfone. Se considerarmos a frente de onda plana e representando o
atraso relativo entre o sinal captado pelos microfones, teremos:
(
) (Eq. 8.1)
Todavia, o cálculo de não é tão simples quando desejamos realizar a separação de misturas.
Isto ocorre, pois, se estas fontes estão em posições distintas, a busca dos máximos da
correlação cruzada passa a ser insuficiente para obter , o que deixa a expressão do ângulo de
chegada indeterminada. Ademais, em situações reais, não existe apenas um caminho direto
até os microfones, mas sim diversos caminhos oriundos de reverberações.
51
Por outro lado, o emprego da informação de diferença de percurso entre as observações
(mesmo que as fontes não estejam estáticas) para a separação de fontes é possível, desde que
as fontes sejam conjuntamente esparsas em frequência [24], ou seja, as componentes em
frequência dos sinais envolvidos nas misturas não se sobreponham ou se sobreponham pouco
e raramente em cada intervalo de análise. Esta limitação impõe que quando uma componente
frequencial de um dos sinais presentes na mistura ressoa, esta mesma componente deverá ser
nula (ou muito próxima de nula) nas demais fontes. Felizmente, este é o caso quando tratamos
de sinais de voz, o que nos permite aplicar esta técnica em prol do cancelamento de eco
acústico.
Dada a validade da hipótese de esparsidade entre fontes no domínio da frequência [25],
devemos abordar o problema neste domínio de maneira análoga ao desenvolvimento anterior.
Com o intuito de manter um compromisso ótimo entre resolução em frequência e resolução
temporal, aplica-se a short time Fourier Transform (STFT) nesta conversão. Assim, consegue-se,
por exemplo, rastrear movimentos suaves de uma fonte em relação ao conjunto de
microfones sem, com isto, comprometer as informações frequenciais pertinentes à solução do
problema de recuperação das fontes originais [35].
A STFT é definida por:
( ) ∑ ( ) ( )
(Eq. 8.2)
onde f é uma raia frequencial, L é o número de raias e é o deslocamento em amostras entre
duas janelas sucessivas, que são funções que, em geral, tendem suavemente a zero em suas
extremidades.
Como, não raro no cenário de cancelamento de eco desejamos separar apenas o sinal
realimentado da caixa de som e a voz local, podemos abordar o problema usando apenas duas
misturas (dois microfones) mantendo, portanto, o problema determinado7. A informação de
ângulo de chegada para cada raia da STFT presente em uma janela pode ser obtida por [27]:
( ) ( ( )
( ) ) (Eq. 8.3)
onde representa a STFT da i-ésima mistura, a raia da STFT em observação, m o índice da
janela em análise, c a velocidade de propagação do som e d a distância entre microfones.
Um gráfico típico da distribuição das frequências em relação aos ângulos calculados é exibido
na Fig. 35.
7 A solução superdeterminada (mais de dois microfones) é igualmente conveniente, entretanto, tornaria
o sistema mais custoso e demandaria mais recursos computacionais.
52
Fig. 35 - Dispersão dos ângulos.
Nota-se claramente a concentração de ocorrências em ângulos específicos. Estes pontos estão
relacionados, justamente, aos ângulos das fontes em relação ao conjunto de microfones.
Podemos observar, portanto, que poderíamos analisar em cada ponto do espaço
e separar as fontes segundo a proximidade com estes máximos do histograma.
Entretanto, é mais conveniente computacionalmente utilizar métodos de clusterização como o
K-médias [38] ou o a clusterização fuzzy [41] (em inglês, k-means clustering e fuzzy c-means
clustering, respectivamente). Os centroides obtidos por estes algoritmos corresponderiam aos
máximos do histograma e, uma vez conhecidos, pode-se proceder à separação das raias.
Este mecanismo de separação atua de maneira comparativa. Se uma raia de uma janela está
mais próxima de um centroide, ela é considerada como pertencente à fonte a este associada.
Caso contrário, ela é associada à outra fonte. Mais precisamente, formam-se máscaras binárias
que são aplicadas à STFT de uma das observações (gravação de um microfone). A regra de
formação destas é [28]:
( ) {
( ) ( )
( ) ( )
(Eq. 8.4)
onde, para o caso de dois microfones, e são os dois centróides encontrados e o operador
( ) indica inversão de todos os valores 0 para 1 e vice-versa.
É importante notar que o problema da permutação de estimativas é automaticamente sanado
quando aplicamos estes mascaramentos, afinal, estamos utilizando informações sobre o
posicionamento das fontes para distingui-las. Por outro lado, a técnica descrita gera
53
descontinuidades na representação em frequência dos sinais, gerando artefatos como ruído
musical e distorções não lineares. A mitigação destas adversidades pode ser realizada pela
linearização do método proposto através de técnicas convenientes, como a obtenção da
solução ótima de Wiener [3].
Este recurso - que é um caso especial de aplicação do Steepest Descent - pode ser facilmente
empregado uma vez que temos as misturas originais e estimativas das fontes separadas,
obtidas pelo método anteriormente desenvolvido. Tal emprego torna-se mais claro pela
investigação do caso em que temos duas fontes e duas misturas, onde os coeficientes da
matriz de separação da i-ésima raia espectral são obtidos pelas equações:
* + 6[ ( )
( )] * +
( )7
6[ ( )
( )] , ( )
( ) -7
* +
[
]
(Eq. 8.5)
onde , - representa a operação de média estatística, n representa o n-ésimo quadro, * indica
a operação de conjugação de valores complexos, * + a DFT dos dois sinais de mistura e * +
a DFT dos dois sinais estimados pelo método de separação supracitado. Desta formulação
depreendemos que * + é a matriz conjugada de separação para obtenção de cada
estimativa e que é a matriz combinada para obtenção de todas as estimativas. Pelo uso
deste método obtemos um conjunto de matrizes responsável pela separação de cada
frequência individualmente.
A extensão deste equacionamento para casos em que se têm N sinais misturados e N
observações é trivial. Entretanto, é importante que se observe que a operação tornar-se-á
tão mais custosa computacionalmente quanto maior for N.
54
Capítulo 9 – Otimizando a Separação de Fontes
Através da Exploração de Dependências
Estatísticas de Alta Ordem no Domínio da
Frequência
Uma vez realizada a linearização proposta no capítulo precedente, teremos como resultado
um conjunto de matrizes capazes de separar as frequências das n fontes presentes em n
observações. Esta separação, entretanto, deve ser entendida apenas como uma separação
primária, já que a estimativa dos ângulos de chegada para algumas raias em certos contextos
nem sempre é confiável, já que a detecção de centróides em ambiente reverberante,
principalmente para baixas e altas frequências, nem sempre é trivial. Adicionalmente, a
esparsidade das fontes no domínio da frequência, embora verdadeira de modo geral, não é
suficiente para a separação das fontes com qualidade razoável.
Neste âmbito, carecemos de um método que aperfeiçoe este resultado preliminar. A proposta
deste projeto é a aplicação do artifício de exploração de dependências estatísticas de alta
ordem entre raias espectrais das fontes, conforme recomendado por [32] como extensão do
método ICA no domínio da frequência.
Ao fim do emprego deste procedimento, que modela cada raia das observações como uma
mistura instantânea, obtemos as matrizes que tornam verdadeiro
( ) ∑
( ) ( )
(Eq. 9.1)
onde M é o número de fontes que se deseja separar das observações e ( )
é o K-ésimo
elemento (no domínio da frequência) do filtro de separação que atua sobre a j-ésima mistura,
contribuindo para a i-ésima estimativa. Cabe ressaltarmos que esta modelagem no domínio da
frequência é uma aproximação, e que ela só será válida se o janelamento do sinal for
suficientemente maior que o comprimento do filtro de mistura, de forma que a convolução
circular possa ser interpretada aproximadamente como convolução linear e, portanto,
transforme-se em produto entre raias espectrais no domínio da frequência.
A convergência de ( ) (a matriz formada pelos termos ( )
) para o estado ótimo é
conseguida pela minimização da função custo (Eq. 9.4) oriunda do conceito de Entropia
Relativa (distância ou divergência de Kullback-Leibler), definida como:
( ) ∫ ( ) ( ( )
( )) (Eq. 9.2)
55
Aplicamos, portanto, esta consideração focando na redução da distância relativa entre a
função densidade de probabilidade (PDF) conjunta da estimativa das fontes separadas
( ) e o produtório das PDFs individuais que as descrevem, ∏ ( ) :
( ( ) ∏ ( )
)
(Eq. 9.3)
Fica claro que esta função custo avalia o grau de independência entre as fontes, sendo
quando a densidade de probabilidade conjunta das estimativas das fontes iguala-se ao
produto das densidades marginais, que é exatamente a definição de independência
estatística[22]. Indo mais além no desenvolvimento da função , encontramos, através de
transformação de variáveis [32],
∫ ( ) ( ) ∑ | ( )|
∑∫ ( ) ( )
∑ | ( )|
∑ ( )
(Eq. 9.4)
Neste ponto, é pertinente estabelecermos algumas observações acerca de C e sua
minimização. O termo ∫ ( ) ( ) é a entropia das
observações e, portanto, é uma constante positiva dependente apenas das misturas, tornando
o controle de independente de . O termo ∑ ( ) , por outro lado, mede a
adequação das estimativas das fontes ao modelo supergaussiano (verossimilhança). Assim,
quanto maior o grau de conformidade, menor será , já que este termo tem peso negativo na
função custo.
Todavia, a adequação das estimativas a este modelo permitiria estimativas nulas, afinal, o
modelo supergaussiano é concentrado em torno da origem. Para contornar este problema, o
termo | ( )| atua na função custo da seguinte maneira: quando as estimativas são
nulas, ( ) | ( )| ∑ | ( )| , implicando a
penalização desta possibilidade. O mesmo fenômeno é observado quando algumas das
estimativas das fontes são iguais, pois, neste contexto, ( ) terá linhas linearmente
dependentes, ocasionando ( ) .
Deste modo, esta função custo tem a propriedade de minimizar a dependência entre as
estimativas, contornando soluções nulas e estimativas repetidas. Ademais, escolhendo-se
criteriosamente o processo de atualização via gradiente natural (gradient descent method)
para minimização de C (Eq. 9.5 e Eq. 9.7), consegue-se maximizar a dependência entre raias de
uma mesma estimativa. Destarte, a aplicação do método é suficiente para a separação das
fontes, já minimizando o problema de permutação entre raias, intrínseco à maioria dos
métodos de separação cega de fontes no domínio da frequência.
56
Portanto, conhecendo estas características da função C, cabe apenas proceder à sua
minimização. Esta meta é atingida pelo uso do método de descida do gradiente natural, o qual
pode ser expresso por:
( )
( ) ∑(
( )( ( )( ) ( )
( )) ( ))
( )
(Eq. 9.5)
onde é unitário quando e nulo nos demais casos. A atualização dos termos ( )
segue
a regra
( )
( )
( )
(Eq. 9.6)
com η (geralmente abaixo de 0,1) atuando como controlador da taxa de aprendizado do
algoritmo.
A função multivariável ( )( ( )
( )) utilizada na Eq. 8.5 e responsável por maximizar a
dependência entre raias de uma mesma estimativa é descrita por:
( )(
( ) ( ))
( ( )
( ))
( )
(Eq. 9.7)
de onde é possível notar que quando abandonamos o caráter multidimensional de
( )( ( )
( )) , convertendo-o em uma função de uma única variável ( )( ( )) ,
recaímos no método ICA convencional.
Se admitirmos que as fontes que desejamos separar podem ser individualmente enquadradas
em um modelo multivariável (havendo dependências entre variáveis) supergaussiano, uma
possibilidade de modelagem de ( )( ( )
( )) é [32]:
( )(
( ) ( ))
( )
√∑ | ( )|
(Eq. 9.8)
Neste ponto, ao fim das iterações do algoritmo e da consequente convergência da matriz ( ),
teremos a capacidade de obter separadamente as n fontes misturadas em n observações pela
aplicação da Eq. 9.1 inicialmente proposta. Todavia, se por um lado o desenvolvimento
supracitado sana intrinsecamente o problema da permutação entre frequências, por outro não
foi provido nenhum mecanismo que compense o efeito de escalamento destas. Nesta
conjuntura, pode-se mitigar esta sequela pela aplicação do princípio da distorção mínima [33],
que tem como origem a interpretação de ( ) como uma versão arbitrariamente escalada da
matriz de separação exata por uma matriz diagonal ( ). Isto é,
( ) ( ) ( ) (Eq. 9.9)
57
Assim, é possível obter uma equalização razoável das frequências que comporão as fontes
individuais se aplicarmos a seguinte substituição:
( ) ( ( )) ( ) (Eq. 9.10)
onde o operador ( ) indica a matriz diagonal formada a partir dos elementos da matriz
dada como argumento para a função, ou seja, a própria matriz dada como entrada com todos
os termos fora da diagonal principal anulados.
Portanto, apresentamos um método que não só minimiza o problema da permutação, mas
também o de escalamento. Este mecanismo, em conjunto com a linearização através da
solução ótima de Wiener, que abranda as distorções não lineares causadas pela separação das
fontes por informação de percurso de propagação, será responsável por elevar a qualidade da
separação das fontes. A relevância desta melhoria será abordada no capítulo seguinte, em que
discutiremos os resultados obtidos por cada etapa do processamento descrito na Parte II.
58
Capítulo 10 – Resultados do Mecanismo de
Separação Cega de Fontes
Testes objetivos A métrica padrão para avaliação de desempenho de sistemas de separação cega de fontes é a
razão sinal - interferência (signal to interference ratio (SIR)). Portanto, com o intuito de
possibilitar a verificação da melhoria de desempenho trazida por cada passo descrito ao longo
dos Capítulos 8 e 9, apresentaremos tanto a SIR final do processo de separação de fontes
como os resultados intermediários. Exibiremos, também, a análise espectral e de forma de
onda de alguns resultados.
Fig. 36 - Ambiente de testes montado no PADS.
A Fig. 36 apresenta o espaço de testes que foi montado no PADS. Este ambiente contava com
dois microfones idênticos, distanciados de 5 cm e posicionados na base de uma mesa circular
de 1,2 m de raio. Na outra extremidade foram posicionadas pessoas em pares lendo
simultaneamente monólogos distintos, gerando as misturas gravadas pelos microfones. Assim,
com o intuito de investigarmos se a informação de direção de chegada das fontes seria
suficiente para desambiguar a permutação após a separação, escolhemos aleatoriamente a
posição da primeira pessoa em , ou (em relação ao centro da mesa) e a posição
da segunda pessoa em , ou . Em todos os testes a primeira voz é feminina e a
segunda é masculina.
59
Desta forma, configuramos quatro cenários que foram empregados em oito testes visando a
mensurar o impacto do ruído de fundo, do tipo de janelamento (Hanning ou retangular), da
aplicação do princípio da distorção mínima e da quantidade de raias espectrais analisadas
sobre a SIR. Ao todo, foram realizadas mais de 600 separações, cujos dados cumpre analisar.
Apresentaremos os resultados e conclusões mais significativos ao longo do texto, deixando as
demais informações para consulta no Apêndice A.
A Tab. 3 apresenta os melhores resultados que obtivemos. Os parâmetros de teste aplicados
foram: PADS silencioso (gravações feitas durante a noite, desligando-se todos os
equipamentos do laboratório), emprego da janela de Hanning (conforme definição da Eq. 7.2)
e utilização do princípio da distorção mínima ao fim do processo. A intenção dos testes que,
assim como este, foram feitos em ambiente silenciso é avaliarmos o desempenho do sistema
proposto em uma situação próxima da ideal, analogamente ao que se tem em salas de
videoconferência dedicadas.
Já a Tab. 4 apresenta os melhores resultados obtidos em testes de robustez do sistema ao
ruído, ou seja, com sinais gravados em horário de plena produção do laboratório. Desta forma,
todas as amostras gravadas foram severamente comprometidas por ruídos: barulho de
digitação e pessoas caminhando sobre o piso de madeira, conversa de fundo ocorrendo em
paralelo ao teste, ruído do ar-condicionado e de um estabilizador de tensão de grande porte,
vozerio proveniente do corredor diante do laboratório, dentre outros. Os demais parâmetros
de teste aplicados foram: emprego da janela de Hanning e não utilização do princípio da
distorção mínima.
Nas colunas da Tab. 3 e da Tab. 4 podemos observar os quatro cenários de testes, dispostos de
modo a facilitar o entendimento da influência do distanciamento das fontes sobre os
resultados. Para tal, investigamos a SIR de cada fonte obtida após o processo de separação
pelo mascaramento binário das frequências segundo informação de ângulo de chegada
(coluna M) e após a otimização via EDAOR (coluna O). Ademais, estudamos a influência do
parâmetro K (o número de frequências analisadas) sobre a SIR.
O progressivo incremento da SIR da esquerda para a direita da Tab. 3 e da Tab. 4 deixa
evidente que quando maior é a distância entre as fontes, melhores são os resultados do
método proposto. Adicionalmente, pode-se observar que a ação da EDAOR incrementa o
resultado, excetuando-se quando as fontes estão muito próximas ou quando K escolhido
distancia-se do K ótimo.
60
Tab. 3 – Avaliação em ambiente silencioso / Janela de Hanning / Com princípio da distorção mínima.
Tab. 4 - Avaliação em ambiente ruidoso / Janela de Hanning / Sem princípio da distorção mínima.
61
Tab. 5 - Avaliação em ambiente ruidoso / Janela de Hanning / Com princípio da distorção mínima
62
A interpretação destes dois resultados é intuitiva. Não causa espanto que quando as fontes
estejam muito próximas os resultados sejam piores, afinal, a separação por informação de
ângulo de chegada tenderá a apresentar mais erros, pois este dado se torna ambíguo. Com
uma inicialização menos precisa, a EDAOR terá mais chances de convergir para mínimos locais
que não resolverão o problema de separação de fonte com qualidade máxima. Quanto ao
valor de K, é dado empírico que sua escolha ótima deve ser de 4 a 8 vezes a ordem dos filtros
de mistura. Quando superdimensionamos K o número de parâmetros a serem estimados
aumenta e, por falta de estatísticas mais robustas (dado que a duração dos sinais de teste é
limitada), esta avaliação acaba sendo comprometida8. Além disto, como temos mais graus de
liberdade, o sistema tende a apresentar mais distorção. Por outro lado, quando subestimamos
o valor de K, trabalhamos com poucas estatísticas, dificultando a obtenção do resultado ótimo.
Nossos testes permitiram determinar (K ótimo). Este resultado está em
conformidade com a regra empírica supracitada, desde que admitamos que a ordem
estabelecida para o filtro adaptativo na Parte II deste projeto é ótima, conforme indicaram
nossas avaliações. Em outras palavras, dado que a função da filtragem adaptativa naquele
contexto era determinar o sistema que mimetizaria a resposta acústica do nosso ambiente de
testes, pode-se dizer que a ordem desta é aproximadamente igual à ordem do filtro adaptativo
quando este está otimizado e, portanto, seria oito vezes superior à ordem do NLMS
( , determinado empiricamente).
É importante frisarmos que as constatações anteriores sobre a separação angular entre as
fontes e o desempenho do sistema não são um demérito. Dado que a mesa utilizada nos teste
tinha diâmetro de 1,2 m, o pior caso de avaliação, com e
representaria o
usuário do sistema e o alto-falante acomodados praticamente “lado a lado”, uma situação
muito rara no emprego de sistemas de videofone. Por outro lado, separações maiores entre
ambos são mais comuns e podem ser ajustadas criteriosamente para prover melhor
desempenho. O interesse nos testes com proximidade maior entre as fontes reside em
podermos avaliar o desempenho do método de separação cega de fontes que propusemos em
contextos mais gerais do que apenas em cancelamento de eco acústico.
Quanto à diferença entre os resultados da Tab. 3 e da Tab. 4 fica evidente que o ruído pode
comprometer o desempenho do sistema. Entretanto, a variação dos resultados entre estes
dois testes nos permite afirmar que o método proposto apresentou robustez ao ruído, dado
que, mesmo em condições distantes da ideal, as medidas da SIR foram compatíveis ou
superiores às de diversos métodos de separação cega de fontes empregados atualmente
[26][27][30][32].
Atribuímos esta diferença de desempenho ao fato de as frequências componentes do ruído
comprometerem tanto a identificação dos ângulos de chegada e a separação preliminar
quanto a convergência da EDAOR. Para evidenciarmos o papel prejudicial destas componentes,
apresentamos na Tab. 5 os mesmos testes da Tab. 4, entretanto aplicando-se o princípio da
distorção mínima. É imediata a percepção de que as componentes frequências do ruído atuam
distanciando o algoritmo do ponto ótimo de operação, o que ganha ainda mais importância
8 Este foi o resultado observado para . Por isto, resultados para K maiores que este valor
foram omitidos das tabelas.
63
após a aplicação do princípio. Deste modo, chegamos à importante conclusão de que a
aplicação desta técnica de pós-processamento só gera melhores SIRs em ambientes pouco
ruidosos.
A análise dos demais testes (disponíveis no Apêndice A) nos permite complementar nossas
avaliações com mais algumas constatações pertinentes:
1. O mecanismo de separação de fontes através de mascaramento binário de raias da
STFT tem seu desempenho relativamente independente de K, o número de raias
analisadas. Por outro lado, a etapa que emprega a EDAOR é consideravelmente
dependente deste parâmetro. Portanto, a aplicação da etapa de processamento
via EDAOR pode não ser indicada para ambientes cuja reverberação é
acentuadamente variável, o que não é comum no cenário de videoconferências
mas pode ocorrer em outros contextos de separação cega de fontes.
Esta maior independência de K observada para o método de mascaramento
binário quando comparado à EDAOR é justificada pelo fato de o segundo algoritmo
trabalhar com estatísticas de alta ordem, dependendo de um espaço amostral
adequado, enquanto o primeiro necessita apenas de um número de amostras
suficiente para a identificação de clusters (centroides). Como a identificação dos
centróides é um processo que não demanda grande quantidade de dados quando
existe a formação evidente de agrupamentos de dados, sendo este o caso para a
maioria das frequências, conforme visto na Fig. 35, o método de mascaramento
binário torna-se mais independente de K.
2. A aplicação da EDAOR sobre o resultado da linearização do mascaramento de
frequências nem sempre implica ganho da SIR, o que também está atrelado ao
fator K. De fato, quando a escolha de K é incorreta, podemos, até mesmo, reduzir a
SIR inicialmente obtida, conforme justificado anteriormente.
3. Em geral, quanto mais distantes estão as fontes, melhores os resultados.
4. Para valores subdimensionados de K e sem a aplicação do princípio da distorção
mínima, o uso de janela retangular permite melhores estimativas das fontes. Por
outro lado, se neste contexto mantivermos o uso deste último passo de
processamento, a janela de Hanning permite uma SIR maior.
5. A avaliação da métrica objetiva (SIR) foi sempre melhor em contextos livres de
ruído, independentemente dos demais parâmetros de teste. Entretanto, não
podemos dizer que o sistema não apresentou robustez ao ruído, já que a SIR não
sofreu alterações de grande relevância entre testes com e sem ruído.
64
É importante destacarmos que grande parte das avaliações de técnicas de BSS é feita em
condições mais controladas do que as que aplicamos. Habitualmente, gravam-se as fontes em
ambientes anecóicos livres de ruído e realiza-se a mistura convolutiva dos sinais de maneira
simulada [30][32]. Os resultados obtidos para esta classe de testes9 podem ser observados na
Tab. 6 – destaca-se que foram usados filtros aleatórios de ordem 8 para simular a resposta
acústica do ambiente de mistura e, assim, o K ótimo era conhecido e pode ser utilizado, já que
a aplicação da regra ( ), onde é a ordem do filtro de mistura,
gerando é trivial.
9 Como não tivemos acesso a um ambiente anecóico para gerar nossos próprios sinais, utilizamos
gravações disponíveis em http://sassec.gforge.inria.fr
65
Tab. 6 – Comparativo da SIR entre o uso da técnica de mascaramento binário (M) e após aplicação da otimização proposta (O) para misturas simuladas.
Tab. 7 - Comparativo de número de iterações e SIR entre a nova proposta e a técnica clássica de separação de fontes.
66
Para que a avaliação destes resultados possa ser mais completa, apresentamos na Fig. 37 a
forma de onda e análise espectral do melhor resultado da Tab. 3 (Cenário 3, ). Na
Fig. 38 apresentamos a mesma análise para o melhor resultado da Tab. 4 (Cenário 4,
) e na Fig. 39 a apresentamos para o melhor resultado da Tab. 5 (Cenário 3,
).
Conforme podemos constatar da análise de forma de onda, existe grande semelhança entre as
fontes estimadas (coluna da direita) e as fontes idealmente separadas (coluna central) obtidas
das misturas (coluna esquerda). Merece destaque, também, o resultado da análise espectral,
de onde depreendemos que a permutação de frequências foi evitada e que o escalamento
arbitrário foi realmente mitigado nos casos em que se aplicou o princípio da distorção mínima
(Fig. 37 e Fig. 39).
Fig. 37 - Análise de forma de onda e espectro para os resultados da Tab. 3
67
Fig. 38 - Análise de forma de onda e espectro para os resultados da Tab. 4
Comparando a Fig. 38, em que não se aplicou o princípio da distorção mínima, aos dois outros
casos, notamos claramente que, embora ainda seja possível identificar as características
espectrais dominantes do sinal, as frequências altas e médias foram bastante acentuadas e as
frequências baixas foram atenuadas em relação à separação ideal. Em contrapartida, nos casos
em que se aplica o princípio da distorção mínima, o relacionamento entre a separação
almejada e a obtida é muito mais evidente, havendo maior clareza das nuances espectrais.
68
Fig. 39 - Análise de forma de onda e espectro para os resultado da Tab. 5
A fim de investigarmos se o método proposto oferece vantagens quando confrontado com a
proposta clássica de branqueamento dos sinais previamente à aplicação do EDOAR,
executamos os mesmos testes apresentados na Tab. 3, Tab. 4 e Tab. 5 utilizando este outro
fluxo, que é adotado como referência para muitos métodos de separação cega de fontes. Os
resultados obtidos são apresentados na Tab. 8, Tab. 9 e Tab. 10.
Ao compararmos estas três tabelas com aquelas apresentadas previamente, é imediato
perceber que ambas as técnicas apresentam desempenho quase idêntico quando o ambiente
de testes é livre de ruído, havendo ligeira vantagem para o método clássico no cenário 2.
Entretanto, quando imerso em ruído, o desempenho da nova proposta é muito superior,
independentemente da aplicação ou não do princípio da distorção mínima.
69
Tab. 8- Técnica clássica: Avaliação em ambiente silencioso / Janela de Hanning / Com princípio da distorção mínima
Tab. 9 - Técnica clássica: Avaliação em ambiente ruidoso / Janela de Hanning / Sem princípio da distorção mínima – O símbolo indica que o método não convergiu
70
Tab. 10 - Técnica clássica: Avaliação em ambiente ruidoso / Janela de Hanning / Sem princípio da distorção mínima
71
A provável causa da superioridade do método proposto em ambiente ruidoso é o tipo de ruído
que prejudicava os sinais e a inicialização do algoritmo, ou seja, a prática de clusterização para
posterior mascaramento binário. Como o ruído em questão é constante e proveniente de
diversas fontes, não há padrão de direção de chegada, já que ele constitui um campo
reverberante no ambiente de testes. Desta forma, quando realizamos a clusterização e o
mascaramento binário para a inicialização do processo de separação de fontes, o ruído acaba
tornando-se irrelevante. Por outro lado, quando utilizamos a técnica de branqueamento, como
buscamos apenas as direções ortogonais de projeção que maximizam a variância das fontes, o
ruído atua fazendo com que estas direções sejam mal estimadas, já que sua própria variância
terá peso na avaliação destas direções.
Por fim, avaliamos a eficiência do método que propusemos quando comparado à técnica
clássica. Para tal, utilizamos os mesmos sinais de testes da Tab. 3 (já que nestes contextos as
SIRs de ambos os métodos foram muito próximas) como excitação para ambos os algoritmos.
A métrica de eficiência usada é o número de iterações necessárias para que a EDAOR (parte
idêntica e último passo das duas técnicas) atinja a convergência das matrizes de separação,
sendo esta comparação apresentada na Tab. 7, na qual realizamos os testes apenas para K =
2048, uma vez que já depreendemos dos testes anteriores que este é o valor que permite que
a EDAOR alcance melhor resultado para as misturas de que dispomos.
Novamente, a superioridade da nova proposta é evidente. Mesmo no cenário em que a
inicialização por branqueamento foi mais eficiente, o método proposto foi cerca de três vezes
mais rápido (140 iterações para o novo método contra 450 para a técnica que emprega
branqueamento). Além disto, o número máximo de iterações de ambos os algoritmos foi
restrito a 3000, e na maioria dos casos o método clássico de emprego da EDAOR nem sequer
convergiu antes de este limite ser atingido.
Adicionalmente, destaca-se que o método clássico é extremamente dependente de η, o
controle de taxa de aprendizagem (vide Eq. 8.6). Enquanto para os testes do novo método
pudemos fixar (fator de aprendizagem considerado muito elevado) sem causar
divergência dos coeficientes das matrizes de separação, para o método clássico foi preciso
estabelecer o η máximo que não causaria divergência para cada teste separadamente.
Todavia, ainda houve casos em que o método clássico não convergiu, mesmo após diversas
tentativas (indicados pelo símbolo na Tab. 9), sendo a dificuldade de determinação de
muito maior nos casos em que o teste foi executado em ambiente ruidoso. Por outro lado, a
nova técnica proposta não divergiu em nenhuma ocasião, o que é, certamente, insuficiente
para se afirmar que o método desenvolvido neste projeto está isento deste problema, mas é
suficiente para afirmarmos que esta questão tornou-se muito menos crítica.
72
Testes subjetivos Com o intuito de verificarmos se as constatações feitas através de avaliação objetiva do
sistema de separação cega de fontes seriam confirmadas por seus usuários, submetemos tanto
a nova proposta quanto apenas a técnica de mascaramento binário de frequências e o
mecanismo clássico com inicialização por branqueamento a testes subjetivos de qualidade.
Cada avaliador deu seu parecer em uma escala de 1 (muito perturbador) a 5 (imperceptível)
sobre quatro quesitos: interferência entre os sinais após a separação (grau de separação), o
quão perturbador é o ruído acrescentado pelo processo de separação das fontes, o quão
perturbador é a distorção acrescentada pelo algoritmo de separação e o valor global do
sistema10. Ao todo, cada avaliador opinou sobre 18 resultados, sendo os testes conduzidos de
modo que houvesse intercalamento entre sinais tratados por cada um dos três processos.
A Tab. 11, a Tab. 12 e a Tab. 13 apresentam a média e o desvio padrão das avaliações feitas
por 20 pessoas para o processo utilizando a técnica de branqueamento, a técnica de
mascaramento binário e a técnica de mascaramento binário seguida de otimização via EDAOR,
respectivamente. Os testes são os mesmos apresentados nas Tab. 3 a Tab. 5 e nas Tab. 8 a Tab.
10, sendo os cenários (ângulos entre as fontes) também idênticos. Com o intuito de facilitar a
visualização dos resultados, a Fig. 40 apresenta os resultados dos seguintes testes extraídos
destas tabelas em um formato de mais fácil leitura, onde apresentamos a média das SIRs para
as duas estimativas (média de todos os avaliadores):
A. Ambiente silencioso, emprego da janela de Hanning, emprego do princípio da
distorção mínima, cenário 3, ;
B. Ambiente ruidoso, emprego da janela de Hanning, sem emprego do princípio da
distorção mínima, cenário 3, ;
C. Ambiente ruidoso, emprego da janela de Hanning, emprego do princípio da distorção
mínima, cenário 3, ;
D. Ambiente ruidoso, emprego da janela de Hanning, sem emprego do princípio da
distorção mínima, cenário 1, ;
E. Ambiente ruidoso, emprego da janela de Hanning, emprego do princípio da distorção
mínima, cenário 2, ;
F. Ambiente ruidoso, emprego da janela de Hanning, emprego do princípio da distorção
mínima, cenário 4, .
Estes resultados corroboram aqueles obtidos por avaliação objetiva na maioria dos casos. De
fato, os avaliadores julgaram (em média) que o desempenho do sistema proposto neste
projeto equipara-se ao da técnica com inicialização por branqueamento em ambientes
silenciosos. Ademais, também julgaram que a nova técnica é superior em ambientes ruidosos,
seja ou não empregado o princípio da distorção mínima (embora sempre tenha havido
preferência – em todos os critérios – pelas soluções que empregaram o princípio, contrariando
os resultados objetivos, sendo esta observação justificada pelo fato de o cálculo da SIR ser
robusto ao escalamento das frequências componentes do sinal, mas a audição humana ser
bastante sensível a ele, principalmente quando há ganho nas componentes de alta
frequência).
10 O Apêndice B apresenta a formalização dos testes.
73
Também merece destaque a confirmação da hipótese de que a linearização do método de
mascaramento binário seguido de otimização pela EDAOR atenua a distorção introduzida pela
não linearidade do mascaramento. De fato, todos os quesitos receberam notas maiores após a
aplicação da exploração de dependências estatísticas de alta ordem entre raias espectrais.
Além destas observações, cabe notar que quanto maior é a separação física das fontes, em
geral, melhores são as avaliações subjetivas (em todos os critérios). Este também era um
resultado esperado dos estudos da SIR.
Finalmente, concluímos a análise dos resultados subjetivos constatando que tanto estes
quanto os objetivos apresentam comportamento semelhante. Entretanto, nenhum deles deve
ser dispensado, afinal, para alguns casos em que se tem SIR considerada insuficiente, como no
caso da avaliação em ambiente ruidoso utilizando-se o princípio da distorção mínima no
cenário 1, tem-se resultados subjetivos em torno de 3,0, um resultado considerado razoável.
74
Interferência
Distorção
Ruído
Nota geral
Fig. 40 - Resultados subjetivos em formato simplificado.
75
Tab. 11 - Testes subjetivos para a técnica de branqueamento
76
Tab. 12 - Testes subjetivos para a técnica de mascaramento binário de frequências
77
Tab. 13 - Testes subjetivos para o novo método de separação cega de fontes
78
Capítulo 11 – Conclusões e trabalhos futuros
Este projeto demonstrou que a solução do problema de cancelamento de eco acústico
causado pelo acoplamento entre alto-falante e microfones de um sistema viva-voz é viável
através da aplicação de filtragem adaptativa no domínio do tempo. Ademais, foram
apresentados mecanismos de controle que impedem que os coeficientes do filtro divirjam: o
double talk detector e os voice activity detectors. Destes, analisamos o desempenho de três
algoritmos, sendo aquele que aplica modelos estatísticos o mais robusto.
Adicionalmente, identificamos que a aplicação típica do double talk detector como apenas uma
chave para impedir a alteração dos coeficientes adaptativos de filtragem é um ponto fraco dos
sistemas de cancelamento de eco acústico que têm esta arquitetura. Esta fraqueza acontece,
pois, se o período de dupla voz se estender e ao longo deste período houver mudança do
ambiente acústico, a anulação do eco será feita por um filtro cujos coeficientes estão
desatualizados, o que pode permitir que ele volte a ganhar energia. Deste modo, propusemos
que nestes momentos houvesse uma comutação da filtragem adaptativa para um sistema de
separação cega de fontes, embora não tenhamos implementado esta alternância entre os
sistemas.
Neste âmbito, não sugerimos apenas o uso de arquiteturas já conhecidas, mas sim um novo
paradigma: um mecanismo genérico de separação de fontes, que permite a solução do
problema de permutação desde que se conheça o arranjo espacial das fontes e que contorna a
permutação de fontes nas diferentes frequências através do uso de estatísticas de alta ordem.
Conforme apresentado no Capítulo 10, a nova proposta apresentou resultados compatíveis e
em alguns casos superiores a muitos métodos de separação cega de fontes que estão em voga
[26][27][30][32]. Além destas vantagens, cabe destacarmos que nossa proposta foi testada em
condições semelhantes à da maioria destas referências e, também, em situações hostis, como
em ambientes ruidosos e que, em todos os casos, escolhendo-se adequadamente os
parâmetros, a SIR obtida foi equivalente ou superior. Ademais, o método proposto apresentou
convergência mais rápida do que a técnica clássica de separação de fontes iniciada por
branqueamento e robustez maior no que se refere à convergência do método, mesmo
aplicando-se taxa de aprendizagem considerada muito elevada ( )
Tão importante quanto os resultados que obtivemos é o fato de o novo mecanismo de
separação cega de fontes apresentar convergência mais rápida do que as técnicas usuais que
empregam o branqueamento como pré-processamento. Assim, apresentamos um mecanismo
mais eficaz e eficiente. Adicionalmente, ao contrário de outros métodos de separação de
fontes, através da etapa inicial de detecção de ângulos de chegada por janela, podemos, com
pequenas alterações do algoritmo, rastrear o movimento das fontes, adicionando ainda mais
robustez ao mecanismo desambiguador de permutação.
Além de positivas métricas objetivas, obtivemos avaliações subjetivas igualmente favoráveis.
Em quase todos os testes o sistema proposto neste trabalho foi considerado equivalente ou
79
superior à técnica tipicamente empregada. Ademais, comprovamos que existe um elevado
grau de semelhança entre as avaliações subjetivas e objetivas, mas que nenhuma delas é
dispensável para a avaliação adequada de um processo de separação de fontes.
Finalmente, os resultados apresentados pelo novo algoritmo de BSS estimulam seu estudo
como um componente independente. Trabalhos futuros poderão desacoplá-lo do sistema de
cancelamento de eco acústico para o melhor estudo de algumas questões pertinentes às
técnicas de separação cega de fontes, como:
Estudar o quanto a duração dos sinais a serem separados pode influenciar o
desempenho do sistema;
Desenvolver um mecanismo que determine o (a quantidade de frequências
analisadas) ótimo para a separação das fontes;
Acrescentar um detector de convergência para interromper a EDAOR, evitando uso
excessivo de tempo de processamento [37].
No que tange à técnica adaptativa de cancelamento de eco acústico, podemos comparar
outras técnicas com a que aplicamos. Dentre elas, temos:
Comparar o desempenho de outras variantes do LMS como bloco central do sistema;
Aplicar a filtragem adaptativa em sub-bandas;
Utilizar mecanismos no domínio da frequência, como subtração espectral;
Aplicar técnicas multicanais, como o beamforming.
Destacamos, adicionalmente, que o sucesso do sistema apresentado nos estimula a
reestruturá-lo em uma arquitetura adequada ao funcionamento em tempo real. Embora o
sistema tenha apresentado resultados ótimos em fase de prototipação programado na
linguagem M (Matlab), esta se mostrou incapaz de gerir o fluxo de processamento demandado
em tempo real. Desta forma, o novo horizonte deste projeto é a investigação dos pontos
anteriormente levantados e, após a determinação da melhor combinação de resultados,
recodificá-lo na linguagem C++, conhecida por sua eficiência e capacidade muito superior a do
Matlab para o processamento intensivo em tempo real11.
11 O confronto entre as duas linguagens não se restringe apenas à capacidade de processamento. Cabe destacarmos que o Matlab é uma plataforma paga, ao passo que C++ é uma plataforma livre e que, portanto, a redistribuição das soluções que desenvolvemos simplifica-se se empregarmos C++. Além disto, existe uma grande pluralidade de bibliotecas que realizam as mesmas funções em C++, ou seja, podemos escolher aquela que é mais conveniente, ao passo que, ao usarmos Matlab, muitas vezes precisamos nos adaptar às funções disponíveis nativamente na ferramenta, sem podermos modificá-las livremente.
80
Bibliografia
[1] Hänsler, E.; Schmidt, G., "Acoustic Echo and Noise Control – Where Did We Come From
and Where Are We Going?", Topics in Acoustic Echo and Noise Control, Signals and
Communications, Springer, pp. 3-16, New York, USA, 2006.
[2] Hänsler, E.; Schmidt, G., "Single-Channel Acoustic Echo Cancellation", Adaptive Signal
Processing, Benesty, J., Huang, Y. Eds., Springer, pp. 59-93, New York, USA, 2003.
[3] Haykin, S., "Adaptive Filter Theory", Prentice Hall, 4th Ed., New York, USA, 2001.
[4] Nagumo, J.; Noda, A., "A learning method for system identification", Automatic Control,
IEEE Transactions on, vol.12, no.3, pp. 282- 287, Jun 1967.
[5] Lima, M., "Análise do Algoritmo Set-Membership Affine Projection", Dissertação de
Mestrado do Programa de Engenharia Elétrica, Universidade Federal do Rio de Janeiro,
Rio de Janeiro, Brasil, Sep 2009.
[6] Spriet, A.; Eneman, K.; Moonen, M.; Wouters, J., "Objective Measures for Real-Time
Evaluation of Adaptive Feedback Cancellation Algorithms in Hearing Aids", Proceedings.
EUSIPCO 08. 16th European Signal Processing Conference, Lausanne, Switzerland, Aug,
2008.
[7] Dahl, M.; Claesson, I., "Acoustic noise and echo cancelling with microphone array",
Vehicular Technology, IEEE Transactions on , vol.48, no.5, pp.1518-1526, Sep 1999.
[8] Asharif, M.R.; Hayashi, T.; Yamashita, K., "Correlation LMS algorithm and its application to
double-talk echo cancelling", Electronics Letters, vol.35, no.3, pp.194-195, Feb 1999.
[9] Pollák, P.; Sovka, P.; Uhlír, J., "Noise Suppression System for a Car", Nonlinear Signal and
Image Processing, Proceedings. IEEE Workshop on, pp. 297-315, Halkidiki, Greece, Jun
1995.
[10] Venkatesha Prasad, R.; Sangwan, A.; Jamadagni, H.S.; Chiranth, M.C.; Sah, R.; Gaurav, V.,
"Comparison of voice activity detection algorithms for VoIP", Computers and
Communications, 2002. Proceedings. ISCC 2002. Seventh International Symposium on, pp.
530- 535, Taormina, Italy, Jul, 2002.
[11] Jongseo Sohn; Wonyong Sung, "A voice activity detector employing soft decision based
noise spectrum adaptation", Acoustics, Speech and Signal Processing, 1998. Proceedings
of the 1998 IEEE International Conference on, vol.1, no., pp.365-368 vol.1, Seattle, USA,
12-15 May 1998.
81
[12] Jongseo Sohn; Nam Soo Kim; Wonyong Sung, "A statistical model-based voice activity
detection", Signal Processing Letters, IEEE, vol.6, no.1, pp.1-3, Jan 1999.
[13] Yong Duk Cho; Kondoz, A., "Analysis and improvement of a statistical model-based voice
activity detector", Signal Processing Letters, IEEE, vol.8, no.10, pp.276-278, Oct 2001.
[14] Ephraim, Y.; Malah, D., "Speech enhancement using a minimum-mean square error short-
time spectral amplitude estimator", Acoustics, Speech and Signal Processing, IEEE
Transactions on , vol.32, no.6, pp. 1109- 1121, Dec 1984.
[15] Ing Yann Soon; Soo Ngee Koh; Chai Kiat Yeo, "Improved noise suppression filter using self-
adaptive estimator of probability of speech absence", Signal Processing, vol. 75, no.2, pp.
151-159, Jun 1999.
[16] Pearlman, W.; Gray, R., "Source coding of the discrete Fourier transform", Information
Theory, IEEE Transactions on, vol.24, no.6, pp. 683- 692, Nov 1978.
[17] Hallack, F.S.; Petraglia, M.R., "Performance comparison of adaptive algorithms applied to
acoustic echo cancelling", Industrial Electronics, 2003. ISIE '03. 2003 IEEE International
Symposium on, vol.2, no., pp. 1147- 1150 vol. 2, Rio de Janeiro, Brasil, Juiz de Fora, Brazil,
9-11 Jun 2003.
[18] Seon Joon Park; Chom Gun Cho; Chungyong Lee; Dae Hee Youn, "Integrated echo and
noise canceler for hands-free applications", Circuits and Systems II: Analog and Digital
Signal Processing, IEEE Transactions on, vol.49, no.3, pp.188-195, Mar 2002.
[19] Seon Joon Park; Chum Gun Cho; Chungyong Lee; Dae Hee Youn, "On integrating acoustic
echo and noise cancellation systems for hands-free telephony", Acoustics, Speech, and
Signal Processing, 2001. Proceedings. (ICASSP '01). 2001 IEEE International Conference on,
vol.2, no., pp.961-964 vol.2, Salt Lake City, USA, May, 2001.
[20] Seon Joon Park; Chom Gun Cho; Chungyong Lee; Dae Hee Youn, "Integrated echo and
noise canceler for hands-free applications", Circuits and Systems II: Analog and Digital
Signal Processing, IEEE Transactions on , vol.49, no.3, pp.188-195, Mar 2002.
[21] Hyvärinen, A.; Karhunen, J.; Oja, E., "Independent Component Analysis", John Wiley &
Sons, New York, USA, 2001.
[22] Peebles Jr, P., "Probability Random Variables and Random Signal Principles", McGraw-Hill
Higher Education, 4 Ed., New York, USA, 2001.
[23] Cardoso, J.-F., "Blind signal separation: statistical principles", Proceedings of the IEEE,
vol.86, no.10, pp.2009-2025, Oct 1998.
82
[24] Petraglia, M.; Batalheiro, P.; Haddad, D., "Métodos de Separação Cega de Fontes", XVII
Congresso de Automática, Tutoriais do, pp. 133-157, Set 2008.
[25] Yilmaz, O.; Rickard, S., "Blind separation of speech mixtures via time-frequency masking",
Signal Processing, IEEE Transactions on, vol.52, no.7, pp. 1830- 1847, Jul 2004.
[26] Makino, S.; Sawada, H.; Mukai, R.; Araki, S., "Blind Source Separation of Convolutive
Mixtures of Audio Signals in Frequency Domain", Topics in Acoustic Echo and Noise
Control, Signals and Communication Technology, Springer, pp. 51-89, New York, USA,
2006.
[27] Araki, S.; Makino, S.; Blin, A.; Mukai, R.; Sawada, H., "Underdetermined blind separation
for speech in real environments with sparseness and ICA", Acoustics, Speech, and Signal
Processing, 2004. Proceedings. (ICASSP '04). IEEE International Conference on, vol.3, no.,
pp. iii- 881-4 vol.3, Montréal, Canada, 17-21 May 2004.
[28] Yashita, M.; Hamada, N., "Time-Frequency Masking Method Using Wavelet Transform for
BSS Problem", TENCON 2006. 2006 IEEE Region 10 Conference, vol., no., pp.1-4, Seville,
Spain, 14-17 Nov 2006.
[29] Araki, S.; Sawada, H.; Mukai, R.; Makino, S., "Underdetermined sparse source separation
of convolutive mixtures with observation vector clustering", Circuits and Systems, 2006.
ISCAS 2006. Proceedings. 2006 IEEE International Symposium on, pp.4, Singapore,
Malaysia, Dec 2006
[30] Sawada, H.; Araki, S.; Mukai, R.; Makino, S., "Blind extraction of a dominant source from
mixtures of many sources using ICA and time-frequency masking", Circuits and Systems,
2005. ISCAS 2005. IEEE International Symposium on, vol., no., pp. 5882- 5885 Vol. 6, Kobe,
Japan, 23-26 May 2005.
[31] Haddad, D.; Petraglia, M.; Batalheiro, P., "Direção de Chegada e Filtragem Adaptativa
Supervisionada Aplicada à Separação cega de Fontes", In: CBA 2010, 2010, Bonito. XVIII
Congresso Brasileiro de Automática, pp. 1-6, Brazil, 2010.
[32] Taesu Kim; Attias, H.T.; Soo-Young Lee; Te-Won Lee, "Blind Source Separation Exploiting
Higher-Order Frequency Dependencies", Audio, Speech, and Language Processing, IEEE
Transactions on , vol.15, no.1, pp.70-79, Jan 2007.
[33] Matsuoka, K., "Minimal distortion principle for blind source separation," SICE 2002.
Proceedings of the 41st SICE Annual Conference, vol.4, pp. 2138- 2143, Osaka, Japan, 5-7
Aug. 2002.
[34] Sawada, H.; Mukai, R.; Araki, S.; Makino, S., "A robust and precise method for solving the
permutation problem of frequency-domain blind source separation", Speech and Audio
Processing, IEEE Transactions on, vol.12, no.5, pp. 530- 538, Sep 2004.
83
[35] Balan, R.; Rosca, J.; Rickard, S.; Ruanaidh, J., "The Influence of Windowing on Time Delay
Estimates", Conference on Information Science Systems, Proceedings of, vol. 1, Princeton,
USA, Mar 2000.
[36] Vincent, E.; Gribonval, R.; Fevotte, C., "Performance measurement in blind audio source
separation", Audio, Speech, and Language Processing, IEEE Transactions on, vol.14, no.4,
pp.1462-1469, Jul 2006.
[37] Laporte, L., "Algoritmos de Separação Cega de Áudio no Domínio da Frequência em
Ambientes Reverberantes: Estudo e Comparações", Dissertação de Mestrado do
Programa de Engenharia Elétrica, Universidade Federal do Rio de Janeiro, Rio de Janeiro,
Brasil, Out. 2010.
[38] MacQueen, J., "Some Methods for Classification and Analysis of Multivariate
Observations", Mathematical Statistics and Probability, Fifth Berkeley Symposium,
Proceedings of, vol. 1, Berkeley, USA, Jun 1965.
[39] Juanying Xie; Shuai Jiang, "A Simple and Fast Algorithm for Global K-means Clustering",
Education Technology and Computer Science (ETCS), 2010 Second International
Workshop on , vol.2, no., pp.36-40, Wuhan, China, Mar 2010.
[40] Dunn, J. C.. "A Fuzzy Relative of the ISODATA Process and Its Use in Detecting Compact
Well-Separated Clusters" Journal of Cybernetics 3.3 (1973). 15 Nov. 2010.
[41] Hadjahmadi, A.H.; Homayounpour, M.M.; Ahadi, S.M., "Robust weighted fuzzy c-means
clustering", Fuzzy Systems, 2008. FUZZ-IEEE 2008. (IEEE World Congress on Computational
Intelligence). IEEE International Conference on, vol., no., pp.305-311, Honk-Kong, China,
1-6aJuna2008.
84
Apêndice A
Tabelas de SIR resultantes do processo de separação cega de fontes
Tab. 14 - Avaliação em ambiente silencioso / Janela de Hanning / Com princípio da distorção mínima.
85
Tab. 15 - Avaliação em ambiente silencioso / Janela de Hanning / Sem princípio da distorção mínima.
Tab. 16 - Avaliação em ambiente ruidoso / Janela retangular / Sem princípio da distorção mínima.
86
Tab. 17 - Avaliação em ambiente silencioso / Janela retangular / Sem princípio da distorção mínima.
Tab. 18 - Avaliação em ambiente ruidoso / Janela de Hanning / Sem princípio da distorção mínima.
87
Tab. 19 - Avaliação em ambiente silencioso / Janela de Hanning / Com princípio da distorção mínima.
Tab. 20 - Avaliação em ambiente ruidoso / Janela retangular / Com princípio da distorção mínima.
88
Tab. 21 - Avaliação em ambiente silencioso / Janela retangular / Com princípio da distorção mínima.
89
Apêndice B
Apresentação do teste subjetivo de qualidade do método de separação cega de fontes.
Teste Subjetivo de Qualidade de Áudio
Cenário: o objetivo do sistema que será avaliado é a recuperação de vozes individuais a partir
de gravações em que se tem misturadas falas de diversas pessoas. A figura abaixo ilustra esta
situação:
Metodologia: serão apresentadas ao avaliador, sempre nesta ordem, a mistura captada pelo
microfone, a voz recuperada 1 e a voz recuperada 2.
Objetivo: o ouvinte deverá avaliar numa escala de 1 até 5 (onde 1 significa “muito
perturbador” e 5 significa “imperceptível”):
1) A interferência da outra voz para o entendimento daquela de interesse quando
comparada à mistura;
2) A distorção apresentada pela voz de interesse quando comparada à mistura (alteração
de timbre – efeito “Pato Donald”);
3) O nível de ruído de fundo quando comparado à mistura.
Serão fornecidas escalas graduadas para a avaliação de cada um destes itens individualmente
e uma escala para que seja avaliada a qualidade total do sistema (não se trata de uma média
dos três itens anteriores, trata-se de uma opinião global e independente das demais).
Obrigado pela sua participação e bom teste!
Sistema
Voz 1
Voz 2 Mistura
Voz recuperada 1
Voz recuperada 2
90
Apêndice C
Transcrições das gravações feitas no PADS e utilizadas nos testes
1. Poema “José”, de Carlos Drummond de Andrade, usado nos testes do ALED, LSED e SMBVAD
E agora, José?
A festa acabou,
a luz apagou,
o povo sumiu,
a noite esfriou,
e agora, José?
e agora, você?
você que é sem nome,
que zomba dos outros,
você que faz versos,
que ama, protesta?
e agora, José?
Está sem mulher,
está sem discurso,
está sem carinho,
já não pode beber,
já não pode fumar,
cuspir já não pode,
a noite esfriou,
o dia não veio,
o bonde não veio,
o riso não veio,
não veio a utopia
e tudo acabou
e tudo fugiu
e tudo mofou,
e agora, José?
E agora, José?
Sua doce palavra,
seu instante de febre,
sua gula e jejum,
sua biblioteca,
sua lavra de ouro,
seu terno de vidro,
sua incoerência,
seu ódio – e agora?
Com a chave na mão
quer abrir a porta,
não existe porta;
quer morrer no mar,
mas o mar secou;
quer ir para Minas,
Minas não há mais.
José, e agora?
Se você gritasse,
se você gemesse,
se você tocasse
a valsa vienense,
se você dormisse,
se você cansasse,
se você morresse...
Mas você não morre,
você é duro, José!
Sozinho no escuro
qual bicho-do-mato,
sem teogonia,
sem parede nua
para se encostar,
sem cavalo preto
que fuja a galope,
você marcha, José!
José, para onde?
91
2. Textos utilizados nos testes do mecanismo de separação cega de fontes
Fonte 1:
http://www.webartigos.com/articles/1141/1/A-Consciencia-de-si/pagina1.html (Acesso em 10/10/2010)
A consciência-de-si nasce de um desejo vivo, ou seja, desejar o desejo do outro enquanto
desejo vivo, de outra consciência-de-si; originando o homem através de significado pela
utilização da linguagem. Dentro dessa perspectiva, a relação entre o homem e as coisas é
desejar conhecimento; relação entre homens é desejar reconhecimento. Para universalizar a
linguagem tem-se a relação com o outro. Sem o outro minha existência não tem sentido.
Prosseguindo dentro dessa análise, encontra-se a chamada partilha do mundo na relação
senhor - escravo. Nesse esquema o escravo passa a ser uma coisidade ou coisa-viva. Mas
quando o senhor exerce o poder o escravo reverte a situação passando a transformar essa
relação. O senhor passa a depender do escravo para poder exercer seu poder, visto que sem
ele o senhor não é consciência-de-si. A liberdade só pode ser liberdade quando é efetiva. Fora
disso temos as chamadas falsas saídas (ceticismo, epicurismo, cinismo e estoicismo), em forma
de figura vista na consciência infeliz provocando uma cisão interior.
O pensamento é posto como universal. No homem essência e existência são simultâneas. A
consciência crítica é diferente da consciência-de-si. O que temos que ver hoje é que a
compreensão que a realidade humana é conhecimento. O senhor, a que nos referimos
anteriormente, compartilha do mundo em que o escravo, a outra consciência-de-si, vive. O
senhor quer do escravo reconhecimento, mas há uma inversão de valores que gera a
insatisfação do senhor. Um eu que deixa de ser cogito para ser cogitamos.
A consciência é uma relação sujeito-objeto, onde todo pensamento é mediado, toda cultura é
um bem compartilhado. Nós somos um entrelaçamento multilateral e polissêmico. Dentro das
várias relações que o homem possui, ele vai tornar uma delas hegemônicas.
92
Fonte 2: http://palavrasemferias.blogs.sapo.pt/arquivo/153594.html (Acesso em 10/10/2010)
Um homem estava sentado num banco sem pernas, à luz dum candeeiro apagado, quando viu
um peixe afogado ser desenterrado do lago... A sua sorte foi estar de olhos fechados!
A múmia que estava ao seu lado, gritou baixinho, que essa sorte só acontece a quem não tem
olho. Grito esse que assustou o elefante sem tromba, fazendo com que desatasse a voar dali
para fora. O Sol tornou-se então mais radioso e as trevas cobriram a terra molhada por tanto
calor. O rapaz, que, de olhos fechados, vislumbrava toda a planície desatou a correr,
arrastando-se até à beira do lago seco.
Olhou para o fundo do lago e viu uma porta. Uma entrada secreta para o infinito,
desconhecida de todos e agora ao seu alcance. Caminhou no lago, agora seco em direção à
misteriosa entrada...
Quando chegou à entrada saiu logo, disposto a encontrar uma página em branco onde
pudesse ler as instruções...
Foi então que avistou ao longe um careca de tranças loiras em alegre cavaqueira com o amigo
nu de pistola no bolso...
Acordei, vi que estava a sonhar, de repente ao meu lado, ele, o meu sonho de tantas noites, o
meu amor, o cavalo alado. Pegou-me e voamos rumo as estrelas...
As estrelas estavam apagadas, foi necessário pegar no rabo do cavalo e acender um archote.
Para isso só uma chantagem resultou: um saco de cenouras colhidas nas verdejantes paisagens
celestes. E como por magia a noite tornou-se dia, e debaixo de uma chuva seca na praia de
erva vi todas as estrelas como se não fosse dia.