Cancelamento de Eco Acústico e Separação Cega de Fontes

UNIVERSIDADE FEDERAL DO RIO DE JANEIRO

ESCOLA POLITÉCNICA

DEPARTAMENTO DE ENGENHARIA ELETRÔNICA E DE COMPUTAÇÃO

Cancelamento de Eco Acústico e Separação Cega de Fontes Aplicados à Telefonia Viva-Voz

Autor: _______________________________________________________

Felipe Sander Pereira Clark

Orientadora: _______________________________________________________

Profa. Mariane Rembold Petraglia, Ph.D.

Coorientador: ______________________________________________________

Prof. Diego Barreto Haddad, M.Sc.

Avaliador: ______________________________________________________

Prof. Luiz Wagner Pereira Biscainho, D.Sc.

Avaliador: ______________________________________________________

Prof. Júlio César Bosher Torres, D.Sc.

Avaliador: ______________________________________________________

Prof. Paulo Bulkool Batalheiro, D.Sc

DEL

DEZEMBRO DE 2010

ii

UNIVERSIDADE FEDERAL DO RIO DE JANEIRO

Escola Politécnica - Departamento de Eletrônica e de Computação

Centro de Tecnologia, Bloco H, sala H-217, Cidade Universitária

Rio de Janeiro - RJ CEP 21949-900

Este exemplar é de propriedade da Universidade Federal do Rio de Janeiro, que poderá incluí-

lo em base de dados, armazenar em computador, microfilmar ou adotar qualquer forma de

arquivamento.

É permitida a menção, reprodução parcial ou integral e a transmissão entre bibliotecas deste

trabalho, sem modificação do seu texto, em qualquer meio que esteja ou venha a ser fixado,

para pesquisa acadêmica, comentários e citações, desde que sem finalidade comercial e que

seja feita a referência bibliográfica completa.

Os conceitos expressos neste trabalho são de responsabilidade do autor e dos orientadores.

iii

DEDICATÓRIA

Dedico este trabalho à minha família, que sempre me apoiou e priorizou os estudos. Menciono

especialmente minha avó, que sempre disse que a maior realização da vida dela seria ver seus

dois netos graduados. Infelizmente, ela só pode vivenciar a graduação do meu irmão,

entretanto, deixo esta homenagem in memoriam à pessoa cuja convivência mais marcou a

minha vida; ela sempre renovava minhas esperanças todo fim de tarde, quando

conversávamos ao telefone, mesmo que trocássemos poucas palavras.

Também não posso deixar de mencionar em particular minha mãe, meu pai, meu irmão e

minha tia "velha", que sempre reclamaram que eu estudava demais e dormia de menos, mas

me apoiaram do começo ao fim da graduação com seu carinho e proporcionando momentos

especiais que faziam todo o sacrifício valer a pena. Se não fosse por um apoio tão forte, é

possível que estas linhas nem ao menos estivessem sendo escritas.

Deixo uma dedicatória particular para minha namorada que, muito pacientemente, passava

semanas sem me ver, pois eu precisava estudar e, no fim de semana, continuava sem se

encontrar comigo, já que eu continuava estudando. Obrigado pela compreensão.

iv

AGRADECIMENTO

Além da gratidão que tenho ao apoio familiar e à minha namorada, agradeço também à

Mariane Rembold Petraglia e Diego Barreto Haddad pela orientação e paciência.

Agradeço profundamente à Camila Simões da Costa Cunha Vasconcelos e ao Paulo Roberto

Yamasaki Catunda por terem me ajudado a realizar a aquisição dos sinais usados nos testes de

desempenho dos algoritmos desenvolvidos neste projeto. Se eles não tivessem tido a

paciência e a boa vontade de ficaram até 22 h no Fundão comigo, talvez os testes

apresentados fossem menos expressivos.

Destaco os vinte amigos que participaram dos testes subjetivos feitos no PADS. Em especial,

agradeço à Fernanda Duarte Vilela Reis de Oliveira, que não só participou do teste, avaliando

cada quesito com enorme cuidado, mas também convidou um grande grupo para realizá-lo.

Registro meu grande agradecimento e carinho pelos amigos que conquistei na faculdade. Sem

dúvida foram as melhores pessoas com quem já trabalhei e que fizeram com que eu

descobrisse que o trabalho em equipe - quando se tem o grupo certo - é extremamente

engrandecedor.

Por fim, destaco nominalmente aqueles que mais estiveram próximos de mim durante a

graduação, com quem compartilhei sorrisos e tristezas, notas boas e ruins, momentos de

descontração e horas de estudo pela madrugada.

Obrigado Carlos Vinícius Caldas Campos pelo suporte matemático (mesmo que algumas vezes

formal demais) que você nos deu.

Obrigado Dayana Sant’Anna Lole e Pedro Henrique Valverde Guimarães por todos os trabalhos

que fizemos juntos e todas as horas de estudo em grupo.

Obrigado Renan Mariano Almeida por ter estado sempre presente para ajudar seus amigos e

por ter sido o elo mais forte do nosso grupo.

Sem vocês este projeto não teria sido possível.

Muito obrigado a todos, jamais os esquecerei.

v

RESUMO

A criação do primeiro telefone por Antonio Santi Giuseppe Meucci em 1856 sinalizou o início

da revolução na maneira como nos comunicamos. Entretanto, desde sua criação, o telefone

apresenta o mesmo inconveniente: manter ao menos uma das mãos ocupadas enquanto

conversamos.

A inovação trazida pelos sistemas de viva-voz sanou este inconveniente, mas sua aplicação em

grande escala trouxe o problema do acoplamento entre caixa de som e microfone, causando

eco na conversação. Esta nova mazela começou a receber tratamento por meio de técnicas de

processamento de sinais na década de 1950 [1] e, atualmente, com o avanço dos

microcomputadores digitais, surgem novas perspectivas de solução a serem estudadas.

Este tratamento torna-se importante na medida em que o eco degrada a inteligibilidade da

comunicação. Além disto, se os dois interlocutores de uma conversação estiverem utilizando

sistema viva-voz, a realimentação do eco em ambos os terminais poderá instabilizar o sistema,

inviabilizando a compreensão da conversa.

Neste sentido, pretende-se formular uma solução computacional para o problema. O sistema

desenvolvido será híbrido, aplicando técnicas de filtragem adaptativa no domínio do tempo e

de separação cega de fontes, sendo o método a empregar a cada instante selecionado

automaticamente em função de características do sinal a processar.

Assim, a importância deste trabalho é podermos aplicar seus resultados aos sistemas de viva-

voz de maior porte, maximizando a inteligibilidade e permitindo a liberação das mãos durante

conversações telefônicas.

Palavras chave: processamento de sinais; filtragem adaptativa; cancelamento de eco acústico;

separação cega de fontes; clusterização; dependência estatística de alta ordem; direção de

chegada em arranjo de microfones.

vi

ABSTRACT

The assembly of the first telephone by Antonio Santi Giuseppe Meucci in 1856 characterized a

revolution in the way we communicate. Nevertheless, since its invention, the telephone

presents the inconvenience of keeping one of our hands busy while holding the hook.

Later innovative telephones that boasted loudspeakers and microphones were presented,

allowing, for the first time, hands-free communications. However, since the loudspeaker and

the microphone were enclosed in the same environment, their coupling would cause acoustic

echo in every conversation. This problem began to be treated by means of signal processing, in

the 1950s [1] and, nowadays, new solutions that profit from the stunning processing power of

modern computers are coming to light.

Those solutions are of the uttermost importance, since acoustic echo may severely

compromise a dialog’s intelligibility. Furthermore, more often than not, echo in both terminals

may turn the communication system unstable, making the conversation impossible.

Therefore, we propose a hybrid computational solution for this problematic aspect of hands-

free communication systems that mixes time-domain adaptive filtering and blind source

separation techniques. The switching between both methods depends only on certain

characteristics of the signals being processed, and happens automatically.

Hence, the importance of the techniques developed along this text is their use as an

improvement for hands-free communication systems, providing better comprehension and

quality.

Index terms: signal processing; adaptive filtering; acoustic echo cancellation; blind source

separation; clustering; higher order statistical dependency; direction of arrival.

vii

SIGLAS

UFRJ – Universidade Federal do Rio de Janeiro

PADS - Laboratório de Processamento Analógico e Digital de Sinais (UFRJ)

NLMS - Normalized Least Mean Squares

VAD - Voice Activity Detector

ALED - Adaptive Linear Energy Detector

LSED - Linear Sub-band Energy Detector

SMBVAD - Statistical Model Based Voice Activity Detector

DTD – Double-Talk Detector

BSS – Blind Source Separation

EDAOR – Exploração de dependências estatísticas de alta ordem

STFT – Short Time Fourier Transform

ICA – Independent Component Analysis

PDF – Probability Density Function

viii

SUMÁRIO

LISTA DE FIGURAS ..................................................................................................................... x

LISTA DE TABELAS ................................................................................................................... xii

Introdução ................................................................................................................................ 1

Capítulo 1 – Fundamentação Teórica ........................................................................................ 4

1.1 - Filtragem adaptativa ..................................................................................................... 4

1.1.1 - Predição Linear ....................................................................................................... 4

1.1.2 - Steepest Descent .................................................................................................... 7

1.1.3 - Least-Mean-Squares e Normalized Least-Mean-Squares (LMS/NLMS) ..................... 9

1.2 - Separação cega de fontes ............................................................................................ 12

1.3 - Técnicas de clusterização ............................................................................................ 18

1.3.1 - K-médias .............................................................................................................. 18

1.3.2 - Clusterização Fuzzy (Fuzzy C-Means Clustering) .................................................... 19

1.4 - Avaliação de desempenho da separação cega de fontes .............................................. 22

Capítulo 2 - Cancelamento de Eco Acústico por Método Adaptativo no Domínio do Tempo ..... 24

Capítulo 3 - Normalized Least-Mean-Squares .......................................................................... 27

Capítulo 4 - Detectores de Voz................................................................................................. 28

4.1 - Adaptive Linear Energy-Based Detector ....................................................................... 28

4.2 - Linear Sub-Band Energy Detector ................................................................................ 33

4.3 - Detector Estatístico ..................................................................................................... 36

Capítulo 5 - Detector de Fala Simultânea ................................................................................. 41

Capítulo 6 – Resultados do Sistema Integrado ......................................................................... 44

Capítulo 7 – Separação Cega de Fontes Aplicada ao Cancelamento de Eco .............................. 47

Capítulo 8 – Mascaramento em Frequência: A Separação Inicial de Fontes Usando Informações

de Direção de Chegada em Arranjo de Microfones .................................................................. 50

Capítulo 9 – Otimizando a Separação de Fontes Através da Exploração de Dependências

Estatísticas de Alta Ordem no Domínio da Frequência ............................................................. 54

Capítulo 10 – Resultados do Mecanismo de Separação Cega de Fontes ................................... 58

Testes objetivos .................................................................................................................. 58

Testes subjetivos ................................................................................................................. 72

Capítulo 11 – Conclusões e trabalhos futuros .......................................................................... 78

Bibliografia ............................................................................................................................. 80

Apêndice A ............................................................................................................................. 84

ix

Apêndice B.............................................................................................................................. 89

Apêndice C .............................................................................................................................. 90

x

LISTA DE FIGURAS

Fig. 1 - Diagrama de blocos do preditor linear ........................................................................... 4

Fig. 2 - Superfície de erro do preditor linear. ............................................................................. 5

Fig. 3 - Diagrama de blocos do método Steepest Descent. ......................................................... 7

Fig. 4 - Diagrama de blocos do NLMS. ...................................................................................... 10

Fig. 5 - Interpretação geométrica do NLMS (Adaptado de [5]) ................................................. 11

Fig. 6 - Tipos de misturas. ........................................................................................................ 12

Fig. 7 - Tipos de misturas (Adaptado de [24])........................................................................... 13

Fig. 8 - Ambiguidade de independência entre sinais. ............................................................... 15

Fig. 9 - Sinais branqueados (descorrelacionados)..................................................................... 17

Fig. 10 - Fluxo típico de BSS. .................................................................................................... 17

Fig. 11 - Clusterização k-médias............................................................................................... 18

Fig. 12 - Evolução dos centróides aplicando-se o fuzzy c-means. ............................................. 20

Fig. 13 - Invólucro probabilístico sobre os centroides (linha superior: em perspectiva; linha

inferior: vista superior)............................................................................................................ 21

Fig. 14 - Esquema de aplicação da filtragem adaptativa como solução do problema de

cancelamento de eco acústico. ............................................................................................... 25

Fig. 15 - Diagrama de blocos de um sistema de cancelamento de eco acústico com emprego de

VAD. ....................................................................................................................................... 26


VAD e DTD. ............................................................................................................................. 26

Fig. 17 - Aplicação do NLMS em cancelamento de eco acústico. .............................................. 27

Fig. 18 - Comparação de energia de um sinal com um limiar fixo. ............................................ 29

Fig. 19 - Desempenho do ALED. ............................................................................................... 31

Fig. 20 - Diagrama lógico do LSED. ........................................................................................... 33

Fig. 21 - Desempenho do LSED. ............................................................................................... 34

Fig. 22 - Degeneração do desempenho do LSED ...................................................................... 35

Fig. 23 – Diagrama de blocos do VAD no domínio estatístico (Adaptado de [11]). .................... 36

Fig. 24 - Desempenho do VAD estatístico. ............................................................................... 39


VAD e DTD. ............................................................................................................................. 41

Fig. 26 - Esquema lógico do DTD.............................................................................................. 42

Fig. 27 - Resultado do DTD. ..................................................................................................... 43

Fig. 28 - Resultados do sistema integrado................................................................................ 44

Fig. 29 - Resultado da filtragem adaptativa bem sucedida. ...................................................... 45

Fig. 30 - Resultado da filtragem adaptativa com divergência dos coeficientes do filtro. ........... 46

Fig. 31 - Longo período de dupla voz. ...................................................................................... 47

Fig. 32 - Sistema híbrido: adaptativo e BSS. ............................................................................. 48

Fig. 33 - Nova proposta de BSS ................................................................................................ 49

Fig. 34 - Explorando o arranjo espacial de um ambiente acústico. ........................................... 50

Fig. 35 - Dispersão dos ângulos. .............................................................................................. 52

Fig. 36 - Ambiente de testes montado no PADS. ...................................................................... 58

Fig. 37 - Análise de forma de onda e espectro para os resultados da Tab. 3 ............................. 66

xi

Fig. 38 - Análise de forma de onda e espectro para os resultados da Tab. 4 ............................. 67

Fig. 39 - Análise de forma de onda e espectro para os resultado da Tab. 5 .............................. 68

Fig. 40 - Resultados subjetivos em formato simplificado.......................................................... 74

xii

LISTA DE TABELAS

Tab. 1 - Comparativo entre algoritmos adaptativos ................................................................. 27

Tab. 2 - Critério de atualização de p ........................................................................................ 29

Tab. 3 – Avaliação em ambiente silencioso / Janela de Hanning / Com princípio da distorção

mínima. .................................................................................................................................. 60

Tab. 4 - Avaliação em ambiente ruidoso / Janela de Hanning / Sem princípio da distorção

mínima. .................................................................................................................................. 60

Tab. 5 - Avaliação em ambiente ruidoso / Janela de Hanning / Com princípio da distorção

mínima ................................................................................................................................... 61

Tab. 6 – Comparativo da SIR entre o uso da técnica de mascaramento binário (M) e após

aplicação da otimização proposta (O) para misturas simuladas. .............................................. 65

Tab. 7 - Comparativo de número de iterações e SIR entre a nova proposta e a técnica clássica

de separação de fontes. .......................................................................................................... 65

Tab. 8- Técnica clássica: Avaliação em ambiente silencioso / Janela de Hanning / Com princípio

da distorção mínima ............................................................................................................... 69

Tab. 9 - Técnica clássica: Avaliação em ambiente ruidoso / Janela de Hanning / Sem princípio

da distorção mínima – O símbolo indica que o método não convergiu ................................. 69

Tab. 10 - Técnica clássica: Avaliação em ambiente ruidoso / Janela de Hanning / Sem princípio

da distorção mínima ............................................................................................................... 70

Tab. 11 - Testes subjetivos para a técnica de branqueamento ................................................. 75

Tab. 12 - Testes subjetivos para a técnica de mascaramento binário de frequências ............... 76

Tab. 13 - Testes subjetivos para o novo método de separação cega de fontes ......................... 77

Tab. 14 - Avaliação em ambiente silencioso / Janela de Hanning / Com princípio da distorção

mínima. .................................................................................................................................. 84

Tab. 15 - Avaliação em ambiente silencioso / Janela de Hanning / Sem princípio da distorção

mínima. .................................................................................................................................. 85

Tab. 16 - Avaliação em ambiente ruidoso / Janela retangular / Sem princípio da distorção

mínima. .................................................................................................................................. 85

Tab. 17 - Avaliação em ambiente silencioso / Janela retangular / Sem princípio da distorção

mínima. .................................................................................................................................. 86

Tab. 18 - Avaliação em ambiente ruidoso / Janela de Hanning / Sem princípio da distorção

mínima. .................................................................................................................................. 86

Tab. 19 - Avaliação em ambiente silencioso / Janela de Hanning / Com princípio da distorção

mínima. .................................................................................................................................. 87

Tab. 20 - Avaliação em ambiente ruidoso / Janela retangular / Com princípio da distorção

mínima. .................................................................................................................................. 87

Tab. 21 - Avaliação em ambiente silencioso / Janela retangular / Com princípio da distorção

mínima. .................................................................................................................................. 88

1

Introdução Tema

Em sistemas de teleconferência de grande porte, não raro precisa-se de microfones eficazes e

de alto-falantes suficientemente potentes para atenderem a uma sala espaçosa. Entretanto,

justamente pela coexistência desses alto-falantes e microfones, muitas vezes estes terminam

por readquirir a informação reproduzida por aqueles.

Quando esta situação ocorre, temos a retransmissão da mensagem recebida para o outro

interlocutor. Supondo o uso do mesmo tipo de sistema pelos dois participantes da conversa,

teremos um eco contínuo sendo transmitido para ambas as partes.

Delimitação

Os sinais utilizados no estudo do processo de cancelamento de eco são originais e gravados

pelo autor do trabalho (exceto onde explicitamente mencionado). Esses sinais terão sua banda

restrita a 4 kHz e resolução de 16 bits por amostra, de modo a emular as mesmas

características presentes no sistema de telefonia fixa.

A aquisição de sinais foi realizada, em todos os exemplos desenvolvidos, por microfones

condensadores onidirecionais Behringer ECM8000 alimentados via phantom power por uma

mesa de som Behringer Eurorack MX 3242X cujas saídas direct-out foram conectadas às

entradas analógicas traseiras de uma placa de captura M-AUDIO Firewire 1814. As demais

características do sistema de captura de áudio, referentes ao hardware empregado, são: Intel

DG31PR, processamento por Intel Core2Duo 2.8 GHz e memória auxiliar de 2 Gb DDR2 667. O

software utilizado para aquisição dos sinais foi o Pro Tools M-Powered 8.

Destacamos que o desenvolvimento apresentado na parte III deste texto tem como intuito o

estudo e teste de uma implementação alternativa à solução clássica para os momentos de

double-talk apresentada na parte II. Entretanto, embora seja desenvolvida esta solução, ela

não foi testada em conjunto com os elementos desenvolvidos na segunda parte, já que isto

demandaria mecanismos de controle cujo desenvolvimento foge do escopo deste projeto.

Ademais, enfatizamos que todos os testes apresentados na terceira parte envolveram apenas

dois microfones porque dispúnhamos apenas desta quantidade.

Por outro lado, como a proposta apresentada na parte III representa um sistema inédito, seus

resultados serão submetidos a testes subjetivos, de modo que possamos investigar se a

inovação proposta é capaz de adequar-se às exigências do público-alvo.

Finalmente, ressaltamos que em todos os testes que utilizam sinais comprometidos por ruído

branco, este não foi gerado artificialmente e adicionado ao sinal; na realidade, modelamos o

ruído gerado pelo ar-condicionado do nosso ambiente de trabalho aproximadamente como

ruído branco de média nula e variância Desta forma, quanto tratamos de variações na

energia deste ruído, estamos nos referindo a gravações feitas em local mais próximo ou mais

distante do ar-condicionado ou de variações criadas via software neste ruído.

2

Justificativa

Embora seja possível conviver com o eco unilateral num sistema de comunicação, a

degradação da inteligibilidade não é desprezível. Além disto, se os dois interlocutores de uma

conversação estiverem utilizando aparelhos viva-voz, a realimentação do eco em ambos os

terminais poderá instabilizar o sistema, comprometendo integralmente a compreensão e a

continuidade da conversa.

Assim, a importância deste trabalho é podermos aplicar seus resultados aos sistemas de viva-

voz de maior porte, como em salas de teleconferência, maximizando a inteligibilidade e

permitindo a desocupação das mãos ao realizarmos telefonemas.

Objetivos do projeto

O objetivo geral é, portanto, realizar computacionalmente um sistema de cancelamento de

eco acústico abordando duas técnicas: processamento adaptativo no domínio do tempo e

separação cega de fontes.

Metodologia

Será elaborada a seguinte metodologia para alcançarmos o objetivo proposto: associados ao

sistema adaptativo no domínio do tempo, utilizaremos mais de um microfone para viabilizar o

emprego de técnicas de separação cega de fontes. Na primeira parte de tal abordagem a

estimativa do eco será controlada por “chaves” acionadas por voz, conhecidas como

detectores de atividade vocal (VAD, do inglês Voice Activity Detector) e detectores de

sobreposição de fala (DTD, do inglês Double-Talk Detector).

Enquanto o preditor será implementado mediante o algoritmo Normalized Least Mean

Squares (NLMS), a chave VAD utilizará uma de três tecnologias, duas delas utilizando a energia

dos sinais como referência (uma no domínio do tempo e outra no domínio da frequência) e a

terceira atuando no domínio estatístico dos sinais.

Na segunda parte, proporemos um novo mecanismo para solucionar o problema de separação

cega de fontes. Para tal, combinaremos de maneira inédita dois mecanismos já existentes: a

separação de fontes através de informações sobre a direção de chegada em um arranjo de

microfones e a solução explorando dependências estatísticas de alta ordem entre as

componentes em frequência dos sinais que se deseja obter.

Todos os blocos desenvolvidos serão submetidos a testes unitários, sendo o desempenho do

separador cego de fontes avaliado tanto objetivamente quanto subjetivamente. Os resultados

destes testes servirão de informação para o aperfeiçoamento posterior do desempenho dos

sistemas desenvolvidos.

O sucesso do trabalho está, portanto, em conseguirmos minimizar o eco que compromete um

telefonema viva-voz a um patamar de energia suficientemente reduzido, de modo a reduzir

sua inconveniência. É indispensável destacar que tal meta deve ser alcançada sem

comprometimento perceptível da qualidade do sinal restante após anular-se o eco.

3

Descrição

O Capítulo 1 apresenta a fundamentação teórica para o entendimento da proposta do projeto.

Este capítulo contém uma descrição resumida técnicas de filtragem adaptativa, separação cega

de fontes e métodos de clusterização.

O Capítulo 2 apresenta a visão geral do processo de cancelamento de eco acústico por método

adaptativo no domínio do tempo. Neste capítulo será feita, portanto, a familiarização com o

escopo e objetivo do projeto. Neste contexto, apresentamos o diagrama de blocos do sistema

que regerá os demais capítulos.

O Capítulo 3 justifica a escolha do filtro adaptativo Normalized Least-Mean-Squares como

bloco central do sistema apresentado no Capítulo 2.

O Capítulo 4 versa sobre detectores de voz: algoritmos usados como chaves de controle de

convergência dos coeficientes do filtro escolhido no Capítulo 3.

O Capítulo 5, assim como o Capítulo 4, apresenta um mecanismo de controle de convergência

por detecção de voz. Entretanto, este capítulo concentra-se na detecção de sobreposição de

vozes.

O Capítulo 6 apresenta resultados do emprego do sistema de cancelamento de eco acústico

conforme desenvolvido até o Capítulo 5.

O Capítulo 7 aponta falhas no mecanismo desenvolvido até o capítulo precedente e propõe

como solução o uso de técnicas de separação cega de fontes no domínio da frequência.

O Capítulo 8 apresenta a proposta de mascaramento binário de frequências, explorando a

esparsidade dos sinais de voz neste domínio como solução preliminar para a questão de

separação cega de fontes.

O Capítulo 9 demonstra como podemos aplicar a exploração de dependências estatísticas de

alta ordem entre frequências de uma mesma fonte para aperfeiçoar o resultado obtido ao fim

do processo descrito no Capítulo 8.

O Capítulo 10 apresenta e discute os resultados da técnica de separação cega de fontes

proposta.

Finalmente, o Capítulo 11 apresenta as conclusões e perspectivas de evolução deste projeto.

4

Parte I

Capítulo 1 – Fundamentação Teórica

1.1 - Filtragem adaptativa

1.1.1 - Predição Linear

A predição linear é um mecanismo simples e bastante eficaz para estimação de um elemento

de uma série temporal tomando como referência apenas suas N amostras passadas. Em outras

palavras, dada a série temporal ( ) ( ) ( ) ( ), a meta é computar

( ) por combinação linear dos demais N termos, ou equivalentemente, desejamos calcular

( ( ) ( ) ( )).

Para tal, cada uma das N amostras anteriores à

amostra que se deseja estimar deverá ser

multiplicada por uma constante e, ao fim,

realiza-se a soma destes produtos, conforme

exibido na Fig. 1.

Se denotarmos o conjunto formado por

( ) ( ) ( ) como ψ,

poderemos formalizar o preditor linear

conforme:

( ) ∑ ( )

(Eq. 1.1)

O erro associado a esta predição é dado por:

( ) ( ) ( ) (Eq. 1.2)

e, a fim de que possamos minimizar este

desacerto, utilizamos como métrica o erro

médio quadrático. Assim, minimizando-a,

argumenta-se que o erro de predição foi

reduzido.

, ( )- (Eq. 1.3)

Fig. 1 - Diagrama de blocos do preditor linear

5

, ( )- 0( ( ) ( )) 1

, ( )- [. ( ) ( ( ) ( ) ( ))/ ]

(Eq. 1.4)

Expandindo o argumento do operador valor esperado para o caso particular de predição por

dois coeficientes:

, ( ) ( ) ( ) ( ) ( ) ( )

( ) ( ) ( )-

(Eq. 1.5)

Como desejamos obter o mínimo erro médio quadrático em relação a e e, conforme

vemos na Fig. 2, esta função apresenta apenas um mínimo, cabe apenas realizarmos a

derivada parcial de , ( )- em relação a e , igualá-las a zero e resolver o sistema para

encontrarmos os valores de e que a minimizam.

Fig. 2 - Superfície de erro do preditor linear.

Assim, adotando a notação matricial para representar tais derivações, encontra-se

[ , ( )-

, ( )- ]

6

( ) ( ) ( ) ( ) ( )

( ) ( ) ( ) ( ) ( )7

[ , ( )- , ( ) ( )-

, ( ) ( )- , ( )-] 0 1 [

, ( ) ( )-

, ( ) ( )-]

(Eq. 1.6)

Para o caso de sinais de voz, considerando-se uma janela de observação curta (em geral, não

mais que 20 ms), pode-se dizer que u(n) é aproximadamente estacionário em sentido amplo,

ou seja, sua média independe do tempo e sua autocorrelação depende apenas do tamanho do

intervalo de observação, mas não do instante de início. Logo, simplifica-se a expressão

matricial anterior como

6

[ ( ) ( )

( ) ( )] 0 1 [

( )

( )] (Eq. 1.7)

onde ( ) denota a autocorrelação de u(n) com lag n.

Não é difícil demonstrar que no caso geral temos

[ ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( )

( ) ( ) ( ) ( ) ]

[

]

[

( ) ( )

( )

]

(Eq. 1.8)

Finalmente, calculamos o mínimo da expressão acima:

→

(Eq. 1.9)

onde denota o vetor ótimo de coeficientes.

7

1.1.2 - Steepest Descent

O método da descida mais íngreme (em inglês steepest descent) [3] é o mecanismo iterativo

fundamentado em análise de gradiente que nos permite criar um preditor linear que rastreie

as variações estatísticas de uma entrada ( ) sem que para isto seja preciso recalcular a Eq.

1.9 a cada interação. Desta forma, para o caso particular de sinais estacionários como a voz

quando consideramos curtos intervalos (até 20 ms), através de uma malha de realimentação e

partindo-se de um vetor * + arbitrário, consegue-se a cada iteração reduzir o

erro médio quadrático do preditor linear sem que seja preciso recalcular diversas vezes a

inversa da matriz de correlações do sinal de entrada. A estrutura que permite fazê-lo é

apresentada na Fig. 3.

Desta forma, dada uma função custo genérica

denotada por ( ), a meta é minimizá-la a cada

iteração do filtro, ou seja, ( ( ))

( ( )) até que se obtenha ( ), a resposta

ótima onde ( ) ( ) para todo

Entretanto, cabe destacar que, na prática, nem

sempre há convergência para ( ), podendo a

computação dos coeficientes até mesmo

divergir.

Para alcançar esta meta, o método steepest

descent trabalha ajustando iterativamente o

sistema em direção à descida mais íngreme de

( ) , isto é, no sentido contrário àquele

apontado por seu vetor gradiente ( ), que

assim minimiza o custo. Adotando a notação

( ) ( )

(Eq. 1.10)

temos formalizado o método steepest descent

conforme

( ) ( )

( ) (Eq. 1.11)

onde n representa o número da iteração e µ é uma constante positiva conhecida como

'tamanho do passo'.

Fig. 3 - Diagrama de blocos do método Steepest Descent.

8

Pode-se demonstrar que este resultado atende ao requisito de minimização da função custo a

cada iteração se expandirmos ( ( )) em série de Taylor em torno de ( )

( ( )) ( ( )) ( ) ( )

( ( )) ( ( ))

‖ ( )‖

(Eq. 1.12)

onde o operador transposto Hermitiano é usado para tornarmos o resultado mais genérico,

levando em conta, também, casos em que é um vetor de valores complexos.

Portanto, para valores pequenos e positivos de µ, temos que a cada iteração

( ( )) ( ( )) (Eq. 1.13)

e, adicionalmente, quanto maior n, mais ( ) tende ao mínimo, sendo este valor alcançado

quando no caso em que o filtro adaptativo tem ordem pelo menos igual à do sistema a

identificar.

9

1.1.3 - Least-Mean-Squares e Normalized Least-Mean-Squares (LMS/NLMS)

Na prática, o método steeptest descent apresenta um grave limitante: não é possível conhecer

a priori o vetor gradiente ( ), pois isto implica avaliar a matriz de correlação do sinal de

excitação ( ) e o vetor de correlação cruzada entre excitação e saída desejada ( ). Portanto,

em vez de tomarmos estes como pressupostos, devemos desenvolver uma estimativa de

( ) ( ) [3].

Utilizando-se estimativas instantâneas ( ) e ( )

( ) ( ) ( ) ( ) ( ) ( )

(Eq. 1.14)

obtemos

( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) (Eq. 1.15)

Substituindo a estimativa ( ) na equação de atualização do vetor ( ) do método steepest

descent, encontramos

( ) ( ) ( ), ( ) ( ) ( )- (Eq. 1.16)

Atentando aos seguintes fatos

( ) ( ) ( ) é a própria saída do filtro

( ) ( ) ( ) é o erro de estimativa do filtro

podemos reescrever a equação de atualização de ( ) conforme

( ) ( ) ( ) ( ) (Eq. 1.17)

Esta é a equação que descreve a atualização dos coeficientes do filtro LMS.

Nota-se que ( ) é diretamente proporcional a ( ). Portanto, se ( ) é grande, o LMS

sofre com o problema conhecido como "amplificação do ruído de gradiente". Para superá-lo,

normaliza-se ( ) pelo quadrado da norma euclidiana de ( )

( ) ( )

‖ ( )‖ ( )

( ) (Eq. 1.18)

dando origem à atualização dos coeficientes para a filtragem NLMS. Um diagrama de blocos

completo para este sistema é exibido na Fig. 4.

10

Fig. 4 - Diagrama de blocos do NLMS.

11

Nagumo e Noda [4] complementam o entendimento do NLMS através de uma interessante

interpretação geométrica, abordada por Lima [5] considerando-se o caso real e . Nesta

situação, o problema de minimização pode ser descrito como:

( )

‖ ( ) ( )‖

( ) ( ) ( ) (Eq. 1.19)

Ou seja, buscamos ( ) mais próximo possível de ( ) de modo que o erro calculado a

partir dos dados atuais, porém com o vetor de coeficientes já atualizado, seja nulo.

Geometricamente, ( ) será uma projeção de ( ) no hiperplano definido por:

* ( ) ( ) + (Eq. 1.20)

pois se trata da atualização de menor norma. Ademais, ( ) , já que a direção de

atualização é dada por ( ). A Fig. 5 simplifica a visualização destas constatações.

Fig. 5 - Interpretação geométrica do NLMS (Adaptado de [5])

Desta dedução pode-se interpretar, também, o papel da constante . Quando esta assume

valor nulo, ( ) ( ), ou seja, o algoritmo permanece parado no mesmo estado. Se

ou se , ( ) não atinge o hiperplano ou o ultrapassa,

respectivamente. Já quando , ‖ ( )‖ ‖ ( )‖

, ou seja, o algoritmo

distancia-se da solução ótima . No caso particular em que , ( )

Destarte, na prática, escolhe-se ( - como maneira de garantir a convergência do

algoritmo. Os valores pertinentes ao intervalo ( ), que seriam igualmente válidos, em geral

não são empregados, pois possuem mapeamento equivalente no intervalo ( - e causam

maior amplificação de ruído de gradiente.

12

1.2 - Separação cega de fontes

Separação cega de fontes (do inglês blind source separation – BSS) consiste na recuperação de

N fontes individuais a partir de M misturas (M realizações em que as N fontes interferem no

sensor de aquisição de cada uma das M misturas) [23][24]. Diz-se que esta separação é feita de

maneira cega, pois não é assumido qualquer conhecimento prévio dos sinais individuais que

compõem a mistura e tampouco do sistema responsável por elas.

Formalmente [24], se denominarmos ( ) , ( ) ( ) ( )- , com ( )

designando transposição, o vetor composto pelas fontes individuais e de

( ) , ( ) ( ) ( )- o vetor composto pelas misturas observadas,

poderemos relacioná-los, supondo misturas lineares, pela relação:

( ) ( ) (Eq. 1.21)

onde H é a matriz característica do sistema de mistura, denominada matriz de mistura, cuja

dimensão é e o operador * representa a convolução. Adotando o domínio da

transformada Z e assumindo que o sistema de mistura é um sistema causal, podemos

representar os elementos de H - que correspondem às respostas ao impulso dos diversos

caminhos percorridos pelos sinais até os sensores - genericamente por:

∑ ( )

(Eq. 1.22)

Desta formulação, destacamos dois casos relevantes: quando , os filtros são apenas

valores escalares e, neste caso, as misturas são ditas instantâneas. Se ( ) temos

misturas denominadas anecoicas (ou não reverberantes). Sintetizamos estas possibilidades na

Fig. 6.

Fig. 6 - Tipos de misturas.

Neste ponto, cabe fazermos algumas ressalvas referentes à relação entre N e M. Quando

diz-se que temos um problema de separação de fontes subdeterminado; quando

temos casos superdeterminados e quando denomina-se o caso de

determinado.

Misturas

Lineares

Instantâneas

Convolutivas

Reverberantes

Anecoicas Não lineares

13

Vista esta classificação, nota-se a forte analogia existente entre BSS e sistemas de equações.

De fato, podemos concretizar esta analogia se pensarmos que as variáveis de um sistema de

equações são as fontes individuais que desejamos obter e que as misturas são as equações de

que dispomos. Não é de se estranhar, portanto, que, assim como na resolução de sistemas de

equações, o problema de separação de fontes tenha sua dificuldade dependente da relação

entre N e M, sendo de solução mais difícil quando e mais simples quando .

Ademais, conforme representado pela Eq. 1.2, outra dificuldade que surge quando se

desenvolvem técnicas de separação de fontes é o desconhecimento a priori do número de

coeficientes dos filtros de mistura . A Fig. 7 resume a complexidade de solução da

separação de fontes em função destas análises.

Fig. 7 - Tipos de misturas (Adaptado de [24]).

Visando em superar estas dificuldades, as soluções para separação de fontes mais comuns têm

como pressuposto o fato de que diferentes sensores capturam diferentes misturas e a

conjectura de que as fontes misturadas são estatisticamente independentes. Assim sendo, a

solução do exercício de separação de fontes, embora não tenha como meta descobrir a

distribuição estatística de cada fonte, é em muito beneficiada por esta estimativa, a fim de que

possamos avaliar corretamente os parâmetros de separação [23]. Neste sentido, uma valiosa

informação inicial é sabermos que podemos representar a função densidade de probabilidade

conjunta do vetor de fontes como o produto das densidades marginais, isto é:

( ) ( ) ( ) ∏ ( )

(Eq. 1.23)

onde ( ) representa a PDF da i-ésima fonte.

14

Comumente, a obtenção das fontes é iniciada por uma transformada de domínios [24],

principalmente quando trabalhamos com misturas convolutivas e/ou subdeterminadas. No

caso das misturas convolutivas, costuma-se empregar métodos no domínio da frequência, já

que nesta representação, as custosas operações de convolução tornam-se produtos. No caso

de misturas subdeterminadas, é muito útil utilizar transformadas esparsificadoras, como a

STFT e wavelet [27][28][29][30] para permitir a extração das fontes que excedem o número de

misturas. Entretanto, é importante enfatizar que operações no domínio do tempo também

podem prover bons resultados, sobretudo quando as misturas são instantâneas ou anecoicas

[21].

Em seguida, faz-se a estimativa da(s) matrize(s) de mistura (ou diretamente de sua(s)

inversa(s)) a partir dos coeficientes da transformada. Finalmente, faz-se a transformada

inversa para obtenção das fontes individuais, para reconstruí-las no domínio do tempo.

Quando consideramos apenas os casos determinado ou superdeterminado (os casos de

interesse deste projeto), podemos resumir estes passos afirmando simplesmente que

desejamos encontrar a matriz W que retorne

( ) ( ) (Eq. 1.24)

como estimativa das N fontes.

Fica claro, portanto, que idealmente, para o caso instantâneo, ,

onde é uma matriz identidade de ordem N. Já para o caso convolutivo, buscamos os filtros

W que, quando combinados com os filtros H gerem filtros capazes de reconstituir

versões filtradas das fontes que não apresentem interferências. Todavia, visando a tornar esta

igualdade verdadeira, em geral, os algoritmos de BSS trabalham por otimização –

frequentemente empregando métodos de gradiente - de uma função custo com restrições

sobre W, o que origina dois problemas típicos desta classe de algoritmos: o escalamento da

matriz C e a permutação de suas colunas.

O primeiro problema se deve à nossa ignorância do nível dinâmico das fontes, somada ao fato

de as misturas manterem-se inalteradas caso multipliquemos a i-ésima fonte por um escalar e

dividamos a i-ésima coluna da matriz de mistura pelo mesmo escalar.

O segundo conflito também se origina da falta de conhecimento a priori sobre as informações

que se deseja separar. Neste panorama, não é possível distinguir qualquer permutação dos

dados de entrada – já que a indexação é um processo arbitrário - e, portanto, não se pode,

evidentemente, afirmar categoricamente que houve permutação das saídas. Por este motivo,

qualquer ordenação de saídas distintas é válida, sendo comum que as saídas dos mecanismos

de BSS alternem-se aleatoriamente após cada execução para fontes distintas a partir de

arranjo idêntico.

Podemos interpretar graficamente esta última dificuldade quando assumimos que os sinais

que desejamos identificar são independentes. Neste contexto, considerando que desejamos

separar misturas de dois sinais (consideramos dois sinais por simplicidade de representação,

mas sem perda de generalidade), teremos a seguinte situação a respeito de sua correlação e

covariância como verdadeira: , - e [22]. Alternativamente, podemos

15

interpretar a primeira relação como o produto escalar entre os vetores X e Y de k elementos:

⁄

( ) ⁄ , ou seja,

⁄ , o que deixa claro que estamos

tratando de sinais ortogonais. Ademais, como temos como pressuposto sinais independentes,

a seguinte propriedade sobre as densidades de probabilidade de X e Y é aplicável: ( )

( ) ( ) , -.

Tal propriedade de independência entre sinais implica não podermos deduzir nada a respeito

de X através de qualquer observação de Y e vice-versa, o que se depreende da observação da

Fig. 8, que representa um exemplo de distribuição que atende tais restrições para sinais que se

adequam ao modelo supergaussiano (como tipicamente se assume para sinais de voz).

Fig. 8 - Ambiguidade de independência entre sinais.

Podemos verificar que há ao menos duas situações ambíguas que podem representar a

independência dos sinais, de forma que, sem um critério preestabelecido, ambas são

igualmente válidas. Isto ocorre porque, conforme atestamos anteriormente, os mecanismos de

separação de fontes usualmente trabalham por minimização de uma função custo, aplicando a

restrição de independência dos sinais, mas nenhuma outra informação adicional. Portanto, há

diversos estados finais de separação que são igualmente válidos, sendo esta a origem do

inconveniente das permutações dos resultados.

Estes obstáculos tornam-se ainda mais críticos nas abordagens no domínio da frequência [24],

onde a solução típica é a busca de um conjunto de matrizes H que separe cada raia da DFT das

fontes individuais (assumindo independência) a partir das DFTs das misturas. Nesta

configuração, o problema de escalamento implica equalizar as fontes de maneira irregular e o

de permutação significa permitir frequências de cada fonte alternando-se nas saídas do

sistema.

Das diversas técnicas para contorno destes transtornos, este texto abordará, para o primeiro

caso, o princípio da distorção mínima e, para o segundo, o uso de informações estatísticas de

alta ordem para desambiguar quais frequências são pertinentes a cada fonte. Estas

abordagens serão desenvolvidas no Capítulo 9: “Otimizando a Separação de Fontes Através da

Exploração de Dependências Estatísticas de Alta Ordem no Domínio da Frequência”.

Neste ponto, visto que o cálculo da matriz W é comumente feito por métodos de otimização, é

interessante averiguarmos a melhor forma de inicializá-la. De fato, a independência entre

sinais é um critério estatístico muito forte; todavia, é sabido que [21] é possível transformar

+90o Rotação

16

qualquer mistura de componentes descorrelacionados em um conjunto de componentes

independentes através da computação da transformação linear ortogonal que levará as

componentes descorrelacionadas a se tornarem independentes.

Neste âmbito, a maneira mais célebre de se inicializar W é através de uma matriz que torne as

misturas descorrelacionadas - artifício conhecido como branqueamento ou esferização. Esta

técnica implica não só obtermos elementos descorrelacionados, mas, ainda, com variância

unitária. Portanto, para um vetor de componentes aleatórias e média zero , -

branqueado, podemos atestar que

[ ]

, - (Eq. 1.25)

onde representa a matriz identidade.

Prontamente, vemos que o objetivo das técnicas de branqueamento é a obtenção da matriz

que transformará um vetor de componentes aleatórias em outro vetor que atenda aos

critérios supracitados.

A solução para este problema é bem conhecida [21] e parte da decomposição em autovalores

e autovetores da matriz de covariância , -. Denotando por , - a matriz

cujas colunas são os autovetores de norma unitária de e por , - a

matriz diagonal de autovalores de , a matriz é encontrada por:

(Eq. 1.26)

onde é necessário que os autovalores sejam positivos para que exista. Na prática esta

restrição não é impeditiva à aplicação do método sobre sinais naturais, como sinais de voz.

É importante destacarmos que esta não é a única transformação válida. Na verdade, qualquer

transformação ortogonal da matriz V é igualmente válida como matriz de branqueamento.

Assim, destacamos outro resultado comumente empregado:

(Eq. 1.27)

Enfim, para comprovarmos a eficácia deste método, reescrevemos , com

satisfazendo (ou seja, uma matriz ortogonal) e verificamos que:

, - , ( ) - , - , -

(Eq. 1.28)

ou seja, a matriz de covariância de é realmente uma matriz identidade, comprovando o

branqueamento.

A Fig. 9 demonstra o resultado da aplicação da transformação num caso de mistura de duas

fontes em dois sensores. Fica claro que, após o branqueamento, resta apenas aplicar uma

rotação para que obtenhamos componentes independentes.

17

Fig. 9 - Sinais branqueados (descorrelacionados).

Finalmente, resumimos os métodos típicos de separação de fontes independentes no caso

(super)determinado na Fig. 10.

Fig. 10 - Fluxo típico de BSS.

Transformação de domínio

Branqueamento Separação de componentes BSS

18

1.3 - Técnicas de clusterização

1.3.1 - K-médias

O algoritmo K-médias é um dos mais simples mecanismos de mineração não supervisionada de

dados. Seu objetivo é particionar um conjunto de amostras N-dimensional em um número

predeterminado de grupos, denominados clusters.

Definido de maneira informal [38], este processo começa simplesmente pela escolha arbitrária

de K pontos que serão os centros dos grupos iniciais. Em seguida, para cada um dos n dados

disponíveis, calculamos sua distância aos K centros

∑∑‖ ( ) ‖

(Eq. 1.29)

onde ‖ ( ) ‖ representa qualquer medida de distância entre um dado

( ) e um centroide

(por exemplo, a norma euclidiana). Orientado por estas distâncias, cada dado é associado ao

centroide mais próximo, formando-se os clusters. Ao fim deste assentamento, calcula-se o

ponto médio de cada grupo e reinicia-se o algoritmo, utilizando-os como novos centroides. O

critério de parada é atingido quando os centroides não mais forem alterados entre duas

iterações sucessivas. A Fig. 11 demonstra a evolução deste mecanismo para uma massa de

dados de 500 pontos e 3 clusters.

Fig. 11 - Clusterização k-médias.

Embora seja um algoritmo eficaz, alguns problemas podem ocorrer [39], principalmente no

que concerne à sua convergência, já que a solução final do algoritmo é dependente do número

de clusters (que deve ser arbitrado), bem como dos centroides inicialmente escolhidos.

Ademais, a complexidade computacional do K-médias é elevada, já que é preciso calcular

distâncias a cada iteração.

19

1.3.2 - Clusterização Fuzzy (Fuzzy C-Means Clustering)

A técnica de clusterização Fuzzy foi proposta em 1973 por J. C. Dunn [40] e, desde então,

tornou-se um dos algoritmos mais populares. Diversas formas de aperfeiçoá-lo foram

propostas [41], entretanto para o escopo deste trabalho a proposta original faz-se suficiente.

Este procedimento assume que o número de clusters é conhecido a priori, tal qual no K-

médias, e minimiza

∑∑

‖ ‖

(Eq. 1.30)

onde m é um número real maior que 1, conhecido como “fator de fuzzificação” e ‖ ‖,

assim com no caso do k-médias, representa qualquer métrica de distância.

Esta expressão torna claro que a diferença entre o método fuzzy e o k-médias encontra-se,

portanto, nos elementos . Estes termos medem o grau de afinidade do dado ao i-ésimo

cluster . Em outras palavras, ao contrário do k-médias, em que cada dado pertence apenas a

um cluster, agora temos dados podendo pertencer a mais de um conjunto e uma métrica para

o quão “inserido” neste agrupamento o dado está, ou, numa interpretação alternativa que não

é de todo rigorosa, a probabilidade de que ele pertença àquele cluster.

Destarte, nota-se que existe uma restrição sobre as colunas da matriz1 , cujos elementos são

:

∑

(Eq. 1.31)

ou seja, a soma das probabilidades de encontrar uma mesma amostra de dado em cada cluster

não pode ultrapassar 1. Vista de outra forma, esta expressão apenas representa um dos

axiomas básicos da teoria de probabilidade: dado um dado espaço amostral , ( ) [22].

O problema de determinação dos centroides resume-se, então, a minimização de

atrelado à restrição apresentada acima. Utilizando multiplicadores de Lagrange, podemos

converter este problema em um de minimização sem restrições:

( ) ∑∑

‖ ‖

∑ ( ∑

)

(Eq. 1.32)

de onde se conclui:

1 U é uma matriz de dimensão CxN, onde C é o número de centroides e N é a quantidade de dados.

20

∑ 4‖ ‖

‖ ‖5

(Eq. 1.33)

Este resultado, quando aplicado na Eq. C.2, nos permite estabelecer que os clusters são

atualizados pela seguinte regra:

∑

∑

(Eq. 1.34)

As iterações terminam quando 2‖ ( )

‖3 , onde é um valor entre 0 e 1 e j

representa a iteração atual.

A Fig. 12 demonstra a evolução de um cenário em que se utilizou o método de clusterização

fuzzy com três clusters, e . Já a Fig. 13 representa em sequência a função que

descreve a afinidade de cada dado com os três centróides (linhas da matriz U).

Fig. 12 - Evolução dos centróides aplicando-se o fuzzy c-means.

21

Fig. 13 - Invólucro probabilístico sobre os centroides (linha superior: em perspectiva; linha inferior: vista superior).

22

1.4 - Avaliação de desempenho da separação cega de fontes

Em 2006 Emmanuel Vincent, Rémi Gribonval e Cédric Févotte propuseram quatro medidas

objetivas de qualidade para separação cega de fontes [36] conhecidos como razão fonte-

distorção (source-to-distortion ratio: SDR), razão fonte-interferência (source-to-interferences

ratio: SIR), razão fonte-artefato (source-to-artifact ratio: SAR) e razão fonte-ruído (source-to-

noise ratio: SNR). Neste projeto, adotamos apenas a SIR. Entretanto, como se tratam de

deduções semelhantes, abordaremos as quatro métricas.

O propósito destas computações é quantificar, respectivamente, a distorção imposta pelo

mecanismo de BSS aos sinais individuais obtidos, a interferência entre fontes nestes sinais (o

grau de sucesso da separação), a introdução de artefatos pelo algoritmo, como ruído musical e

distorções não lineares, e o quão relevante é o ruído introduzido pelos transdutores utilizados

para captação das misturas.

Desta forma, o preceito fundamental para o cálculo destes avaliadores de desempenho é

podermos entender cada estimativa das fontes individuais como uma composição do sinal

desejado ( ), interferência ( ), ruído ( ) e artefatos ( ):

Assim, demonstra-se [36] que esta decomposição pode ser efetuada por transformações

ortogonais. Denotando por ∏* + a matriz de projeção no subespaço formado pelos

vetores , teremos que tal matriz é uma matriz quadrada cuja dimensão é o

comprimento de cada um destes vetores e, considerando misturas instantâneas, teremos as

seguintes projeções ortogonais:

∏{ }

∏2( ) 3

∏2( ) ( ) 3

(Eqs. 1.35)

onde indica o número de fontes, o número de misturas e o ruído aditivo. Já quando

consideramos misturas convolutivas por processos invariantes no tempo, temos as seguintes

transformações:

∏2( )

3

∏{. /

}

∏{2( )

( ) 3

}

(Eqs. 1.36)

23

onde representa o comprimento do filtro de mistura das componentes e e

indicam,

respectivamente, o sinal das fontes e o ruído atrasados de , ou seja, ( ) e

( ).

Feitas estas projeções (vide[36]), podemos definir o SIR, SAR, SDR e SNR:

‖ ‖

‖ ‖

‖ ‖

‖ ‖

‖ ‖

‖ ‖

‖ ‖

‖ ‖

(Eqs. 1.37)

24

Parte II

Capítulo 2 - Cancelamento de Eco Acústico por

Método Adaptativo no Domínio do Tempo

Quando um sistema viva-voz é utilizado, eventualmente uma mensagem que chega ao alto-

falante de um dos telefones pode ser recapturada pelo microfone e reenviada para quem a

gerou. Neste caso, este ouvirá a si próprio após um atraso natural do sistema, configurando o

que denominamos eco acústico. Entretanto, o processo pode se repetir sucessivas vezes (por

meio de ecos de ecos), numa recursão altamente comprometedora da qualidade da

comunicação.

A grande dificuldade apresentada neste contexto é que não bastaria simplesmente subtrair do

sinal capturado pelo microfone o que foi reproduzido pelo alto-falante [2]. Esta solução, ainda

que pareça viável, não contempla as modificações que serão impostas ao sinal reproduzido

pelo meio, tais como mudanças de fase, amplitude e múltiplos percursos (reverberação).

Portanto, apenas realizar a subtração entre os sinais é improfícuo, podendo até mesmo piorar

a qualidade da conversação.

Assim, torna-se preciso que identifiquemos o sistema que modifica o sinal desde sua

reprodução no alto-falante até sua conversão em sinal elétrico pelo microfone [6]. Uma vez

feita esta identificação, ou seja, uma vez que se conheça a resposta ao impulso do ambiente

acústico que acopla os dois elementos, basta aplicá-lo ao sinal que chega ao alto-falante e

subtrair este resultado do sinal gerado pelo microfone.

Como a abordagem proposta é análoga à filtragem adaptativa para redução de ruído [3], é

coerente supor que este mesmo mecanismo seja capaz de sanar o problema que aflige os

sistemas de comunicação viva-voz de grande porte. Desta forma, a utilização desta classe de

filtros, tendo o sinal que chega ao alto-falante como referência da parcela a ser anulada do

sinal de entrada gerado pelo microfone, seria suficiente para compor um anulador de eco

acústico, conforme exibe a Fig. 14.

25

Fig. 14 - Esquema de aplicação da filtragem adaptativa como solução do problema de cancelamento de eco acústico.

Entretanto, algumas sutilezas pertinentes ao processo de cancelamento de eco acústico via

filtro adaptativo requerem cautela. Dentre elas, a mais notável é o fato de a voz não ser uma

informação presente durante todo o tempo de uso do sistema, contrariamente ao que

acontece com relação ao ruído de fundo. Isto ocorre porque há pausas entre sílabas e

palavras, momentos em que o interlocutor se cala e apenas escuta o outro e, em alguns casos,

até mesmo momentos de espera prolongada em silêncio.

Ora, se a filtragem adaptativa utiliza informações dos sinais que lhe são entregues para tentar

predizer a interferência que compromete o sinal de interesse e restaurá-lo, é intuitivo que a

inconstância das amostras de voz recebidas possa comprometer seu desempenho. De fato, é o

que ocorre [2].

Comumente, a solução empregada é restringir os momentos em que o filtro pode atualizar os

seus coeficientes [17]. Para isto, empregam-se detectores de presença de voz, de tal forma a

permitir que o algoritmo adapte-os somente quando o sinal recebido é representativo, o que

significa que eles somente poderão ser recalculados quando as amostras de referência forem

de voz [8].

Assim, constrói-se o sistema representado esquematicamente pelo diagrama de blocos da Fig.

15.

26

Fig. 15 - Diagrama de blocos de um sistema de cancelamento de eco acústico com emprego de VAD.

Entretanto, não é somente esta situação que compromete o desempenho da filtragem

adaptativa quando aplicada ao contexto de redução de eco acústico. Não raro, a

realimentação e a voz local ocorrem simultaneamente. Quando este cenário é verdadeiro, a

voz local atua como ruído sobre a métrica de adaptação do filtro, provocando divergência no

processo de atualização dos coeficientes do preditor [19]. Para contornar este problema,

utilizam-se sistemas chamados Double-Talk Detectors (DTD), responsáveis por detectar quando

este cenário ocorre.

Assim, passamos a ter o sistema mais robusto, conforme a Fig. 16.

Fig. 16 - Diagrama de blocos de um sistema de cancelamento de eco acústico com emprego de VAD e DTD.

27

Capítulo 3 - Normalized Least-Mean-Squares

O algoritmo de filtragem adaptativa usualmente utilizado para aplicações de cancelamento de eco acústico é o filtro Least-Mean-Squares (LMS) e suas variações, como o Normalized Least-Mean-Squares (NLMS) [2], que são mecanismos derivados da técnica Steepest Descent de predição linear. Obviamente, esta escolha não é feita levianamente, principalmente porque há diversas técnicas de filtragem adaptativa que poderiam ser adotadas. Portanto, cabe analisarmos a razão da preferência em torno do LMS.

Para tal, partiremos da comparação entre três populares algoritmos adaptativos: o Normalized Least-Mean-Squares (NLMS), o Affine Projection (AP) e o Recursive Least-Squares (RLS). Suas funções custo e complexidade computacional estão listadas na Tab. 1.

Algoritmo Função custo Complexidade computacional

NLMS , ( )- ( )

AP ,∑ ( )

- ( )

RLS ∑ ( ) , com ( )

Tab. 1 - Comparativo entre algoritmos adaptativos

É fácil verificar que o NLMS apresenta a função custo mais simples (e, portanto, implementação facilitada), além de possuir baixa complexidade computacional em função de N, o comprimento do filtro utilizado. Por esta razão, como em geral o intuito de implementações em processamento de voz é o emprego em tempo real, torna-se conveniente a escolha do filtro de menor complexidade. Cabe ressaltar que esta tabela aborda apenas os três algoritmos mais comumente referenciados; entretanto, há ainda outras alternativas, tais como outras variações do LMS (Data-Reusing LMS, Block LMS, Block-Normalized LMS, etc) e a família de filtros adaptativos por sub-bandas, dentre outros, sendo, ainda assim, o NLMS o mais utilizado, dada sua baixa complexidade [2].

Assim, escolhido o NLMS como o núcleo do sistema de cancelamento de eco, tem-se o erro

médio quadrático (em relação ao sinal que será transmitido) como função-custo. Neste caso, o

custo mínimo será alcançado quando não houver eco no sinal, ou seja, quando a energia por

ele imposta tender a ser nula. O papel dos coeficientes do filtro aplicado ao sinal de entrada

(sinal do alto-falante) será tentar mimetizar o ambiente acústico que acopla o alto-falante ao

microfone, permitindo o cancelamento efetivo do eco no subtrator, conforme Fig. 17.

Fig. 17 - Aplicação do NLMS em cancelamento de eco acústico.

28

Capítulo 4 - Detectores de Voz

Conforme abordado no Capítulo 2, um controle efetivo dos momentos durante os quais o filtro

pode ser atualizado exige o uso de ferramentas que detectem quando há ou não voz no sinal

de referência utilizado pelo filtro adaptativo. Neste âmbito, foram implementados três

algoritmos para que se pudesse escolher aquele com o melhor desempenho para compor o

sistema final: O Adaptive Linear Energy-Based Detector (ALED), o Linear Sub-Band Energy

Detector (LSED) [10] e um detector por características estatísticas da voz - Statistical Model-

Based Voice Activity Detector (SMBVAD) [11].

4.1 - Adaptive Linear Energy-Based Detector

O Adaptive Linear Energy-Based Detector (ALED) é um processo que, embasado nas variações

de energia de um sinal, consegue determinar a presença ou não de voz em um determinado

instante. Trata-se de um método muito referenciado na literatura como um dos mecanismos

para a racionalização do uso da banda em VoIP, pois, utilizando-o, consegue-se detectar

quando há voz a ser transmitida e quando há silêncio ou pausa entre palavras. Assim,

transmite-se o pacote de dados somente quando realmente necessário.

A implementação do ALED consiste em dividir o sinal em diversos quadros

* ( )+ ( )

(Eq. 4.1)

onde ( ) representa a i-ésima amostra de um sinal ( ), o j-ésimo quadro deste sinal e

o tamanho em amostras do quadro.

Uma vez feita a fragmentação do sinal em quadros, suas energias são calculadas segundo

∑ ( )

( )

(Eq. 4.2)

sendo a energia de .

Para um ambiente cuja energia do ruído de fundo é conhecida e praticamente constante,

pode-se dizer que há presença de sinal de interesse (voz) quando a energia de um quadro for

maior que o limiar de energia estabelecido pelo ruído (Fig. 18). Entretanto, se supusermos um

ambiente em que tal energia é variável, este método é falho. Imaginando que se mantenha um

limiar de comparação fixo, sempre que a energia de ruído for além dele, ruído será detectado

como sinal de interesse, o que é indesejável.

29

Fig. 18 - Comparação de energia de um sinal com um limiar fixo.

Para compensar este efeito, precisamos atualizar o limiar de detecção constantemente [10],

sendo o critério utilizado

( )

(Eq. 4.3)

onde representa o novo limiar, o último limiar utilizado e a energia

computada para o último quadro em que não havia voz.

Se adotarmos fixo, o processo de detecção de voz será pouco sensível às variações

estatísticas do ruído de fundo. Esta falta de robustez comprometeria a conversação e,

novamente, o desempenho do ALED. Portanto, utiliza-se informação estatística de segunda

ordem para a atualização de , o que é feito através da computação da variância do buffer que

armazena a energia dos últimos quadros detectados como silêncio.

, -

(Eq. 4.4)

As alterações do ruído de fundo são mapeadas em incrementos/decrementos da razão entre

antes e depois da inserção no buffer do valor da energia do último quadro detectado como

silêncio. Dependendo do valor desta razão, o valor de é alterado conforme a Tab. 2 [10].

0,25 0,20 0,15

0,10 Tab. 2 - Critério de atualização de p

30

Assim, é possível rastrear as variações de energia do ruído de fundo, elevando ou reduzindo o

limiar de detecção. Visto de outra maneira, estamos calculando a variância das variâncias de

diversos quadros silenciosos armazenados em buffer, o que pode ser entendido pela

interpretação da variância de um sinal como a energia da sua parte alternada (energia AC) e

como medida de quanto um conjunto de amostras afasta-se de sua média. Ou seja,

primeiramente utilizamos a variância em sua interpretação energética e guardamos este

resultado em buffer, utilizando, então, a interpretação da variância como distância entre uma

média (limiar de detecção definido anteriormente) e um conjunto de dados (valores de

energias armazenadas em buffer) para atualização do limítrofe de detecção.

Tão importante quanto esta atualização, a decisão pelo limiar inicial é crucial, pois é a partir

dele que os limiares seguintes serão definidos. Caso a escolha inicial seja muito elevada, todo

quadro será detectado como silêncio e a atualização ocorrerá incorretamente. Por outro lado,

se for escolhido um limiar aquém do necessário, todo quadro será detectado como voz e a

atualização não ocorrerá.

Portanto, é preciso que se tenha um método de estabelecimento do limiar que seja preciso e

dinâmico. Estas características podem ser conseguidas se simplesmente supusermos que os

primeiros quadros do sinal em análise são silenciosos (em geral esta afirmação é verdadeira,

pois raramente um usuário liga o sistema de conversação já falando) e estabelecermos como

limiar inicial a média das energias destes quadros, ou seja:

∑

(Eq. 4.5)

Embora o ALED, teoricamente, seja capaz de rastrear mudanças súbitas na energia do ruído de fundo através da ação de , nossos testes comprovaram que diversos casos reais seriam capazes de gerar resultados indesejados, conforme a sequência da Fig. 19 demonstra.

Todas as imagens representam a gravação da leitura de um fragmento do poema José de

Carlos Drummond de Andrade, havendo apenas mudanças arbitrárias feitas artificialmente por

software de edição na energia do ruído de fundo gerado por um ar-condicionado em nosso

laboratório (vide seção de delimitações para mais detalhes) .

Na Fig. 19 (a) observamos o resultado mais próximo do ideal que obtivemos. Podemos verificar

que a detecção - representada pelos períodos em que a linha em azul atinge seus máximos -

praticamente coincide com os períodos marcados em verde2 (onde efetivamente há voz). Já no

caso da Fig. 19 (b), o ruído variou suavemente antes mesmo de o período vocalizado ser

iniciado, permitindo ao algoritmo atualizar seu limiar de detecção corretamente de modo a

não informar esta região do sinal como voz.

2 Esta marcação foi feita por inspeção visual, auxiliada por inspeção auditiva da forma de onda do sinal

no software Pro Tools M-Powered 8.

31

(a) (b)

Fig. 19 - Desempenho do ALED.

(c) (d)

32

Quanto à Fig. 19 (c) e à Fig. 19 (d), temos resultados que simulam situações em que o ruído de

fundo varia muito abruptamente. No primeiro caso geramos variações em forma próxima a de

um degrau energia do ruído (incremento da energia em cerca de 20%), o que demonstrou que

a atualização do limiar não é rápida o bastante para acompanhar esta mudança, levando o

ruído a ser entendido como voz. Esta falha acabou comprometendo a consistência do buffer,

tornando as atualizações incorretas. Este fenômeno ocasionou a perda de precisão do

algoritmo, que detectou a vocalização a partir da metade do sinal em todas as amostras.

No último caso (Fig. 19 (d)), provocamos alteração abrupta da energia do ruído branco de

fundo aproximadamente 1 segundo antes do momento em que se inicia o período de fala, sem

retornar esta amplitude ao seu valor inicial. Nesta situação o ALED passou a detectar qualquer

amostra como voz, justamente por não ter havido tempo suficiente para o limiar de detecção

se elevar e não termos reduzido a energia do sinal após este momento.

Podemos traçar um paralelo entre estas situações geradas artificialmente e ocasiões reais que

poderiam comprometer um telefonema viva-voz. As variações abruptas no nível de ruído

seriam bastante frequentes se houvesse uma obra ocorrendo em uma sala vizinha àquela

onde está instalado o sistema telefônico ou se a janela desta sala estivesse defronte a uma

movimentada avenida. Destarte, como há situações reais comuns que poderiam comprometer

o desempenho do ALED, faz-se necessário investigar o desempenho de outro VAD que possa

substituí-lo.

33

4.2 - Linear Sub-Band Energy Detector

Visando a contornar os problemas observados no ALED, implementamos uma variação deste

mecanismo trabalhando no domínio da frequência, conhecida como Linear Sub-Band Energy

Detector (LSED) [10]. Este VAD é semelhante ao anterior; entretanto, a análise da energia dos

quadros é feita em sub-bandas, utilizando a transformada de cossenos discreta (DCT).

( ) * + (Eq. 4.6)

Estas sub-bandas são: 0-1 kHz, 1-2 kHz, 2-3 kHz e 3-4 kHz [10]. A energia de cada faixa de

frequências é calculada segundo , - ( ), e o critério de decisão para detecção de voz

e atualização dos limiares é feita conforme exposto para o ALED, havendo, agora, um limiar

para cada sub-banda (Fig. 20).

Fig. 20 - Diagrama lógico do LSED.

É interessante observar que, justamente pelo fato de a maior parte da energia da voz estar

concentrada na faixa 0-1 kHz, esta é a sub-banda dominante no processo LSED. Assim, passa a

ser preciso haver energia suficiente no primeiro conjunto de frequências e em qualquer outro

par das três demais sub-bandas para que ocorra detecção de fala. Portanto, teoricamente,

tornamos o processo de detecção mais robusto em contextos comprometidos por ruído

distribuído em mais de uma banda, já que há diluição de sua energia em cada região espectral.

Adicionalmente, se o ruído não comprometer a faixa dominante de 0-1 kHz, nunca ocorreria

sua detecção incorretamente como voz.

Esperar-se-ia que este método fosse mais robusto que o ALED e, embora de fato tenhamos

obtido melhores resultados para situações com pouco ou nenhum ruído (assim como no caso

anterior, utilizamos o ruído do ar condicionado do laboratório, variando sua energia

arbitrariamente via software de processamento de sinais em determinadas períodos), este

mecanismo também se mostrou falho em alguns cenários, como apresentam as Fig. 21 e 22.

34

Fig. 21 - Desempenho do LSED.

35

Fig. 22 - Degeneração do desempenho do LSED

Estes resultados nos mostram que em algumas situações, mesmo quando há ruído branco

(assim como no caso do ALED, trata-se do ruído do ar-condicionado do laboratório)

comprometendo o sinal (Fig. 21 (a), (b) e (c)), a detecção do LSED é bastante precisa3, o que o

tornaria um excelente candidato para emprego na versão final do sistema de cancelamento de

eco, à frente do ALED. Todavia, o LSED apresentou dois pontos gravíssimos de falha: o primeiro

quando o ruído branco (do ar-condicionado, conforme definido nas delimitações do projeto)

que compromete o sinal ganha energia abruptamente, levando todas as sub-bandas a terem

alta energia, violando o limiar de detecção. Neste caso, todas as amostras passam a ser

detectadas como voz, conforme destaca a Fig. 21 (d).

O segundo ocorre quando o ruído de fundo tem banda muito estreita (utilizamos um diapasão

eletrônico para realizar este tipo de ruído), sendo este resultado apresentado na Fig. 22. Neste

cenário, o limiar de detecção de uma das sub-bandas torna-se tão elevado que qualquer

combinação lógica que precise desta faixa de frequências para se tornar verdadeira torna-se

impossível. Esta situação é ainda mais crítica quando temos elevado nível de ruído na faixa de

0 kHz a 1 kHz, que é dominante no processo.

Novamente, vemos que há situações cotidianas que poderiam degenerar o desempenho do

LSED. Desta forma, foi necessário continuarmos a investigação por VADs que suplantem as

deficiências apresentadas pelo ALED e pelo LSED.

3 Novamente, a marcação dos períodos vocalizados foi feita por inspeção visual, auxiliada por inspeção

auditiva da forma de onda do sinal no software Pro Tools M-Powered 8.

36

4.3 - Detector Estatístico

As deficiências supracitadas do ALED e do LSED estimulam a alteração da abordagem dos

VADs. Neste sentido, adotamos técnicas estatísticas mais sofisticadas para a detecção da

atividade vocal.

O modelo proposto por J. Sohn, N. S. Kim e W. Sung [12] e aperfeiçoado por Y. D. Cho e A.

Kondoz [13] tem por pressuposto a menor variabilidade das estatísticas do ruído de fundo

quando comparadas às do sinal de voz. Desta forma, é possível estimar as características

estatísticas do ruído ao longo do tempo, o que permite diferenciar momentos em que ocorre

voz daqueles em que somente o ruído está presente (interlocutor em silêncio), ou seja, a

comparação das estimativas estatísticas do ruído de fundo com o sinal observado nos permite

distinguir quando ocorre a fala.

Fig. 23 – Diagrama de blocos do VAD no domínio estatístico (Adaptado de [11]).

Assim sendo, associamos uma métrica estatística robusta a um limiar de decisão sobre esta

para distinguirmos momentos com e sem voz no sinal observado. Nesta proposta, utiliza-se um

estimador de máxima verossimilhança tendo como ponto de partida a suposição de que

conhecemos as estatísticas a priori do ruído, que são aferidas pelo estimador de ruído. Este

paradigma é apresentado na Fig. 23

O modelo estatístico utilizado assume, ainda, que em cada janela de sinal analisado tanto o

ruído quanto a voz podem ser representados por processos estocásticos gaussianos e

independentes entre si. Desta forma, assume-se que os coeficientes da Transformada de

Fourier discreta de cada processo seriam variáveis aleatórias assintoticamente independentes

[16].

Destarte, as duas hipóteses a serem consideradas pelo VAD proposto são:

{

(Eq. 4.7)

sendo S (voz), N (ruído) e Y DFTs de dimensão L cujos k-ésimos elementos representamos por

, e , respectivamente. Isto posto, as funções densidade de probabilidade

condicionadas por e são dadas por

37

( ) ∏

( )

( )⁄ e ( ) ∏

( ( ) ( ))

( ( ) ( ))⁄

(Eqs. 4.8)

onde k indica a raia espectral e representam, respectivamente, a variância do espectro

do ruído e da voz. Para simplificar a notação, abandonamos os operadores de produtório:

( | )

⁄ e ( | )

( )

( )⁄ .

(Eqs. 4.9)

Reconhecidas estas PDFs, pode-se definir o estimador de máxima verossimilhança que

determinará a presença ou não de voz:

( )

( )

( )

( )⁄

(Eq. 4.10)

onde ⁄ e ⁄ .

Neste ponto, cabe definirmos o mecanismo de estimação da variância do ruído de fundo,

necessário para o cálculo de . Destacamos, também, que a variância do espectro da voz é

uma variável desconhecida e que, portanto, precisaremos de meios para estimar

diretamente, sem o conhecimento de . Estas duas estruturas serão explicitadas em

seguida, iniciando pelo estimador do ruído de fundo e, em seguida, o estimador para .

A primeira tem como base a probabilidade de ausência de voz em um trecho de sinal, o que

pode ser calculado por intermédio do teorema de Bayes:

( )

( ) ( )

(Eq. 4.11)

onde ψ será definido posteriormente e a probabilidade a priori - ( ) - de ausência de fala

é estimada [15] de maneira adaptativa por:

( )

( √ )

(Eq. 4.12)

em que representa a função de Bessel modificada de ordem zero.

O espectro de potência do ruído de fundo é estimado segundo:

(|

( )| | ( )) . |

( )/ ( ) ( . |

( )/) ( )

(Eq. 4.13)

de onde deduzimos sua variância, necessária para o cálculo de :

( )

( ) ( ) (|

( )| | ( )), (Eq. 4.14)

38

onde η atua como fator de controle da adaptabilidade do sistema, podendo ser interpretado

como um controle de aprendizado.

Resta-nos, portanto, estimar sem o conhecimento direto de . A proposta de Cho e

Kondoz utiliza o método decision-directed [13] proposto a seguir. Seja

( )

( ) ( ) (

( ) ), (Eq. 4.15)

sendo uma constante de ponderação cujo valor sugerido é 0,98 e a amplitude espectral

da parcela de voz, estimada utilizando a técnica de minimização de erro quadrático médio

proposta por Y. Ephraim e D. Malah [14], temos:

(Eq. 4.16)

Uma vez computadas estas grandezas, torna-se possível o cálculo de para cada janela de

sinal analisado. Dado que a decisão sobre presença ou não de voz em uma janela deve ser feita

por uma métrica que avalia o conjunto de raias da DFT – em vez de cada raia individualmente

– substitui-se por sua média geométrica em relação a k [13]. Esta nova medida é, então,

comparada a um limiar determinado heuristicamente que, quando superado, assinala a

ocorrência de fala.

Entretanto, observa-se que a aplicação direta desta média geométrica causa alguns efeitos

indesejados [13]. O termo atrasado ( )

no cálculo de pode fazer com que esta medida se

torne muito maior que , especialmente nas regiões de ataque e decaimento da voz, fazendo

com que a medida de verossimilhança não ultrapasse o limiar estabelecido. Desta forma,

torna-se essencial suavizar a resposta de , tornando seu decaimento menos crítico nas

regiões supracitadas. Isto é feito adicionando-se memória ao sistema, de tal modo que a

verossimilhança de uma janela passe a depender do resultado da janela anterior:

( )

( ) ( )

( )

(Eq. 4.17)

Nesta equação é o fator de suavização, cujo valor deve ser escolhido no intervalo [0,1) e,

uma vez aplicada esta relação, a média geométrica passa a ser calculada sobre ( ) ,

permitindo a suavidade pretendida.

Ao se utilizar esta nova abordagem, com e , obtivemos os resultados apresentados na Fig.24.

39

(a)

(b)

(c)

Fig. 24 - Desempenho do VAD estatístico.

40

É notável a superioridade deste modelo, que apresentou resultado quase impecável nos três

casos4. Destaca-se que exemplo da Fig. 24 (a) é a gravação da missão Apollo 13 informando à

base em Houston problemas com a nave. Esta gravação é bastante comprometida por ruído e,

mesmo assim, a detecção das regiões com voz foi precisa.

Já o segundo exemplo da Fig. 2024 (b) apresenta um diálogo telefônico cuja duração é 1:53 min. A detecção das regiões com fala também foi correta, assim como no exemplo (c), que traz a mesma gravação utilizada nos testes do ALED e LSED (Fig.19 (d) e Fig. 21 (d)).

Desta forma, a escolha natural de algoritmo de detecção de voz para compor o sistema de

cancelamento de eco acústico é o modelo estatístico, uma vez que os VADs que têm como

critério de decisão apenas a energia do sinal (ALED e LSED) apresentaram desempenho muito

inferior. Entretanto, cabe destacarmos que a complexidade computacional deste modelo

estatístico é muito superior à do ALED e LSED, o que torna estes dois algoritmos muito mais

indicados em situações em que a energia do ruído de fundo é bem conhecida. Ademais, o

modelo estatístico apresentado é específico para o discernimento sobre informações de voz,

não podendo ser aplicado para outros tipos de sinais, como, por exemplo, picos em um ECG,

sinais de sonar, redes de dados etc. O ALED e o LSED, por outro lado, têm como base apenas a

energia da observação e, portanto, podem ser aplicados à detecção de sinais que não sejam de

voz.

4 Novamente, a marcação dos períodos vocalizados foi feita por inspeção visual, auxiliada por inspeção

auditiva da forma de onda do sinal no software Pro Tools M-Powered 8.

41

Capítulo 5 - Detector de Fala Simultânea

Fig. 25 - Diagrama de blocos de um sistema de cancelamento de eco acústico com emprego de VAD e DTD.

Conforme elucidado no Capítulo 2, quando acontece a realimentação sobreposta à voz local,

esta última acaba por atuar como ruído sobre a função custo que rege a atualização do filtro

adaptativo [18], a peça central do cancelador de eco. Assim, torna-se necessário o uso de uma

ferramenta que permita detectar quando esta situação acontece: o detector de duas vozes

(double talk detector - DTD) precisa ser adicionado ao sistema, pois, como ilustrado na Fig. 25.

O trabalho do DTD é calcular correlações [19] e, fundamentado nestes resultados, impedir ou

permitir a atualização dos coeficientes do NLMS. Para entender como este processo funciona,

primeiramente, precisaremos reconhecer os sinais z(k), d(k) e e(k), apresentados na Fig. 25.

Estes sinais são, respectivamente, o sinal captado pelo microfone do sistema de

telecomunicação, a predição feita pelo NLMS e o resultado da diferença entre z(k) e d(k), ou

seja, o sinal de erro.

Supondo a situação em que acontece somente a realimentação, ou seja, o sinal recebido

contém voz, mas não há sinal local, o filtro adaptativo estará (após seus coeficientes já terem

convergido) gerando um sinal d(k) que é fortemente correlacionado com o sinal z(k)

(idealmente, igual a z(k)). Já quando há voz local e voz proveniente do caminho de

realimentação, como o filtro adaptativo pode prever, no caso ideal, somente a parcela de

realimentação, a correlação entre z(k) e d(k) se reduzirá e a correlação entre z(k) e e(k)

crescerá. O cálculo destas correlações é realizado pelo seguinte algoritmo [19]:

( ) | ( )

√ ( ) ( )|

( ) | ( )

√ ( ) ( )|

(Eqs. 5.1)

42

onde

( ) ( ) ( ) ( )

( ) ( ) ( ) ( )

( ) ( ) ( ) ( )

( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( )

⁄

(Eqs. 5.2)

e N é a ordem do filtro adaptativo. é a potência do sinal captado pelo microfone, é a

potência do eco estimado pelo sistema adaptativo, é a potência do sinal resultante do

subtrator, é a potência cruzada entre o sinal captado pelo microfone e aquele estimado

pelo filtro adaptativo e é a potência cruzada entre o sinal captado pelo microfone e o sinal

resultante do subtrator. Finalmente, é a correlação cruzada entre o sinal gerado pelo

microfone e a estimativa do filtro e é a correlação cruzada entre a aquisição do microfone

e o erro residual na saída do subtrator.

Há, ainda, a situação em que não há realimentação mas há voz local. Nesta situação, d(k) e z(k)

tornam-se naturalmente descorrelacionados e z(k) e e(k) tornam-se correlacionados. Assim, o

DTD consegue não só detectar a presença de duas vozes em z(k), mas também a presença

apenas local. O fluxograma deste sistema é apresentado na Fig. 26.

Fig. 26 - Esquema lógico do DTD.

A Fig. 27 demonstra como as correlações entre z(k) e d(k) e entre z(k) e e(k) variaram ao longo

do tempo quando foi utilizado para teste o sinal presente nesta mesma figura. É justamente

nos pontos em que Ze (correspondente à evolução de ) e Zd (correspondente à evolução

de ) se cruzam que começam ou terminam os períodos de dupla voz.

43

Fig. 27 - Resultado do DTD.

Os resultados apresentados pelo DTD foram tão precisos que não foi necessário compará-lo

com outras técnicas, ao contrário do que aconteceu com os VADs. Destacamos, por fim, que

para este exemplo foi empregado um filtro adaptativo de tamanho (determinado

empiricamente como ordem ótima).

44

Capítulo 6 – Resultados do Sistema Integrado

O sistema completo, conforme apresentado nas Fig. 16 e 25, foi composto pelo filtro

adaptativo, pelo VAD estatístico e pelo DTD. Nos testes utilizaram-se dois sistemas de

teleconferência montados em salas diferentes do PADS.

Através desta configuração foi mantido um diálogo entre duas salas do laboratório. Este foi

gravado e, posteriormente, submetido aos algoritmos desenvolvidos. Assim, pudemos

averiguar a melhoria na inteligibilidade promovida por nosso mecanismo de cancelamento de

eco acústico.

Fig. 28 - Resultados do sistema integrado5.

A Fig. 28 mostra em sua parte superior o sinal recebido em uma das salas. Já a curva

sobreposta a este sinal representa as detecções do algoritmo VAD estatístico. Abaixo, ao

centro da figura, encontra-se o sinal que foi gravado pelo microfone desta mesma sala. Nele,

há a combinação do sinal realimentado pela caixa de som com o sinal do interlocutor situado

na própria sala. A curva sobreposta a este sinal representa as detecções do DTD, sendo

5 Para não haver sobreposição dos sinais, foi adicionado nível DC de 1.5 ao sinal apresentado no centro

da figura (azul) e nível DC de 2.25 ao sinal apresentado na parte superior (rosa).

45

importante notar que o algoritmo detectou tanto os momentos em que houve apenas a fala

local quanto os momentos em que houve superposição desta e da realimentação.

As curvas presentes na parte inferior da imagem representam a variação das correlações entre

o sinal captado pelo microfone e o sinal de erro ( ) e entre o sinal captado pelo microfone e

a predição ( ) do NLMS (com 256 coeficientes). Cabe enfatizar novamente que é nos

momentos de cruzamento destas curvas que acontecem as detecções positivas do DTD.

Fig. 29 - Resultado da filtragem adaptativa bem sucedida6.

A Fig. 29 apresenta o sinal de referência comprometido por eco na parte superior e o resultado

da filtragem feita pelo NLMS quando controlado pelo DTD e pelo VAD na parte inferior. É

interessante notar que a parcela representativa de eco é reduzida paulatinamente - ao

término do sinal, entre 15 s e 20 s, a energia do eco é aproximadamente 100 vezes menor do

que entre 4 s e 7 s - o que é justificado pela convergência gradual dos coeficientes do filtro

adaptativo para valores próximos dos ótimos.

Também devemos notar que a energia do eco apresentou sempre tendência ao decaimento,

justamente porque havia a atuação do DTD e do VAD impedindo que os coeficientes do filtro

adaptativo fossem atualizados nos contextos de dupla voz e ausência de sinal alimentando o

alto-falante do sistema. Sem a ação destes dois blocos poderíamos ter incrementos da parcela

de eco após instantes de silêncio ou dupla voz ou, no pior caso, divergência do filtro, conforme

exibido na Fig. 30, em que abandonamos tais blocos.

6 Para não haver sobreposição dos sinais apresentados, foi adicionado nível DC unitário ao sinal exibido

na parte superior desta figura.

46

Fig. 30 - Resultado da filtragem adaptativa com divergência dos coeficientes do filtro.

Neste caso particular, a filtragem vinha transcorrendo melhor que no caso com ação do VAD e

do DTD. Conforme podemos averiguar, no intervalo entre 4 s e 7 s a energia do eco já estava

mais reduzida que a aquela apresentada na Fig. 29. Entretanto, no entorno de 19 s os

coeficientes do filtro adaptativo divergiram, pois se tratava de um momento de transição entre

a situação de realimentação e de apenas voz local. Como faltou um mecanismo que

controlasse a atualização do filtro durante esta passagem, houve divergência.

47

Parte III

Capítulo 7 – Separação Cega de Fontes Aplicada

ao Cancelamento de Eco

O sistema de cancelamento de eco acústico desenvolvido ao longo da primeira parte deste

texto, embora eficaz, ainda apresenta um grande inconveniente. Nota-se que quando um

período de dupla voz prolonga-se (vide Fig. 31), como o mecanismo adaptativo deixa de

atualizar os seus coeficientes ao longo de todo este intervalo, perdemos a capacidade de

rastrear mudanças no ambiente acústico em que o sistema está inserido. Desta forma,

estaremos realizando a anulação do eco usando coeficientes de filtragem inadequados, o que

pode permitir que o eco que se instaura no sistema volte a níveis perceptíveis, devendo

portanto ser contornada, afinal tal retorno representaria uma degeneração severa. Quando

isto ocorre, o sistema não só tem que passar por um novo intervalo de adaptação de seus

coeficientes, mas também deixa transparecer ao usuário que este processo está acontecendo,

reduzindo sua qualidade perceptual.

Fig. 31 - Longo período de dupla voz.

48

Embora este cenário seja raro, dados os motivos supracitados, é pertinente que se

desenvolvam mecanismos para suplantá-lo. Neste âmbito, a proposta deste projeto é

interpretar os momentos de dupla voz como situações em que se podem aplicar técnicas de

separação cega de fontes (Blind Source Separation – BSS), desde que se modifiquem os

sistemas de aquisição, que passarão a contar com mais de um microfone (Vide Fig. 32). Cabe

lembrar (vide seção de delimitações) que o escopo deste projeto aborda a proposta de um

mecanismo de separação cega de fontes que possa ser empregado no contexto de

cancelamento de eco acústico. Questões pertinentes à integração do sistema de filtragem

adaptativa e do sistema BSS, como atraso entre blocos, continuidade de fase e continuidade

de energia do sinal nos momentos de chaveamento entre os sistemas não serão abordadas

nestes texto.

Fig. 32 - Sistema híbrido: adaptativo e BSS.

Todavia, muitos métodos de BSS apresentam um grave empecilho à sua aplicação num

cancelador de eco acústico: a permutação das saídas do sistema [21]. Desta forma, embora

seja verdadeiro que podemos separar a parcela de realimentação da voz local empregando

esta classe de algoritmos, não teríamos meios para diferenciar as observações resultantes, ou

seja, um mecanismo automático que determine qual dos sinais separados é a parcela de

realimentação e qual é a voz local.

Assim, faz-se necessário a adoção de mais informações do que somente as misturas. É preciso

que se tenham dados a priori do sinal de realimentação e da voz local. Neste contexto,

propomos um novo artifício de separação de fontes que integre duas técnicas no domínio da

frequência: uma que utiliza o conhecimento do arranjo espacial da sala onde se tem instalado

o sistema de comunicação, de modo que informações sobre a diferença de percurso entre os

sinais captados pelos sensores que compõem o sistema de aquisição possam ser usadas para

gerar uma separação inicial das fontes [27][28][29], e outra, a Separação Cega de Fontes por

Exploração de Dependências Estatísticas de Alta Ordem (EDAOR) [32] (em inglês, Blind Source

Separation Exploiting Higher-Order Frequency Dependencies), que otimizará a solução

encontrada ao final do primeiro estágio.

49

Fig. 33 - Nova proposta de BSS

A inovação proposta reside, portanto, na integração dos dois mecanismos supracitados que

são, em princípio, incompatíveis. Este não casamento ocorre porque ao passo que o primeiro

estágio gera máscaras a serem aplicadas sobre a representação frequencial das misturas por

um mecanismo variável por janela e frequência analisada (a definição de janela será dada no

Capítulo 8), a inicialização da EDAOR requer um conjunto de matrizes lineares para a

separação de cada frequência individualmente. Em outras palavras, por associar cada ponto do

espaço de uma das misturas a apenas uma das estimativas, o processo

de mascaramento é não linear. Já o EDAOR necessita, para sua inicialização, de matrizes em

cada raia que efetuem uma separação (ou branqueamento) preliminar. Estas matrizes efetuam

uma transformação linear nas misturas, o que não é diretamente compatível com o processo

não linear de mascaramento. A forma encontrada de compatibilizar estas abordagens reside

na busca de matrizes de inicialização que aproximem, numa transformação linear, a

transformação não linear provocada pelo branqueamento.

Nos próximos capítulos abordaremos o desenvolvimento da arquitetura representada na Fig.

33, desde a implementação do mecanismo de separação inicial dos sinais utilizando

informações relativas ao caminho de propagação e como linearizar a solução gerada por este

primeiro estágio, até como a EDAOR atua otimizando-a. Em seguida, apresentaremos os

resultados do emprego deste fluxo de processamento como solução para os momentos de

dupla voz.

Informações de diferença de

percurso Linearização EDAOR

Nova proposta de

processo BSS

50

Capítulo 8 – Mascaramento em Frequência: A

Separação Inicial de Fontes Usando Informações

de Direção de Chegada em Arranjo de Microfones

Muitos estudos recentes [27][28][29] demonstram a viabilidade da separação de fontes

utilizando informações relativas à diferença de caminho entre os sinais captados por um

conjunto de microfones. Este conceito envolve a noção física do tempo de propagação dos

sinais e pode ser mais bem entendida observando-se a Fig. 34.

Fig. 34 - Explorando o arranjo espacial de um ambiente acústico.

Neste esquema representa a distância entre microfones, representa a velocidade do som

no meio onde os microfones e a fonte sonora estão inseridos e representa o ângulo de

chegada do sinal ao microfone. Se considerarmos a frente de onda plana e representando o

atraso relativo entre o sinal captado pelos microfones, teremos:

(

) (Eq. 8.1)

Todavia, o cálculo de não é tão simples quando desejamos realizar a separação de misturas.

Isto ocorre, pois, se estas fontes estão em posições distintas, a busca dos máximos da

correlação cruzada passa a ser insuficiente para obter , o que deixa a expressão do ângulo de

chegada indeterminada. Ademais, em situações reais, não existe apenas um caminho direto

até os microfones, mas sim diversos caminhos oriundos de reverberações.

51

Por outro lado, o emprego da informação de diferença de percurso entre as observações

(mesmo que as fontes não estejam estáticas) para a separação de fontes é possível, desde que

as fontes sejam conjuntamente esparsas em frequência [24], ou seja, as componentes em

frequência dos sinais envolvidos nas misturas não se sobreponham ou se sobreponham pouco

e raramente em cada intervalo de análise. Esta limitação impõe que quando uma componente

frequencial de um dos sinais presentes na mistura ressoa, esta mesma componente deverá ser

nula (ou muito próxima de nula) nas demais fontes. Felizmente, este é o caso quando tratamos

de sinais de voz, o que nos permite aplicar esta técnica em prol do cancelamento de eco

acústico.

Dada a validade da hipótese de esparsidade entre fontes no domínio da frequência [25],

devemos abordar o problema neste domínio de maneira análoga ao desenvolvimento anterior.

Com o intuito de manter um compromisso ótimo entre resolução em frequência e resolução

temporal, aplica-se a short time Fourier Transform (STFT) nesta conversão. Assim, consegue-se,

por exemplo, rastrear movimentos suaves de uma fonte em relação ao conjunto de

microfones sem, com isto, comprometer as informações frequenciais pertinentes à solução do

problema de recuperação das fontes originais [35].

A STFT é definida por:

( ) ∑ ( ) ( )

(Eq. 8.2)

onde f é uma raia frequencial, L é o número de raias e é o deslocamento em amostras entre

duas janelas sucessivas, que são funções que, em geral, tendem suavemente a zero em suas

extremidades.

Como, não raro no cenário de cancelamento de eco desejamos separar apenas o sinal

realimentado da caixa de som e a voz local, podemos abordar o problema usando apenas duas

misturas (dois microfones) mantendo, portanto, o problema determinado7. A informação de

ângulo de chegada para cada raia da STFT presente em uma janela pode ser obtida por [27]:

( ) ( ( )

( ) ) (Eq. 8.3)

onde representa a STFT da i-ésima mistura, a raia da STFT em observação, m o índice da

janela em análise, c a velocidade de propagação do som e d a distância entre microfones.

Um gráfico típico da distribuição das frequências em relação aos ângulos calculados é exibido

na Fig. 35.

7 A solução superdeterminada (mais de dois microfones) é igualmente conveniente, entretanto, tornaria

o sistema mais custoso e demandaria mais recursos computacionais.

52

Fig. 35 - Dispersão dos ângulos.

Nota-se claramente a concentração de ocorrências em ângulos específicos. Estes pontos estão

relacionados, justamente, aos ângulos das fontes em relação ao conjunto de microfones.

Podemos observar, portanto, que poderíamos analisar em cada ponto do espaço

e separar as fontes segundo a proximidade com estes máximos do histograma.

Entretanto, é mais conveniente computacionalmente utilizar métodos de clusterização como o

K-médias [38] ou o a clusterização fuzzy [41] (em inglês, k-means clustering e fuzzy c-means

clustering, respectivamente). Os centroides obtidos por estes algoritmos corresponderiam aos

máximos do histograma e, uma vez conhecidos, pode-se proceder à separação das raias.

Este mecanismo de separação atua de maneira comparativa. Se uma raia de uma janela está

mais próxima de um centroide, ela é considerada como pertencente à fonte a este associada.

Caso contrário, ela é associada à outra fonte. Mais precisamente, formam-se máscaras binárias

que são aplicadas à STFT de uma das observações (gravação de um microfone). A regra de

formação destas é [28]:

( ) {

( ) ( )

( ) ( )

(Eq. 8.4)

onde, para o caso de dois microfones, e são os dois centróides encontrados e o operador

( ) indica inversão de todos os valores 0 para 1 e vice-versa.

É importante notar que o problema da permutação de estimativas é automaticamente sanado

quando aplicamos estes mascaramentos, afinal, estamos utilizando informações sobre o

posicionamento das fontes para distingui-las. Por outro lado, a técnica descrita gera

53

descontinuidades na representação em frequência dos sinais, gerando artefatos como ruído

musical e distorções não lineares. A mitigação destas adversidades pode ser realizada pela

linearização do método proposto através de técnicas convenientes, como a obtenção da

solução ótima de Wiener [3].

Este recurso - que é um caso especial de aplicação do Steepest Descent - pode ser facilmente

empregado uma vez que temos as misturas originais e estimativas das fontes separadas,

obtidas pelo método anteriormente desenvolvido. Tal emprego torna-se mais claro pela

investigação do caso em que temos duas fontes e duas misturas, onde os coeficientes da

matriz de separação da i-ésima raia espectral são obtidos pelas equações:

* + 6[ ( )

( )] * +

( )7

6[ ( )

( )] , ( )

( ) -7

* +

[

]

(Eq. 8.5)

onde , - representa a operação de média estatística, n representa o n-ésimo quadro, * indica

a operação de conjugação de valores complexos, * + a DFT dos dois sinais de mistura e * +

a DFT dos dois sinais estimados pelo método de separação supracitado. Desta formulação

depreendemos que * + é a matriz conjugada de separação para obtenção de cada

estimativa e que é a matriz combinada para obtenção de todas as estimativas. Pelo uso

deste método obtemos um conjunto de matrizes responsável pela separação de cada

frequência individualmente.

A extensão deste equacionamento para casos em que se têm N sinais misturados e N

observações é trivial. Entretanto, é importante que se observe que a operação tornar-se-á

tão mais custosa computacionalmente quanto maior for N.

54

Capítulo 9 – Otimizando a Separação de Fontes

Através da Exploração de Dependências

Estatísticas de Alta Ordem no Domínio da

Frequência

Uma vez realizada a linearização proposta no capítulo precedente, teremos como resultado

um conjunto de matrizes capazes de separar as frequências das n fontes presentes em n

observações. Esta separação, entretanto, deve ser entendida apenas como uma separação

primária, já que a estimativa dos ângulos de chegada para algumas raias em certos contextos

nem sempre é confiável, já que a detecção de centróides em ambiente reverberante,

principalmente para baixas e altas frequências, nem sempre é trivial. Adicionalmente, a

esparsidade das fontes no domínio da frequência, embora verdadeira de modo geral, não é

suficiente para a separação das fontes com qualidade razoável.

Neste âmbito, carecemos de um método que aperfeiçoe este resultado preliminar. A proposta

deste projeto é a aplicação do artifício de exploração de dependências estatísticas de alta

ordem entre raias espectrais das fontes, conforme recomendado por [32] como extensão do

método ICA no domínio da frequência.

Ao fim do emprego deste procedimento, que modela cada raia das observações como uma

mistura instantânea, obtemos as matrizes que tornam verdadeiro

( ) ∑

( ) ( )

(Eq. 9.1)

onde M é o número de fontes que se deseja separar das observações e ( )

é o K-ésimo

elemento (no domínio da frequência) do filtro de separação que atua sobre a j-ésima mistura,

contribuindo para a i-ésima estimativa. Cabe ressaltarmos que esta modelagem no domínio da

frequência é uma aproximação, e que ela só será válida se o janelamento do sinal for

suficientemente maior que o comprimento do filtro de mistura, de forma que a convolução

circular possa ser interpretada aproximadamente como convolução linear e, portanto,

transforme-se em produto entre raias espectrais no domínio da frequência.

A convergência de ( ) (a matriz formada pelos termos ( )

) para o estado ótimo é

conseguida pela minimização da função custo (Eq. 9.4) oriunda do conceito de Entropia

Relativa (distância ou divergência de Kullback-Leibler), definida como:

( ) ∫ ( ) ( ( )

( )) (Eq. 9.2)

55

Aplicamos, portanto, esta consideração focando na redução da distância relativa entre a

função densidade de probabilidade (PDF) conjunta da estimativa das fontes separadas

( ) e o produtório das PDFs individuais que as descrevem, ∏ ( ) :

( ( ) ∏ ( )

)

(Eq. 9.3)

Fica claro que esta função custo avalia o grau de independência entre as fontes, sendo

quando a densidade de probabilidade conjunta das estimativas das fontes iguala-se ao

produto das densidades marginais, que é exatamente a definição de independência

estatística[22]. Indo mais além no desenvolvimento da função , encontramos, através de

transformação de variáveis [32],

∫ ( ) ( ) ∑ | ( )|

∑∫ ( ) ( )

∑ | ( )|

∑ ( )

(Eq. 9.4)

Neste ponto, é pertinente estabelecermos algumas observações acerca de C e sua

minimização. O termo ∫ ( ) ( ) é a entropia das

observações e, portanto, é uma constante positiva dependente apenas das misturas, tornando

o controle de independente de . O termo ∑ ( ) , por outro lado, mede a

adequação das estimativas das fontes ao modelo supergaussiano (verossimilhança). Assim,

quanto maior o grau de conformidade, menor será , já que este termo tem peso negativo na

função custo.

Todavia, a adequação das estimativas a este modelo permitiria estimativas nulas, afinal, o

modelo supergaussiano é concentrado em torno da origem. Para contornar este problema, o

termo | ( )| atua na função custo da seguinte maneira: quando as estimativas são

nulas, ( ) | ( )| ∑ | ( )| , implicando a

penalização desta possibilidade. O mesmo fenômeno é observado quando algumas das

estimativas das fontes são iguais, pois, neste contexto, ( ) terá linhas linearmente

dependentes, ocasionando ( ) .

Deste modo, esta função custo tem a propriedade de minimizar a dependência entre as

estimativas, contornando soluções nulas e estimativas repetidas. Ademais, escolhendo-se

criteriosamente o processo de atualização via gradiente natural (gradient descent method)

para minimização de C (Eq. 9.5 e Eq. 9.7), consegue-se maximizar a dependência entre raias de

uma mesma estimativa. Destarte, a aplicação do método é suficiente para a separação das

fontes, já minimizando o problema de permutação entre raias, intrínseco à maioria dos

métodos de separação cega de fontes no domínio da frequência.

56

Portanto, conhecendo estas características da função C, cabe apenas proceder à sua

minimização. Esta meta é atingida pelo uso do método de descida do gradiente natural, o qual

pode ser expresso por:

( )

( ) ∑(

( )( ( )( ) ( )

( )) ( ))

( )

(Eq. 9.5)

onde é unitário quando e nulo nos demais casos. A atualização dos termos ( )

segue

a regra

( )

( )

( )

(Eq. 9.6)

com η (geralmente abaixo de 0,1) atuando como controlador da taxa de aprendizado do

algoritmo.

A função multivariável ( )( ( )

( )) utilizada na Eq. 8.5 e responsável por maximizar a

dependência entre raias de uma mesma estimativa é descrita por:

( )(

( ) ( ))

( ( )

( ))

( )

(Eq. 9.7)

de onde é possível notar que quando abandonamos o caráter multidimensional de

( )( ( )

( )) , convertendo-o em uma função de uma única variável ( )( ( )) ,

recaímos no método ICA convencional.

Se admitirmos que as fontes que desejamos separar podem ser individualmente enquadradas

em um modelo multivariável (havendo dependências entre variáveis) supergaussiano, uma

possibilidade de modelagem de ( )( ( )

( )) é [32]:

( )(

( ) ( ))

( )

√∑ | ( )|

(Eq. 9.8)

Neste ponto, ao fim das iterações do algoritmo e da consequente convergência da matriz ( ),

teremos a capacidade de obter separadamente as n fontes misturadas em n observações pela

aplicação da Eq. 9.1 inicialmente proposta. Todavia, se por um lado o desenvolvimento

supracitado sana intrinsecamente o problema da permutação entre frequências, por outro não

foi provido nenhum mecanismo que compense o efeito de escalamento destas. Nesta

conjuntura, pode-se mitigar esta sequela pela aplicação do princípio da distorção mínima [33],

que tem como origem a interpretação de ( ) como uma versão arbitrariamente escalada da

matriz de separação exata por uma matriz diagonal ( ). Isto é,

( ) ( ) ( ) (Eq. 9.9)

57

Assim, é possível obter uma equalização razoável das frequências que comporão as fontes

individuais se aplicarmos a seguinte substituição:

( ) ( ( )) ( ) (Eq. 9.10)

onde o operador ( ) indica a matriz diagonal formada a partir dos elementos da matriz

dada como argumento para a função, ou seja, a própria matriz dada como entrada com todos

os termos fora da diagonal principal anulados.

Portanto, apresentamos um método que não só minimiza o problema da permutação, mas

também o de escalamento. Este mecanismo, em conjunto com a linearização através da

solução ótima de Wiener, que abranda as distorções não lineares causadas pela separação das

fontes por informação de percurso de propagação, será responsável por elevar a qualidade da

separação das fontes. A relevância desta melhoria será abordada no capítulo seguinte, em que

discutiremos os resultados obtidos por cada etapa do processamento descrito na Parte II.

58

Capítulo 10 – Resultados do Mecanismo de

Separação Cega de Fontes

Testes objetivos A métrica padrão para avaliação de desempenho de sistemas de separação cega de fontes é a

razão sinal - interferência (signal to interference ratio (SIR)). Portanto, com o intuito de

possibilitar a verificação da melhoria de desempenho trazida por cada passo descrito ao longo

dos Capítulos 8 e 9, apresentaremos tanto a SIR final do processo de separação de fontes

como os resultados intermediários. Exibiremos, também, a análise espectral e de forma de

onda de alguns resultados.

Fig. 36 - Ambiente de testes montado no PADS.

A Fig. 36 apresenta o espaço de testes que foi montado no PADS. Este ambiente contava com

dois microfones idênticos, distanciados de 5 cm e posicionados na base de uma mesa circular

de 1,2 m de raio. Na outra extremidade foram posicionadas pessoas em pares lendo

simultaneamente monólogos distintos, gerando as misturas gravadas pelos microfones. Assim,

com o intuito de investigarmos se a informação de direção de chegada das fontes seria

suficiente para desambiguar a permutação após a separação, escolhemos aleatoriamente a

posição da primeira pessoa em , ou (em relação ao centro da mesa) e a posição

da segunda pessoa em , ou . Em todos os testes a primeira voz é feminina e a

segunda é masculina.

59

Desta forma, configuramos quatro cenários que foram empregados em oito testes visando a

mensurar o impacto do ruído de fundo, do tipo de janelamento (Hanning ou retangular), da

aplicação do princípio da distorção mínima e da quantidade de raias espectrais analisadas

sobre a SIR. Ao todo, foram realizadas mais de 600 separações, cujos dados cumpre analisar.

Apresentaremos os resultados e conclusões mais significativos ao longo do texto, deixando as

demais informações para consulta no Apêndice A.

A Tab. 3 apresenta os melhores resultados que obtivemos. Os parâmetros de teste aplicados

foram: PADS silencioso (gravações feitas durante a noite, desligando-se todos os

equipamentos do laboratório), emprego da janela de Hanning (conforme definição da Eq. 7.2)

e utilização do princípio da distorção mínima ao fim do processo. A intenção dos testes que,

assim como este, foram feitos em ambiente silenciso é avaliarmos o desempenho do sistema

proposto em uma situação próxima da ideal, analogamente ao que se tem em salas de

videoconferência dedicadas.

Já a Tab. 4 apresenta os melhores resultados obtidos em testes de robustez do sistema ao

ruído, ou seja, com sinais gravados em horário de plena produção do laboratório. Desta forma,

todas as amostras gravadas foram severamente comprometidas por ruídos: barulho de

digitação e pessoas caminhando sobre o piso de madeira, conversa de fundo ocorrendo em

paralelo ao teste, ruído do ar-condicionado e de um estabilizador de tensão de grande porte,

vozerio proveniente do corredor diante do laboratório, dentre outros. Os demais parâmetros

de teste aplicados foram: emprego da janela de Hanning e não utilização do princípio da

distorção mínima.

Nas colunas da Tab. 3 e da Tab. 4 podemos observar os quatro cenários de testes, dispostos de

modo a facilitar o entendimento da influência do distanciamento das fontes sobre os

resultados. Para tal, investigamos a SIR de cada fonte obtida após o processo de separação

pelo mascaramento binário das frequências segundo informação de ângulo de chegada

(coluna M) e após a otimização via EDAOR (coluna O). Ademais, estudamos a influência do

parâmetro K (o número de frequências analisadas) sobre a SIR.

O progressivo incremento da SIR da esquerda para a direita da Tab. 3 e da Tab. 4 deixa

evidente que quando maior é a distância entre as fontes, melhores são os resultados do

método proposto. Adicionalmente, pode-se observar que a ação da EDAOR incrementa o

resultado, excetuando-se quando as fontes estão muito próximas ou quando K escolhido

distancia-se do K ótimo.

60

Tab. 3 – Avaliação em ambiente silencioso / Janela de Hanning / Com princípio da distorção mínima.

Tab. 4 - Avaliação em ambiente ruidoso / Janela de Hanning / Sem princípio da distorção mínima.

61

Tab. 5 - Avaliação em ambiente ruidoso / Janela de Hanning / Com princípio da distorção mínima

62

A interpretação destes dois resultados é intuitiva. Não causa espanto que quando as fontes

estejam muito próximas os resultados sejam piores, afinal, a separação por informação de

ângulo de chegada tenderá a apresentar mais erros, pois este dado se torna ambíguo. Com

uma inicialização menos precisa, a EDAOR terá mais chances de convergir para mínimos locais

que não resolverão o problema de separação de fonte com qualidade máxima. Quanto ao

valor de K, é dado empírico que sua escolha ótima deve ser de 4 a 8 vezes a ordem dos filtros

de mistura. Quando superdimensionamos K o número de parâmetros a serem estimados

aumenta e, por falta de estatísticas mais robustas (dado que a duração dos sinais de teste é

limitada), esta avaliação acaba sendo comprometida8. Além disto, como temos mais graus de

liberdade, o sistema tende a apresentar mais distorção. Por outro lado, quando subestimamos

o valor de K, trabalhamos com poucas estatísticas, dificultando a obtenção do resultado ótimo.

Nossos testes permitiram determinar (K ótimo). Este resultado está em

conformidade com a regra empírica supracitada, desde que admitamos que a ordem

estabelecida para o filtro adaptativo na Parte II deste projeto é ótima, conforme indicaram

nossas avaliações. Em outras palavras, dado que a função da filtragem adaptativa naquele

contexto era determinar o sistema que mimetizaria a resposta acústica do nosso ambiente de

testes, pode-se dizer que a ordem desta é aproximadamente igual à ordem do filtro adaptativo

quando este está otimizado e, portanto, seria oito vezes superior à ordem do NLMS

( , determinado empiricamente).

É importante frisarmos que as constatações anteriores sobre a separação angular entre as

fontes e o desempenho do sistema não são um demérito. Dado que a mesa utilizada nos teste

tinha diâmetro de 1,2 m, o pior caso de avaliação, com e

representaria o

usuário do sistema e o alto-falante acomodados praticamente “lado a lado”, uma situação

muito rara no emprego de sistemas de videofone. Por outro lado, separações maiores entre

ambos são mais comuns e podem ser ajustadas criteriosamente para prover melhor

desempenho. O interesse nos testes com proximidade maior entre as fontes reside em

podermos avaliar o desempenho do método de separação cega de fontes que propusemos em

contextos mais gerais do que apenas em cancelamento de eco acústico.

Quanto à diferença entre os resultados da Tab. 3 e da Tab. 4 fica evidente que o ruído pode

comprometer o desempenho do sistema. Entretanto, a variação dos resultados entre estes

dois testes nos permite afirmar que o método proposto apresentou robustez ao ruído, dado

que, mesmo em condições distantes da ideal, as medidas da SIR foram compatíveis ou

superiores às de diversos métodos de separação cega de fontes empregados atualmente

[26][27][30][32].

Atribuímos esta diferença de desempenho ao fato de as frequências componentes do ruído

comprometerem tanto a identificação dos ângulos de chegada e a separação preliminar

quanto a convergência da EDAOR. Para evidenciarmos o papel prejudicial destas componentes,

apresentamos na Tab. 5 os mesmos testes da Tab. 4, entretanto aplicando-se o princípio da

distorção mínima. É imediata a percepção de que as componentes frequências do ruído atuam

distanciando o algoritmo do ponto ótimo de operação, o que ganha ainda mais importância

8 Este foi o resultado observado para . Por isto, resultados para K maiores que este valor

foram omitidos das tabelas.

63

após a aplicação do princípio. Deste modo, chegamos à importante conclusão de que a

aplicação desta técnica de pós-processamento só gera melhores SIRs em ambientes pouco

ruidosos.

A análise dos demais testes (disponíveis no Apêndice A) nos permite complementar nossas

avaliações com mais algumas constatações pertinentes:

1. O mecanismo de separação de fontes através de mascaramento binário de raias da

STFT tem seu desempenho relativamente independente de K, o número de raias

analisadas. Por outro lado, a etapa que emprega a EDAOR é consideravelmente

dependente deste parâmetro. Portanto, a aplicação da etapa de processamento

via EDAOR pode não ser indicada para ambientes cuja reverberação é

acentuadamente variável, o que não é comum no cenário de videoconferências

mas pode ocorrer em outros contextos de separação cega de fontes.

Esta maior independência de K observada para o método de mascaramento

binário quando comparado à EDAOR é justificada pelo fato de o segundo algoritmo

trabalhar com estatísticas de alta ordem, dependendo de um espaço amostral

adequado, enquanto o primeiro necessita apenas de um número de amostras

suficiente para a identificação de clusters (centroides). Como a identificação dos

centróides é um processo que não demanda grande quantidade de dados quando

existe a formação evidente de agrupamentos de dados, sendo este o caso para a

maioria das frequências, conforme visto na Fig. 35, o método de mascaramento

binário torna-se mais independente de K.

2. A aplicação da EDAOR sobre o resultado da linearização do mascaramento de

frequências nem sempre implica ganho da SIR, o que também está atrelado ao

fator K. De fato, quando a escolha de K é incorreta, podemos, até mesmo, reduzir a

SIR inicialmente obtida, conforme justificado anteriormente.

3. Em geral, quanto mais distantes estão as fontes, melhores os resultados.

4. Para valores subdimensionados de K e sem a aplicação do princípio da distorção

mínima, o uso de janela retangular permite melhores estimativas das fontes. Por

outro lado, se neste contexto mantivermos o uso deste último passo de

processamento, a janela de Hanning permite uma SIR maior.

5. A avaliação da métrica objetiva (SIR) foi sempre melhor em contextos livres de

ruído, independentemente dos demais parâmetros de teste. Entretanto, não

podemos dizer que o sistema não apresentou robustez ao ruído, já que a SIR não

sofreu alterações de grande relevância entre testes com e sem ruído.

64

É importante destacarmos que grande parte das avaliações de técnicas de BSS é feita em

condições mais controladas do que as que aplicamos. Habitualmente, gravam-se as fontes em

ambientes anecóicos livres de ruído e realiza-se a mistura convolutiva dos sinais de maneira

simulada [30][32]. Os resultados obtidos para esta classe de testes9 podem ser observados na

Tab. 6 – destaca-se que foram usados filtros aleatórios de ordem 8 para simular a resposta

acústica do ambiente de mistura e, assim, o K ótimo era conhecido e pode ser utilizado, já que

a aplicação da regra ( ), onde é a ordem do filtro de mistura,

gerando é trivial.

9 Como não tivemos acesso a um ambiente anecóico para gerar nossos próprios sinais, utilizamos

gravações disponíveis em http://sassec.gforge.inria.fr

65

Tab. 6 – Comparativo da SIR entre o uso da técnica de mascaramento binário (M) e após aplicação da otimização proposta (O) para misturas simuladas.

Tab. 7 - Comparativo de número de iterações e SIR entre a nova proposta e a técnica clássica de separação de fontes.

66

Para que a avaliação destes resultados possa ser mais completa, apresentamos na Fig. 37 a

forma de onda e análise espectral do melhor resultado da Tab. 3 (Cenário 3, ). Na

Fig. 38 apresentamos a mesma análise para o melhor resultado da Tab. 4 (Cenário 4,

) e na Fig. 39 a apresentamos para o melhor resultado da Tab. 5 (Cenário 3,

).

Conforme podemos constatar da análise de forma de onda, existe grande semelhança entre as

fontes estimadas (coluna da direita) e as fontes idealmente separadas (coluna central) obtidas

das misturas (coluna esquerda). Merece destaque, também, o resultado da análise espectral,

de onde depreendemos que a permutação de frequências foi evitada e que o escalamento

arbitrário foi realmente mitigado nos casos em que se aplicou o princípio da distorção mínima

(Fig. 37 e Fig. 39).

Fig. 37 - Análise de forma de onda e espectro para os resultados da Tab. 3

67

Fig. 38 - Análise de forma de onda e espectro para os resultados da Tab. 4

Comparando a Fig. 38, em que não se aplicou o princípio da distorção mínima, aos dois outros

casos, notamos claramente que, embora ainda seja possível identificar as características

espectrais dominantes do sinal, as frequências altas e médias foram bastante acentuadas e as

frequências baixas foram atenuadas em relação à separação ideal. Em contrapartida, nos casos

em que se aplica o princípio da distorção mínima, o relacionamento entre a separação

almejada e a obtida é muito mais evidente, havendo maior clareza das nuances espectrais.

68

Fig. 39 - Análise de forma de onda e espectro para os resultado da Tab. 5

A fim de investigarmos se o método proposto oferece vantagens quando confrontado com a

proposta clássica de branqueamento dos sinais previamente à aplicação do EDOAR,

executamos os mesmos testes apresentados na Tab. 3, Tab. 4 e Tab. 5 utilizando este outro

fluxo, que é adotado como referência para muitos métodos de separação cega de fontes. Os

resultados obtidos são apresentados na Tab. 8, Tab. 9 e Tab. 10.

Ao compararmos estas três tabelas com aquelas apresentadas previamente, é imediato

perceber que ambas as técnicas apresentam desempenho quase idêntico quando o ambiente

de testes é livre de ruído, havendo ligeira vantagem para o método clássico no cenário 2.

Entretanto, quando imerso em ruído, o desempenho da nova proposta é muito superior,

independentemente da aplicação ou não do princípio da distorção mínima.

69

Tab. 8- Técnica clássica: Avaliação em ambiente silencioso / Janela de Hanning / Com princípio da distorção mínima

Tab. 9 - Técnica clássica: Avaliação em ambiente ruidoso / Janela de Hanning / Sem princípio da distorção mínima – O símbolo indica que o método não convergiu

70

Tab. 10 - Técnica clássica: Avaliação em ambiente ruidoso / Janela de Hanning / Sem princípio da distorção mínima

71

A provável causa da superioridade do método proposto em ambiente ruidoso é o tipo de ruído

que prejudicava os sinais e a inicialização do algoritmo, ou seja, a prática de clusterização para

posterior mascaramento binário. Como o ruído em questão é constante e proveniente de

diversas fontes, não há padrão de direção de chegada, já que ele constitui um campo

reverberante no ambiente de testes. Desta forma, quando realizamos a clusterização e o

mascaramento binário para a inicialização do processo de separação de fontes, o ruído acaba

tornando-se irrelevante. Por outro lado, quando utilizamos a técnica de branqueamento, como

buscamos apenas as direções ortogonais de projeção que maximizam a variância das fontes, o

ruído atua fazendo com que estas direções sejam mal estimadas, já que sua própria variância

terá peso na avaliação destas direções.

Por fim, avaliamos a eficiência do método que propusemos quando comparado à técnica

clássica. Para tal, utilizamos os mesmos sinais de testes da Tab. 3 (já que nestes contextos as

SIRs de ambos os métodos foram muito próximas) como excitação para ambos os algoritmos.

A métrica de eficiência usada é o número de iterações necessárias para que a EDAOR (parte

idêntica e último passo das duas técnicas) atinja a convergência das matrizes de separação,

sendo esta comparação apresentada na Tab. 7, na qual realizamos os testes apenas para K =

2048, uma vez que já depreendemos dos testes anteriores que este é o valor que permite que

a EDAOR alcance melhor resultado para as misturas de que dispomos.

Novamente, a superioridade da nova proposta é evidente. Mesmo no cenário em que a

inicialização por branqueamento foi mais eficiente, o método proposto foi cerca de três vezes

mais rápido (140 iterações para o novo método contra 450 para a técnica que emprega

branqueamento). Além disto, o número máximo de iterações de ambos os algoritmos foi

restrito a 3000, e na maioria dos casos o método clássico de emprego da EDAOR nem sequer

convergiu antes de este limite ser atingido.

Adicionalmente, destaca-se que o método clássico é extremamente dependente de η, o

controle de taxa de aprendizagem (vide Eq. 8.6). Enquanto para os testes do novo método

pudemos fixar (fator de aprendizagem considerado muito elevado) sem causar

divergência dos coeficientes das matrizes de separação, para o método clássico foi preciso

estabelecer o η máximo que não causaria divergência para cada teste separadamente.

Todavia, ainda houve casos em que o método clássico não convergiu, mesmo após diversas

tentativas (indicados pelo símbolo na Tab. 9), sendo a dificuldade de determinação de

muito maior nos casos em que o teste foi executado em ambiente ruidoso. Por outro lado, a

nova técnica proposta não divergiu em nenhuma ocasião, o que é, certamente, insuficiente

para se afirmar que o método desenvolvido neste projeto está isento deste problema, mas é

suficiente para afirmarmos que esta questão tornou-se muito menos crítica.

72

Testes subjetivos Com o intuito de verificarmos se as constatações feitas através de avaliação objetiva do

sistema de separação cega de fontes seriam confirmadas por seus usuários, submetemos tanto

a nova proposta quanto apenas a técnica de mascaramento binário de frequências e o

mecanismo clássico com inicialização por branqueamento a testes subjetivos de qualidade.

Cada avaliador deu seu parecer em uma escala de 1 (muito perturbador) a 5 (imperceptível)

sobre quatro quesitos: interferência entre os sinais após a separação (grau de separação), o

quão perturbador é o ruído acrescentado pelo processo de separação das fontes, o quão

perturbador é a distorção acrescentada pelo algoritmo de separação e o valor global do

sistema10. Ao todo, cada avaliador opinou sobre 18 resultados, sendo os testes conduzidos de

modo que houvesse intercalamento entre sinais tratados por cada um dos três processos.

A Tab. 11, a Tab. 12 e a Tab. 13 apresentam a média e o desvio padrão das avaliações feitas

por 20 pessoas para o processo utilizando a técnica de branqueamento, a técnica de

mascaramento binário e a técnica de mascaramento binário seguida de otimização via EDAOR,

respectivamente. Os testes são os mesmos apresentados nas Tab. 3 a Tab. 5 e nas Tab. 8 a Tab.

10, sendo os cenários (ângulos entre as fontes) também idênticos. Com o intuito de facilitar a

visualização dos resultados, a Fig. 40 apresenta os resultados dos seguintes testes extraídos

destas tabelas em um formato de mais fácil leitura, onde apresentamos a média das SIRs para

as duas estimativas (média de todos os avaliadores):

A. Ambiente silencioso, emprego da janela de Hanning, emprego do princípio da

distorção mínima, cenário 3, ;

B. Ambiente ruidoso, emprego da janela de Hanning, sem emprego do princípio da


C. Ambiente ruidoso, emprego da janela de Hanning, emprego do princípio da distorção

mínima, cenário 3, ;

D. Ambiente ruidoso, emprego da janela de Hanning, sem emprego do princípio da


E. Ambiente ruidoso, emprego da janela de Hanning, emprego do princípio da distorção

mínima, cenário 2, ;

F. Ambiente ruidoso, emprego da janela de Hanning, emprego do princípio da distorção

mínima, cenário 4, .

Estes resultados corroboram aqueles obtidos por avaliação objetiva na maioria dos casos. De

fato, os avaliadores julgaram (em média) que o desempenho do sistema proposto neste

projeto equipara-se ao da técnica com inicialização por branqueamento em ambientes

silenciosos. Ademais, também julgaram que a nova técnica é superior em ambientes ruidosos,

seja ou não empregado o princípio da distorção mínima (embora sempre tenha havido

preferência – em todos os critérios – pelas soluções que empregaram o princípio, contrariando

os resultados objetivos, sendo esta observação justificada pelo fato de o cálculo da SIR ser

robusto ao escalamento das frequências componentes do sinal, mas a audição humana ser

bastante sensível a ele, principalmente quando há ganho nas componentes de alta

frequência).

10 O Apêndice B apresenta a formalização dos testes.

73

Também merece destaque a confirmação da hipótese de que a linearização do método de

mascaramento binário seguido de otimização pela EDAOR atenua a distorção introduzida pela

não linearidade do mascaramento. De fato, todos os quesitos receberam notas maiores após a

aplicação da exploração de dependências estatísticas de alta ordem entre raias espectrais.

Além destas observações, cabe notar que quanto maior é a separação física das fontes, em

geral, melhores são as avaliações subjetivas (em todos os critérios). Este também era um

resultado esperado dos estudos da SIR.

Finalmente, concluímos a análise dos resultados subjetivos constatando que tanto estes

quanto os objetivos apresentam comportamento semelhante. Entretanto, nenhum deles deve

ser dispensado, afinal, para alguns casos em que se tem SIR considerada insuficiente, como no

caso da avaliação em ambiente ruidoso utilizando-se o princípio da distorção mínima no

cenário 1, tem-se resultados subjetivos em torno de 3,0, um resultado considerado razoável.

74

Interferência

Distorção

Ruído

Nota geral

Fig. 40 - Resultados subjetivos em formato simplificado.

75

Tab. 11 - Testes subjetivos para a técnica de branqueamento

76

Tab. 12 - Testes subjetivos para a técnica de mascaramento binário de frequências

77

Tab. 13 - Testes subjetivos para o novo método de separação cega de fontes

78

Capítulo 11 – Conclusões e trabalhos futuros

Este projeto demonstrou que a solução do problema de cancelamento de eco acústico

causado pelo acoplamento entre alto-falante e microfones de um sistema viva-voz é viável

através da aplicação de filtragem adaptativa no domínio do tempo. Ademais, foram

apresentados mecanismos de controle que impedem que os coeficientes do filtro divirjam: o

double talk detector e os voice activity detectors. Destes, analisamos o desempenho de três

algoritmos, sendo aquele que aplica modelos estatísticos o mais robusto.

Adicionalmente, identificamos que a aplicação típica do double talk detector como apenas uma

chave para impedir a alteração dos coeficientes adaptativos de filtragem é um ponto fraco dos

sistemas de cancelamento de eco acústico que têm esta arquitetura. Esta fraqueza acontece,

pois, se o período de dupla voz se estender e ao longo deste período houver mudança do

ambiente acústico, a anulação do eco será feita por um filtro cujos coeficientes estão

desatualizados, o que pode permitir que ele volte a ganhar energia. Deste modo, propusemos

que nestes momentos houvesse uma comutação da filtragem adaptativa para um sistema de

separação cega de fontes, embora não tenhamos implementado esta alternância entre os

sistemas.

Neste âmbito, não sugerimos apenas o uso de arquiteturas já conhecidas, mas sim um novo

paradigma: um mecanismo genérico de separação de fontes, que permite a solução do

problema de permutação desde que se conheça o arranjo espacial das fontes e que contorna a

permutação de fontes nas diferentes frequências através do uso de estatísticas de alta ordem.

Conforme apresentado no Capítulo 10, a nova proposta apresentou resultados compatíveis e

em alguns casos superiores a muitos métodos de separação cega de fontes que estão em voga

[26][27][30][32]. Além destas vantagens, cabe destacarmos que nossa proposta foi testada em

condições semelhantes à da maioria destas referências e, também, em situações hostis, como

em ambientes ruidosos e que, em todos os casos, escolhendo-se adequadamente os

parâmetros, a SIR obtida foi equivalente ou superior. Ademais, o método proposto apresentou

convergência mais rápida do que a técnica clássica de separação de fontes iniciada por

branqueamento e robustez maior no que se refere à convergência do método, mesmo

aplicando-se taxa de aprendizagem considerada muito elevada ( )

Tão importante quanto os resultados que obtivemos é o fato de o novo mecanismo de

separação cega de fontes apresentar convergência mais rápida do que as técnicas usuais que

empregam o branqueamento como pré-processamento. Assim, apresentamos um mecanismo

mais eficaz e eficiente. Adicionalmente, ao contrário de outros métodos de separação de

fontes, através da etapa inicial de detecção de ângulos de chegada por janela, podemos, com

pequenas alterações do algoritmo, rastrear o movimento das fontes, adicionando ainda mais

robustez ao mecanismo desambiguador de permutação.

Além de positivas métricas objetivas, obtivemos avaliações subjetivas igualmente favoráveis.

Em quase todos os testes o sistema proposto neste trabalho foi considerado equivalente ou

79

superior à técnica tipicamente empregada. Ademais, comprovamos que existe um elevado

grau de semelhança entre as avaliações subjetivas e objetivas, mas que nenhuma delas é

dispensável para a avaliação adequada de um processo de separação de fontes.

Finalmente, os resultados apresentados pelo novo algoritmo de BSS estimulam seu estudo

como um componente independente. Trabalhos futuros poderão desacoplá-lo do sistema de

cancelamento de eco acústico para o melhor estudo de algumas questões pertinentes às

técnicas de separação cega de fontes, como:

Estudar o quanto a duração dos sinais a serem separados pode influenciar o

desempenho do sistema;

Desenvolver um mecanismo que determine o (a quantidade de frequências

analisadas) ótimo para a separação das fontes;

Acrescentar um detector de convergência para interromper a EDAOR, evitando uso

excessivo de tempo de processamento [37].

No que tange à técnica adaptativa de cancelamento de eco acústico, podemos comparar

outras técnicas com a que aplicamos. Dentre elas, temos:

Comparar o desempenho de outras variantes do LMS como bloco central do sistema;

Aplicar a filtragem adaptativa em sub-bandas;

Utilizar mecanismos no domínio da frequência, como subtração espectral;

Aplicar técnicas multicanais, como o beamforming.

Destacamos, adicionalmente, que o sucesso do sistema apresentado nos estimula a

reestruturá-lo em uma arquitetura adequada ao funcionamento em tempo real. Embora o

sistema tenha apresentado resultados ótimos em fase de prototipação programado na

linguagem M (Matlab), esta se mostrou incapaz de gerir o fluxo de processamento demandado

em tempo real. Desta forma, o novo horizonte deste projeto é a investigação dos pontos

anteriormente levantados e, após a determinação da melhor combinação de resultados,

recodificá-lo na linguagem C++, conhecida por sua eficiência e capacidade muito superior a do

Matlab para o processamento intensivo em tempo real11.

11 O confronto entre as duas linguagens não se restringe apenas à capacidade de processamento. Cabe destacarmos que o Matlab é uma plataforma paga, ao passo que C++ é uma plataforma livre e que, portanto, a redistribuição das soluções que desenvolvemos simplifica-se se empregarmos C++. Além disto, existe uma grande pluralidade de bibliotecas que realizam as mesmas funções em C++, ou seja, podemos escolher aquela que é mais conveniente, ao passo que, ao usarmos Matlab, muitas vezes precisamos nos adaptar às funções disponíveis nativamente na ferramenta, sem podermos modificá-las livremente.

80

Bibliografia

[1] Hänsler, E.; Schmidt, G., "Acoustic Echo and Noise Control – Where Did We Come From

and Where Are We Going?", Topics in Acoustic Echo and Noise Control, Signals and

Communications, Springer, pp. 3-16, New York, USA, 2006.

[2] Hänsler, E.; Schmidt, G., "Single-Channel Acoustic Echo Cancellation", Adaptive Signal

Processing, Benesty, J., Huang, Y. Eds., Springer, pp. 59-93, New York, USA, 2003.

[3] Haykin, S., "Adaptive Filter Theory", Prentice Hall, 4th Ed., New York, USA, 2001.

[4] Nagumo, J.; Noda, A., "A learning method for system identification", Automatic Control,

IEEE Transactions on, vol.12, no.3, pp. 282- 287, Jun 1967.

[5] Lima, M., "Análise do Algoritmo Set-Membership Affine Projection", Dissertação de

Mestrado do Programa de Engenharia Elétrica, Universidade Federal do Rio de Janeiro,

Rio de Janeiro, Brasil, Sep 2009.

[6] Spriet, A.; Eneman, K.; Moonen, M.; Wouters, J., "Objective Measures for Real-Time

Evaluation of Adaptive Feedback Cancellation Algorithms in Hearing Aids", Proceedings.

EUSIPCO 08. 16th European Signal Processing Conference, Lausanne, Switzerland, Aug,

2008.

[7] Dahl, M.; Claesson, I., "Acoustic noise and echo cancelling with microphone array",

Vehicular Technology, IEEE Transactions on , vol.48, no.5, pp.1518-1526, Sep 1999.

[8] Asharif, M.R.; Hayashi, T.; Yamashita, K., "Correlation LMS algorithm and its application to

double-talk echo cancelling", Electronics Letters, vol.35, no.3, pp.194-195, Feb 1999.

[9] Pollák, P.; Sovka, P.; Uhlír, J., "Noise Suppression System for a Car", Nonlinear Signal and

Image Processing, Proceedings. IEEE Workshop on, pp. 297-315, Halkidiki, Greece, Jun

1995.

[10] Venkatesha Prasad, R.; Sangwan, A.; Jamadagni, H.S.; Chiranth, M.C.; Sah, R.; Gaurav, V.,

"Comparison of voice activity detection algorithms for VoIP", Computers and

Communications, 2002. Proceedings. ISCC 2002. Seventh International Symposium on, pp.

530- 535, Taormina, Italy, Jul, 2002.

[11] Jongseo Sohn; Wonyong Sung, "A voice activity detector employing soft decision based

noise spectrum adaptation", Acoustics, Speech and Signal Processing, 1998. Proceedings

of the 1998 IEEE International Conference on, vol.1, no., pp.365-368 vol.1, Seattle, USA,

12-15 May 1998.

81

[12] Jongseo Sohn; Nam Soo Kim; Wonyong Sung, "A statistical model-based voice activity

detection", Signal Processing Letters, IEEE, vol.6, no.1, pp.1-3, Jan 1999.

[13] Yong Duk Cho; Kondoz, A., "Analysis and improvement of a statistical model-based voice

activity detector", Signal Processing Letters, IEEE, vol.8, no.10, pp.276-278, Oct 2001.

[14] Ephraim, Y.; Malah, D., "Speech enhancement using a minimum-mean square error short-

time spectral amplitude estimator", Acoustics, Speech and Signal Processing, IEEE

Transactions on , vol.32, no.6, pp. 1109- 1121, Dec 1984.

[15] Ing Yann Soon; Soo Ngee Koh; Chai Kiat Yeo, "Improved noise suppression filter using self-

adaptive estimator of probability of speech absence", Signal Processing, vol. 75, no.2, pp.

151-159, Jun 1999.

[16] Pearlman, W.; Gray, R., "Source coding of the discrete Fourier transform", Information

Theory, IEEE Transactions on, vol.24, no.6, pp. 683- 692, Nov 1978.

[17] Hallack, F.S.; Petraglia, M.R., "Performance comparison of adaptive algorithms applied to

acoustic echo cancelling", Industrial Electronics, 2003. ISIE '03. 2003 IEEE International

Symposium on, vol.2, no., pp. 1147- 1150 vol. 2, Rio de Janeiro, Brasil, Juiz de Fora, Brazil,

9-11 Jun 2003.

[18] Seon Joon Park; Chom Gun Cho; Chungyong Lee; Dae Hee Youn, "Integrated echo and

noise canceler for hands-free applications", Circuits and Systems II: Analog and Digital

Signal Processing, IEEE Transactions on, vol.49, no.3, pp.188-195, Mar 2002.

[19] Seon Joon Park; Chum Gun Cho; Chungyong Lee; Dae Hee Youn, "On integrating acoustic

echo and noise cancellation systems for hands-free telephony", Acoustics, Speech, and

Signal Processing, 2001. Proceedings. (ICASSP '01). 2001 IEEE International Conference on,

vol.2, no., pp.961-964 vol.2, Salt Lake City, USA, May, 2001.

[20] Seon Joon Park; Chom Gun Cho; Chungyong Lee; Dae Hee Youn, "Integrated echo and

noise canceler for hands-free applications", Circuits and Systems II: Analog and Digital

Signal Processing, IEEE Transactions on , vol.49, no.3, pp.188-195, Mar 2002.

[21] Hyvärinen, A.; Karhunen, J.; Oja, E., "Independent Component Analysis", John Wiley &

Sons, New York, USA, 2001.

[22] Peebles Jr, P., "Probability Random Variables and Random Signal Principles", McGraw-Hill

Higher Education, 4 Ed., New York, USA, 2001.

[23] Cardoso, J.-F., "Blind signal separation: statistical principles", Proceedings of the IEEE,

vol.86, no.10, pp.2009-2025, Oct 1998.

82

[24] Petraglia, M.; Batalheiro, P.; Haddad, D., "Métodos de Separação Cega de Fontes", XVII

Congresso de Automática, Tutoriais do, pp. 133-157, Set 2008.

[25] Yilmaz, O.; Rickard, S., "Blind separation of speech mixtures via time-frequency masking",

Signal Processing, IEEE Transactions on, vol.52, no.7, pp. 1830- 1847, Jul 2004.

[26] Makino, S.; Sawada, H.; Mukai, R.; Araki, S., "Blind Source Separation of Convolutive

Mixtures of Audio Signals in Frequency Domain", Topics in Acoustic Echo and Noise

Control, Signals and Communication Technology, Springer, pp. 51-89, New York, USA,

2006.

[27] Araki, S.; Makino, S.; Blin, A.; Mukai, R.; Sawada, H., "Underdetermined blind separation

for speech in real environments with sparseness and ICA", Acoustics, Speech, and Signal

Processing, 2004. Proceedings. (ICASSP '04). IEEE International Conference on, vol.3, no.,

pp. iii- 881-4 vol.3, Montréal, Canada, 17-21 May 2004.

[28] Yashita, M.; Hamada, N., "Time-Frequency Masking Method Using Wavelet Transform for

BSS Problem", TENCON 2006. 2006 IEEE Region 10 Conference, vol., no., pp.1-4, Seville,

Spain, 14-17 Nov 2006.

[29] Araki, S.; Sawada, H.; Mukai, R.; Makino, S., "Underdetermined sparse source separation

of convolutive mixtures with observation vector clustering", Circuits and Systems, 2006.

ISCAS 2006. Proceedings. 2006 IEEE International Symposium on, pp.4, Singapore,

Malaysia, Dec 2006

[30] Sawada, H.; Araki, S.; Mukai, R.; Makino, S., "Blind extraction of a dominant source from

mixtures of many sources using ICA and time-frequency masking", Circuits and Systems,

2005. ISCAS 2005. IEEE International Symposium on, vol., no., pp. 5882- 5885 Vol. 6, Kobe,

Japan, 23-26 May 2005.

[31] Haddad, D.; Petraglia, M.; Batalheiro, P., "Direção de Chegada e Filtragem Adaptativa

Supervisionada Aplicada à Separação cega de Fontes", In: CBA 2010, 2010, Bonito. XVIII

Congresso Brasileiro de Automática, pp. 1-6, Brazil, 2010.

[32] Taesu Kim; Attias, H.T.; Soo-Young Lee; Te-Won Lee, "Blind Source Separation Exploiting

Higher-Order Frequency Dependencies", Audio, Speech, and Language Processing, IEEE

Transactions on , vol.15, no.1, pp.70-79, Jan 2007.

[33] Matsuoka, K., "Minimal distortion principle for blind source separation," SICE 2002.

Proceedings of the 41st SICE Annual Conference, vol.4, pp. 2138- 2143, Osaka, Japan, 5-7

Aug. 2002.

[34] Sawada, H.; Mukai, R.; Araki, S.; Makino, S., "A robust and precise method for solving the

permutation problem of frequency-domain blind source separation", Speech and Audio

Processing, IEEE Transactions on, vol.12, no.5, pp. 530- 538, Sep 2004.

83

[35] Balan, R.; Rosca, J.; Rickard, S.; Ruanaidh, J., "The Influence of Windowing on Time Delay

Estimates", Conference on Information Science Systems, Proceedings of, vol. 1, Princeton,

USA, Mar 2000.

[36] Vincent, E.; Gribonval, R.; Fevotte, C., "Performance measurement in blind audio source

separation", Audio, Speech, and Language Processing, IEEE Transactions on, vol.14, no.4,

pp.1462-1469, Jul 2006.

[37] Laporte, L., "Algoritmos de Separação Cega de Áudio no Domínio da Frequência em

Ambientes Reverberantes: Estudo e Comparações", Dissertação de Mestrado do

Programa de Engenharia Elétrica, Universidade Federal do Rio de Janeiro, Rio de Janeiro,

Brasil, Out. 2010.

[38] MacQueen, J., "Some Methods for Classification and Analysis of Multivariate

Observations", Mathematical Statistics and Probability, Fifth Berkeley Symposium,

Proceedings of, vol. 1, Berkeley, USA, Jun 1965.

[39] Juanying Xie; Shuai Jiang, "A Simple and Fast Algorithm for Global K-means Clustering",

Education Technology and Computer Science (ETCS), 2010 Second International

Workshop on , vol.2, no., pp.36-40, Wuhan, China, Mar 2010.

[40] Dunn, J. C.. "A Fuzzy Relative of the ISODATA Process and Its Use in Detecting Compact

Well-Separated Clusters" Journal of Cybernetics 3.3 (1973). 15 Nov. 2010.

[41] Hadjahmadi, A.H.; Homayounpour, M.M.; Ahadi, S.M., "Robust weighted fuzzy c-means

clustering", Fuzzy Systems, 2008. FUZZ-IEEE 2008. (IEEE World Congress on Computational

Intelligence). IEEE International Conference on, vol., no., pp.305-311, Honk-Kong, China,

1-6aJuna2008.

84

Apêndice A

Tabelas de SIR resultantes do processo de separação cega de fontes

Tab. 14 - Avaliação em ambiente silencioso / Janela de Hanning / Com princípio da distorção mínima.

85

Tab. 15 - Avaliação em ambiente silencioso / Janela de Hanning / Sem princípio da distorção mínima.

Tab. 16 - Avaliação em ambiente ruidoso / Janela retangular / Sem princípio da distorção mínima.

86

Tab. 17 - Avaliação em ambiente silencioso / Janela retangular / Sem princípio da distorção mínima.

Tab. 18 - Avaliação em ambiente ruidoso / Janela de Hanning / Sem princípio da distorção mínima.

87

Tab. 19 - Avaliação em ambiente silencioso / Janela de Hanning / Com princípio da distorção mínima.

Tab. 20 - Avaliação em ambiente ruidoso / Janela retangular / Com princípio da distorção mínima.

88

Tab. 21 - Avaliação em ambiente silencioso / Janela retangular / Com princípio da distorção mínima.

89

Apêndice B

Apresentação do teste subjetivo de qualidade do método de separação cega de fontes.

Teste Subjetivo de Qualidade de Áudio

Cenário: o objetivo do sistema que será avaliado é a recuperação de vozes individuais a partir

de gravações em que se tem misturadas falas de diversas pessoas. A figura abaixo ilustra esta

situação:

Metodologia: serão apresentadas ao avaliador, sempre nesta ordem, a mistura captada pelo

microfone, a voz recuperada 1 e a voz recuperada 2.

Objetivo: o ouvinte deverá avaliar numa escala de 1 até 5 (onde 1 significa “muito

perturbador” e 5 significa “imperceptível”):

1) A interferência da outra voz para o entendimento daquela de interesse quando

comparada à mistura;

2) A distorção apresentada pela voz de interesse quando comparada à mistura (alteração

de timbre – efeito “Pato Donald”);

3) O nível de ruído de fundo quando comparado à mistura.

Serão fornecidas escalas graduadas para a avaliação de cada um destes itens individualmente

e uma escala para que seja avaliada a qualidade total do sistema (não se trata de uma média

dos três itens anteriores, trata-se de uma opinião global e independente das demais).

Obrigado pela sua participação e bom teste!

Sistema

Voz 1

Voz 2 Mistura

Voz recuperada 1

Voz recuperada 2

90

Apêndice C

Transcrições das gravações feitas no PADS e utilizadas nos testes

1. Poema “José”, de Carlos Drummond de Andrade, usado nos testes do ALED, LSED e SMBVAD

E agora, José?

A festa acabou,

a luz apagou,

o povo sumiu,

a noite esfriou,

e agora, José?

e agora, você?

você que é sem nome,

que zomba dos outros,

você que faz versos,

que ama, protesta?

e agora, José?

Está sem mulher,

está sem discurso,

está sem carinho,

já não pode beber,

já não pode fumar,

cuspir já não pode,

a noite esfriou,

o dia não veio,

o bonde não veio,

o riso não veio,

não veio a utopia

e tudo acabou

e tudo fugiu

e tudo mofou,

e agora, José?

E agora, José?

Sua doce palavra,

seu instante de febre,

sua gula e jejum,

sua biblioteca,

sua lavra de ouro,

seu terno de vidro,

sua incoerência,

seu ódio – e agora?

Com a chave na mão

quer abrir a porta,

não existe porta;

quer morrer no mar,

mas o mar secou;

quer ir para Minas,

Minas não há mais.

José, e agora?

Se você gritasse,

se você gemesse,

se você tocasse

a valsa vienense,

se você dormisse,

se você cansasse,

se você morresse...

Mas você não morre,

você é duro, José!

Sozinho no escuro

qual bicho-do-mato,

sem teogonia,

sem parede nua

para se encostar,

sem cavalo preto

que fuja a galope,

você marcha, José!

José, para onde?

91

2. Textos utilizados nos testes do mecanismo de separação cega de fontes

Fonte 1:

http://www.webartigos.com/articles/1141/1/A-Consciencia-de-si/pagina1.html (Acesso em 10/10/2010)

A consciência-de-si nasce de um desejo vivo, ou seja, desejar o desejo do outro enquanto

desejo vivo, de outra consciência-de-si; originando o homem através de significado pela

utilização da linguagem. Dentro dessa perspectiva, a relação entre o homem e as coisas é

desejar conhecimento; relação entre homens é desejar reconhecimento. Para universalizar a

linguagem tem-se a relação com o outro. Sem o outro minha existência não tem sentido.

Prosseguindo dentro dessa análise, encontra-se a chamada partilha do mundo na relação

senhor - escravo. Nesse esquema o escravo passa a ser uma coisidade ou coisa-viva. Mas

quando o senhor exerce o poder o escravo reverte a situação passando a transformar essa

relação. O senhor passa a depender do escravo para poder exercer seu poder, visto que sem

ele o senhor não é consciência-de-si. A liberdade só pode ser liberdade quando é efetiva. Fora

disso temos as chamadas falsas saídas (ceticismo, epicurismo, cinismo e estoicismo), em forma

de figura vista na consciência infeliz provocando uma cisão interior.

O pensamento é posto como universal. No homem essência e existência são simultâneas. A

consciência crítica é diferente da consciência-de-si. O que temos que ver hoje é que a

compreensão que a realidade humana é conhecimento. O senhor, a que nos referimos

anteriormente, compartilha do mundo em que o escravo, a outra consciência-de-si, vive. O

senhor quer do escravo reconhecimento, mas há uma inversão de valores que gera a

insatisfação do senhor. Um eu que deixa de ser cogito para ser cogitamos.

A consciência é uma relação sujeito-objeto, onde todo pensamento é mediado, toda cultura é

um bem compartilhado. Nós somos um entrelaçamento multilateral e polissêmico. Dentro das

várias relações que o homem possui, ele vai tornar uma delas hegemônicas.

92

Fonte 2: http://palavrasemferias.blogs.sapo.pt/arquivo/153594.html (Acesso em 10/10/2010)

Um homem estava sentado num banco sem pernas, à luz dum candeeiro apagado, quando viu

um peixe afogado ser desenterrado do lago... A sua sorte foi estar de olhos fechados!

A múmia que estava ao seu lado, gritou baixinho, que essa sorte só acontece a quem não tem

olho. Grito esse que assustou o elefante sem tromba, fazendo com que desatasse a voar dali

para fora. O Sol tornou-se então mais radioso e as trevas cobriram a terra molhada por tanto

calor. O rapaz, que, de olhos fechados, vislumbrava toda a planície desatou a correr,

arrastando-se até à beira do lago seco.

Olhou para o fundo do lago e viu uma porta. Uma entrada secreta para o infinito,

desconhecida de todos e agora ao seu alcance. Caminhou no lago, agora seco em direção à

misteriosa entrada...

Quando chegou à entrada saiu logo, disposto a encontrar uma página em branco onde

pudesse ler as instruções...

Foi então que avistou ao longe um careca de tranças loiras em alegre cavaqueira com o amigo

nu de pistola no bolso...

Acordei, vi que estava a sonhar, de repente ao meu lado, ele, o meu sonho de tantas noites, o

meu amor, o cavalo alado. Pegou-me e voamos rumo as estrelas...

As estrelas estavam apagadas, foi necessário pegar no rabo do cavalo e acender um archote.

Para isso só uma chantagem resultou: um saco de cenouras colhidas nas verdejantes paisagens

celestes. E como por magia a noite tornou-se dia, e debaixo de uma chuva seca na praia de

erva vi todas as estrelas como se não fosse dia.

Documents

Cancelamento de Eco Acústico e Separação Cega de Fontes