57
ESTIMATIVA DE DIREÇÃO DE CHEGADA DE SINAIS DE VOZ UTILIZANDO MÉTODOS DIVERSOS Felipe Rembold Petraglia Projeto de Graduação apresentado ao Curso de Engenharia Eletrônica e de Computação da Escola Politécnica, Universidade Federal do Rio de Janeiro, como parte dos requisitos necessários à obtenção do título de Engenheiro. Orientadora: Mariane Rembold Petraglia Rio de Janeiro Março de 2015

estimativa de direção de chegada de sinais de voz utilizando

Embed Size (px)

Citation preview

ESTIMATIVA DE DIREÇÃO DE CHEGADA DE SINAIS

DE VOZ UTILIZANDO MÉTODOS DIVERSOS

Felipe Rembold Petraglia

Projeto de Graduação apresentado ao Curso de

Engenharia Eletrônica e de Computação da Escola

Politécnica, Universidade Federal do Rio de

Janeiro, como parte dos requisitos necessários à

obtenção do título de Engenheiro.

Orientadora: Mariane Rembold Petraglia

Rio de Janeiro

Março de 2015

iii

UNIVERSIDADE FEDERAL DO RIO DE JANEIRO

Escola Politécnica – Departamento de Eletrônica e de Computação

Centro de Tecnologia, bloco H, sala H-217, Cidade Universitária

Rio de Janeiro – RJ CEP 21949-900

Este exemplar é de propriedade da Universidade Federal do Rio de Janeiro, que

poderá incluí-lo em base de dados, armazenar em computador, microfilmar ou adotar

qualquer forma de arquivamento.

É permitida a menção, reprodução parcial ou integral e a transmissão entre

bibliotecas deste trabalho, sem modificação de seu texto, em qualquer meio que esteja

ou venha a ser fixado, para pesquisa acadêmica, comentários e citações, desde que sem

finalidade comercial e que seja feita a referência bibliográfica completa.

Os conceitos expressos neste trabalho são de responsabilidade do autor.

iv

DEDICATÓRIA

Dedico este trabalho à minha família, em especial aos meus pais, que sempre me

apoiaram e priorizaram os estudos, me fornecendo as condições de uma boa educação

desde o ensino básico.

v

AGRADECIMENTO

Agradeço primeiramente à Mariane Rembold Petraglia, minha mãe e orientadora,

pela paciência e atenção ao longo deste trabalho.

Agradeço também ao meu pai, Antonio Petraglia, pelos conselhos e pela

experiência compartilhada ao longo da minha graduação. Demonstro também minha

gratidão ao meu irmão, Pedro Gabriel, pela companhia e pelo convívio harmonioso no

cotidiano.

Sou extremamente grato aos professores cujas disciplinas cursei ao longo do

curso de graduação. O conhecimento que adquiri em suas aulas foi de fundamental

importância para a minha formação como engenheiro. Agradeço também aos

funcionários da Universidade Federal do Rio de Janeiro (UFRJ), pois suas atuações são

decisivas para o sucesso dessa instituição de excelência.

Por fim, registro minha gratidão aos meus colegas de classe, em especial àqueles

pertencentes ao grupo de amigos que estiveram mais próximos de mim durante a

graduação. Tanto os momentos de estudo e de trabalho em equipe quanto os de

descontração foram extremamente proveitosos em sua companhia, e estimularam de

forma significativa a minha participação na UFRJ como aluno de graduação.

Sem vocês este projeto não teria sido possível.

vi

RESUMO

O presente trabalho consiste na implementação de algoritmos para estimar a

direção de chegada (DOA) de sinais de voz, com base em duas diferentes técnicas: o

método formador de feixes e o método baseado na correlação cruzada generalizada com

transformada de fase (GCC-PHAT).

A estimação da direção de chegada de sinais de voz é importante porque permite

a sistemas de comunicação detectar o ângulo de interesse e filtrar o sinal de interesse,

eliminando ruídos provenientes de outras direções. Com o uso crescente de

comunicação mãos-livres, muito útil em veículos, conferências, discursos, entre outras

situações, a potência do sinal de voz que chega aos microfones é menor, reduzindo a

razão sinal-ruído (SNR) dos sinais gravados. Desse modo, torna-se fundamental o

desenvolvimento de um sistema capaz de localizar a direção de chegada do sinal de voz,

de forma que este possa ser filtrado.

Nos experimentos realizados, sinais de voz foram capturados por um conjunto

de cinco microfones dispostos em forma de cruz. Os sinais gravados foram exportados

ao Matlab, linguagem em que os algoritmos foram implementados. Desse modo, os

algoritmos de detecção de DOA são executados e os resultados, produzidos e exibidos

em gráficos. Experimentos utilizando sinais de mistura simulados também foram

realizados para que, por meio da comparação dos seus resultados com os dos

experimentos com sinais gravados, pudesse se avaliar a influência de fatores como

reverberação e incertezas dos microfones sobre o funcionamento do sistema. Os

desempenhos dos algoritmos também foram comparados na presença de ruído para

diferentes SNRs.

Palavras-Chave: Direção de chegada; formadores de feixes; atraso temporal; correlação

cruzada generalizada com transformada de fase; processamento de sinais.

vii

ABSTRACT

The present work consists in the implementation of direction of arrival (DOA)

estimation algorithms for voice signals, based on two different methods: beamforming

and generalized cross correlation with phase transform (GCC-PHAT).

The direction of arrival estimation of voice signals is important since it allows

communication systems to detect the angle from which the voice signals are originated

and to enhance them, eliminating noise produced from other directions. With the

increase in the use of hands-free communications, very useful in vehicles, conferences,

speeches, among other situations, the voice signals arrive at the microphones with lower

energy, reducing the signal-to-noise ratio (SNR) of the recorded signals. Therefore, it is

very important to develop a system capable of determining the direction of arrival of the

voice signal, so that it can be filtered.

In the experiments performed, voice signals were captured by a five

microphones array positioned in the configuration of a cross. The recorded signals were

exported to Matlab, language in which the algorithms were implemented. The DOA

detection algorithms are then executed and the results are produced and plotted.

Experiments using simulated mixture signals are also performed so that, comparing its

results to the ones from the experiments using recorded signals, it is possible to measure

the influence of factors such as reverberation and microphone imprecision on the

system behavior. The performances of the algorithms were also compared in the

presence of noise, for different SNR values.

Key-words: Direction of arrival; beamforming; time-delay; generalized cross

correlation with phase transform; signal processing.

viii

SIGLAS

DOA – Direção de chegada (Direction of arrival)

DS – Atraso e soma (Delay and sum)

FFT – Transformada rápida de Fourier (Fast Fourier transform)

GCC-PHAT – Correlação cruzada generalizada com transformada de fase (Generalized

cross-correlation with phase transform)

GXPSD – Densidade espectral de potência cruzada generalizada (Generalized cross-

power spectral density)

PADS – Laboratório de Processamento Analógico e Digital de Sinais

STFT – Transformada de Fourier em tempo curto (Short-time Fourier transform)

UFRJ – Universidade Federal do Rio de Janeiro

ULA – Conjunto linear uniforme (Uniform linear array)

ix

Sumário

Capítulo 1: Introdução .................................................................................................................. 1

1.1 - Tema .................................................................................................................................. 1

1.2 - Delimitação ....................................................................................................................... 1

1.3 - Localização ........................................................................................................................ 2

1.4 - Justificativa ........................................................................................................................ 2

1.5 - Objetivo ............................................................................................................................. 3

1.6 - Metodologia ...................................................................................................................... 3

1.7 – Descrição do Texto ........................................................................................................... 4

Capítulo 2: Sinais e Sistema Utilizados .......................................................................................... 6

2.1 - Sinal de Voz e Ruído .......................................................................................................... 6

2.2 - Pré-processamento ........................................................................................................... 8

2.3 - Sistema utilizado ............................................................................................................. 11

2.3.1 - Conjunto Linear Uniforme (ULA) .............................................................................. 11

2.3.2 - Sistema Proposto ..................................................................................................... 14

Capítulo 3: Métodos de Estimação de DOA Implementados ...................................................... 19

3.1 - Método Baseado em Formador de Feixes Direcional ..................................................... 19

3.2 - Método da Correlação Cruzada Generalizada (GCC) ...................................................... 21

3.2.1 - Método Baseado no Atraso Temporal ..................................................................... 21

3.2.2 - Método da Correlação Cruzada Generalizada com Transformada de Fase (GCC-

PHAT) ................................................................................................................................... 25

Capítulo 4: Experimentos Realizados .......................................................................................... 27

4.1 - Gravações ........................................................................................................................ 27

4.2 - Simulações ...................................................................................................................... 30

Capítulo 5: Resultados ................................................................................................................. 33

5.1 – Método Formador de Feixes .......................................................................................... 33

5.1.1 - Experimentos Simulados .......................................................................................... 34

5.1.2 - Experimentos Gravados ........................................................................................... 38

5.2 – Método da Correlação Cruzada Generalizada (GCC_PHAT) ........................................... 40

5.2.1 – Ausência de Ruído ................................................................................................... 41

5.2.2 – Ruído Difuso ............................................................................................................ 44

Capítulo 6: Conclusões e Trabalhos Futuros ............................................................................... 46

Bibliografia .................................................................................................................................. 48

1

Capítulo 1

Introdução

1.1 - Tema

O tema deste trabalho é a detecção da direção de chegada (DOA) de sinais de voz,

sendo utilizados o método formador de feixes e o método da correlação cruzada generalizada

com transformada de fase (GCC-PHAT). Nesse sentido, desenvolve-se um sistema capaz de, a

partir dos sinais captados por um conjunto de microfones, calcular a direção de chegada do

sinal de voz. Com base nos atrasos entre os sinais obtidos pelos diferentes microfones, e

conhecendo-se a velocidade de propagação do som no ar e as distâncias entre os microfones,

é possível obter o ângulo da reta que passa pela fonte do sinal de voz e pelo conjunto de

microfones. Uma vez encontrada essa direção, é possível enfatizar o sinal de voz e filtrar ruídos

provenientes de outras fontes sonoras.

1.2 - Delimitação

O objeto de estudo é um sistema capaz de estimar a direção de chegada de sinais de

voz, composto por um conjunto de cinco microfones dispostos em forma de cruz. Dois

algoritmos de estimação de DOA são implementados e experimentos práticos são realizados

para testá-los. O trabalho, portanto, abrange a comparação de algoritmos de estimação da

direção de chegada do sinal de voz em ambientes silenciosos e ruidosos.

2

1.3 - Localização

Os primeiros estudos sobre o método formador de feixes datam de 1974, com autoria

de J. Billingsley e R. Kinns [1]. Denominado Telescópio Acústico (do inglês Acoustic Telescope),

a técnica consistia em localizar fontes de sinais acústicos com base na correlação entre sinais

gravados por vários microfones. Em 1976, o método de detecção de DOA baseado na

correlação cruzada generalizada com transformada de fase (GCC_PHAT) foi desenvolvido por

C. Knapp e G. Carter [2], aumentando a robustez do método de correlação em relação a efeitos

da reverberação. Nas décadas seguintes, novos métodos de formadores de feixes foram

desenvolvidos. O trabalho localiza-se, portanto, na implementação e comparação de técnicas

avançadas que permitem uma detecção mais acurada da direção de chegada dos sinais de voz.

1.4 - Justificativa

A invenção de dispositivos de viva-voz permite que o usuário se comunique de

forma mais conveniente e prática. Comunicação mãos-livres tem sido intensamente

desenvolvida recentemente, e tem se provado muito útil em veículos, teleconferências,

discursos, comandos por voz, entre outras situações.

No entanto, uma grande desvantagem desse invento é a diminuição da qualidade do

som que chega aos microfones. Com o aumento da distância entre o usuário e o dispositivo, a

energia do sinal de voz do usuário captado pelo microfone diminui, enquanto a potência do

ruído ambiente continua a ser a mesma, resultando em uma diminuição na razão sinal-ruído

(SNR), definida como a potência do sinal desejado que chega ao dispositivo dividida pela

potência do ruído que atinge o mesmo.

Para contornar este problema, um sistema que localiza as direções de chegada

(DOAs) de sinais de voz, permitindo a sua filtragem e a atenuação de ruídos provenientes de

outras fontes, é investigado.

Além do ruído, o efeito da reverberação sobre o sinal que atinge o microfone

também aumenta, uma vez que o sinal de voz emitido pelo usuário percorre outros caminhos

além da trajetória direta da pessoa ao altofalante, chegando ao microfone com diversos

atrasos e atenuações.

3

Essa condição geralmente afeta o desempenho dos algoritmos formadores de feixes

de uma forma considerável, comprometendo a sua capacidade de estimar a direção das fontes

desejadas. Consequentemente, a filtragem dos sinais de voz é menos eficaz.

Desse modo, a importância deste trabalho está relacionada à análise dos efeitos da

reverberação e do ruído nos algoritmos de estimação da direção de chegada, de forma a

comparar seus desempenhos e avaliar seus empregos na filtragem de sinais de voz e,

consequentemente, na melhoria de sistemas de comunicação viva-voz.

1.5 - Objetivo

O objetivo geral é, portanto, implementar algoritmos capazes de detectar a direção de

chegada do sinal de voz a partir dos sinais gravados por um conjunto de microfones. Dessa

forma, tem-se como objetivos específicos: (1) comparar os sinais gravados por microfones

situados em diferentes posições da sala; (2) calcular, com base em diferentes técnicas, o atraso

temporal entre eles; e (3) a partir das estimativas de atraso temporal entre os microfones,

calcular a direção de chegada do sinal de voz, conhecendo-se a distância entre os microfones e

a velocidade de propagação do som no ar.

1.6 - Metodologia

O método formador de feixes combina os sinais dos microfones no domínio da

frequência, 𝐗(𝜔), utilizando um vetor de peso 𝐖, encontrando o sinal de saída Y(𝜔). Uma vez

encontrado o sinal de saída, calcula-se a sua densidade espectral de potência 𝛷𝑌𝑌. O critério

utilizado para estabelecer os valores de 𝐖 foi o método do atraso e soma (do inglês delay-and-

sum), segundo o qual 𝐖 = 𝐃(𝜃𝑎𝑙𝑣𝑜, 𝜔), sendo 𝐃(𝜃𝑎𝑙𝑣𝑜, 𝜔) o vetor de direção (steering vector)

e 𝜃𝑎𝑙𝑣𝑜 o ângulo assumido como a direção de chegada. Desse modo, o ângulo 𝜃𝑎𝑙𝑣𝑜 que

maximiza 𝛷𝑌𝑌 é considerado a direção de chegada.

Já o método da correlação cruzada generalizada utiliza a correlação cruzada entre os

sinais gravados por cada par de microfones, multiplicada por uma função peso, para a

detecção do atraso entre os sinais. Dessa forma, encontra-se, para cada par de microfones, o

4

atraso em amostras que maximiza a correlação cruzada generalizada entre os sinais. Dividindo

esse valor pela taxa de amostragem, encontra-se o atraso entre os sinais dos microfones em

segundos. Conhecendo-se o valor do atraso e as posições dos microfones, e utilizando o

método dos mínimos quadrados, encontra-se o ângulo de chegada do sinal de voz.

Além da implementação dos algoritmos para obtenção da direção de chegada do sinal,

são realizadas gravações em uma sala, utilizando um conjunto de microfones, para avaliar os

seus desempenhos. O conjunto de microfones é posicionado no centro da sala, e o som é

emitido de um conjunto de altofalantes, posicionados em 8 direções distintas, de modo a

testar o algoritmo para diferentes ângulos de chegada.

Os sinais que chegam aos microfones são também simulados utilizando o aplicativo

Matlab, com o objetivo de comparar a eficiência dos algoritmos em situações em que não há

determinadas imprecisões que existem no caso real, como a interferência de reverberações ou

não-linearidades dos microfones e altofalantes.

Os resultados obtidos das direções de chegada serão exibidos em gráficos produzidos

em Matlab, comparativamente às direções de chegada esperadas, de modo a analisar a

eficiência de cada método.

1.7 – Descrição do Texto

O Capítulo 2 descreve os sinais e sistemas utilizados neste projeto. Características dos

sinais de voz e do ruído empregados são apresentadas, assim como considerações sobre o

conjunto de microfones utilizado e os sinais gravados.

O Capítulo 3 apresenta os métodos de estimação de direção de chegada

implementados. Suas formulações matemáticas são descritas e detalhes de implementação

são explicados.

No Capítulo 4, descrevem-se os experimentos realizados para testar os algoritmos

implementados. As configurações dos microfones e dos altofalantes nos diferentes ensaios

com sinais gravados são apresentadas e os testes com sinais de mistura simulados também são

expostos.

5

O Capítulo 5 apresenta os resultados obtidos, tanto referentes aos experimentos com

sinais gravados quanto àqueles com sinais simulados. Com base nos resultados, as técnicas de

estimação de DOA utilizadas são comparadas e os efeitos de ruído e reverberação sobre o

desempenho dos algoritmos evidenciados.

O Capítulo 6 apresenta conclusões e propostas de trabalhos futuros referentes ao

sistema desenvolvido e aos algoritmos implementados.

6

Capítulo 2

Sinais e Sistema Utilizados

2.1 - Sinal de Voz e Ruído

A voz é um sinal não-estacionário. Isso se deve ao fato de suas características

estatísticas, como média, variância, autocorrelação, entre outras, se modificarem ao longo do

tempo. Durante a fala, são emitidos sons com diferentes características. As vogais, por

exemplo, possuem frequências mais baixas, enquanto as consoantes possuem frequências

mais altas. Além disso, o sinal de voz é não-branco, pois não possui potência constante em

todas as frequências.

O sinal de voz ocupa a faixa do espectro de frequência entre 100 Hz e 8 kHz. Embora a

energia do sinal se concentre nas baixas frequências, a banda considerada fundamental para

manter a inteligibilidade da voz é a faixa entre 700 Hz e 3 kHz.

Em sistemas de telefonia, objetivando preservar a inteligibilidade do sinal de voz e,

simultaneamente, não utilizar uma largura de banda excessivamente grande, a banda de

frequência atribuída a um canal de voz é de 300 Hz a 3400 Hz [3]. Dessa forma, a largura de

banda total utilizada é, em geral, de 4 kHz, uma vez que nas extremidades da banda se utiliza

um faixa de frequências sem uso para separar canais de voz adjacentes, com a finalidade de

evitar interferências mútuas. Essa faixa adicional é denominada banda de guarda. A banda de

frequência geralmente utilizada em sistemas de telefonia é ilustrada na figura 2.1.

Desse modo, nos algoritmos implementados neste trabalho utilizaram-se apenas as

componentes de frequência dos sinais gravados na faixa de 300 Hz a 3400 Hz. As demais

componentes são desprezadas, a fim de se tratar apenas a faixa do sinal na frequência a ser

utilizada em telecomunicações. Eliminam-se assim componentes de ruído em frequências não

pertencentes a essa banda.

7

Figura 2.1: Banda de frequências atribuída a um canal de voz

O ruído rosa, utilizado neste trabalho para testar o efeito de ruído sobre o

desempenho do algoritmo, é um sinal cujo espectro é inversamente proporcional à frequência

[4]. Este nome lhe foi atribuído devido ao fato de possuir características intermediárias entre

as do ruído branco e as do ruído browniano, também denominado ruído vermelho. Enquanto o

espectro de frequência do ruído rosa 𝑆(𝜔) é proporcional a 1/𝜔, o espectro do ruído branco é

proporcional a 1/(𝜔0) e o do ruído vermelho, a 1/(𝜔2).

Figura 2.2: Espectro do Ruído Rosa em Escala Logarítmica (figura adaptada de [5])

8

O ruído rosa ocorre em diversas situações no meio natural. Exemplos de ocasiões em

que esse tipo de ruído ocorre são os ritmos de batimentos cardíacos, a luminosidade dos

quasares e o fluxo de tráfego.

Em relação às aplicações, o ruído rosa é muito utilizado nas medições de sistemas

acústicos. Sua utilidade se deve ao fato de possuir a mesma energia em todas as oitavas. O

teste do ruído rosa geralmente é feito em sistemas com múltiplos altofalantes, para testar se o

som proveniente das caixas chega a determinados locais com a intensidade adequada.

Nos últimos anos, o ruído rosa passou a ser utilizado também em ambientes de

trabalho ou de estudo [6]. O fato de apresentar potência mais alta em baixas frequências o

torna capaz de mascarar o som de fundo de baixa frequência, ajudando a aumentar a

produtividade e a concentração das pessoas no local.

2.2 - Pré-processamento

Inicialmente, os sinais obtidos são pré-processados por meio de um algoritmo de

redução de ruído, objetivando a melhoria da qualidade do sinal de voz, aplicação conhecida

pelo termo speech enhancement, do inglês. Trata-se de um processo complexo, uma vez que

existem diversos tipos de ruído capazes de afetar o sinal de voz, de modo que suas

características podem mudar drasticamente no tempo.

No caso em que o ruído tem distribuição espectral de banda estreita, pode-se suprimir

a interferência ruidosa por meio de uma filtragem digital. Quando o ruído tem distribuição

espectral de banda larga, no entanto, a filtragem de supressão de banda não é suficiente para

a eliminação do ruído. Nos métodos de detecção da direção de chegada implementados,

conforme dito anteriormente, foram utilizadas as componentes apenas na faixa de frequência

de 300 Hz a 3.4 kHz dos sinais dos microfones. No entanto, a interferência de ruído que possua

componentes nessa faixa de frequência permanece, podendo prejudicar a eficiência do

algoritmo de estimação da DOA.

9

Neste trabalho, a técnica utilizada para redução do ruído, antes de se aplicar o método

de estimação da DOA, foi a Subtração Espectral [7], um método eficaz para ruído de fundo

estacionário.

Dado um sinal gravado 𝑥(𝑛), considera-se que ele pode ser decomposto em um sinal

de voz 𝑠(𝑛) e um sinal de ruído 𝑣(𝑛), ou seja,

𝑥(𝑛) = 𝑠(𝑛) + 𝑣(𝑛). (2.1)

O processamento do sinal de mistura é feito no domínio da frequência, no qual o sinal

de mistura é representado como

𝑋(𝜔) = 𝑆(𝜔) + 𝑉(𝜔). (2.2)

Desse modo, segundo a abordagem da subtração espectral de potência, tem-se que

|𝑋(𝜔)|2 = |𝑆(𝜔) + 𝑉(𝜔)|2. (2.3)

Desenvolvendo a equação, encontra-se que

|𝑋(𝜔)|2 = |𝑆(𝜔)|2 + |𝑉(𝜔)|2 + 2|𝑆(𝜔)||𝑉(𝜔)|𝑐𝑜𝑠 𝜃,

(2.4)

sendo 𝜃 a diferença de fase entre o sinal de voz e o sinal de ruído. Considera-se que o sinal de

voz 𝑠(𝑛) e o de ruído 𝑣(𝑛) são processos aleatórios estacionários e não correlacionados,

permitindo a simplificação da equação (2.5), que resulta em

𝑋𝑀2(𝜔) = 𝑆𝑀

2(𝜔) + 𝑉𝑀2(𝜔),

(2.5)

sendo 𝑋𝑀(𝜔), 𝑆𝑀(𝜔) e 𝑉𝑀(𝜔) os valores médios das magnitudes de 𝑋(𝜔), 𝑆(𝜔) e 𝑉(𝜔),

respectivamente.

Portanto, a estimativa do espectro de potência do sinal de voz, 𝑆𝑀2(𝜔), é encontrada

subtraindo-se uma estimativa do espectro de potência do sinal de ruído, �̂�𝑀2

(𝜔), do espectro

de potência do sinal de mistura, 𝑋𝑀2(𝜔), ou seja,

�̂�𝑀2

(𝜔) = 𝑋𝑀2(𝜔) − �̂�𝑀

2(𝜔).

(2.6)

Desse modo, pode-se calcular a magnitude do espectro do sinal de voz como

10

�̂�𝑀 = √�̂�𝑀2

(𝜔) = √𝑋𝑀2(𝜔) − �̂�𝑀

2(𝜔).

(2.7)

Já de acordo com a subtração espectral de magnitude, a magnitude do sinal pode ser

diretamente estimada pela equação

�̂�𝑀(𝜔) = 𝑋𝑀(𝜔) − �̂�𝑀(𝜔).

(2.8)

Genericamente, o método da subtração espectral é dado pela fórmula

�̂�𝑀𝐵

(𝜔) = 𝑋𝑀𝐵(𝜔) − 𝜂�̂�𝑀

𝐵(𝜔), (2.9)

sendo 𝐵 um inteiro, geralmente igual a 1 ou 2, e 𝜂 um coeficiente para controlar a quantidade

de ruído subtraída. Desse modo, o espectro da voz é dado por

�̂�(𝜔) = [𝑋𝑀𝐵(𝜔) − 𝜂�̂�𝑀

𝐵(𝜔)]

1

𝐵𝑒𝑗𝛹(𝜔), (2.10)

onde 𝛹(𝜔) é a fase de 𝑋(𝜔). Na equação (2.9), para o caso da subtração espectral de

magnitude, 𝐵 =1 e 𝜂 =1, enquanto, no caso da subtração espectral de potência, define-se que

𝐵 =2 e 𝜂 =1.

Para estimar os espectros dos sinais, segmenta-se primeiramente o sinal de mistura

𝑥(𝑛) em blocos de tamanho N, de modo a tratar separadamente trechos em que este possa

ser considerado estacionário. Passa-se cada bloco para o domínio da frequência, por meio da

transformada discreta de Fourier, denominada em inglês discrete Fourier transform (DFT),

gerando blocos de N amostras espectrais. Esse processo é denominado transformada de

Fourier em tempo curto, do inglês short-time Fourier transform (STFT). Forma-se assim uma

matriz bidimensional, com informações nos domínios do tempo e da frequência, representada

por 𝑋(𝑘, 𝑚), sendo 𝑘 o índice do bin de frequência e 𝑚 o índice do bloco, representando,

portanto, a dimensão do tempo. O espectro do ruído é estimado por meio das seguintes

equações:

V̂𝑀𝐵 (𝑘, 𝑚) = 𝛼𝐴V̂𝑀

𝐵 (𝑘, 𝑚 − 1) + (1 − 𝛼𝐴)X𝑀𝐵 (𝑘, 𝑚), se X𝑀

𝐵 (𝑘, 𝑚) ≥ V̂𝑀𝐵 (𝑘, 𝑚 − 1)

V̂𝑀𝐵 (𝑘, 𝑚) = 𝛼𝐵V̂𝑀

𝐵 (𝑘, 𝑚 − 1) + (1 − 𝛼𝐵)X𝑀𝐵 (𝑘, 𝑚), se X𝑀

𝐵 (𝑘, 𝑚) < V̂𝑀𝐵 (𝑘, 𝑚 − 1), (2.11)

onde 𝑋𝑀(𝑘, 𝑚) = |𝑋(𝑘, 𝑚)|, e 𝛼𝐴 e 𝛼𝐵 são parâmetros de valor entre 0 e 1 que controlam as

constantes de tempo das iterações, sendo 𝛼𝐴 > 𝛼𝐵. Desse modo, nos blocos em que o sinal de

mistura possui grande quantidade de energia em relação ao sinal de ruído estimado,

11

considera-se que o sinal é composto predominantemente por voz, atualizando-se mais

lentamente a estimativa de ruído. Já nos blocos em que o sinal de mistura possui pequena

quantidade de energia em relação ao sinal de ruído estimado, considera-se que não há sinal de

voz, de modo que o sinal de mistura consiste basicamente em ruído, atualizando-se mais

rapidamente a estimativa de ruído. Valores típicos de 𝛼𝐴 e 𝛼𝐵 são 0.96 e 0.92,

respectivamente.

A figura 2.3 ilustra o diagrama de blocos do algoritmo de Subtração Espectral, sendo

ISTFT a STFT inversa.

Figura 2.3: Diagrama de Blocos do Algoritmo de Subtração Espectral

2.3 - Sistema utilizado

Inicialmente é descrito o sistema mais simples ULA e, em seguida, o sistema proposto

neste trabalho.

2.3.1 - Conjunto Linear Uniforme (ULA)

O conjunto linear uniforme – do inglês Uniform Linear Array (ULA) – consiste em um

agrupamento de microfones dispostos em linha reta de modo que as distâncias entre

microfones adjacentes sejam iguais. O conjunto de microfones recebe sinais de diferentes

direções. Esses sinais consistem não apenas do sinal de voz desejado, mas também de ruído

proveniente de diversas fontes. A figura 2.4 ilustra o conjunto linear uniforme (ULA) de

microfones.

12

Figura 2.4: Conjunto Linear Uniforme de Microfones

Os sinais gravados pelo agrupamento de microfones, definidos como elementos do

vetor 𝒙(𝑡), consistem na mistura de 𝑠(𝑡), o sinal de voz original atenuado pelo sistema

correspondente à trajetória entre a fonte e o microfone de referência, e de 𝑣(𝑡), o ruído

proveniente de outras fontes. Desse modo, o sinal que chega a um determinado microfone i é

representado como

𝑥𝑖(𝑡) = 𝛼𝑖𝑠(𝑡 − 𝜏𝑖) + 𝑣𝑖(𝑡), (2.12)

onde 𝛼𝑖 é a atenuação e 𝜏𝑖 é o atraso sofridos pelo sinal de voz no trajeto ao microfone 𝑖.

No caso do Conjunto Linear Uniforme, o atraso entre dois microfones adjacentes pode

ser calculado com base na geometria ilustrada na figura 2.5, onde é adotada a suposição de

campo distante, ou seja, considera-se que o altofalante está afastado dos microfones por uma

distância suficientemente grande para que o sinal possa ser tratado como uma onda plana.

13

Figura 2.5: Distância entre Microfones Horizontalmente Adjacentes

A distância adicional percorrida pelo sinal entre dois microfones adjacentes é igual a

𝑑 sin (𝜃), onde 𝑑 é a distância entre microfones adjacentes e 𝜃 é a direção de chegada do

sinal. Desse modo, o atraso temporal entre os sinais de ambos os microfones é dado por

𝜏 =𝑑 sin (𝜃)

𝑣,

(2.13)

onde 𝑣 é a velocidade de propagação do som no ar, aproximadamente 343 m/s.

Dado que o vetor 𝐱(k) = [x1(𝑘) x2(𝑘) … x𝑁(𝑘)] 𝑇 contém as amostras dos sinais

gravados pelos N microfones na amostra temporal k, ao tomarmos como referência o

microfone localizado na extremidade esquerda do conjunto, tem-se que

𝐱(𝑘) = [𝛼1𝑠(𝑘) 𝛼2𝑠(𝑘 − τ21) … 𝛼𝑁𝑠(𝑘 − τ𝑁1)]𝑇 + [v1(𝑘) v2(𝑘) … v𝑁(𝑘)] 𝑇 . (2.14)

Aplicando a transformada de Fourier, obtém-se a representação do vetor 𝐱(k) no

domínio da freqüência:

𝐗(𝜔) = [𝛼1𝑆(𝜔) 𝛼2𝑆(𝜔)𝑒𝑗𝜔𝜏21 … 𝛼𝑁𝑆(𝜔)𝑒𝑗𝜔𝜏𝑁1]𝑇 + [𝑉1(𝜔) V2(𝜔) … V𝑁(𝜔)] 𝑇 , (2.15)

de modo que

𝐗(𝜔) = 𝑆(𝜔)𝐃(𝜔) + 𝐕(𝜔), (2.16)

onde

14

𝐃(𝜔) = [𝛼1 𝛼2𝑒𝑗𝜔𝜏21 … 𝛼N𝑒𝑗𝜔𝜏𝑁1 ]𝑇 . (2.17)

2.3.2 - Sistema Proposto

Embora o Conjunto Linear Uniforme de microfones seja utilizado com frequência, ele

apresenta uma limitação em relação à faixa de ângulos que é capaz de rastrear. Por se tratar

de um conjunto de microfones posicionados em uma única reta, o sistema não oferece

informação suficiente para se determinar em qual lado do conjunto a fonte está localizada.

Para ilustrar esse fato, considere os sinais de voz A, emitido de uma direção 𝜃, e B,

emitido da direção (180𝑜 − 𝜃), como mostra a figura 2.6.

Figura 2.6: Ambiguidade do Conjunto Linear Uniforme de Microfones

Uma vez que, conforme visto anteriormente, os atrasos entre os sinais dos microfones

são dependentes apenas de sin(𝜃), os sinais A e B seriam considerados oriundos de uma

mesma direção, já que

15

sin(𝜃) = sin(180𝑜 − 𝜃). (2.18)

Devido a essa ambiguidade, o Conjunto Linear Uniforme de microfones permite

apenas que se encontre um ângulo de chegada pertencente ao intervalo entre −90𝑜 𝑒 90𝑜.

Para solucionar este problema, utilizou-se neste projeto um conjunto de 5 microfones

localizados na mesma altura, estando um deles posicionado no centro e os outros 4

simetricamente posicionados e igualmente espaçados do microfone central, conforme

ilustrado na figura 2.7. Neste trabalho, considera-se que as fontes estão localizadas no mesmo

plano horizontal em que se encontram os microfones, ou seja, na mesma altura.

Figura 2.7: Conjunto Bidimensional de Microfones

Considerando o sinal captado pelo microfone central como referência 𝑠(𝑡), os sinais

que chegam aos microfones podem ser representados do modo a seguir, sendo os microfones

numerados conforme ilustrado na figura 2.8:

𝑥1(𝑡) = a12𝑠(𝑡 − 𝜏12)

𝑥2(𝑡) = 𝑠(𝑡)

𝑥3(𝑡) = a32𝑠(𝑡 − 𝜏32)

𝑥4(𝑡) = a42𝑠(𝑡 − 𝜏42)

𝑥5(𝑡) = a52𝑠(𝑡 − 𝜏52), (2.19)

16

sendo ai2 e 𝜏𝑖2 as atenuações e os atrasos, respectivamente, do sinal do microfone 𝑖 em

relação ao sinal do microfone de referência 2.

Figura 2.8: Numeração dos Microfones

Conforme descrito na Seção 2.3.1, uma vez sendo as distâncias entre os microfones

desprezíveis em relação à distância entre o conjunto de microfones e a fonte, pode-se

considerar a suposição de campo distante, de modo que as atenuações dos sinais dos

diferentes microfones em relação ao sinal original são aproximadamente iguais. Dessa forma,

podemos simplificar a representação dos sinais dos microfones, desconsiderando os diferentes

coeficientes de atenuação, ou seja,

𝑥1(𝑡) = 𝑠(𝑡 − 𝜏12)

𝑥2(𝑡) = 𝑠(𝑡)

𝑥3(𝑡) = 𝑠(𝑡 − 𝜏32)

𝑥4(𝑡) = 𝑠(𝑡 − 𝜏42)

𝑥5(𝑡) = 𝑠(𝑡 − 𝜏52).

(2.20)

Os atrasos 𝜏32 e 𝜏42 entre os microfones 3 e 4 e o microfone de referência, conforme

ilustrado na figura 2.5, são iguais a

𝜏32 = 𝜏42 =𝑑sin (𝜃)

𝑣.

(2.21)

17

No conjunto de microfones utilizado neste trabalho, a distância 𝑑 é igual a 0.1 m. A

velocidade de propagação do som no ar, 𝑣, foi considerada 343 m/s.

O atraso temporal entre sinais de microfones verticalmente adjacentes é calculado

com base na geometria ilustrada na figura 2.9.

Figura 2.9: Distância entre Microfones Verticalmente Adjacentes

A distância adicional percorrida pelo sinal entre dois microfones verticalmente

adjacentes é igual a 𝑑cos (𝜃). Consequentemente, o atraso temporal entre os sinais dos

microfones é descrito como

𝜏 =𝑑cos (𝜃)

𝑣.

(2.22)

Os atrasos 𝜏12 e 𝜏52, portanto, são dados por

𝜏12 = 𝜏52 =𝑑cos (𝜃)

𝑣.

(2.23)

Passando 𝑥(𝑡) para o domínio da frequência, temos

18

𝐗(𝜔) = S(𝜔)𝐃(𝜔) + 𝐕(𝜔), (2.24)

onde

𝐃(𝜔) = [𝑒𝑗𝜔𝑑cos (𝜃)

𝑣 1 𝑒𝑗𝜔𝑑sin (𝜃)

𝑣 𝑒−𝑗𝜔𝑑sin (𝜃)

𝑣 𝑒−𝑗𝜔𝑑cos (𝜃)

𝑣 ]𝑇 .

(2.25)

Desse modo, conhecendo-se a relação entre os sinais dos microfones e as direções de

chegada dos sinais gravados, será possível estimar a DOA de sinais de voz com base em

diferentes métodos, que serão descritos no Capítulo 3.

19

Capítulo 3

Métodos de Estimação de DOA

Implementados

Neste capítulo são descritos os dois métodos de estimação de DOA implementados

neste trabalho: o método baseado em formador de feixes direcional e o algoritmo baseado na

correlação cruzada generalizada com transformada de fase (GCC_PHAT).

A representação dos sinais gravados pelos microfones no domínio da frequência foi

obtida por meio da STFT, de modo que para cada bloco de amostras (frame) será estimada a

DOA, uma vez que o sinal é considerado estacionário ao longo do frame. A STFT foi realizada

utilizando a janela de Hanning, com o objetivo de apresentar variações mais suaves nas bordas

dos frames. Dessa forma pretende-se evitar a presença de ripples, fenômeno conhecido como

efeito de Gibbs [8]. Foi utilizada sobreposição de 50% das amostras entre blocos adjacentes.

Neste capítulo, para simplificar a notação, não será incluído o índice do frame na

representação do sinal no domínio da frequência.

3.1 - Método Baseado em Formador de Feixes Direcional

A propriedade de formadores de feixes [9] de destacarem sinais provenientes de uma

determinada direção e atenuarem os demais pode ser utilizada na estimação da direção de

chegada. Empregando o método formador de feixes em cada direção possível, considerando

valores discretos, encontra-se a potência do sinal de saída. Desse modo, a direção que resultar

no sinal de saída de maior potência é considerada a direção de chegada estimada.

Para cada amostra na frequência, os sinais dos microfones são multiplicados por pesos

complexos e somados, obtendo-se a saída do formador de feixes:

20

Y(𝑘) = 𝐖𝐻𝐗(𝑘), (3.1)

sendo, para o conjunto de microfones adotado neste trabalho,

𝐖 = [W1 W2 W3 W4 W5]𝑇 . (3.2)

A potência do sinal de saída será usada como parâmetro na estimação da direção de

chegada do sinal. A densidade espectral de potência do sinal de saída do formador de feixes

pode ser estimada por

ΦYY(𝑘) = Y(𝑘)Y∗(𝑘)

= (𝐖𝐻𝐗(𝑘))(𝐖𝐻𝐗(𝑘))∗

= (𝐖𝐻𝐗(𝑘))(𝐗𝐻(𝑘)𝐖)

= 𝐖𝐻(𝐗(𝑘)𝐗𝐻(𝑘))𝐖

= 𝐖𝐻𝚽𝐗𝐗(𝑘)𝐖,

(3.3)

onde 𝚽𝐗𝐗(𝜔) é uma matriz de dimensões 5x5, representando a matriz de densidade espectral

cruzada entre os sinais dos microfones.

Um importante parâmetro do sistema é a sua função resposta, caracterizada pela

razão entre o sinal de saída do formador de feixes e o sinal original, proveniente da fonte

acústica. Considerando o caso sem a interferência de ruído, a representação do sinal de saída

no domínio da frequência é dada por

Y(𝑘) = 𝐖𝐻𝐗(𝑘)

= 𝐖𝐻S(𝑘)𝐃(𝑘).

(3.4)

Como o termo 𝜏𝑖2, presente na expressão de 𝐃(𝜔), é função do ângulo de incidência

𝜃, a equação (3.4) pode ser reescrita como

Y(𝜃, 𝑘) = 𝐖𝐻S(𝑘)𝐃(𝜃, 𝑘). (3.5)

Consequentemente, a função resposta é dada por

21

R(𝜃, 𝑘) =

Y(𝜃, 𝑘)

S(𝑘)= 𝐖𝐻𝐃(𝜃, 𝑘).

(3.6)

O critério de definição do vetor peso 𝐖 utilizado neste trabalho foi o atraso e soma

(do inglês delay and sum). Esse critério atribui ao peso os atrasos causados pelo trajeto do

sinal, para um determinado ângulo de incidência, denominado direção alvo. Desse modo, os

pesos do formador de feixes para uma determinada direção 𝜃𝑎𝑙𝑣𝑜 são dados por

𝐖 = 𝐃(𝜃𝑎𝑙𝑣𝑜 , 𝑘).

(3.7)

A direção que resulta no sinal de saída do formador de feixes com maior potência é

considerada a direção de chegada estimada do sinal. Como a densidade espectral de potência

do sinal de saída varia de acordo com o bin de frequência, a direção de chegada final será igual

à direção que maximiza o valor médio da densidade espectral de potência considerando os

bins de frequência entre 300 Hz e 3400 Hz, correspondente à faixa de frequência em que se

concentra a potência do sinal de voz.

3.2 - Método da Correlação Cruzada Generalizada (GCC)

Outra técnica implementada neste trabalho foi o método baseado na correlação

cruzada generalizada (GCC) [2], caracterizado pela estimação da DOA a partir da matriz de

correlação cruzada entre os sinais gravados pelos microfones. O método mais conhecido que

se baseia na correlação cruzada é o do atraso temporal, descrito na Seção 3.2.1. O método

implementado neste trabalho é o da correlação cruzada generalizada com transformada de

fase (GCC-PHAT) [10], descrito na Seção 3.2.2, sendo este uma adaptação do método baseado

no atraso temporal [11].

3.2.1 - Método Baseado no Atraso Temporal

O método de estimação da direção de chegada baseado no atraso temporal [11]

consiste em calcular o atraso temporal entre os sinais de cada par de microfones e, em

seguida, utilizando as informações conhecidas acerca das posições dos microfones, estimar a

direção de chegada do sinal.

22

Entre os métodos de estimação da direção de chegada, trata-se de uma das técnicas

de menor custo computacional, uma vez que não envolve busca exaustiva entre todos os

ângulos possíveis, como ocorre nas demais principais técnicas. Além disso, este algoritmo

apresenta a particularidade de poder tratar diretamente sinais de banda larga. Em

compensação, esta técnica é útil somente para os casos em que há sinal de apenas uma fonte

incidindo sobre o conjunto de microfones.

Para estimar o atraso temporal entre os sinais de um par de microfones, calcula-se

primeiramente a função correlação cruzada entre os sinais. O índice correspondente ao

máximo dessa correlação, uma vez tendo a sua unidade convertida de amostras para

segundos, é tido como o atraso entre os dois sinais.

Considerando um conjunto linear uniforme de N microfones separados por uma

distância d, o número total de pares de microfones que se podem formar é igual a

(

𝑁

2) =

𝑁!

2! (𝑁 − 2)!.

(3.8)

Os experimentos realizados utilizando esse método foram feitos com dois conjuntos

de N = 3 microfones alinhados em direções perpendiculares, com espaçamento de d = 10 cm,

formando a configuração de uma cruz no plano horizontal.

Dados dois microfones, i e j, sejam 𝑥𝑖(𝑛) e 𝑥𝑗(𝑛) os sinais dos microfones, onde 𝑛 é o

índice temporal das amostras. 𝑋𝑖(𝑘) e 𝑋𝑗(𝑘) são as amostras dos sinais no domínio da DFT,

sendo 𝑘 o índice da amostra. A densidade espectral de potência cruzada entre os sinais é

estimada por

𝛷𝑥𝑖𝑥𝑗(𝑘) = 𝑋𝑖(𝑘)𝑋𝑗

∗(𝑘). (3.9)

A correlação cruzada entre os sinais é dada pela DFT inversa da densidade espectral de

potência cruzada, ou seja,

𝑅𝑥𝑖𝑥𝑗(𝑙) =

1

𝑀∑ 𝛷𝑥𝑖𝑥𝑗

𝑀−1

𝑘=0

(𝑘)𝑒𝑗2𝜋𝑘𝑙

𝑀 , (3.10)

onde M é o comprimento da sequência correspondente à densidade espectral de potência

cruzada e 𝑙 é a defasagem. A correlação cruzada pode ser calculada para os possíveis valores

positivos e negativos de 𝑙. A defasagem que maximiza 𝑅𝑥𝑖𝑥𝑗(𝑙) é o número de amostras de

atraso entre os dois sinais. Portanto, o atraso temporal é dado por

23

𝜏𝑖𝑗 =

1

𝐹𝑠arg 𝑚𝑎𝑥 (𝑅𝑥𝑖𝑥𝑗

(𝑙)). (3.11)

Desse modo, forma-se um vetor τ de dimensões (𝑁2

)x1 contendo os atrasos

temporais entre os sinais de todos os pares de microfones. No caso do conjunto de microfones

disposto de forma horizontalmente linear, sabe-se que, para cada par de microfones i e j, a

relação entre o atraso temporal e a direção de chegada é dada por

𝑑𝑖𝑗sin𝜃 = −𝑣𝜏𝑖𝑗 , (3.12)

de acordo com a equação (2.14), demonstrada no Capítulo 2. Considerando essa equação para

todos os pares de microfones do conjunto horizontalmente linear, tem-se que

𝒅sin𝜃 = −𝑣𝝉,

(3.13)

onde 𝒅 é um vetor de dimensões (𝑁2

)x1 contendo as distâncias entre cada par de microfones

e Ѳ é a direção de chegada do sinal. Essa equação apresenta (𝑁2

) equações e apenas uma

incógnita, o ângulo Ѳ. Desse modo, o sistema é resolvido encontrando-se a solução de

mínimos quadrados, dada por

sin𝜃 = (𝒅𝑇𝒅)−1𝒅𝑇(−𝑣𝝉).

(3.14)

Consequentemente, tem-se que

𝜃ℎ = sin−1[(𝒅𝑇𝒅)−1𝒅𝑇(−𝑣𝝉)].

(3.15)

Daí encontra-se a direção de chegada 𝜃ℎ obtida utilizando o conjunto horizontalmente

linear de microfones, podendo assumir valores entre −90𝑜e 90𝑜 .

Analogamente, no caso do conjunto de microfones disposto de forma verticalmente

linear, sabe-se que, para cada par de microfones i e j, a relação entre o atraso temporal e a

direção de chegada é dada por

𝑑𝑖𝑗cos𝜃 = −𝑣𝜏𝑖𝑗 .

(3.16)

Similarmente, por meio de mínimos quadrados, tem-se que

24

𝜃𝑣 = cos−1[(𝒅𝑇𝒅)−1𝒅𝑇(−𝑣𝝉)].

(3.17)

A direção de chegada 𝜃𝑣, encontrada utilizando o conjunto vertical de microfones,

pode assumir valores entre 0𝑜 e 180𝑜.

Para combinar os valores de 𝜃ℎ e 𝜃𝑣 e encontrar a direção de chegada definitiva 𝜃, são

utilizados os seguintes critérios:

Se 𝜃ℎ > 0𝑜 e 𝜃𝑣 < 90𝑜, então 𝜃 está localizado no primeiro quadrante do círculo

trigonométrico, ou seja, 0𝑜 < 𝜃 < 90𝑜;

Se 𝜃ℎ > 0𝑜 e 𝜃𝑣 > 90𝑜, então 𝜃 está localizado no segundo quadrante do círculo

trigonométrico, ou seja, 90𝑜 < 𝜃 < 180𝑜;

Se 𝜃ℎ < 0𝑜 e 𝜃𝑣 > 90𝑜, então 𝜃 está localizado no terceiro quadrante do círculo

trigonométrico, ou seja, −180𝑜 < 𝜃 < −90𝑜;

Se 𝜃ℎ < 0𝑜 e 𝜃𝑣 < 90𝑜, então 𝜃 está localizado no quarto quadrante do círculo

trigonométrico, ou seja, −90𝑜 < 𝜃 < 0𝑜.

Os quatro quadrantes do círculo trigonométrico são ilustrados na figura 3.1.

Figura 3.1: Quadrantes do Círculo Trigonométrico

Desse modo, elimina-se a ambiguidade em relação à direção de chegada obtida por

um único conjunto linear uniforme de microfones.

25

Os ângulos 𝜃ℎ e 𝜃𝑣 são combinados de modo a garantir a maior precisão possível da

direção de chegada 𝜃. É sabido que o valor 𝜃ℎ apresenta uma maior precisão que 𝜃𝑣 quando

−45𝑜 < 𝜃 < 45𝑜, 𝜃 > 135𝑜 ou 𝜃 < −135𝑜. Já o valor de 𝜃𝑣 apresenta uma maior precisão

quando 45𝑜 < 𝜃 < 135𝑜 ou −135𝑜 < 𝜃 < −45𝑜. Portanto, o valor atribuído a 𝜃 é

estabelecido de acordo com os seguintes critérios:

Se −45𝑜 < 𝜃ℎ < 45𝑜 e 𝜃𝑣 < 90𝑜, então 𝜃 = 𝜃ℎ;

Se −45𝑜 < 𝜃ℎ < 45𝑜 e 𝜃𝑣 > 90𝑜, então 𝜃 = 180𝑜 − 𝜃ℎ;

Se 𝜃ℎ > 45𝑜, então 𝜃 = 𝜃𝑣;

Se 𝜃ℎ < −45𝑜, então 𝜃 = −𝜃𝑣.

3.2.2 - Método da Correlação Cruzada Generalizada com Transformada de Fase

(GCC-PHAT)

Na Seção 3.2.1, foi descrito o método de estimação da direção de chegada baseado no

atraso temporal, que consiste em encontrar o atraso que maximiza a correlação cruzada entre

pares de sinais gravados, conforme a equação

𝑅𝑥𝑖𝑥𝑗(𝜏) = 𝐸[𝑥𝑖(𝑛)𝑥𝑗(𝑛 − 𝜏)]. (3.18)

O método da correlação cruzada generalizada (GCC) [2] consiste em uma versão mais

genérica da equação (3.18). A correlação cruzada generalizada pode ser definida como

𝑅𝑥𝑖𝑥𝑗

(𝑔) (𝜏) = 𝐸[(ℎ𝑖(𝑛) ∗ 𝑥𝑖(𝑛))(ℎ𝑗(𝑛 − 𝜏) ∗ 𝑥𝑗(𝑛 − 𝜏) )]. (3.19)

Conforme se observa na equação (3.19), para computar a correlação cruzada

generalizada, os sinais dos microfones inicialmente são pré-filtrados. Em seguida, calcula-se a

correlação cruzada entre os sinais. A GCC também pode ser computada no domínio da

frequência, calculando-se a densidade espectral de potência cruzada generalizada (GXPSD),

definida como

𝛷𝑥𝑖𝑥𝑗

(𝑔) (𝑘) = [𝐻𝑖(𝑘)𝑋𝑖(𝑘)][𝐻𝑗(𝑘)𝑋𝑗(𝑘)]∗. (3.20)

26

As duas pré-filtragens podem ser combinadas e representadas por um único filtro,

ψ𝑖𝑗(𝑘), ou seja,

𝛷𝑥𝑖𝑥𝑗

(𝑔) (𝑘) = ψ𝑖𝑗(𝑘)𝑋𝑖(𝑘)𝑋𝑗∗(𝑘),

(3.21)

onde

ψ𝑖𝑗(𝑘) = 𝐻𝑖(𝑘)𝐻𝑗∗(𝑘). (3.22)

Para encontrar a GCC, realiza-se a transformada inversa de Fourier da GXPSD,

obtendo-se

𝑅𝑥𝑖𝑥𝑗

(𝑔)(𝑙) =

1

𝑀∑ 𝛷𝑥𝑖𝑥𝑗

(𝑔)

𝑀−1

𝑘=0

(𝑘)𝑒𝑗2𝜋𝑘𝑙

𝑀 . (3.23)

A escolha da função de pré-filtragem ψ𝑖𝑗(𝑘) depende do critério de pesagem

requerido pela situação. De acordo com o método GCC-PHAT [10], realiza-se a transformada

de fase, do inglês phase transform (PHAT), definindo-se ψ𝑖𝑗(𝑘) como

ψ𝑖𝑗(𝑘) =1

|�̂�𝑥𝑖𝑥𝑗(𝑘)|

, (3.24)

onde �̂�𝑥𝑖𝑥𝑗(𝑘) é uma estimativa da densidade espectral de potência cruzada do par de sinais

gravados 𝑥𝑖 e 𝑥𝑗. Com o emprego da PHAT, a função GXPSD se aproxima de um impulso

discreto, tornando mais proeminente o pico dessa função.

Dessa forma, a matriz de correlação cruzada generalizada é calculada por meio da

seguinte equação:

𝑅𝑥𝑖𝑥𝑗

(𝑔)(𝜏) =

1

𝑀∑

1

|�̂�𝑥𝑖𝑥𝑗(𝑘)|

𝛷𝑥𝑖𝑥𝑗

𝑀−1

𝑘=0

(𝑘)𝑒𝑗2𝜋𝑘𝑙

𝑀 ,

(3.25)

ou seja, compensa-se o módulo da densidade espectral cruzada dos sinais dos microfones.

27

Capítulo 4

Experimentos Realizados

4.1 - Gravações

Para testar o sistema desenvolvido, sinais de voz foram gravados em uma sala de 10

metros de comprimento, 6 metros de largura e 3 metros de altura, utilizando um conjunto de

5 microfones dispostos em uma configuração com formato de uma cruz, conforme mostrado

na figura 4.1. Além disso, foram utilizados 4 altofalantes, de modo a emitir os sinais de voz e

de ruído de diferentes extremidades da sala.

Durante as gravações, dentro da sala havia apenas os altofalantes e o computador

próximos às paredes, além do conjunto de microfones ao centro. Havia uma mesa ao centro da

sala, em que foi posicionado o conjunto de microfones, e outra próxima à parede, em que

foram dispostos o computador e o monitor. Os altofalantes possuíam suportes próprios. A sala

não possuía janelas nem tratamento acústico para reduzir a reverberação. Apenas nos vãos da

porta da sala, foram colocadas esponjas, de modo a isolar o ambiente de ruído proveniente do

exterior da sala.

Figura 4.1: Conjunto de 5 Microfones na Configuração de uma Cruz

28

Para realizar a conexão entre os microfones e o computador, foi utilizada a placa M-

audio Pro-Fire 2626, apresentada na figura 4.2. O dispositivo possui 8 entradas e 8 saídas,

permitindo ao usuário ativar os conjuntos de microfones e de altofalantes simultaneamente. O

software utilizado para realizar as gravações foi o Adobe Audition 6.0.

Figura 4.2: Placa M-audio Pro-Fire 2626

Foram gravados sinais emitidos de 8 diferentes direções: à frente, atrás, à direita e à

esquerda do conjunto de microfones, além dos 4 cantos da sala. Desse modo, as direções de

chegada dos sinais de voz gravados foram −125𝑜 , −90𝑜 , −55𝑜 , 0𝑜 , 70𝑜 , 90𝑜 , 110𝑜e 180𝑜,

conforme ilustrado na figura 4.3. Portanto, o conjunto de 4 altofalantes foi utilizado duas

vezes.

Figura 4.3: Configuração da Gravação de Sinais de Voz

29

Para analisar o desempenho do algoritmo de estimação da DOA em ambientes

ruidosos, sinais de ruído rosa foram gravados separadamente. O ruído foi emitido dos 4 cantos

da sala, simulando um ambiente de ruído difuso, como mostrado na figura 4.4. Os sinais de

ruído gravados foram posteriormente somados aos de voz em Matlab, com sua potência

variando de acordo com o valor da razão sinal-ruído desejada.

Figura 4.4: Configuração da Gravação de Sinais de Ruído Rosa

Para analisar o desempenho do algoritmo em situações em que há constante variação

da direção de chegada, também foram realizadas gravações para casos de fonte móvel. Nesse

experimento, um indivíduo caminha ao redor da sala a velocidade constante, falando

continuamente.

É importante ressaltar que, nos experimentos realizados, uma restrição fundamental é

a distância entre a fonte e os microfones, comparativamente à distância entre os microfones.

Conforme descrito no Capítulo 2, neste trabalho é utilizada a suposição de campo distante, de

modo que as ondas sonoras que chegam aos microfones são tratadas como planas. Para que

essa suposição seja válida, é necessário que a distância entre a fonte e o conjunto de

microfones seja maior que 15d, sendo d a distância entre microfones adjacentes [12]. Nas

gravações realizadas, a distância entre cada altofalante e o conjunto de microfones era maior

ou igual a 3 m. Essa distância equivale a 30d, uma vez que d = 10 cm. Conclui-se, portanto, que

a suposição de campo distante é utilizada apropriadamente neste trabalho.

30

4.2 - Simulações

Para testar os algoritmos em condições mais próximas das ideais, sem a interferência

de reverberações ou imprecisões dos microfones, foram também gerados dados simulados de

sinais de voz e de ruído. O simulador foi implementado em Matlab, permitindo ao usuário

gerar uma mistura de sinais de voz e de ruído captados pelo conjunto de microfones em um

ambiente anecóico. Assim como nas gravações, ruído rosa foi utilizado nas simulações, e o

desempenho de cada algoritmo foi testado tanto na presença de ruído difuso quanto na de

ruído unidirecional. Os sinais de ruído foram gerados de acordo com diferentes valores de

razão sinal-ruído, de modo que os desempenhos dos algoritmos foram avaliados para

diferentes níveis de ambientes ruidosos.

O algoritmo do simulador foi implementado com base nos atrasos dos sinais para

diferentes microfones, desconsiderando as atenuações devido à suposição de campo distante.

Desse modo, o sinal gravado por um determinado microfone i pode ser modelado pela

seguinte equação:

𝑥𝑖 = 𝑠(𝑡 − 𝜏𝑖), (4.1)

onde 𝑠(𝑡) é o sinal de voz emitido pelo altofalante e 𝜏𝑖 é o atraso que o sinal sofre no trajeto

da fonte ao microfone i. Os atrasos variam de acordo com a direção da fonte simulada.

Portanto, considerou-se apenas o caminho direto entre a fonte e o microfone.

Os experimentos com sinais simulados complementam aqueles com sinais gravados na

medida em que não apresentam efeitos da reverberação. Desse modo, é possível testar o

desempenho do algoritmo para o caso ideal e, comparando-o com a performance do sistema

para o caso real, avaliar os efeitos da reverberação da sala sobre a eficiência do método

implementado.

Para os dados simulados, sinais de voz provenientes das direções

−135𝑜 , −90𝑜 , −45𝑜 , 0𝑜 , 45𝑜 , 90𝑜 , 135𝑜e 180𝑜 foram utilizados sequencialmente, como

mostrado na figura 4.5.

31

Figura 4.5: Configuração da Simulação de Sinais de Voz

No caso do ruído difuso, sinais de ruído foram emitidos simultaneamente das direções

−90𝑜 , 0𝑜, 90𝑜 e 180𝑜. Desse modo, é simulada uma situação em que o ruído não é originado

em uma direção específica, mas de 4 ângulos simétricos em relação ao conjunto de

microfones, como ilustrado na figura 4.6.

Figura 4.6: Configuração da Simulação de Ruído Difuso

32

No caso de ruído unidirecional, foi utilizado sinal de ruído rosa originado da direção de

0𝑜. Como o conjunto de microfones é simétrico, o efeito esperado no caso em que o sinal de

ruído é proveniente de outras direções é o mesmo, de modo que este pode ser considerado

um caso genérico de ruído unidirecional, como mostrado na figura 4.7.

Figura 4.7: Configuração da Simulação de Ruído Unidirecional

33

Capítulo 5

Resultados

Experimentos foram realizados com conjuntos de 3 e de 5 microfones. Foram

considerados ambientes sem ruído, com ruído difuso e com ruído unidirecional, tendo sido

utilizado ruído rosa. As direções de chegada estimadas e esperadas foram apresentadas

graficamente para cada experimento realizado, permitindo a comparação. As DOAs estimadas

são exibidas em azul, enquanto as DOAs esperadas são representadas em vermelho. Tanto o

caso de misturas gravadas quanto o de misturas simuladas foram testados. Para os casos em

que foram utilizados 5 microfones, o conjunto inteiro de microfones foi utilizado, enquanto, no

caso em que foram utilizados 3 microfones, foram usadas as mesmas gravações, mas apenas

os sinais dos microfones 1, 2 e 3 foram considerados, de modo a avaliar a necessidade do uso

de 5 microfones. Os conjuntos de 3 e de 5 microfones são ilustrados na figura 5.1.

Figura 5.1: Conjuntos de 3 e de 5 microfones, respectivamente

5.1 – Método Formador de Feixes

Nesta seção são ilustrados os resultados das estimações de DOA por meio do método

formador de feixes. Primeiramente são expostos os resultados dos experimentos simulados, e

em seguida são exibidos os dos experimentos gravados.

34

5.1.1 - Experimentos Simulados

Nesta seção serão apresentados os resultados obtidos nos experimentos com sinais de

mistura simulados, para diversos valores de SNR. São realizados experimentos tanto com a

interferência de ruído difuso quanto com a de ruído unidirecional.

5.1.1.1 - Ruído Difuso

No experimento de ruído difuso, sinais de ruído originados das direções de −90𝑜, 0𝑜,

90𝑜 e 180𝑜 foram adicionados ao sinal de voz. Já que essas direções são simétricas

relativamente ao conjunto de microfones, essa configuração é considerada uma boa

representação de um ambiente de ruído difuso, uma vez que nenhuma direção específica

prevalece. Os resultados deste experimento são ilustrados na figura 5.2, sendo mostrados na

coluna da esquerda os resultados para o sistema com 3 microfones e, na coluna da direita, os

resultados para o sistema com 5 microfones. Em cada par de gráficos são apresentados os

resultados para uma determinada SNR, que decresce de 15 dB (na linha de cima) a 0 dB (na

linha de baixo).

Como se percebe analisando os gráficos, os resultados das simulações em geral se

assemelham aos esperados para SNR acima de 15 dB, de modo que as DOAs estimadas,

exibidas em azul, em geral coincidem com as esperadas, representadas em vermelho. Para o

caso de 3 microfones, os efeitos do ruído nas estimativas se tornam determinantes para uma

SNR de 5 dB. No caso em que são utilizados 5 microfones, que apresenta uma maior robustez,

um ambiente com SNR de 0 dB afeta o resultado de forma determinante.

35

Figura 5.2: Resultados dos experimentos simulados com sinais de voz sob interferência de ruído difuso,

para os sistemas com 3 microfones (à esquerda) e 5 microfones (à direita), para diferentes valores de

SNR.

3 mic, SNR=15 dB, Ruído Difuso

5 mic, SNR=15 dB, Ruído Difuso

3 mic, SNR=5 dB, Ruído Difuso

5 mic, SNR=5 dB, Ruído Difuso

3 mic, SNR=0 dB, Ruído Difuso 5 mic, SNR=0 dB, Ruído Difuso

Tempo(s) Tempo(s)

Tempo(s) Tempo(s)

Tempo(s) Tempo(s)

DO

A(g

rau

s)

DO

A(g

rau

s)

DO

A(g

rau

s)

DO

A(g

rau

s)

DO

A(g

rau

s)

DO

A(g

rau

s)

36

Nota-se que, no gráfico correspondente ao desempenho do sistema de 3 microfones

para SNR de 15 dB, no intervalo em que a direção de chegada é 180𝑜, as estimativas de DOA

se encontram distantes dos resultados esperados. Isso se deve à descontinuidade existente no

gráfico em relação ao ângulo de 180𝑜, de modo que as estimativas de ângulos um pouco

maiores que 180𝑜 aparecem próximas a −180𝑜, portanto na extremidade oposta à direção

esperada.

5.1.1.2 - Ruído Unidirecional

No experimento em que foi utilizado ruído unidirecional, ruído originado da direção de

0𝑜 foi adicionado à mistura simulada. Embora em todos os casos seja usado ruído proveniente

de uma única direção, o experimento pode ser considerado um caso genérico, devido à

simetria do conjunto de microfones. Os resultados são ilustrados na figura 5.3.

Nota-se que, para SNR de 20 dB, os ângulos estimados coincidem com os valores

esperados, de forma que os pontos representados em azul coincidem com os representados

em vermelho.

Em ambos os casos de 3 e 5 microfones, os efeitos do ruído unidirecional sobre as

direções de chegada estimadas começam a ser observados para SNR de 15 dB. Em ambientes

com SNR de 10 dB, os efeitos do ruído são mais significativos, uma vez que o algoritmo passa a

tomar como estimativa da direção de chegada a direção de 0𝑜, correspondente à direção de

ruído, em vez das direções do sinal de voz.

37

Figura 5.3: Resultados dos experimentos simulados com sinais de voz sob interferência de ruído

unidirecional, para os sistemas com 3 microfones (à esquerda) e 5 microfones (à direita), para diferentes

valores de SNR.

Conforme esperado, o ruído unidirecional afetou os resultados de forma mais intensa

que o ruído difuso, uma vez que o primeiro é originado de uma determinada direção, levando

o algoritmo a rastrear essa direção em vez da direção de chegada do sinal de voz.

3 mic, SNR=20 dB, Ruído Unidirecional 5 mic, SNR=20 dB, Ruído Unidirecional

3 mic, SNR=15 dB, Ruído Unidirecional

5 mic, SNR=15 dB, Ruído Unidirecional

3 mic, SNR=10 dB, Ruído Unidirecional

5 mic, SNR=10 dB, Ruído Unidirecional

Tempo(s) Tempo(s)

Tempo(s) Tempo(s)

Tempo(s) Tempo(s)

DO

A(g

rau

s)

DO

A(g

rau

s)

DO

A(g

rau

s)

DO

A(g

rau

s)

DO

A(g

rau

s)

DO

A(g

rau

s)

38

5.1.2 - Experimentos Gravados

Nestes experimentos, foram utilizados sinais gravados pelos microfones. Devido ao

fato de terem sido utilizados sinais gravados, existem novos fatores capazes de influenciar a

estimativa de DOA, como reverberações causadas pelas paredes da sala e incertezas

relacionadas ao funcionamento dos microfones.

5.1.2.1 - Ausência de Ruído

Neste experimento, sinais de voz foram gravados sem a interferência de ruído. Os

sinais foram originados nas direções de 0𝑜, −55𝑜, −90𝑜, −125𝑜, 180𝑜, 110𝑜, 90𝑜 e 70𝑜,

sequencialmente. Os resultados deste experimento são exibidos na figura 5.4.

Figura 5.4: Resultados dos experimentos gravados com sinais de voz sem interferência de ruído, para os

sistemas com 3 microfones (à esquerda) e 5 microfones (à direita).

As direções de chegada estimadas foram similares às esperadas, mostrando um

desempenho satisfatório do algoritmo em situações práticas. No entanto, os resultados

tiveram precisão e acurácia inferiores aos dos experimentos simulados, mostrando que a

reverberação afeta a qualidade da estimação da direção de chegada de forma considerável.

Nota-se neste experimento a mesma observação feita na Seção 5.1.1.1, referente à

descontinuidade no gráfico para o ângulo de 180𝑜, de modo que as estimativas um pouco

acima desse valor são representadas na extremidade oposta do gráfico, próximo a −180𝑜.

3 mic, Sem Ruído 5 mic, Sem Ruído

Tempo(s) Tempo(s)

DO

A(g

rau

s)

DO

A(g

rau

s)

39

5.1.2.2 - Ruído Difuso

Neste experimento, ruído rosa foi gerado dos quarto cantos da sala onde foram

realizadas as gravações, correspondendo às direções de −125𝑜, −55𝑜, 70𝑜 e 110𝑜,

simultaneamente. Uma vez que esses ângulos são aproximadamente simétricos, o

experimento pode ser considerado um bom teste de desempenho em ambientes com ruído

difuso.

Figura 5.5: Resultados dos experimentos gravados com sinais de voz sob interferência de ruído difuso,

para os sistemas com 3 microfones (à esquerda) e 5 microfones (à direita), para diferentes valores de

SNR.

Os efeitos do ruído nos experimentos com sinais gravados, conforme mostrado na

figura 5.5, não são notados de forma tão clara quanto os dos experimentos com sinais

simulados, uma vez que os resultados sem a interferência de ruído não são tão precisos. No

entanto, nota-se que os efeitos do ruído difuso sobre as estimativas são consideráveis para

3 mic, SNR=20 dB, Ruído Difuso 5 mic, SNR=20 dB, Ruído Difuso

3 mic, SNR=10 dB, Ruído Difuso

5 mic, SNR=10 dB, Ruído Difuso

Tempo(s) Tempo(s)

Tempo(s) Tempo(s)

DO

A(g

rau

s)

DO

A(g

rau

s)

DO

A(g

rau

s)

DO

A(g

rau

s)

40

uma SNR de 10 dB, em que a diferença entre as direções de chegada estimada e esperada é

mais significativa.

5.1.2.3 - Alvo Móvel

Neste experimento, um locutor se move ao redor da sala a uma velocidade

aproximadamente constante, falando constantemente, na ausência de ruído. O sinal de voz é

gravado pelo conjunto de microfones, localizado no centro da sala. Os resultados são

ilustrados na figura 5.6.

Figura 5.6: Resultados dos experimentos gravados com sinais de voz provenientes de um alvo móvel,

para os sistemas com 3 microfones (à esquerda) e 5 microfones (à direita).

Em geral, as direções de chegada estimadas foram similares aos ângulos esperados,

mostrando que o algoritmo responde apropriadamente a situações em que a posição da fonte

muda constantemente. Os desempenhos dos sistemas compostos por 3 e 5 microfones foram

aparentemente iguais.

5.2 – Método da Correlação Cruzada Generalizada (GCC_PHAT)

Nesta seção são expostos os resultados obtidos por meio do método GCC-PHAT. O

algoritmo é testado com os mesmos sinais gravados utilizados para testar o método formador

5 mic, Alvo Móvel 3 mic, Alvo Móvel

Tempo(s) Tempo(s)

DO

A(g

rau

s)

DO

A(g

rau

s)

41

de feixes, de modo que os desempenhos de ambas as técnicas possam ser comparados. Nesta

seção, serão ilustrados resultados de experimentos com sinais de voz gravados sem ruído e

com sinais de mistura gravados na presença de ruído difuso.

5.2.1 – Ausência de Ruído

Neste experimento, foram utilizados sinais de voz gravados na ausência de ruído.

Para ilustrar a técnica de combinação dos dois conjuntos de microfones, horizontal e

vertical, para a estimação da DOA, descrita na Seção 3.2.1, serão expostas as estimativas de

DOA obtidas por ambos os conjuntos lineares uniformes para determinados ângulos de

chegada, assim como as estimativas definitivas.

A figura 5.7 ilustra as DOAs estimadas pelos conjuntos de microfones, para um sinal de

voz gravado cuja DOA é igual a 70𝑜. Conforme se observa por meio dos resultados, a

estimativa encontrada por ambos os conjuntos lineares de microfones, na maior parte dos

frames, foi de 65𝑜, próxima do valor esperado.

Figura 5.7: Resultados para DOA=70°. À esquerda, a estimativa do conjunto horizontal de microfones, e, à direita, a estimativa do conjunto vertical.

A figura 5.8 apresenta o resultado definitivo da estimação da DOA pelo sistema.

42

Figura 5.8: Estimativa definitiva para DOA=70°.

A figura 5.9 ilustra as DOAs estimadas pelos conjuntos de microfones, para um sinal de

voz gravado cuja DOA é igual a −125𝑜. Conforme se observa por meio dos resultados, a

estimativa encontrada pelo conjunto horizontal foi de −65𝑜, sendo a DOA esperada para esse

conjunto igual a −55𝑜. Já a estimativa encontrada pelo conjunto vertical foi de 115𝑜, sendo a

DOA esperada para esse conjunto igual a 125𝑜.

Figura 5.9: Resultados para DOA=-125°. À esquerda, a estimativa do conjunto horizontal de microfones, e, à direita, a estimativa do conjunto vertical.

43

A estimativa do conjunto horizontal de microfones indica que a DOA é negativa,

enquanto a estimativa do conjunto vertical indica que a DOA possui módulo maior que 90𝑜. A

figura 5.10 apresenta o resultado definitivo da estimação da DOA pelo sistema.

Figura 5.10: Estimativa definitiva para DOA=-125°.

A figura 5.11 ilustra os resultados do sistema para o experimento em que sinais de voz

são emitidos das direções 0𝑜, 70𝑜, 90𝑜, 110𝑜, 180𝑜, −125𝑜, −90𝑜 e −55𝑜, sequencialmente,

sem a presença de ruído.

Figura 5.11: Estimativa da DOA pelo método GCC-PHAT sem interferência de ruído.

44

As direções de chegada estimadas foram similares às esperadas, mostrando um

desempenho satisfatório do algoritmo GCC-PHAT em situações práticas. As DOAs estimadas

apresentaram uma precisão maior do que as encontradas pelo método formador de feixes,

indicando que a os efeitos da reverberação sobre o formador de feixes são mais significativos

que aqueles sobre o GCC-PHAT.

5.2.2 – Ruído Difuso

Para testar o efeito do ruído sobre o desempenho do método GCC-PHAT, foram

realizados também experimentos com a presença de ruído difuso. Sinais de ruído rosa

provenientes das direções de −125𝑜, −55𝑜, 70𝑜 e 110𝑜, simultaneamente, foram gravados

pelos microfones, somando-se aos sinais de voz gravados. Os resultados são expostos na figura

5.12.

Figura 5.12: Estimativa da DOA pelo método GCC-PHAT com a influência de ruído difuso. À

esquerda, o resultado para SNR= 20 dB. À direita, o resultado para SNR = 10 dB.

Os efeitos do ruído sobre as estimativas das DOAs, como se percebe com base nos

resultados, foram significativos. Para SNR igual a 20 dB, a precisão da estimação diminui

consideravelmente, de modo que, em alguns trechos do gráfico, o algoritmo visivelmente

45

assume como direção de chegada as direções de 0𝑜, 90𝑜 e −90𝑜, correspondentes às direções

do ruído.

46

Capítulo 6

Conclusões e Trabalhos Futuros

O objetivo deste trabalho foi implementar algoritmos de estimação de DOA de sinais

de voz utilizando o método formador de feixes e o GCC-PHAT, de modo a determinar as DOAs

a partir de um sistema composto por 5 microfones posicionados na configuração de uma cruz.

Para combinar os dois conjuntos lineares uniformes (em linhas perpendiculares) de

microfones, foram desenvolvidas técnicas que permitissem a estimação de qualquer ângulo de

chegada no círculo trigonométrico.

Os algoritmos implementados neste trabalho funcionaram adequadamente em

ambientes com SNR relativamente alta. As gravações e os demais experimentos realizados

permitiram testá-los em situações semelhantes às práticas, avaliando sua capacidade de

estimar DOAs de sinais de voz em ambientes reais. Os resultados indicaram que o método

formador de feixes implementado sofre menor efeito do ruído, enquanto o algoritmo GCC-

PHAT produzido sofre menor influência da reverberação. Além disso, o sistema composto por

5 microfones apresenta maior robustez que o de 3 microfones, sofrendo menor influência

tanto do ruído quanto da reverberação. O ruído unidirecional apresentou maior efeito sobre as

estimativas de DOA que o ruído difuso.

Entre trabalhos futuros, destaca-se a implementação em C++ dos algoritmos de

estimação de DOA. Os códigos produzidos neste trabalho, escritos em Matlab, apresentam um

tempo de execução maior do que o desejável, devido à grande quantidade de iterações

necessárias e à longa duração dos sinais utilizados em alguns experimentos. Por se tratar de

uma linguagem interpretada, o Matlab exige um longo tempo de execução especialmente para

códigos que envolvem muitas iterações, característica recorrente de técnicas de

processamento de sinais.

Além da implementação dos algoritmos em C++, figura entre trabalhos futuros a

filtragem espacial de sinais de voz. Com base na DOA estimada, é possível destacar o sinal

47

proveniente desse ângulo, reduzindo o efeito de sinais de ruído provenientes de fontes

localizadas em outras direções.

Destaca-se ainda a realização de testes com novas configurações, como diferentes

combinações de microfones ou diferentes tipos de ruído. Pode-se testar, por exemplo, o

sistema formado pelos quatro microfones das extremidades do conjunto, sem o microfone

central, para avaliar a necessidade de utilizar cinco microfones. Pode-se analisar também o

desempenho do sistema na presença de ruído branco ou vermelho, comparando-o com o

desempenho sob interferência de ruído rosa.

48

Bibliografia

[1] BILLINGSLEY, J., KINNS, R., “The acoustic telescope”, Journal of Sound and Vibration, 48, pp. 485-510, 1976.

[2] KNAPP, C., CARTER, G., “The generalized correlation method for estimation of time delay”, Acoustics, Speech and Signal Processing, IEEE Transactions, 24, pp. 320-327, 1976.

[3] MARTIGNONI, M. A., “Voz – Analógica e Digital”, http://ativetelecom.com/solucoes/artigos/voz , 2006, (Acesso em 16 Janeiro 2015).

[4] KESHNER, M. S., “1/f Noise”, Proceedings of the IEEE, 70, pp. 212–218, 1982.

[5] LOPES, R., “Ruído Rosa”, http://pt.wikipedia.org/wiki/Ru%C3%ADdo_rosa, 2010, (Acesso em 20 Janeiro 2015).

[6] FIGUEIRÓ, F., “Relaxe Com o Ruído Branco, Rosa ou Marrom”, http://www.power-geek.com/2011/08/relaxe-com-o-ruido-branco-rosa-ou.html, 2011, (Acesso em 20 Janeiro 2015).

[7] CHEN, J., HUANG, Y., BENESTY, J., “Filtering Techniques for Noise Reduction and Speech Enhancement”, Adaptive Signal Processing: Applications to Real-World Problems, 5, pp. 144-148, 2002.

[8] RAEEN, K., “A Study of The Gibbs Phenomenon in Fourier Series and Wavelets”, M.Sc. dissertation, University of New Mexico, EUA, Agosto 2008.

[9] VEEN, B. V., BUCKLEY, K. M., “Beamforming Techniques for Spatial Filtering,” CRC Digital Signal Processing Handbook, 1999.

[10] ANGUERA, X., “GCC_PHAT Cross-Correlation”, http://www.xavieranguera.com/phdthesis/node92.html, 2008, (Acesso em 5 Janeiro 2015).

[11] TALANTZIS, F., CONSTANTINIDES, A. G., POLYMENAKOS, L. C., “Estimation of Direction of Arrival Using Information Theory”, IEEE Signal Processing Letters, Vol. 12, No. 8, 2005.

[12] GONTIJO, A. T., “Estimador de Direção de Chegada em Tempo Real com Arranjo de Microfones”, Seção 2.1, pp. 6, M.Sc. dissertation, Universidade de Brasília, Agosto 2010.