Upload
dangquynh
View
216
Download
0
Embed Size (px)
Citation preview
ESTIMATIVA DE DIREÇÃO DE CHEGADA DE SINAIS
DE VOZ UTILIZANDO MÉTODOS DIVERSOS
Felipe Rembold Petraglia
Projeto de Graduação apresentado ao Curso de
Engenharia Eletrônica e de Computação da Escola
Politécnica, Universidade Federal do Rio de
Janeiro, como parte dos requisitos necessários à
obtenção do título de Engenheiro.
Orientadora: Mariane Rembold Petraglia
Rio de Janeiro
Março de 2015
iii
UNIVERSIDADE FEDERAL DO RIO DE JANEIRO
Escola Politécnica – Departamento de Eletrônica e de Computação
Centro de Tecnologia, bloco H, sala H-217, Cidade Universitária
Rio de Janeiro – RJ CEP 21949-900
Este exemplar é de propriedade da Universidade Federal do Rio de Janeiro, que
poderá incluí-lo em base de dados, armazenar em computador, microfilmar ou adotar
qualquer forma de arquivamento.
É permitida a menção, reprodução parcial ou integral e a transmissão entre
bibliotecas deste trabalho, sem modificação de seu texto, em qualquer meio que esteja
ou venha a ser fixado, para pesquisa acadêmica, comentários e citações, desde que sem
finalidade comercial e que seja feita a referência bibliográfica completa.
Os conceitos expressos neste trabalho são de responsabilidade do autor.
iv
DEDICATÓRIA
Dedico este trabalho à minha família, em especial aos meus pais, que sempre me
apoiaram e priorizaram os estudos, me fornecendo as condições de uma boa educação
desde o ensino básico.
v
AGRADECIMENTO
Agradeço primeiramente à Mariane Rembold Petraglia, minha mãe e orientadora,
pela paciência e atenção ao longo deste trabalho.
Agradeço também ao meu pai, Antonio Petraglia, pelos conselhos e pela
experiência compartilhada ao longo da minha graduação. Demonstro também minha
gratidão ao meu irmão, Pedro Gabriel, pela companhia e pelo convívio harmonioso no
cotidiano.
Sou extremamente grato aos professores cujas disciplinas cursei ao longo do
curso de graduação. O conhecimento que adquiri em suas aulas foi de fundamental
importância para a minha formação como engenheiro. Agradeço também aos
funcionários da Universidade Federal do Rio de Janeiro (UFRJ), pois suas atuações são
decisivas para o sucesso dessa instituição de excelência.
Por fim, registro minha gratidão aos meus colegas de classe, em especial àqueles
pertencentes ao grupo de amigos que estiveram mais próximos de mim durante a
graduação. Tanto os momentos de estudo e de trabalho em equipe quanto os de
descontração foram extremamente proveitosos em sua companhia, e estimularam de
forma significativa a minha participação na UFRJ como aluno de graduação.
Sem vocês este projeto não teria sido possível.
vi
RESUMO
O presente trabalho consiste na implementação de algoritmos para estimar a
direção de chegada (DOA) de sinais de voz, com base em duas diferentes técnicas: o
método formador de feixes e o método baseado na correlação cruzada generalizada com
transformada de fase (GCC-PHAT).
A estimação da direção de chegada de sinais de voz é importante porque permite
a sistemas de comunicação detectar o ângulo de interesse e filtrar o sinal de interesse,
eliminando ruídos provenientes de outras direções. Com o uso crescente de
comunicação mãos-livres, muito útil em veículos, conferências, discursos, entre outras
situações, a potência do sinal de voz que chega aos microfones é menor, reduzindo a
razão sinal-ruído (SNR) dos sinais gravados. Desse modo, torna-se fundamental o
desenvolvimento de um sistema capaz de localizar a direção de chegada do sinal de voz,
de forma que este possa ser filtrado.
Nos experimentos realizados, sinais de voz foram capturados por um conjunto
de cinco microfones dispostos em forma de cruz. Os sinais gravados foram exportados
ao Matlab, linguagem em que os algoritmos foram implementados. Desse modo, os
algoritmos de detecção de DOA são executados e os resultados, produzidos e exibidos
em gráficos. Experimentos utilizando sinais de mistura simulados também foram
realizados para que, por meio da comparação dos seus resultados com os dos
experimentos com sinais gravados, pudesse se avaliar a influência de fatores como
reverberação e incertezas dos microfones sobre o funcionamento do sistema. Os
desempenhos dos algoritmos também foram comparados na presença de ruído para
diferentes SNRs.
Palavras-Chave: Direção de chegada; formadores de feixes; atraso temporal; correlação
cruzada generalizada com transformada de fase; processamento de sinais.
vii
ABSTRACT
The present work consists in the implementation of direction of arrival (DOA)
estimation algorithms for voice signals, based on two different methods: beamforming
and generalized cross correlation with phase transform (GCC-PHAT).
The direction of arrival estimation of voice signals is important since it allows
communication systems to detect the angle from which the voice signals are originated
and to enhance them, eliminating noise produced from other directions. With the
increase in the use of hands-free communications, very useful in vehicles, conferences,
speeches, among other situations, the voice signals arrive at the microphones with lower
energy, reducing the signal-to-noise ratio (SNR) of the recorded signals. Therefore, it is
very important to develop a system capable of determining the direction of arrival of the
voice signal, so that it can be filtered.
In the experiments performed, voice signals were captured by a five
microphones array positioned in the configuration of a cross. The recorded signals were
exported to Matlab, language in which the algorithms were implemented. The DOA
detection algorithms are then executed and the results are produced and plotted.
Experiments using simulated mixture signals are also performed so that, comparing its
results to the ones from the experiments using recorded signals, it is possible to measure
the influence of factors such as reverberation and microphone imprecision on the
system behavior. The performances of the algorithms were also compared in the
presence of noise, for different SNR values.
Key-words: Direction of arrival; beamforming; time-delay; generalized cross
correlation with phase transform; signal processing.
viii
SIGLAS
DOA – Direção de chegada (Direction of arrival)
DS – Atraso e soma (Delay and sum)
FFT – Transformada rápida de Fourier (Fast Fourier transform)
GCC-PHAT – Correlação cruzada generalizada com transformada de fase (Generalized
cross-correlation with phase transform)
GXPSD – Densidade espectral de potência cruzada generalizada (Generalized cross-
power spectral density)
PADS – Laboratório de Processamento Analógico e Digital de Sinais
STFT – Transformada de Fourier em tempo curto (Short-time Fourier transform)
UFRJ – Universidade Federal do Rio de Janeiro
ULA – Conjunto linear uniforme (Uniform linear array)
ix
Sumário
Capítulo 1: Introdução .................................................................................................................. 1
1.1 - Tema .................................................................................................................................. 1
1.2 - Delimitação ....................................................................................................................... 1
1.3 - Localização ........................................................................................................................ 2
1.4 - Justificativa ........................................................................................................................ 2
1.5 - Objetivo ............................................................................................................................. 3
1.6 - Metodologia ...................................................................................................................... 3
1.7 – Descrição do Texto ........................................................................................................... 4
Capítulo 2: Sinais e Sistema Utilizados .......................................................................................... 6
2.1 - Sinal de Voz e Ruído .......................................................................................................... 6
2.2 - Pré-processamento ........................................................................................................... 8
2.3 - Sistema utilizado ............................................................................................................. 11
2.3.1 - Conjunto Linear Uniforme (ULA) .............................................................................. 11
2.3.2 - Sistema Proposto ..................................................................................................... 14
Capítulo 3: Métodos de Estimação de DOA Implementados ...................................................... 19
3.1 - Método Baseado em Formador de Feixes Direcional ..................................................... 19
3.2 - Método da Correlação Cruzada Generalizada (GCC) ...................................................... 21
3.2.1 - Método Baseado no Atraso Temporal ..................................................................... 21
3.2.2 - Método da Correlação Cruzada Generalizada com Transformada de Fase (GCC-
PHAT) ................................................................................................................................... 25
Capítulo 4: Experimentos Realizados .......................................................................................... 27
4.1 - Gravações ........................................................................................................................ 27
4.2 - Simulações ...................................................................................................................... 30
Capítulo 5: Resultados ................................................................................................................. 33
5.1 – Método Formador de Feixes .......................................................................................... 33
5.1.1 - Experimentos Simulados .......................................................................................... 34
5.1.2 - Experimentos Gravados ........................................................................................... 38
5.2 – Método da Correlação Cruzada Generalizada (GCC_PHAT) ........................................... 40
5.2.1 – Ausência de Ruído ................................................................................................... 41
5.2.2 – Ruído Difuso ............................................................................................................ 44
Capítulo 6: Conclusões e Trabalhos Futuros ............................................................................... 46
Bibliografia .................................................................................................................................. 48
1
Capítulo 1
Introdução
1.1 - Tema
O tema deste trabalho é a detecção da direção de chegada (DOA) de sinais de voz,
sendo utilizados o método formador de feixes e o método da correlação cruzada generalizada
com transformada de fase (GCC-PHAT). Nesse sentido, desenvolve-se um sistema capaz de, a
partir dos sinais captados por um conjunto de microfones, calcular a direção de chegada do
sinal de voz. Com base nos atrasos entre os sinais obtidos pelos diferentes microfones, e
conhecendo-se a velocidade de propagação do som no ar e as distâncias entre os microfones,
é possível obter o ângulo da reta que passa pela fonte do sinal de voz e pelo conjunto de
microfones. Uma vez encontrada essa direção, é possível enfatizar o sinal de voz e filtrar ruídos
provenientes de outras fontes sonoras.
1.2 - Delimitação
O objeto de estudo é um sistema capaz de estimar a direção de chegada de sinais de
voz, composto por um conjunto de cinco microfones dispostos em forma de cruz. Dois
algoritmos de estimação de DOA são implementados e experimentos práticos são realizados
para testá-los. O trabalho, portanto, abrange a comparação de algoritmos de estimação da
direção de chegada do sinal de voz em ambientes silenciosos e ruidosos.
2
1.3 - Localização
Os primeiros estudos sobre o método formador de feixes datam de 1974, com autoria
de J. Billingsley e R. Kinns [1]. Denominado Telescópio Acústico (do inglês Acoustic Telescope),
a técnica consistia em localizar fontes de sinais acústicos com base na correlação entre sinais
gravados por vários microfones. Em 1976, o método de detecção de DOA baseado na
correlação cruzada generalizada com transformada de fase (GCC_PHAT) foi desenvolvido por
C. Knapp e G. Carter [2], aumentando a robustez do método de correlação em relação a efeitos
da reverberação. Nas décadas seguintes, novos métodos de formadores de feixes foram
desenvolvidos. O trabalho localiza-se, portanto, na implementação e comparação de técnicas
avançadas que permitem uma detecção mais acurada da direção de chegada dos sinais de voz.
1.4 - Justificativa
A invenção de dispositivos de viva-voz permite que o usuário se comunique de
forma mais conveniente e prática. Comunicação mãos-livres tem sido intensamente
desenvolvida recentemente, e tem se provado muito útil em veículos, teleconferências,
discursos, comandos por voz, entre outras situações.
No entanto, uma grande desvantagem desse invento é a diminuição da qualidade do
som que chega aos microfones. Com o aumento da distância entre o usuário e o dispositivo, a
energia do sinal de voz do usuário captado pelo microfone diminui, enquanto a potência do
ruído ambiente continua a ser a mesma, resultando em uma diminuição na razão sinal-ruído
(SNR), definida como a potência do sinal desejado que chega ao dispositivo dividida pela
potência do ruído que atinge o mesmo.
Para contornar este problema, um sistema que localiza as direções de chegada
(DOAs) de sinais de voz, permitindo a sua filtragem e a atenuação de ruídos provenientes de
outras fontes, é investigado.
Além do ruído, o efeito da reverberação sobre o sinal que atinge o microfone
também aumenta, uma vez que o sinal de voz emitido pelo usuário percorre outros caminhos
além da trajetória direta da pessoa ao altofalante, chegando ao microfone com diversos
atrasos e atenuações.
3
Essa condição geralmente afeta o desempenho dos algoritmos formadores de feixes
de uma forma considerável, comprometendo a sua capacidade de estimar a direção das fontes
desejadas. Consequentemente, a filtragem dos sinais de voz é menos eficaz.
Desse modo, a importância deste trabalho está relacionada à análise dos efeitos da
reverberação e do ruído nos algoritmos de estimação da direção de chegada, de forma a
comparar seus desempenhos e avaliar seus empregos na filtragem de sinais de voz e,
consequentemente, na melhoria de sistemas de comunicação viva-voz.
1.5 - Objetivo
O objetivo geral é, portanto, implementar algoritmos capazes de detectar a direção de
chegada do sinal de voz a partir dos sinais gravados por um conjunto de microfones. Dessa
forma, tem-se como objetivos específicos: (1) comparar os sinais gravados por microfones
situados em diferentes posições da sala; (2) calcular, com base em diferentes técnicas, o atraso
temporal entre eles; e (3) a partir das estimativas de atraso temporal entre os microfones,
calcular a direção de chegada do sinal de voz, conhecendo-se a distância entre os microfones e
a velocidade de propagação do som no ar.
1.6 - Metodologia
O método formador de feixes combina os sinais dos microfones no domínio da
frequência, 𝐗(𝜔), utilizando um vetor de peso 𝐖, encontrando o sinal de saída Y(𝜔). Uma vez
encontrado o sinal de saída, calcula-se a sua densidade espectral de potência 𝛷𝑌𝑌. O critério
utilizado para estabelecer os valores de 𝐖 foi o método do atraso e soma (do inglês delay-and-
sum), segundo o qual 𝐖 = 𝐃(𝜃𝑎𝑙𝑣𝑜, 𝜔), sendo 𝐃(𝜃𝑎𝑙𝑣𝑜, 𝜔) o vetor de direção (steering vector)
e 𝜃𝑎𝑙𝑣𝑜 o ângulo assumido como a direção de chegada. Desse modo, o ângulo 𝜃𝑎𝑙𝑣𝑜 que
maximiza 𝛷𝑌𝑌 é considerado a direção de chegada.
Já o método da correlação cruzada generalizada utiliza a correlação cruzada entre os
sinais gravados por cada par de microfones, multiplicada por uma função peso, para a
detecção do atraso entre os sinais. Dessa forma, encontra-se, para cada par de microfones, o
4
atraso em amostras que maximiza a correlação cruzada generalizada entre os sinais. Dividindo
esse valor pela taxa de amostragem, encontra-se o atraso entre os sinais dos microfones em
segundos. Conhecendo-se o valor do atraso e as posições dos microfones, e utilizando o
método dos mínimos quadrados, encontra-se o ângulo de chegada do sinal de voz.
Além da implementação dos algoritmos para obtenção da direção de chegada do sinal,
são realizadas gravações em uma sala, utilizando um conjunto de microfones, para avaliar os
seus desempenhos. O conjunto de microfones é posicionado no centro da sala, e o som é
emitido de um conjunto de altofalantes, posicionados em 8 direções distintas, de modo a
testar o algoritmo para diferentes ângulos de chegada.
Os sinais que chegam aos microfones são também simulados utilizando o aplicativo
Matlab, com o objetivo de comparar a eficiência dos algoritmos em situações em que não há
determinadas imprecisões que existem no caso real, como a interferência de reverberações ou
não-linearidades dos microfones e altofalantes.
Os resultados obtidos das direções de chegada serão exibidos em gráficos produzidos
em Matlab, comparativamente às direções de chegada esperadas, de modo a analisar a
eficiência de cada método.
1.7 – Descrição do Texto
O Capítulo 2 descreve os sinais e sistemas utilizados neste projeto. Características dos
sinais de voz e do ruído empregados são apresentadas, assim como considerações sobre o
conjunto de microfones utilizado e os sinais gravados.
O Capítulo 3 apresenta os métodos de estimação de direção de chegada
implementados. Suas formulações matemáticas são descritas e detalhes de implementação
são explicados.
No Capítulo 4, descrevem-se os experimentos realizados para testar os algoritmos
implementados. As configurações dos microfones e dos altofalantes nos diferentes ensaios
com sinais gravados são apresentadas e os testes com sinais de mistura simulados também são
expostos.
5
O Capítulo 5 apresenta os resultados obtidos, tanto referentes aos experimentos com
sinais gravados quanto àqueles com sinais simulados. Com base nos resultados, as técnicas de
estimação de DOA utilizadas são comparadas e os efeitos de ruído e reverberação sobre o
desempenho dos algoritmos evidenciados.
O Capítulo 6 apresenta conclusões e propostas de trabalhos futuros referentes ao
sistema desenvolvido e aos algoritmos implementados.
6
Capítulo 2
Sinais e Sistema Utilizados
2.1 - Sinal de Voz e Ruído
A voz é um sinal não-estacionário. Isso se deve ao fato de suas características
estatísticas, como média, variância, autocorrelação, entre outras, se modificarem ao longo do
tempo. Durante a fala, são emitidos sons com diferentes características. As vogais, por
exemplo, possuem frequências mais baixas, enquanto as consoantes possuem frequências
mais altas. Além disso, o sinal de voz é não-branco, pois não possui potência constante em
todas as frequências.
O sinal de voz ocupa a faixa do espectro de frequência entre 100 Hz e 8 kHz. Embora a
energia do sinal se concentre nas baixas frequências, a banda considerada fundamental para
manter a inteligibilidade da voz é a faixa entre 700 Hz e 3 kHz.
Em sistemas de telefonia, objetivando preservar a inteligibilidade do sinal de voz e,
simultaneamente, não utilizar uma largura de banda excessivamente grande, a banda de
frequência atribuída a um canal de voz é de 300 Hz a 3400 Hz [3]. Dessa forma, a largura de
banda total utilizada é, em geral, de 4 kHz, uma vez que nas extremidades da banda se utiliza
um faixa de frequências sem uso para separar canais de voz adjacentes, com a finalidade de
evitar interferências mútuas. Essa faixa adicional é denominada banda de guarda. A banda de
frequência geralmente utilizada em sistemas de telefonia é ilustrada na figura 2.1.
Desse modo, nos algoritmos implementados neste trabalho utilizaram-se apenas as
componentes de frequência dos sinais gravados na faixa de 300 Hz a 3400 Hz. As demais
componentes são desprezadas, a fim de se tratar apenas a faixa do sinal na frequência a ser
utilizada em telecomunicações. Eliminam-se assim componentes de ruído em frequências não
pertencentes a essa banda.
7
Figura 2.1: Banda de frequências atribuída a um canal de voz
O ruído rosa, utilizado neste trabalho para testar o efeito de ruído sobre o
desempenho do algoritmo, é um sinal cujo espectro é inversamente proporcional à frequência
[4]. Este nome lhe foi atribuído devido ao fato de possuir características intermediárias entre
as do ruído branco e as do ruído browniano, também denominado ruído vermelho. Enquanto o
espectro de frequência do ruído rosa 𝑆(𝜔) é proporcional a 1/𝜔, o espectro do ruído branco é
proporcional a 1/(𝜔0) e o do ruído vermelho, a 1/(𝜔2).
Figura 2.2: Espectro do Ruído Rosa em Escala Logarítmica (figura adaptada de [5])
8
O ruído rosa ocorre em diversas situações no meio natural. Exemplos de ocasiões em
que esse tipo de ruído ocorre são os ritmos de batimentos cardíacos, a luminosidade dos
quasares e o fluxo de tráfego.
Em relação às aplicações, o ruído rosa é muito utilizado nas medições de sistemas
acústicos. Sua utilidade se deve ao fato de possuir a mesma energia em todas as oitavas. O
teste do ruído rosa geralmente é feito em sistemas com múltiplos altofalantes, para testar se o
som proveniente das caixas chega a determinados locais com a intensidade adequada.
Nos últimos anos, o ruído rosa passou a ser utilizado também em ambientes de
trabalho ou de estudo [6]. O fato de apresentar potência mais alta em baixas frequências o
torna capaz de mascarar o som de fundo de baixa frequência, ajudando a aumentar a
produtividade e a concentração das pessoas no local.
2.2 - Pré-processamento
Inicialmente, os sinais obtidos são pré-processados por meio de um algoritmo de
redução de ruído, objetivando a melhoria da qualidade do sinal de voz, aplicação conhecida
pelo termo speech enhancement, do inglês. Trata-se de um processo complexo, uma vez que
existem diversos tipos de ruído capazes de afetar o sinal de voz, de modo que suas
características podem mudar drasticamente no tempo.
No caso em que o ruído tem distribuição espectral de banda estreita, pode-se suprimir
a interferência ruidosa por meio de uma filtragem digital. Quando o ruído tem distribuição
espectral de banda larga, no entanto, a filtragem de supressão de banda não é suficiente para
a eliminação do ruído. Nos métodos de detecção da direção de chegada implementados,
conforme dito anteriormente, foram utilizadas as componentes apenas na faixa de frequência
de 300 Hz a 3.4 kHz dos sinais dos microfones. No entanto, a interferência de ruído que possua
componentes nessa faixa de frequência permanece, podendo prejudicar a eficiência do
algoritmo de estimação da DOA.
9
Neste trabalho, a técnica utilizada para redução do ruído, antes de se aplicar o método
de estimação da DOA, foi a Subtração Espectral [7], um método eficaz para ruído de fundo
estacionário.
Dado um sinal gravado 𝑥(𝑛), considera-se que ele pode ser decomposto em um sinal
de voz 𝑠(𝑛) e um sinal de ruído 𝑣(𝑛), ou seja,
𝑥(𝑛) = 𝑠(𝑛) + 𝑣(𝑛). (2.1)
O processamento do sinal de mistura é feito no domínio da frequência, no qual o sinal
de mistura é representado como
𝑋(𝜔) = 𝑆(𝜔) + 𝑉(𝜔). (2.2)
Desse modo, segundo a abordagem da subtração espectral de potência, tem-se que
|𝑋(𝜔)|2 = |𝑆(𝜔) + 𝑉(𝜔)|2. (2.3)
Desenvolvendo a equação, encontra-se que
|𝑋(𝜔)|2 = |𝑆(𝜔)|2 + |𝑉(𝜔)|2 + 2|𝑆(𝜔)||𝑉(𝜔)|𝑐𝑜𝑠 𝜃,
(2.4)
sendo 𝜃 a diferença de fase entre o sinal de voz e o sinal de ruído. Considera-se que o sinal de
voz 𝑠(𝑛) e o de ruído 𝑣(𝑛) são processos aleatórios estacionários e não correlacionados,
permitindo a simplificação da equação (2.5), que resulta em
𝑋𝑀2(𝜔) = 𝑆𝑀
2(𝜔) + 𝑉𝑀2(𝜔),
(2.5)
sendo 𝑋𝑀(𝜔), 𝑆𝑀(𝜔) e 𝑉𝑀(𝜔) os valores médios das magnitudes de 𝑋(𝜔), 𝑆(𝜔) e 𝑉(𝜔),
respectivamente.
Portanto, a estimativa do espectro de potência do sinal de voz, 𝑆𝑀2(𝜔), é encontrada
subtraindo-se uma estimativa do espectro de potência do sinal de ruído, �̂�𝑀2
(𝜔), do espectro
de potência do sinal de mistura, 𝑋𝑀2(𝜔), ou seja,
�̂�𝑀2
(𝜔) = 𝑋𝑀2(𝜔) − �̂�𝑀
2(𝜔).
(2.6)
Desse modo, pode-se calcular a magnitude do espectro do sinal de voz como
10
�̂�𝑀 = √�̂�𝑀2
(𝜔) = √𝑋𝑀2(𝜔) − �̂�𝑀
2(𝜔).
(2.7)
Já de acordo com a subtração espectral de magnitude, a magnitude do sinal pode ser
diretamente estimada pela equação
�̂�𝑀(𝜔) = 𝑋𝑀(𝜔) − �̂�𝑀(𝜔).
(2.8)
Genericamente, o método da subtração espectral é dado pela fórmula
�̂�𝑀𝐵
(𝜔) = 𝑋𝑀𝐵(𝜔) − 𝜂�̂�𝑀
𝐵(𝜔), (2.9)
sendo 𝐵 um inteiro, geralmente igual a 1 ou 2, e 𝜂 um coeficiente para controlar a quantidade
de ruído subtraída. Desse modo, o espectro da voz é dado por
�̂�(𝜔) = [𝑋𝑀𝐵(𝜔) − 𝜂�̂�𝑀
𝐵(𝜔)]
1
𝐵𝑒𝑗𝛹(𝜔), (2.10)
onde 𝛹(𝜔) é a fase de 𝑋(𝜔). Na equação (2.9), para o caso da subtração espectral de
magnitude, 𝐵 =1 e 𝜂 =1, enquanto, no caso da subtração espectral de potência, define-se que
𝐵 =2 e 𝜂 =1.
Para estimar os espectros dos sinais, segmenta-se primeiramente o sinal de mistura
𝑥(𝑛) em blocos de tamanho N, de modo a tratar separadamente trechos em que este possa
ser considerado estacionário. Passa-se cada bloco para o domínio da frequência, por meio da
transformada discreta de Fourier, denominada em inglês discrete Fourier transform (DFT),
gerando blocos de N amostras espectrais. Esse processo é denominado transformada de
Fourier em tempo curto, do inglês short-time Fourier transform (STFT). Forma-se assim uma
matriz bidimensional, com informações nos domínios do tempo e da frequência, representada
por 𝑋(𝑘, 𝑚), sendo 𝑘 o índice do bin de frequência e 𝑚 o índice do bloco, representando,
portanto, a dimensão do tempo. O espectro do ruído é estimado por meio das seguintes
equações:
V̂𝑀𝐵 (𝑘, 𝑚) = 𝛼𝐴V̂𝑀
𝐵 (𝑘, 𝑚 − 1) + (1 − 𝛼𝐴)X𝑀𝐵 (𝑘, 𝑚), se X𝑀
𝐵 (𝑘, 𝑚) ≥ V̂𝑀𝐵 (𝑘, 𝑚 − 1)
V̂𝑀𝐵 (𝑘, 𝑚) = 𝛼𝐵V̂𝑀
𝐵 (𝑘, 𝑚 − 1) + (1 − 𝛼𝐵)X𝑀𝐵 (𝑘, 𝑚), se X𝑀
𝐵 (𝑘, 𝑚) < V̂𝑀𝐵 (𝑘, 𝑚 − 1), (2.11)
onde 𝑋𝑀(𝑘, 𝑚) = |𝑋(𝑘, 𝑚)|, e 𝛼𝐴 e 𝛼𝐵 são parâmetros de valor entre 0 e 1 que controlam as
constantes de tempo das iterações, sendo 𝛼𝐴 > 𝛼𝐵. Desse modo, nos blocos em que o sinal de
mistura possui grande quantidade de energia em relação ao sinal de ruído estimado,
11
considera-se que o sinal é composto predominantemente por voz, atualizando-se mais
lentamente a estimativa de ruído. Já nos blocos em que o sinal de mistura possui pequena
quantidade de energia em relação ao sinal de ruído estimado, considera-se que não há sinal de
voz, de modo que o sinal de mistura consiste basicamente em ruído, atualizando-se mais
rapidamente a estimativa de ruído. Valores típicos de 𝛼𝐴 e 𝛼𝐵 são 0.96 e 0.92,
respectivamente.
A figura 2.3 ilustra o diagrama de blocos do algoritmo de Subtração Espectral, sendo
ISTFT a STFT inversa.
Figura 2.3: Diagrama de Blocos do Algoritmo de Subtração Espectral
2.3 - Sistema utilizado
Inicialmente é descrito o sistema mais simples ULA e, em seguida, o sistema proposto
neste trabalho.
2.3.1 - Conjunto Linear Uniforme (ULA)
O conjunto linear uniforme – do inglês Uniform Linear Array (ULA) – consiste em um
agrupamento de microfones dispostos em linha reta de modo que as distâncias entre
microfones adjacentes sejam iguais. O conjunto de microfones recebe sinais de diferentes
direções. Esses sinais consistem não apenas do sinal de voz desejado, mas também de ruído
proveniente de diversas fontes. A figura 2.4 ilustra o conjunto linear uniforme (ULA) de
microfones.
12
Figura 2.4: Conjunto Linear Uniforme de Microfones
Os sinais gravados pelo agrupamento de microfones, definidos como elementos do
vetor 𝒙(𝑡), consistem na mistura de 𝑠(𝑡), o sinal de voz original atenuado pelo sistema
correspondente à trajetória entre a fonte e o microfone de referência, e de 𝑣(𝑡), o ruído
proveniente de outras fontes. Desse modo, o sinal que chega a um determinado microfone i é
representado como
𝑥𝑖(𝑡) = 𝛼𝑖𝑠(𝑡 − 𝜏𝑖) + 𝑣𝑖(𝑡), (2.12)
onde 𝛼𝑖 é a atenuação e 𝜏𝑖 é o atraso sofridos pelo sinal de voz no trajeto ao microfone 𝑖.
No caso do Conjunto Linear Uniforme, o atraso entre dois microfones adjacentes pode
ser calculado com base na geometria ilustrada na figura 2.5, onde é adotada a suposição de
campo distante, ou seja, considera-se que o altofalante está afastado dos microfones por uma
distância suficientemente grande para que o sinal possa ser tratado como uma onda plana.
13
Figura 2.5: Distância entre Microfones Horizontalmente Adjacentes
A distância adicional percorrida pelo sinal entre dois microfones adjacentes é igual a
𝑑 sin (𝜃), onde 𝑑 é a distância entre microfones adjacentes e 𝜃 é a direção de chegada do
sinal. Desse modo, o atraso temporal entre os sinais de ambos os microfones é dado por
𝜏 =𝑑 sin (𝜃)
𝑣,
(2.13)
onde 𝑣 é a velocidade de propagação do som no ar, aproximadamente 343 m/s.
Dado que o vetor 𝐱(k) = [x1(𝑘) x2(𝑘) … x𝑁(𝑘)] 𝑇 contém as amostras dos sinais
gravados pelos N microfones na amostra temporal k, ao tomarmos como referência o
microfone localizado na extremidade esquerda do conjunto, tem-se que
𝐱(𝑘) = [𝛼1𝑠(𝑘) 𝛼2𝑠(𝑘 − τ21) … 𝛼𝑁𝑠(𝑘 − τ𝑁1)]𝑇 + [v1(𝑘) v2(𝑘) … v𝑁(𝑘)] 𝑇 . (2.14)
Aplicando a transformada de Fourier, obtém-se a representação do vetor 𝐱(k) no
domínio da freqüência:
𝐗(𝜔) = [𝛼1𝑆(𝜔) 𝛼2𝑆(𝜔)𝑒𝑗𝜔𝜏21 … 𝛼𝑁𝑆(𝜔)𝑒𝑗𝜔𝜏𝑁1]𝑇 + [𝑉1(𝜔) V2(𝜔) … V𝑁(𝜔)] 𝑇 , (2.15)
de modo que
𝐗(𝜔) = 𝑆(𝜔)𝐃(𝜔) + 𝐕(𝜔), (2.16)
onde
14
𝐃(𝜔) = [𝛼1 𝛼2𝑒𝑗𝜔𝜏21 … 𝛼N𝑒𝑗𝜔𝜏𝑁1 ]𝑇 . (2.17)
2.3.2 - Sistema Proposto
Embora o Conjunto Linear Uniforme de microfones seja utilizado com frequência, ele
apresenta uma limitação em relação à faixa de ângulos que é capaz de rastrear. Por se tratar
de um conjunto de microfones posicionados em uma única reta, o sistema não oferece
informação suficiente para se determinar em qual lado do conjunto a fonte está localizada.
Para ilustrar esse fato, considere os sinais de voz A, emitido de uma direção 𝜃, e B,
emitido da direção (180𝑜 − 𝜃), como mostra a figura 2.6.
Figura 2.6: Ambiguidade do Conjunto Linear Uniforme de Microfones
Uma vez que, conforme visto anteriormente, os atrasos entre os sinais dos microfones
são dependentes apenas de sin(𝜃), os sinais A e B seriam considerados oriundos de uma
mesma direção, já que
15
sin(𝜃) = sin(180𝑜 − 𝜃). (2.18)
Devido a essa ambiguidade, o Conjunto Linear Uniforme de microfones permite
apenas que se encontre um ângulo de chegada pertencente ao intervalo entre −90𝑜 𝑒 90𝑜.
Para solucionar este problema, utilizou-se neste projeto um conjunto de 5 microfones
localizados na mesma altura, estando um deles posicionado no centro e os outros 4
simetricamente posicionados e igualmente espaçados do microfone central, conforme
ilustrado na figura 2.7. Neste trabalho, considera-se que as fontes estão localizadas no mesmo
plano horizontal em que se encontram os microfones, ou seja, na mesma altura.
Figura 2.7: Conjunto Bidimensional de Microfones
Considerando o sinal captado pelo microfone central como referência 𝑠(𝑡), os sinais
que chegam aos microfones podem ser representados do modo a seguir, sendo os microfones
numerados conforme ilustrado na figura 2.8:
𝑥1(𝑡) = a12𝑠(𝑡 − 𝜏12)
𝑥2(𝑡) = 𝑠(𝑡)
𝑥3(𝑡) = a32𝑠(𝑡 − 𝜏32)
𝑥4(𝑡) = a42𝑠(𝑡 − 𝜏42)
𝑥5(𝑡) = a52𝑠(𝑡 − 𝜏52), (2.19)
16
sendo ai2 e 𝜏𝑖2 as atenuações e os atrasos, respectivamente, do sinal do microfone 𝑖 em
relação ao sinal do microfone de referência 2.
Figura 2.8: Numeração dos Microfones
Conforme descrito na Seção 2.3.1, uma vez sendo as distâncias entre os microfones
desprezíveis em relação à distância entre o conjunto de microfones e a fonte, pode-se
considerar a suposição de campo distante, de modo que as atenuações dos sinais dos
diferentes microfones em relação ao sinal original são aproximadamente iguais. Dessa forma,
podemos simplificar a representação dos sinais dos microfones, desconsiderando os diferentes
coeficientes de atenuação, ou seja,
𝑥1(𝑡) = 𝑠(𝑡 − 𝜏12)
𝑥2(𝑡) = 𝑠(𝑡)
𝑥3(𝑡) = 𝑠(𝑡 − 𝜏32)
𝑥4(𝑡) = 𝑠(𝑡 − 𝜏42)
𝑥5(𝑡) = 𝑠(𝑡 − 𝜏52).
(2.20)
Os atrasos 𝜏32 e 𝜏42 entre os microfones 3 e 4 e o microfone de referência, conforme
ilustrado na figura 2.5, são iguais a
𝜏32 = 𝜏42 =𝑑sin (𝜃)
𝑣.
(2.21)
17
No conjunto de microfones utilizado neste trabalho, a distância 𝑑 é igual a 0.1 m. A
velocidade de propagação do som no ar, 𝑣, foi considerada 343 m/s.
O atraso temporal entre sinais de microfones verticalmente adjacentes é calculado
com base na geometria ilustrada na figura 2.9.
Figura 2.9: Distância entre Microfones Verticalmente Adjacentes
A distância adicional percorrida pelo sinal entre dois microfones verticalmente
adjacentes é igual a 𝑑cos (𝜃). Consequentemente, o atraso temporal entre os sinais dos
microfones é descrito como
𝜏 =𝑑cos (𝜃)
𝑣.
(2.22)
Os atrasos 𝜏12 e 𝜏52, portanto, são dados por
𝜏12 = 𝜏52 =𝑑cos (𝜃)
𝑣.
(2.23)
Passando 𝑥(𝑡) para o domínio da frequência, temos
18
𝐗(𝜔) = S(𝜔)𝐃(𝜔) + 𝐕(𝜔), (2.24)
onde
𝐃(𝜔) = [𝑒𝑗𝜔𝑑cos (𝜃)
𝑣 1 𝑒𝑗𝜔𝑑sin (𝜃)
𝑣 𝑒−𝑗𝜔𝑑sin (𝜃)
𝑣 𝑒−𝑗𝜔𝑑cos (𝜃)
𝑣 ]𝑇 .
(2.25)
Desse modo, conhecendo-se a relação entre os sinais dos microfones e as direções de
chegada dos sinais gravados, será possível estimar a DOA de sinais de voz com base em
diferentes métodos, que serão descritos no Capítulo 3.
19
Capítulo 3
Métodos de Estimação de DOA
Implementados
Neste capítulo são descritos os dois métodos de estimação de DOA implementados
neste trabalho: o método baseado em formador de feixes direcional e o algoritmo baseado na
correlação cruzada generalizada com transformada de fase (GCC_PHAT).
A representação dos sinais gravados pelos microfones no domínio da frequência foi
obtida por meio da STFT, de modo que para cada bloco de amostras (frame) será estimada a
DOA, uma vez que o sinal é considerado estacionário ao longo do frame. A STFT foi realizada
utilizando a janela de Hanning, com o objetivo de apresentar variações mais suaves nas bordas
dos frames. Dessa forma pretende-se evitar a presença de ripples, fenômeno conhecido como
efeito de Gibbs [8]. Foi utilizada sobreposição de 50% das amostras entre blocos adjacentes.
Neste capítulo, para simplificar a notação, não será incluído o índice do frame na
representação do sinal no domínio da frequência.
3.1 - Método Baseado em Formador de Feixes Direcional
A propriedade de formadores de feixes [9] de destacarem sinais provenientes de uma
determinada direção e atenuarem os demais pode ser utilizada na estimação da direção de
chegada. Empregando o método formador de feixes em cada direção possível, considerando
valores discretos, encontra-se a potência do sinal de saída. Desse modo, a direção que resultar
no sinal de saída de maior potência é considerada a direção de chegada estimada.
Para cada amostra na frequência, os sinais dos microfones são multiplicados por pesos
complexos e somados, obtendo-se a saída do formador de feixes:
20
Y(𝑘) = 𝐖𝐻𝐗(𝑘), (3.1)
sendo, para o conjunto de microfones adotado neste trabalho,
𝐖 = [W1 W2 W3 W4 W5]𝑇 . (3.2)
A potência do sinal de saída será usada como parâmetro na estimação da direção de
chegada do sinal. A densidade espectral de potência do sinal de saída do formador de feixes
pode ser estimada por
ΦYY(𝑘) = Y(𝑘)Y∗(𝑘)
= (𝐖𝐻𝐗(𝑘))(𝐖𝐻𝐗(𝑘))∗
= (𝐖𝐻𝐗(𝑘))(𝐗𝐻(𝑘)𝐖)
= 𝐖𝐻(𝐗(𝑘)𝐗𝐻(𝑘))𝐖
= 𝐖𝐻𝚽𝐗𝐗(𝑘)𝐖,
(3.3)
onde 𝚽𝐗𝐗(𝜔) é uma matriz de dimensões 5x5, representando a matriz de densidade espectral
cruzada entre os sinais dos microfones.
Um importante parâmetro do sistema é a sua função resposta, caracterizada pela
razão entre o sinal de saída do formador de feixes e o sinal original, proveniente da fonte
acústica. Considerando o caso sem a interferência de ruído, a representação do sinal de saída
no domínio da frequência é dada por
Y(𝑘) = 𝐖𝐻𝐗(𝑘)
= 𝐖𝐻S(𝑘)𝐃(𝑘).
(3.4)
Como o termo 𝜏𝑖2, presente na expressão de 𝐃(𝜔), é função do ângulo de incidência
𝜃, a equação (3.4) pode ser reescrita como
Y(𝜃, 𝑘) = 𝐖𝐻S(𝑘)𝐃(𝜃, 𝑘). (3.5)
Consequentemente, a função resposta é dada por
21
R(𝜃, 𝑘) =
Y(𝜃, 𝑘)
S(𝑘)= 𝐖𝐻𝐃(𝜃, 𝑘).
(3.6)
O critério de definição do vetor peso 𝐖 utilizado neste trabalho foi o atraso e soma
(do inglês delay and sum). Esse critério atribui ao peso os atrasos causados pelo trajeto do
sinal, para um determinado ângulo de incidência, denominado direção alvo. Desse modo, os
pesos do formador de feixes para uma determinada direção 𝜃𝑎𝑙𝑣𝑜 são dados por
𝐖 = 𝐃(𝜃𝑎𝑙𝑣𝑜 , 𝑘).
(3.7)
A direção que resulta no sinal de saída do formador de feixes com maior potência é
considerada a direção de chegada estimada do sinal. Como a densidade espectral de potência
do sinal de saída varia de acordo com o bin de frequência, a direção de chegada final será igual
à direção que maximiza o valor médio da densidade espectral de potência considerando os
bins de frequência entre 300 Hz e 3400 Hz, correspondente à faixa de frequência em que se
concentra a potência do sinal de voz.
3.2 - Método da Correlação Cruzada Generalizada (GCC)
Outra técnica implementada neste trabalho foi o método baseado na correlação
cruzada generalizada (GCC) [2], caracterizado pela estimação da DOA a partir da matriz de
correlação cruzada entre os sinais gravados pelos microfones. O método mais conhecido que
se baseia na correlação cruzada é o do atraso temporal, descrito na Seção 3.2.1. O método
implementado neste trabalho é o da correlação cruzada generalizada com transformada de
fase (GCC-PHAT) [10], descrito na Seção 3.2.2, sendo este uma adaptação do método baseado
no atraso temporal [11].
3.2.1 - Método Baseado no Atraso Temporal
O método de estimação da direção de chegada baseado no atraso temporal [11]
consiste em calcular o atraso temporal entre os sinais de cada par de microfones e, em
seguida, utilizando as informações conhecidas acerca das posições dos microfones, estimar a
direção de chegada do sinal.
22
Entre os métodos de estimação da direção de chegada, trata-se de uma das técnicas
de menor custo computacional, uma vez que não envolve busca exaustiva entre todos os
ângulos possíveis, como ocorre nas demais principais técnicas. Além disso, este algoritmo
apresenta a particularidade de poder tratar diretamente sinais de banda larga. Em
compensação, esta técnica é útil somente para os casos em que há sinal de apenas uma fonte
incidindo sobre o conjunto de microfones.
Para estimar o atraso temporal entre os sinais de um par de microfones, calcula-se
primeiramente a função correlação cruzada entre os sinais. O índice correspondente ao
máximo dessa correlação, uma vez tendo a sua unidade convertida de amostras para
segundos, é tido como o atraso entre os dois sinais.
Considerando um conjunto linear uniforme de N microfones separados por uma
distância d, o número total de pares de microfones que se podem formar é igual a
(
𝑁
2) =
𝑁!
2! (𝑁 − 2)!.
(3.8)
Os experimentos realizados utilizando esse método foram feitos com dois conjuntos
de N = 3 microfones alinhados em direções perpendiculares, com espaçamento de d = 10 cm,
formando a configuração de uma cruz no plano horizontal.
Dados dois microfones, i e j, sejam 𝑥𝑖(𝑛) e 𝑥𝑗(𝑛) os sinais dos microfones, onde 𝑛 é o
índice temporal das amostras. 𝑋𝑖(𝑘) e 𝑋𝑗(𝑘) são as amostras dos sinais no domínio da DFT,
sendo 𝑘 o índice da amostra. A densidade espectral de potência cruzada entre os sinais é
estimada por
𝛷𝑥𝑖𝑥𝑗(𝑘) = 𝑋𝑖(𝑘)𝑋𝑗
∗(𝑘). (3.9)
A correlação cruzada entre os sinais é dada pela DFT inversa da densidade espectral de
potência cruzada, ou seja,
𝑅𝑥𝑖𝑥𝑗(𝑙) =
1
𝑀∑ 𝛷𝑥𝑖𝑥𝑗
𝑀−1
𝑘=0
(𝑘)𝑒𝑗2𝜋𝑘𝑙
𝑀 , (3.10)
onde M é o comprimento da sequência correspondente à densidade espectral de potência
cruzada e 𝑙 é a defasagem. A correlação cruzada pode ser calculada para os possíveis valores
positivos e negativos de 𝑙. A defasagem que maximiza 𝑅𝑥𝑖𝑥𝑗(𝑙) é o número de amostras de
atraso entre os dois sinais. Portanto, o atraso temporal é dado por
23
𝜏𝑖𝑗 =
1
𝐹𝑠arg 𝑚𝑎𝑥 (𝑅𝑥𝑖𝑥𝑗
(𝑙)). (3.11)
Desse modo, forma-se um vetor τ de dimensões (𝑁2
)x1 contendo os atrasos
temporais entre os sinais de todos os pares de microfones. No caso do conjunto de microfones
disposto de forma horizontalmente linear, sabe-se que, para cada par de microfones i e j, a
relação entre o atraso temporal e a direção de chegada é dada por
𝑑𝑖𝑗sin𝜃 = −𝑣𝜏𝑖𝑗 , (3.12)
de acordo com a equação (2.14), demonstrada no Capítulo 2. Considerando essa equação para
todos os pares de microfones do conjunto horizontalmente linear, tem-se que
𝒅sin𝜃 = −𝑣𝝉,
(3.13)
onde 𝒅 é um vetor de dimensões (𝑁2
)x1 contendo as distâncias entre cada par de microfones
e Ѳ é a direção de chegada do sinal. Essa equação apresenta (𝑁2
) equações e apenas uma
incógnita, o ângulo Ѳ. Desse modo, o sistema é resolvido encontrando-se a solução de
mínimos quadrados, dada por
sin𝜃 = (𝒅𝑇𝒅)−1𝒅𝑇(−𝑣𝝉).
(3.14)
Consequentemente, tem-se que
𝜃ℎ = sin−1[(𝒅𝑇𝒅)−1𝒅𝑇(−𝑣𝝉)].
(3.15)
Daí encontra-se a direção de chegada 𝜃ℎ obtida utilizando o conjunto horizontalmente
linear de microfones, podendo assumir valores entre −90𝑜e 90𝑜 .
Analogamente, no caso do conjunto de microfones disposto de forma verticalmente
linear, sabe-se que, para cada par de microfones i e j, a relação entre o atraso temporal e a
direção de chegada é dada por
𝑑𝑖𝑗cos𝜃 = −𝑣𝜏𝑖𝑗 .
(3.16)
Similarmente, por meio de mínimos quadrados, tem-se que
24
𝜃𝑣 = cos−1[(𝒅𝑇𝒅)−1𝒅𝑇(−𝑣𝝉)].
(3.17)
A direção de chegada 𝜃𝑣, encontrada utilizando o conjunto vertical de microfones,
pode assumir valores entre 0𝑜 e 180𝑜.
Para combinar os valores de 𝜃ℎ e 𝜃𝑣 e encontrar a direção de chegada definitiva 𝜃, são
utilizados os seguintes critérios:
Se 𝜃ℎ > 0𝑜 e 𝜃𝑣 < 90𝑜, então 𝜃 está localizado no primeiro quadrante do círculo
trigonométrico, ou seja, 0𝑜 < 𝜃 < 90𝑜;
Se 𝜃ℎ > 0𝑜 e 𝜃𝑣 > 90𝑜, então 𝜃 está localizado no segundo quadrante do círculo
trigonométrico, ou seja, 90𝑜 < 𝜃 < 180𝑜;
Se 𝜃ℎ < 0𝑜 e 𝜃𝑣 > 90𝑜, então 𝜃 está localizado no terceiro quadrante do círculo
trigonométrico, ou seja, −180𝑜 < 𝜃 < −90𝑜;
Se 𝜃ℎ < 0𝑜 e 𝜃𝑣 < 90𝑜, então 𝜃 está localizado no quarto quadrante do círculo
trigonométrico, ou seja, −90𝑜 < 𝜃 < 0𝑜.
Os quatro quadrantes do círculo trigonométrico são ilustrados na figura 3.1.
Figura 3.1: Quadrantes do Círculo Trigonométrico
Desse modo, elimina-se a ambiguidade em relação à direção de chegada obtida por
um único conjunto linear uniforme de microfones.
25
Os ângulos 𝜃ℎ e 𝜃𝑣 são combinados de modo a garantir a maior precisão possível da
direção de chegada 𝜃. É sabido que o valor 𝜃ℎ apresenta uma maior precisão que 𝜃𝑣 quando
−45𝑜 < 𝜃 < 45𝑜, 𝜃 > 135𝑜 ou 𝜃 < −135𝑜. Já o valor de 𝜃𝑣 apresenta uma maior precisão
quando 45𝑜 < 𝜃 < 135𝑜 ou −135𝑜 < 𝜃 < −45𝑜. Portanto, o valor atribuído a 𝜃 é
estabelecido de acordo com os seguintes critérios:
Se −45𝑜 < 𝜃ℎ < 45𝑜 e 𝜃𝑣 < 90𝑜, então 𝜃 = 𝜃ℎ;
Se −45𝑜 < 𝜃ℎ < 45𝑜 e 𝜃𝑣 > 90𝑜, então 𝜃 = 180𝑜 − 𝜃ℎ;
Se 𝜃ℎ > 45𝑜, então 𝜃 = 𝜃𝑣;
Se 𝜃ℎ < −45𝑜, então 𝜃 = −𝜃𝑣.
3.2.2 - Método da Correlação Cruzada Generalizada com Transformada de Fase
(GCC-PHAT)
Na Seção 3.2.1, foi descrito o método de estimação da direção de chegada baseado no
atraso temporal, que consiste em encontrar o atraso que maximiza a correlação cruzada entre
pares de sinais gravados, conforme a equação
𝑅𝑥𝑖𝑥𝑗(𝜏) = 𝐸[𝑥𝑖(𝑛)𝑥𝑗(𝑛 − 𝜏)]. (3.18)
O método da correlação cruzada generalizada (GCC) [2] consiste em uma versão mais
genérica da equação (3.18). A correlação cruzada generalizada pode ser definida como
𝑅𝑥𝑖𝑥𝑗
(𝑔) (𝜏) = 𝐸[(ℎ𝑖(𝑛) ∗ 𝑥𝑖(𝑛))(ℎ𝑗(𝑛 − 𝜏) ∗ 𝑥𝑗(𝑛 − 𝜏) )]. (3.19)
Conforme se observa na equação (3.19), para computar a correlação cruzada
generalizada, os sinais dos microfones inicialmente são pré-filtrados. Em seguida, calcula-se a
correlação cruzada entre os sinais. A GCC também pode ser computada no domínio da
frequência, calculando-se a densidade espectral de potência cruzada generalizada (GXPSD),
definida como
𝛷𝑥𝑖𝑥𝑗
(𝑔) (𝑘) = [𝐻𝑖(𝑘)𝑋𝑖(𝑘)][𝐻𝑗(𝑘)𝑋𝑗(𝑘)]∗. (3.20)
26
As duas pré-filtragens podem ser combinadas e representadas por um único filtro,
ψ𝑖𝑗(𝑘), ou seja,
𝛷𝑥𝑖𝑥𝑗
(𝑔) (𝑘) = ψ𝑖𝑗(𝑘)𝑋𝑖(𝑘)𝑋𝑗∗(𝑘),
(3.21)
onde
ψ𝑖𝑗(𝑘) = 𝐻𝑖(𝑘)𝐻𝑗∗(𝑘). (3.22)
Para encontrar a GCC, realiza-se a transformada inversa de Fourier da GXPSD,
obtendo-se
𝑅𝑥𝑖𝑥𝑗
(𝑔)(𝑙) =
1
𝑀∑ 𝛷𝑥𝑖𝑥𝑗
(𝑔)
𝑀−1
𝑘=0
(𝑘)𝑒𝑗2𝜋𝑘𝑙
𝑀 . (3.23)
A escolha da função de pré-filtragem ψ𝑖𝑗(𝑘) depende do critério de pesagem
requerido pela situação. De acordo com o método GCC-PHAT [10], realiza-se a transformada
de fase, do inglês phase transform (PHAT), definindo-se ψ𝑖𝑗(𝑘) como
ψ𝑖𝑗(𝑘) =1
|�̂�𝑥𝑖𝑥𝑗(𝑘)|
, (3.24)
onde �̂�𝑥𝑖𝑥𝑗(𝑘) é uma estimativa da densidade espectral de potência cruzada do par de sinais
gravados 𝑥𝑖 e 𝑥𝑗. Com o emprego da PHAT, a função GXPSD se aproxima de um impulso
discreto, tornando mais proeminente o pico dessa função.
Dessa forma, a matriz de correlação cruzada generalizada é calculada por meio da
seguinte equação:
𝑅𝑥𝑖𝑥𝑗
(𝑔)(𝜏) =
1
𝑀∑
1
|�̂�𝑥𝑖𝑥𝑗(𝑘)|
𝛷𝑥𝑖𝑥𝑗
𝑀−1
𝑘=0
(𝑘)𝑒𝑗2𝜋𝑘𝑙
𝑀 ,
(3.25)
ou seja, compensa-se o módulo da densidade espectral cruzada dos sinais dos microfones.
27
Capítulo 4
Experimentos Realizados
4.1 - Gravações
Para testar o sistema desenvolvido, sinais de voz foram gravados em uma sala de 10
metros de comprimento, 6 metros de largura e 3 metros de altura, utilizando um conjunto de
5 microfones dispostos em uma configuração com formato de uma cruz, conforme mostrado
na figura 4.1. Além disso, foram utilizados 4 altofalantes, de modo a emitir os sinais de voz e
de ruído de diferentes extremidades da sala.
Durante as gravações, dentro da sala havia apenas os altofalantes e o computador
próximos às paredes, além do conjunto de microfones ao centro. Havia uma mesa ao centro da
sala, em que foi posicionado o conjunto de microfones, e outra próxima à parede, em que
foram dispostos o computador e o monitor. Os altofalantes possuíam suportes próprios. A sala
não possuía janelas nem tratamento acústico para reduzir a reverberação. Apenas nos vãos da
porta da sala, foram colocadas esponjas, de modo a isolar o ambiente de ruído proveniente do
exterior da sala.
Figura 4.1: Conjunto de 5 Microfones na Configuração de uma Cruz
28
Para realizar a conexão entre os microfones e o computador, foi utilizada a placa M-
audio Pro-Fire 2626, apresentada na figura 4.2. O dispositivo possui 8 entradas e 8 saídas,
permitindo ao usuário ativar os conjuntos de microfones e de altofalantes simultaneamente. O
software utilizado para realizar as gravações foi o Adobe Audition 6.0.
Figura 4.2: Placa M-audio Pro-Fire 2626
Foram gravados sinais emitidos de 8 diferentes direções: à frente, atrás, à direita e à
esquerda do conjunto de microfones, além dos 4 cantos da sala. Desse modo, as direções de
chegada dos sinais de voz gravados foram −125𝑜 , −90𝑜 , −55𝑜 , 0𝑜 , 70𝑜 , 90𝑜 , 110𝑜e 180𝑜,
conforme ilustrado na figura 4.3. Portanto, o conjunto de 4 altofalantes foi utilizado duas
vezes.
Figura 4.3: Configuração da Gravação de Sinais de Voz
29
Para analisar o desempenho do algoritmo de estimação da DOA em ambientes
ruidosos, sinais de ruído rosa foram gravados separadamente. O ruído foi emitido dos 4 cantos
da sala, simulando um ambiente de ruído difuso, como mostrado na figura 4.4. Os sinais de
ruído gravados foram posteriormente somados aos de voz em Matlab, com sua potência
variando de acordo com o valor da razão sinal-ruído desejada.
Figura 4.4: Configuração da Gravação de Sinais de Ruído Rosa
Para analisar o desempenho do algoritmo em situações em que há constante variação
da direção de chegada, também foram realizadas gravações para casos de fonte móvel. Nesse
experimento, um indivíduo caminha ao redor da sala a velocidade constante, falando
continuamente.
É importante ressaltar que, nos experimentos realizados, uma restrição fundamental é
a distância entre a fonte e os microfones, comparativamente à distância entre os microfones.
Conforme descrito no Capítulo 2, neste trabalho é utilizada a suposição de campo distante, de
modo que as ondas sonoras que chegam aos microfones são tratadas como planas. Para que
essa suposição seja válida, é necessário que a distância entre a fonte e o conjunto de
microfones seja maior que 15d, sendo d a distância entre microfones adjacentes [12]. Nas
gravações realizadas, a distância entre cada altofalante e o conjunto de microfones era maior
ou igual a 3 m. Essa distância equivale a 30d, uma vez que d = 10 cm. Conclui-se, portanto, que
a suposição de campo distante é utilizada apropriadamente neste trabalho.
30
4.2 - Simulações
Para testar os algoritmos em condições mais próximas das ideais, sem a interferência
de reverberações ou imprecisões dos microfones, foram também gerados dados simulados de
sinais de voz e de ruído. O simulador foi implementado em Matlab, permitindo ao usuário
gerar uma mistura de sinais de voz e de ruído captados pelo conjunto de microfones em um
ambiente anecóico. Assim como nas gravações, ruído rosa foi utilizado nas simulações, e o
desempenho de cada algoritmo foi testado tanto na presença de ruído difuso quanto na de
ruído unidirecional. Os sinais de ruído foram gerados de acordo com diferentes valores de
razão sinal-ruído, de modo que os desempenhos dos algoritmos foram avaliados para
diferentes níveis de ambientes ruidosos.
O algoritmo do simulador foi implementado com base nos atrasos dos sinais para
diferentes microfones, desconsiderando as atenuações devido à suposição de campo distante.
Desse modo, o sinal gravado por um determinado microfone i pode ser modelado pela
seguinte equação:
𝑥𝑖 = 𝑠(𝑡 − 𝜏𝑖), (4.1)
onde 𝑠(𝑡) é o sinal de voz emitido pelo altofalante e 𝜏𝑖 é o atraso que o sinal sofre no trajeto
da fonte ao microfone i. Os atrasos variam de acordo com a direção da fonte simulada.
Portanto, considerou-se apenas o caminho direto entre a fonte e o microfone.
Os experimentos com sinais simulados complementam aqueles com sinais gravados na
medida em que não apresentam efeitos da reverberação. Desse modo, é possível testar o
desempenho do algoritmo para o caso ideal e, comparando-o com a performance do sistema
para o caso real, avaliar os efeitos da reverberação da sala sobre a eficiência do método
implementado.
Para os dados simulados, sinais de voz provenientes das direções
−135𝑜 , −90𝑜 , −45𝑜 , 0𝑜 , 45𝑜 , 90𝑜 , 135𝑜e 180𝑜 foram utilizados sequencialmente, como
mostrado na figura 4.5.
31
Figura 4.5: Configuração da Simulação de Sinais de Voz
No caso do ruído difuso, sinais de ruído foram emitidos simultaneamente das direções
−90𝑜 , 0𝑜, 90𝑜 e 180𝑜. Desse modo, é simulada uma situação em que o ruído não é originado
em uma direção específica, mas de 4 ângulos simétricos em relação ao conjunto de
microfones, como ilustrado na figura 4.6.
Figura 4.6: Configuração da Simulação de Ruído Difuso
32
No caso de ruído unidirecional, foi utilizado sinal de ruído rosa originado da direção de
0𝑜. Como o conjunto de microfones é simétrico, o efeito esperado no caso em que o sinal de
ruído é proveniente de outras direções é o mesmo, de modo que este pode ser considerado
um caso genérico de ruído unidirecional, como mostrado na figura 4.7.
Figura 4.7: Configuração da Simulação de Ruído Unidirecional
33
Capítulo 5
Resultados
Experimentos foram realizados com conjuntos de 3 e de 5 microfones. Foram
considerados ambientes sem ruído, com ruído difuso e com ruído unidirecional, tendo sido
utilizado ruído rosa. As direções de chegada estimadas e esperadas foram apresentadas
graficamente para cada experimento realizado, permitindo a comparação. As DOAs estimadas
são exibidas em azul, enquanto as DOAs esperadas são representadas em vermelho. Tanto o
caso de misturas gravadas quanto o de misturas simuladas foram testados. Para os casos em
que foram utilizados 5 microfones, o conjunto inteiro de microfones foi utilizado, enquanto, no
caso em que foram utilizados 3 microfones, foram usadas as mesmas gravações, mas apenas
os sinais dos microfones 1, 2 e 3 foram considerados, de modo a avaliar a necessidade do uso
de 5 microfones. Os conjuntos de 3 e de 5 microfones são ilustrados na figura 5.1.
Figura 5.1: Conjuntos de 3 e de 5 microfones, respectivamente
5.1 – Método Formador de Feixes
Nesta seção são ilustrados os resultados das estimações de DOA por meio do método
formador de feixes. Primeiramente são expostos os resultados dos experimentos simulados, e
em seguida são exibidos os dos experimentos gravados.
34
5.1.1 - Experimentos Simulados
Nesta seção serão apresentados os resultados obtidos nos experimentos com sinais de
mistura simulados, para diversos valores de SNR. São realizados experimentos tanto com a
interferência de ruído difuso quanto com a de ruído unidirecional.
5.1.1.1 - Ruído Difuso
No experimento de ruído difuso, sinais de ruído originados das direções de −90𝑜, 0𝑜,
90𝑜 e 180𝑜 foram adicionados ao sinal de voz. Já que essas direções são simétricas
relativamente ao conjunto de microfones, essa configuração é considerada uma boa
representação de um ambiente de ruído difuso, uma vez que nenhuma direção específica
prevalece. Os resultados deste experimento são ilustrados na figura 5.2, sendo mostrados na
coluna da esquerda os resultados para o sistema com 3 microfones e, na coluna da direita, os
resultados para o sistema com 5 microfones. Em cada par de gráficos são apresentados os
resultados para uma determinada SNR, que decresce de 15 dB (na linha de cima) a 0 dB (na
linha de baixo).
Como se percebe analisando os gráficos, os resultados das simulações em geral se
assemelham aos esperados para SNR acima de 15 dB, de modo que as DOAs estimadas,
exibidas em azul, em geral coincidem com as esperadas, representadas em vermelho. Para o
caso de 3 microfones, os efeitos do ruído nas estimativas se tornam determinantes para uma
SNR de 5 dB. No caso em que são utilizados 5 microfones, que apresenta uma maior robustez,
um ambiente com SNR de 0 dB afeta o resultado de forma determinante.
35
Figura 5.2: Resultados dos experimentos simulados com sinais de voz sob interferência de ruído difuso,
para os sistemas com 3 microfones (à esquerda) e 5 microfones (à direita), para diferentes valores de
SNR.
3 mic, SNR=15 dB, Ruído Difuso
5 mic, SNR=15 dB, Ruído Difuso
3 mic, SNR=5 dB, Ruído Difuso
5 mic, SNR=5 dB, Ruído Difuso
3 mic, SNR=0 dB, Ruído Difuso 5 mic, SNR=0 dB, Ruído Difuso
Tempo(s) Tempo(s)
Tempo(s) Tempo(s)
Tempo(s) Tempo(s)
DO
A(g
rau
s)
DO
A(g
rau
s)
DO
A(g
rau
s)
DO
A(g
rau
s)
DO
A(g
rau
s)
DO
A(g
rau
s)
36
Nota-se que, no gráfico correspondente ao desempenho do sistema de 3 microfones
para SNR de 15 dB, no intervalo em que a direção de chegada é 180𝑜, as estimativas de DOA
se encontram distantes dos resultados esperados. Isso se deve à descontinuidade existente no
gráfico em relação ao ângulo de 180𝑜, de modo que as estimativas de ângulos um pouco
maiores que 180𝑜 aparecem próximas a −180𝑜, portanto na extremidade oposta à direção
esperada.
5.1.1.2 - Ruído Unidirecional
No experimento em que foi utilizado ruído unidirecional, ruído originado da direção de
0𝑜 foi adicionado à mistura simulada. Embora em todos os casos seja usado ruído proveniente
de uma única direção, o experimento pode ser considerado um caso genérico, devido à
simetria do conjunto de microfones. Os resultados são ilustrados na figura 5.3.
Nota-se que, para SNR de 20 dB, os ângulos estimados coincidem com os valores
esperados, de forma que os pontos representados em azul coincidem com os representados
em vermelho.
Em ambos os casos de 3 e 5 microfones, os efeitos do ruído unidirecional sobre as
direções de chegada estimadas começam a ser observados para SNR de 15 dB. Em ambientes
com SNR de 10 dB, os efeitos do ruído são mais significativos, uma vez que o algoritmo passa a
tomar como estimativa da direção de chegada a direção de 0𝑜, correspondente à direção de
ruído, em vez das direções do sinal de voz.
37
Figura 5.3: Resultados dos experimentos simulados com sinais de voz sob interferência de ruído
unidirecional, para os sistemas com 3 microfones (à esquerda) e 5 microfones (à direita), para diferentes
valores de SNR.
Conforme esperado, o ruído unidirecional afetou os resultados de forma mais intensa
que o ruído difuso, uma vez que o primeiro é originado de uma determinada direção, levando
o algoritmo a rastrear essa direção em vez da direção de chegada do sinal de voz.
3 mic, SNR=20 dB, Ruído Unidirecional 5 mic, SNR=20 dB, Ruído Unidirecional
3 mic, SNR=15 dB, Ruído Unidirecional
5 mic, SNR=15 dB, Ruído Unidirecional
3 mic, SNR=10 dB, Ruído Unidirecional
5 mic, SNR=10 dB, Ruído Unidirecional
Tempo(s) Tempo(s)
Tempo(s) Tempo(s)
Tempo(s) Tempo(s)
DO
A(g
rau
s)
DO
A(g
rau
s)
DO
A(g
rau
s)
DO
A(g
rau
s)
DO
A(g
rau
s)
DO
A(g
rau
s)
38
5.1.2 - Experimentos Gravados
Nestes experimentos, foram utilizados sinais gravados pelos microfones. Devido ao
fato de terem sido utilizados sinais gravados, existem novos fatores capazes de influenciar a
estimativa de DOA, como reverberações causadas pelas paredes da sala e incertezas
relacionadas ao funcionamento dos microfones.
5.1.2.1 - Ausência de Ruído
Neste experimento, sinais de voz foram gravados sem a interferência de ruído. Os
sinais foram originados nas direções de 0𝑜, −55𝑜, −90𝑜, −125𝑜, 180𝑜, 110𝑜, 90𝑜 e 70𝑜,
sequencialmente. Os resultados deste experimento são exibidos na figura 5.4.
Figura 5.4: Resultados dos experimentos gravados com sinais de voz sem interferência de ruído, para os
sistemas com 3 microfones (à esquerda) e 5 microfones (à direita).
As direções de chegada estimadas foram similares às esperadas, mostrando um
desempenho satisfatório do algoritmo em situações práticas. No entanto, os resultados
tiveram precisão e acurácia inferiores aos dos experimentos simulados, mostrando que a
reverberação afeta a qualidade da estimação da direção de chegada de forma considerável.
Nota-se neste experimento a mesma observação feita na Seção 5.1.1.1, referente à
descontinuidade no gráfico para o ângulo de 180𝑜, de modo que as estimativas um pouco
acima desse valor são representadas na extremidade oposta do gráfico, próximo a −180𝑜.
3 mic, Sem Ruído 5 mic, Sem Ruído
Tempo(s) Tempo(s)
DO
A(g
rau
s)
DO
A(g
rau
s)
39
5.1.2.2 - Ruído Difuso
Neste experimento, ruído rosa foi gerado dos quarto cantos da sala onde foram
realizadas as gravações, correspondendo às direções de −125𝑜, −55𝑜, 70𝑜 e 110𝑜,
simultaneamente. Uma vez que esses ângulos são aproximadamente simétricos, o
experimento pode ser considerado um bom teste de desempenho em ambientes com ruído
difuso.
Figura 5.5: Resultados dos experimentos gravados com sinais de voz sob interferência de ruído difuso,
para os sistemas com 3 microfones (à esquerda) e 5 microfones (à direita), para diferentes valores de
SNR.
Os efeitos do ruído nos experimentos com sinais gravados, conforme mostrado na
figura 5.5, não são notados de forma tão clara quanto os dos experimentos com sinais
simulados, uma vez que os resultados sem a interferência de ruído não são tão precisos. No
entanto, nota-se que os efeitos do ruído difuso sobre as estimativas são consideráveis para
3 mic, SNR=20 dB, Ruído Difuso 5 mic, SNR=20 dB, Ruído Difuso
3 mic, SNR=10 dB, Ruído Difuso
5 mic, SNR=10 dB, Ruído Difuso
Tempo(s) Tempo(s)
Tempo(s) Tempo(s)
DO
A(g
rau
s)
DO
A(g
rau
s)
DO
A(g
rau
s)
DO
A(g
rau
s)
40
uma SNR de 10 dB, em que a diferença entre as direções de chegada estimada e esperada é
mais significativa.
5.1.2.3 - Alvo Móvel
Neste experimento, um locutor se move ao redor da sala a uma velocidade
aproximadamente constante, falando constantemente, na ausência de ruído. O sinal de voz é
gravado pelo conjunto de microfones, localizado no centro da sala. Os resultados são
ilustrados na figura 5.6.
Figura 5.6: Resultados dos experimentos gravados com sinais de voz provenientes de um alvo móvel,
para os sistemas com 3 microfones (à esquerda) e 5 microfones (à direita).
Em geral, as direções de chegada estimadas foram similares aos ângulos esperados,
mostrando que o algoritmo responde apropriadamente a situações em que a posição da fonte
muda constantemente. Os desempenhos dos sistemas compostos por 3 e 5 microfones foram
aparentemente iguais.
5.2 – Método da Correlação Cruzada Generalizada (GCC_PHAT)
Nesta seção são expostos os resultados obtidos por meio do método GCC-PHAT. O
algoritmo é testado com os mesmos sinais gravados utilizados para testar o método formador
5 mic, Alvo Móvel 3 mic, Alvo Móvel
Tempo(s) Tempo(s)
DO
A(g
rau
s)
DO
A(g
rau
s)
41
de feixes, de modo que os desempenhos de ambas as técnicas possam ser comparados. Nesta
seção, serão ilustrados resultados de experimentos com sinais de voz gravados sem ruído e
com sinais de mistura gravados na presença de ruído difuso.
5.2.1 – Ausência de Ruído
Neste experimento, foram utilizados sinais de voz gravados na ausência de ruído.
Para ilustrar a técnica de combinação dos dois conjuntos de microfones, horizontal e
vertical, para a estimação da DOA, descrita na Seção 3.2.1, serão expostas as estimativas de
DOA obtidas por ambos os conjuntos lineares uniformes para determinados ângulos de
chegada, assim como as estimativas definitivas.
A figura 5.7 ilustra as DOAs estimadas pelos conjuntos de microfones, para um sinal de
voz gravado cuja DOA é igual a 70𝑜. Conforme se observa por meio dos resultados, a
estimativa encontrada por ambos os conjuntos lineares de microfones, na maior parte dos
frames, foi de 65𝑜, próxima do valor esperado.
Figura 5.7: Resultados para DOA=70°. À esquerda, a estimativa do conjunto horizontal de microfones, e, à direita, a estimativa do conjunto vertical.
A figura 5.8 apresenta o resultado definitivo da estimação da DOA pelo sistema.
42
Figura 5.8: Estimativa definitiva para DOA=70°.
A figura 5.9 ilustra as DOAs estimadas pelos conjuntos de microfones, para um sinal de
voz gravado cuja DOA é igual a −125𝑜. Conforme se observa por meio dos resultados, a
estimativa encontrada pelo conjunto horizontal foi de −65𝑜, sendo a DOA esperada para esse
conjunto igual a −55𝑜. Já a estimativa encontrada pelo conjunto vertical foi de 115𝑜, sendo a
DOA esperada para esse conjunto igual a 125𝑜.
Figura 5.9: Resultados para DOA=-125°. À esquerda, a estimativa do conjunto horizontal de microfones, e, à direita, a estimativa do conjunto vertical.
43
A estimativa do conjunto horizontal de microfones indica que a DOA é negativa,
enquanto a estimativa do conjunto vertical indica que a DOA possui módulo maior que 90𝑜. A
figura 5.10 apresenta o resultado definitivo da estimação da DOA pelo sistema.
Figura 5.10: Estimativa definitiva para DOA=-125°.
A figura 5.11 ilustra os resultados do sistema para o experimento em que sinais de voz
são emitidos das direções 0𝑜, 70𝑜, 90𝑜, 110𝑜, 180𝑜, −125𝑜, −90𝑜 e −55𝑜, sequencialmente,
sem a presença de ruído.
Figura 5.11: Estimativa da DOA pelo método GCC-PHAT sem interferência de ruído.
44
As direções de chegada estimadas foram similares às esperadas, mostrando um
desempenho satisfatório do algoritmo GCC-PHAT em situações práticas. As DOAs estimadas
apresentaram uma precisão maior do que as encontradas pelo método formador de feixes,
indicando que a os efeitos da reverberação sobre o formador de feixes são mais significativos
que aqueles sobre o GCC-PHAT.
5.2.2 – Ruído Difuso
Para testar o efeito do ruído sobre o desempenho do método GCC-PHAT, foram
realizados também experimentos com a presença de ruído difuso. Sinais de ruído rosa
provenientes das direções de −125𝑜, −55𝑜, 70𝑜 e 110𝑜, simultaneamente, foram gravados
pelos microfones, somando-se aos sinais de voz gravados. Os resultados são expostos na figura
5.12.
Figura 5.12: Estimativa da DOA pelo método GCC-PHAT com a influência de ruído difuso. À
esquerda, o resultado para SNR= 20 dB. À direita, o resultado para SNR = 10 dB.
Os efeitos do ruído sobre as estimativas das DOAs, como se percebe com base nos
resultados, foram significativos. Para SNR igual a 20 dB, a precisão da estimação diminui
consideravelmente, de modo que, em alguns trechos do gráfico, o algoritmo visivelmente
45
assume como direção de chegada as direções de 0𝑜, 90𝑜 e −90𝑜, correspondentes às direções
do ruído.
46
Capítulo 6
Conclusões e Trabalhos Futuros
O objetivo deste trabalho foi implementar algoritmos de estimação de DOA de sinais
de voz utilizando o método formador de feixes e o GCC-PHAT, de modo a determinar as DOAs
a partir de um sistema composto por 5 microfones posicionados na configuração de uma cruz.
Para combinar os dois conjuntos lineares uniformes (em linhas perpendiculares) de
microfones, foram desenvolvidas técnicas que permitissem a estimação de qualquer ângulo de
chegada no círculo trigonométrico.
Os algoritmos implementados neste trabalho funcionaram adequadamente em
ambientes com SNR relativamente alta. As gravações e os demais experimentos realizados
permitiram testá-los em situações semelhantes às práticas, avaliando sua capacidade de
estimar DOAs de sinais de voz em ambientes reais. Os resultados indicaram que o método
formador de feixes implementado sofre menor efeito do ruído, enquanto o algoritmo GCC-
PHAT produzido sofre menor influência da reverberação. Além disso, o sistema composto por
5 microfones apresenta maior robustez que o de 3 microfones, sofrendo menor influência
tanto do ruído quanto da reverberação. O ruído unidirecional apresentou maior efeito sobre as
estimativas de DOA que o ruído difuso.
Entre trabalhos futuros, destaca-se a implementação em C++ dos algoritmos de
estimação de DOA. Os códigos produzidos neste trabalho, escritos em Matlab, apresentam um
tempo de execução maior do que o desejável, devido à grande quantidade de iterações
necessárias e à longa duração dos sinais utilizados em alguns experimentos. Por se tratar de
uma linguagem interpretada, o Matlab exige um longo tempo de execução especialmente para
códigos que envolvem muitas iterações, característica recorrente de técnicas de
processamento de sinais.
Além da implementação dos algoritmos em C++, figura entre trabalhos futuros a
filtragem espacial de sinais de voz. Com base na DOA estimada, é possível destacar o sinal
47
proveniente desse ângulo, reduzindo o efeito de sinais de ruído provenientes de fontes
localizadas em outras direções.
Destaca-se ainda a realização de testes com novas configurações, como diferentes
combinações de microfones ou diferentes tipos de ruído. Pode-se testar, por exemplo, o
sistema formado pelos quatro microfones das extremidades do conjunto, sem o microfone
central, para avaliar a necessidade de utilizar cinco microfones. Pode-se analisar também o
desempenho do sistema na presença de ruído branco ou vermelho, comparando-o com o
desempenho sob interferência de ruído rosa.
48
Bibliografia
[1] BILLINGSLEY, J., KINNS, R., “The acoustic telescope”, Journal of Sound and Vibration, 48, pp. 485-510, 1976.
[2] KNAPP, C., CARTER, G., “The generalized correlation method for estimation of time delay”, Acoustics, Speech and Signal Processing, IEEE Transactions, 24, pp. 320-327, 1976.
[3] MARTIGNONI, M. A., “Voz – Analógica e Digital”, http://ativetelecom.com/solucoes/artigos/voz , 2006, (Acesso em 16 Janeiro 2015).
[4] KESHNER, M. S., “1/f Noise”, Proceedings of the IEEE, 70, pp. 212–218, 1982.
[5] LOPES, R., “Ruído Rosa”, http://pt.wikipedia.org/wiki/Ru%C3%ADdo_rosa, 2010, (Acesso em 20 Janeiro 2015).
[6] FIGUEIRÓ, F., “Relaxe Com o Ruído Branco, Rosa ou Marrom”, http://www.power-geek.com/2011/08/relaxe-com-o-ruido-branco-rosa-ou.html, 2011, (Acesso em 20 Janeiro 2015).
[7] CHEN, J., HUANG, Y., BENESTY, J., “Filtering Techniques for Noise Reduction and Speech Enhancement”, Adaptive Signal Processing: Applications to Real-World Problems, 5, pp. 144-148, 2002.
[8] RAEEN, K., “A Study of The Gibbs Phenomenon in Fourier Series and Wavelets”, M.Sc. dissertation, University of New Mexico, EUA, Agosto 2008.
[9] VEEN, B. V., BUCKLEY, K. M., “Beamforming Techniques for Spatial Filtering,” CRC Digital Signal Processing Handbook, 1999.
[10] ANGUERA, X., “GCC_PHAT Cross-Correlation”, http://www.xavieranguera.com/phdthesis/node92.html, 2008, (Acesso em 5 Janeiro 2015).
[11] TALANTZIS, F., CONSTANTINIDES, A. G., POLYMENAKOS, L. C., “Estimation of Direction of Arrival Using Information Theory”, IEEE Signal Processing Letters, Vol. 12, No. 8, 2005.
[12] GONTIJO, A. T., “Estimador de Direção de Chegada em Tempo Real com Arranjo de Microfones”, Seção 2.1, pp. 6, M.Sc. dissertation, Universidade de Brasília, Agosto 2010.