Upload
doxuyen
View
215
Download
0
Embed Size (px)
Citation preview
1
PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO GRANDE DO SUL
FACULDADE DE ENGENHARIA
SISTEMAS DE CAPTAÇÃO, SINTETIZAÇÃO E REPRODUÇÃO DE ÁUDIO EM
3-D
Porto Alegre, 05 de dezembro de 2017.
Autor: Arthur Nicholas dos Santos
Pontifícia Universidade Católica do Rio Grande do Sul
Curso de Engenharia Elétrica - Eletrônica
Av. Ipiranga 6681 - Prédio 30 - CEP: 90619-900 - Porto Alegre - RS - Brasil
Email: [email protected]
Orientador: Prof. Dênis Fernandes
Pontifícia Universidade Católica do Rio Grande do Sul
Av. Ipiranga 6681 - Prédio 30 - Bloco A - Sala 324 - CEP: 90619-900 - Porto Alegre - RS -
Brasil
Email: [email protected]
RESUMO
Este artigo tem por objetivo o estudo de sistemas de som tridimensionais e a aplicação
de métodos de captação natural e geração virtual de áudio em 3-D para reprodução através
de fones de ouvido. O referencial teórico aborda a natureza física do som e os fenômenos
relativos à sua propagação, a estrutura fisiológica do sistema auditivo humano e o seu
funcionamento, bem como a psicoacústica da audição espacial. A metodologia adotada
compreende as pricipais técnicas de captação natural de áudio em estéreo e em 3-D
utilizando pares de microfones casados, e de geração virtual através de métodos
computacionais que utilizam funções de transferência para tentar sintetizar a interação entre
as características antropométricas dos indivíduos e os fenômenos sonoros. Como aplicação
dessa metodologia, desenvolveu-se um protótipo experimental para captação de áudio
binaural através de um gravador portátil, e um código para virtualização de áudio em 3-D
baseado no software matemático MATLAB. Para concluir, avalia-se quais as principais
vantagens e desvantagens entre os sistemas de som tridimensionais e os seus predecessores
e como que a metodologia aplicada nesse artigo se compara com algumas das soluções
comerciais existentes no mercado atualmente.
Palavras-chave: Sistemas de som tridimensionais. Áudio em 3-D. Áudio binaural.
2
ABSTRACT
This article aims the study of three-dimensional sound systems and the application of
methods for natural capture and virtual generation of 3-D audio for headphones playback.
The theoretical framework deals with the physical nature of sound and the phenomena
related to its propagation, the physiological structure of the human auditory system and its
functioning, as well as the psychoacoustics of spatial hearing. The methodology adopted
includes the main techniques used for natural capture of stereo and 3-D sound using pairs
of matched microphones and virtual generation of 3-D audio by means of computational
methods that use transfer functions as an attempt to synthesize the interaction between the
anthropometric characteristics of individuals and the sound phenomena. As an application
of this methodology, an experimental prototype for recording binaural audio through a
portable recorder was developed, as well as a code for virtualization of 3-D audio based on
the mathematical software MATLAB. To conclude, the main advantages and
disadvantages between three-dimensional sound systems and their predecessors are
evaluated, as well as how the methodology applied in this article compares with some of
the commercial solutions existent on the market today.
Key-words: Three-dimensional sound systems. 3-D audio. Binaural audio.
1 INTRODUÇÃO
Além de auxiliar na comunicação e em outros aspectos básicos do cotidiano, como no
equilibrio do corpo e na obtenção de uma noção espacial dos arredores, o sentido da audição
também fornece meios de diversão, relaxamento e entretenimento, através do consumo de
conteúdos audiovisuais, como programas de rádio e televisão, além de conteúdos online [1].
Músicas, filmes e jogos como os de consoles de video game, computadores ou
dispositivos móveis tornam-se mais vívidos com a utilização de efeitos sonoros dedicados, e
para isso os sons precisam ser gravados, processados, armazenados, transmitidos e
reproduzidos por equipamentos e algorítmos dedicados. Atualmente, um campo onde vem
se desenvolvendo o potencial de maior qualidade na produção de conteúdo audiovisual é o
do realismo espacial [1].
Antigamente, a representação das propriedades espaciais de um cenário auditivo era
realizada de maneira praticamente exclusiva através da captura e reprodução de áudio em
sistemas multicanais, porém, com a popularização dos dispositivos móveis, a tendência é
3
que cada vez mais o áudio de produtos de entretenimento seja reproduzido através de fones
de ouvido, limitando a representação de um cenário auditivo em apenas dois canais [1].
1.1 Tema de Pesquisa
O objeto de estudo desse trabalho são as técnicas de gravação, processamento,
sintetização e reprodução de áudio em 3-D em dois canais, que simulam as sensações
auditivas causadas pela interação acústica do sistema auditivo humano com o ambiente ao
seu redor utilizando sinais de áudio filtrados através de hardware ou software para dar a
impressão de que uma fonte sonora esteja localizada em certo ponto no espaço [2].
1.2 Justificativa do Tema
Atualmente, grande parte do conteúdo audiovisual que se reproduz através de fones
de ouvido ou caixas de som está em formato estéreo. Porém, a utilização de fones de ouvido
geralmente causa a impressão de que os sons estão internalizados, ou seja, confinados ao
espaço dentro da cabeça do ouvinte, sem possuir qualquer sensação de realismo [1] [3].
Existem técnicas de gravação, sintetização e processamento de áudio que podem ser
utilizadas para criar uma sensação espacial mais rica aos sons reproduzidos através de fones
de ouvido, conferindo uma experiência mais imersiva ao ouvinte. Tais técnicas podem ser
aplicadas tanto na produção de conteúdo audiovisual tradicional, como também em novos
tipos de conteúdo interativo, como a realidade virtual e a realidade aumentada [3] [4].
Além disso, a representação convincente de sons em 3-D com alta qualidade é um
desafio, devido ao sistema auditivo humano ser sensível à técnicas de virtualização
imprecisas e também porque cada pessoa possui um padrão de escuta individual, que é fruto
das caracteristicas fisiológicas de cada um [3] [4].
Sendo assim, o estudo e desenvolvimento de novas técnicas de captação,
processamento e reprodução de sons em 3-D em apenas dois canais de áudio não é apenas
necessário para atingir a compatibilidade com as novas aplicações móveis, mas também é
um desafio que tem como objetivo o estudo de novas possibilidades de melhoria na
qualidade dos sistemas de realismo espacial [3].
1.3 Objetivo do Trabalho
O objetivo desse trabalho é o estudo e aplicação das várias técnicas utilizadas para
simular os efeitos da psicoacústica da audição espacial em sistemas de som tridimensionais,
com base em métodos que têm a intenção de captar ou virtualizar os sons de maneira similar
4
com a que o sistema auditivo humano percebe e interpreta os fenômenos relacionados à
propagação sonora.
1.4 Delimitações do Trabalho
Este trabalho está delimitado à aplicação experimental de algumas técnicas de
gravação e virtualização do áudio em 3-D e à avaliação da convincibilidade dos resultados
obtidos em comparação com algumas soluções comerciais existentes no mercado do
entretenimento audiovisual atualmente.
2 REFERENCIAL TEÓRICO
Neste tópico aborda-se a natureza física do som e as suas propriedades, as ondas
sonoras e seus elementos, e os fenômenos relacionados à sua propagação. Também
comenta-se alguns aspectos gerais da audição, como a estrutura fisiológica do sistema
auditivo humano e o seu funcionamento, sob o ponto de vista da Fonoaudiologia. Em
seguida, discorre-se sobre como a interação entre as propriedades físicas do som e as
características antropométricas dos seres humanos se relaciona com as sensações auditivas e
a interpretação da localização dos sons no espaço.
2.1 A natureza do som
O som é uma transferência de energia causada pelas vibrações dos corpos em um
meio elástico. Quando essas vibrações se verificam em determinados limites de frequência,
elas tomam o nome de vibrações sonoras. Se as propriedades elásticas de um meio forem
iguais em todos os seus pontos, as vibrações sonoras se propagam, produzindo compressões
e distensões sucessivas, com velocidade uniforme em todas as direções. O som, portanto,
propaga-se por meio de impulsos ocasionados ao meio, os quais provocam deformações
transitórias que se movimentam longitudinalmente, de acordo com a onda de pressão criada.
A onda longitudinal de pressão, ocasionada pela fonte sonora, toma o nome de onda sonora
[4] [5] [6] [7].
Em virtude da sua natureza, a velocidade de propagação da onda sonora é uma função
das propriedades do meio. Apesar de o meio mais comum ser o ar, o som também pode se
propagar em qualquer sólido, líquido ou gás. No ar, o som consiste de variações de pressão
localizadas, acima e abaixo da pressão atmosférica normal. Variações de pressão na faixa
entre 20Hz e 20kHz compõem a faixa de audiofrequência, na qual o fenômeno sonoro pode
ser percebido e os sons são considerados audíveis. Variações de pressão com frequências
5
abaixo de 20Hz são chamadas de infrassônicas e acima de 20kHz são chamadas de
ultrassônicas [6] [7].
2.1.1 Elementos da onda sonora
A onda sonora apresenta uma série de qualidades que servem para caracterizá-la
completamente, podendo ser assim distinta em altura, timbre e intensidade [7].
A altura se relaciona com a sequência das vibrações sonoras, ou seja, com a
frequência do som, caracterizando-os em agudos, médios ou graves. Dá-se o nome de
frequência da onda sonora ao número de vibrações completas executadas pela mesma em
um segundo. O inverso da frequência (f), toma o nome de período (T), o qual é definido
como o tempo necessário para efetuar uma onda completa de oscilação [4] [7]:
𝑇 =1
𝑓[𝑠]. (1)
A relação entre a velocidade de propagação do som (v) em metros por segundo e a
frequência (f) em Hertz revela o comprimento da onda sonora (λ):
𝜆 =𝑣
𝑓[𝑚], (2)
que, para um som de determinada frequência, dependerá da natureza do meio no qual se dá
a propagação [4] [6] [7].
Muito raramente pode-se falar de um som puro, devido a vibrações exatamente
senoidais. Os sons mais comuns são, geralmente, compostos, resultantes da superposição de
sons simples, dos quais um de maior intensidade toma o nome de fundamental, e outros, de
menor intensidade, tomam o nome de harmônicos. Se os deslocamentos das partículas do
meio devido as oscilações sonoras em função do tempo forem registrados num sistema de
coordenadas, obtém-se uma curva periódica que traduz a forma da onda sonora ou timbre, a
qual permite a identificação da procedência do som, e depende do número e da intensidade
dos harmônicos [6] [7].
O procedimento que permite encontrar todas as vibrações simples, componentes de
um som complexo qualquer, chama-se método da análise harmônica, o qual se baseia no
teorema de Fourier, e assegura que qualquer movimento periódico, independentemente de
sua forma, de sua natureza especifica ou do modo pelo qual teve origem, pode ser
reproduzido exatamente, compondo-se de um certo número de movimentos simples, cujas
relações de frequência são números inteiros. Mecanicamente, a análise harmônica de um
som se baseia no fenômeno da ressonância [4] [7].
6
A análise harmônica dos sons também permite estabelecer uma distinção entre sons e
ruídos. Assim, aquelas sensações que, por serem agradáveis ao ouvido, se chamam sons, são
formadas por uma nota fundamental acompanhada de um número limitado de harmônicas,
cuja característica mais importante é de apresentarem uma intensidade pequena em relação
à fundamental, que é a dominante. Já os ruídos, por sua vez, causam sensações tanto menos
agradáveis, quanto maior é o número de notas que os compõem e mais alta é a sua
frequência. Na voz humana, as consoantes se comportam como ruídos, enquanto que as
vogais se comportam como sons [7].
A amplitude de uma onda sonora é o maior ou menor deslocamento atingido pelas
partículas do meio, em virtude das oscilações que a formaram. A intensidade do som diz
respeito à amplitude da onda sonora, que caracteriza a variação de pressão do meio em que
se verifica a sua propagação. A intensidade do som (I) é medida por meio de potência
sonora (W), propagada por unidade de superfície (S) [6] [7] [8]:
𝐼 =𝑊
𝑆[
𝑊
𝑚2]. (3)
Deve-se, entretanto, distinguir dois movimentos na propagação do som: um que é a
vibração das partículas, caracterizado pela amplitude, e o outro que é o deslocamento
longitudinal caracterizado pela velocidade do som no meio. A potência da onda sonora, por
unidade de superfície, toma o nome de intensidade energética, a qual varia com o tempo e,
portanto, é relativa à potência instantânea da onda sonora [7].
2.1.2 Propagação da onda sonora
Ao contrário das ondas eletromagnéticas, as ondas sonoras não se propagam no
vácuo, e a transmissão das pressões em uma massa fluida não é instantânea, ou seja, ela leva
um determinado tempo para percorrer certa distância, o que caracteriza uma velocidade de
deslocamento que é igual a velocidade de propagação do som no meio considerado [7].
Para o caso dos aeriformes, a velocidade do som depende da transformação sofrida
pelo fluido durante o processo de propagação. A velocidade do som (v) no ar a uma
temperatura (T) de 22°C é de aproximadamente 345 metros por segundo, enquanto que em
outras temperaturas ela varia conforme a relação [7] [8]:
𝑣 [𝑚
𝑠] = 331 + 0,6𝑇[°𝐶]. (4)
7
2.1.3 Fenômenos relativos à propagação do som
Como todo movimento material, o som apresenta certa energia que, em vista das
resistências opostas ao seu deslocamento, é restituída ao meio. Esta restituição pode ser de
duas maneiras: no primeiro caso, a onda sonora encontra um obstáculo ao qual cede parte da
sua quantidade de movimento, de modo que parte de sua energia é transferida ao obstáculo,
o qual entra em vibração; no segundo caso, pode-se considerar uma transformação da
energia cinética da onda sonora devido à viscosidade do próprio meio em que ela se propaga
em outra forma mais complexa e menos palpável de movimento que é o calor [7].
Todos os fenômenos relacionados à propagação do som são causas de distorções mais
ou menos graves dos sons, podendo não raramente interferir na sua beleza ou
inteligibilidade. Dá-se o nome de distorção à modificação da forma de onda sonora de um
som complexo, pela alteração desigual das amplitudes dos componentes das diversas
frequências que fazem parte do mesmo [7].
Quando uma onda sonora encontra um obstáculo de espessura ilimitada, a energia
absorvida pelo mesmo é totalmente transformada em calor. Se ao contrario o obstáculo se
trata de uma parede de espessura limitada, parte da energia se transmitirá pela mesma por
refração. Quando uma onda sonora incide sobre uma superfície sólida, parte da energia
sonora é absorvida devido ao atrito e viscosidade do ar, transformando-se em calor. Esta
parcela de energia caracteriza o coeficiente de absorção, que depende essencialmente da
natureza do material. Materiais de grandes coeficientes de absorção apresentam estruturas
porosas, porém outros aspectos dimensionais também influenciam no valor do coeficiente
de absorção dos diversos tipos de materiais [7].
Quando um obstáculo encontrado pela onda sonora não é grande de dimensão em
relação ao seu comprimento de onda, os caminhos seguidos pelas ondas sonoras não podem
ser definidos tendo-se como base as simples leis da reflexão da luz. Nestes casos, intervém
um fenômeno ligado a natureza ondulatória do som, que toma o nome de difração.
Considerando a passagem do som por pequenas aberturas, o som se propaga uniformemente
em todas as direções, a partir do outro lado da abertura. Já no caso de grandes aberturas, a
conservação do alinhamento da superfície da onda sonora permanece e, somente nas bordas
da abertura, aparece uma difração sensível, com o encurvamento lateral da superfície da
onda. Nestas condições, em consequência da maior divergência dos raios sonoros, nota-se
nitidamente que a intensidade do som decresce mais rapidamente com o distanciamento da
fonte, ao nos deslocarmos lateralmente em relação à abertura. Tal redução varia com a
8
frequência do som, de modo que o timbre de um som complexo, neste caso, poderá ser
afetado [7].
Um corpo também pode entrar em ressonância quando recebe vibrações elásticas do
meio circundante. Quando um oscilador é solicitado por impulsos periódicos, a máxima
amplitude atingida, compatível com a energia em jogo, se verifica quando a frequência dos
impulsos externos coincide com a frequência natural do oscilador. Diz-se então, que o corpo
entrou em vibração forçada. Tais vibrações tomam, entretanto, uma amplitude apreciável,
somente para a frequência própria de vibração do corpo [7].
O eco é um outro fenômeno pelo qual o som refletido ocasiona uma outra sensação
auditiva em nosso ouvido, independente da ocasionada pelo som direto. Trata-se da
repetição do som original, a qual ocorre quando as sensações auditivas ocasionadas pelo
som direto e o refletido se verificam com um intervalo de tempo superior a 1/15 segundos.
A persistência do som residual no ambiente, depois que a fonte tenha cessado de emiti-lo,
toma o nome de reverberação. A reverberação difere do eco, pois enquanto a reverberação
caracteriza uma permanência do som no ambiente, o eco é caracterizado pela repetição
distinta do mesmo [7].
Além desses fenômenos naturais, é comum nos processos eletrônicos de gravação,
amplificação, transmissão e reprodução do som o aparecimento de deformações que alteram
a fidelidade do som original. O próprio mecanismo da audição, devido as suas limitações
com relação a determinadas frequências, contribui para que a percepção do som
originalmente emitido pela fonte sonora seja distorcida [7].
2.2 Aspectos gerais da audição
A audição é a percepção dos sons que os indivíduos têm através do sistema auditivo e
que é interpretada através do cérebro. Porém, o sistema auditivo humano tem como função
não somente ouvir, mas também auxilia no equilíbrio do corpo, no controle de intensidade
da voz, e em manter o indivíduo ciente das dimensões do espaço ao seu redor [1] [5] [6].
O estudo da audição dentro da Medicina, da Engenharia ou da Biologia, chama-se
Audiologia, a qual compreende a Audiometria, ou seja, a medida da audição para
determinar em que grau os indivíduos percebem os sons, e para constatar quantitativa e
qualitativamente os prejuízos que apresentam em seus sistemas auditivos [5] [6].
9
2.2.1 O sistema auditivo humano
O sistema auditivo humano serve a vários propósitos importantes no dia-a-dia de um
indivíduo. Umas das suas características mais proeminentes é o entendimento da fala, o que
permite a comunicação de uma maneira eficiente e interativa. Mas, em certas situações, o
sistema auditivo também é capaz de detectar eventos potencialmente perigosos em estágio
inicial, como por exemplo o aproximar de um carro, para que seja possível reagir de acordo.
Nesses casos, a grande vantagem do sistema auditivo em relação ao sistema visual é que ele
possibilita a monitoração de todas as direções simultaneamente. Tal capacidade pode ser
considerada extraordinária devido ao fato de que o ser humano possui apenas dois ouvidos,
e mesmo assim é capaz de analisar um cenário em múltiplas dimensões através do sentido
da audição [1] [3] [6].
2.2.2 Estrutura fisiológica do sistema auditivo humano
O sistema auditivo humano, ilustrado na Figura 1, é um conjunto de órgãos que
funciona de maneira a possibilitar que as vibrações sonoras produzidas num ambiente
cheguem até a consciência dos indivíduos, permitindo-lhes apreciar as qualidades do som,
ou seja, a frequência, a intensidade e o timbre, bem como a distância e a direção [5].
Figura 1 - Seção transversal do sistema auditivo de maneira bastante simplificada,
onde os ouvidos externo, médio e interno estão claramente identificados
Fonte: MOORE, Brian C. J. Cochlear Hearing Loss: Physiological, Psychological and
Technical Issues. 2 ed. Sussex: John Wiley & Sons Ltd., 2007. 332p, il.
10
Fisiologicamente, o sistema auditivo humano, é comumente tratado como uma série
de estágios, onde a saída de cada um deles forma a entrada do próximo, podendo ser
considerados separadamente como dispositivos ou sistemas, cada qual com suas respectivas
entradas e saídas. Para fins de estudo, costuma- se dividi-lo em ouvido externo, médio e
interno, sendo que a principal parte se situa no interior do crânio, razão pela qual a
complexidade aumenta em relação ao estudo anatômico e fisiológico, de fora para dentro
[5].
O ouvido externo é formado pelo pavilhão e meato acústico externo. O pavilhão é
formado por uma lamina fibrocartilaginosa elástica, com a estrutura de uma concha
acústica, que recebe os sons do meio exterior. Ele está localizado na parte lateral da cabeça
e em virtude de sua conformação estrutural, com saliências e depressões, auxilia muito na
discriminação e localização dos sons. O meato acústico externo é um canal que tem em
média dois centímetros de comprimento e inicia-se na concha do pavilhão, se prolongando
até a membrana do tímpano, pela qual se torna um canal fechado. Encontra-se neste canal
certa quantidade de pelos e glândulas ceruminosas, que protegem o órgão. Em frequências
médias e altas, o som que chega ao tímpano é significativamente modificado pelo ouvido
externo, cabeça e parte superior do torso. Mais especificamente, quando o som contém uma
larga banda de frequências, o ouvido externo introduz um padrão complexo de picos e vales
em seu espectro. Esse padrão varia sistematicamente com a direção da fonte sonora em
relação à cabeça, e, portanto, esses padrões espectrais provêm informações importantes
sobre a localização de fontes sonoras [5] [9].
O som que viaja através do canal auditivo causa com que o tímpano, ou membrana
timpânica, vibre. O tímpano forma a fronteira do ouvido externo com o ouvido médio.
Essas vibrações são então transmitidas através de uma cadeia de pequenos ossos, os
ossículos, que ligam o tímpano a uma abertura do ouvido interno chamada de janela oval,
que é coberta por uma membrana e forma a fronteira do ouvido médio com o ouvido
interno. Os ossículos recebem nomes de acordo com as suas estruturas características:
martelo, bigorna e estribo, sendo o último o mais leve e pequeno dos três e o único que
realmente faz contato com a janela oval. A principal função do ouvido médio é assegurar a
eficiência da transferência de energia sonora a partir do ar para os fluidos do ouvido interno.
Caso o som influenciasse diretamente a janela oval, a maior parte dele seria simplesmente
refletida de volta, ao invés de adentrar a cóclea. Isso acontece porque a resistência da janela
oval à movimentos é bem diferente da resistência do ar, o que pode ser descrito como uma
diferença de impedância acústica. O ouvido médio age como um dispositivo que casa essas
11
impedâncias e melhora a transmissão do som, reduzindo a quantidade de som refletido. A
transmissão de energia sonora através do ouvido médio é mais eficiente em frequências
médias, que são as frequências mais importantes para o reconhecimento da fala. Além da
cadeia de ossinhos, encontram-se também no ouvido médio os seguintes acidentes
anatômicos: membrana do tímpano, com formato circular, ligeiramente convexa para dentro
da cavidade, e dois orifícios, ambos fechados, a janela oval e janela redonda [5] [9].
O ouvido interno, também conhecido como cóclea, possui a forma espiral como a
concha de um caracol. A cóclea é necessária para a transdução das pequenas e rápidas
flutuações de pressão atmosférica que constituem os sons em códigos neurais para o nervo
auditivo. Ao fazer isso, ela deve tornar disponível ao cérebro o máximo de informação
disponível sobre essas flutuações. O ouvido interno situa-se numa cavidade fechada e muito
bem protegida pelo osso temporal, abrigando um liquido aquoso, chamado endolinfa, que
envolve os canais semicirculares e o caracol. As estruturas do ouvido interno são muito
pequenas e delicadas, entretanto bastante densas e rijas [3] [5] [9].
Assim que qualquer objeto sonoro provoca a vibração das partículas aéreas, estas
alcançam a membrana do tímpano e também a fazem vibrar. Por intermédio da cadeia
ossicular, as vibrações são transmitidas à membrana elástica da janela oval. As vibrações
dessa membrana provocam movimentos vibratórios da perilinfa e logo da endolinfa,
originando movimentos no órgão de Corti, que conduz a excitação das terminações nervosas
da cóclea. O nervo auditivo conduz ao cérebro os impulsos nervosos e a via auditiva
termina nas zonas superiores do córtex do lobo temporal, onde são interpretadas as
sensações auditivas [5] [9].
2.3 Psicoacústica da audição espacial
O estudo do som deve levar em consideração não somente as suas propriedades
físicas, mas também as consequências da sua interação com os ouvintes. O campo da
ciência que estuda a relação entre as características fisiológicas do sistema auditivo humano
e as características físicas do som, como as sensações auditivas que permitem localizar
fontes sonoras no espaço extraindo informações direcionais a partir dos sons, chama-se
Psicoacústica.
2.3.1 Sistema de coordenadas esféricas interaurais
Para especificar a localização de uma fonte sonora no espaço em relação a um
ouvinte, é necessário um sistema de coordenadas, e, como a cabeça humana é
12
aproximadamente uma esfera, um sistema de coordenadas esféricas torna-se uma escolha
natural, onde as coordenadas padrão são o azimute (θ), a elevação (φ) e o alcance (r) [4].
No sistema de coordenadas esféricas interaurais, ilustrado na Figura 2, o azimute pode
ser definido como a deflexão a partir do centro do plano vertical (0°) onde valores positivos
significam uma deflexão para a direita e valores negativos significam uma deflexão para a
esquerda. Sendo assim, um ângulo θ de 90° indica que a fonte sonora está localizada
diretamente à direita do ouvinte, e um ângulo θ de -90° indica que a fonte sonora está
localizada diretamente à esquerda do ouvinte. Posições localizadas diretamente atrás da
cabeça são descritas por um ângulo θ de ±180° [4] [9].
A elevação é definida como a deflexão a partir do plano horizontal, onde valores
positivos indicam uma deflexão para cima, e valores negativos indicam uma deflexão para
baixo. Sendo assim, um ângulo φ de 90° indica que a fonte sonora está posicionada bem
acima da cabeça do ouvinte, e um ângulo φ de -90° indica que a fonte sonora está
posicionada bem abaixo do ouvinte [4] [9].
Figura 2 – Representação do sistema de coordenadas esféricas interaurais
Fonte: FILIPANITS JR., Frank. Design and Implementation of an Auralization
System with a Spectrum-Based Temporal Processing Optimization. Disponível em:
<http://alumnus.caltech.edu/~franko/thesis/thesis.html>. Acesso em: 16 set. 2017.
O alcance é a distância (d) definida em metros a partir do centro da cabeça (0, 0, 0) até a
13
fonte sonora. Dados dois pontos 𝑃0(𝜃0, 𝜑0, 𝑟0) e 𝑃1(𝜃1, 𝜑1, 𝑟1) quaisquer no espaço em
coordenadas esféricas, a distância entre eles pode ser calculada como:
𝑑 = √𝑟12𝑟0
2 − 2𝑟0𝑟1[𝑐𝑜𝑠𝜑0𝑐𝑜𝑠𝜑1𝑐𝑜𝑠(𝜃1 − 𝜃0) + 𝑠𝑒𝑛𝜑0𝑠𝑒𝑛𝜑1] [𝑚], (5)
onde o valor obtido estabelece a distância entre uma fonte sonora pontual no espaço e o
centro da cabeça do ouvinte [4] [8].
2.3.2 Interpretação de ângulos de azimute de fontes sonora
Em termos de audição espacial, existem duas grandezas primordiais com relação ao
azimute de uma fonte sonora: a diferença de tempo interaural ou ITD (do inglês Interaural
Time Difference), e a diferença de nível interaural ou ILD (do inglês Interaural Level
Difference). Como a velocidade do som no ar é finita, o som emitido a partir de uma fonte
sonora pode chegar em diferentes instantes de tempo em cada um dos ouvidos internos de
um ouvinte, dependendo do ângulo entre a fonte sonora e a cabeça do indivíduo. Supondo
que uma onda sonora seja emitida a partir de uma fonte distante que atinge uma cabeça
esférica de raio a, e com um ângulo θ não nulo, é claro que o som deve chegar em um dos
ouvidos externos antes do outro, pois a onda sonora precisa percorrer uma distância extra
para chegar até o outro ouvido externo. Ao dividir essa distância pela velocidade do som,
obtém-se a equação da ITD [4]:
𝐼𝑇𝐷 =𝑎[𝜃+𝑠𝑒𝑛(𝜃)]
𝑣 [𝑠], −90° ≤ 𝜃 ≤ +90°. (6)
Portanto, a ITD é nula quando a fonte sonora está bem à frente do ouvinte, e é
máxima quando a fonte está diretamente para a esquerda ou diretamente para a direita da
cabeça do ouvinte, o que representa uma ITD de aproximadamente 0,7 milissegundos para
uma cabeça humana de tamanho médio [4].
Além dessa diferença temporal, existe também uma diferença na percepção de nível
sonoro entre os dois ouvidos externos, a chamada ILD. Como cada ouvido externo de um
indivíduo está separado por uma distância delimitada pelo diâmetro da sua cabeça, nota-se
uma diferença de nível nos sons percebidos por cada ouvido interno. A base para o cálculo
da ILD é a lei do inverso do quadrado [4] [8]:
𝐼 = 𝑊
4𝜋𝑑2[
𝑊
𝑚2]. (7)
Ambas a ITD e a ILD são altamente dependentes da frequência da onda sonora. Em
frequências baixas, que possuem comprimentos de onda muito grandes com relação ao
diâmetro de uma cabeça, não há muita diferença de pressão sonora entre os dois ouvidos
externos. Porém, nas altas frequências, onde os comprimentos de onda são curtos para que
14
ocorra a difração do som ao redor da cabeça, uma espécie de sombreamento sonoro é
produzido pela cabeça, similar a um sombreamento luminoso. Dessa maneira, a localização
de fontes sonoras em baixas frequências é dominada pela ITD, e em altas frequências é
dominada pela ILD. Essa transição de dominância entre ITD e ILD acontece na faixa entre
1kHz e 2kHz, conforme ilustra a Figura 3 [1] [4].
Figura 3 – Transição de dominância entre ITD e ILD em função da frequência da
onda sonora
Fonte: BREEBAART, Jeroen; FALLER, Christof. Spatial Audio Processing: MPEG
Surround and Other Applications. Sussex: John Wiley & Sons Ltd., 2007. 209p, il.
2.3.3 Interpretação de ângulos de elevação de fontes sonoras
O ouvido externo age como uma antena acústica, onde as cavidades ressonantes
amplificam certas frequências e atenuam outras, devido a sua geometria. Sendo assim, a
resposta em frequência de cada orelha depende da direção da fonte sonora, o que nos auxilia
na localização de fontes sonoras com ângulos φ diferentes de zero. Para ilustrar esse fato, a
Figura 4 ilustra duas medidas de magnitude da resposta em frequência para duas possíveis
direções de chegada da uma mesma onda sonora. Para cada um dos casos a onda percorre
um caminho diferente a partir da fonte sonora até chegar ao meato acústico, dependendo de
como ocorre a reflexão da onda nas cavidades internas do pavilhão. Em ambos os casos, as
reflexões causam com que um sinal atrasado chegue fora de fase no meato acústico, o que
pode acarretar no acontecimento de interferências construtivas ou destrutivas. Como o
ouvido externo é um refletor mais eficiente para sons emitidos a partir de uma fonte sonora
à frente do ouvinte, a rejeição é maior para fontes sonoras posicionais à frente do que acima
do ouvinte [4].
15
Figura 4 – Resposta em frequência do ouvido externo com relação ao ângulo de
elevação da fonte sonora
Fonte: ALGAZI, V. R.; DUDA, R. O.; FORD, G. The CIPIC Interface Laboratory
Home Page. Disponível em: <http://interface.idav.ucdavis.edu/> Acesso em: 16 set.
2017.
2.3.4 Interpretação de distâncias de fontes sonoras
Quando se trata de localizar uma fonte sonora no espaço, o sistema auditivo humano é
mais eficiente na interpretação de ângulos de azimute, menos eficiente na interpretação de
ângulos de elevação, e menos eficiente ainda na interpretação de distâncias. De maneira
similar, a interpretação de ângulos de azimute é muito bem compreendida, enquanto que a
interpretação de ângulos de elevação é menos compreendida, e a interpretação de distâncias
é menos compreendida ainda. Porém alguns fatores frequentemente levados em
consideração na compreensão da interpretação de distancias são a intensidade sonora e a
razão entre os sons direto e o reverberado [4].
No que diz respeito à intensidade sonora, a energia de um som emitido a partir de
uma fonte cai com o inverso do quadrado da distância percorrida pela onda sonora. Sendo
assim, a energia do som que chega até o ouvinte é proporcional a energia do som emitido
pela fonte e, portanto, a intensidade sonora não é o suficiente para determinar a distância de
uma fonte sonora no espaço, sendo também necessário saber outras informações sobre a
fonte sonora. Contudo, dependendo do ambiente onde se dá a propagação, o som emitido a
partir de uma fonte é refletido e refratado diversas vezes nas superfícies desse ambiente,
16
antes de chegar até o ouvinte. Nesses casos, a razão entre a energia que chega ao ouvinte
diretamente da fonte sonora e a energia refletida é o fator de maior relevância para a
interpretação de distâncias. Em distâncias pequenas essa razão é muito grande, enquanto
que, em longas distâncias, ela é muito pequena [4].
2.3.5 Localização de fontes sonoras no espaço
De maneira similar à percepção de uma imagem através da visão, o ser humano é
capaz de perceber imagens ditas auditivas no espaço, compostas por eventos auditivos. Na
maioria das situações, a direção dos eventos auditivos percebidos corresponde com a
direção física das fontes sonoras no espaço, relacionando os arredores do ouvinte com a
imagem auditiva espacial [1].
Para entender melhor como o sistema auditivo humano discrimina a direção de uma
fonte sonora no espaço, as propriedades dos sinais que chegam às entradas do ouvido
externo precisam ser levadas em consideração. De maneira geral, os sinais que adentram o
sistema auditivo podem ser vistos como versões filtradas do sinal emitido pela fonte sonora.
Os filtros que modelam o som a partir da fonte no caminho até as entradas esquerda e direita
do sistema auditivo humano são chamados de funções de transferência relacionadas à
cabeça, ou simplesmente HRTFs (do inglês Head-Related Transfer Functions), as quais,
devido a diferenças no formato da cabeça e do ouvido externo de cada indivíduo, também
possuem diferenças nas suas características espectrais, variando de pessoa para pessoa [1]
[4].
A imagem auditiva mais simples possível é aquela em que uma única fonte sonora
encontra-se em campo livre, entretanto, a audição espacial com duas ou mais fontes sonoras
possui maior relevância prática. Por campo livre entende-se um espaço aberto, sem objetos
físicos nos quais o som possa ser refletido. Câmeras anecóicas, por possuírem paredes com
um alto coeficiente de absorção do som, são frequentemente utilizadas em experimentos que
simulam condições de campo livre, onde quase não existe reflexão do som [1].
Para duas fontes sonoras distintas, ou canais, as HRTFs é que determinam os valores
de ITD e ILD para os sinais específicos de cada um, através da diferença de tempo entre
canais, ou ICTD (do inglês Inter-Channel Time Difference), da diferença de nível entre
canais, ou ICLD (do inglês Inter-Channel Level Difference), e da coerência entre canais, ou
ICC (do inglês Inter-Channel Coherence) [1].
Dois canais são ditos coerentes quando ambos emitem sinais com o mesmo nível
sonoro e sem atrasos entre eles. Quando sinais coerentes são emitidos a partir de dois canais
17
independentes, um evento auditivo compacto é percebido entre as duas fontes sonoras. Ao
reduzir a ICC, a “largura” do evento auditivo aumenta, fenômeno esse que é baseado no fato
de que as ITDs e ILDs caracterizam a localização de um evento auditivo a partir das
relações entre elas. Ao aumentar o nível de um dos canais, o evento auditivo movimenta-se
para o lado do canal de maior nível, sendo possível controlar a sua localização através da
ICLD. A ICTD também pode ser utilizada para atingir o mesmo resultado, aplicando um
delay entre dois canais distintos para alterar o panorama do som [1].
Uma imagem auditiva espacial geralmente consiste de um grande número de eventos
distribuídos no espaço. Quando uma fonte sonora emite um sinal, um evento auditivo
correspondente é percebido na direção dessa fonte. Quando outra fonte sonora
independente, em outra localização, emite outro sinal, outro evento auditivo correspondente
é percebido na direção da segunda fonte. Se as duas fontes emitirem sinais
simultaneamente, dois eventos auditivos serão percebidos em duas direções diferentes,
dependendo da localização de cada um. Assim, a soma do número de sinais de entrada no
sistema auditivo provenientes de fontes sonoras independentes no espaço resulta em eventos
auditivos distintos para cada fonte. Na maioria dos casos, as direções desses eventos
auditivos resultantes correspondem à direção das fontes sonoras no espaço, e formam
imagens auditivas espaciais que correspondem aos arredores físicos dos ouvintes [1].
3 METODOLOGIA
Esta seção descreve as principais técnicas utilizadas na captação e virtualização de
áudio espacial voltadas para os sistemas de som bidimensionais e tridimensionais. Os
métodos de captação incluem a gravação multicanal e gravação binaural utilizando pares de
microfones casados. As técnicas de virtualização incluem a mixagem de áudio em dois ou
mais canais e a sintetização do som em 3-D utilizando conjuntos de resposta ao impulso
relacionadas à cabeça, as chamadas HRIRs (do inglês Head-Related Impulse Responses),
para reprodução através de fones de ouvido.
3.1 Sistemas de som espaciais
Ao gravar, editar, processar ou sintetizar sinais de áudio, deve-se sempre ter em vista
a compatibilidade desses sinais com o tipo de sistema de reprodução especifico no qual se
pretende escutar o resultado final de uma mixagem. Sendo assim, a captura, sintetização,
mixagem, monitoração e reprodução de sinais de áudio de uma maneira geral não são
18
tópicos que podem ser tratados de maneira isolada. Por essa e outras razões de cunho
estético, existem diferentes abordagens na produção audiovisual [1] [10].
No processo de gravação multicanal, por exemplo, cada elemento sonoro é captado ou
sintetizado em um canal separado, porém, se todos esses elementos fossem reproduzidos da
mesma forma, poderia acontecer com que eles soassem confusos entre si, devido a
similaridades em altura, timbre ou intensidade. Neste caso, o objetivo final da mixagem
deve ser o de misturar os vários elementos sonoros, fazendo com que cada um perca um
pouco de suas características individuais para fazer parte de um conjunto, mantendo assim o
equilíbrio espectral da imagem auditiva espacial gerada, visando a perspectiva do ouvinte
[1] [10].
Por outro lado, quando se trata do processo de captação de elementos sonoros em
ambientes com acústicas naturais, como uma gravação de um coral em um auditório ou de
uma orquestra em um teatro, o objetivo final tanto da gravação quanto da mixagem dos
áudios deve ser o de recriar o mais realisticamente possível a ilusão auditiva de “estar lá”
presente no momento da performance [1].
De qualquer maneira, qualquer abordagem utilizada na modelagem da imagem
auditiva espacial que cria um cenário auditivo correspondente a um conjunto de eventos
auditivos simultâneos deve visar não somente os aspectos criativos e estéticos almejados
artisticamente numa produção audiovisual, mas também as possibilidades e limites
inerentes ao sistema de reprodução de som específico no qual se pretende escutar o
resultado final da mixagem [1] [10].
3.1.1 Sistemas de som bidimensionais
Todos os aspectos levados em consideração na mixagem de sinais de áudio, como o
balanço, a perspectiva e a inteligibilidade dos sons, são importantes para estabelecer a
eficiência da comunicação auditiva. Em sistemas de som monofônicos, que possuem apenas
um canal, é mais difícil de conferir a distinção ou definição dos sons quando misturados,
devido ao fato de eles serem unidimensionais. Já nos sistemas de som estereofônicos, que
possuem dois canais (esquerdo e direito), é possível expandir o espaço auditivo em duas
dimensões (profundidade e largura), facilitando o posicionamento de elementos num
cenário auditivo e melhorando a perspectiva dos sons para o ouvinte [1] [10].
Para a captação natural do som em estéreo, uma técnica comum é a gravação
utilizando pares de microfones casados, conforme ilustra a Figura 5 (b). Nela, dois
microfones direcionais são posicionados sobre um eixo, de maneira que um aponta mais
19
para a esquerda e o outro mais para a direita. Dessa maneira, não existe ICTD entre os sinais
captados, mas ocorre uma ICLD entre eles, que é função do ângulo azimutal da fonte
sonora. Quando os sinais captados pelos microfones são amplificados e reproduzidos
através de um par de caixas de som, um evento auditivo com um ângulo relativo ao da fonte
sonora captada é percebido, e se os parâmetros da gravação forem apropriadamente
escolhidos, pode-se fazer com que os dois ângulos coincidam [1].
Figura 5 – Arranjos para reprodução de sinais de áudio em estéreo através de caixas
de som (a) e para captação utilizando de pares de microfones casados (b)
Fonte: BREEBAART, Jeroen; FALLER, Christof. Spatial Audio Processing:
MPEG Surround and Other Applications. Sussex: John Wiley & Sons Ltd., 2007.
209p, il.
Ainda quando existem múltiplas fontes ativas e concorrentes para serem gravadas, o
mesmo princípio de gravação e reprodução também se aplica, o que usualmente resulta em
múltiplos eventos auditivos, um para cada fonte [1].
O arranjo padrão de caixas de som para a reprodução de sinais de áudio em um sistema
estéreo se dá em cima de uma circunferência imaginária de raio fixo, conforme ilustrado na
Figura 5 (a), onde o ouvinte deve posicionar-se no centro, e as caixas de som devem ser
posicionadas sobre a circunferência, formando um arco com ângulos 𝜃0 de
aproximadamente -30° e 30° com relação à cabeça do ouvinte. O conceito por trás desse
20
arranjo é bastante simples: para posicionar um som à esquerda, deve-se enviar o seu
respectivo sinal para o canal esquerdo. Para posicionar um som à direita, deve-se enviar o
seu respectivo sinal para o canal direito. Se o mesmo sinal for enviado para ambos os canais
simultaneamente, uma fonte sonora “fantasma” irá parecer que origina de um ponto no
espaço entre duas as caixas de som [1] [4].
Aplicando uma ICLD, pode-se criar a ilusão de que a fonte sonora se move entre os
dois canais, entretanto, essa simples técnica, conhecida como crossfading, não consegue
tirar a impressão de que a fonte esteja fora do segmento de linha imaginária entre as caixas
de som dos dois canais. É possível também deslocar a posição da fonte sonora entre dois
canais explorando o efeito da ICTD. O resultando é bastante similar ao uso da ICLD, porém
se a ICTD aplicada for muito grande, o ouvinte eventualmente irá passar a notar o som
emitido por um dos canais como sendo um eco desagradável, o que torna o seu uso para o
posicionamento de sons numa imagem auditiva em sistemas de som bidimensionais menos
popular do que o uso da ICLD [1] [4].
A largura da imagem auditiva espacial que é percebida quando se escuta os sons através
desse arranjo é limitada à aproximadamente a área entre e atrás das duas caixas de som. A
grande diferença quando se escuta sons em estéreo através de fones de ouvido é que a
localização dos eventos auditivos é limitada ao espaço confinado dentro da cabeça do
ouvinte, numa linha imaginária entre os dois ouvidos externos [1] [8].
Existem outros sistemas de som bidimensionais que ampliam a área da imagem
auditiva espacial em relação ao estéreo utilizando canais adicionais para incrementar a
ilusão de profundidade e largura do espaço auditivo, como é o caso do 5.1. Esse tipo de
sistema é geralmente instalado em salas de cinema, ou até mesmo em residências, em
versões populares conhecidas como home theaters, que têm o uso focado na reprodução de
áudio de filmes armazenados em mídias que comportam seis ou mais canais de áudio
discretos, como os DVDs e os Blu-ray Discs. Atualmente a transmissão de TV digital e
alguns serviços de streaming de conteúdo audiovisual por assinatura também comportam
componentes de áudio Surround [1].
Para captação ou sintetização de áudio para reprodução em sistemas de som Surround,
as mesmas técnicas utilizadas nos sistemas estereofônicos podem ser aplicadas entre pares
de canais, estendendo-as até o número de canais principais do sistema em questão. Dessa
maneira, para posicionar um evento auditivo em uma direção especifica, basta aplicar a
técnica de crossfading entre dois canais quaisquer do sistema [1].
21
Para reprodução do áudio, os sistemas de som Surround utilizam um número de caixas
de som principais com alto-falantes pequenos distribuídos pelo ambiente onde se é
reproduzido o som, com a adição de uma caixa de som com um alto-falante maior, que
reproduz sons graves e não direcionais, conhecido como subwoofer. A Figura 6 ilustra o
arranjo das caixas de som para reprodução de áudio em um sistema de som Surround 5.1
[1] [4] [10].
Figura 6: Arranjo padrão de caixas de som para reprodução de áudio em sistemas de
som Surround 5.1
Fonte: BREEBAART, Jeroen; FALLER, Christof. Spatial Audio Processing: MPEG
Surround and Other Applications. Sussex: John Wiley & Sons Ltd., 2007. 209p, il.
No arranjo da Figura 6, as duas caixas de som denominadas Left e Right são posicionadas
com ângulos de -30° e 30° em frente ao ouvinte, para produzir uma imagem auditiva frontal
compatível com o sistema estéreo. As duas caixas de som denominadas Rear Left e Rear
Right são posicionadas em -110° e 110° para adicionar componentes laterais à imagem
auditiva, e a caixa de som denominada Center é posicionada em 0° para conferir
estabilidade na imagem auditiva quando o ouvinte não estiver posicionado exatamente no
centro do arranjo. O “um” do sistema 5.1 é um canal adicional, que é designado à
22
reprodução de sons em baixa-frequência, também chamados de LFE (do inglês Low
Frequency Effects), que usualmente possuem frequências na faixa abaixo dos 120Hz [1] [4].
Devido à quantidade e ao posicionamento dos canais no sistema de som 5.1, não é
possível imitar uma imagem auditiva espacial em 360° através dele, mas é possível produzir
uma imagem auditiva frontal sólida e com componentes laterais que complementam a
impressão espacial do som. Já em sistemas que utilizam mais canais, como o 7.1, o 11.1, e
etc., é possível produzir efeitos de posicionamento de eventos auditivos espaciais em um
maior número de direções e com melhor definição, mas eles acabam se tornando
inconvenientes devido ao grande número de canais, que aumentam o custo e a
complexidade desses sistemas [1] [4].
3.1.2 Sistemas de som tridimensionais
Todos os sistemas de som bidimensionais são limitados ao posicionamento de eventos
auditivos num plano, ou seja, eles só conseguem captar, sintetizar, ou reproduzir a
componente azimutal de uma fonte sonora. Já os sistemas de som tridimensionais têm por
objetivo incrementar a ilusão do espaço auditivo, indo além da capacidade limitada dessas
abordagens. O conceito básico dos sistemas de som tridimensionais consiste na tentativa de
recriar a interação dos fenômenos sonoros com a fisionomia do organismo humano,
especialmente com a do sistema auditivo e da cabeça, podendo também incluir outras partes
do corpo [4] [10].
Para alcançar esse objetivo, as técnicas mais comuns de gravação natural de áudio em
3-D normalmente utilizam cabeças artificiais ou manequins acústicos, geralmente
compostos de uma cabeça com orelhas, pescoço, e até mesmo torso, que imitam a
fisionomia humana e possuem pares de microfones casados instalados nas entradas do que
seriam os canais esquerdo e direito do sistema auditivo humano. Quando os sinais de áudio
gravados com esse tipo de artifício são reproduzidos através de fones de ouvido, conforme
ilustra a Figura 7, é possível perceber uma imagem auditiva espacial relativa à interação
entre os eventos auditivos que ocorreram durante a gravação e a fisionomia do manequim
utilizado, pois as informações relativas ao azimute, elevação e distância do posicionamento
das fontes sonoras no espaço estarão presentes na gravação. Dessa maneira, quanto maior
forem as similaridades entre as formas do manequim acústico e a fisionomia do ouvinte,
mais convincente será a experiência auditiva tridimensional [1] [4].
23
Figura 7: Gravação e monitoração (reprodução) de áudio em 3-D utilizando um
manequim acústico e fones de ouvido
Fonte: ALGAZI, V. Ralph; DUDA, Richard O.; FORD, Gary. The CIPIC Interface
Laboratory Home Page. Disponível em: <http://interface.idav.ucdavis.edu/>. Acesso
em: 16 set. 2017.
A sintetização do efeito em 3-D na reprodução do áudio através de fones de ouvido
também é possível aplicando métodos computacionais, porém eles dependem de certa forma
da gravação natural do áudio em 3-D. Como seria muito difícil modelar uma HRTF
matematicamente devido à alta complexidade dos sistemas auditivo e neurológico humano,
torna-se mais viável a obtenção experimental de tais funções utilizando manequins
acústicos. Assim, uma prática comum consiste em gravar as HRIRs de uma cabeça artificial
ou um manequim acústico em uma câmera anecóica, produzindo impulsos sonoros através
de caixas de som posicionadas em diversos ângulos do sistema de coordenadas esféricas
interaurais. Dessa maneira, cada impulso gerado resulta em um par de HRIRs, um para cada
canal, que é diferente para cada direção da fonte de impulso sonoro [1] [4].
Fica claro que o levantamento experimental de um conjunto de HRTFs que recria a
percepção auditiva espacial de uma determinada cabeça requer um grande número de
medições de pares de HRIRs, conforme a resolução desejada do espaço interaural. Na
prática, geralmente utiliza-se um valor fixo de alcance, variando apenas o azimute e a
elevação da fonte de impulso sonoro. Em teoria, após a realização das medidas dos pares de
HRTFs e de organizar os dados obtidos em função dos ângulos de azimute e elevação
utilizados, basta realizar a convolução de um sinal de áudio comum com um par de HRIRs
correspondente à uma direção espacial desejada para produzir sons que imitam os níveis de
pressão sonora nas entradas de cada um dos canais do sistema auditivo, criando uma
imagem auditiva espacial sintética, conforme ilustra a Figura 8 [1] [4].
24
Figura 8: Imagem auditiva espacial sintetizada a partir das HRIRs de uma fonte
sonora pontual de posição arbitrária no espaço
Fonte: ALGAZI, V. Ralph; DUDA, Richard O.; FORD, Gary. The CIPIC Interface
Laboratory Home Page. Disponível em: <http://interface.idav.ucdavis.edu/>. Acesso
em: 16 set. 2017.
4 APLICAÇÃO DA METODOLOGIA PROPOSTA
Neste tópico são descritas algumas tentativas de aplicação da metodologia descrita na
seção anterior, primeiramente abordando a gravação natural de eventos auditivos espaciais e
o levantamento experimental de HRTFs através de um protótipo experimental de gravação
de áudio binaural, seguindo com a utilização de métodos computacionais com o objetivo de
sintetizar o efeito do áudio em 3-D.
4.1 Captação natural de áudio espacial utilizando pares de microfones casados
Independentemente da utilização de cabeças artificiais ou manequins acústicos, todos
os métodos de gravação natural de áudio espacial descritos anteriormente fazem uso de
pares de microfones casados para captar informações sobre a direção de uma fonte sonora
no espaço. Para explorar esse conceito, foi realizado um experimento com um par de
microfones condensadores direcionais Behringer C-4 montados em um suporte próprio para
captação de áudio em estéreo, com cada um apontando na direção oposta à cápsula do outro,
formando um ângulo θ de 180° entre eles para simular as entradas esquerda e direita do
sistema auditivo humano, conforme ilustrado na Figura 9 (a).
25
Figura 9 - Arranjo para captação de áudio espacial utilizando um par de microfones
casados (a) e interface de áudio utilizada para gravação em canais separados (b)
(a)
(b)
Fonte: SANTOS, Arthur N. dos. 2017.
A distância de separação entre as cápsulas dos dois microfones da Figura 9 (a)
ultrapassou o diâmetro de uma cabeça de tamanho médio, medindo pouco mais de 20cm,
considerando os conectores XLR dos cabos de áudio. Cada microfone foi conectado à uma
entrada distinta de uma interface de áudio Behringer U-PHORIA UMC404HD, ilustrada na
Figura 9 (b), para conexão com um computador pessoal via porta USB, com o propósito de
realizar a gravação em dois canais separados utilizando o software de gravação e edição de
áudio e vídeo Sony Vegas Pro 9. Durante a gravação foram emitidos sons utilizando um
violão, repetindo sempre o mesmo acorde, porém movimentando-se, e variando os ângulos
de azimute e elevação do instrumento com relação ao plano interaural dos microfones, para
simular o movimento de uma fonte sonora ao redor de uma cabeça. A visualização no
tempo do conteúdo dessa gravação é ilustrada na Figura 10.
Figura 10 - Visualização no tempo do áudio dos canais esquerdo direito gravados pelo
software Sony Vegas Pro 9
Fonte: SANTOS, Arthur N. dos. 2017.
Apesar de o conteúdo da gravação ilustrada na Figura 10 apresentar o padrão
esperado de ICLD, esse arranjo de microfones não conseguiu captar a direção da fonte
26
sonora de maneira convincente, apresentando internalização do som reproduzido através de
fones de ouvido para ângulos θ diretamente opostos, como 0° e 180°, e também não
conseguiu captar efeitos de elevação da fonte sonora, devido ao dimensionamento
rudimentar do arranjo e da falta de anteparos para simular os pavilhões do ouvido externo, o
que poderia melhorar a discriminação da direção de eventos sonoros.
Idealmente, o uso de um manequim acústico ou de uma cabeça artificial para a
captação natural do áudio em 3-D solucionaria os problemas constatados na utilização de
um simples par de microfones casados, porém o alto custo desse tipo de artefato é um fator
que muitas vezes obriga o consumidor a procurar soluções com uma melhor relação custo-
benefício. Atualmente, existe uma série de produtos disponíveis comercialmente que
minimizam a complexidade de uma cabeça artificial, mas que apresentam resultados
bastante satisfatórios na captação natural de áudio binaural. Alguns exemplos desses outros
tipos de dispositivos são o 3Dio Free Space, que utiliza apenas um par microfones
condensadores separados pela distância de uma cabeça de tamanho médio com próteses
auriculares artificiais que simulam o pavilhão do ouvido externo, e o Hooke Verse, que é um
dispositivo similar à um fone de ouvido intra-auricular, mas que, ao invés de alto-falantes,
possui microfones para captação do áudio que chega até as entradas do sistema auditivo do
usuário. Todos os produtos citados neste parágrafo são ilustrados na Figura 11.
Figura 11 - Manequim acústico (GRAS 45BB KEMAR) (a), cabeça artificial (Neumann
KU 100) (b), 3Dio Free Space (c) e Hooke Verse (d)
(a)
(b)
(c)
(d)
Fontes: (a) GRAS SOUND AND VIBRATION A/S. Disponível em: <www.gras.dk/>;
(b) NEUMANN BERLIN. Disponível em: <http://www.neumann.com>; (c) 3DIO:
PROFESSIONAL BINAURAL MICROPHONES. Disponível em:
<https://3diosound.com/>; (d) HOOKE AUDIO. Disponível em:
<https://hookeaudio.com/>. Acesso em: 2 nov. 2017.
27
Com base nesse tipo mais simples de solução, foi desenvolvido um protótipo para
gravação de áudio binaural, utilizando um par de microfones condensadores de eletreto
acoplados à um par de borrachas intra-auriculares de silicone, para encaixe seguro e
confortável com as entradas do ouvido externo, conforme ilustra a Figura 12.
Figura 12 - Protótipo para gravação de áudio binaural (a) e detalhe do microfone
condensador de eletreto acoplado à borracha intra-auricular
(a)
(b)
Fonte: SANTOS, Arthur N. dos. 2017.
O objetivo desse dispositivo de gravação de áudio binaural, ilustrado na Figura 12, é
utilizar a própria antropometria do usuário para captar informações de direção das fontes
sonoras no espaço, eliminando a necessidade de modelar um par de próteses artificiais do
pavilhão do sistema auditivo humano ou uma cabeça. A Figura 13 ilustra o encaixe dos
microfones do dispositivo com os ouvidos externos esquerdo e direto.
Figura 13 - Encaixe do dispositivo de gravação binaural nos ouvidos externos
esquerdo (b) e direito (a)
(a)
(b)
Fonte: SANTOS, Arthur N. dos. 2017.
28
Para avaliar a eficiência desse protótipo, foi realizada uma gravação, utilizando um
gravador portátil Marantz PMD620MKII, ilustrado na Figura 14 (a), que possui entrada de
áudio para microfone estéreo com conexão via jack P2, e que também fornece phantom
power interno de 5V para microfones condensadores de eletreto. O gravador foi configurado
para salvar os arquivos em formato mp3, com taxa de bits de 192kbps e taxa de amostragem
de 44,1kHz. A gravação em si foi realizada ao livre, caminhando pelas ruas da cidade,
captando sons de veículos em movimento, pessoas conversando, passos nas calçadas,
pássaros cantando, e etc.. Como os microfones utilizados possuem alta sensibilidade,
também precisou ser ajustado o valor de atenuação do nível do sinal de entrada do gravador
portátil em 18dB.
O efeito tridimensional captado nesse experimento foi bastante satisfatório na
reprodução do áudio gravado através de fones de ouvido, soando convincente e
apresentando externalização dos sons vindos das mais diversas direções do espaço
interaural. Alguma sensação de internalização do áudio pode ser notada em eventos
auditivos onde a fonte sonora possui um ângulo de elevação diferente do plano interaural do
ouvinte. Para avaliar se o estimulo visual possui alguma influência na determinação da
direção de fontes sonoras fora do plano azimutal, foi realizado um segundo teste, repetindo
o mesmo percurso da gravação anterior, porém utilizando uma câmera de ação Atrio Full
Sport Cam HD DC186 acoplada à cabeça, com um suporte próprio para tal, conforme
ilustrado nas Figuras 14 (b) e 14 (c).
Figura 14 – Gravador portátil (a), e vistas frontal (b) e lateral (c) da câmera de ação
acoplada à cabeça em conjunto com o dispositivo de gravação binaural
(a)
(b)
(c)
Fonte: SANTOS, Arthur N. dos. 2017.
29
Após sincronizar o vídeo gravado com a câmera e o áudio captado pelo conjunto de
microfones através do gravador portátil, utilizando o Sony Vegas Pro 9, avaliou-se que o
estimulo visual complementa o estimulo sonoro na discriminação da direção de fontes
sonoras no espaço.
4.2 Medição de HRTFs através do protótipo de gravação de áudio binaural
Confirmada a eficiência da captação do efeito em 3-D do áudio gravado a partir do
protótipo ilustrado nas Figuras 12 e 13, foi realizado um experimento para medição de pares
de HRTFs de algumas direções do sistema de coordenadas interaurais, com a finalidade de
aplicar os sinais obtidos na sintetização do efeito em 3-D do som através de métodos
computacionais. As medições foram realizadas em um um estúdio de gravação, com as
paredes revestidas por painéis acústicos que promovem a absorção do som, minimizando
reflexões, ecos e reverberações, conforme ilustra a Figura 15 (a).
Figura 15 - Medição experimental de HRTFs em estúdio de gravação (a) e caixa de
som utilizada para emissão de impulsos sonoros (b)
(a)
(b)
Fonte: SANTOS, Arthur N. dos. 2017.
Para a geração de impulsos sonoros, foi utilizado um código para o software
30
computacional MATLAB, denominado Soundsteps, ajustando os parâmetros de entrada do
mesmo para produzir sinais com duração de 1 milissegundo à uma frequência de
amostragem de 44,1kHz. Os sinais foram reproduzidos através de uma caixa de som Genius
SP-HF800 Pro, ilustrada na Figura 15 (b), e captados pelo protótipo de gravação de áudio
binaural desenvolvido neste trabalho, acoplado às entradas do sistema auditivo, e conectado
ao gravador portátil. Foram escolhidos apenas alguns pontos do sistema de coordenadas
esféricas interaurais para a gravação dos impulsos sonoros, sendo eles: 𝑃1(θ = 0°, φ = 0°, r =
1m), 𝑃2(θ = -45°, φ = 0°, r = 1m), 𝑃3(θ = +45°, φ = 0°, r = 1m), 𝑃4(θ = 180°, φ = 0°, r = 1m)
e 𝑃5(θ = 0°, φ = +45°, r = 1m). Para cada um desses pontos foram realizadas 9 medições de
resposta ao impulso, para obtenção da média entra elas, utilizando o MATLAB, conforme
ilustra a Figura 16 [11].
Figura 16 - Médias dos pares de HRIRs medidas para θ = φ = 0° e r = 1m
Fonte: SANTOS, Arthur N. dos. 2017.
Após a medição dos pares de HRIRs para os pontos no espaço supracitados, e da
realização do cálculo das médias para cada um, o procedimento foi repetido, porém sem
acoplar o dispositivo de gravação binaural às entradas do sistema auditivo. Como as HRIRs
medidas sofreram a influência das respostas em frequência da caixa de som utilizada para a
reprodução dos impulsos, do estúdio onde elas foram gravadas, dos microfones utilizados
na construção do dispositivo de gravação binaural, e etc., ao medir novamente as HRIRs
sem acoplar os microfones nos ouvidos externos esquerdo e direito, obteve-se os pares de
funções de transferência relativos à todos os sistemas envolvidos, com exceção do sistema
31
auditivo. De posse dessas novas HRIRs, que desconsideram o sistema auditivo, foi
elaborado código para a modelagem paramétrica da função de transferência desses sinais de
resposta ao impulso em um modelo do tipo “só polos” utilizando a função lpc do
MATLAB, conforme a equação:
𝐻(𝑍) = 𝐺
1−∑ 𝑎𝑘𝑍−𝑘𝑝𝑘=1
, (8)
onde G é o ganho, p é a ordem e 𝑎𝑘 são os coeficientes do denominador do filtro
LPC. Considerando x[n] = δ[n], a equação de diferenças do modelo indica que o valor
presente do sinal pode ser aproximado em função de seus valores passados, e como a
resposta à amostra unitária do filtro LPC é uma é uma aproximação do sinal original, y[n]
pode ser modelado de forma compacta através dos parâmetros do filtro, conforme a equação
de diferenças:
𝑦[𝑛] = ∑ 𝑎𝑘𝑦[𝑛 − 𝑘] + 𝐺𝑥[𝑛]𝑝𝑘=1 [12] [13]. (9)
O propósito dessa modelagem foi a obtenção dos coeficientes de um filtro preditor
linear, ou filtro LPC, do tipo IIR, que fosse uma versão aproximada das novas HRIRs
medidas, para que assim fosse possível realizar a filtragem inversa, entre as HRIRs com e
sem o sistema auditivo, para isolar apenas as informações relevantes ao sistema auditivo nas
HRIRs medidas, conforme ilustra a Figura 17 [12] [13].
Figura 17 – Modelagem paramétrica do par de HRIRs sem o sistema auditivo através
da função lpc para θ = φ = 0° e filtragem inversa dos canais esquerdo e direito para o
isolamento dos pares de HRIRs relativos ao sistema auditivo
Fonte: SANTOS, Arthur N. dos. 2017.
32
O resultado dessa filtragem, ilustrado em verde na Figura 17, foi obtido utilizando a
função filter do MATLAB, e invertendo a ordem dos vetores correspondentes ao numerador
e ao denominador dos coeficientes do filtro LPC em questão, transformando-o em um filtro
FIR. A obtenção do ganho e da ordem do filtro LPC foi realizada através do método da
tentativa e erro. Os sinais resultantes, para os cinco pares de HRIRs medidos para os pontos
𝑃1, 𝑃2, 𝑃3, 𝑃4 e 𝑃5, após a realização das médias de cada um, e do isolamento das
componentes no domínio da frequência relativas apenas ao sistema auditivo, através da
filtragem inversa utilizando versões parametrizadas das HRIRs sem o sistema auditivo em
jogo, são ilustrados na Figura 18 [12] [13].
Figura 18 – Resultado final dos pares de HRIRs medidos e processados para os pontos
𝑷𝟏, 𝑷𝟐, 𝑷𝟑, 𝑷𝟒 e 𝑷𝟓
Fonte: SANTOS, Arthur N. dos. 2017.
4.2 Sintetização do efeito de áudio em 3-D através de métodos computacionais
Utilizando os cinco pares de HRTFs medidos e processados, foi elaborado um código
para sintetização do efeito em 3-D de um áudio em estéreo, através do MATLAB. O áudio
escolhido para esse teste possui dois canais com duração de cinco segundos, contendo um
breve trecho de diálogo de apenas duas falas. O arquivo desse áudio, em mp3, foi carregado
no MATLAB utilizando a função audioread, e as cinco matrizes de HRIRs correspondentes
às cinco diferentes direções do sistema de coordenadas esféricas interaurais foram
organizadas em função dos seus ângulos θ e φ. Além disso um menu foi criado para que ao
33
rodar o código o usuário pudesse escolher em que direção se deseja posicionar o áudio no
espaço, conforme ilustra a Figura 19.
Figura 19 - Menu para escolha dos ângulos do sistema de coordenadas esféricas
interaurais pelo usuário através da Janela de Comando do MATLAB
Fonte: SANTOS, Arthur N. dos. 2017.
Após o usuário selecionar os ângulos de azimute e elevação de acordo com as opções
disponíveis, o software realiza a convolução no tempo entre os canais esquerdo e direito da
HRIR correspondente com os canais esquerdo e direito do áudio escolhido para teste. O
resultado dessa operação é a sintetização do posicionamento no espaço do evento auditivo
correspondente ao áudio escolhido. Para reprodução do áudio resultante através do
MATLAB, foi utilizada a função sound, e para visualização do áudio em estéreo, da HRIR
escolhida, e do resultado da convolução entre ambos, nos domínios do tempo e da
frequência, todos os dados em questão foram graficados, conforme ilustra a Figura 20.
Figura 20 - Visualização nos domínios do tempo e da frequência da aplicação do efeito
em 3-D no áudio utilizando o MATLAB para θ = φ = 0°
Fonte: SANTOS, Arthur N. dos. 2017.
34
Nota-se na Figura 20 uma alteração no conteúdo espectral do áudio resultante da
convolução em relação ao áudio original, o que era algo esperado, devido ao fato de um ser
a versão filtrada do outro, pela HRTF utilizada. Porém, com relação ao posicionamento do
som, o efeito em 3-D obtido através desse método não foi muito convincente na reprodução
do áudio através de fones de ouvido, ficando mais parecido com o estéreo do que com um
áudio binaural gravado naturalmente. A lateralização do som é bem definida para os
ângulos θ = -45° e θ = +45°, e o abotoamento do som para θ = 180° é bastante nitido,
porém, para todos os ângulos θ e φ, o áudio soa internalizado.
Para avaliar a eficiência dos pares de HRTFs medidos e processados
experimentalmente durante o desenvolvimento desse trabalho, o experimento de
sintetização do efeito em 3-D do som foi repetido utilizando um banco de dados de domínio
público, o CIPIC HRTF Database. Esse banco de dados contém 45 pares de HRIRs
medidas pelo grupo de pesquisa em áudio espacial do CIPIC Interface Laboratory da
University of California Davis, modeladas a partir de 43 voluntários (27 homens e 16
mulheres), além de dois conjuntos modelados a partir do manequim acústico KEMAR,
ilustrado nas Figuras 11 (a) e 20 (a), um com ouvido externo artificial grande e outro
pequeno. Cada conjunto de HRIRs desse banco de dados contém medidas para 25 diferentes
ângulos de azimute e 50 diferentes ângulos de elevação, totalizando 1250 diferentes
direções com incrementos angulares de aproximadamente 5° entre si. A Figura 21 ilustra a
medição das HRIRs desse banco de dados [4] [14].
Figura 21 - Medição das HRIRs do CIPIC HRTF Database com o manequim acústico
KEMAR (a) e com um dos 43 voluntários (b)
(a)
(b)
Fonte: ALGAZI, V. Ralph; DUDA, Richard O.; FORD, Gary. The CIPIC Interface
Laboratory Home Page. Disponível em: <http://www.ece.ucdavis.edu/cipic/spatial-
sound/research/>. Acesso em: 12 out. 2017.
35
De acordo com a documentação do banco de dados, para as HRIRs obtidas através de
voluntários, foram realizadas medições com os indivíduos sentados no centro de um aro de
raio equivalente a um metro, cujo eixo podia ser alinhado com o eixo interaural de cada
pessoa, o que não impedia os voluntários de moverem as suas cabeças livremente, conforme
ilustra a Figura 19 (b). Para reproduzir os impulsos sonoros foram utilizados alto-falantes
com cones de 5,8 centímetros de diâmetro, instalados no aro, e, para captação dos impulsos,
pequenos microfones-sonda foram posicionados próximos às entradas do sistema auditivo
[4] [14].
Como a sala utilizada na realização dessas medições não era uma câmera anecóica,
uma janela de Hanning modificada precisou ser aplicada às HRIRs medidas para remover os
efeitos de reflexão do som na sala, aproximando os sinais medidos a condições de campo
livre. O comprimento de cada HRIR é de 200 amostras, o que corresponde à sinais com
aproximadamente 4,5 milissegundos de duração [4] [14].
De posse dos arquivos do CIPIC HRTF Database, um outro código foi implementado
para sintetização do efeito em 3-D no mesmo áudio em estéreo utilizado anteriormente. A
Figura 22 ilustra os resultados obtidos a partir desse novo código, escolhendo os ângulos θ
= φ = 0°, para fins comparação com os resultados ilustrados na Figura 20.
Figura 22 - Visualização nos domínios do tempo e da frequência da aplicação do efeito
em 3-D no áudio utilizando o MATLAB e o CIPIC HRTF Database
Fonte: SANTOS, Arthur N. dos. 2017.
36
Os áudios obtidos a partir desse experimento, independentemente do seu
posicionamento, soam um pouco diferentes do áudio original, com menor definição, e
também mais agudos. Com respeito a eficiência do efeito em 3-D, apesar de o banco de
dados possuir muito mais opções de direção de posicionamento do som no espaço, o
realismo do efeito também não foi convincente, com boa lateralização, mas também
apresentando internalização dos sons.
Um último teste foi realizado, porém utilizando uma solução comercial: o
Binauralizer, da Noise Makers, que é um plugin de áudio espacial no formato VST, que
quando aliado à um software do tipo DAW (do inglês Digital Audio Workstation), tal qual o
Sony Vegas Pro 9, possibilita o posicionamento do som de um arquivo de áudio qualquer
em estéreo em um determinado ângulo θ do plano interaural. Conforme ilustra a Figura 23,
o plugin possibilita não apenas o posicionamento do áudio entre os ângulos 0° ≤ θ ≤ 360°,
mas também faz com que o usuário consiga aumentar a largura ou o foco do evento
auditivo, ou aplicar um ganho ao sinal filtrado, caso seja necessário [15].
Figura 23 – Interface do Binauralizer para controle do posicionamento do áudio
Fonte: NOISEMAKERS. Disponível em:
<https://www.noisemakers.fr/binauralizer/>. Acesso em: 10 out. 2017.
Ao realizar testes com o Binauralizer para o posicionamento do mesmo áudio
utilizado nos testes anteriores, e escolhendo os mesmos ângulos dos pontos 𝑃1, 𝑃2, 𝑃3, e 𝑃4,
foi constatado que o efeito produzido pelo plugin não soa tão mais convincente do que os
efeitos produzidos pelos códigos implementados no MATLAB, porém a qualidade do áudio
obtido com esse efeito permaneceu inalterada. Notou-se também que o fato de utilizar uma
37
interface gráfica mostrando a posição da cabeça do ouvinte com relação ao evento auditivo
sintetizado induz o usuário a acreditar que o áudio parece mesmo estar sendo posicionado
em um determinado ângulo θ do plano interaural. Porém, ao realizar testes às cegas, onde o
usuário que ajusta os parâmetros do plugin e o ouvinte não são a mesma pessoa, problemas
na identificação desses ângulos começam a ser constatados.
5 CONCLUSÃO
O áudio em 3-D gravado naturalmente através de cabeças artificiais, manequins
acústicos ou microfones binaurais, é concebido visando a reprodução exclusiva através de
fones de ouvido, o que pode ser visto como a principal vantagem dos sistemas de som
tridimensionais com relação aos sistemas de som bidimensionais, visto que são necessários
apenas dois canais para produzir efeitos espaciais que, ao contrário do estéreo, são
externados à cabeça e mais convincentes, utilizando menos canais do que os sistemas de
som do tipo surround [1] [4].
O dispositivo de gravação binaural desenvolvido nesse trabalho apresentou resultados
bastante satisfatórios na captação de áudio em 3-D em comparação com as soluções
comerciais citadas na aplicação da metodologia proposta. Alguns exemplos de vídeos com
áudio binaural gravados com o 3Dio Free Space e o Hooke Verse, e também com outros
modelos de produtos similares, são facilmente encontrados na internet e podem ser
utilizados para avaliar a eficiência do protótipo. O fato desse tipo de dispositivo não utilizar
uma cabeça artificial, ou muito menos um manequim acústico com um torso, não
compromete tanto a qualidade do efeito espacial das gravações realizadas, o que indica que
a separação entre os ouvidos externos e a anatomia do pavilhão são os fatores que mais
contribuem para a localização dos sons no espaço.
A maior dificuldade na utilização de microfones binaurais na captação do áudio em 3-D
talvez esteja em encontrar um dispositivo de gravação para microfones em estéreo. O uso de
smartphones talvez fosse a opção ideal para esse tipo de dispositivo, devido à sua
popularidade e portabilidade, porém os smartphones normalmente possuem uma entrada de
áudio mono para microfones, e não possuem tanta qualidade na gravação do áudio. O
próprio Hooke Verse é wireless em função disso, e envia o áudio captado pelos seus
microfones via conexão Bluetooth com o smartphone, para gravação em um app
proprietário da marca. Em comparação com os vídeos de demonstração do áudio captado
pelo Hooke Verse associado à um smartphone, o protótipo de gravação de áudio binaural
38
desenvolvido nesse trabalho associado ao gravador profissional portátil utilizado apresenta
uma melhor relação custo-benefício.
Quanto aos métodos utilizados para sintetização do efeito em 3-D do som, apesar de
eles serem baseados em conceitos clássicos de Sinais e Sistemas e de Processamento Digital
de Sinais, a experiência auditiva dos resultados obtidos não foi convincente, fazendo com
que a complexidade da aplicação desses métodos não compense a sua utilização, em
comparação com os resultados obtidos a partir da gravação natural do som em 3-D. A
internalização do som e a confusão entre ângulos opostos no sistema de coordenadas
esféricas interaurais são alguns dos principais problemas percebidos durante a audição dos
testes realizados.
Dentre as possíveis causas para estes problemas pode-se incluir a falta do uso de efeitos
de reverberação no áudio sintetizado. Como a medição de HRIRs procura simular efeitos de
campo livre, talvez fosse necessário aplicar efeitos para a reverberação do som em um
ambiente especifico para que o ouvinte pudesse notar com mais clareza a direção da fonte
sonora, evitando confusões entre frente e costas ou em cima e em baixo, e etc. Porém, o uso
de efeitos de reverberação iria limitar a experiência auditiva à um ambiente especifico (uma
sala ou um corredor de dimensões pré-selecionadas, por exemplo), fazendo-se necessário
um efeito diferente para cada tipo de situação desejada.
A utilização de HRIRs medidas experimentalmente no desenvolvimento desse trabalho
em comparação com a utilização de um banco de dados de domínio público, contendo
HRTFs medidas por um grupo de pesquisa especializado em uma universidade americana,
não apresentou grandes diferenças no que diz respeito ao posicionamento do som no espaço,
e ainda a qualidade do áudio obtido a partir da convolução com as HRIRs do CIPIC HRTF
Database apresentou uma menor definição, o que indica que não é estritamente necessário o
uso de instrumentos de medição e de uma infraestrutura mais apropriada para a obtenção
experimental de HRTFs com qualidade.
Contudo, apesar de os experimentos realizados para sintetizar o efeito do áudio em 3-D
não terem apresentado resultados satisfatórios, notou-se também que o uso de ferramentas
comerciais para esse mesmo fim também não apresentam o realismo esperado, e que, seja
virtualmente ou não, apenas o estimulo sonoro não é o suficiente para determinar a direção
de eventos auditivos no espaço, sendo necessário a associação com outros estímulos
sensoriais para complementar as noções que obtemos do espaço ao nosso redor. Por fim, a
falta de realismo do áudio em 3-D sintetizado de uma maneira geral pode ser comparada a
problemas similares a geração virtual de vídeo em 3-D, pois ambas as técnicas não
39
conseguem emular de maneira satisfatória a relação entre os eventos que acontecem ao
nosso redor com a capacidade de percepção dos mesmos através de nossos órgãos
sensoriais.
6 REFERÊNCIAS
[1] BREEBAART, Jeroen; FALLER, Christof. Spatial Audio Processing: MPEG
Surround and Other Applications. Sussex: John Wiley & Sons Ltd., 2007. 209p, il.
[2] THE VERGE. Surrounded by Sound: How 3D Audio Hacks Your Brain.
Disponível em: <https://www.theverge.com/2015/2/12/8021733/3d-audio-3dio-binaural-
immersive-vr-sound-times-square-new-york>. Acesso em: 2 nov. 2017.
[3] MOORE, Brian C. J. Hearing: Handbook of Perception and Cognition. 2ed. San
Diego: Academic Press, Inc., 1995. 468p, il.
[4] ALGAZI, V. R.; DUDA, R. O.; FORD, G. The CIPIC Interface Laboratory Home
Page. Disponível em: <http://www.ece.ucdavis.edu/cipic/> Acesso em: 08 nov. 2017.
[5] AMORIN, Antônio. Fonoaudiologia Geral. São Paulo: Pioneira, 1972. 116p, il.
[6] BENSON, K. Blair. Audio Engineering Handbook. New York: McGraw-Hill Book
Company, 1988. 1000p, il.
[7] COSTA, Ennio Cruz da. Acústica Técnica. São Paulo: E. Blücher, 2003. 127p, il.
[8] FILIPANITS JR., Frank. Design and Implementation of an Auralization System
with a Spectrum-Based Temporal Processing Optimization. Disponível em:
<http://alumnus.caltech.edu/~franko/thesis/thesis.html>. Acesso em: 16 set. 2017.
[9] MOORE, Brian C. J. Cochlear Hearing Loss: Physiological, Psychological and
Technical Issues. 2 ed. Sussex: John Wiley & Sons Ltd., 2007. 332p, il.
40
[10] ALTEN, Stanley F. El Manual de Audio en los Medios de Comunicación. Gipuskoa:
Esc. de Cine y Video S. L., 1994. 652p, il.
[11] YUSSEF, Rikli. Discrete Sound Impulse Generator. Disponível em:
<https://www.mathworks.com/matlabcentral/fileexchange/46192-discrete-sound-pulse-gene
rator>. Acesso em: 4 nov. 2017.
[12] FACULDADE DE ENGENHARIA. Curso de Engenharia da Computação.
Aplicações de Processamento Digital de Sinais - 4456S-04. Experiência E10: Codificação
preditiva linear. Porto Alegre: PUCRS, 2017.
[13] MATHWORKS. Lpc. Linear prediction filter coefficients. Disponível em:
<https://www.mathworks.com/help/signal/ref/lpc.html>. Acessado em: 07 nov. 2017.
[14] ALGAZI, V. R.; DUDA, R. O.; THOMPSON, D. M. The CIPIC HRTF Database.
W2001-4. IEEE Workshop on Applications of Signal Processing to Audio Acoustics. New
York, 2001.
[15] NOISE MAKERS. Binauralizer. Disponível em: <https://www.noisemakers.fr
/binauralizer/>. Acesso em: 10 out. 2017.
7 ANEXOS
7.1 CÓDIGO PARA SINTETIZAÇÃO DO SOM EM 3-D COM AS HRIRS
MEDIDAS
clc
clear all
close all
fa = 44100;
load 'nova_hrir_0_azim.mat'
load 'nova_hrir_45_elev.mat'
load 'nova_hrir_45L_azim.mat'
load 'nova_hrir_45R_azim.mat'
load 'nova_hrir_180_azim.mat'
[audio_sample, ~] = audioread('six shots two guns.mp3');
41
menu = input('Escolha um ângulo de azimute (-45, 0, +45, 180 ou 50):\n');
switch menu
case -45
hrir = 2.3159.*nova_hrir_45L_azim;
case 0
hrir = 2.3159.*nova_hrir_0_azim;
case +45
hrir = 2.3159.*nova_hrir_45R_azim;
case 180
hrir = 2.3159.*nova_hrir_180_azim;
case 50
hrir = 2.3159.*nova_hrir_45_elev;
end
y_L = 3.5.*conv(audio_sample(:, 1), hrir(1:1e4, 1));
y_R = 3.5.*conv(audio_sample(:, 2), hrir(1:1e4, 2));
sound([y_L y_R], fa)
t1 = 1:length(audio_sample(:, 1));
t2 = 1:length(hrir(:, 1));
t3 = 1:length(y_L);
subplot(321)
plot(t1, audio_sample(:,1), 'r')
hold on
grid on
plot(t1, audio_sample(:,2), 'b')
xlim([0 length(t1)])
ylim([-0.15 0.15])
legend('L', 'R')
xlabel('Amostras')
ylabel('Amplitude')
title('Amostra de áudio em estéreo')
subplot(323)
plot(t2, hrir(:, 1), 'r')
hold on
grid on
plot(t2, hrir(:, 2), 'b')
xlim([2000 6000])
ylim([-0.15 0.15])
legend('L', 'R')
xlabel('Amostras')
ylabel('Amplitude')
title('HRIR')
subplot(325)
plot(t3, y_L, 'r')
hold on
42
grid on
plot(t3, y_R, 'b')
xlim([0 length(t3)])
ylim([-0.3 0.3])
legend('L', 'R')
xlabel('Amostras')
ylabel('Amplitude')
title('Resultado da convolução')
subplot(322)
semilogx(20*log(abs(fft(audio_sample(:,1), length(audio_sample(:, 1))))), 'r')
hold on
grid on
semilogx(20*log(abs(fft(audio_sample(:,2), length(audio_sample(:, 1))))), 'b')
legend('L', 'R')
xlim([0 20e3])
ylim([-200 200])
xlabel('Frequência (Hz)')
ylabel('Ganho (dB)')
title('Amostra de áudio em estéreo')
subplot(324)
semilogx(20*log(abs(fft(hrir(:,1), length(audio_sample(:, 1))))), 'r')
hold on
grid on
semilogx(20*log(abs(fft(hrir(:,2), length(audio_sample(:, 1))))), 'b')
legend('L', 'R')
xlim([0 20e3])
ylim([-200 200])
xlabel('Frequência (Hz)')
ylabel('Ganho (dB)')
title('HRTF')
subplot(326)
semilogx(20*log(abs(fft(y_L, length(audio_sample(:, 1))))), 'r')
hold on
grid on
semilogx(20*log(abs(fft(y_R, length(audio_sample(:, 1))))), 'b')
legend('L', 'R')
xlim([0 20e3])
ylim([-200 200])
xlabel('Frequência (Hz)')
ylabel('Ganho (dB)')
title('Resultado da convolução')
audiowrite('audio.wav',[y_L y_R],44100)
43
7.2 CÓDIGO PARA SINTETIZAÇÃO DO SOM EM 3-D UTILIZANDO O
BANCO DE DADOS DE DOMÍNIO PÚBLICO CIPIC HRTF DATABASE
clc
clear all
close all
load('hrir_final.mat') %carrega o arquivo com a matriz de resposta ao impulso em 3-D
% azim_r = [-80 -65 -55 -45:5:45 55 65 80]; %valores disponíveis de ângulo de azimute
azim_d = str2double(input('Digite ângulo de azimute:\n', 's')); %ângulo de azimute desejado
if(azim_d == 0)
azim_v = 13;
else
if(azim_d == -80)
azim_v = 1;
elseif(azim_d == -65)
azim_v = 2;
elseif(azim_d == -55)
azim_v = 3;
elseif(azim_d == 55)
azim_v = 23;
elseif(azim_d == 65)
azim_v = 24;
elseif(azim_d == 80)
azim_v = 25;
elseif(-45 <= azim_d <= 45)
azim_v = (azim_d/5)+13; %valor do ângulo de azimute
end
end
elev_r = -45:(360/64):235; %valores disponíveis de ângulo de elevação
elev_d = str2double(input('Digite o ângulo de elevação:\n', 's')); %ângulo de elevação
desejado
if(elev_d == 0)
elev_v = 9;
else
if(-45 <= elev_d <= 230.625)
elev_v = (elev_d/5.625)+9; %valor do ângulo de elevação
end
end
fres = 44100; %frequência de amostragem
x = audioread('six shots two guns.mp3');
x_l = x(:, 1); %canal esquerdo do sinal monaural
x_r = x(:, 2); %canal direito do sinal monaural
44
hrir_left(1, :) = hrir_l(azim_v, elev_v, :); %resposta ao impulso do canal esquerdo
hrir_right(1, :) = hrir_r(azim_v, elev_v, :); %resposta ao impulso do canal direito
y_l = conv(x_l, hrir_left); %canal esquerdo do sinal binaural
y_r = conv(x_r, hrir_right); %canal direito do sinal binaural
yLR = [y_l y_r];
sound(yLR, fres)
t1 = 1:length(x_l);
t2 = 1:length(hrir_l);
t3 = 1:length(y_l);
subplot(321)
plot(x_l, 'r')
hold on
plot(x_r, 'b')
grid on
ylim([-0.15 0.15])
xlabel('Amostras')
ylabel('Amplitude')
title('Amostra de áudio em estéreo')
legend('L', 'R')
subplot(323)
plot(hrir_left, 'r')
hold on
plot(hrir_right, 'b')
grid on
ylim([-1 1])
xlabel('Amostras')
ylabel('Amplitude')
title('HRIR')
legend('L', 'R')
subplot(325)
plot(y_l, 'r')
hold on
plot(y_r, 'b')
grid on
ylim([-0.15 0.15])
xlabel('Amostras')
ylabel('Amplitude')
title('Resultado da convolução')
legend('L', 'R')
subplot(322)
semilogx(20*log(abs(fft(x_l, length(x_l)))), 'r')
45
hold on
grid on
semilogx(20*log(abs(fft(x_r, length(x_l)))), 'b')
xlabel('Frequência (Hz)')
ylabel('Ganho (dB)')
legend('L', 'R')
title('Amostra de áudio em estéreo')
ylim([-200 200])
xlim([0 20e3])
subplot(324)
semilogx(20*log(abs(fft(hrir_left, length(x_l)))), 'r')
hold on
grid on
semilogx(20*log(abs(fft(hrir_right, length(x_l)))), 'b')
xlabel('Frequência (Hz)')
ylabel('Ganho (dB)')
legend('L', 'R')
title('HRTF')
ylim([-200 200])
xlim([0 20e3])
subplot(326)
semilogx(20*log(abs(fft(y_l, length(x_l)))), 'r')
hold on
grid on
semilogx(20*log(abs(fft(y_r, length(x_l)))), 'b')
xlabel('Frequência (Hz)')
ylabel('Ganho (dB)')
legend('L', 'R')
title('Resultado da convolução')
ylim([-200 200])
xlim([0 20e3])
audiowrite('audio.wav', [y_l y_r],44100)