45
1 PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO GRANDE DO SUL FACULDADE DE ENGENHARIA SISTEMAS DE CAPTAÇÃO, SINTETIZAÇÃO E REPRODUÇÃO DE ÁUDIO EM 3-D Porto Alegre, 05 de dezembro de 2017. Autor: Arthur Nicholas dos Santos Pontifícia Universidade Católica do Rio Grande do Sul Curso de Engenharia Elétrica - Eletrônica Av. Ipiranga 6681 - Prédio 30 - CEP: 90619-900 - Porto Alegre - RS - Brasil Email: [email protected] Orientador: Prof. Dênis Fernandes Pontifícia Universidade Católica do Rio Grande do Sul Av. Ipiranga 6681 - Prédio 30 - Bloco A - Sala 324 - CEP: 90619-900 - Porto Alegre - RS - Brasil Email: [email protected] RESUMO Este artigo tem por objetivo o estudo de sistemas de som tridimensionais e a aplicação de métodos de captação natural e geração virtual de áudio em 3-D para reprodução através de fones de ouvido. O referencial teórico aborda a natureza física do som e os fenômenos relativos à sua propagação, a estrutura fisiológica do sistema auditivo humano e o seu funcionamento, bem como a psicoacústica da audição espacial. A metodologia adotada compreende as pricipais técnicas de captação natural de áudio em estéreo e em 3-D utilizando pares de microfones casados, e de geração virtual através de métodos computacionais que utilizam funções de transferência para tentar sintetizar a interação entre as características antropométricas dos indivíduos e os fenômenos sonoros. Como aplicação dessa metodologia, desenvolveu-se um protótipo experimental para captação de áudio binaural através de um gravador portátil, e um código para virtualização de áudio em 3-D baseado no software matemático MATLAB. Para concluir, avalia-se quais as principais vantagens e desvantagens entre os sistemas de som tridimensionais e os seus predecessores e como que a metodologia aplicada nesse artigo se compara com algumas das soluções comerciais existentes no mercado atualmente. Palavras-chave: Sistemas de som tridimensionais. Áudio em 3-D. Áudio binaural.

SISTEMAS DE CAPTAÇÃO, SINTETIZAÇÃO E REPRODUÇÃO DE ... · tipos de conteúdo interativo, ... das caracteristicas fisiológicas de cada um [3] [4]. ... por serem agradáveis

  • Upload
    doxuyen

  • View
    215

  • Download
    0

Embed Size (px)

Citation preview

1

PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO GRANDE DO SUL

FACULDADE DE ENGENHARIA

SISTEMAS DE CAPTAÇÃO, SINTETIZAÇÃO E REPRODUÇÃO DE ÁUDIO EM

3-D

Porto Alegre, 05 de dezembro de 2017.

Autor: Arthur Nicholas dos Santos

Pontifícia Universidade Católica do Rio Grande do Sul

Curso de Engenharia Elétrica - Eletrônica

Av. Ipiranga 6681 - Prédio 30 - CEP: 90619-900 - Porto Alegre - RS - Brasil

Email: [email protected]

Orientador: Prof. Dênis Fernandes

Pontifícia Universidade Católica do Rio Grande do Sul

Av. Ipiranga 6681 - Prédio 30 - Bloco A - Sala 324 - CEP: 90619-900 - Porto Alegre - RS -

Brasil

Email: [email protected]

RESUMO

Este artigo tem por objetivo o estudo de sistemas de som tridimensionais e a aplicação

de métodos de captação natural e geração virtual de áudio em 3-D para reprodução através

de fones de ouvido. O referencial teórico aborda a natureza física do som e os fenômenos

relativos à sua propagação, a estrutura fisiológica do sistema auditivo humano e o seu

funcionamento, bem como a psicoacústica da audição espacial. A metodologia adotada

compreende as pricipais técnicas de captação natural de áudio em estéreo e em 3-D

utilizando pares de microfones casados, e de geração virtual através de métodos

computacionais que utilizam funções de transferência para tentar sintetizar a interação entre

as características antropométricas dos indivíduos e os fenômenos sonoros. Como aplicação

dessa metodologia, desenvolveu-se um protótipo experimental para captação de áudio

binaural através de um gravador portátil, e um código para virtualização de áudio em 3-D

baseado no software matemático MATLAB. Para concluir, avalia-se quais as principais

vantagens e desvantagens entre os sistemas de som tridimensionais e os seus predecessores

e como que a metodologia aplicada nesse artigo se compara com algumas das soluções

comerciais existentes no mercado atualmente.

Palavras-chave: Sistemas de som tridimensionais. Áudio em 3-D. Áudio binaural.

2

ABSTRACT

This article aims the study of three-dimensional sound systems and the application of

methods for natural capture and virtual generation of 3-D audio for headphones playback.

The theoretical framework deals with the physical nature of sound and the phenomena

related to its propagation, the physiological structure of the human auditory system and its

functioning, as well as the psychoacoustics of spatial hearing. The methodology adopted

includes the main techniques used for natural capture of stereo and 3-D sound using pairs

of matched microphones and virtual generation of 3-D audio by means of computational

methods that use transfer functions as an attempt to synthesize the interaction between the

anthropometric characteristics of individuals and the sound phenomena. As an application

of this methodology, an experimental prototype for recording binaural audio through a

portable recorder was developed, as well as a code for virtualization of 3-D audio based on

the mathematical software MATLAB. To conclude, the main advantages and

disadvantages between three-dimensional sound systems and their predecessors are

evaluated, as well as how the methodology applied in this article compares with some of

the commercial solutions existent on the market today.

Key-words: Three-dimensional sound systems. 3-D audio. Binaural audio.

1 INTRODUÇÃO

Além de auxiliar na comunicação e em outros aspectos básicos do cotidiano, como no

equilibrio do corpo e na obtenção de uma noção espacial dos arredores, o sentido da audição

também fornece meios de diversão, relaxamento e entretenimento, através do consumo de

conteúdos audiovisuais, como programas de rádio e televisão, além de conteúdos online [1].

Músicas, filmes e jogos como os de consoles de video game, computadores ou

dispositivos móveis tornam-se mais vívidos com a utilização de efeitos sonoros dedicados, e

para isso os sons precisam ser gravados, processados, armazenados, transmitidos e

reproduzidos por equipamentos e algorítmos dedicados. Atualmente, um campo onde vem

se desenvolvendo o potencial de maior qualidade na produção de conteúdo audiovisual é o

do realismo espacial [1].

Antigamente, a representação das propriedades espaciais de um cenário auditivo era

realizada de maneira praticamente exclusiva através da captura e reprodução de áudio em

sistemas multicanais, porém, com a popularização dos dispositivos móveis, a tendência é

3

que cada vez mais o áudio de produtos de entretenimento seja reproduzido através de fones

de ouvido, limitando a representação de um cenário auditivo em apenas dois canais [1].

1.1 Tema de Pesquisa

O objeto de estudo desse trabalho são as técnicas de gravação, processamento,

sintetização e reprodução de áudio em 3-D em dois canais, que simulam as sensações

auditivas causadas pela interação acústica do sistema auditivo humano com o ambiente ao

seu redor utilizando sinais de áudio filtrados através de hardware ou software para dar a

impressão de que uma fonte sonora esteja localizada em certo ponto no espaço [2].

1.2 Justificativa do Tema

Atualmente, grande parte do conteúdo audiovisual que se reproduz através de fones

de ouvido ou caixas de som está em formato estéreo. Porém, a utilização de fones de ouvido

geralmente causa a impressão de que os sons estão internalizados, ou seja, confinados ao

espaço dentro da cabeça do ouvinte, sem possuir qualquer sensação de realismo [1] [3].

Existem técnicas de gravação, sintetização e processamento de áudio que podem ser

utilizadas para criar uma sensação espacial mais rica aos sons reproduzidos através de fones

de ouvido, conferindo uma experiência mais imersiva ao ouvinte. Tais técnicas podem ser

aplicadas tanto na produção de conteúdo audiovisual tradicional, como também em novos

tipos de conteúdo interativo, como a realidade virtual e a realidade aumentada [3] [4].

Além disso, a representação convincente de sons em 3-D com alta qualidade é um

desafio, devido ao sistema auditivo humano ser sensível à técnicas de virtualização

imprecisas e também porque cada pessoa possui um padrão de escuta individual, que é fruto

das caracteristicas fisiológicas de cada um [3] [4].

Sendo assim, o estudo e desenvolvimento de novas técnicas de captação,

processamento e reprodução de sons em 3-D em apenas dois canais de áudio não é apenas

necessário para atingir a compatibilidade com as novas aplicações móveis, mas também é

um desafio que tem como objetivo o estudo de novas possibilidades de melhoria na

qualidade dos sistemas de realismo espacial [3].

1.3 Objetivo do Trabalho

O objetivo desse trabalho é o estudo e aplicação das várias técnicas utilizadas para

simular os efeitos da psicoacústica da audição espacial em sistemas de som tridimensionais,

com base em métodos que têm a intenção de captar ou virtualizar os sons de maneira similar

4

com a que o sistema auditivo humano percebe e interpreta os fenômenos relacionados à

propagação sonora.

1.4 Delimitações do Trabalho

Este trabalho está delimitado à aplicação experimental de algumas técnicas de

gravação e virtualização do áudio em 3-D e à avaliação da convincibilidade dos resultados

obtidos em comparação com algumas soluções comerciais existentes no mercado do

entretenimento audiovisual atualmente.

2 REFERENCIAL TEÓRICO

Neste tópico aborda-se a natureza física do som e as suas propriedades, as ondas

sonoras e seus elementos, e os fenômenos relacionados à sua propagação. Também

comenta-se alguns aspectos gerais da audição, como a estrutura fisiológica do sistema

auditivo humano e o seu funcionamento, sob o ponto de vista da Fonoaudiologia. Em

seguida, discorre-se sobre como a interação entre as propriedades físicas do som e as

características antropométricas dos seres humanos se relaciona com as sensações auditivas e

a interpretação da localização dos sons no espaço.

2.1 A natureza do som

O som é uma transferência de energia causada pelas vibrações dos corpos em um

meio elástico. Quando essas vibrações se verificam em determinados limites de frequência,

elas tomam o nome de vibrações sonoras. Se as propriedades elásticas de um meio forem

iguais em todos os seus pontos, as vibrações sonoras se propagam, produzindo compressões

e distensões sucessivas, com velocidade uniforme em todas as direções. O som, portanto,

propaga-se por meio de impulsos ocasionados ao meio, os quais provocam deformações

transitórias que se movimentam longitudinalmente, de acordo com a onda de pressão criada.

A onda longitudinal de pressão, ocasionada pela fonte sonora, toma o nome de onda sonora

[4] [5] [6] [7].

Em virtude da sua natureza, a velocidade de propagação da onda sonora é uma função

das propriedades do meio. Apesar de o meio mais comum ser o ar, o som também pode se

propagar em qualquer sólido, líquido ou gás. No ar, o som consiste de variações de pressão

localizadas, acima e abaixo da pressão atmosférica normal. Variações de pressão na faixa

entre 20Hz e 20kHz compõem a faixa de audiofrequência, na qual o fenômeno sonoro pode

ser percebido e os sons são considerados audíveis. Variações de pressão com frequências

5

abaixo de 20Hz são chamadas de infrassônicas e acima de 20kHz são chamadas de

ultrassônicas [6] [7].

2.1.1 Elementos da onda sonora

A onda sonora apresenta uma série de qualidades que servem para caracterizá-la

completamente, podendo ser assim distinta em altura, timbre e intensidade [7].

A altura se relaciona com a sequência das vibrações sonoras, ou seja, com a

frequência do som, caracterizando-os em agudos, médios ou graves. Dá-se o nome de

frequência da onda sonora ao número de vibrações completas executadas pela mesma em

um segundo. O inverso da frequência (f), toma o nome de período (T), o qual é definido

como o tempo necessário para efetuar uma onda completa de oscilação [4] [7]:

𝑇 =1

𝑓[𝑠]. (1)

A relação entre a velocidade de propagação do som (v) em metros por segundo e a

frequência (f) em Hertz revela o comprimento da onda sonora (λ):

𝜆 =𝑣

𝑓[𝑚], (2)

que, para um som de determinada frequência, dependerá da natureza do meio no qual se dá

a propagação [4] [6] [7].

Muito raramente pode-se falar de um som puro, devido a vibrações exatamente

senoidais. Os sons mais comuns são, geralmente, compostos, resultantes da superposição de

sons simples, dos quais um de maior intensidade toma o nome de fundamental, e outros, de

menor intensidade, tomam o nome de harmônicos. Se os deslocamentos das partículas do

meio devido as oscilações sonoras em função do tempo forem registrados num sistema de

coordenadas, obtém-se uma curva periódica que traduz a forma da onda sonora ou timbre, a

qual permite a identificação da procedência do som, e depende do número e da intensidade

dos harmônicos [6] [7].

O procedimento que permite encontrar todas as vibrações simples, componentes de

um som complexo qualquer, chama-se método da análise harmônica, o qual se baseia no

teorema de Fourier, e assegura que qualquer movimento periódico, independentemente de

sua forma, de sua natureza especifica ou do modo pelo qual teve origem, pode ser

reproduzido exatamente, compondo-se de um certo número de movimentos simples, cujas

relações de frequência são números inteiros. Mecanicamente, a análise harmônica de um

som se baseia no fenômeno da ressonância [4] [7].

6

A análise harmônica dos sons também permite estabelecer uma distinção entre sons e

ruídos. Assim, aquelas sensações que, por serem agradáveis ao ouvido, se chamam sons, são

formadas por uma nota fundamental acompanhada de um número limitado de harmônicas,

cuja característica mais importante é de apresentarem uma intensidade pequena em relação

à fundamental, que é a dominante. Já os ruídos, por sua vez, causam sensações tanto menos

agradáveis, quanto maior é o número de notas que os compõem e mais alta é a sua

frequência. Na voz humana, as consoantes se comportam como ruídos, enquanto que as

vogais se comportam como sons [7].

A amplitude de uma onda sonora é o maior ou menor deslocamento atingido pelas

partículas do meio, em virtude das oscilações que a formaram. A intensidade do som diz

respeito à amplitude da onda sonora, que caracteriza a variação de pressão do meio em que

se verifica a sua propagação. A intensidade do som (I) é medida por meio de potência

sonora (W), propagada por unidade de superfície (S) [6] [7] [8]:

𝐼 =𝑊

𝑆[

𝑊

𝑚2]. (3)

Deve-se, entretanto, distinguir dois movimentos na propagação do som: um que é a

vibração das partículas, caracterizado pela amplitude, e o outro que é o deslocamento

longitudinal caracterizado pela velocidade do som no meio. A potência da onda sonora, por

unidade de superfície, toma o nome de intensidade energética, a qual varia com o tempo e,

portanto, é relativa à potência instantânea da onda sonora [7].

2.1.2 Propagação da onda sonora

Ao contrário das ondas eletromagnéticas, as ondas sonoras não se propagam no

vácuo, e a transmissão das pressões em uma massa fluida não é instantânea, ou seja, ela leva

um determinado tempo para percorrer certa distância, o que caracteriza uma velocidade de

deslocamento que é igual a velocidade de propagação do som no meio considerado [7].

Para o caso dos aeriformes, a velocidade do som depende da transformação sofrida

pelo fluido durante o processo de propagação. A velocidade do som (v) no ar a uma

temperatura (T) de 22°C é de aproximadamente 345 metros por segundo, enquanto que em

outras temperaturas ela varia conforme a relação [7] [8]:

𝑣 [𝑚

𝑠] = 331 + 0,6𝑇[°𝐶]. (4)

7

2.1.3 Fenômenos relativos à propagação do som

Como todo movimento material, o som apresenta certa energia que, em vista das

resistências opostas ao seu deslocamento, é restituída ao meio. Esta restituição pode ser de

duas maneiras: no primeiro caso, a onda sonora encontra um obstáculo ao qual cede parte da

sua quantidade de movimento, de modo que parte de sua energia é transferida ao obstáculo,

o qual entra em vibração; no segundo caso, pode-se considerar uma transformação da

energia cinética da onda sonora devido à viscosidade do próprio meio em que ela se propaga

em outra forma mais complexa e menos palpável de movimento que é o calor [7].

Todos os fenômenos relacionados à propagação do som são causas de distorções mais

ou menos graves dos sons, podendo não raramente interferir na sua beleza ou

inteligibilidade. Dá-se o nome de distorção à modificação da forma de onda sonora de um

som complexo, pela alteração desigual das amplitudes dos componentes das diversas

frequências que fazem parte do mesmo [7].

Quando uma onda sonora encontra um obstáculo de espessura ilimitada, a energia

absorvida pelo mesmo é totalmente transformada em calor. Se ao contrario o obstáculo se

trata de uma parede de espessura limitada, parte da energia se transmitirá pela mesma por

refração. Quando uma onda sonora incide sobre uma superfície sólida, parte da energia

sonora é absorvida devido ao atrito e viscosidade do ar, transformando-se em calor. Esta

parcela de energia caracteriza o coeficiente de absorção, que depende essencialmente da

natureza do material. Materiais de grandes coeficientes de absorção apresentam estruturas

porosas, porém outros aspectos dimensionais também influenciam no valor do coeficiente

de absorção dos diversos tipos de materiais [7].

Quando um obstáculo encontrado pela onda sonora não é grande de dimensão em

relação ao seu comprimento de onda, os caminhos seguidos pelas ondas sonoras não podem

ser definidos tendo-se como base as simples leis da reflexão da luz. Nestes casos, intervém

um fenômeno ligado a natureza ondulatória do som, que toma o nome de difração.

Considerando a passagem do som por pequenas aberturas, o som se propaga uniformemente

em todas as direções, a partir do outro lado da abertura. Já no caso de grandes aberturas, a

conservação do alinhamento da superfície da onda sonora permanece e, somente nas bordas

da abertura, aparece uma difração sensível, com o encurvamento lateral da superfície da

onda. Nestas condições, em consequência da maior divergência dos raios sonoros, nota-se

nitidamente que a intensidade do som decresce mais rapidamente com o distanciamento da

fonte, ao nos deslocarmos lateralmente em relação à abertura. Tal redução varia com a

8

frequência do som, de modo que o timbre de um som complexo, neste caso, poderá ser

afetado [7].

Um corpo também pode entrar em ressonância quando recebe vibrações elásticas do

meio circundante. Quando um oscilador é solicitado por impulsos periódicos, a máxima

amplitude atingida, compatível com a energia em jogo, se verifica quando a frequência dos

impulsos externos coincide com a frequência natural do oscilador. Diz-se então, que o corpo

entrou em vibração forçada. Tais vibrações tomam, entretanto, uma amplitude apreciável,

somente para a frequência própria de vibração do corpo [7].

O eco é um outro fenômeno pelo qual o som refletido ocasiona uma outra sensação

auditiva em nosso ouvido, independente da ocasionada pelo som direto. Trata-se da

repetição do som original, a qual ocorre quando as sensações auditivas ocasionadas pelo

som direto e o refletido se verificam com um intervalo de tempo superior a 1/15 segundos.

A persistência do som residual no ambiente, depois que a fonte tenha cessado de emiti-lo,

toma o nome de reverberação. A reverberação difere do eco, pois enquanto a reverberação

caracteriza uma permanência do som no ambiente, o eco é caracterizado pela repetição

distinta do mesmo [7].

Além desses fenômenos naturais, é comum nos processos eletrônicos de gravação,

amplificação, transmissão e reprodução do som o aparecimento de deformações que alteram

a fidelidade do som original. O próprio mecanismo da audição, devido as suas limitações

com relação a determinadas frequências, contribui para que a percepção do som

originalmente emitido pela fonte sonora seja distorcida [7].

2.2 Aspectos gerais da audição

A audição é a percepção dos sons que os indivíduos têm através do sistema auditivo e

que é interpretada através do cérebro. Porém, o sistema auditivo humano tem como função

não somente ouvir, mas também auxilia no equilíbrio do corpo, no controle de intensidade

da voz, e em manter o indivíduo ciente das dimensões do espaço ao seu redor [1] [5] [6].

O estudo da audição dentro da Medicina, da Engenharia ou da Biologia, chama-se

Audiologia, a qual compreende a Audiometria, ou seja, a medida da audição para

determinar em que grau os indivíduos percebem os sons, e para constatar quantitativa e

qualitativamente os prejuízos que apresentam em seus sistemas auditivos [5] [6].

9

2.2.1 O sistema auditivo humano

O sistema auditivo humano serve a vários propósitos importantes no dia-a-dia de um

indivíduo. Umas das suas características mais proeminentes é o entendimento da fala, o que

permite a comunicação de uma maneira eficiente e interativa. Mas, em certas situações, o

sistema auditivo também é capaz de detectar eventos potencialmente perigosos em estágio

inicial, como por exemplo o aproximar de um carro, para que seja possível reagir de acordo.

Nesses casos, a grande vantagem do sistema auditivo em relação ao sistema visual é que ele

possibilita a monitoração de todas as direções simultaneamente. Tal capacidade pode ser

considerada extraordinária devido ao fato de que o ser humano possui apenas dois ouvidos,

e mesmo assim é capaz de analisar um cenário em múltiplas dimensões através do sentido

da audição [1] [3] [6].

2.2.2 Estrutura fisiológica do sistema auditivo humano

O sistema auditivo humano, ilustrado na Figura 1, é um conjunto de órgãos que

funciona de maneira a possibilitar que as vibrações sonoras produzidas num ambiente

cheguem até a consciência dos indivíduos, permitindo-lhes apreciar as qualidades do som,

ou seja, a frequência, a intensidade e o timbre, bem como a distância e a direção [5].

Figura 1 - Seção transversal do sistema auditivo de maneira bastante simplificada,

onde os ouvidos externo, médio e interno estão claramente identificados

Fonte: MOORE, Brian C. J. Cochlear Hearing Loss: Physiological, Psychological and

Technical Issues. 2 ed. Sussex: John Wiley & Sons Ltd., 2007. 332p, il.

10

Fisiologicamente, o sistema auditivo humano, é comumente tratado como uma série

de estágios, onde a saída de cada um deles forma a entrada do próximo, podendo ser

considerados separadamente como dispositivos ou sistemas, cada qual com suas respectivas

entradas e saídas. Para fins de estudo, costuma- se dividi-lo em ouvido externo, médio e

interno, sendo que a principal parte se situa no interior do crânio, razão pela qual a

complexidade aumenta em relação ao estudo anatômico e fisiológico, de fora para dentro

[5].

O ouvido externo é formado pelo pavilhão e meato acústico externo. O pavilhão é

formado por uma lamina fibrocartilaginosa elástica, com a estrutura de uma concha

acústica, que recebe os sons do meio exterior. Ele está localizado na parte lateral da cabeça

e em virtude de sua conformação estrutural, com saliências e depressões, auxilia muito na

discriminação e localização dos sons. O meato acústico externo é um canal que tem em

média dois centímetros de comprimento e inicia-se na concha do pavilhão, se prolongando

até a membrana do tímpano, pela qual se torna um canal fechado. Encontra-se neste canal

certa quantidade de pelos e glândulas ceruminosas, que protegem o órgão. Em frequências

médias e altas, o som que chega ao tímpano é significativamente modificado pelo ouvido

externo, cabeça e parte superior do torso. Mais especificamente, quando o som contém uma

larga banda de frequências, o ouvido externo introduz um padrão complexo de picos e vales

em seu espectro. Esse padrão varia sistematicamente com a direção da fonte sonora em

relação à cabeça, e, portanto, esses padrões espectrais provêm informações importantes

sobre a localização de fontes sonoras [5] [9].

O som que viaja através do canal auditivo causa com que o tímpano, ou membrana

timpânica, vibre. O tímpano forma a fronteira do ouvido externo com o ouvido médio.

Essas vibrações são então transmitidas através de uma cadeia de pequenos ossos, os

ossículos, que ligam o tímpano a uma abertura do ouvido interno chamada de janela oval,

que é coberta por uma membrana e forma a fronteira do ouvido médio com o ouvido

interno. Os ossículos recebem nomes de acordo com as suas estruturas características:

martelo, bigorna e estribo, sendo o último o mais leve e pequeno dos três e o único que

realmente faz contato com a janela oval. A principal função do ouvido médio é assegurar a

eficiência da transferência de energia sonora a partir do ar para os fluidos do ouvido interno.

Caso o som influenciasse diretamente a janela oval, a maior parte dele seria simplesmente

refletida de volta, ao invés de adentrar a cóclea. Isso acontece porque a resistência da janela

oval à movimentos é bem diferente da resistência do ar, o que pode ser descrito como uma

diferença de impedância acústica. O ouvido médio age como um dispositivo que casa essas

11

impedâncias e melhora a transmissão do som, reduzindo a quantidade de som refletido. A

transmissão de energia sonora através do ouvido médio é mais eficiente em frequências

médias, que são as frequências mais importantes para o reconhecimento da fala. Além da

cadeia de ossinhos, encontram-se também no ouvido médio os seguintes acidentes

anatômicos: membrana do tímpano, com formato circular, ligeiramente convexa para dentro

da cavidade, e dois orifícios, ambos fechados, a janela oval e janela redonda [5] [9].

O ouvido interno, também conhecido como cóclea, possui a forma espiral como a

concha de um caracol. A cóclea é necessária para a transdução das pequenas e rápidas

flutuações de pressão atmosférica que constituem os sons em códigos neurais para o nervo

auditivo. Ao fazer isso, ela deve tornar disponível ao cérebro o máximo de informação

disponível sobre essas flutuações. O ouvido interno situa-se numa cavidade fechada e muito

bem protegida pelo osso temporal, abrigando um liquido aquoso, chamado endolinfa, que

envolve os canais semicirculares e o caracol. As estruturas do ouvido interno são muito

pequenas e delicadas, entretanto bastante densas e rijas [3] [5] [9].

Assim que qualquer objeto sonoro provoca a vibração das partículas aéreas, estas

alcançam a membrana do tímpano e também a fazem vibrar. Por intermédio da cadeia

ossicular, as vibrações são transmitidas à membrana elástica da janela oval. As vibrações

dessa membrana provocam movimentos vibratórios da perilinfa e logo da endolinfa,

originando movimentos no órgão de Corti, que conduz a excitação das terminações nervosas

da cóclea. O nervo auditivo conduz ao cérebro os impulsos nervosos e a via auditiva

termina nas zonas superiores do córtex do lobo temporal, onde são interpretadas as

sensações auditivas [5] [9].

2.3 Psicoacústica da audição espacial

O estudo do som deve levar em consideração não somente as suas propriedades

físicas, mas também as consequências da sua interação com os ouvintes. O campo da

ciência que estuda a relação entre as características fisiológicas do sistema auditivo humano

e as características físicas do som, como as sensações auditivas que permitem localizar

fontes sonoras no espaço extraindo informações direcionais a partir dos sons, chama-se

Psicoacústica.

2.3.1 Sistema de coordenadas esféricas interaurais

Para especificar a localização de uma fonte sonora no espaço em relação a um

ouvinte, é necessário um sistema de coordenadas, e, como a cabeça humana é

12

aproximadamente uma esfera, um sistema de coordenadas esféricas torna-se uma escolha

natural, onde as coordenadas padrão são o azimute (θ), a elevação (φ) e o alcance (r) [4].

No sistema de coordenadas esféricas interaurais, ilustrado na Figura 2, o azimute pode

ser definido como a deflexão a partir do centro do plano vertical (0°) onde valores positivos

significam uma deflexão para a direita e valores negativos significam uma deflexão para a

esquerda. Sendo assim, um ângulo θ de 90° indica que a fonte sonora está localizada

diretamente à direita do ouvinte, e um ângulo θ de -90° indica que a fonte sonora está

localizada diretamente à esquerda do ouvinte. Posições localizadas diretamente atrás da

cabeça são descritas por um ângulo θ de ±180° [4] [9].

A elevação é definida como a deflexão a partir do plano horizontal, onde valores

positivos indicam uma deflexão para cima, e valores negativos indicam uma deflexão para

baixo. Sendo assim, um ângulo φ de 90° indica que a fonte sonora está posicionada bem

acima da cabeça do ouvinte, e um ângulo φ de -90° indica que a fonte sonora está

posicionada bem abaixo do ouvinte [4] [9].

Figura 2 – Representação do sistema de coordenadas esféricas interaurais

Fonte: FILIPANITS JR., Frank. Design and Implementation of an Auralization

System with a Spectrum-Based Temporal Processing Optimization. Disponível em:

<http://alumnus.caltech.edu/~franko/thesis/thesis.html>. Acesso em: 16 set. 2017.

O alcance é a distância (d) definida em metros a partir do centro da cabeça (0, 0, 0) até a

13

fonte sonora. Dados dois pontos 𝑃0(𝜃0, 𝜑0, 𝑟0) e 𝑃1(𝜃1, 𝜑1, 𝑟1) quaisquer no espaço em

coordenadas esféricas, a distância entre eles pode ser calculada como:

𝑑 = √𝑟12𝑟0

2 − 2𝑟0𝑟1[𝑐𝑜𝑠𝜑0𝑐𝑜𝑠𝜑1𝑐𝑜𝑠(𝜃1 − 𝜃0) + 𝑠𝑒𝑛𝜑0𝑠𝑒𝑛𝜑1] [𝑚], (5)

onde o valor obtido estabelece a distância entre uma fonte sonora pontual no espaço e o

centro da cabeça do ouvinte [4] [8].

2.3.2 Interpretação de ângulos de azimute de fontes sonora

Em termos de audição espacial, existem duas grandezas primordiais com relação ao

azimute de uma fonte sonora: a diferença de tempo interaural ou ITD (do inglês Interaural

Time Difference), e a diferença de nível interaural ou ILD (do inglês Interaural Level

Difference). Como a velocidade do som no ar é finita, o som emitido a partir de uma fonte

sonora pode chegar em diferentes instantes de tempo em cada um dos ouvidos internos de

um ouvinte, dependendo do ângulo entre a fonte sonora e a cabeça do indivíduo. Supondo

que uma onda sonora seja emitida a partir de uma fonte distante que atinge uma cabeça

esférica de raio a, e com um ângulo θ não nulo, é claro que o som deve chegar em um dos

ouvidos externos antes do outro, pois a onda sonora precisa percorrer uma distância extra

para chegar até o outro ouvido externo. Ao dividir essa distância pela velocidade do som,

obtém-se a equação da ITD [4]:

𝐼𝑇𝐷 =𝑎[𝜃+𝑠𝑒𝑛(𝜃)]

𝑣 [𝑠], −90° ≤ 𝜃 ≤ +90°. (6)

Portanto, a ITD é nula quando a fonte sonora está bem à frente do ouvinte, e é

máxima quando a fonte está diretamente para a esquerda ou diretamente para a direita da

cabeça do ouvinte, o que representa uma ITD de aproximadamente 0,7 milissegundos para

uma cabeça humana de tamanho médio [4].

Além dessa diferença temporal, existe também uma diferença na percepção de nível

sonoro entre os dois ouvidos externos, a chamada ILD. Como cada ouvido externo de um

indivíduo está separado por uma distância delimitada pelo diâmetro da sua cabeça, nota-se

uma diferença de nível nos sons percebidos por cada ouvido interno. A base para o cálculo

da ILD é a lei do inverso do quadrado [4] [8]:

𝐼 = 𝑊

4𝜋𝑑2[

𝑊

𝑚2]. (7)

Ambas a ITD e a ILD são altamente dependentes da frequência da onda sonora. Em

frequências baixas, que possuem comprimentos de onda muito grandes com relação ao

diâmetro de uma cabeça, não há muita diferença de pressão sonora entre os dois ouvidos

externos. Porém, nas altas frequências, onde os comprimentos de onda são curtos para que

14

ocorra a difração do som ao redor da cabeça, uma espécie de sombreamento sonoro é

produzido pela cabeça, similar a um sombreamento luminoso. Dessa maneira, a localização

de fontes sonoras em baixas frequências é dominada pela ITD, e em altas frequências é

dominada pela ILD. Essa transição de dominância entre ITD e ILD acontece na faixa entre

1kHz e 2kHz, conforme ilustra a Figura 3 [1] [4].

Figura 3 – Transição de dominância entre ITD e ILD em função da frequência da

onda sonora

Fonte: BREEBAART, Jeroen; FALLER, Christof. Spatial Audio Processing: MPEG

Surround and Other Applications. Sussex: John Wiley & Sons Ltd., 2007. 209p, il.

2.3.3 Interpretação de ângulos de elevação de fontes sonoras

O ouvido externo age como uma antena acústica, onde as cavidades ressonantes

amplificam certas frequências e atenuam outras, devido a sua geometria. Sendo assim, a

resposta em frequência de cada orelha depende da direção da fonte sonora, o que nos auxilia

na localização de fontes sonoras com ângulos φ diferentes de zero. Para ilustrar esse fato, a

Figura 4 ilustra duas medidas de magnitude da resposta em frequência para duas possíveis

direções de chegada da uma mesma onda sonora. Para cada um dos casos a onda percorre

um caminho diferente a partir da fonte sonora até chegar ao meato acústico, dependendo de

como ocorre a reflexão da onda nas cavidades internas do pavilhão. Em ambos os casos, as

reflexões causam com que um sinal atrasado chegue fora de fase no meato acústico, o que

pode acarretar no acontecimento de interferências construtivas ou destrutivas. Como o

ouvido externo é um refletor mais eficiente para sons emitidos a partir de uma fonte sonora

à frente do ouvinte, a rejeição é maior para fontes sonoras posicionais à frente do que acima

do ouvinte [4].

15

Figura 4 – Resposta em frequência do ouvido externo com relação ao ângulo de

elevação da fonte sonora

Fonte: ALGAZI, V. R.; DUDA, R. O.; FORD, G. The CIPIC Interface Laboratory

Home Page. Disponível em: <http://interface.idav.ucdavis.edu/> Acesso em: 16 set.

2017.

2.3.4 Interpretação de distâncias de fontes sonoras

Quando se trata de localizar uma fonte sonora no espaço, o sistema auditivo humano é

mais eficiente na interpretação de ângulos de azimute, menos eficiente na interpretação de

ângulos de elevação, e menos eficiente ainda na interpretação de distâncias. De maneira

similar, a interpretação de ângulos de azimute é muito bem compreendida, enquanto que a

interpretação de ângulos de elevação é menos compreendida, e a interpretação de distâncias

é menos compreendida ainda. Porém alguns fatores frequentemente levados em

consideração na compreensão da interpretação de distancias são a intensidade sonora e a

razão entre os sons direto e o reverberado [4].

No que diz respeito à intensidade sonora, a energia de um som emitido a partir de

uma fonte cai com o inverso do quadrado da distância percorrida pela onda sonora. Sendo

assim, a energia do som que chega até o ouvinte é proporcional a energia do som emitido

pela fonte e, portanto, a intensidade sonora não é o suficiente para determinar a distância de

uma fonte sonora no espaço, sendo também necessário saber outras informações sobre a

fonte sonora. Contudo, dependendo do ambiente onde se dá a propagação, o som emitido a

partir de uma fonte é refletido e refratado diversas vezes nas superfícies desse ambiente,

16

antes de chegar até o ouvinte. Nesses casos, a razão entre a energia que chega ao ouvinte

diretamente da fonte sonora e a energia refletida é o fator de maior relevância para a

interpretação de distâncias. Em distâncias pequenas essa razão é muito grande, enquanto

que, em longas distâncias, ela é muito pequena [4].

2.3.5 Localização de fontes sonoras no espaço

De maneira similar à percepção de uma imagem através da visão, o ser humano é

capaz de perceber imagens ditas auditivas no espaço, compostas por eventos auditivos. Na

maioria das situações, a direção dos eventos auditivos percebidos corresponde com a

direção física das fontes sonoras no espaço, relacionando os arredores do ouvinte com a

imagem auditiva espacial [1].

Para entender melhor como o sistema auditivo humano discrimina a direção de uma

fonte sonora no espaço, as propriedades dos sinais que chegam às entradas do ouvido

externo precisam ser levadas em consideração. De maneira geral, os sinais que adentram o

sistema auditivo podem ser vistos como versões filtradas do sinal emitido pela fonte sonora.

Os filtros que modelam o som a partir da fonte no caminho até as entradas esquerda e direita

do sistema auditivo humano são chamados de funções de transferência relacionadas à

cabeça, ou simplesmente HRTFs (do inglês Head-Related Transfer Functions), as quais,

devido a diferenças no formato da cabeça e do ouvido externo de cada indivíduo, também

possuem diferenças nas suas características espectrais, variando de pessoa para pessoa [1]

[4].

A imagem auditiva mais simples possível é aquela em que uma única fonte sonora

encontra-se em campo livre, entretanto, a audição espacial com duas ou mais fontes sonoras

possui maior relevância prática. Por campo livre entende-se um espaço aberto, sem objetos

físicos nos quais o som possa ser refletido. Câmeras anecóicas, por possuírem paredes com

um alto coeficiente de absorção do som, são frequentemente utilizadas em experimentos que

simulam condições de campo livre, onde quase não existe reflexão do som [1].

Para duas fontes sonoras distintas, ou canais, as HRTFs é que determinam os valores

de ITD e ILD para os sinais específicos de cada um, através da diferença de tempo entre

canais, ou ICTD (do inglês Inter-Channel Time Difference), da diferença de nível entre

canais, ou ICLD (do inglês Inter-Channel Level Difference), e da coerência entre canais, ou

ICC (do inglês Inter-Channel Coherence) [1].

Dois canais são ditos coerentes quando ambos emitem sinais com o mesmo nível

sonoro e sem atrasos entre eles. Quando sinais coerentes são emitidos a partir de dois canais

17

independentes, um evento auditivo compacto é percebido entre as duas fontes sonoras. Ao

reduzir a ICC, a “largura” do evento auditivo aumenta, fenômeno esse que é baseado no fato

de que as ITDs e ILDs caracterizam a localização de um evento auditivo a partir das

relações entre elas. Ao aumentar o nível de um dos canais, o evento auditivo movimenta-se

para o lado do canal de maior nível, sendo possível controlar a sua localização através da

ICLD. A ICTD também pode ser utilizada para atingir o mesmo resultado, aplicando um

delay entre dois canais distintos para alterar o panorama do som [1].

Uma imagem auditiva espacial geralmente consiste de um grande número de eventos

distribuídos no espaço. Quando uma fonte sonora emite um sinal, um evento auditivo

correspondente é percebido na direção dessa fonte. Quando outra fonte sonora

independente, em outra localização, emite outro sinal, outro evento auditivo correspondente

é percebido na direção da segunda fonte. Se as duas fontes emitirem sinais

simultaneamente, dois eventos auditivos serão percebidos em duas direções diferentes,

dependendo da localização de cada um. Assim, a soma do número de sinais de entrada no

sistema auditivo provenientes de fontes sonoras independentes no espaço resulta em eventos

auditivos distintos para cada fonte. Na maioria dos casos, as direções desses eventos

auditivos resultantes correspondem à direção das fontes sonoras no espaço, e formam

imagens auditivas espaciais que correspondem aos arredores físicos dos ouvintes [1].

3 METODOLOGIA

Esta seção descreve as principais técnicas utilizadas na captação e virtualização de

áudio espacial voltadas para os sistemas de som bidimensionais e tridimensionais. Os

métodos de captação incluem a gravação multicanal e gravação binaural utilizando pares de

microfones casados. As técnicas de virtualização incluem a mixagem de áudio em dois ou

mais canais e a sintetização do som em 3-D utilizando conjuntos de resposta ao impulso

relacionadas à cabeça, as chamadas HRIRs (do inglês Head-Related Impulse Responses),

para reprodução através de fones de ouvido.

3.1 Sistemas de som espaciais

Ao gravar, editar, processar ou sintetizar sinais de áudio, deve-se sempre ter em vista

a compatibilidade desses sinais com o tipo de sistema de reprodução especifico no qual se

pretende escutar o resultado final de uma mixagem. Sendo assim, a captura, sintetização,

mixagem, monitoração e reprodução de sinais de áudio de uma maneira geral não são

18

tópicos que podem ser tratados de maneira isolada. Por essa e outras razões de cunho

estético, existem diferentes abordagens na produção audiovisual [1] [10].

No processo de gravação multicanal, por exemplo, cada elemento sonoro é captado ou

sintetizado em um canal separado, porém, se todos esses elementos fossem reproduzidos da

mesma forma, poderia acontecer com que eles soassem confusos entre si, devido a

similaridades em altura, timbre ou intensidade. Neste caso, o objetivo final da mixagem

deve ser o de misturar os vários elementos sonoros, fazendo com que cada um perca um

pouco de suas características individuais para fazer parte de um conjunto, mantendo assim o

equilíbrio espectral da imagem auditiva espacial gerada, visando a perspectiva do ouvinte

[1] [10].

Por outro lado, quando se trata do processo de captação de elementos sonoros em

ambientes com acústicas naturais, como uma gravação de um coral em um auditório ou de

uma orquestra em um teatro, o objetivo final tanto da gravação quanto da mixagem dos

áudios deve ser o de recriar o mais realisticamente possível a ilusão auditiva de “estar lá”

presente no momento da performance [1].

De qualquer maneira, qualquer abordagem utilizada na modelagem da imagem

auditiva espacial que cria um cenário auditivo correspondente a um conjunto de eventos

auditivos simultâneos deve visar não somente os aspectos criativos e estéticos almejados

artisticamente numa produção audiovisual, mas também as possibilidades e limites

inerentes ao sistema de reprodução de som específico no qual se pretende escutar o

resultado final da mixagem [1] [10].

3.1.1 Sistemas de som bidimensionais

Todos os aspectos levados em consideração na mixagem de sinais de áudio, como o

balanço, a perspectiva e a inteligibilidade dos sons, são importantes para estabelecer a

eficiência da comunicação auditiva. Em sistemas de som monofônicos, que possuem apenas

um canal, é mais difícil de conferir a distinção ou definição dos sons quando misturados,

devido ao fato de eles serem unidimensionais. Já nos sistemas de som estereofônicos, que

possuem dois canais (esquerdo e direito), é possível expandir o espaço auditivo em duas

dimensões (profundidade e largura), facilitando o posicionamento de elementos num

cenário auditivo e melhorando a perspectiva dos sons para o ouvinte [1] [10].

Para a captação natural do som em estéreo, uma técnica comum é a gravação

utilizando pares de microfones casados, conforme ilustra a Figura 5 (b). Nela, dois

microfones direcionais são posicionados sobre um eixo, de maneira que um aponta mais

19

para a esquerda e o outro mais para a direita. Dessa maneira, não existe ICTD entre os sinais

captados, mas ocorre uma ICLD entre eles, que é função do ângulo azimutal da fonte

sonora. Quando os sinais captados pelos microfones são amplificados e reproduzidos

através de um par de caixas de som, um evento auditivo com um ângulo relativo ao da fonte

sonora captada é percebido, e se os parâmetros da gravação forem apropriadamente

escolhidos, pode-se fazer com que os dois ângulos coincidam [1].

Figura 5 – Arranjos para reprodução de sinais de áudio em estéreo através de caixas

de som (a) e para captação utilizando de pares de microfones casados (b)

Fonte: BREEBAART, Jeroen; FALLER, Christof. Spatial Audio Processing:

MPEG Surround and Other Applications. Sussex: John Wiley & Sons Ltd., 2007.

209p, il.

Ainda quando existem múltiplas fontes ativas e concorrentes para serem gravadas, o

mesmo princípio de gravação e reprodução também se aplica, o que usualmente resulta em

múltiplos eventos auditivos, um para cada fonte [1].

O arranjo padrão de caixas de som para a reprodução de sinais de áudio em um sistema

estéreo se dá em cima de uma circunferência imaginária de raio fixo, conforme ilustrado na

Figura 5 (a), onde o ouvinte deve posicionar-se no centro, e as caixas de som devem ser

posicionadas sobre a circunferência, formando um arco com ângulos 𝜃0 de

aproximadamente -30° e 30° com relação à cabeça do ouvinte. O conceito por trás desse

20

arranjo é bastante simples: para posicionar um som à esquerda, deve-se enviar o seu

respectivo sinal para o canal esquerdo. Para posicionar um som à direita, deve-se enviar o

seu respectivo sinal para o canal direito. Se o mesmo sinal for enviado para ambos os canais

simultaneamente, uma fonte sonora “fantasma” irá parecer que origina de um ponto no

espaço entre duas as caixas de som [1] [4].

Aplicando uma ICLD, pode-se criar a ilusão de que a fonte sonora se move entre os

dois canais, entretanto, essa simples técnica, conhecida como crossfading, não consegue

tirar a impressão de que a fonte esteja fora do segmento de linha imaginária entre as caixas

de som dos dois canais. É possível também deslocar a posição da fonte sonora entre dois

canais explorando o efeito da ICTD. O resultando é bastante similar ao uso da ICLD, porém

se a ICTD aplicada for muito grande, o ouvinte eventualmente irá passar a notar o som

emitido por um dos canais como sendo um eco desagradável, o que torna o seu uso para o

posicionamento de sons numa imagem auditiva em sistemas de som bidimensionais menos

popular do que o uso da ICLD [1] [4].

A largura da imagem auditiva espacial que é percebida quando se escuta os sons através

desse arranjo é limitada à aproximadamente a área entre e atrás das duas caixas de som. A

grande diferença quando se escuta sons em estéreo através de fones de ouvido é que a

localização dos eventos auditivos é limitada ao espaço confinado dentro da cabeça do

ouvinte, numa linha imaginária entre os dois ouvidos externos [1] [8].

Existem outros sistemas de som bidimensionais que ampliam a área da imagem

auditiva espacial em relação ao estéreo utilizando canais adicionais para incrementar a

ilusão de profundidade e largura do espaço auditivo, como é o caso do 5.1. Esse tipo de

sistema é geralmente instalado em salas de cinema, ou até mesmo em residências, em

versões populares conhecidas como home theaters, que têm o uso focado na reprodução de

áudio de filmes armazenados em mídias que comportam seis ou mais canais de áudio

discretos, como os DVDs e os Blu-ray Discs. Atualmente a transmissão de TV digital e

alguns serviços de streaming de conteúdo audiovisual por assinatura também comportam

componentes de áudio Surround [1].

Para captação ou sintetização de áudio para reprodução em sistemas de som Surround,

as mesmas técnicas utilizadas nos sistemas estereofônicos podem ser aplicadas entre pares

de canais, estendendo-as até o número de canais principais do sistema em questão. Dessa

maneira, para posicionar um evento auditivo em uma direção especifica, basta aplicar a

técnica de crossfading entre dois canais quaisquer do sistema [1].

21

Para reprodução do áudio, os sistemas de som Surround utilizam um número de caixas

de som principais com alto-falantes pequenos distribuídos pelo ambiente onde se é

reproduzido o som, com a adição de uma caixa de som com um alto-falante maior, que

reproduz sons graves e não direcionais, conhecido como subwoofer. A Figura 6 ilustra o

arranjo das caixas de som para reprodução de áudio em um sistema de som Surround 5.1

[1] [4] [10].

Figura 6: Arranjo padrão de caixas de som para reprodução de áudio em sistemas de

som Surround 5.1

Fonte: BREEBAART, Jeroen; FALLER, Christof. Spatial Audio Processing: MPEG

Surround and Other Applications. Sussex: John Wiley & Sons Ltd., 2007. 209p, il.

No arranjo da Figura 6, as duas caixas de som denominadas Left e Right são posicionadas

com ângulos de -30° e 30° em frente ao ouvinte, para produzir uma imagem auditiva frontal

compatível com o sistema estéreo. As duas caixas de som denominadas Rear Left e Rear

Right são posicionadas em -110° e 110° para adicionar componentes laterais à imagem

auditiva, e a caixa de som denominada Center é posicionada em 0° para conferir

estabilidade na imagem auditiva quando o ouvinte não estiver posicionado exatamente no

centro do arranjo. O “um” do sistema 5.1 é um canal adicional, que é designado à

22

reprodução de sons em baixa-frequência, também chamados de LFE (do inglês Low

Frequency Effects), que usualmente possuem frequências na faixa abaixo dos 120Hz [1] [4].

Devido à quantidade e ao posicionamento dos canais no sistema de som 5.1, não é

possível imitar uma imagem auditiva espacial em 360° através dele, mas é possível produzir

uma imagem auditiva frontal sólida e com componentes laterais que complementam a

impressão espacial do som. Já em sistemas que utilizam mais canais, como o 7.1, o 11.1, e

etc., é possível produzir efeitos de posicionamento de eventos auditivos espaciais em um

maior número de direções e com melhor definição, mas eles acabam se tornando

inconvenientes devido ao grande número de canais, que aumentam o custo e a

complexidade desses sistemas [1] [4].

3.1.2 Sistemas de som tridimensionais

Todos os sistemas de som bidimensionais são limitados ao posicionamento de eventos

auditivos num plano, ou seja, eles só conseguem captar, sintetizar, ou reproduzir a

componente azimutal de uma fonte sonora. Já os sistemas de som tridimensionais têm por

objetivo incrementar a ilusão do espaço auditivo, indo além da capacidade limitada dessas

abordagens. O conceito básico dos sistemas de som tridimensionais consiste na tentativa de

recriar a interação dos fenômenos sonoros com a fisionomia do organismo humano,

especialmente com a do sistema auditivo e da cabeça, podendo também incluir outras partes

do corpo [4] [10].

Para alcançar esse objetivo, as técnicas mais comuns de gravação natural de áudio em

3-D normalmente utilizam cabeças artificiais ou manequins acústicos, geralmente

compostos de uma cabeça com orelhas, pescoço, e até mesmo torso, que imitam a

fisionomia humana e possuem pares de microfones casados instalados nas entradas do que

seriam os canais esquerdo e direito do sistema auditivo humano. Quando os sinais de áudio

gravados com esse tipo de artifício são reproduzidos através de fones de ouvido, conforme

ilustra a Figura 7, é possível perceber uma imagem auditiva espacial relativa à interação

entre os eventos auditivos que ocorreram durante a gravação e a fisionomia do manequim

utilizado, pois as informações relativas ao azimute, elevação e distância do posicionamento

das fontes sonoras no espaço estarão presentes na gravação. Dessa maneira, quanto maior

forem as similaridades entre as formas do manequim acústico e a fisionomia do ouvinte,

mais convincente será a experiência auditiva tridimensional [1] [4].

23

Figura 7: Gravação e monitoração (reprodução) de áudio em 3-D utilizando um

manequim acústico e fones de ouvido

Fonte: ALGAZI, V. Ralph; DUDA, Richard O.; FORD, Gary. The CIPIC Interface

Laboratory Home Page. Disponível em: <http://interface.idav.ucdavis.edu/>. Acesso

em: 16 set. 2017.

A sintetização do efeito em 3-D na reprodução do áudio através de fones de ouvido

também é possível aplicando métodos computacionais, porém eles dependem de certa forma

da gravação natural do áudio em 3-D. Como seria muito difícil modelar uma HRTF

matematicamente devido à alta complexidade dos sistemas auditivo e neurológico humano,

torna-se mais viável a obtenção experimental de tais funções utilizando manequins

acústicos. Assim, uma prática comum consiste em gravar as HRIRs de uma cabeça artificial

ou um manequim acústico em uma câmera anecóica, produzindo impulsos sonoros através

de caixas de som posicionadas em diversos ângulos do sistema de coordenadas esféricas

interaurais. Dessa maneira, cada impulso gerado resulta em um par de HRIRs, um para cada

canal, que é diferente para cada direção da fonte de impulso sonoro [1] [4].

Fica claro que o levantamento experimental de um conjunto de HRTFs que recria a

percepção auditiva espacial de uma determinada cabeça requer um grande número de

medições de pares de HRIRs, conforme a resolução desejada do espaço interaural. Na

prática, geralmente utiliza-se um valor fixo de alcance, variando apenas o azimute e a

elevação da fonte de impulso sonoro. Em teoria, após a realização das medidas dos pares de

HRTFs e de organizar os dados obtidos em função dos ângulos de azimute e elevação

utilizados, basta realizar a convolução de um sinal de áudio comum com um par de HRIRs

correspondente à uma direção espacial desejada para produzir sons que imitam os níveis de

pressão sonora nas entradas de cada um dos canais do sistema auditivo, criando uma

imagem auditiva espacial sintética, conforme ilustra a Figura 8 [1] [4].

24

Figura 8: Imagem auditiva espacial sintetizada a partir das HRIRs de uma fonte

sonora pontual de posição arbitrária no espaço

Fonte: ALGAZI, V. Ralph; DUDA, Richard O.; FORD, Gary. The CIPIC Interface

Laboratory Home Page. Disponível em: <http://interface.idav.ucdavis.edu/>. Acesso

em: 16 set. 2017.

4 APLICAÇÃO DA METODOLOGIA PROPOSTA

Neste tópico são descritas algumas tentativas de aplicação da metodologia descrita na

seção anterior, primeiramente abordando a gravação natural de eventos auditivos espaciais e

o levantamento experimental de HRTFs através de um protótipo experimental de gravação

de áudio binaural, seguindo com a utilização de métodos computacionais com o objetivo de

sintetizar o efeito do áudio em 3-D.

4.1 Captação natural de áudio espacial utilizando pares de microfones casados

Independentemente da utilização de cabeças artificiais ou manequins acústicos, todos

os métodos de gravação natural de áudio espacial descritos anteriormente fazem uso de

pares de microfones casados para captar informações sobre a direção de uma fonte sonora

no espaço. Para explorar esse conceito, foi realizado um experimento com um par de

microfones condensadores direcionais Behringer C-4 montados em um suporte próprio para

captação de áudio em estéreo, com cada um apontando na direção oposta à cápsula do outro,

formando um ângulo θ de 180° entre eles para simular as entradas esquerda e direita do

sistema auditivo humano, conforme ilustrado na Figura 9 (a).

25

Figura 9 - Arranjo para captação de áudio espacial utilizando um par de microfones

casados (a) e interface de áudio utilizada para gravação em canais separados (b)

(a)

(b)

Fonte: SANTOS, Arthur N. dos. 2017.

A distância de separação entre as cápsulas dos dois microfones da Figura 9 (a)

ultrapassou o diâmetro de uma cabeça de tamanho médio, medindo pouco mais de 20cm,

considerando os conectores XLR dos cabos de áudio. Cada microfone foi conectado à uma

entrada distinta de uma interface de áudio Behringer U-PHORIA UMC404HD, ilustrada na

Figura 9 (b), para conexão com um computador pessoal via porta USB, com o propósito de

realizar a gravação em dois canais separados utilizando o software de gravação e edição de

áudio e vídeo Sony Vegas Pro 9. Durante a gravação foram emitidos sons utilizando um

violão, repetindo sempre o mesmo acorde, porém movimentando-se, e variando os ângulos

de azimute e elevação do instrumento com relação ao plano interaural dos microfones, para

simular o movimento de uma fonte sonora ao redor de uma cabeça. A visualização no

tempo do conteúdo dessa gravação é ilustrada na Figura 10.

Figura 10 - Visualização no tempo do áudio dos canais esquerdo direito gravados pelo

software Sony Vegas Pro 9

Fonte: SANTOS, Arthur N. dos. 2017.

Apesar de o conteúdo da gravação ilustrada na Figura 10 apresentar o padrão

esperado de ICLD, esse arranjo de microfones não conseguiu captar a direção da fonte

26

sonora de maneira convincente, apresentando internalização do som reproduzido através de

fones de ouvido para ângulos θ diretamente opostos, como 0° e 180°, e também não

conseguiu captar efeitos de elevação da fonte sonora, devido ao dimensionamento

rudimentar do arranjo e da falta de anteparos para simular os pavilhões do ouvido externo, o

que poderia melhorar a discriminação da direção de eventos sonoros.

Idealmente, o uso de um manequim acústico ou de uma cabeça artificial para a

captação natural do áudio em 3-D solucionaria os problemas constatados na utilização de

um simples par de microfones casados, porém o alto custo desse tipo de artefato é um fator

que muitas vezes obriga o consumidor a procurar soluções com uma melhor relação custo-

benefício. Atualmente, existe uma série de produtos disponíveis comercialmente que

minimizam a complexidade de uma cabeça artificial, mas que apresentam resultados

bastante satisfatórios na captação natural de áudio binaural. Alguns exemplos desses outros

tipos de dispositivos são o 3Dio Free Space, que utiliza apenas um par microfones

condensadores separados pela distância de uma cabeça de tamanho médio com próteses

auriculares artificiais que simulam o pavilhão do ouvido externo, e o Hooke Verse, que é um

dispositivo similar à um fone de ouvido intra-auricular, mas que, ao invés de alto-falantes,

possui microfones para captação do áudio que chega até as entradas do sistema auditivo do

usuário. Todos os produtos citados neste parágrafo são ilustrados na Figura 11.

Figura 11 - Manequim acústico (GRAS 45BB KEMAR) (a), cabeça artificial (Neumann

KU 100) (b), 3Dio Free Space (c) e Hooke Verse (d)

(a)

(b)

(c)

(d)

Fontes: (a) GRAS SOUND AND VIBRATION A/S. Disponível em: <www.gras.dk/>;

(b) NEUMANN BERLIN. Disponível em: <http://www.neumann.com>; (c) 3DIO:

PROFESSIONAL BINAURAL MICROPHONES. Disponível em:

<https://3diosound.com/>; (d) HOOKE AUDIO. Disponível em:

<https://hookeaudio.com/>. Acesso em: 2 nov. 2017.

27

Com base nesse tipo mais simples de solução, foi desenvolvido um protótipo para

gravação de áudio binaural, utilizando um par de microfones condensadores de eletreto

acoplados à um par de borrachas intra-auriculares de silicone, para encaixe seguro e

confortável com as entradas do ouvido externo, conforme ilustra a Figura 12.

Figura 12 - Protótipo para gravação de áudio binaural (a) e detalhe do microfone

condensador de eletreto acoplado à borracha intra-auricular

(a)

(b)

Fonte: SANTOS, Arthur N. dos. 2017.

O objetivo desse dispositivo de gravação de áudio binaural, ilustrado na Figura 12, é

utilizar a própria antropometria do usuário para captar informações de direção das fontes

sonoras no espaço, eliminando a necessidade de modelar um par de próteses artificiais do

pavilhão do sistema auditivo humano ou uma cabeça. A Figura 13 ilustra o encaixe dos

microfones do dispositivo com os ouvidos externos esquerdo e direto.

Figura 13 - Encaixe do dispositivo de gravação binaural nos ouvidos externos

esquerdo (b) e direito (a)

(a)

(b)

Fonte: SANTOS, Arthur N. dos. 2017.

28

Para avaliar a eficiência desse protótipo, foi realizada uma gravação, utilizando um

gravador portátil Marantz PMD620MKII, ilustrado na Figura 14 (a), que possui entrada de

áudio para microfone estéreo com conexão via jack P2, e que também fornece phantom

power interno de 5V para microfones condensadores de eletreto. O gravador foi configurado

para salvar os arquivos em formato mp3, com taxa de bits de 192kbps e taxa de amostragem

de 44,1kHz. A gravação em si foi realizada ao livre, caminhando pelas ruas da cidade,

captando sons de veículos em movimento, pessoas conversando, passos nas calçadas,

pássaros cantando, e etc.. Como os microfones utilizados possuem alta sensibilidade,

também precisou ser ajustado o valor de atenuação do nível do sinal de entrada do gravador

portátil em 18dB.

O efeito tridimensional captado nesse experimento foi bastante satisfatório na

reprodução do áudio gravado através de fones de ouvido, soando convincente e

apresentando externalização dos sons vindos das mais diversas direções do espaço

interaural. Alguma sensação de internalização do áudio pode ser notada em eventos

auditivos onde a fonte sonora possui um ângulo de elevação diferente do plano interaural do

ouvinte. Para avaliar se o estimulo visual possui alguma influência na determinação da

direção de fontes sonoras fora do plano azimutal, foi realizado um segundo teste, repetindo

o mesmo percurso da gravação anterior, porém utilizando uma câmera de ação Atrio Full

Sport Cam HD DC186 acoplada à cabeça, com um suporte próprio para tal, conforme

ilustrado nas Figuras 14 (b) e 14 (c).

Figura 14 – Gravador portátil (a), e vistas frontal (b) e lateral (c) da câmera de ação

acoplada à cabeça em conjunto com o dispositivo de gravação binaural

(a)

(b)

(c)

Fonte: SANTOS, Arthur N. dos. 2017.

29

Após sincronizar o vídeo gravado com a câmera e o áudio captado pelo conjunto de

microfones através do gravador portátil, utilizando o Sony Vegas Pro 9, avaliou-se que o

estimulo visual complementa o estimulo sonoro na discriminação da direção de fontes

sonoras no espaço.

4.2 Medição de HRTFs através do protótipo de gravação de áudio binaural

Confirmada a eficiência da captação do efeito em 3-D do áudio gravado a partir do

protótipo ilustrado nas Figuras 12 e 13, foi realizado um experimento para medição de pares

de HRTFs de algumas direções do sistema de coordenadas interaurais, com a finalidade de

aplicar os sinais obtidos na sintetização do efeito em 3-D do som através de métodos

computacionais. As medições foram realizadas em um um estúdio de gravação, com as

paredes revestidas por painéis acústicos que promovem a absorção do som, minimizando

reflexões, ecos e reverberações, conforme ilustra a Figura 15 (a).

Figura 15 - Medição experimental de HRTFs em estúdio de gravação (a) e caixa de

som utilizada para emissão de impulsos sonoros (b)

(a)

(b)

Fonte: SANTOS, Arthur N. dos. 2017.

Para a geração de impulsos sonoros, foi utilizado um código para o software

30

computacional MATLAB, denominado Soundsteps, ajustando os parâmetros de entrada do

mesmo para produzir sinais com duração de 1 milissegundo à uma frequência de

amostragem de 44,1kHz. Os sinais foram reproduzidos através de uma caixa de som Genius

SP-HF800 Pro, ilustrada na Figura 15 (b), e captados pelo protótipo de gravação de áudio

binaural desenvolvido neste trabalho, acoplado às entradas do sistema auditivo, e conectado

ao gravador portátil. Foram escolhidos apenas alguns pontos do sistema de coordenadas

esféricas interaurais para a gravação dos impulsos sonoros, sendo eles: 𝑃1(θ = 0°, φ = 0°, r =

1m), 𝑃2(θ = -45°, φ = 0°, r = 1m), 𝑃3(θ = +45°, φ = 0°, r = 1m), 𝑃4(θ = 180°, φ = 0°, r = 1m)

e 𝑃5(θ = 0°, φ = +45°, r = 1m). Para cada um desses pontos foram realizadas 9 medições de

resposta ao impulso, para obtenção da média entra elas, utilizando o MATLAB, conforme

ilustra a Figura 16 [11].

Figura 16 - Médias dos pares de HRIRs medidas para θ = φ = 0° e r = 1m

Fonte: SANTOS, Arthur N. dos. 2017.

Após a medição dos pares de HRIRs para os pontos no espaço supracitados, e da

realização do cálculo das médias para cada um, o procedimento foi repetido, porém sem

acoplar o dispositivo de gravação binaural às entradas do sistema auditivo. Como as HRIRs

medidas sofreram a influência das respostas em frequência da caixa de som utilizada para a

reprodução dos impulsos, do estúdio onde elas foram gravadas, dos microfones utilizados

na construção do dispositivo de gravação binaural, e etc., ao medir novamente as HRIRs

sem acoplar os microfones nos ouvidos externos esquerdo e direito, obteve-se os pares de

funções de transferência relativos à todos os sistemas envolvidos, com exceção do sistema

31

auditivo. De posse dessas novas HRIRs, que desconsideram o sistema auditivo, foi

elaborado código para a modelagem paramétrica da função de transferência desses sinais de

resposta ao impulso em um modelo do tipo “só polos” utilizando a função lpc do

MATLAB, conforme a equação:

𝐻(𝑍) = 𝐺

1−∑ 𝑎𝑘𝑍−𝑘𝑝𝑘=1

, (8)

onde G é o ganho, p é a ordem e 𝑎𝑘 são os coeficientes do denominador do filtro

LPC. Considerando x[n] = δ[n], a equação de diferenças do modelo indica que o valor

presente do sinal pode ser aproximado em função de seus valores passados, e como a

resposta à amostra unitária do filtro LPC é uma é uma aproximação do sinal original, y[n]

pode ser modelado de forma compacta através dos parâmetros do filtro, conforme a equação

de diferenças:

𝑦[𝑛] = ∑ 𝑎𝑘𝑦[𝑛 − 𝑘] + 𝐺𝑥[𝑛]𝑝𝑘=1 [12] [13]. (9)

O propósito dessa modelagem foi a obtenção dos coeficientes de um filtro preditor

linear, ou filtro LPC, do tipo IIR, que fosse uma versão aproximada das novas HRIRs

medidas, para que assim fosse possível realizar a filtragem inversa, entre as HRIRs com e

sem o sistema auditivo, para isolar apenas as informações relevantes ao sistema auditivo nas

HRIRs medidas, conforme ilustra a Figura 17 [12] [13].

Figura 17 – Modelagem paramétrica do par de HRIRs sem o sistema auditivo através

da função lpc para θ = φ = 0° e filtragem inversa dos canais esquerdo e direito para o

isolamento dos pares de HRIRs relativos ao sistema auditivo

Fonte: SANTOS, Arthur N. dos. 2017.

32

O resultado dessa filtragem, ilustrado em verde na Figura 17, foi obtido utilizando a

função filter do MATLAB, e invertendo a ordem dos vetores correspondentes ao numerador

e ao denominador dos coeficientes do filtro LPC em questão, transformando-o em um filtro

FIR. A obtenção do ganho e da ordem do filtro LPC foi realizada através do método da

tentativa e erro. Os sinais resultantes, para os cinco pares de HRIRs medidos para os pontos

𝑃1, 𝑃2, 𝑃3, 𝑃4 e 𝑃5, após a realização das médias de cada um, e do isolamento das

componentes no domínio da frequência relativas apenas ao sistema auditivo, através da

filtragem inversa utilizando versões parametrizadas das HRIRs sem o sistema auditivo em

jogo, são ilustrados na Figura 18 [12] [13].

Figura 18 – Resultado final dos pares de HRIRs medidos e processados para os pontos

𝑷𝟏, 𝑷𝟐, 𝑷𝟑, 𝑷𝟒 e 𝑷𝟓

Fonte: SANTOS, Arthur N. dos. 2017.

4.2 Sintetização do efeito de áudio em 3-D através de métodos computacionais

Utilizando os cinco pares de HRTFs medidos e processados, foi elaborado um código

para sintetização do efeito em 3-D de um áudio em estéreo, através do MATLAB. O áudio

escolhido para esse teste possui dois canais com duração de cinco segundos, contendo um

breve trecho de diálogo de apenas duas falas. O arquivo desse áudio, em mp3, foi carregado

no MATLAB utilizando a função audioread, e as cinco matrizes de HRIRs correspondentes

às cinco diferentes direções do sistema de coordenadas esféricas interaurais foram

organizadas em função dos seus ângulos θ e φ. Além disso um menu foi criado para que ao

33

rodar o código o usuário pudesse escolher em que direção se deseja posicionar o áudio no

espaço, conforme ilustra a Figura 19.

Figura 19 - Menu para escolha dos ângulos do sistema de coordenadas esféricas

interaurais pelo usuário através da Janela de Comando do MATLAB

Fonte: SANTOS, Arthur N. dos. 2017.

Após o usuário selecionar os ângulos de azimute e elevação de acordo com as opções

disponíveis, o software realiza a convolução no tempo entre os canais esquerdo e direito da

HRIR correspondente com os canais esquerdo e direito do áudio escolhido para teste. O

resultado dessa operação é a sintetização do posicionamento no espaço do evento auditivo

correspondente ao áudio escolhido. Para reprodução do áudio resultante através do

MATLAB, foi utilizada a função sound, e para visualização do áudio em estéreo, da HRIR

escolhida, e do resultado da convolução entre ambos, nos domínios do tempo e da

frequência, todos os dados em questão foram graficados, conforme ilustra a Figura 20.

Figura 20 - Visualização nos domínios do tempo e da frequência da aplicação do efeito

em 3-D no áudio utilizando o MATLAB para θ = φ = 0°

Fonte: SANTOS, Arthur N. dos. 2017.

34

Nota-se na Figura 20 uma alteração no conteúdo espectral do áudio resultante da

convolução em relação ao áudio original, o que era algo esperado, devido ao fato de um ser

a versão filtrada do outro, pela HRTF utilizada. Porém, com relação ao posicionamento do

som, o efeito em 3-D obtido através desse método não foi muito convincente na reprodução

do áudio através de fones de ouvido, ficando mais parecido com o estéreo do que com um

áudio binaural gravado naturalmente. A lateralização do som é bem definida para os

ângulos θ = -45° e θ = +45°, e o abotoamento do som para θ = 180° é bastante nitido,

porém, para todos os ângulos θ e φ, o áudio soa internalizado.

Para avaliar a eficiência dos pares de HRTFs medidos e processados

experimentalmente durante o desenvolvimento desse trabalho, o experimento de

sintetização do efeito em 3-D do som foi repetido utilizando um banco de dados de domínio

público, o CIPIC HRTF Database. Esse banco de dados contém 45 pares de HRIRs

medidas pelo grupo de pesquisa em áudio espacial do CIPIC Interface Laboratory da

University of California Davis, modeladas a partir de 43 voluntários (27 homens e 16

mulheres), além de dois conjuntos modelados a partir do manequim acústico KEMAR,

ilustrado nas Figuras 11 (a) e 20 (a), um com ouvido externo artificial grande e outro

pequeno. Cada conjunto de HRIRs desse banco de dados contém medidas para 25 diferentes

ângulos de azimute e 50 diferentes ângulos de elevação, totalizando 1250 diferentes

direções com incrementos angulares de aproximadamente 5° entre si. A Figura 21 ilustra a

medição das HRIRs desse banco de dados [4] [14].

Figura 21 - Medição das HRIRs do CIPIC HRTF Database com o manequim acústico

KEMAR (a) e com um dos 43 voluntários (b)

(a)

(b)

Fonte: ALGAZI, V. Ralph; DUDA, Richard O.; FORD, Gary. The CIPIC Interface

Laboratory Home Page. Disponível em: <http://www.ece.ucdavis.edu/cipic/spatial-

sound/research/>. Acesso em: 12 out. 2017.

35

De acordo com a documentação do banco de dados, para as HRIRs obtidas através de

voluntários, foram realizadas medições com os indivíduos sentados no centro de um aro de

raio equivalente a um metro, cujo eixo podia ser alinhado com o eixo interaural de cada

pessoa, o que não impedia os voluntários de moverem as suas cabeças livremente, conforme

ilustra a Figura 19 (b). Para reproduzir os impulsos sonoros foram utilizados alto-falantes

com cones de 5,8 centímetros de diâmetro, instalados no aro, e, para captação dos impulsos,

pequenos microfones-sonda foram posicionados próximos às entradas do sistema auditivo

[4] [14].

Como a sala utilizada na realização dessas medições não era uma câmera anecóica,

uma janela de Hanning modificada precisou ser aplicada às HRIRs medidas para remover os

efeitos de reflexão do som na sala, aproximando os sinais medidos a condições de campo

livre. O comprimento de cada HRIR é de 200 amostras, o que corresponde à sinais com

aproximadamente 4,5 milissegundos de duração [4] [14].

De posse dos arquivos do CIPIC HRTF Database, um outro código foi implementado

para sintetização do efeito em 3-D no mesmo áudio em estéreo utilizado anteriormente. A

Figura 22 ilustra os resultados obtidos a partir desse novo código, escolhendo os ângulos θ

= φ = 0°, para fins comparação com os resultados ilustrados na Figura 20.

Figura 22 - Visualização nos domínios do tempo e da frequência da aplicação do efeito

em 3-D no áudio utilizando o MATLAB e o CIPIC HRTF Database

Fonte: SANTOS, Arthur N. dos. 2017.

36

Os áudios obtidos a partir desse experimento, independentemente do seu

posicionamento, soam um pouco diferentes do áudio original, com menor definição, e

também mais agudos. Com respeito a eficiência do efeito em 3-D, apesar de o banco de

dados possuir muito mais opções de direção de posicionamento do som no espaço, o

realismo do efeito também não foi convincente, com boa lateralização, mas também

apresentando internalização dos sons.

Um último teste foi realizado, porém utilizando uma solução comercial: o

Binauralizer, da Noise Makers, que é um plugin de áudio espacial no formato VST, que

quando aliado à um software do tipo DAW (do inglês Digital Audio Workstation), tal qual o

Sony Vegas Pro 9, possibilita o posicionamento do som de um arquivo de áudio qualquer

em estéreo em um determinado ângulo θ do plano interaural. Conforme ilustra a Figura 23,

o plugin possibilita não apenas o posicionamento do áudio entre os ângulos 0° ≤ θ ≤ 360°,

mas também faz com que o usuário consiga aumentar a largura ou o foco do evento

auditivo, ou aplicar um ganho ao sinal filtrado, caso seja necessário [15].

Figura 23 – Interface do Binauralizer para controle do posicionamento do áudio

Fonte: NOISEMAKERS. Disponível em:

<https://www.noisemakers.fr/binauralizer/>. Acesso em: 10 out. 2017.

Ao realizar testes com o Binauralizer para o posicionamento do mesmo áudio

utilizado nos testes anteriores, e escolhendo os mesmos ângulos dos pontos 𝑃1, 𝑃2, 𝑃3, e 𝑃4,

foi constatado que o efeito produzido pelo plugin não soa tão mais convincente do que os

efeitos produzidos pelos códigos implementados no MATLAB, porém a qualidade do áudio

obtido com esse efeito permaneceu inalterada. Notou-se também que o fato de utilizar uma

37

interface gráfica mostrando a posição da cabeça do ouvinte com relação ao evento auditivo

sintetizado induz o usuário a acreditar que o áudio parece mesmo estar sendo posicionado

em um determinado ângulo θ do plano interaural. Porém, ao realizar testes às cegas, onde o

usuário que ajusta os parâmetros do plugin e o ouvinte não são a mesma pessoa, problemas

na identificação desses ângulos começam a ser constatados.

5 CONCLUSÃO

O áudio em 3-D gravado naturalmente através de cabeças artificiais, manequins

acústicos ou microfones binaurais, é concebido visando a reprodução exclusiva através de

fones de ouvido, o que pode ser visto como a principal vantagem dos sistemas de som

tridimensionais com relação aos sistemas de som bidimensionais, visto que são necessários

apenas dois canais para produzir efeitos espaciais que, ao contrário do estéreo, são

externados à cabeça e mais convincentes, utilizando menos canais do que os sistemas de

som do tipo surround [1] [4].

O dispositivo de gravação binaural desenvolvido nesse trabalho apresentou resultados

bastante satisfatórios na captação de áudio em 3-D em comparação com as soluções

comerciais citadas na aplicação da metodologia proposta. Alguns exemplos de vídeos com

áudio binaural gravados com o 3Dio Free Space e o Hooke Verse, e também com outros

modelos de produtos similares, são facilmente encontrados na internet e podem ser

utilizados para avaliar a eficiência do protótipo. O fato desse tipo de dispositivo não utilizar

uma cabeça artificial, ou muito menos um manequim acústico com um torso, não

compromete tanto a qualidade do efeito espacial das gravações realizadas, o que indica que

a separação entre os ouvidos externos e a anatomia do pavilhão são os fatores que mais

contribuem para a localização dos sons no espaço.

A maior dificuldade na utilização de microfones binaurais na captação do áudio em 3-D

talvez esteja em encontrar um dispositivo de gravação para microfones em estéreo. O uso de

smartphones talvez fosse a opção ideal para esse tipo de dispositivo, devido à sua

popularidade e portabilidade, porém os smartphones normalmente possuem uma entrada de

áudio mono para microfones, e não possuem tanta qualidade na gravação do áudio. O

próprio Hooke Verse é wireless em função disso, e envia o áudio captado pelos seus

microfones via conexão Bluetooth com o smartphone, para gravação em um app

proprietário da marca. Em comparação com os vídeos de demonstração do áudio captado

pelo Hooke Verse associado à um smartphone, o protótipo de gravação de áudio binaural

38

desenvolvido nesse trabalho associado ao gravador profissional portátil utilizado apresenta

uma melhor relação custo-benefício.

Quanto aos métodos utilizados para sintetização do efeito em 3-D do som, apesar de

eles serem baseados em conceitos clássicos de Sinais e Sistemas e de Processamento Digital

de Sinais, a experiência auditiva dos resultados obtidos não foi convincente, fazendo com

que a complexidade da aplicação desses métodos não compense a sua utilização, em

comparação com os resultados obtidos a partir da gravação natural do som em 3-D. A

internalização do som e a confusão entre ângulos opostos no sistema de coordenadas

esféricas interaurais são alguns dos principais problemas percebidos durante a audição dos

testes realizados.

Dentre as possíveis causas para estes problemas pode-se incluir a falta do uso de efeitos

de reverberação no áudio sintetizado. Como a medição de HRIRs procura simular efeitos de

campo livre, talvez fosse necessário aplicar efeitos para a reverberação do som em um

ambiente especifico para que o ouvinte pudesse notar com mais clareza a direção da fonte

sonora, evitando confusões entre frente e costas ou em cima e em baixo, e etc. Porém, o uso

de efeitos de reverberação iria limitar a experiência auditiva à um ambiente especifico (uma

sala ou um corredor de dimensões pré-selecionadas, por exemplo), fazendo-se necessário

um efeito diferente para cada tipo de situação desejada.

A utilização de HRIRs medidas experimentalmente no desenvolvimento desse trabalho

em comparação com a utilização de um banco de dados de domínio público, contendo

HRTFs medidas por um grupo de pesquisa especializado em uma universidade americana,

não apresentou grandes diferenças no que diz respeito ao posicionamento do som no espaço,

e ainda a qualidade do áudio obtido a partir da convolução com as HRIRs do CIPIC HRTF

Database apresentou uma menor definição, o que indica que não é estritamente necessário o

uso de instrumentos de medição e de uma infraestrutura mais apropriada para a obtenção

experimental de HRTFs com qualidade.

Contudo, apesar de os experimentos realizados para sintetizar o efeito do áudio em 3-D

não terem apresentado resultados satisfatórios, notou-se também que o uso de ferramentas

comerciais para esse mesmo fim também não apresentam o realismo esperado, e que, seja

virtualmente ou não, apenas o estimulo sonoro não é o suficiente para determinar a direção

de eventos auditivos no espaço, sendo necessário a associação com outros estímulos

sensoriais para complementar as noções que obtemos do espaço ao nosso redor. Por fim, a

falta de realismo do áudio em 3-D sintetizado de uma maneira geral pode ser comparada a

problemas similares a geração virtual de vídeo em 3-D, pois ambas as técnicas não

39

conseguem emular de maneira satisfatória a relação entre os eventos que acontecem ao

nosso redor com a capacidade de percepção dos mesmos através de nossos órgãos

sensoriais.

6 REFERÊNCIAS

[1] BREEBAART, Jeroen; FALLER, Christof. Spatial Audio Processing: MPEG

Surround and Other Applications. Sussex: John Wiley & Sons Ltd., 2007. 209p, il.

[2] THE VERGE. Surrounded by Sound: How 3D Audio Hacks Your Brain.

Disponível em: <https://www.theverge.com/2015/2/12/8021733/3d-audio-3dio-binaural-

immersive-vr-sound-times-square-new-york>. Acesso em: 2 nov. 2017.

[3] MOORE, Brian C. J. Hearing: Handbook of Perception and Cognition. 2ed. San

Diego: Academic Press, Inc., 1995. 468p, il.

[4] ALGAZI, V. R.; DUDA, R. O.; FORD, G. The CIPIC Interface Laboratory Home

Page. Disponível em: <http://www.ece.ucdavis.edu/cipic/> Acesso em: 08 nov. 2017.

[5] AMORIN, Antônio. Fonoaudiologia Geral. São Paulo: Pioneira, 1972. 116p, il.

[6] BENSON, K. Blair. Audio Engineering Handbook. New York: McGraw-Hill Book

Company, 1988. 1000p, il.

[7] COSTA, Ennio Cruz da. Acústica Técnica. São Paulo: E. Blücher, 2003. 127p, il.

[8] FILIPANITS JR., Frank. Design and Implementation of an Auralization System

with a Spectrum-Based Temporal Processing Optimization. Disponível em:

<http://alumnus.caltech.edu/~franko/thesis/thesis.html>. Acesso em: 16 set. 2017.

[9] MOORE, Brian C. J. Cochlear Hearing Loss: Physiological, Psychological and

Technical Issues. 2 ed. Sussex: John Wiley & Sons Ltd., 2007. 332p, il.

40

[10] ALTEN, Stanley F. El Manual de Audio en los Medios de Comunicación. Gipuskoa:

Esc. de Cine y Video S. L., 1994. 652p, il.

[11] YUSSEF, Rikli. Discrete Sound Impulse Generator. Disponível em:

<https://www.mathworks.com/matlabcentral/fileexchange/46192-discrete-sound-pulse-gene

rator>. Acesso em: 4 nov. 2017.

[12] FACULDADE DE ENGENHARIA. Curso de Engenharia da Computação.

Aplicações de Processamento Digital de Sinais - 4456S-04. Experiência E10: Codificação

preditiva linear. Porto Alegre: PUCRS, 2017.

[13] MATHWORKS. Lpc. Linear prediction filter coefficients. Disponível em:

<https://www.mathworks.com/help/signal/ref/lpc.html>. Acessado em: 07 nov. 2017.

[14] ALGAZI, V. R.; DUDA, R. O.; THOMPSON, D. M. The CIPIC HRTF Database.

W2001-4. IEEE Workshop on Applications of Signal Processing to Audio Acoustics. New

York, 2001.

[15] NOISE MAKERS. Binauralizer. Disponível em: <https://www.noisemakers.fr

/binauralizer/>. Acesso em: 10 out. 2017.

7 ANEXOS

7.1 CÓDIGO PARA SINTETIZAÇÃO DO SOM EM 3-D COM AS HRIRS

MEDIDAS

clc

clear all

close all

fa = 44100;

load 'nova_hrir_0_azim.mat'

load 'nova_hrir_45_elev.mat'

load 'nova_hrir_45L_azim.mat'

load 'nova_hrir_45R_azim.mat'

load 'nova_hrir_180_azim.mat'

[audio_sample, ~] = audioread('six shots two guns.mp3');

41

menu = input('Escolha um ângulo de azimute (-45, 0, +45, 180 ou 50):\n');

switch menu

case -45

hrir = 2.3159.*nova_hrir_45L_azim;

case 0

hrir = 2.3159.*nova_hrir_0_azim;

case +45

hrir = 2.3159.*nova_hrir_45R_azim;

case 180

hrir = 2.3159.*nova_hrir_180_azim;

case 50

hrir = 2.3159.*nova_hrir_45_elev;

end

y_L = 3.5.*conv(audio_sample(:, 1), hrir(1:1e4, 1));

y_R = 3.5.*conv(audio_sample(:, 2), hrir(1:1e4, 2));

sound([y_L y_R], fa)

t1 = 1:length(audio_sample(:, 1));

t2 = 1:length(hrir(:, 1));

t3 = 1:length(y_L);

subplot(321)

plot(t1, audio_sample(:,1), 'r')

hold on

grid on

plot(t1, audio_sample(:,2), 'b')

xlim([0 length(t1)])

ylim([-0.15 0.15])

legend('L', 'R')

xlabel('Amostras')

ylabel('Amplitude')

title('Amostra de áudio em estéreo')

subplot(323)

plot(t2, hrir(:, 1), 'r')

hold on

grid on

plot(t2, hrir(:, 2), 'b')

xlim([2000 6000])

ylim([-0.15 0.15])

legend('L', 'R')

xlabel('Amostras')

ylabel('Amplitude')

title('HRIR')

subplot(325)

plot(t3, y_L, 'r')

hold on

42

grid on

plot(t3, y_R, 'b')

xlim([0 length(t3)])

ylim([-0.3 0.3])

legend('L', 'R')

xlabel('Amostras')

ylabel('Amplitude')

title('Resultado da convolução')

subplot(322)

semilogx(20*log(abs(fft(audio_sample(:,1), length(audio_sample(:, 1))))), 'r')

hold on

grid on

semilogx(20*log(abs(fft(audio_sample(:,2), length(audio_sample(:, 1))))), 'b')

legend('L', 'R')

xlim([0 20e3])

ylim([-200 200])

xlabel('Frequência (Hz)')

ylabel('Ganho (dB)')

title('Amostra de áudio em estéreo')

subplot(324)

semilogx(20*log(abs(fft(hrir(:,1), length(audio_sample(:, 1))))), 'r')

hold on

grid on

semilogx(20*log(abs(fft(hrir(:,2), length(audio_sample(:, 1))))), 'b')

legend('L', 'R')

xlim([0 20e3])

ylim([-200 200])

xlabel('Frequência (Hz)')

ylabel('Ganho (dB)')

title('HRTF')

subplot(326)

semilogx(20*log(abs(fft(y_L, length(audio_sample(:, 1))))), 'r')

hold on

grid on

semilogx(20*log(abs(fft(y_R, length(audio_sample(:, 1))))), 'b')

legend('L', 'R')

xlim([0 20e3])

ylim([-200 200])

xlabel('Frequência (Hz)')

ylabel('Ganho (dB)')

title('Resultado da convolução')

audiowrite('audio.wav',[y_L y_R],44100)

43

7.2 CÓDIGO PARA SINTETIZAÇÃO DO SOM EM 3-D UTILIZANDO O

BANCO DE DADOS DE DOMÍNIO PÚBLICO CIPIC HRTF DATABASE

clc

clear all

close all

load('hrir_final.mat') %carrega o arquivo com a matriz de resposta ao impulso em 3-D

% azim_r = [-80 -65 -55 -45:5:45 55 65 80]; %valores disponíveis de ângulo de azimute

azim_d = str2double(input('Digite ângulo de azimute:\n', 's')); %ângulo de azimute desejado

if(azim_d == 0)

azim_v = 13;

else

if(azim_d == -80)

azim_v = 1;

elseif(azim_d == -65)

azim_v = 2;

elseif(azim_d == -55)

azim_v = 3;

elseif(azim_d == 55)

azim_v = 23;

elseif(azim_d == 65)

azim_v = 24;

elseif(azim_d == 80)

azim_v = 25;

elseif(-45 <= azim_d <= 45)

azim_v = (azim_d/5)+13; %valor do ângulo de azimute

end

end

elev_r = -45:(360/64):235; %valores disponíveis de ângulo de elevação

elev_d = str2double(input('Digite o ângulo de elevação:\n', 's')); %ângulo de elevação

desejado

if(elev_d == 0)

elev_v = 9;

else

if(-45 <= elev_d <= 230.625)

elev_v = (elev_d/5.625)+9; %valor do ângulo de elevação

end

end

fres = 44100; %frequência de amostragem

x = audioread('six shots two guns.mp3');

x_l = x(:, 1); %canal esquerdo do sinal monaural

x_r = x(:, 2); %canal direito do sinal monaural

44

hrir_left(1, :) = hrir_l(azim_v, elev_v, :); %resposta ao impulso do canal esquerdo

hrir_right(1, :) = hrir_r(azim_v, elev_v, :); %resposta ao impulso do canal direito

y_l = conv(x_l, hrir_left); %canal esquerdo do sinal binaural

y_r = conv(x_r, hrir_right); %canal direito do sinal binaural

yLR = [y_l y_r];

sound(yLR, fres)

t1 = 1:length(x_l);

t2 = 1:length(hrir_l);

t3 = 1:length(y_l);

subplot(321)

plot(x_l, 'r')

hold on

plot(x_r, 'b')

grid on

ylim([-0.15 0.15])

xlabel('Amostras')

ylabel('Amplitude')

title('Amostra de áudio em estéreo')

legend('L', 'R')

subplot(323)

plot(hrir_left, 'r')

hold on

plot(hrir_right, 'b')

grid on

ylim([-1 1])

xlabel('Amostras')

ylabel('Amplitude')

title('HRIR')

legend('L', 'R')

subplot(325)

plot(y_l, 'r')

hold on

plot(y_r, 'b')

grid on

ylim([-0.15 0.15])

xlabel('Amostras')

ylabel('Amplitude')

title('Resultado da convolução')

legend('L', 'R')

subplot(322)

semilogx(20*log(abs(fft(x_l, length(x_l)))), 'r')

45

hold on

grid on

semilogx(20*log(abs(fft(x_r, length(x_l)))), 'b')

xlabel('Frequência (Hz)')

ylabel('Ganho (dB)')

legend('L', 'R')

title('Amostra de áudio em estéreo')

ylim([-200 200])

xlim([0 20e3])

subplot(324)

semilogx(20*log(abs(fft(hrir_left, length(x_l)))), 'r')

hold on

grid on

semilogx(20*log(abs(fft(hrir_right, length(x_l)))), 'b')

xlabel('Frequência (Hz)')

ylabel('Ganho (dB)')

legend('L', 'R')

title('HRTF')

ylim([-200 200])

xlim([0 20e3])

subplot(326)

semilogx(20*log(abs(fft(y_l, length(x_l)))), 'r')

hold on

grid on

semilogx(20*log(abs(fft(y_r, length(x_l)))), 'b')

xlabel('Frequência (Hz)')

ylabel('Ganho (dB)')

legend('L', 'R')

title('Resultado da convolução')

ylim([-200 200])

xlim([0 20e3])

audiowrite('audio.wav', [y_l y_r],44100)