38
VINÍCIUS QUINTAL DALTER ALGORITMOS PARA A ESTIMAÇÃO DA FREQUÊNCIA FUNDAMENTAL LONDRINA–PR 2016

VINÍCIUSQUINTALDALTER€¦ · uma perda de diversos outros. Nesse caso, assumindo que todos os harmônicos parciais possuem amplitudes aproximadamente iguais, podemos apresentar

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: VINÍCIUSQUINTALDALTER€¦ · uma perda de diversos outros. Nesse caso, assumindo que todos os harmônicos parciais possuem amplitudes aproximadamente iguais, podemos apresentar

VINÍCIUS QUINTAL DALTER

ALGORITMOS PARA A ESTIMAÇÃO DA FREQUÊNCIAFUNDAMENTAL

LONDRINA–PR

2016

Page 2: VINÍCIUSQUINTALDALTER€¦ · uma perda de diversos outros. Nesse caso, assumindo que todos os harmônicos parciais possuem amplitudes aproximadamente iguais, podemos apresentar
Page 3: VINÍCIUSQUINTALDALTER€¦ · uma perda de diversos outros. Nesse caso, assumindo que todos os harmônicos parciais possuem amplitudes aproximadamente iguais, podemos apresentar

VINÍCIUS QUINTAL DALTER

ALGORITMOS PARA A ESTIMAÇÃO DA FREQUÊNCIAFUNDAMENTAL

Trabalho de Conclusão de Curso apresentadoao curso de Bacharelado em Ciência da Com-putação da Universidade Estadual de Lon-drina para obtenção do título de Bacharel emCiência da Computação.

Orientador: Prof. Dr. Fábio Sakuray

LONDRINA–PR

2016

Page 4: VINÍCIUSQUINTALDALTER€¦ · uma perda de diversos outros. Nesse caso, assumindo que todos os harmônicos parciais possuem amplitudes aproximadamente iguais, podemos apresentar

Vinícius Quintal DalterAlgoritmos para a estimação da frequência fundamental/ Vinícius Quintal

Dalter. – Londrina–PR, 2016-36 p. : il. (algumas color.) ; 30 cm.

Orientador: Prof. Dr. Fábio Sakuray

– Universidade Estadual de Londrina, 2016.

1. Frequência fundamental. 2. Pitch. I. Prof. Dr. Fábio Sakuray. II. Universi-dade Estadual de Londrina. III. Ciência da Computação. IV. Algoritmos para aestimação da frequência fundamental

CDU 02:141:005.7

Page 5: VINÍCIUSQUINTALDALTER€¦ · uma perda de diversos outros. Nesse caso, assumindo que todos os harmônicos parciais possuem amplitudes aproximadamente iguais, podemos apresentar

VINÍCIUS QUINTAL DALTER

ALGORITMOS PARA A ESTIMAÇÃO DA FREQUÊNCIAFUNDAMENTAL

Trabalho de Conclusão de Curso apresentadoao curso de Bacharelado em Ciência da Com-putação da Universidade Estadual de Lon-drina para obtenção do título de Bacharel emCiência da Computação.

BANCA EXAMINADORA

Prof. Dr. Fábio SakurayUniversidade Estadual de Londrina

Orientador

Prof. Dr. Lucas Dias Hiera SampaioUniversidade Estadual de Londrina

Prof. Dr. Adilson Luiz BonifácioUniversidade Estadual de Londrina

Londrina–PR, 23 de Fevereiro de 2016

Page 6: VINÍCIUSQUINTALDALTER€¦ · uma perda de diversos outros. Nesse caso, assumindo que todos os harmônicos parciais possuem amplitudes aproximadamente iguais, podemos apresentar
Page 7: VINÍCIUSQUINTALDALTER€¦ · uma perda de diversos outros. Nesse caso, assumindo que todos os harmônicos parciais possuem amplitudes aproximadamente iguais, podemos apresentar

Este trabalho é dedicado a todos que estiveram presentes em algum momento de minhavida.

Page 8: VINÍCIUSQUINTALDALTER€¦ · uma perda de diversos outros. Nesse caso, assumindo que todos os harmônicos parciais possuem amplitudes aproximadamente iguais, podemos apresentar
Page 9: VINÍCIUSQUINTALDALTER€¦ · uma perda de diversos outros. Nesse caso, assumindo que todos os harmônicos parciais possuem amplitudes aproximadamente iguais, podemos apresentar

AGRADECIMENTOS

Agradeço primeiramente aos meus pais e familiares por todo suporte que me deramem todas as etapas da minha vida.

Agradeço também ao meu orientador, professor Fábio Sakuray, e todos os outrosprofessores pelos ensinamentos nessa área tão vasta que é a computação.

Por último, mas não menos importante, agradeço a todos os meus amigos quenão só me ajudaram em assuntos acadêmicos, como também estiveram presentes nosmomentos de descontração, momentos que se fazem importantes para aguentar a vidaacadêmica. Agradeço especialmente ao Kelvin, Isabella, Cintia, Rafael, Vinicius e aosmembros da Lolloteria.

Page 10: VINÍCIUSQUINTALDALTER€¦ · uma perda de diversos outros. Nesse caso, assumindo que todos os harmônicos parciais possuem amplitudes aproximadamente iguais, podemos apresentar
Page 11: VINÍCIUSQUINTALDALTER€¦ · uma perda de diversos outros. Nesse caso, assumindo que todos os harmônicos parciais possuem amplitudes aproximadamente iguais, podemos apresentar

“A grade is an inadequate report of an inaccurate judgment by a biased and variablejudge of the extent to which a student has attained an undefined level of mastery of an

unknown proportion of an indefinite material (Paul Dressel)

Page 12: VINÍCIUSQUINTALDALTER€¦ · uma perda de diversos outros. Nesse caso, assumindo que todos os harmônicos parciais possuem amplitudes aproximadamente iguais, podemos apresentar
Page 13: VINÍCIUSQUINTALDALTER€¦ · uma perda de diversos outros. Nesse caso, assumindo que todos os harmônicos parciais possuem amplitudes aproximadamente iguais, podemos apresentar

DALTER, V. Q.. Algoritmos para a estimação da frequência fundamental. 36 p.Trabalho de Conclusão de Curso (Bacharelado em Ciência da Computação) – UniversidadeEstadual de Londrina, Londrina–PR, 2016.

RESUMO

A identificação de locutor é uma importante ferramenta, podendo ser utilizada em diver-sas aplicações, seja na área de entretenimento ou até mesmo para soluções forenses. Umadas técnicas que possuem melhores resultados são baseados na estimação da frequênciafundamental, propriedade essa, que também auxilia na identificação de melodias musi-cais. Esse trabalho tem como objetivo apresentar um levantamento sobre a estimação dafrequência fundamental de sinais, apresentando diferentes algoritmos e seus desempenhos.

Palavras-chave: Frequência Fundamental, análise de sinais, pitch

Page 14: VINÍCIUSQUINTALDALTER€¦ · uma perda de diversos outros. Nesse caso, assumindo que todos os harmônicos parciais possuem amplitudes aproximadamente iguais, podemos apresentar
Page 15: VINÍCIUSQUINTALDALTER€¦ · uma perda de diversos outros. Nesse caso, assumindo que todos os harmônicos parciais possuem amplitudes aproximadamente iguais, podemos apresentar

DALTER, V. Q.. Algorithms for fundamental frequency estimation. 36 p. Fi-nal Project (Bachelor of Science in Computer Science) – State University of Londrina,Londrina–PR, 2016.

ABSTRACT

Speaker recognition is an important tool which may be used in various applications, eitherin the entertainment area or even for forensic solutions. One of the techniques that havebetter results are based on the estimation of the fundamental frequency, this propertyalso helps to identify musical melodies. This work aims at presenting a review on theestimation of the fundamental frequency of a signal, introducing different algorithms andtheir performance.

Keywords: Fundamental Frequency, signal analysis, pitch

Page 16: VINÍCIUSQUINTALDALTER€¦ · uma perda de diversos outros. Nesse caso, assumindo que todos os harmônicos parciais possuem amplitudes aproximadamente iguais, podemos apresentar
Page 17: VINÍCIUSQUINTALDALTER€¦ · uma perda de diversos outros. Nesse caso, assumindo que todos os harmônicos parciais possuem amplitudes aproximadamente iguais, podemos apresentar

LISTA DE ILUSTRAÇÕES

Figura 1 – Arquivo de áudio, utilizado nos testes, representado no domínio do tempo. 24Figura 2 – Espectrograma do arquivo de áudio utilizado nos testes . . . . . . . . . 24Figura 3 – Arquivo de áudio Oboe-A4.wav após aplicado autocorrelação. . . . . . 26Figura 4 – Arquivo de áudio Oboe-A4.wav após aplicação da equação 2.2. . . . . . 26Figura 5 – Arquivo de áudio Oboe-A4.wav após aplicação da equação 2.3. . . . . . 27Figura 6 – Para o cálculo do erro total temos primeiro o cálculo do erro parcial

entre o harmônico parcial e o mais próximo harmônico previsto consi-derando os intervalos de tempo contidos em (a) gerando então Err𝑚𝑝

e para (b) o cálculo do erro parcial entre o harmônico previsto e omais próximo harmônico parcial gerando Err𝑝𝑚. O erro total to TWMé obtido após uma combinação ponderada dos dois erros parciais [1]. . 29

Figura 7 – Arquivo de áudio oboe-A4.wav após aplicação do TWM. . . . . . . . . 30Figura 8 – Estágios da análise cepstral do áudio oboe-A4.wav. Em a) temos a

forma de onda no domínio do tempo, b) no domínio da frequência, c)aplicado o 𝑙𝑜𝑔 sob o espectro de b) e finalmente em d) o cepstrum apósa aplicação da transformada de Fourier. . . . . . . . . . . . . . . . . . 31

Page 18: VINÍCIUSQUINTALDALTER€¦ · uma perda de diversos outros. Nesse caso, assumindo que todos os harmônicos parciais possuem amplitudes aproximadamente iguais, podemos apresentar
Page 19: VINÍCIUSQUINTALDALTER€¦ · uma perda de diversos outros. Nesse caso, assumindo que todos os harmônicos parciais possuem amplitudes aproximadamente iguais, podemos apresentar

LISTA DE TABELAS

Tabela 1 – Exemplo do cálculo de erro após aplicação do TWM [2]. . . . . . . . . 28Tabela 2 – Testes realizados em diferentes arquivos de sons, aplicando diferentes

algoritmos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33Tabela 3 – Erros calculados pela diferença entre a frequência fundamental espe-

rada e o valor retornado pelos algoritmos. . . . . . . . . . . . . . . . . 33

Page 20: VINÍCIUSQUINTALDALTER€¦ · uma perda de diversos outros. Nesse caso, assumindo que todos os harmônicos parciais possuem amplitudes aproximadamente iguais, podemos apresentar
Page 21: VINÍCIUSQUINTALDALTER€¦ · uma perda de diversos outros. Nesse caso, assumindo que todos os harmônicos parciais possuem amplitudes aproximadamente iguais, podemos apresentar

SUMÁRIO

1 INTRODUÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

2 ESTIMAÇÃO DA FREQUÊNCIA FUNDAMENTAL . . . . . 232.1 Métodos baseados no domínio do tempo . . . . . . . . . . . . . 252.1.1 Autocorrelação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 252.1.2 YIN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 252.2 Métodos baseados no domínio da frequência . . . . . . . . . . . 272.2.1 TWM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 272.2.2 Análise cepstral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

3 CONCLUSÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

REFERÊNCIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

Page 22: VINÍCIUSQUINTALDALTER€¦ · uma perda de diversos outros. Nesse caso, assumindo que todos os harmônicos parciais possuem amplitudes aproximadamente iguais, podemos apresentar
Page 23: VINÍCIUSQUINTALDALTER€¦ · uma perda de diversos outros. Nesse caso, assumindo que todos os harmônicos parciais possuem amplitudes aproximadamente iguais, podemos apresentar

21

1 INTRODUÇÃO

A estimação da frequência fundamental (𝑓0) tem um importante papel quandoaplicada à identificação de locutores ou até mesmo na identificação da melodia de umamúsica. A 𝑓0 é considerada o parâmetro mais promissor e conhecido em meio às pesqui-sas de identificação de locutores [3], em razão disso, é oportuno o estudo de diferentesalgoritmos que estimem a frequência fundamental.

Os termos frequência fundamental e pitch são utilizados muitas vezes erroneamentena literatura, fazendo-se necessário um entendimento de forma clara.

A frequência fundamental, é definida como a menor frequência de uma onda pe-riódica, sendo o inverso de seu período, obtida por 𝑓0 = 1/𝑇0, sendo 𝑇0 o período [4].Partindo-se da frequência fundamental, podemos gerar diversas outras frequências, múl-tiplas de determinada 𝑓0, sendo conhecidas como harmônicas de 𝑓0. Quando aplicada noestudo da voz, por exemplo, a 𝑓0 é resultante da vibração das pregas vocais, indicandovariações entre sons agudos e graves e também de sua intensidade [5]. Durante a fala,a variação da 𝑓0 gera também uma variação melódica, sendo responsável por produzira entonação de uma frase, podendo ser identificada como afirmação ou interrogação porexemplo [6].

O pitch é o correlato perceptual da frequência fundamental, ou seja, é a impressãoauditiva da sensação de sons graves e agudos [7]. Na música, elementos importantes comomelodia, harmonia e tonalidade possuem bases no pitch, sendo um importante aspectoperceptual para a separação de sons de diferentes fontes. Quando colocado em termos dafala, o pitch é considerado um vetor de prosódia e quando utilizado em linguagens tonais,também possuí informações silábicas [8].

Em diversos trabalhos é utilizado o termo detecção de pitch quando na verdadetrata-se de um algoritmo para estimação da 𝑓0 já que os resultados são em uma escala defrequência ao invés de uma escala de pitch. Muitos desses algoritmos não utilizam modelosperceptuais, técnica que seria necessária em um detector de pitch [9]. Dessa forma, nessepresente trabalho, a utilização do termo, estimação da 𝑓0, é mais apropriado.

Dentre diversas aplicações, destaca-se a utilização de ferramentas para identifica-ção de locutores por meio da 𝑓0, na área forense, podendo ser utilizada para a identificaçãode um determinado criminoso, auxiliando na solução de casos. Essa identificação ainda éfeita, muitas vezes, utilizando um perito que ouvirá uma determinada gravação e tentaráidentificar se é ou não a voz de um possível suspeito[5].

O objetivo principal desse trabalho é a apresentação de um levantamento sobrefrequência fundamental em sinais. Esse levantamento apresentará técnicas (algoritmos)

Page 24: VINÍCIUSQUINTALDALTER€¦ · uma perda de diversos outros. Nesse caso, assumindo que todos os harmônicos parciais possuem amplitudes aproximadamente iguais, podemos apresentar

22

para estimação da 𝑓0, descrevendo seu funcionamento e possíveis problemas.

O presente trabalho foi estruturado como segue: o capítulo 2 apresenta exemplosda aplicação de estimadores da 𝑓0, além de apresentar métodos para estimação da 𝑓0 eseus resultados, dividido em duas seções que distinguem os métodos no domínio do tempoe no domínio da frequência. No capítulo 3 temos a conclusão do trabalho.

Page 25: VINÍCIUSQUINTALDALTER€¦ · uma perda de diversos outros. Nesse caso, assumindo que todos os harmônicos parciais possuem amplitudes aproximadamente iguais, podemos apresentar

23

2 ESTIMAÇÃO DA FREQUÊNCIA FUNDAMENTAL

Estimar a frequência fundamental de um sinal de forma automática é uma im-portante ferramenta e são diversas suas aplicações, sendo um tópico importante e aindaexplorado hoje em dia. Um dos problemas encontrados nos últimos anos é a criação deum estimador que possa ser aplicado em qualquer contexto, seja em um áudio apenas comfala ou em uma música. Por isso, um estimador de 𝑓0 desenvolvido para música talveznão tenha bons resultados quando utilizado em um áudio que contém apenas fala [9].

Kremer et al. [5] fazem uma análise de como a alteração da frequência fundamentalem vozes femininas pode ser um bom artifício para o disfarce de voz. Na área forense, a𝑓0 é amplamente utilizada na identificação de falantes, sendo necessário boas ferramentaspara se determinar as frequências da fala de um determinado emissor. Essa ferramentapoderia ser utilizada para se incriminar possíveis acusados comparando-se as frequênciasentre gravações do dia do crime e durante uma entrevista do acusado quando chamadoa depor, muitas vezes essa tarefa é realizada por peritos que se utilizam apenas de suapercepção auditiva para fazer uma análise da fala.

Chao et al. [10] propõem um algoritmo para extrair a 𝑓0 apenas da voz presente emuma música, desconsiderando os instrumentos ou quaisquer outros elementos presentes noáudio. Determinando as frequências de um cantor durante um áudio, é possível gerar acurva da frequência fundamental, sendo essa a melodia da música. Com um bom algoritmopara a estimação da 𝑓0 seria possível uma identificação de cantores, separação da voz eextração da letra da música de forma automática.

As técnicas para estimação da 𝑓0 podem ser separadas em quatro categorias demétodos:

∙ Domínio do tempo

∙ Domínio da frequência

∙ Domínio do tempo e frequência

∙ Métodos estatísticos

Para exemplificar cada um dos métodos, serão apresentados os resultados obtidoscom o processamento de um arquivo contendo o áudio de um instrumento musical, Oboe-A4.wav, tendo uma frequência fundamental de 440Hz. Neste trabalho serão analisados osmétodos no domínio do tempo e no domínio da frequência. Para a implementação dosalgoritmos e geração dos gráficos e espectrogramas, foi utilizado o Octave1. A figura 11 https://www.gnu.org/software/octave/ (Acessado em fevereiro de 2016)

Page 26: VINÍCIUSQUINTALDALTER€¦ · uma perda de diversos outros. Nesse caso, assumindo que todos os harmônicos parciais possuem amplitudes aproximadamente iguais, podemos apresentar

24

ilustra um trecho do arquivo de áudio no domínio do tempo, já a figura 2 apresenta oespectrograma do áudio analisado, ilustrando a frequência fundamental entre 400Hz e500Hz.

Figura 1 – Arquivo de áudio, utilizado nos testes, representado no domínio do tempo.

Figura 2 – Espectrograma do arquivo de áudio utilizado nos testes

Page 27: VINÍCIUSQUINTALDALTER€¦ · uma perda de diversos outros. Nesse caso, assumindo que todos os harmônicos parciais possuem amplitudes aproximadamente iguais, podemos apresentar

25

2.1 Métodos baseados no domínio do tempo

Uma das formas mais simples de estimação da 𝑓0 e também uma das mais antigas,é utilizando uma abordagem onde a forma de onda é representada sob a visão da mudançada pressão do ar em relação ao tempo [9] [11].

2.1.1 Autocorrelação

Em um processo de correlação, as formas de onda são comparadas em diferentesintervalos de tempo, sendo então calculada suas similaridades, podendo então se definir acorrelação entre duas formas de onda como uma medida de quão similares elas são entre siaplicando-se um valor de atraso (𝜏). Quando falamos autocorrelação, aplicamos o processode correlação entre uma onda e ela mesmo. Sendo representada matematicamente naEquação 2.1, para uma função discreta finita, 𝑥[𝑛], de tamanho 𝑁 . Na autocorrelação se éesperado total similaridade quando o valor de 𝜏 é igual a zero, e uma maior dissimilaridadeconforme seu incremento [9]. No método de autocorrelação, após uma exaustiva buscadentre uma variação de 𝜏 , se é escolhido o maior pico para um valor de 𝜏 diferente dezero. Um dos problemas da autocorrelação é que também são identificados alguns picos queocorrem em sub-harmônicos, dificultando então a identificação do real pico que representaa frequência fundamental [4].

𝑅𝑥(𝜏) =𝑁−1−𝜏∑︁

𝑛=0𝑥[𝑛]𝑥[𝑛 + 𝜏 ] (2.1)

A figura 3 apresenta a autocorrelação existente no áudio Oboe-A4.wav. Os pontosmarcados com asteriscos (*), delimitam os ciclos com Δ𝑡 ≈ 0.002267segs, assim: 𝑓0 =1

Δ𝑡= 1

0.002267 ≈ 441Hz.

2.1.2 YIN

O estimador YIN, um dos mais populares no momento, recebe esse nome com basena filosofia oriental yin-yang. Seu objetivo é tentar corrigir alguns problemas da autocor-relação, como a identificação de picos de sub-harmônicos como candidatos a frequênciafundamental [4] [12].

O método de autocorrelação, onde são identificados picos através da variação dosatrasos, podem selecionar erroneamente picos quando o valor de 𝜏 utilizado é próximo a 0.Para evitar esses erros, os autores utilizam a diferença entre elementos, como apresentadona equação 2.2, buscando por valores de 𝜏 para o qual a equação é zero [4]. Como exemplo,

Page 28: VINÍCIUSQUINTALDALTER€¦ · uma perda de diversos outros. Nesse caso, assumindo que todos os harmônicos parciais possuem amplitudes aproximadamente iguais, podemos apresentar

26

Figura 3 – Arquivo de áudio Oboe-A4.wav após aplicado autocorrelação.

a figura 4 ilustra a aplicação da equação 2.2 no arquivo oboe-A4.wav.

𝑑𝑡(𝜏) =𝑊∑︁

𝑗=1(𝑥[𝑗] − 𝑥[𝑗 + 𝜏 ])2 (2.2)

Figura 4 – Arquivo de áudio Oboe-A4.wav após aplicação da equação 2.2.

Pode-se reparar que na figura 4, quando temos 𝜏=0, a função diferença apresenta

Page 29: VINÍCIUSQUINTALDALTER€¦ · uma perda de diversos outros. Nesse caso, assumindo que todos os harmônicos parciais possuem amplitudes aproximadamente iguais, podemos apresentar

27

valor zero. Para evitar erros dessa natureza, os autores utilizam a média normalizada dafunção diferença, dada pela equação 2.3. A figura 5 ilustra a aplicação da equação 2.3 noarquivo oboe-A4.wav, obtendo 𝑓0 = 436.

𝑑′𝑡(𝜏) =

⎧⎨⎩ 1 se 𝜏 = 0𝑑𝑡(𝜏)/

[︁(1/𝜏) ∑︀𝜏

𝑗=1 𝑑𝑡(𝑗)]︁

se 𝜏 ̸= 0(2.3)

Figura 5 – Arquivo de áudio Oboe-A4.wav após aplicação da equação 2.3.

2.2 Métodos baseados no domínio da frequência

Uma outra forma de obtenção da 𝑓0 leva em consideração as informações obtidas nodomínio da frequência, onde temos a frequência em relação a sua amplitude. Nesse grupode métodos temos o conceito de que, se dado sinal é considerado periódico no domíniodo tempo, então será representado por diversos impulsos sob a frequência fundamental eseus harmônicos, no domínio da frequência [13]. A seguir serão apresentados os métodosTWM e o baseado na análise cepstral.

2.2.1 TWM

O estimador TWM (Two Way-Mismatch), foi desenvolvido com o propósito deser utilizado em sons monofônicos, ou seja, se levado ao campo da fala, quando o som égerado por apenas um único emissor, ou para situações com polifônicos simples, segundoos autores, no caso de um dueto, por exemplo. Esse estimador, é um melhoramento da

Page 30: VINÍCIUSQUINTALDALTER€¦ · uma perda de diversos outros. Nesse caso, assumindo que todos os harmônicos parciais possuem amplitudes aproximadamente iguais, podemos apresentar

28

técnica proposta por Maher [14], tentando evitar os problemas em sinais contendo ruídose reverberações.

Nesse estimador, é aplicado a transformada de Fourier de tempo curto, utilizandouma janela de tamanho fixo, normalmente de 46 ms. A cada intervalo de tempo, normal-mente 5.8 ms, se é obtido a magnitude do pico espectral (harmônicos parciais) e entãoaplicado o processo de TWM. Para estimar a 𝑓0 é feita a comparação entre os harmônicosparciais, obtidos anteriormente com a aplicação da transformada de Fourier, e sequên-cias previstas de harmônicos parciais baseadas em valores de tentativa de 𝑓0. A partirdessa comparação, é calculado o valor de discrepância entre os harmônicos parciais e osharmônicos previstos [1].

Como forma de exemplo, se considerarmos uma sequência de harmônicos parci-ais {200,300,500,600,700,800}Hz e se quisermos determinar dentre 50Hz, 100Hz e 200Hzqual melhor representa a 𝑓0, se usarmos 𝑓0 = 50Hz, teríamos como harmônicos pre-vistos a sequência {50,100,150,200,250,300,350, ... , 800}, contendo todos os valores dasequência de harmônicos parciais, porém também tendo diversos valores fora desse escopocomo por exemplo {50,100,150,250...}. Considerando 𝑓0 = 100Hz, os harmônicos previs-tos seriam {100,200,300,400,500,600,700,800}, contendo apenas dois valores diferentes dosharmônicos parciais {100,400}. Tomando 𝑓0 = 200Hz, temos como harmônicos previstos{200,400,600,800}, mesmo prevendo alguns harmônicos corretamente, também se teveuma perda de diversos outros. Nesse caso, assumindo que todos os harmônicos parciaispossuem amplitudes aproximadamente iguais, podemos apresentar os resultados na Ta-bela 1, após a aplicação do TWM, tendo 𝑓0 = 100Hz o menor erro total, determinandoentão que a 𝑓0 nesse caso é igual a 100Hz [1][2].

Para o cálculo do erro total, é necessário dois erros parciais, obtidos pelas equações2.4 e 2.5, sendo 𝐾 o número de harmônicos parciais obtidos, 𝐴𝑚𝑎𝑥 a maior amplitudeobtida e 𝑁 sendo o menor inteiro maior que a divisão entre a frequência máxima obtida,dentre os harmônicos parciais, e a frequência de tentativa para 𝑓0, além disso, os valoresde p,q e r são fixados em 0.5, 1.4 e 0.5, respectivamente. Temos o cálculo do erro baseadona diferença entre os harmônicos parciais e o mais próximo harmônico vizinho dentre osharmônicos previstos, e vice-versa, sendo melhor visualizado na Figura 6. Após isso, oerro total é calculado pela equação 2.6, onde temos 𝜌 = 0.33. O menor valor de erro totaldetermina o valor de 𝑓0 [1].

Tabela 1 – Exemplo do cálculo de erro após aplicação do TWM [2].

Err𝑝→𝑚 Err𝑚→𝑝 Err50 Hz 122.58 -3.0 7.49100 Hz 32.0 -3.0 3.83200 Hz 10.0 30.66 4.2

Page 31: VINÍCIUSQUINTALDALTER€¦ · uma perda de diversos outros. Nesse caso, assumindo que todos os harmônicos parciais possuem amplitudes aproximadamente iguais, podemos apresentar

29

Figura 6 – Para o cálculo do erro total temos primeiro o cálculo do erro parcial entreo harmônico parcial e o mais próximo harmônico previsto considerando osintervalos de tempo contidos em (a) gerando então Err𝑚𝑝 e para (b) o cálculodo erro parcial entre o harmônico previsto e o mais próximo harmônico parcialgerando Err𝑝𝑚. O erro total to TWM é obtido após uma combinação ponderadados dois erros parciais [1].

𝐸𝑟𝑟𝑝→𝑚 =𝑁∑︁

𝑛=1Δ𝑓𝑛 · (𝑓𝑛)−𝑝 +

(︂𝑎𝑛

𝐴𝑚𝑎𝑥

)︂×

[︁𝑞Δ𝑓𝑛 · (𝑓𝑛)−𝑝 − 𝑟

]︁(2.4)

𝐸𝑟𝑟𝑚→𝑝 =𝐾∑︁

𝑘=1Δ𝑓𝑘 · (𝑓𝑘)−𝑝 +

(︂𝑎𝑘

𝐴𝑚𝑎𝑥

)︂×

[︁𝑞Δ𝑓𝑘 · (𝑓𝑘)−𝑝 − 𝑟

]︁(2.5)

𝐸𝑟𝑟𝑡𝑜𝑡𝑎𝑙 = 𝐸𝑟𝑟𝑝→𝑚

𝑁+ 𝜌𝐸𝑟𝑟𝑚→𝑝

𝐾(2.6)

A figura 7 ilustra a aplicação do TWM no arquivo oboe-A4.wav, onde a frequênciafundamental retornada é 440Hz.

2.2.2 Análise cepstral

A análise cepstral foi criada originalmente considerando sua utilização em sinais defala. É tida como uma forma de análise espectral, sendo demonstrada após a transformadade Fourier do 𝑙𝑜𝑔 do espectro de entrada da forma de onda. Ao invés de se dizer que oestudo é feito no domínio da frequência, segundo os autores, a análise cepstral ocorre no

Page 32: VINÍCIUSQUINTALDALTER€¦ · uma perda de diversos outros. Nesse caso, assumindo que todos os harmônicos parciais possuem amplitudes aproximadamente iguais, podemos apresentar

30

Figura 7 – Arquivo de áudio oboe-A4.wav após aplicação do TWM.

quefrency domain. O cálculo do 𝑙𝑜𝑔 aparece como alternativa para linearizar um sistemanão-linear, além de auxiliar na redução dos picos, escalando a amplitude de uma formapara uma melhor visualização das periodicidades. A frequência fundamental é dada pelomais alto pico no cepstrum [9][15].

A utilização da análise cepstral para a estimação da frequência fundamental em si-nais de fala é considerado efetivo pela possibilidade, utilizando a propriedade do 𝑙𝑜𝑔(𝑎𝑏) =𝑙𝑜𝑔(𝑎)+𝑙𝑜𝑔(𝑏), separar as informações que são consideradas como frequência fundamental,das formantes, outra propriedade presente nos sinais de fala [15] [11]. Na figura 8 podemosconferir o progresso nos quatro estágios da análise cepstral aplicado no arquivo de áudiooboe-A4.wav. O primeiro ponto marcado com asteriscos (*), contém o período do sinal,nesse caso, 𝑇 ≈ 0.00229segs, assim: 𝑓0 = 1

𝑇= 1

0.00229 ≈ 437Hz.

Page 33: VINÍCIUSQUINTALDALTER€¦ · uma perda de diversos outros. Nesse caso, assumindo que todos os harmônicos parciais possuem amplitudes aproximadamente iguais, podemos apresentar

31

Figura 8 – Estágios da análise cepstral do áudio oboe-A4.wav. Em a) temos a forma deonda no domínio do tempo, b) no domínio da frequência, c) aplicado o 𝑙𝑜𝑔 sob oespectro de b) e finalmente em d) o cepstrum após a aplicação da transformadade Fourier.

Page 34: VINÍCIUSQUINTALDALTER€¦ · uma perda de diversos outros. Nesse caso, assumindo que todos os harmônicos parciais possuem amplitudes aproximadamente iguais, podemos apresentar
Page 35: VINÍCIUSQUINTALDALTER€¦ · uma perda de diversos outros. Nesse caso, assumindo que todos os harmônicos parciais possuem amplitudes aproximadamente iguais, podemos apresentar

33

3 CONCLUSÃO

O trabalho apresentou alguns dos algoritmos utilizados para detecção da frequênciafundamental, permitindo sua utilização em diversos tipos de aplicações. Além dos testesrealizados com o arquivo oboe-A4, aplicamos os algoritmos em outros dois arquivos desom, os resultados obtidos, bem como a 𝑓0 esperada, podem ser observados na Tabela2. Na Tabela 3, temos o erro entre a frequência fundamental esperada e a obtida pelosalgoritmos. Reforçamos a dificuldade de se definir o melhor algoritmo, tendo uma grandediferença entre os erros obtidos em cada arquivo diferente de áudio.

Tabela 2 – Testes realizados em diferentes arquivos de sons, aplicando diferentes algorit-mos.

Autocorrelação YIN TWM Cepstral 𝑓0 esperadaoboe-A4 441 436 440 437 440violin-E5 668 649 660 649 659organ-C4 261 294 296 258 261

Tabela 3 – Erros calculados pela diferença entre a frequência fundamental esperada e ovalor retornado pelos algoritmos.

Autocorrelação YIN TWM Cepstraloboe-A4 1 4 0 3violin-E5 9 10 1 10organ-C4 0 33 35 3

Outro ponto que merece destaque está no levantamento necessário para desenvol-vimento desse trabalho, com as técnicas para processamento de sinais digitais.

Como trabalhos futuros, pode-se estender a pesquisa considerando os métodos nãoaplicados nesse trabalho, como as presentes em ambos os domínios, tempo e frequência,além de métodos estatísticos, bem como a inclusão de testes com amostras de voz.

Page 36: VINÍCIUSQUINTALDALTER€¦ · uma perda de diversos outros. Nesse caso, assumindo que todos os harmônicos parciais possuem amplitudes aproximadamente iguais, podemos apresentar
Page 37: VINÍCIUSQUINTALDALTER€¦ · uma perda de diversos outros. Nesse caso, assumindo que todos os harmônicos parciais possuem amplitudes aproximadamente iguais, podemos apresentar

35

REFERÊNCIAS

[1] MAHER, R. C.; BEAUCHAMP, J. W. Fundamental frequency estimation of musicalsignals using a two-way mismatch procedure. The Journal of the Acoustical Societyof America, Acoustical Society of America, v. 95, n. 4, p. 2254–2263, 1994.

[2] CANO, P. Fundamental frequency estimation in the sms analysis. In: CITESEER.Proceedings of the Digital Audio Effects Workshop (DAFX98). [S.l.], 1998.

[3] KÜNZEL, H. J. Effects of voice disguise on speaking fundamental frequency.International Journal of Speech Language and the Law, v. 7, n. 2, p. 150–179, 2007.

[4] CHEVEIGNÉ, A. D.; KAWAHARA, H. Yin, a fundamental frequency estimatorfor speech and music. The Journal of the Acoustical Society of America, AcousticalSociety of America, v. 111, n. 4, p. 1917–1930, 2002.

[5] KREMER, R. L.; GOMES, M. L. d. C. A eficiência do disfarce em vozes femininas:uma análise da frequência fundamental. ReVEL, v. 12, n. 23, 2014.

[6] OLIVEIRA, J. S. N.; PACHECO, V.; OLIVEIRA, M. Análise perceptual das frasesexclamativas e interrogativas realizadas por falantes de vitória da conquista/ba.Signum: Estudos da Linguagem, v. 17, n. 2, p. 354–388, 2014.

[7] BRAID, A. C. M. Fonética Forense: tratado de perícias criminalísticas. [S.l.]:Millennium, 2003. 51 p. ISBN 85-86833-91-6.

[8] CHEVEIGNÉ, A. de. Oxford university press handbook of auditory science -auditory perception. Oxford University Press, p. 71–121, 2010. Disponível em:<http://audition.ens.fr/adc/pdf/2010_Pitch_OUPHAS.pdf>.

[9] GERHARD, D. Pitch extraction and fundamental frequency: History and currenttechniques. [S.l.]: Regina: Department of Computer Science, University of Regina,2003.

[10] HSU, C.-L.; WANG, D.; JANG, J.-S. A trend estimation algorithm for singingpitch detection in musical recordings. In: Acoustics, Speech and Signal Processing(ICASSP), 2011 IEEE International Conference on. [S.l.: s.n.], 2011. p. 393–396.ISSN 1520-6149.

[11] MARKEL, J. D. The sift algorithm for fundamental frequency estimation. Audioand Electroacoustics, IEEE Transactions on, IEEE, v. 20, n. 5, p. 367–377, 1972.

[12] BABACAN, O. et al. A comparative study of pitch extraction algorithms on alarge variety of singing sounds. In: IEEE. Acoustics, Speech and Signal Processing(ICASSP), 2013 IEEE International Conference on. [S.l.], 2013. p. 7815–7819.

[13] RABINER, L. et al. A comparative performance study of several pitch detectionalgorithms. Acoustics, Speech and Signal Processing, IEEE Transactions on, v. 24,n. 5, p. 399–418, Oct 1976. ISSN 0096-3518.

Page 38: VINÍCIUSQUINTALDALTER€¦ · uma perda de diversos outros. Nesse caso, assumindo que todos os harmônicos parciais possuem amplitudes aproximadamente iguais, podemos apresentar

36

[14] MAHER, R. C. Evaluation of a method for separating digitized duet signals.Journal of the Audio Engineering Society, Audio Engineering Society, v. 38, n. 12,p. 956–979, 1990.

[15] OPPENHEIM, A.; SCHAFER, R. From frequency to quefrency: a history of thecepstrum. Signal Processing Magazine, IEEE, v. 21, n. 5, p. 95–106, Sept 2004. ISSN1053-5888.