USO DE PARÂMETROS MULTIFRACTAIS NO RECONHECIMENTO … · 2013-01-16 · Julio, Kobi, Bernardo,...

View
1
Download
0
Category

Documents

Preview:

Citation preview

Universidade Estadual de Campinas

Faculdade de Engenharia Elétrica e de Computação

Departamento de Comunicações

USO DE PARÂMETROS MULTIFRACTAIS NO

RECONHECIMENTO DE LOCUTOR

Autor(a): Diana Cristina González González

Orientador: Prof. Dr. Lee Luan Ling

Co-Orientador: Prof. Dr. Fábio Violaro

Tese de Mestrado apresentada à Faculdade de Engenharia

Elétrica e de Computação como parte dos requisitos para a

obtenção do título de Mestre em Engenharia Elétrica. Área

de concentração: Telecomunicações e Telemática.

Banca Examinadora

Prof. Dr. Lee Luan Ling ― DECOM/FEEC/UNICAMP

Prof. Dr. Aldebaro Barreto da Rocha Klautau Junior―UFPA

Prof. Dr. Romis Ribeiro de Faissol Attux― DCA/FEEC/UNICAMP

Campinas – SP

30 Setembro 2011

FICHA CATALOGRÁFICA ELABORADA PELA

BIBLIOTECA DA ÁREA DE ENGENHARIA E ARQUITETURA - BAE - UNICAMP

G589u

González González, Diana Cristina

Uso de parâmetros multifractais no reconhecimento

de locutor / Diana Cristina González González. --

Campinas, SP: [s.n.], 2011.

Orientadores: Lee Luan Ling , Fábio Violaro.

Dissertação de Mestrado - Universidade Estadual de

Campinas, Faculdade de Engenharia Elétrica e de

Computação.

1. Multifractal. 2. Reconhecimento automático da

voz. 3. Gaussian distribution. 4. Sistema de

processamento da fala. I. Ling, Lee Luan. II. Violaro,

Fábio . III. Universidade Estadual de Campinas.

Faculdade de Engenharia Elétrica e de Computação. IV.

Título.

Título em Inglês: Use of multifractal parameters for speaker recognition

Palavras-chave em Inglês: Multifractal, Automatic speech recognition, Gaussian

distribution, Speech processing system

Área de concentração: Telecomunicações e Telemática

Titulação: Mestre em Engenharia Elétrica

Banca examinadora: Aldebaro Barreto da Rocha Klautau Junior, Romis Ribeiro

de Faissol Attux

Data da defesa: 30-09-2011

Programa de Pós Graduação: Engenharia Elétrica

iii

Resumo

Esta dissertação apresenta a implementação de um sistema de Reconhecimento

Automático de Locutor (ASR). Este sistema emprega um novo parâmetro de características de

locutor baseado no modelo multifractal "VVGM" (Variable Variance Gaussian Multiplier). A

metodologia adotada para o desenvolvimento deste sistema foi formulada em duas etapas.

Inicialmente foi implementado um sistema ASR tradicional, usando como vetor de

características os MFCCs (Mel-Frequency Cepstral Coefficients) e modelo de mistura gaussiana

(GMM) como classificador, uma vez que é uma configuração clássica, adotada como referência

na literatura. Este procedimento permite ter um conhecimento amplo sobre a produção de sinais

de voz, além de um sistema de referência para comparar o desempenho do novo parâmetro

VVGM. A segunda etapa foi dedicada ao estudo de processos multifractais em sinais de fala, já

que eles enfatizam-se na análise das informações contidas nas partes não estacionárias do sinal

avaliado. Aproveitando essa característica, sinais de fala são modelados usando o modelo

VVGM. Este modelo é baseado no processo de cascata multiplicativa binomial, e usa as

variâncias dos multiplicadores de cada estágio como um novo vetor de característica.

As informações obtidas pelos dois métodos são diferentes e complementares. Portanto, é

interessante combinar os parâmetros clássicos com os parâmetros multifractais, a fim de

melhorar o desempenho dos sistemas de reconhecimento de locutor.

Os sistemas propostos foram avaliados por meio de três bases de dados de fala com

diferentes configurações, tais como taxas de amostragem, número de falantes e frases e duração

do treinamento e teste. Estas diferentes configurações permitem determinar as características do

sinal de fala requeridas pelo sistema. Do resultado dos experimentos foi observado que o

sistema de identificação de locutor usando os parâmetros VVGM alcançou taxas de acerto

significativas, o que mostra que este modelo multifractal contém informações relevantes sobre a

identidade de cada locutor. Por exemplo, a segunda base de dados é composta de sinais de fala

de 71 locutores (50 homens e 21 mulheres) digitalizados a 22,05 kHz com 16 bits/amostra. O

treinamento foi feito com 20 frases para cada locutor, com uma duração total de cerca de 70 s.

Avaliando o sistema ASR baseado em VVGM, com locuções de teste de 3 s de comprimento, foi

obtida uma taxa de reconhecimento de 91,30%. Usando estas mesmas condições, o sistema ASR

baseado em MFCCs atingiu uma taxa de reconhecimento de 98,76%. No entanto, quando os dois

parâmetros foram combinados, a taxa de reconhecimento aumentou para 99,43%, mostrando

que a nova característica acrescenta informações importantes para o sistema de reconhecimento

de locutor.

Palavras-chave: ASR, VVGM, MFCCs, Multifractal, GMM, Cascata Multiplicativa.

vii

Abstract

This dissertation presents an Automatic Speaker Recognition (ASR) system, which

employs a new parameter based on the ‚VVGM‛ (Variable Variance Gaussian Multiplier)

multifractal model. The methodology adopted for the development of this system is formulated

in two stages. Initially, a traditional ASR system was implemented, based on the use of Mel-

Frequency Cepstral Coefficients (MFCCs) and the Gaussian mixture models (GMMs) as the

classifier, since it is the method with the best results in the literature. This procedure allows

having a broad knowledge about the production of speech signals and a reference system to

compare the performance of the new VVGM parameter. The second stage was dedicated to the

study of the multifractal processes for speech signals, given that with them, it is possible to

analyze information contained in non-stationary parts of the evaluated signal. Taking advantage

of this characteristic, speech signals are modeled using the VVGM model, which is based on the

binomial multiplicative cascade process, and uses the variances of multipliers for each state as a

new speech feature.

The information obtained by the two methods is different and complementary.

Therefore, it is interesting to combine the classic parameters with the multifractal parameters in

order to improve the performance of speaker recognition systems.

The proposed systems were evaluated using three databases with different settings, such

as sampling rates, number of speakers and phrases, duration of training and testing. These

different configurations allow the determination of characteristics of the speech signal required

by the system. With the experiments, the speaker identification system based on the VVGM

parameters achieved significant success rates, which shows that this multifractal model contains

relevant information of the identity of each speaker. For example, the second database is

composed of speech signals of 71 speakers (50 men and 21 women) digitized at 22.05 kHz with

16 bits/sample. The training was done with 20 phrases for each speaker, with an approximately

total duration of 70 s. Evaluating the ASR system based on VVGM, with this database and using

viii

test locutions with 3s of duration, it was obtained a recognition rate of 91.3%. Using these same

conditions, the ASR system based on MFCCs reached a recognition rate of 98.76%. However,

when the two parameters are combined, the recognition rate increased to 99.43%, showing that

the new feature adds substantial information to the speaker recognition system.

Keywords: ASR, VVGM, MFCCs, Multifractal, GMM, Multiplicative Cascade.

Aos meus pais Cesar e Diana

Aos meus irmãos Cesar, Ricardo e Camilo

Luka e Sofia.

Por ser o motor de minha vida

Agradecimentos

Ao Prof. Dr Lee Luan Ling pelo apoio, orientação e motivação incondicional durante

todo o trabalho.

Ao Prof. Dr Fábio Violaro pela acolhida e apoio, pela orientação e dedicação no trabalho,

e pelas inúmeras discussões e idéias.

A minha família pelo carinho e motivação constante, levando-me a ser melhor cada dia.

A Gustavo, Alice, Mitchell, Cesar, Duber, Miguel, Alejandro, Jefferson M, Luisa, Felipe,

Carlos, Fabio, Paul, Liz, Daniel, Andrés, Alexandre, Andrei, Juliana, pela amizade e paciência.

A meus colegas e amigos do laboratório LRPRC e da FEEC: Jeferson S, Ana, Daniel, José,

Julio, Kobi, Bernardo, Natasha, Victor, Carlos.

Aos membros da Banca pelas valiosas sugestões.

A Marcela, Sandra, German, Henry, Carlos, Enrique e a ‚Escuela Colombiana de

Ingeniería Julio Garavito‛ pelo apoio.

A CNPQ, pela concessão da bolsa.

A Deus, por cada minuto dado que juntos, possibilitam a realização de meus sonhos.

xii

xiii

Sumário

LISTA DE FIGURAS ......................................................................................................................................................XV

LISTA DE TABELAS ................................................................................................................................................... XVII

LISTA DE ABREVIAÇÕES ............................................................................................................................................ XIX

1 INTRODUÇÃO ..................................................................................................................................................... 21

1.1 OBJETIVOS ......................................................................................................................................................... 23

1.2 CONTEÚDO DA DISSERTAÇÃO ......................................................................................................................... 24

2 PROCESSOS MULTIFRACTAIS ............................................................................................................................ 27

2.1 FRACTAIS .......................................................................................................................................................... 27

2.2 PROCESSOS MULTIFRACTAIS ............................................................................................................................ 31

2.3 FORMALISMO MULTIFRACTAL ......................................................................................................................... 31

2.4 ESPECTRO MULTIFRACTAL .............................................................................................................................. 35

2.5 ESTIMAÇÃO DE CARACTERÍSTICAS MULTIFRACTAIS ...................................................................................... 38

3 MULTIFRACTAIS MULTIPLICATIVOS ................................................................................................................ 43

3.1 DEFINIÇÃO ....................................................................................................................................................... 44

3.2 CASCATA MULTIPLICATIVA BINOMIAL ........................................................................................................... 45

3.3 DERIVAÇÃO DO ESPECTRO MULTIFRACTAL .................................................................................................... 48

3.4 MODELO MULTIFRACTAL VVGM ................................................................................................................... 49

4 RECONHECIMENTO AUTOMÁTICO DE LOCUTOR ............................................................................................ 55

4.1 INTRODUÇÃO ................................................................................................................................................... 55

4.2 PRÉ-PROCESSAMENTO ..................................................................................................................................... 58

4.3 COEFICIENTES MEL-CEPTRAIS ......................................................................................................................... 58

4.4 PARÂMETROS ADICIONAIS ............................................................................................................................... 60

4.5 CLASSIFICADOR ................................................................................................................................................ 61

XIV SUMÁRIO

4.6 SISTEMA DE IDENTIFICAÇÃO DE LOCUTOR ...................................................................................................... 65

5 SISTEMA DESENVOLVIDO ................................................................................................................................. 67

5.1 MÓDULO DE EXTRAÇÃO DE PARÂMETROS ...................................................................................................... 68

5.2 MÓDULO DE TREINAMENTO ............................................................................................................................ 71

5.3 MÓDULO DE RECONHECIMENTO ..................................................................................................................... 72

5.4 FUSÃO DE SISTEMAS ......................................................................................................................................... 72

5.5 BASES DE DADOS .............................................................................................................................................. 75

6 ANÁLISE DA NATUREZA MULTIFRACTAL EM SINAIS DE FALA ...................................................................... 77

6.1 TESTES ............................................................................................................................................................... 78

6.2 DESLOCAMENTO VERSUS RETIFICAÇÃO .......................................................................................................... 90

7 TESTE E ANÁLISE DE RESULTADOS................................................................................................................... 95

7.1 AVALIAÇÃO DO DESEMPENHO ........................................................................................................................ 95

7.2 CARACTERÍSTICAS DOS PARÂMETROS VVGM ................................................................................................ 97

7.3 PRIMEIRO CONJUNTO DE TESTE: SISTEMA USANDO PARÂMETROS MFCCS E VVGM INDIVIDUALMENTE . 98

7.4 SEGUNDO CONJUNTO DE TESTE: SISTEMA DE IDENTIFICAÇÃO EMPREGANDO FUSÃO NO NÍVEL DE

PONTUAÇÃO DOS SISTEMAS VVGM E MFCCS .......................................................................................................... 99

7.5 TERCEIRO CONJUNTO DE TESTE: SISTEMA DE IDENTIFICAÇÃO EMPREGANDO FUSÃO NO NÍVEL DE

CARACTERÍSTICAS. .................................................................................................................................................... 100

7.6 ANÁLISE DOS RESULTADOS ........................................................................................................................... 103

8 CONCLUSÕES .................................................................................................................................................... 109

9 REFERÊNCIAS BIBLIOGRÁFICAS ...................................................................................................................... 113

Lista de Figuras

Figura 2.1 – Quatros estágios no desenvolvimento da curva de Koch. ............................................................. 28

Figura 2.2 – Exemplificação dos tipos de fractais (adaptado de (de Lima, 1998)). ........................................... 30

Figura 2.3 – Decomposição de expoentes locais de Hölder de um sinal multifractal. O eixo x representa o

tempo e as barras verticais (eixo-y) indicam expoentes locais de Hölder (Ivanov). ........................................ 33

Figura 2.4 – Estimação das funções τ(q) e c(q). .................................................................................................... 39

Figura 3.1 – Processo de construção da cascata binominal. ................................................................................ 46

Figura 3.2 – Diagrama do processo de estimação dos multiplicadores. ............................................................ 51

Figura 3.3 – Histograma estágio 2. .......................................................................................................................... 52

Figura 3.4 – Histograma estágio 3. .......................................................................................................................... 52

Figura 4.1– Processamento de fala (Campbell, J. 1997). ....................................................................................... 56

Figura 4.2 – Sistema de identificação de locutor convencional. O sistema seleciona o modelo do locutor

que tenha maior semelhança. .................................................................................................................................. 57

Figura 4.3 – Diagrama do processo de extração dos MFCCs. ............................................................................. 60

Figura 4.4 – Diagrama do sistema de identificação de locutor. .......................................................................... 66

Figura 5.1 – Diagrama de blocos do ASI misturando os parâmetros MFCCs e VVGM. ................................. 73

Figura 5.2 – Diagrama de blocos do ASI empregando fusão no nível de características. ............................... 74

Figura 6.1 – Função de Partição: (a e c); Função de escalonamento vrs : (b e d). ................................... 79

Figura 6.2 – Espectro de Legendre de segmentos das frases 2 e 3, iniciando na vogal ‚a‛: a. Um período de

pitch do fonema “a”, b. dois períodos de pitch do fonema “a”, c. 50ms, d. 100ms, e. 500ms. ....................... 85

Figura 6.3 – Espectro de Legendre de segmentos das frases 1 e 2, em torno das plosivas “t” e “b”. ............ 87

Figura 6.4 – Espectro de Legendre do fonema “f” da frase 1 e do fonema “x” da frase 3 para as escalas: a.

20ms, b. 50ms, c. 100ms e d. 200ms. ........................................................................................................................ 89

Figura 6.5 – Comparação do espectro multifractal de trecho de sinal de fala entre a faixa de escalas e.

200ms e f. 400ms. ....................................................................................................................................................... 94

Figura 7.1 – Histogramas dos multiplicadores para os estágios 2 e 3 de uma locução da primeira base de

dados: a. Estágio 2 para janela de 100ms; b. Estágio 3 para janela de 100ms; c. Estágio 2 para janela de

30ms; d. Estágio 3 para janela de 30ms; e. Estágio 2 para janela de 20ms; f. Estágio 3 para janela de 20ms.

................................................................................................................................................................................... 105

xvi

LISTA DE TABELAS XVII

xvii

Lista de Tabelas

Tabela 6.1: Classes fonéticas com seus respectivos fones. ................................................................................... 81 Tabela 6.2: Sub-unidades acústicas utilizadas na transcrição fonética das locuções, com exemplos. ........... 82 Tabela 6.3: Descrição das frases analisadas. .......................................................................................................... 83 Tabela 7.1: Descrição dos parâmetros VVGM, para as três bases empregadas. ............................................... 97 Tabela 7.2: Taxa de reconhecimento (%) dos sistemas de identificação baseados em VVGM e MFCCs. .... 99 Tabela 7.3: Taxa de reconhecimento (%) do sistema de identificação misturando as probabilidades a

posteriori dos sistemas que empregam parâmetros VVGM e MFCCs. ........................................................... 100 Tabela 7.4: Taxa de reconhecimento (%) do sistema de identificação, fundindo os parâmetros VVGM e

MFCCs. ..................................................................................................................................................................... 101 Tabela 7.5: Taxa de reconhecimento (%) do sistema de identificação, combinando os parâmetros VVGM e

MFCCs com locuções de teste de diferentes durações. ...................................................................................... 102 Tabela 7.6: Taxa de reconhecimento (%) do sistema de identificação, combinando os parâmetros VVGM

MFCCs ...................................................................................................................................................................... 103

xviii

INTRODUÇÃO XIX

xix

Lista de Abreviações

ASI - Automatic Speaker Identification

ASR - Automatic Speaker Recognition

ASV- Automatic Speaker Verification

DCT - Discrete Cosine Transform

DFT - Discrete Fourier Transform

DTW - Dynamic Time Warping

ELSDSR- English language speech database for speaker recognition

EM - Expectation Maximization

fBm - fractional Brownian motion

FIR Finite Impulse Response

GMM - Gaussian Mixture Model

HMM - Hidden Markov Model

i.i.d independent and identically distributed

INRIA - Institut National de Recherche en Informatique et en Automatique

IRCCyN - L'Institut de Recherche en Communications et Cybernétique

LAN - Local Area Network

LPC - Linear Prediction Coding

ML - Maximum Likelihood

MFCCs - Mel-Frequency Cepstrum Coefficients

PCM - Pulse-Code Modulation

VVGM - Variable Variance Gaussian Multiplier

WAV - Waveform Audio File Format

WTMM - Wavelet Transform Modulus Maxima

INTRODUÇÃO 21

1 Introdução

Nos últimos anos, houve um aumento considerável do número e variedade de produtos

e serviços que incorporam a interação dos usuários por meio de tecnologia da fala, por ser a

forma mais natural e flexível de comunicação humana. Algumas das aplicações de maior

crescimento nessa área são sistemas biométricos que envolvem reconhecimento de locutor. Estas

aplicações aproveitam o fato de que cada pessoa possui um mecanismo de produção de fala

único, associado as suas características fisiológicas e aos seus hábitos linguísticos, tornando os

sistemas eficientes e de baixo custo.

O acelerado desenvolvimento das telecomunicações (internet, redes celulares, entre

outros) e dos dispositivos eletrônicos (computadores, reprodutores de som, entre outros) tem

feito com que as aplicações baseadas em reconhecimento de locutor sejam mais atrativas para o

desenvolvimento de sistemas de segurança e controle tais como:

Autenticação de transações comerciais como método de prevenção de fraudes,

através de telefone, internet.

Operações bancárias em geral, tanto pessoalmente quanto através de algum

método remoto.

Controle de acesso para dispositivos, redes de trabalho, informação restrita.

Auxílio a portadores de necessidades especiais.

Como mostrado nas aplicações mencionadas acima, em função desses avanços, são

atribuídas responsabilidades cada vez maiores para os sistemas de reconhecimento. Esta

exigência requer um estudo constante de novas tecnologias para o desenvolvimento de sistemas

22 INTRODUÇÃO

mais robustos e confiáveis que satisfaçam as exigências e expectativas impostas pelo mercado, o

que justifica a pesquisa nesta área.

Os sistemas de reconhecimento automático de locutor (ASR) podem ser classificados em

duas categorias: identificação e verificação. Nos sistemas de identificação automática de locutor,

é feito o reconhecimento de qual pessoa, pertencente a um determinado grupo de indivíduos

falou, isto sem fornecer informação de sua identidade. Já nos sistemas de verificação automática

de locutor, o usuário fornece sua identidade (senha específica) e o sistema decide aceitar ou

recusar o usuário, dependendo da comparação com o seu padrão armazenado. Adicionalmente,

os ASR podem operar de dois modos: dependente de texto, em que o sistema utiliza a mesma

palavra ou frase tanto no treinamento quanto no teste, e independente de texto, em que tanto as

locuções de treinamento quanto as de teste são diferentes, permitindo ao usuário falar

livremente. Um sistema ASR é formado basicamente por três módulos: extração de parâmetros

características do locutor; treinamento, no qual é feito o modelamento de cada locutor;

reconhecimento, onde as características de um dado locutor são comparadas com os modelos

armazenados previamente para efetuar a identificação/verificação.

Os sistemas tradicionais de ASR fundamentam a extração de características do sinal de

fala no uso da análise espectral de curto tempo efetuada com a DFT (Campbell, J. 1997)

(Reynolds, D. & Rose, R. C. 1992), focando a obtenção de aspectos estáveis e consistentes do

sinal (Langi, A. & Kinsner, W. 1995). No entanto, na atualidade, novas tendências estão surgindo

para o processamento de sinais caracterizados por sua natureza não estacionária, tais como os

sinais de fala. Um exemplo disto é o uso da teoria fractal como método alternativo para o

processamento de sinais não estacionários.

Nos sinais de fala, grande quantidade da informação se encontra concentrada nas partes

não estacionárias do sinal, como é caso das transições (de vogais a consoantes, de vogal a vogal,

entre outras), o que torna os métodos tradicionais pouco adequados para caracterizar estes

comportamentos. Logo, intervalos de curta duração de sinais de fala podem ser considerados

quase estacionários (Langit, A. Z. R., Soemintapurat, K. & Kinsners, W. 1997). A teoria

multifractal é capaz de caracterizar estes tipos de mudanças rápidas chamadas de

singularidades e modelar esse comportamento por meio de multi-escalas.

INTRODUÇÃO 23

Existem poucas pesquisas que aplicam técnicas multifractais na área de processamento

de fala até este momento. Por exemplo, os autores de (Sant’Ana, R., Coelho, R. & Alcaim, A.

2006) propõem um sistema de reconhecimento automático de fala independente de texto, o qual

emprega como características estatísticas um vetor de parâmetros Hurst, obtido através da

aplicação do estimador multidimensional wavelet-based proposto por (Veith, D. & Abry, P. 1998),

e, como classificador para as tarefas de identificação e de verificação de locutor, um modelo

multidimensional fBm (fractional Brownian motion). Em (Zhou, Y., Wang, J. & Zhang, X. 2010) é

proposto um novo método de extração de características não-linear com base no método

WTMM (Wavelet Transform Modulus Maxima), a fim de facilitar a extração de características do

espectro multifractal (MSF) de sinais de fala. O principal objetivo é melhorar o desempenho de

um sistema de reconhecimento de locutor utilizando as informações extraídas a partir do

espectro multifractal correspondente. Em (Langi, A. & Kinsner, W. 1995), um algoritmo foi

implementado a partir da "trajetória da variância da dimensão fractal" para detectar os limites

externos de um enunciado e suas pausas internas, que representam ausência de fala.

1.1 Objetivos

Este trabalho tem como objetivo o desenvolvimento de um sistema de identificação

automática de locutor, operando em modo independente de texto. Para o módulo de extração de

parâmetros, é proposto o uso de um novo parâmetro multifractal como vetor de características

do locutor, denominado VVGM (Variable Variance Gaussian Multiplier). Este parâmetro está

baseado no modelo de cascata multiplicativa binomial, e está focado na análise da distribuição

dos multiplicadores .

Adicionalmente, foi realizado em paralelo um ASR tradicional, baseado no uso dos

MFCCs (Mel-Frequency Cepstrum Coefficients), por ser um método popular, encontrado na

literatura para o processamento de fala e áudio (Kinnunen, T. & Li, Haizhou. 2010). Esta

implementação foi feita com duas finalidades. A primeira é ter um sistema de referência para

avaliar o desempenho do sistema ASI empregando o novo parâmetro VVGM. A segunda é

integrá-lo com os parâmetros multifractais VVGM, dado que esses realizam uma abordagem

24 INTRODUÇÃO

diferente do sinal, enfatizando as partes não-estacionárias e gerando informações

complementares. Com isso, se consegue uma melhora de desempenho e robustez do sistema. No

módulo de treinamento, os parâmetros extraídos foram modelados por uma mistura de

gaussianas (GMM).

Foram desenvolvidos dois métodos para a integração dos dois parâmetros em um

sistema. No primeiro método, empregam-se subsistemas de modelagem e identificação

separados para cada um dos parâmetros. A decisão final de identificação é tomada ao ponderar

as probabilidades a posteriori de saída de cada subsistema. No segundo método, os parâmetros

são integrados em um só vetor e modelados por uma única mistura de gaussianas.

Outro objetivo deste trabalho consiste em estudar algumas características multifractais

presentes em sinais de fala através de curvas multifractais como o espectro multifractal ou

funções de escalonamento. Estas curvas (curvas de singularidade) fornecem aspectos

importantes para processamento, tais como: decomposição, representação e caracterização do

espectro, de forma análoga a análise de Fourier em abordagens tradicionais (Langit, A. Z. R.,

Soemintapurat, K. & Kinsners, W. 1997). Com isso, pretende-se abrir as portas para o uso de

ferramentas multifractais em processamento de fala, como alternativa ou complemento aos

métodos tradicionais.

1.2 Conteúdo da Dissertação

Este trabalho está organizado da seguinte maneira:

No Capítulo 2, é apresentado o conceito fractal, seguido do formalismo da teoria dos

processos multifractais, incluindo definições, métodos para a estimação das

características multifractais e análise destas características.

No Capítulo 3, é estudado o modelo multifractal cascata multiplicativa. Inicia-se com a

construção de um tipo de cascata particular, chamada cascata binomial, seguido da

generalização matemática. Finalmente é feita a descrição do modelo VVGM (Variable

Variance Gaussian Model), o qual é proposto neste trabalho para a obtenção de parâmetros

característicos de sinais de fala.

INTRODUÇÃO 25

O Capitulo 4 apresenta uma visão geral do estado da arte atual dos sistemas de

reconhecimento automático de locutor (ASR), e introduz os conceitos básicos do

funcionamento destes sistemas.

No Capítulo 5, são apresentados os sistemas automáticos de identificação de locutor

(ASI) independente de texto, desenvolvidos neste trabalho. São descritos os

procedimentos empregados para extração de parâmetros característicos (MFCCs e

VVGM), assim como o método de modelagem de cada locutor usado pelos sistemas

(GMM).

O Capítulo 6 propõe o estudo de características multifractais presentes em sinais de fala

através das curvas multifractais tais como o espectro multifractal ou funções de

escalonamento.

No Capítulo 7, são apresentados os testes e resultados obtidos.

Finalmente, o Capítulo 8 contém conclusões obtidas a partir das análises feitas sobre os

resultados alcançados. Também são feitas sugestões para trabalhos futuros.

2 Processos Multifractais

2.1 Fractais

A noção de fractal foi divulgada pelo cientista Benoit Mandelbrot em 1975, e difundida

em seu livro Fractals: Form, Chance, and Dimension em 1977. Este nome vem do adjetivo latino

fractus, que significa ‚quebrado‛ ou ‚irregular‛, referindo-se a formas muito irregulares para

serem descritas pela geometria tradicional. A geometria fractal é uma extensão da geometria

clássica, introduzindo estruturas que não se encaixam nos padrões de Euclides e Newton

(Mandelbrot 1982).

A geometria fractal é baseada em dois conceitos fundamentais: invariância na escala e

dimensão fractal. Para visualizar melhor estes conceitos, será exposto um exemplo matemático

formal concebido em 1904 pelo matemático sueco Helge Von Koch. Na Figura 2.1, são ilustrados

quatro estágios do processo de construção da curva de Koch, também conhecida como floco de

neve. Para iniciar o processo, no estágio ‘0’ é considerado um segmento de reta unitário. No

primeiro estágio este segmento unitário é dividido em três seções, e a seção do meio é trocada

por um triângulo equilátero sem base. O comprimento da nova linha é de quatro seções, mas a

distância entre os pontos finais é de três seções. Para o segundo estágio, cada uma das quatro

seções é substituída por uma cópia do primeiro estágio, reduzida por um fator de 3. Para o

desenvolvimento de mais estágios é aplicado este mesmo procedimento, tendo em consideração

que, para cada nova fase, o comprimento da linha é aumentado por um fator 4/3.

28 PROCESSOS MULTIFRACTAIS

Comprimento

Estágio 0 = 1

Estágio 1:

Estágio 2:

Estágio 3:

Estágio 4:

Figura 2.1 – Quatros estágios no desenvolvimento da curva de Koch.

Através da curva de Koch é possível reconhecer as propriedades básicas dos fractais. A

regularidade combinatorial presente no floco de neve é essencialmente uma lei de escala. Assim,

se uma pequena parte da curva é apropriadamente ampliada, a nova vista parece exatamente

com alguma seção anterior. Esta propriedade é chamada invariância na escala, e basicamente

indica que certas características de um sistema são independentes da escala de análise (García,

A. P. M., Jiménez, F. J. & Ayuso, J. L 2007).

Dada a complexidade da estrutura e organização dos conjuntos fractais, não é possível

estabelecer a posição dos pontos que o constituem no espaço. Em contrapartida, é definida

alguma relação entre as estruturas observadas desde diferentes níveis de resolução do mesmo

conjunto (Barnsley, M.F. 1993). Para esta relação é empregado o conceito de dimensão fractal. A

dimensão fractal reflete quantitativamente a propriedade de escala fractal, ou seja, como muda

sua estrutura quando se varia de estágio. No caso do floco de neve, cada seção é substituída por

seções de comprimento

da seção anterior (Figura 2.1). Como resultado tem-se

PROCESSOS MULTIFRACTAIS 29

exatamente a mesma forma com diferente escala. O valor da dimensão é determinado

relacionando esses dois números:

Estes conceitos são estendidos para processos e sistemas invariantes em escala. Portanto,

um processo fractal pode ser definido como aquele em que o mesmo processo elementar ocorre

em diferentes escalas (Feder, J. 1988). De forma geral, os fractais podem ser divididos em duas

classes: fractais determinísticos e fractais aleatórios (García, A. P. M., Jiménez, F. J. & Ayuso, J. L

2007). Uma comparação gráfica desta classificação pode ser observada na Figura 2.2,

empregando um fractal tradicional, o conjunto de Cantor, proposto por Georg Cantor em 1883.

Basicamente este fractal é gerado dividindo-se um segmento inicial em três partes e eliminando-

se uns dos segmentos, sendo este processo efetuado indefinidamente sobre cada novo segmento

gerado.

Fractais determinísticos são gerados através de um processo iterativo ou recorrente, regido

por regras exatas de construção. Assim, um fractal pode mudar substancialmente de um estágio

para outro, mas o princípio geral permanece igual, sendo equivalentes as estruturas auto-

similares. Este tipo de fractal pode ser classificado em uniescalar e multiescalar.

Um fractal uniescalar pode ser gerado dividindo um objeto, definido em , em

réplicas idênticas, reduzidas por um fator . Cada peça gerada é dividida de novo em

partes, conservando as regras de construção. Depois de infinitas iterações é obtido o fractal. Este

caso é ilustrado em (2.2 a.), empregando-se

e eliminando-se o segmento do meio.

Para um fractal multiescalar, o procedimento de construção é igual ao uniescalar, mas as

peças geradas não são idênticas, pois cada divisão possui uma regra de construção própria.

Assim, cada réplica será vista como uma redução do objeto original por diversos fatores

com Para o exemplo do conjunto de Cantor (2.2 b.), a divisão inicial é feita com os

fatores de redução , e e eliminando-se o segmento do meio.

Fractais Aleatórios são gerados através de um processo iterativo ou recorrente, que

envolve aleatoriedade em cada etapa de construção. Estas condições aleatórias podem ser

definidas através de diferentes técnicas estocásticas de modelagem. Embora a estrutura do

fractal possa mudar para diferentes estágios, as propriedades estatísticas são as mesmas em

30 PROCESSOS MULTIFRACTAIS

todas as escalas. Este tipo de fractal é associado a estruturas auto-similares estatisticamente. Para

a geração de um fractal são efetuadas infinitas iterações, ou seja, infinitos passos aleatórios e,

portanto é necessário usar a teoria de probabilidade (Falconer, J. K. 2003). Fractais aleatórios são

amplamente usados para descrever fenômenos naturais, tais como nuvens, paisagem, ruído de

fundo, entre outros (Mandelbrot 1982). Na Figura 2.2.c, é mostrada a geração de um fractal

aleatório, em que cada segmento é dividido em três partes iguais, uma das quais é selecionada

aleatoriamente para ser eliminada.

Figura 2.2 – Exemplificação dos tipos de fractais (adaptado de (de Lima, 1998)).

PROCESSOS MULTIFRACTAIS 31

2.2 Processos Multifractais

Muitas séries temporais biológicas são extremamente heterogêneas, apresentando não-

estacionariedade e oscilações de maneira irregular e complexa. Este comportamento pode ser

descrito, pelo menos de uma forma global, por suas dimensões (Riedi, R. H., Crouse, M. S.,

Ribeiro, V. J. & Baraniuk, R. G. 1999). Considerando que as propriedades em escala deste tipo de

sinal são causadas por uma dinâmica caótica e por processos aleatórios, existem vários

comportamentos em escala diferentes (multiple scaling). Quando esses diversos comportamentos

em escala são encontrados em diferentes instantes de tempo, tem-se o processo denominado

multifractal. As propriedades de escalonamento, para processos monofractais, são

caracterizadas por um único parâmetro (expoente de Hurst) durante todo o tempo do processo.

No entanto, o grau de auto-similaridade deste tipo de sinais heterogêneos é variante com o

tempo, sendo preciso apelar para a teoria multifractal para seu estudo.

Um processo multifractal é caracterizado por um conjunto de dimensões fractais, das

quais é possível obter informações mais detalhadas, através de ferramentas como a análise

multifractal. Esta análise é capaz de descrever o comportamento local de medidas, distribuições

e funções de forma geométrica e estatística. Um dos critérios da análise multifractal é estimar os

momentos estatísticos dos processos para avaliar suas regularidades locais (Riedi et al., 1999).

Através desta análise, algumas propriedades encontradas em processos multifractais podem ser

verificadas. A seguir, será apresentado o formalismo multifractal e seus métodos de análise.

2.3 Formalismo Multifractal

Sinais multifractais são geralmente caracterizados por terem um comportamento

bastante irregular. Podem apresentar transições abruptas de comportamento entre um instante

de tempo e o seguinte. O local destas mudanças rápidas é comumente conhecido como ponto

singular.

32 PROCESSOS MULTIFRACTAIS

Para caracterizar os pontos singulares presentes num sinal , é preciso quantificar sua

regularidade. Esta medida pode ser encontrada através do expoente Lipschitz, o qual provê

medidas uniformes de regularidade, tanto em intervalos de tempo quanto em pontos isolados

(Stênico, J. W. e Lee, L. L. 2009). Nos processos multifractais, este expoente, também conhecido

pelo nome de expoente de Hölder , pode assumir uma série de valores, dependendo de . Por

conseguinte, os momentos de escala variam de maneira não-linear, gerando duas possíveis

definições para os ‚multifractais‛.

A primeira definição de multifractal é vista como uma generalização do processo

monofractal. Assim, diz-se que um processo é monofractal se obedece à relação de escala

descrita na Equação (2.1), gerando outros processos fractais, com a mesma distribuição

estatística entre eles.

Na Equação (2.1), representa o fator de escalonamento, com e . Para

sistemas estocásticos indica igualdade em distribuição estatística entre processos. Deste modo,

os sinais monofractais são considerados homogêneos no sentido que possuem as mesmas

propriedades de escala, sendo caracterizados localmente por um único expoente de

singularidade, o ‚expoente de Hurst‛, durante todo o tempo (Stanley, H.E. 1995) (Bund, A. &

Havlin, S. 2000). Para sinais monofractais , o que sugere estacionariedade sob o ponto de

vista de suas propriedades locais de escala (Ivanov, P. Ch. 2003).

Por outro lado, os sinais multifractais podem ser decompostos em diversos subconjuntos,

que se caracterizam por diferentes expoentes de Hurst locais, assumindo o nome de expoente de

Hölder . Este expoente quantifica o comportamento local da singularidade e, portanto, refere-

se ao escalonamento local da série temporal. Na Figura 2.3, pode ser observado um exemplo que

apresenta a variedade de expoentes requeridos para caracterizar as propriedades de escala num

sinal multifractal (Vicsek, T. 1993), mostrando que este é intrinsecamente mais complexo e

heterogêneo do que o monofractal (Ivanov, P. Ch. 2003). Assim, no quadro superior são

PROCESSOS MULTIFRACTAIS 33

ilustrados os expoentes locais de Hölder de um sinal multifractal no tempo, seguido da

decomposição deste sinal (quadros subsequentes), com cada expoente local de Hölder indicado

por uma cor diferente e cada dimensão fractal representada pela densidade de barras verticais.

Figura 2.3 – Decomposição de expoentes locais de Hölder de um sinal multifractal. O eixo x

representa o tempo e as barras verticais (eixo-y) indicam expoentes locais de Hölder (Ivanov).

Tendo por base a Equação (2.1), surge uma generalização para processos multifractais.

Considerando o fator de escalonamento como uma nova variável aleatória que não

depende de , são analisadas relações multi-escala de forma geral,

34 PROCESSOS MULTIFRACTAIS

onde são dois processos estocasticamente independentes. Para os processos

monofractais, , com H constante. Por isso, um processo monofractal possui apenas um

fator de escala representado por um ponto em seu espectro de singularidades.

Analogamente, nos processos multifractais, , e a equação acima pode ser

reescrita como:

onde deixa de ser uma constante (monofractais), para tornar-se uma variável aleatória

dependente de o que permite uma melhor descrição de fenômenos irregulares. Dado o

comportamento em escala descrito pela Equação (2.3) impõe algumas restrições a distribuição

do processo , o que leva a uma primeira definição de multifractal.

Definição 2.2.1 Um processo estocástico é dito multifractal se satisfaz:

onde é a função esperança, e são números reais, e e são funções com domínio .

A função é chamada expoente de escalonamento do processo multifractal ou função de

partição. Os sinais monofractais exibem um espectro linear, considerando ,

onde é o expoente de Hurst. Por outro lado, nos sinais multifractais, é uma função não-

linear, devido ao fato que , onde não é constante (Ivanov, P.

Ch. 2003).

PROCESSOS MULTIFRACTAIS 35

A segunda definição do processo multifractal é baseada no expoente de Hölder,

analisando as características multi-escala locais de um processo em qualquer instante . Assim, o

comportamento errático de um processo contínuo , num dado tempo , pode ser

caracterizado, numa primeira aproximação, em comparação com uma função algébrica

satisfazendo essa relação.

Definição 2.2.2. Uma função ou percurso do processo , se existir um polinômio de

grau n tal que:

para valores de suficientemente perto de . A partir dessa expressão, o grau de regularidade

Hölder local de X em é definido por:

O polinômio , nos casos mais simples, corresponde ao desenvolvimento da série de

Taylor de em . Conhecendo o grau deste polinômio, sabe-se que é n vezes

diferenciável em . O expoente de Hölder determina o comportamento da função na

vizinhança do ponto . Assim mede o nível da singularidade neste ponto. Quanto maior

for o valor do expoente de Hölder, maior será o nível de regularidade da função nesse ponto.

2.4 Espectro Multifractal

Nesta seção, é apresentada a medida . Esta medida é uma forma de especificar o

método de distribuição, propagação ou crescimento de um objeto ou um processo fractal sobre

um conjunto de regras de apoio. Esta distribuição pode ser efetuada com abordagem euclidiana,

36 PROCESSOS MULTIFRACTAIS

como intervalos de retas ou quadrados, ou restrita para abordagem fractal, como o conjunto de

Cantor. Tomando a curva de Koch na seção 2.1 como exemplo, é considerada como regra de

apoio a divisão de cada segmento em três e a substituição deste por quatro segmentos novos de

igual comprimento. Logo, ao considerar um segmento unitário para o estágio 0, a medida

assume o valor de =4/3. Assim, a medida é definida formalmente como uma medida regular

finita de Borel em , de modo que .

Para pocessos multifractais, a medida varia em cada intervalo de estudo. Deste modo, a

análise multifractal tem como objetivo quantificar a estrutura singular das medidas e fornecer

um modelo para os fenômenos em que ocorre escalonamento com uma variedade de leis de

potência diferente (Falconer, J. K. 2003).

Para uma medida finita de em , a definição da dimensão local (expoente local de

Hölder) de em é dada por:

se o limite existir. O conjunto é constituído por todos os pontos nos quais a

existe, e seu valor é igual a , gerando-se um para cada (Falconer, J. K. 2003), como é

definido na Equação (2.8). Para algumas medidas de , o conjunto pode não ser vazio e ser

fractal para uma gama de valores . Nesse caso, assume o nome de medida multifractal.

As medidas multifractais são caracterizadas através do espectro multifractal ou espectro

de singularidades, definido como .

PROCESSOS MULTIFRACTAIS 37

Existem dois enfoques para a análise multifractal: a teoria fina (do inglês, fine theory), na

qual se estuda o comportamento local de quando , e a teoria grosseira (do inglês,

coarse theory), em que se quantificam as irregularidades globais de para pequeno e,

em seguida, é avaliado o limite quando . Assim, a teoria fina talvez seja mais adequada

para a análise matemática, exigindo idéias próximas às utilizadas no estudo da dimensão de

Hausdorff de conjuntos. Por outro lado, a teoria grosseira é mais conveniente quando se trata de

encontrar espectros multifractais dos exemplos da física ou estimar espectros a partir de

experimentos de computador. Esta abordagem lembra o cálculo da dimensão através do método

da contagem de caixa (do inglês, Box-counting) (Falconer, J. K. 2003). A seguir, será discutida a

definição de a partir das duas perspectivas.

O objetivo básico da abordagem fina para análise multifractal é encontrar para

onde é a dimensão Hausdorff do conjunto

Para a estimação do espectro de singularidades através da teoria grosseira, são

consideradas as irregularidades da distribuição da medida para e . Normalmente,

nos processos multifractais, existe um valor de expoente de Hölder mais frequente, mas

outros valores também ocorrem. Esses expoentes de Hölder, com valores diferentes de , são

bastante importantes, uma vez que a maior parte das variações em uma função multifractal

encontra-se em instantes com tais expoentes. Tal característica permite discriminar multifractais

de monofractais, dando origem a definição 2.2.3.

Definição 2.2.3 Seja o número de expoentes de Hölder aproximadamente iguais a que

ocorrem ao se subdividir um processo em r partes de mesmo tamanho. Então, o espectro multifractal,

representado por f( ), é definido por:

38 PROCESSOS MULTIFRACTAIS

Para processos multifractais, o espectro apresenta uma forma parabólica côncava, onde

, para todo e , onde é o valor máximo de (Riedi, R. H.

2002).

2.5 Estimação de Características Multifractais

Dadas as definições anteriores dos processos multifractais, existem duas abordagens

diferentes para se estudar o comportamento multifractal de uma série temporal, baseadas no

‚espectro multifractal‛. A primeira se fundamenta na estimação da função de partição do

processo usando o método dos momentos, e a segunda na análise de regularidade do processo

através de seu ‚espectro multifractal‛.

2.5.1 MÉTODO DOS MOMENTOS

Este método está baseado no formalismo de processos multifractais, acompanhando a

primeira definição apresentada na Equação (2.4). O método dos momentos tem como hipótese a

presença de uma cascata multiplicativa. Fundamenta-se na estimação do espectro multifractal

através do estudo das propriedades de singularidade desta cascata, a fim de se ter uma idéia da

distribuição dos expoentes de Hölder (Krishna, M. P., Gadre, V. M., & Dessay, U. B. 2003). Esta

estimação emprega o conceito de função de partição para destacar as singularidades da

distribuição medida na cascata. O processo consiste na reconstrução de qualquer estágio

anterior da cascata, partindo de agregações em intervalos de tamanhos . Assim, uma série

temporal é considerada como uma amostra de um nível da cascata, com uma medida no

intervalo [0,1] e escala .

Define-se a soma de partição como (Krishna, M. P., Gadre, V. M., & Dessay, U. B. 2003):

PROCESSOS MULTIFRACTAIS 39

onde

com um valor fixo de . A Equação (2.12) apresenta a maneira como a função de partição exibe

a natureza de escala dependendo do valor de m.

Partindo da expressão acima, pode-se estimar a relação de escala aplicando a função

logaritmo, obtendo-se:

onde é constante. Quando exibe linearidade em relação a , para um valor

fixo de , tem-se que a série temporal apresenta natureza fractal. Na Figura 2.4, ilustra-se

melhor a interpretação dos parâmetros e da Equação (2.15). Assim, os parâmetros

e podem ser determinados pela regressão do logaritmo da função de partição.

Figura 2.4 – Estimação das funções τ(q) e c(q).

40 PROCESSOS MULTIFRACTAIS

2.5.2 ESPECTRO MULTIFRACTAL

O espectro multifractal é uma representação da distribuição do expoente de Hölder

num processo. Esta função espectral pode ser encontrada usando algumas técnicas tais como:

espectro de granularidade grosseira (coarse graining spectrum), espectro de Hausdorff e espectro

de Legendre. Na seção 2.2.2, é descrito o procedimento para a obtenção tanto do espectro de

granularidade grosseira (coarse graining spectrum) ou espectro de grandes desvios (large deviation

spectrum), quanto do espectro de Hausdorff. Provavelmente, a dimensão de Hausdorff é a mais

importante. O espectro de Hausdorff provê uma informação geométrica pertinente à dimensão

fractal dos conjuntos de pontos em um sinal que possui um dado expoente de Hölder. Do ponto

de vista matemático, este é o espectro multifractal mais preciso, sendo também o mais difícil de

ser estimado (Falconer, J. K. 2003).

O espectro de granularidade grosseira provê informações estatísticas relacionadas à

probabilidade de encontrar no sinal um ponto com um dado expoente de Hölder. Além de

permitir a medição do comportamento desta probabilidade, quando é submetida a mudanças de

resolução. Embora este espectro não seja exatamente a densidade correspondente aos ´s, mas

sim uma dupla normalização logarítmica desta densidade, a estimação deste espectro exige a

aplicação de ferramentas de estimação de densidade de probabilidade. Neste caso, para a

estimação da densidade de probabilidade, normalmente são empregadas ferramentas clássicas

como o método de kernel duplo (Devroye, L. 1989).

O espectro de Legendre é uma aproximação côncava do espectro de grandes desvios.

Este espectro é de grande interesse, pois normalmente permite estimações robustas, embora

para alguns sinais específicos (Riedi, R. H. & Véhel, J. L. 1997) omita algumas informações

possíveis de serem obtidas através do espectro de grandes desvios. A robustez e a simplicidade

de estimação do espectro de Legendre o tornam o mais atrativo para o espectro multifractal. Este

trabalho centrou sua atenção no uso de espectro de Legendre, pelas qualidades acima (Stênico, J.

W. e Lee, L. L. 2009).

PROCESSOS MULTIFRACTAIS 41

O espectro multifractal pode ser obtido através da transformada de Legendre de

(função de escalonamento) (Krishna, M. P., Gadre, V. M., & Dessay, U. B. 2003), com a

seguinte relação:

Basicamente, o espectro provê informação das singularidades do sinal e quais delas

predominam. Em particular, para o caso de sinal com natureza monofractal, varia

linearmente ( ), fazendo com que o expoente de Hölder assuma um valor único.

Daí resulta que a representação gráfica dos processos monofractais se resume a um ponto ou

uma reta.

3 Multifractais Multiplicativos

Neste capítulo, será estudado o modelo multifractal cascata multiplicativa. O uso deste

modelo surgiu da física, especificamente da modelagem da turbulência por (Kolmogorov 1962),

onde é pesquisada a intermitência e invariância de escala. Este modelo é baseado na tendência

da turbulência a se concentrar localmente enquanto a escala diminui, dando lugar ao aumento

de heterogeneidade. Assim, a energia ingressa em um sistema com turbulência em grande

escala, tanto em termos de espaço quanto em quantidade de energia. Esta energia é dissipada de

uma maneira não uniforme, devido a presença de diferentes fenômenos de dissipação. Partes do

espaço podem apresentar redemoinhos com comportamentos violentos, enquanto outras partes

encontram-se relativamente calmas. Estes fenômenos se repetem em escalas cada vez menores,

até o ponto em que a energia é dissipada como calor (Harte, D. 2001). Dado isso, a turbulência

pode ser estimada em função da energia transferida em escalas menores.

Na atualidade, diversas áreas aplicam as cascatas multiplicativas para modelar

fenômenos não-lineares que apresentam estrutura multiplicativa, como é o caso da modelagem

de tráfego (Riedi et al., 1999), fenômenos geofísicos (Gupta, V. & Waymire, E. 1993), estudo de

finanças (Mandelbrot, B. B. 1997), entre outros.

O capítulo está organizado da seguinte forma: Na seção 3.1, é apresentada a definição

formal de cascata multiplicativa. Na seção 3.2, é observada a construção de um tipo de cascata

particular, chamada cascata binomial. Finalmente, na seção 3.4, é feita a descrição do modelo

VVGM (Variable Variance Gaussian Model), o qual é empregado neste trabalho para a obtenção de

parâmetros característicos de sinais de fala propostos.

44 MULTIFRACTAIS MULTIPLICATIVOS

3.1 Definição

A cascata multiplicativa é um processo iterativo, que se inicia assumindo um conjunto de

tamanho finito fechado com uma massa definida unitária. Para cada iteração, esse conjunto é

dividido em subconjuntos menores de comprimento b-j, onde b é um número inteiro e j

representa a iteração corrente. A massa também é distribuída entre os subconjuntos, com uma

probabilidade {mi}, onde cada mi está relacionado com o i-ésimo intervalo gerado na atual

iteração. Considera-se que, em cada estágio do processo da cascata, a medida da massa total é

preservada, satisfazendo a expressão , onde (Gao, J ., Cao, Y., Hu, J. &

Tung, W. 2007).

Usando partições diádicas com b=2, é possível apreciar melhor as regras de construção da

cascata multiplicativa. Na seção 3.2, será analisado o procedimento de construção da cascata

multiplicativa binomial. Os estágios da cascata podem também ser divididos em números de

subintervalos maiores, quando b>2, processo este chamado de cascata multinomial.

As cascatas, dependendo de sua estrutura e comportamento estatístico, podem gerar

diferentes tipos de processos multifractais:

Nús e vestidos (do inglês bare and dressed). Os nús são obtidos após um número de

iterações finito. A cascata é desenvolvida começando com as escalas maiores e

determinando as menores. Os vestidos são obtidos experimentalmente, partindo de um

processo físico com valores médios (temporais ou espaciais) para uma determinada

resolução.

Fortes e suaves (do inglês hard and soft). Os multifractais fortes são caracterizados pela

presença de singularidades elevadas, portanto os momentos estatísticos de maior ordem

divergem; pelo contrário, os multifractais suaves possuem flutuações suficientemente

pequenas, que evitam a divergência dos momentos.

Microcanônicos e canônicos (do inglês microcanonical and canonical). Uma cascata é

considerada microcanônica quando o fluxo de energia transferida é conservado

exatamente em cada iteração. É conhecida como canônica quando a energia é conservada

na média (Mandelbrot 1982).

MULTIFRACTAIS MULTIPLICATIVOS 45

Calmos e Selvagens (do inglês calm and wild). É denominada calma quando as

singularidades não afetam a conservação da energia no processo microcanônico. Caso

afetem, é denominada selvagem.

3.2 Cascata Multiplicativa Binomial

Uma Cascata Multiplicativa Binomial é construída através de um processo iterativo em

que cada intervalo é dividido em dois novos subintervalos. Para tal, considera-se um intervalo

unitário inicial [0,1], com uma medida de massa unitária associada. Para a primeira iteração, o

intervalo é dividido em dois subintervalos de igual comprimento, e a massa é distribuída entre

os dois novos intervalos, com valores e respectivamente, onde é suposto que m1 satisfaz

0<m1<1, , e Para o desenvolvimento matemático são considerados valores

de superiores aos de , ou seja, .

Desta forma geral, a medida da massa é particionada, sobre as duas metades de cada

intervalo diádico, com a relativa proporção de e . Assim, a medida da metade esquerda é

determinada multiplicando a massa do intervalo atual por , e a da metade direita por .

Geralmente, o parâmetro é uma variável aleatória dada por uma distribuição

escolhida e é chamado de multiplicador. Cada estado é dividido seguindo as mesmas regras de

construção. Este procedimento é apresentado na Figura 3.1 (Krishna, M. P., Gadre, V. M., &

Dessay, U. B. 2003).

Como é observado na Figura 3.1, no início do processo, e tem-se o conjunto

denotado pelo intervalo unitário [0,1] com medida da massa . O intervalo é dividido

em duas partes, gerando os subintervalos de

e de

, ambos de comprimento 0,5.

As massas são atribuídas seguindo para a metade esquerda e para a

metade direita. Para a segunda iteração, devido ao uso de intervalos diádicos, são gerados

quatro subintervalos denotados de

, de

e de

46 MULTIFRACTAIS MULTIPLICATIVOS

Figura 3.1 – Processo de construção da cascata binominal.

A massa também é distribuída seguindo as mesmas regras de construção (Mandelbrot

1982), obtendo-se

De forma geral, para uma cascata na iteração, é gerada a sequência de medidas

, que converge para o processo multifractal . Os intervalos diádicos são definidos por

, onde , com uma escala (comprimento dos intervalos) de .

As massas de cada intervalo são definidas por

MULTIFRACTAIS MULTIPLICATIVOS 47

onde e são o número de vezes que e

são multiplicadas e satisfazem a expressão . Como caso particular, esta cascata

apresentada conserva o valor da medida constante durante toda a construção, portanto,

recebe o nome de determinística.

As principais características dos fenômenos tipo cascata são a invariância de escala e a

conservação dos fluxos desde escalas maiores até escalas menores (García, A. P. M., Jiménez, F.

J. & Ayuso, J. L 2007). Estas características podem ser vistas na Figura 3.1. Assim, os intervalos

horizontais com comprimento são uma réplica em tamanho reduzido do conjunto de

tamanho unitário original e a redução vertical representa a medida do intervalo

transferida.

O expoente Hölder para um intervalo diádico de comprimento é definido por:

Considerando a substituição na Equação (3.4), das variáveis

, onde e

denotam a frequência relativa de 0’s e 1’s no desenvolvimento binário de cada intervalo do

estágio , e das expressões , pode-se

reescrever a Equação (3.4) como:

onde é função somente da variável (Krishna, M. P., Gadre, V. M., & Dessay, U. B. 2003).

48 MULTIFRACTAIS MULTIPLICATIVOS

3.3 Derivação do Espectro Multifractal

O processo de cascata pode ser caracterizado através da curva do espectro multifractal

. No caso da cascata binomial, define-se como o número de intervalos de

comprimento com expoente de Hölder . Além disso, como apresentado na Equação (3.5), o

expoente depende da variável . Portanto, o número de intervalos com expoente é o

mesmo do número de modos de distribuir zeros entre posições.

Através do desenvolvimento matemático apresentado por (Krishna, M. P., Gadre, V. M.,

& Dessay, U. B. 2003), chega-se a expressão

onde,

Da Equação (3.5), a variável

Substituindo as expressões definidas anteriormente na Equação (2.11), é definido o

espectro multifractal da cascata determinística binomial como:

MULTIFRACTAIS MULTIPLICATIVOS 49

Considerando

e usando expansão em série de Taylor para o , em

torno de , considerando , pode-se reescrever a Equação (3.10) como:

Das expressões 3.10 e 3.11, podem-se verificar algumas propriedades do espectro

multifractal:

A função pode assumir um valor máximo de 1; isso acontece para .

A função apresenta um comportamento quadrático perto de .

A função para .

A função apresenta simetria par em torno de .

3.4 Modelo Multifractal VVGM

O modelo multiplicador Gaussiano de variância variável (Variable Variance Gaussian

Multiplier, VVGM) foi proposto por (Krishna, M. P., Gadre, V. M., & Dessay, U. B. 2003) para a

modelagem de intervalos de tempo de chegada de tráfego LAN em banda larga. Este modelo é

baseado no modelo de cascata multiplicativa binomial, descrito na seção 3.2, quando foi

apresentado o processo de construção da cascada empregando os multiplicadores m1 e m2 fixos.

O modelo VVGM assume que os multiplicadores são variáveis aleatórias independentes em

[0,1], com densidade de probabilidade (para simplificação, na explicação será substituída

a variável m por r). Este modelo permite obter uma estrutura mais geral que a determinística

obtida pelos multiplicadores fixos.

50 MULTIFRACTAIS MULTIPLICATIVOS

Para efetuar a modelagem de um sinal usando VVGM é preciso que esse sinal satisfaça

algumas condições (Krishna, M. P., Gadre, V. M., & Dessay, U. B. 2003):

O sinal deve ser positivo, uma vez que o modelo foi desenvolvido para representar

tempos de chegada de tráfego e, portanto, não pode assumir valores negativos;

O sinal deve apresentar múltiplas escalas; por conseguinte sua auto-similaridade não é

estacionária;

O sinal deve exibir distribuição não-Gaussiana.

O multiplicador é uma variável aleatória escolhida de uma distribuição de

probabilidades , , onde indica o estágio da cascata. Assume-se que

simétrica em torno de , logo, tanto quanto têm a mesma distribuição de

probabilidade.

3.4.1 ESTIMAÇÃO DA DENSIDADE DE PROBABILIDADE DOS MULTIPLICADORES

Dado que , representa o estágio N obtido no processo de construção de

uma cascata (com tempo de resolução de ), esta cascata pode ser restaurada através do

processo inverso da construção, ou seja, determinando-se os níveis anteriores. Cada nível é

determinado baseando-se no estágio posterior. Logo, o nível é obtido por um processo

de agregação do estado . Este processo de agregação consiste na adição de valores

consecutivos em blocos não-sobrepostos de tamanho 2. Este processo é ilustrado na Figura 3.2.

MULTIFRACTAIS MULTIPLICATIVOS 51

Figura 3.2 – Diagrama do processo de estimação dos multiplicadores.

De forma geral, dada uma série na escala

, são obtidos os

dados no estágio pela soma dos valores do estágio , chegando a expressão:

para . Este procedimento termina quando a agregação dos valores forma apenas

um ponto na última escala da cascata. Uma estimativa dos multiplicadores

pode ser obtida

tendo em conta a transição do estado para o estado , dado pela seguinte equação:

para . Os

podem ser considerados amostras da distribuição no estágio

j. A distribuição dos multiplicadores na escala j pode ser obtida pelos histogramas de

. Este

método assume que os multiplicadores possuem uma distribuição de probabilidade Gaussiana

com média r=0,5 e variância variável para cada nível da cascata. Nas Figura 3.3 e 3.4, são

mostrados dois histogramas obtidos de um processo de agregação, para um trecho de sinal de

52 MULTIFRACTAIS MULTIPLICATIVOS

fala de 4096 amostras (fs=11,025 kHz). No Capítulo 5, será discutido com maior profundidade

este procedimento (algoritmos e descrição das bases de dados).

Figura 3.3 – Histograma estágio 2. Figura 3.4 – Histograma estágio 3.

Da distribuição obtida em cada estágio, é estimada a variância para cada nível da

cascata. Este método sugere que a mudança das variâncias da distribuição do multiplicador seja

parametrizada, utilizando um ajuste de curva. Assim, é determinada uma equação paramétrica

para a variação da variância, a qual depende somente do estágio da cascata j.

Na análise acima, foi considerada uma cascata com os multiplicadores e fixos e

. Ao se permitir que os multiplicadores da cascata sejam variáveis aleatórias

independentes em [0,1] com densidade de probabilidade , obtém-se uma estrutura mais

geral do que a determinística que emprega multiplicadores de valor fixo. Desta forma, para o

estágio l da cascata obtida com intervalo diádicos de comprimento , onde o começo de t

está definido pela combinação binária

,onde a medida

está definida como:

-0.2 0 0.2 0.4 0.6 0.8 1 1.20

fR(r

)

Distribuçao dos Multiplicadores

-0.2 0 0.2 0.4 0.6 0.8 1 1.20

rfR

(r)

Distribução dos Multiplicadores

MULTIFRACTAIS MULTIPLICATIVOS 53

onde representa o multiplicador no estágio da cascata. Através da Figura 3.2 pode-

se visualizar este conceito. Considerando o estágio , o qual está composto por

intervalos diádicos de tamanho , a medida para o primeiro intervalo é dada por:

De igual forma pode ser determinada a medida para qualquer intervalo do estágio .

Considerando que os multiplicadores são i.i.d, a medida atende a relação de escala

(Mandelbrot 1982):

que define um processo multifractal com função de escala Comparando

a Equação (3.15) com a definição de processo multifractal descrito pela Definição 2.2.1, pode-se

observar que a cascata binomial satisfaz esta condição (Vieira, F.H.T. & Lee L.L. 2006).

4 Reconhecimento Automático de

Locutor

Neste capítulo serão introduzidos alguns conceitos que facilitam a compreensão do

funcionamento de um sistema de reconhecimento automático de locutor. Na seção 4.1, são

apresentados os conceitos gerais dos ASR. As quatro seções seguintes se referem a primeira fase

do ASR, quando o sinal acústico de entrada é convertido em uma sequência de vetores de

características. Assim, na seção 4.2, apresenta-se o pré-processamento, o qual consiste na

preparação prévia do sinal de entrada para ser usado posteriormente; na seção 4.3, é

apresentada a extração dos coeficientes MFCCs a partir de um banco de filtros na escala Mel;

outros parâmetros característicos são analisados na seção 4.4. Para finalizar, é apresentada nas

seções 4.5 e 4.6, a segunda fase do ASR, na qual se efetua a modelagem de cada locutor através

de uma mistura de gaussianas (GMM) e o sistema de identificação de locutor.

4.1 Introdução

O ASR é um dos métodos mais naturais e econômicos para resolver problemas de

autorização/senha. Como sugere (Campbell, J. 1997), a combinação entre a anatomia inerente ao

trato vocal e os hábitos de diferentes indivíduos faz com que o sinal de fala contenha uma

grande quantidade de informações da identidade do locutor, tornando o sistema de

reconhecimento de locutor um método bastante eficaz.

56 RECONHECIMENTO AUTOMÁTICO DE LOCUTOR

Na Figura 4.1, são mostradas as áreas de aplicação do processamento de fala. Ao se

concentrar nos sistemas de reconhecimento de locutor, é importante destacar mais uma vez que

esta área é classificada em duas categorias, identificação e verificação.

Figura 4.1– Processamento de fala (Campbell, J. 1997).

Nos sistemas de identificação automática de locutor (ASI), o usuário não fornece

nenhuma informação sobre sua identidade e, assim, o sistema é responsável por determinar

quem é o locutor, dentro de um grupo de indivíduos previamente cadastrados. Nos sistemas de

verificação automática de locutor (ASV), o locutor fornece sua identidade (senha específica) e o

sistema decide aceitar ou recusar o usuário, dependendo da comparação com o seu padrão

armazenado. Adicionalmente, os ASR podem operar de dois modos: dependente de texto e

independente de texto. No modo dependente de texto, tanto na etapa de treinamento quanto na

etapa de reconhecimento, é usado um texto predeterminado fornecido ao usuário (senha fixa).

Embora este modo ofereça um melhor desempenho devido a prover informação adicional

(transcrição de texto) (Reynolds, D. 2002), ele apresenta algumas desvantagens, tais como

precisar de novos treinamentos cada vez que a senha seja alterada e ter uma maior

RECONHECIMENTO AUTOMÁTICO DE LOCUTOR 57

probabilidade de ataque por impostores ao utilizar uma frase fixa. Por outro lado, no modo

independente de texto, tanto as locuções de treinamento quanto as de teste são diferentes,

permitindo ao usuário falar livremente, o que torna este modo mais seguro. Os dois modos de

operação têm tarefas e objetivos diferentes e, portanto, podem empregar técnicas diferentes. Os

sistemas independentes de texto são usualmente tratados com técnicas baseadas em GMMs

(Gaussian Mixture Models), enquanto os sistemas dependentes de texto com técnicas como DTW

(Dynamic Time Warping) ou HMMs (Hidden Markov Models).

Cabe destacar que este projeto é focado em um sistema de identificação do locutor

operando em modo independente de texto. Na Figura 4.2, é apresentado o diagrama de um

sistema de identificação tradicional. Basicamente, um sistema de identificação de locutor é

composto por 3 módulos: aquisição do sinal digital (conversão do sinal analógico em digital ),

extração de parâmetros e comparação com um modelo (‚pattern matching‛). A descrição

detalhada de cada módulo será dada nas seções seguintes.

Figura 4.2 – Sistema de identificação de locutor convencional. O sistema seleciona o modelo do locutor

que tenha maior semelhança.

58 RECONHECIMENTO AUTOMÁTICO DE LOCUTOR

4.2 Pré-Processamento

Este processo é realizado sobre o sinal de fala de entrada, adequando-o para a extração

de parâmetros característicos. Usualmente, no pré-processamento são efetuadas tarefas tais

como normalização, filtragem, remoção de trechos de sinal indesejados, redução de taxa de

amostragem, entre outras.

4.2.1 PRÉ-ÊNFASE

O espectro da fala é caracterizado por uma tendência descendente, pela qual as

frequências na parte superior do espectro são atenuadas em cerca de -6 dB/oitava. Esta

tendência deve-se a combinação da inclinação negativa de -12 dB/oitava do espectro da fonte

glotal com a elevação de +6 dB/oitava dada pelo efeito da radiação devido aos lábios (Holmes, J.

& Holmes, W. 2001). Para compensar esse efeito, é comum se aplicar uma pré-ênfase de +6

dB/oitava. Normalmente essa pré-ênfase é feita empregando-se um filtro FIR definido segundo a

Equação (4.1) (Picone, J. 1993):

Normalmente, o valor usado para está em torno de 0,95. Existe outra motivação para o

uso deste filtro no pré-processamento, dado que a audição humana apresenta uma maior

sensibilidade nas frequências entorno a 1 kHz. O filtro de pré-ênfase amplifica esta região,

ressaltando os aspectos perceptualmente importantes do espectro do sinal de fala (Picone, J.

1993).

4.3 Coeficientes Mel-Cepstrais

Para o desenvolvimento de um ASR, é necessário converter o sinal de fala de cada

locutor numa representação paramétrica, que contenha informação relevante da fonte geradora

e possa ser interpretada pelo sistema. Nesse processamento, é amplamente usada a análise

RECONHECIMENTO AUTOMÁTICO DE LOCUTOR 59

espectral de curto tempo para sua caracterização. Isso se deve ao fato de que a caixa de

ressonância, composta por laringe, faringe, boca e cavidade nasal, é um filtro mecânico, com

movimentos lentos. Portanto, o sinal de fala pode ser considerado estacionário em curtos

intervalos de tempo (da ordem de 20ms). Existem diversos parâmetros para caracterizar o sinal

de fala, tais como os coeficientes LPC (Linear Prediction Coding), MFCCs (Mel-Frequency Cepstrum

Coefficients), parâmetros prosódicos, entre outros. Este capítulo se concentra no uso dos MFCCs,

já que é o método clássico encontrado literatura, como referencia dados seus bons resultados

(Reynolds, D. A 1994) (Kinnunen, T. & Li, Haizhou. 2010).

Os MFCCs são parâmetros baseados na percepção auditiva humana. Estudos empíricos

demonstraram que o sistema de audição humana responde a frequências de uma maneira não-

linear. Adicionalmente, esses estudos mostraram que a resolução em frequência do sistema de

audição apresenta linearidade para frequências inferiores a 1000 Hz e logarítmicas acima deste

valor (Volkmann, J., Stevens, S. & Newman, E 1937). Essa resolução não linear pode ser

aproximada na escala Mel como:

onde é a frequência em Hz (Picone, J. 1993).

A idéia principal para calcular os MFCCs é realizar uma análise em frequência com base

num banco de filtros triangulares. Para determinar o espaçamento e a largura de banda destes

filtros, é usado o conceito de banda crítica1, o qual fornece uma indicação da banda efetiva do

filtro auditivo (Holmes, J. & Holmes, W. 2001). Além disso, a largura de banda dos filtros varia

com a frequência. Assim, para frequências inferiores a 1000 Hz, são empregados filtros com

largura de banda da ordem de 100 Hz; para frequências superiores a largura aumenta

logaritmicamente. O número de filtros pode mudar dependendo da aplicação desejada e da

1 Informações mais detalhadas sobre a banda crítica são apresentadas por (Holmes, J. & Holmes,

W. 2001) no capítulo 3 “Mechanisms and Models of the Human Auditory System”.

60 RECONHECIMENTO AUTOMÁTICO DE LOCUTOR

frequência de amostragem empregada . Assim, para uma são usados em torno

de 18 filtros; para , em torno de 21 filtros; para , em torno de 23; e

para , em torno de 26 filtros.

Na Figura 4.3, observa-se o diagrama de blocos do processo de extração dos parâmetros

MFCCs presente na maioria das implementações. Assim, a análise de Fourier de curto tempo é

aplicada a um sinal de entrada através da DFT (Discrete Fourier Transform). Em seguida, os

valores do módulo da DFT são agrupados em bandas críticas e ponderados por uma função

triangular. Na saída de cada um destes filtros é calculada a energia. Finalmente se efetua o

cálculo da DCT (Discrete Cosine Transform) do logaritmo da energia calculada na saída de cada

filtro. Esta transformação possui a propriedade de comprimir a informação nos coeficientes de

baixa ordem e também produz uma descorrelação entre os coeficientes. A dimensão M dos

coeficientes MFCCs extraídos é definida tomando-se os coeficientes iniciais da DCT. Cabe

mencionar que o coeficiente de ordem zero não é usado na prática, já que depende do ganho do

sinal.

Figura 4.3 – Diagrama do processo de extração dos MFCCs.

4.4 Parâmetros Adicionais

Para o desenvolvimento de sistemas de reconhecimento de locutor, são usados, além dos

parâmetros analisados na seção anterior, outros parâmetros alternativos, tais como a energia e a

RECONHECIMENTO AUTOMÁTICO DE LOCUTOR 61

taxa de cruzamentos por zero. Estes dois parâmetros são igualmente analisados em intervalos de

tempo curto (da ordem de 20ms). O uso mais comum destes parâmetros é na supressão de

silêncios.

A energia é uma informação simples de determinar num sinal, e pode ser calculadas

através da Equação (4.4), para um sinal amostras.

Usualmente se trabalha com a função logaritmo da energia para se acentuar as baixas

mudanças. A partir deste parâmetro, são eliminados trechos do sinal de baixa energia, que

correspondem a silêncio ou ruído, e não contêm informação relevante da identidade locutor.

A taxa de cruzamentos por zero é definida pelo número de vezes que um sinal de fala

troca de polaridade no intervalo de tempo analisado. Trechos de sinal que possuem taxas de

cruzamento maiores que certo limiar estabelecido são eliminados. Este limiar é determinado

empiricamente testando taxas de cruzamentos de diferentes fonemas com alto conteúdo nas

altas frequências, como é o caso das fricativas, tais como ‚s‛, ‚f‛ e ‚x‛.

4.5 Classificador

Nesta seção, será apresentado o método de classificação para identificação de locutor

independente de texto adotado neste trabalho. A técnica é conhecida como o modelo estatístico

GMM (Gaussian Mixture Models), introduzido por Reynolds, 1992, e que, na atualidade, é o

método mais usado por ter demonstrado os melhores resultados.

O GMM pode ser entendido como um HMM de um único estado, com densidade de

probabilidade modelada como uma mistura de gaussianas multidimensionais, onde cada uma

destas misturas pode representar uma ou várias classes fonéticas que compõem o som

produzido por uma pessoa.

62 RECONHECIMENTO AUTOMÁTICO DE LOCUTOR

4.5.1 MODELOS DE MISTURA DE GAUSSIANAS (GMM)

Uma mistura de Gaussianas é a soma ponderada de densidades gaussianas

multidimensionais, e pode ser descrita matematicamente pela seguinte equação:

onde é um vetor aleatório de dimensão (vetor de características do locutor),

são as densidades de dimensão e , são os pesos dessas densidades. Cada

componente Gaussiana da mistura com vetor de médias e matriz de covariância é dada

por:

onde |.| representa determinante e indica transposta. A ponderação das misturas deve

satisfazer a condição . Nos sistemas de identificação de locutor, cada pessoa está

caracterizada por um GMM, chamado , representado pela notação

Esta modelagem utiliza uma matriz de covariância para cada componente da mistura.

Adicionalmente a isso, a matriz de covariância pode ser também cheia ou diagonal, dependendo

da correlação entre as componentes do vetor de características. Normalmente, para aplicações

com pouco material de treinamento, são mais empregadas matrizes diagonais (componentes

independentes entre si).

RECONHECIMENTO AUTOMÁTICO DE LOCUTOR 63

O GMM tem a capacidade de modelar densidades de probabilidades arbitrárias

(Reynolds, D. 2002) (Vuuren, V. S. 1999), especificamente a distribuição dos vetores de

características extraídos de uma locução.

4.5.2 ESTIMAÇÃO DE PARÂMETROS DO MODELO

No sistema de identificação de locutor, cada locutor está representado por um GMM .

Os parâmetros desse modelo são estimados na etapa de treinamento, onde se tem como objetivo

principal encontrar uma representação mais adequada para vetores característicos de fala.

Existem diversos métodos disponíveis para estimação dos parâmetros do GMM (McLachlan, G.

& Peel, D. 2000). Um método amplamente difundido e que apresenta bom desempenho é a

estimação da máxima verossimilhança (Maximum Likelihood - ML).

Este método de estimação tem como princípio escolher os parâmetros do modelo que

maximizam a função de verossimilhança de um conjunto de observações. Para uma sequência

de entrada de vetores de treinamento , pode ser definida a função de

verossimilhança para modelo como a função de densidade de probabilidade conjunta de X

dado o modelo , descrita por . Assumindo independência entre os vetores de entrada, a

função de verossimilhança pode ser escrita como:

Normalizando pelo número total de vetores e usando o logaritmo, chega-se a

No entanto, a Equação (4.7) é uma função não linear dos parâmetros . Portanto, obtém-

se um conjunto não fechado de soluções, sendo impossível a maximização direta (Reynolds, D.

2002). Contudo, os parâmetros do modelo podem ser obtidos iterativamente através do

64 RECONHECIMENTO AUTOMÁTICO DE LOCUTOR

algoritmo EM (Expectation Maximization) descrito por (Dempster, A. P., Laird, N. M. & Rubin, D.

B. 1977).

O EM é um algoritmo iterativo, o qual assume um modelo inicial como base para a

estimação de um novo modelo , tal que . O novo modelo torna-se o modelo

inicial para a seguinte iteração, e esse processo é repetido até que um limiar de convergência seja

alcançado. O algoritmo EM funciona alternando iterativamente entre duas etapas distintas. Na

primeira etapa, chamada E (expectation), são calculados os valores de de cada uma das

componentes do GMM. Na segunda etapa, chamada de M (‚maximization‛), são atualizados os

parâmetros do modelo, tendo por base as seguintes expressões:

Pesos da mistura:

Médias:

Variâncias:

onde e , , referem-se aos elementos dos vetores

, , respectivamente.

A probabilidade a posteriori para uma classe acústica i é dada por

RECONHECIMENTO AUTOMÁTICO DE LOCUTOR 65

4.6 Sistema de Identificação de Locutor

No processo de treinamento, o sistema gera e armazena modelos para

um grupo de locutores. No processo de teste ou identificação de locutor, o sistema recebe

novas locuções (vetores de características) pertencentes a qualquer um dos locutores treinados

com o objetivo de encontrar o modelo que assegura a máxima probabilidade a posteriori.

Assim,

(4.15)

onde a segunda equação é obtida através da regra de Bayes. Assumindo que todos os modelos

treinados têm a mesma probabilidade de ocorrerem, tem-se . Adicionalmente,

presume-se que é igual para todos os modelos, já que depende unicamente da locução

testada. Daí resulta que a identificação do locutor pode ser simplificada como

(4.16)

Utilizando o logaritmo e assumindo independência entre as observações, tem-se

(4.17)

onde é definido na Equação (4.5). O sistema de identificação aceita o locutor que possui

o modelo que maximize a verossimilhança. Na Figura 4.4, se observa o diagrama de blocos do

sistema de identificação de locutor.

66 RECONHECIMENTO AUTOMÁTICO DE LOCUTOR

Figura 4.4 – Diagrama do sistema de identificação de locutor.

5 Sistema Desenvolvido

A estrutura de um sistema automático básico de identificação de locutor é formada por

três módulos principais, como ilustrado na Figura 4.2, e listado abaixo:

Módulo de extração de parâmetros

Módulo de treinamento

Módulo de reconhecimento

Na primeira fase deste trabalho, um sistema ASI tradicional independente de texto foi

desenvolvido com o objetivo de criar um sistema padrão de referência para a avaliação dos

novos sistemas a serem desenvolvidos. Este sistema empregou parâmetros MFFCs como vetor

de características, os quais foram modelados através de GMM.

Em uma segunda fase, os novos parâmetros obtidos através do modelo multifractal

VVGM foram usados como vetor de características. Os módulos de treinamento e

reconhecimento do sistema desta fase foram dimensionados analogamente, baseando-se na

técnica GMM.

Na terceira fase do trabalho, o sistema ASI desenvolvido conjugou os dois tipos de

características com o objetivo de atingir um ASI mais robusto e taxas de reconhecimento

superiores. A seguir, serão apresentadas algumas informações técnicas dos três módulos.

68 SISTEMA DESENVOLVIDO

5.1 Módulo de Extração de Parâmetros

O módulo de extração de parâmetros transforma as locuções de entrada em parâmetros

que possam ser interpretados pelos módulos seguintes. Este módulo tem por entrada um sinal

de voz em formato WAV com 16 bits de resolução e amostrado a 8 kHz, 11,025 kHz ou 16 kHz,

dependendo da base de fala empregada. Os parâmetros característicos (MFCCs e VVGM) dos

sistemas desenvolvidos são calculados usando módulos de extração independentes. As

subseções a seguir dedicam-se a análise destes parâmetros.

5.1.1 DESCRIÇÃO DA EXTRAÇÃO DOS PARÂMETROS MFCCS

Os parâmetros MFCCs são calculados utilizando informação de janelas de 20ms e

deslocadas a cada 10ms. Esta segmentação em trechos dessa ordem se deve ao fato de que a

caixa de ressonância pode ser considerada quase-estacionária em curtos intervalos de tempo, já

que é um filtro mecânico com movimentos lentos. Na Figura 4.3, pode-se observar a arquitetura

da extração dos parâmetros MFCCs. Antes da extração, o sinal é submetido a alguns pré-

processamentos: retirada do nível DC, pré-ênfase com um filtro passa altas , e

janelamento através de uma janela de Hamming. Além disso, o parâmetro log-energia é

calculado para cada janela e normalizado, tomando como referência o quadro de maior energia

em toda a locução sob análise, gerando um limiar para detecção e eliminação de silêncios por

baixa energia. Ao normalizar a energia, seu valor máximo é 0 dB, e o limiar de energia foi

escolhido em – 30 dB. Este limiar foi estabelecido a partir de medições da energia em algumas

locuções de sons de fricativas de teste.

A partir do sinal janelado, são calculados os MFCCs. O sistema opera com 12 coeficientes

Mel-Cepstrais. Note-se que o coeficiente de ordem zero do vetor de características não é usado,

pois possui informação do ganho.

SISTEMA DESENVOLVIDO 69

5.1.2 DESCRIÇÃO DA EXTRAÇÃO DOS PARÂMETROS CARACTERÍSTICOS ATRAVÉS DA

MODELAGEM VVGM

Os novos parâmetros característicos de fala propostos para serem usados pelo ASR são

baseados no modelo VVGM apresentado no capítulo 3. A seguir, será descrito o procedimento

de extração destes parâmetros:

Pré-processamento: Nesta etapa, varias operações preliminares são executadas, as

quais foram resultado de investigação intensa e são os procedimentos necessários

para adequar os sinas de entrada:

1. Pré-ênfase: Emprega-se o mesmo filtro de pré-ênfase usado para o cálculo

dos parâmetros MFCCs.

2. Normalização: Normaliza-se a amplitude do sinal limitado entre +1 e -1,

com o maior pico positivo (ou negativo) atingindo a amplitude de +1 (ou

-1), aproveitando melhor a faixa dinâmica da locução sem chegar à

saturação ou distorção. Este procedimento de normalização visa reduzir

a influência da amplitude do sinal, como o volume do microfone e a

distância do microfone ao locutor, homogeneizando todas as locuções de

entrada.

3. Eliminação de silêncios: Períodos de silêncio entre palavras, assim como no

início e final das locuções, são removidos, usando o mesmo detector de

silêncio implementado para os parâmetros MFCCs.

4. Adequação do sinal: De acordo com a primeira condição fornecida na seção

3.4 para a implementação do modelo VVGM, o sinal a ser processado

deve ser positivo. Dado que o sinal de fala apresenta amplitudes

positivas e negativas, faz-se necessário efetuar um tratamento para que

todas as amostras sejam positivas sem perda de informação. Para isso,

foram testadas duas abordagens: deslocamento e retificação do sinal.

Verificou-se que o sistema tem melhor desempenho usando sinal

70 SISTEMA DESENVOLVIDO

retificado. Ao concluir esta adequação, foi necessária a agregação de um

pequeno nível DC ao sinal para evitar sinais resultantes próximos a zero,

os quais poderiam causar problemas no processo de agregação. Através

de testes, observou-se que a etapa de eliminação de silêncios é essencial

no processo de extração de parâmetros, pois a presença de silêncios

polariza a variância (em torno de para sistemas deslocados e em

torno de 0 para sistemas retificados), provocando perda de informação

relevante.

Janelamento: Usam-se janelas retangulares com 100ms de duração e atualização a

cada 10ms. A escolha do tamanho da janela foi baseada em vários testes

realizados, dos quais se concluiu que, para essa escala, a modelagem VVGM

consegue caracterizar adequadamente os sinais de fala.

Adequação de duração: Embora sejam usadas janelas de 100ms, o algoritmo trabalha

com comprimentos da ordem de potências de 2 ( , onde é o número de

estágios possível da cascata. Portanto, é preciso limitar cada quadro ao número

de amostras máximo que seja potência de 2. Por exemplo, dado um sinal de

entrada com uma taxa de amostragem de 11,025 kHz, uma janela de 100ms

contém 1102 amostras: no entanto, serão usadas só 1024 amostras .

Processo de agregação: A reconstrução da cascata é levada a cabo como foi

apresentado na sub-seção 3.4.1 e seguindo a Figura 3.2.

Histogramas: Nesta etapa, são obtidos histogramas dos multiplicadores para os

estágios. A distribuição probabilística dos multiplicadores tem o

comportamento de função Gaussiana com média , e variância variável

para diferentes estágios. Estas variâncias são determinadas para cada janela e

armazenadas, criando uma matriz de parâmetros característicos de cada locutor.

A ordem do vetor de características usado depende do número de estágios

presente na cascata. Esse valor é função do número de amostras do quadro

SISTEMA DESENVOLVIDO 71

analisado e da frequência de amostragem da locução processada. Assim, ao gerar

uma cascata com níveis, são usadas as variâncias dos primeiros níveis

como parâmetros característicos.

5.2 Módulo de Treinamento

Este módulo é responsável por modelar cada um dos locutores em treinamento. Para

todos os sistemas ASI desenvolvidos, este módulo é baseado em Modelos de Mistura de

Gaussianas (GMM). O módulo recebe a matriz de características de cada locutor, onde o número

de linhas representa o total de janelas analisadas em todo o material de treinamento e as D

colunas dependem do algoritmo empregado para a extração de parâmetros (VVGM, MFCCs ou

VVGM+MFCCs). Com estes parâmetros, o locutor é caracterizado por um GMM, chamado , e

representado pela notação , onde é o número de densidades

gaussianas empregadas, que é pré-fixado no início do treinamento. A ordem do modelo foi

determinada experimentalmente, testando diversos valores. É muito importante escolher um

número apropriado de componentes da mistura, pois, para este tipo de aplicação, o material de

treinamento usado é reduzido e um número elevado de misturas poderia ocasionar uma

partição excessiva do espaço de dados (over-fitting), enquanto que um número muito reduzido

não seria suficientemente flexível para se aproximar ao modelo real seguido pelos dados.

O treinamento foi usado o algoritmo EM (Expectation Maximization) apresentado na

seção 4.5.2. Para a aplicação deste algoritmo, é requerido um valor inicial dos parâmetros do

modelo. Assim, os parâmetros foram inicializados através do algoritmo Segmental K-

Means, realizando um clustering prévio com classes e gerando um inicial para cada locutor.

Baseando-se no inicial, os parâmetros são ajustados iterativamente por meio do algoritmo EM.

Este algoritmo converge quando a probabilidade de que as observações tenham sido geradas

pelo novo modelo é muito próxima ao do modelo anterior , . Este processo

foi repetido para cada locutor e armazenado em uma base de modelos.

72 SISTEMA DESENVOLVIDO

É importante ressaltar que, nesta modelagem, foram usadas matrizes de covariância

diagonais, devido a pouca quantidade de material de treinamento disponível.

5.3 Módulo de Reconhecimento

O módulo de reconhecimento é o responsável pelo mapeamento dos parâmetros

acústicos correspondentes à locução de entrada de teste. Ele recebe como entrada a matriz de

características de uma locução nova, pertencente a qualquer um dos locutores previamente

treinados. Com o objetivo de encontrar o modelo λ que assegura a máxima probabilidade a

posteriori, os novos parâmetros são comparados com cada um dos modelos dos locutores

treinados, e escolhido o de maior probabilidade de ter gerado a nova locução, como é discutida

na seção 4.6

5.4 Fusão de Sistemas

Os sistemas desenvolvidos com parâmetros VVGM e MFCCs são integrados, a fim de

aperfeiçoar o sistema ASI. Esta combinação é executada através de dois métodos propostos,

descritos a seguir.

5.4.1 FUSÃO NO NÍVEL DE PONTUAÇÃO

No primeiro método, os sistemas são integrados como se observa no diagrama de blocos

da Figura 5.1. Os módulos de treinamento operam de forma independente para cada parâmetro.

A modelagem é feita individualmente, pois cada parâmetro utiliza janelas de diferentes

comprimentos para sua extração: 20ms para MFCCs e 100ms para VVGM.

SISTEMA DESENVOLVIDO 73

Figura 5.1 – Diagrama de blocos do ASI misturando os parâmetros MFCCs e VVGM.

No módulo de reconhecimento, são determinadas as probabilidades de cada locutor ter

falado a nova locução, tanto para o sistema que emprega coeficientes VGGM quanto para o que

usa MFCCs. Deste processo, são gerados dois vetores de probabilidades com comprimento igual

ao número de locutores treinados. Cada um destes vetores de probabilidades é multiplicado por

um peso de ponderação ( ), e os resultados são somados. Os pesos devem satisfazer a

restrição . Os valores assumidos para os pesos foram determinados

experimentalmente adotando o melhor resultado, ou seja, para os parâmetros MFCCs e

para os parâmetros VVGM.

5.4.2 FUSÃO NO NÍVEL DE CARACTERÍSTICAS

Na segunda abordagem de fusão biométrica, os parâmetros VVGM e MFCCs foram

combinados resultando em um único vetor de características, gerando um único GMM, como é

ilustrado no esquema da Figura 5.2.

74 SISTEMA DESENVOLVIDO

Figura 5.2 – Diagrama de blocos do ASI empregando fusão no nível de características.

Após o pré-processamento, os parâmetros MFCCs e VVGM são extraídos de forma

independente. Seguido a isso, é efetuada a subdivisão do sinal em quadros usando janela de

Hamming para os parâmetros MFCCs, e janela retangular para os parâmetros VVGM, com

duração de 20 ou 30ms. Note que, para este método, o intervalo de análise é único para a

extração de ambos os parâmetros. Devido a dimensão das janelas, os parâmetros VVGM não

apresentam um comportamento ótimo, o que só é alcançado com quadros da ordem de 100ms,

com os quais é possível gerar cascatas maiores. No entanto, o fato de misturar diretamente os

dois parâmetros e modelar conjuntamente através de um GMM pode ser vantajoso para o

sistema de identificação.

A dimensão do vetor de características empregado é de 12 parâmetros MFCCs mais

componentes gerados na cascata do VVGM, dependendo da frequência de amostragem da

base de dados empregada.

SISTEMA DESENVOLVIDO 75

5.5 Bases de Dados

Os experimentos foram realizados usando três bases de dados com diferentes

configurações, tais como frequência de amostragem, número de locutores e de locuções, duração

de treinamento e teste, entre outras. Os experimentos com diferentes configurações permitem

determinar as características de sinal de fala requeridas pelo sistema.

A primeira base de fala, denominada ‚Ynoguti 1‛, foi criada originalmente por Carlos

Alberto Ynoguti no Laboratório de Processamento Digital de Fala do

DECOM/FEEC/UINICAMP (Ynoguti, C. & Violaro, F 1999) para aplicação em reconhecimento

de fala. As gravações foram realizadas em ambiente relativamente silencioso, com um microfone

direcional de boa qualidade, utilizando uma placa de som SoundBlaster AWE 64. As locuções

estão armazenadas em formato Windows PCM (WAV). Esta base de dados emprega frases

foneticamente balanceadas que, portanto, têm uma distribuição fonética similar àquela

encontrada na fala espontânea. Ela foi implementada com uma frequência de amostragem de

11,025 kHz, com 16 bits/amostra, e é constituída por 30 locutores, 15 homens e 15 mulheres.

Cada locutor leu quarenta frases diferentes, das quais trinta são usadas como amostras de

treinamento, com uma duração total aproximada de 60 s, e as outras dez como amostras de teste

do sistema, com comprimento variando entre 2,5 e 3 s.

A segunda base, denominada ‚Ynoguti 2‛ (Ynoguti, C. A. & Violaro, F. 2008) é composta

por sinais de fala de 71 locutores (50 homens e 21 mulheres), digitalizados a 22,05 kHz e com 16

bits/amostra. O treinamento foi feito com 20 locuções de cada locutor, totalizando 70 s de

duração na média. O sistema foi testado usando 10 locuções de cada locutor, cada uma com

duração entre 3 e 4 s.

A terceira base, ‚corpus ELSDSR‛, foi desenvolvida no ‚Department of Informatics and

Mathematical Modeling, Technical University of Denmark‛. Este corpus foi concebido para

fornecer dados de fala para o desenvolvimento e avaliação de sistemas automáticos de

reconhecimento de locutor em ambiente controlado. As locuções estão registradas em arquivo

tipo WAV (PCM). A base é feita via gravação direta com microfone de alta qualidade (Feng, L. &

Hansen, L. K. 2005), e é composta por sinais de fala de 22 locutores (11 homens e 11 mulheres)

76 SISTEMA DESENVOLVIDO

com frequência de amostragem de 16 kHz e com 16 bits/amostra. Em média, a duração do

material do treinamento é de 83 s. Para o teste são empregadas 2 locuções com duração, em

média, de 17,6 s cada uma.

6 Análise da Natureza Multifractal em

Sinais de Fala

Neste capítulo, é realizado um estudo sobre características multifractais presentes em

sinais de fala, através de curvas multifractais como espectro multifractal ou funções de

escalonamento. Estas curvas (curvas de singularidade) fornecem informações e orientações

importantes para o processamento, como decomposição, representação e caracterização do

espectro, de forma análoga a análise de Fourier em abordagens tradicionais (Langi, A. &

Kinsner, W. 1995). Para este estudo, são avaliadas locuções das três bases de dados mencionadas

anteriormente. Este estudo aproveita as diferentes taxas de amostragem da base, além de

experimentar locuções de diferentes comprimentos a fim de observar e determinar a natureza

multifractal para sinais em diferentes condições. Com isso, pretende-se abrir as portas para o

uso de ferramentas multifractais em processamento de fala, como alternativa ou complemento

aos métodos tradicionais. Para detectar a natureza multifractal do sinal de fala, foi analisado seu

comportamento, tendo como base a teoria apresentada nos Capítulos 2 e 3 sobre o formalismo

multifractal.

78 ANÁLISE DA NATUREZA MULTIFRACTAL EM SINAIS DE FALA

6.1 Testes

6.1.1 DESCRIÇÃO DOS SINAIS DE FALA

Os sinais de fala empregados nas simulações são locuções das três bases de fala citadas

no capítulo 5. Foram selecionadas aleatoriamente 30 locuções de alguns locutores de cada base

de fala, para a formação do subconjunto de teste. Deve ser lembrado que as locuções

provenientes de bases de fala diferentes possuem diferentes frequências de amostragem.

Antes da análise multifractal do sinal de fala proposto, as locuções são submetidas a um

pré-processamento, com o fim de corrigir alguns fatores que podem atrapalhar ou alterar o

comportamento real do sinal. Nesta etapa são efetuados: filtragem de pré-ênfase, normalização e

eliminação de trechos de silêncio. Esses procedimentos são implementados da mesma forma

como apresentado em capítulos anteriores.

6.1.2 INVESTIGAÇÃO EXPERIMENTAL

Nesta subseção, é apresentado um trabalho experimental para a estimação de parâmetros

multifractais em sinais de fala, baseado nos métodos de análise multifractal descritos no

Capítulo 2. Graficamente, foi avaliado o comportamento multifractal de sinais de fala,

encontrando características multifractais similares para todas as locuções testadas. A

metodologia adotada para o desenvolvimento desta avaliação é formulada em duas etapas

sequenciais de processamento: (a) inicialmente, é aplicado o método dos momentos para obter a

função de partição e a função de escala , abordadas na seção 2.3.1; (b) é feita a análise

do comportamento de escala para diferentes classes fonéticas (vogais, fricativas, etc.) presentes

no sinal de fala espontânea, através do espectro de Legendre tratado na seção 2.3.2.

Teste Experimental 1: O método dos momentos foi implementado e desenvolvido no

software MATLAB. O algoritmo determina a soma de partição e a função de partição através da

variação da ordem do momento . Para fins de ilustração, as Figura 6.1.a e 6.1.c mostram as

curvas das funções de partição ( versus ) de duas locuções arbitrariamente

selecionadas das bases ELSDSR e Ynoguti 2, respectivamente. De fato, a maioria das locuções

avaliadas apresentam comportamentos similares aos ilustrados nas figuras. Observe que estas

ANÁLISE DA NATUREZA MULTIFRACTAL EM SINAIS DE FALA 79

curvas das funções de partição são bastante lineares relativamente, independentemente da

frequência de amostragem e duração do sinal. Isso significa que os sinais de fala podem ter um

comportamento ou característica fractal. Entretanto, existem pequenas irregularidades, que

indicam que os sinais podem apresentar diferentes propriedades de escala, ou seja,

comportamento não uniforme em diferentes escalas.

a. b.

Figura 6.1 – Função de Partição: (a e c); Função de escalonamento vrs : (b e d).

As curvas da função de escalonamento ilustradas na Figura 6.1.b e 6.1.d mostram

que não é linear em função de , o que sugere a existência de propriedades de multi-escala,

ou seja, multifractal. Nestes gráficos as barras verticais representam os intervalos de confiança

80 ANÁLISE DA NATUREZA MULTIFRACTAL EM SINAIS DE FALA

de 95%, dos valores estimados da função de escalonamento em relação a cada ordem do

momento , considerando todas as locuções do conjunto do teste tanto para a base Ynoguti 2

como para a base ELSDSR.

Para as três bases analisadas, quase todos os intervalos de confiança são pequenos e

apresentam dinâmicas semelhantes em . Além disso, foi avaliada a correlação entre as

diferentes funções de escalonamento estimadas a partir das distintas locuções (Figura 6.1.b e

6.1.d). Foi observado que, para cada ordem do momento , a função de correlação tende a 1, o

que implica forte correlação entre as locuções utilizadas nos experimentos.

A análise do sinal da fala realizada neste Teste Experimental 1 é do tipo inspeção visual

sobre a função e não pode ser definitiva ou conclusiva, ainda que sugira a presença ou não

de propriedades de escala diferentes. Portanto, adicionalmente, foi adotada uma abordagem de

análise complementar através da ferramenta espectro multifractal (espectro de Legendre). Essa

abordagem é geralmente muito mais confiável, informativa, e definitivamente, conclusiva.

Teste Experimental 2: Neste teste experimental, sinais de fala são analisados por meio de

fonemas, a menor unidade sonora das quais as palavras são compostas, e do relacionamento

deles com outros fonemas vizinhos. Conforme relatado no Capítulo 2, o espectro multifractal

fornece informação do grau de singularidade de um sinal no tempo e, portanto, da mudança do

expoente de Hölder. Esta variação do expoente de singularidade ao longo do tempo permite

determinar o comportamento multifractal de uma série temporal. O espectro multifractal do

sinal de fala é obtido a partir da aplicação da transformada de Legendre através do software

MATLAB e da ferramenta FRACLAB, desenvolvida pelo centro de pesquisa INRIA Saclay -

Île-de-France (Institut National de Recherche en Informatique et en Automatique) e IRCCyN

(L'Institut de Recherche en Communications et Cybernétique, Nantes).

Neste teste, foi usado o mesmo conjunto de locuções do Teste Experimental 1, mas

focalizando-se nas bases de dados ‚Ynoguti 1‛ e ‚Ynoguti 2‛, pois os fonemas empregados

variam para cada língua, e estas duas bases estão compostas por locuções em português nativo.

Para o desenvolvimento destes experimentos foram considerados 36 fones do português falado

no Brasil, mostrados na Tabela 6.2, os quais são associados a diferentes classes fonéticas. Na

Tabela 6.1, são listadas as classes fonéticas e os fones que as compõem:

ANÁLISE DA NATUREZA MULTIFRACTAL EM SINAIS DE FALA 81

Tabela 6.1: Classes fonéticas com seus respectivos fones.

Classes Fones

Silêncio (s) #

Vogais orais (v) a, e, ɛ, i, j, o, ɔ, u

Vogais nasais (vn) ᾶ, ẽ, ῖ, õ, ũ

Consoantes plosivas (p) p, t, tʃ, k, b, d, ʤ, g

Consoantes fricativas (f) f, s, ʃ, v, z, ʒ

Consoantes laterais (l) l, ʎ

Consoantes nasais (n) n, m, ɲ

Consoantes vibrantes (vb) r, , R

O dicionário fonético empregado nesta análise foi o adotado por (Ynoguti, C. & Violaro,

F 1999), e suas sub-unidades acústicas são apresentadas na Tabela 6.2.

Para visualizar os comportamentos obtidos foram analisados trechos de fala que incluem

diferentes classes fonéticas (v, p, f e n) de 4 locuções do conjunto de teste. Para cada trecho é

estimada a distribuição de singularidades em diferentes escalas de tempo (20ms, 50ms, 100ms,

200ms, 400ms), a fim de examinar as dinâmicas da fala espontânea nas diferentes escalas. As

escalas menores cobrem parte do fonema estudado e, portanto, a análise focaliza o

comportamento do fonema quase isolado. Nas escalas de tempo maiores, os intervalos de fala

estudados incluem tanto o fonema em questão assim como fonemas vizinhos, observando o

comportamento da interação entre diferentes fonemas.

82 ANÁLISE DA NATUREZA MULTIFRACTAL EM SINAIS DE FALA

Tabela 6.2: Sub-unidades acústicas utilizadas na transcrição fonética das locuções, com exemplos.

Fone

Símbolo

utilizado

Exemplo

silêncio

a çafrão

e e e levador

ɛ E p e le

i i s i no

j y fu i

o o b o lo

ɔ O b o la

u u l u a

ᾶ an maç ã

ẽ en s en ta

ῖ in p in to

õ on s om bra

ũ un um

b b b ela

d d d ádiva

ʤ D d iferente

f f f eira

g g g orila

ʒ j j iló

k k c achoeira

l l l eão

ʎ L lh ama

m m m ontanha

n n n évoa

ɲ N i nh ame

p p p oente

r r ce r a

r rr ce rr ado

R R ca r ta

s s s apo

t t t empes t ade

tʃ T t igela

v v v erão

ʃ ch ave

z z z abumba

Na Tabela 6.3, são listadas as descrições das frases usadas, assim como uma cor

associadas a cada uma delas.

ANÁLISE DA NATUREZA MULTIFRACTAL EM SINAIS DE FALA 83

Tabela 6.3: Descrição das frases analisadas.

Frase Gênero Base de dados Cor

A vitória foi paga, com muito sangue

/ a / v i t O r y a /f o y /p a g a / k on / m u y t o /s an g i /

Homem Ynoguti 1 1

A cabine telefônica fica na próxima rua

/ a / k a b i n y / t e l e f o n i k a /f i k a /n a / p r O s i m a /rr u a /

Homem Ynoguti 1 2

Tudo para incentivar o turismo na região

/ t u d u / p a r a / in s en t i v a r / o / t u r i s m u / na / rr e j i an un /

Homem Ynoguti 2 3

Primeiro será analisada a classe fonética ‚Vogais orais‛. Para isto são escolhidos alguns

fonemas em diferentes condições. Por exemplo, na Figura 6.2, é ilustrada a distribuição dos

expoentes de Hölder para a vogal ‚a‛, tanto isolada quanto no meio de uma palavra.

A cabine Para

a. Duração = 1 período de pitch

2 2.2 2.4 2.6 2.8 3 3.2-0.5

0.5

1Singularity Spectrum

Singularity

1.2 1.3 1.4 1.5 1.6 1.7 1.80.3

0.4

0.5

0.6

0.7

0.8

0.9

1Singularity Spectrum

Singularity

84 ANÁLISE DA NATUREZA MULTIFRACTAL EM SINAIS DE FALA

b. Duração = 2 período de pitch

c. Duração = 50ms

ANÁLISE DA NATUREZA MULTIFRACTAL EM SINAIS DE FALA 85

d. Duração = 100ms

e. Duração = 500ms

Figura 6.2 – Espectro de Legendre de segmentos das frases 2 e 3, iniciando na vogal ‚a‛: a. Um período

de pitch do fonema “a”, b. dois períodos de pitch do fonema “a”, c. 50ms, d. 100ms, e. 500ms.

86 ANÁLISE DA NATUREZA MULTIFRACTAL EM SINAIS DE FALA

A Figura 6.2.a mostra o espectro da singularidade para o sinal de fala (vogal “a‛) com

duração de 1 período de pitch. Observa-se que, nesta escala, o sinal de fala tem característica

monofractal. Na Figura 6.2.b, considerando uma duração de 2 períodos de pitch, já se nota um

comportamento multifractal (curva com concatividade negativa). Este mesmo comportamento

persiste até a escala de tempo de 100ms, onde são incluídos vários períodos de pitch, Figura

6.2.d e c. Para escalas maiores o sinal de fala perde o comportamento multifractal; assim, para

intervalos em torno de 500ms de duração e superiores, o sinal da fala revela novamente

características monofractais, como ilustrado pela Figura 6.2.e. A maioria dos testes efetuados

apresentou um comportamento semelhante para segmentos de fala compostos por vogais orais,

nasais e algumas consoantes sonoras

A segunda classe fonética estudada foi ‚Consoantes plosivas‛. Estas consoantes são

caracterizadas por terem muita curta duração, pois são resultado da liberação explosiva de um

acúmulo de pressão que ocorre quando o trato vocal está fechado em algum ponto por um

obstáculo bucal. Além disso, usualmente são seguidas por vogais, o que ocasiona uma mudança

não significativa do som da vogal. Portanto, no entorno das plosivas, o comportamento

multifractal se mantém de maneira semelhante ao dos fonemas vocálicos, como é registrado na

Figura 6.3.

ANÁLISE DA NATUREZA MULTIFRACTAL EM SINAIS DE FALA 87

A vitória A cabine

Duração = 20ms

Figura 6.3 – Espectro de Legendre de segmentos das frases 1 e 2, em torno das plosivas “t” e “b”.

A terceira classe fonética analisada é ‚Consoantes fricativas‛. Desta classe, são tomados

como exemplo os fonemas, ‚f‚ e ‚x‛, e ilustrados seus espectros multifractais, para diferentes de

escalas de tempo, na Figura 6.4.

As consoantes fricativas são geradas pela turbulência produzida quando o ar dos

pulmões é forçado a passar através de uma constrição no trato vocal (Holmes, J. & Holmes, W.

2001). Esta constrição pode ser causada pelos dentes, língua, entre outros. Este fluxo turbulento

de ar é chamado de fricção. No caso da análise das consoantes fricativas se apresentaram dois

comportamentos diferentes, exemplificados pelos dois fonemas selecionados.

88 ANÁLISE DA NATUREZA MULTIFRACTAL EM SINAIS DE FALA

Foi Próxima

a. Duração = 20ms

b. Duração = 50ms

ANÁLISE DA NATUREZA MULTIFRACTAL EM SINAIS DE FALA 89

c. Duração = 100ms

d. Duração = 200ms

Figura 6.4 – Espectro de Legendre do fonema “f” da frase 1 e do fonema “x” da frase 3 para as escalas:

a. 20ms, b. 50ms, c. 100ms e d. 200ms.

0 1000 2000 3000 4000 5000 6000 7000-0.8

-0.6

-0.4

-0.2

0.2

0.4

0.6

90 ANÁLISE DA NATUREZA MULTIFRACTAL EM SINAIS DE FALA

Como é visto na palavra “foi”, o fonema ‚f ‛nas Figura 6.4.a e 6.4.b de cor azul, tem um

comportamento similar ao de um sinal aleatório, que normalmente é caracterizado por

processos monofractais. Na fala espontânea, esta letra é acompanhada por sons sonoros,

precisando deles para alcançar características multifractais em escalas próximas a 100ms, como é

observado na Figura 6.4.c. A maioria de fricativas têm comportamentos similares a este.

O seguinte caso é visualizado analisando o fonema ‚x‛. Segundo a transição fonética este

fonema tem som de s. Na língua portuguesa, quando o s está localizado entre duas vogais, é

produzida uma pequena vibração das cordas vocais, como no caso de sons sonoros. Como se

pode reconhecer nas Figura 6.4.a e 6.4.b de cor vermelha, para escalas de tempo de 20ms e 50ms,

existe periodicidade que faz com que o sinal possua um comportamento semelhante ao

encontrado nos sons vocálicos, exibindo características multifractal em escalas inferiores a

100ms.

De forma geral, todos os segmentos de fala estudados mostraram comportamento

monofractal em grandes escalas (Figura 6.4.d). Outra conduta encontrada na comparação das

classes fonéticas é a variedade de comportamentos para escalas menores, apresentando

características multifractais em alguns casos e em outros não. Este fato pode ser verificado na

comparação da análise do fonema b na Figura 6.3 com o fonema f na Figura 6.4.a. O fonema b

apresenta comportamento multifractal desde escalas de tempo pequenas, mas o fonema f só o

apresenta para escalas superiores aos 50ms. Por conseguinte, foi determinado que, para sinais de

fala espontânea, a gama de escalas entre os 50ms e os 100ms garante o comportamento

multifractal.

6.2 Deslocamento versus Retificação

Na descrição do modelo multifractal VVGM no Capitulo 3, foi estipulada a condição de

que o sinal a ser modelado necessariamente deveria ser positivo. Dado que o sinal de fala

apresenta amplitudes positivas e negativas, faz-se necessário efetuar um tratamento para que

todas as amostras sejam positivas sem perda de informação. Nesta seção, é realizada uma

ANÁLISE DA NATUREZA MULTIFRACTAL EM SINAIS DE FALA 91

análise experimental de dois possíveis métodos que satisfazem essa condição: deslocamento e

retificação.

Tendo por referência os resultados obtidos nas seções anteriores sobre o comportamento

multifractal para sinais de fala, foram realizados vários testes alterando os sinais por meio dos

métodos propostos e fazendo a análise em diferentes escalas de tempo, a fim de avaliar as

mudanças no comportamento fractal produzidas em relação aos sinais originais. Baseando-se no

Teste Experimental 2, sinais de fala escolhidos aleatoriamente foram modificados e verificadas

suas distribuições de singularidade (expoente Hölder) através da transformada de Legendre

para diferentes escalas de tempo.

Após realizar diversos testes com diferentes sinais de fala, foi observado, para a maioria

dos casos, que os sinais de fala submetidos a processo de retificação apresentam um

comportamento multifractal mais acentuado para uma gama mais ampla de escalas de análise

do que os sinais deslocados. Com objetivo de acompanhar melhor os resultados obtidos, na

Figura 6.5, é apresentado um exemplo gráfico das distribuições de singularidade de um trecho

de sinal de fala original, escolhido aleatoriamente, e dos sinais modificados, para diferentes

escalas (10ms, 20ms, 50ms, 100ms, 200ms, 400ms). Este gráfico serve de comparação entre os

métodos de correção.

A análise multifractal do sinal de fala para escalas entre 50ms e 100ms é ilustrada nas

Figura 6.5.c e 6.5.d. Em concordância com o estudo apresentado na seção anterior, no qual foi

concluído que, de forma geral para esta faixa de escalas, os sinais de fala têm comportamento

multifractal, tanto o sinal deslocado quanto o retificado mostram espectros multifractais com

concavidade negativa semelhantes ao original. Para as escalas menores (Figura 6.5.a e 6.5.b) e

maiores (Figura 6.5.e, e 6.5f), pode-se observar que o sinal retificado mantém as propriedades

multifractais para uma gama de escalas mais ampla que o sinal deslocado e, até mesmo, que o

sinal original, como é caso das escalas 10ms e 200ms. Este fenômeno pode acontecer, já que, ao

retificar-se o sinal, são introduzidos transientes de alta frequência e, portanto, enfatizadas as

singularidades, havendo necessidade de um maior número de expoentes de Hölder para sua

caracterização. No caso do sistema de identificação desenvolvido, foram empregados sinais de

fala retificados, já que, para a combinação dos parâmetros característicos de fala (MFCCs e

92 ANÁLISE DA NATUREZA MULTIFRACTAL EM SINAIS DE FALA

0 50 100 150 200 250 300-0.8

-0.6

-0.4

-0.2

0.2

0.4

0.6

VVGM) tanto pelo método da ponderação da probabilidade a posteriori (janelas de 100ms)

quanto no método de fusão em um só vetor (janelas de 20ms ou 30ms), foi obtido um melhor

desempenho.

Sinal Original Sinal Deslocado Sinal Retificado

a. Duração = 10ms

a. Duração = 20ms

Figura. 6.5 – Comparação do espectro multifractal de trecho de sinal de fala entre a faixa de escalas a.

10ms e b. 20ms.

0.85 0.9 0.95 1 1.05 1.1 1.15 1.2 1.25-0.1

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8Singularity Spectrum

Singularity

0 50 100 150 200 250 3000.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

0.75 0.8 0.85 0.9 0.95 1 1.05 1.1 1.15-0.4

-0.2

0.2

0.4

0.6Singularity Spectrum

Singularity

0 50 100 150 200 250 3000

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.90

0.2

0.4

0.6

0.8

1Singularity Spectrum

Singularity

0 100 200 300 400 500 600-1

-0.8

-0.6

-0.4

-0.2

0.2

0.4

0 100 200 300 400 500 6000

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

0 100 200 300 400 500 6000

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

-0.2 -0.1 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.80.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1Singularity Spectrum

Singularity

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

0.2

0.4

0.6

0.8

1Singularity Spectrum

Singularity

0 0.1 0.2 0.3 0.4 0.5 0.6 0.70.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1Singularity Spectrum

Singularity

ANÁLISE DA NATUREZA MULTIFRACTAL EM SINAIS DE FALA 93

Sinal Original Sinal Deslocado Sinal Retificado

b. Duração = 50ms

c. Duração = 100ms

Figura. 6.5 – Comparação do espectro multifractal de trecho de sinal de fala, entre a faixa de escalas c.

50ms e d. 100ms.

0 200 400 600 800 1000 1200-1

-0.5

0.5

-1.5 -1.45 -1.4 -1.35 -1.3 -1.25 -1.2 -1.150.75

0.8

0.85

0.9

0.95

1Singularity Spectrum

Singularity

0 200 400 600 800 1000 12000

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

-1.5 -1.45 -1.4 -1.35 -1.3 -1.25 -1.2 -1.150.75

0.8

0.85

0.9

0.95

1Singularity Spectrum

Singularity

0 200 400 600 800 1000 12000

0.2

0.4

0.6

0.8

1.2

1.4

-0.45 -0.4 -0.35 -0.3 -0.25 -0.2 -0.15 -0.1 -0.05 0 0.050.55

0.6

0.65

0.7

0.75

0.8

0.85

0.9

0.95

1Singularity Spectrum

Singularity

0 500 1000 1500 2000 2500-1

-0.5

0.5

0 500 1000 1500 2000 25000

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

0.4 0.5 0.6 0.7 0.8 0.9 1 1.1 1.2 1.3

0.4

0.5

0.6

0.7

0.8

0.9

1Singularity Spectrum

Singularity

-1.09 -1.08 -1.07 -1.06 -1.05 -1.04 -1.03 -1.02 -1.01 -1 -0.990.86

0.88

0.9

0.92

0.94

0.96

0.98

1Singularity Spectrum

Singularity

0 500 1000 1500 2000 25000

0.2

0.4

0.6

0.8

1.2

1.4

0.65 0.7 0.75 0.8 0.85 0.9 0.95 1 1.05 1.1

0.4

0.5

0.6

0.7

0.8

0.9

1Singularity Spectrum

Singularity

94 ANÁLISE DA NATUREZA MULTIFRACTAL EM SINAIS DE FALA

Sinal Original Sinal Deslocado Sinal Retificado

d. Duração = 200ms

e. Duração = 400ms

Figura 6.5 – Comparação do espectro multifractal de trecho de sinal de fala entre a faixa de escalas e.

200ms e f. 400ms.

0 500 1000 1500 2000 2500 3000 3500 4000 4500-1

-0.5

0.5

0.628 0.63 0.632 0.634 0.636 0.638 0.64 0.642 0.644 0.6460.77

0.78

0.79

0.8

0.81

0.82

0.83Singularity Spectrum

Singularity

0 500 1000 1500 2000 2500 3000 3500 4000 45000

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

-0.5 0 0.5 1 1.5 2-0.5

0.5

1.5

2Singularity Spectrum

Singularity

0 500 1000 1500 2000 2500 3000 3500 4000 45000

0.2

0.4

0.6

0.8

1.2

1.4

0.2 0.25 0.3 0.35 0.4 0.45 0.5 0.550.4

0.5

0.6

0.7

0.8

0.9

1Singularity Spectrum

Singularity

0 1000 2000 3000 4000 5000 6000 7000 8000 90000

0.2

0.4

0.6

0.8

-0.5 0 0.5 1 1.5 2-0.5

0.5

1.5

2Singularity Spectrum

Singularity

0 1000 2000 3000 4000 5000 6000 7000 8000 9000-1

-0.8

-0.6

-0.4

-0.2

0.2

0.4

0.6

-0.5 0 0.5 1 1.5 2-1

-0.5

0.5

1.5Singularity Spectrum

Singularity

0 1000 2000 3000 4000 5000 6000 7000 8000 90000

0.2

0.4

0.6

0.8

1.2

1.4

0.85 0.9 0.95 1 1.05 1.1 1.15 1.2 1.25 1.3-0.2

0.2

0.4

0.6

0.8

1.2Singularity Spectrum

Singularity

7 Teste e Análise de Resultados

Neste capítulo, são descritos os resultados de avaliação dos sistemas desenvolvidos

utilizando as bases de dados expostas no Capítulo 5. O estudo experimental está dividido em

três conjuntos de testes. No primeiro, é discutido o desempenho do sistema ASI empregando os

parâmetros MFCCs e VVGM’s individualmente. No segundo, os dois sistemas são fundidos no

nível de pontuação descritos na seção 5.2. Finalmente, é avaliado o método de fusão no nível de

características apresentado na seção 5.3.

Antes de apresentar os referidos testes, são feitas algumas especificações necessárias para

a avaliação do sistema de identificação. A motivação e o procedimento são descritos na seção

7.1.

7.1 Avaliação do Desempenho

7.1.1 LOCUÇÕES DE TESTE

O sistema de identificação foi avaliado com duas estruturas de locuções de teste. Com a

primeira estrutura, o sistema trabalha com frases completas, as quais possuem comprimentos

diferentes. Através deste enfoque, foram examinadas as melhores configurações dos parâmetros

envolvidos no sistema, tais como comprimento da janela, ordem do modelo, entre outros, em

relação a carga computacional versus taxas de reconhecimento do sistema. A segunda estrutura

avalia o sistema de identificação utilizando locuções de teste com diferentes comprimentos (1 s,

2 s, 3 s). As locuções são segmentadas nos comprimentos específicos através do procedimento

descrito a seguir. Denotando os vetores de características da locução completa como ,

96 TESTE E ANÁLISE DE RESULTADOS

são empregados T vetores consecutivos extraídos das locuções. Este valor depende do

deslocamento da janela do processamento. Assim, para um teste de 1 s e uma locução

processada com vetor de parâmetros calculados cada 10ms, T será igual a 100. Conhecendo o

número de vetores que representa o tempo escolhido, são selecionados vários segmentos para

serem avaliados. O primeiro segmento é composto pelos vetores a . O segundo segmento é

composto pelos vetores a . O terceiro segmento é composto pelos vetores a

, e assim por diante.

Os experimentos foram realizados empregando (deslocamentos de 250ms), valor

escolhido para experimentar locuções com diferenças consideráveis entre elas, enquanto

aproveitando o maior número de segmentos para avaliar.

Em ambas as estruturas, trechos de silêncio são eliminados, sendo considerados só os

vetores de características que possuem informação relevante.

7.1.2 CÁLCULO DE DESEMPENHO

Para o cálculo de desempenho do sistema de identificação, cada locutor treinado é

testado com um número de locuções definido pela base de dados usada. Cada identificação

correta do sistema é contabilizada.

Este processo é feito com todos os locutores. Ao fina do processo, tem-se a soma de todos

os acertos do sistema. A porcentagem de identificação do sistema é determinada usando-se a

seguinte relação:

Cada locutor tem, aproximadamente, um igual número de locuções de teste. Portanto, a

avaliação do desempenho do sistema pode ser vista como não-tendenciosa (‚unbiased‛).

TESTE E ANÁLISE DE RESULTADOS 97

7.2 Características dos Parâmetros VVGM

Baseando-se no procedimento de extração dos parâmetros através do VVGM discutido

na seção 5.1.2, é determinada a ordem do vetor de características usado pelo sistema de

identificação. Esta ordem é determinada dependendo da frequência de amostragem e do

comprimento da janela de processamento. Por exemplo, um intervalo de 100ms de uma locução

com frêquencia de amostragem 22,05 kHz pode gerar uma cascata de 11 níveis, definindo um

vetor de características de dimensão 9. Na Tabela 7.1, apresenta-se a descrição dos parâmetros

VVGM dos diferentes experimentos desenvolvidos, para cada uma das bases de dados testadas.

Tabela 7.1: Descrição dos parâmetros VVGM, para as três bases empregadas.

Primeira Base de Dados ‚Ynoguti 1‛

Frequência de amostragem: 11,025 kHz

Janela

(ms)

Amostras # níveis da

cascata N

Parâmetros VVGM

N-2

100 1102 10 8

30 330 8 6

20 220 8 6

Segunda Base de Dados ‚Ynoguti 2‛

Frequência de amostragem: 22,05 kHz

Janela

(ms)

Amostras # níveis da

cascata N

Parâmetros VVGM

N-2

100 2205 11 9

30 661 9 7

20 445 9 7

Terceira Base de Dados “corpus ELSDSR”

Frequência de amostragem: 16 kHz

Janelas

(ms)

Amostras # níveis da

cascata N

Parâmetros VVGM

N-2

100 1600 10 8

30 480 8 7

20 320 8 7

98 TESTE E ANÁLISE DE RESULTADOS

Deve ser lembrado que o módulo de extração de parâmetros VVGM trabalha com um

número de amostras , onde é o número de estágios possíveis da cascata. Assim, para janelas

de 30 e 100ms, é utilizado o máximo número de amostras que satisfaz esta condição. Por

exemplo, ao analisar a base de dados 1 com janelas de 100ms (Tabela 7.1.a), são usadas apenas

1024 amostras com , mesmo que cada janela possua 1102 amostras. Para o caso de análise

com janelas de 20ms, por serem intervalos muito curtos, é preciso usar um superior ao obtido

pelo número de amostras da janela, esticando com amostras da janela seguinte até o mais

próximo que satisfaça a condição. Observando a base 1, uma janela de 20ms está composta por

220 amostras: logo, serão acrescentadas amostras da janela seguinte até se atingir o total de 256

amostras, com .

7.3 Primeiro Conjunto de Testes: Sistema Usando Parâmetros MFCCs e

VVGM Individualmente

Para a formação do subconjunto de testes, foram utilizadas as três bases de dados

apresentadas na seção 5.5: ‚Ynoguti 1‛, ‚Ynoguti 2‛ e ‚Elsdsr‛, compostas por 30, 71, e 22

locutores, respectivamente. Os primeiros testes utilizaram frases completas e individuais com

comprimentos diferentes. Para as primeiras duas bases de dados, foram empregadas as 10

locuções de teste de cada locutor originalmente gravadas. Para avaliar a terceira base de dados,

foram segmentadas manualmente as duas locuções de teste originalmente gravadas por cada

locutor. Desta segmentação, foram geradas entre 5 e 9 locuções por pessoa, com comprimentos

na faixa entre 2,0 e 3,5 s.

O treinamento para o sistema baseado nos parâmetros VVGM usou janelas de 100ms

com deslocamentos a cada 10ms, e a dimensão do vetor de características é definida na Tabela

7.1 para cada base de dados. Já o treinamento do sistema de parâmetros MFCCs usou janelas de

20ms com deslocamentos de 10ms, e vetor de características de dimensão 12. Além disso, foram

experimentadas misturas com diferentes números de gaussianas, no entanto, a melhor

configuração em termos de tempo de processamento e desempenho foi obtida com 8 gaussianas.

TESTE E ANÁLISE DE RESULTADOS 99

Para um maior número de gaussianas, o tempo de processamento aumentou consideravelmente,

enquanto a taxa de reconhecimento não mostrou melhoria significativa. Na

Tabela 7.2, têm-se os resultados deste primeiro conjunto de testes.

Tabela 7.2: Taxa de reconhecimento (%) dos sistemas de identificação baseados em VVGM e MFCCs.

Base

dado

Duração das

locuções de

treinamento

Aprox.

Ordem do

modelo

VVGM MFCCs

Ynoguti

60s 6 71,03 % 98,70 %

8 75,80 % 99,30 %

Ynoguti

70s 6 88,90 % 99,01 %

8 91,30 % 99,57 %

Elsdsr 83s 6 63,20 % 95,90 %

8 70,01 % 97,30 %

7.4 Segundo Conjunto de Testes: Sistema de Identificação Empregando

Fusão no Nível de Pontuação dos Sistemas VVGM e MFCCs

Este conjunto de testes avalia o desempenho do sistema de identificação apresentado na

seção 5.4.1, no qual os sistemas ASI são desenvolvidos de maneira independente para cada tipo

de parâmetro (VVGM e MFCCs) e misturados no nível de pontuação ao ponderar a

probabilidade a posteriori de cada locutor, baseando-se no esquema da Figura 5.1.

Uma vez estabelecida uma referência da configuração para o sistema de identificação

através do primeiro conjunto de testes, são escolhidos os sistemas com configurações que

alcançaram as melhores respostas para serem misturados. O resultado da taxa de

reconhecimento deste método é apresentado na Tabela 7.3. Para as três bases de dados, a melhor

100 TESTE E ANÁLISE DE RESULTADOS

taxa foi obtida com um peso de ponderação de 0,6 para parâmetros MFCCs e 0,4 para os

parâmetros VVGM.

Tabela 7.3: Taxa de reconhecimento (%) do sistema de identificação misturando as probabilidades a

posteriori dos sistemas que empregam parâmetros VVGM e MFCCs.

Base de

dados

MFCCs

+VVGM

MFCCs VVGM

Ynoguti 1 99,70 % 99,30 % 75,80 %

Ynoguti 2 99,89 % 99,57 % 91,30 %

Elsdsr 99,01 % 97,30 % 70,01 %

7.5 Terceiro Conjunto de Testes: Sistema de Identificação Empregando

Fusão no Nível de Características.

Este conjunto de testes é fundamentado no sistema de identificação descrito na seção

5.4.2. Neste sistema, são acoplados os parâmetros MFCCs e VVGM em um só vetor de

características, sendo efectuada uma única modelagem através de GMM para cada locutor,

conforme indicado no diagrama da Figura 5.2. Estes testes envolvem as três bases de dados.

O desempenho do sistema foi avaliado inicialmente através da abordagem com locuções

de frases completas. Além disso, foram experimentados dois tamanhos de janela para o

processamento: 20 e 30ms (usadas no módulo de extração de características). O tamanho do

vetor de características obtido desta fusão está sujeito ao comprimento desta janela, pois, como

se apresenta na Tabela 7.1, cada base gera um número diferente de parâmetros VVGM. Por

exemplo, ao analisar uma locução da primeira base usando janelas de 30ms, são gerados 6

parâmetros. Estes, concatenados aos 12 parâmetros MFCCs, geram um vetor de dimensão 18. A

Tabela 7.4 expõe as taxas de reconhecimento obtidas pela nova configuração. Apenas as

configurações com melhores taxas foram apresentadas.

TESTE E ANÁLISE DE RESULTADOS 101

Tabela 7.4: Taxa de reconhecimento (%) do sistema de identificação, fundindo os parâmetros VVGM e

MFCCs.

Base

de fala

Janelas MFCCs VVGM Ordem

modelo

MFCCs+VVGM

Ynoguti

20 99,30 % 62,70 % 10 100,00 %

30 99,30 % 62,70 % 10 100,00 %

Ynoguti

20 99,57 % 81,90 % 9 99,85 %

30 98,59 % 84,78 % 8 100,00 %

Elsdsr 20 95,90 % 60,89 % 8 97,30 %

30 95,30 % 63,08 % 8 98,65 %

Na Tabela 7.4, pode-se observar que o fato de empregar comprimentos de 30ms degrada

o desempenho do sistema de reconhecimento baseado em parâmetros MFCCs, mas permite que

o sistema VVGM consiga representar melhor o locutor, pois determina as variâncias dos

multiplicadores de forma mais precisa. Assim, o sistema combinado alcança taxas de

reconhecimento mais altas.

Depois de estabelecer os melhores parâmetros de funcionamento do sistema, foi

realizado um último conjunto de experimentos enfatizado na avaliação dos comprimentos das

locuções de teste. As três bases de dados são avaliadas com locuções de 1, 2 e 3 s de duração.

Como listado na Tabela 7.4, ao serem usados janelas de 30ms são registradas as melhores taxas

de reconhecimento. Por isso, este comprimento é adotado nos atuais testes. Os resultados para

este procedimento são mostrados na Tabela 7.5

102 TESTE E ANÁLISE DE RESULTADOS

Tabela 7.5: Taxa de reconhecimento (%) do sistema de identificação, combinando os parâmetros VVGM e

MFCCs com locuções de teste de diferentes durações.

Base

de fala

Ordem

modelo

Duração

das

Locuções

de Teste

MFCCs MFCCs +

VVGM

Número

de testes

Ynoguti

1 s 87,47 % 90,64 % 1876

2 s 97,50 % 98,75 % 1082

3 s 98,73 % 99,71 % 395

Ynoguti

1 s 90,60 % 94,37 % 7891

2 s 96,31 % 98,89 % 6939

3 s 98,76 % 99,43 % 4129

Elsdsr

1 s 92,76 % 94.30 % 815

2 s 94,95 % 96,87 % 615

3 s 98,40 % 99,31 % 300

7.5.1 EXPERIMENTO COM BASE RUIDOSA

Adicionalmente aos testes apresentados, foi realizado um experimento preliminar

empregando uma base de fala gravada através de telefone fixo, a fim de se ter uma perspectiva

do comportamento do sistema de reconhecimento com a introdução de ruído de canal. A base

usada foi “BaseIME”, desenvolvida pelo ‚Departamento de Engenharia Elétrica de Instituto

Militar de Engenharia (IME)‛. Esta base é composta por 75 pessoas (50 homens e 25 mulheres),

locuções com frequência de amostragem de 8 kHz e com codificação linear com 8 bits/amostra.

O material de treinamento e teste de cada locutor tem, em média, 140 s de duração.

Neste experimento, foi calculada a taxa de reconhecimento obtida pelo sistema com

parâmetros MFCCs e com o sistema baseado no método de fusão (MFCCs + VVGM) com janelas

de 30ms de comprimento. Para o primeiro, foi empregado um vetor de características de

dimensão 12, e, para o segundo, um vetor de dimensão 18 (12 parâmetros MFCCs + 6

TESTE E ANÁLISE DE RESULTADOS 103

parâmetros VVGM). Este experimento foi avaliado com locuções de teste com duração de 5 s.

Na Tabela 7.6, são apresentadas as taxas de reconhecimento obtidas pelos sistemas.

Foi observado que as locuções do locutor 14 apresentaram erros de gravação, gerando

uma grande quantidade de erros de reconhecimento. Ao excluir as locuções de teste deste

locutor o sistema aumentou significativamente a taxa de reconhecimento (Tabela 7.6).

Tabela 7.6: Taxa de reconhecimento (%) do sistema de identificação, combinando os parâmetros VVGM

MFCCs

Base de fala Ordem

modelo

GMM

Duração

Locuções

Teste

MFCCs MFCCs +

VVGM

Número

de testes

BaseIME

5 s

96.73 %

97.27 %

35041

BaseIME

Excluído

Locutor 14

5 s

97.96 %

98, 30 %

34601

7.6 Análise dos Resultados

Neste capítulo, foram apresentados os testes de avaliação dos sistemas implementados,

utilizando as bases de dados descritas no Capítulo 5. Os seguintes itens foram analisados

baseando-se nos resultados obtidos dos testes:

Desempenho do sistema de identificação baseado nos parâmetros VVGM;

Influência do comprimento da janela de processamento no desempenho dos

parâmetros VVGM;

Avaliação de sistema com adição de ruído de canal e comparação com sistemas de

reconhecimento atuais.

Desempenho final do sistema.

A seguir, cada um destes itens será analisado com maiores detalhes.

104 TESTE E ANÁLISE DE RESULTADOS

7.6.1 DESEMPENHO DO SISTEMA DE IDENTIFICAÇÃO BASEADO NOS PARÂMETROS VVGM

Estes testes iniciais mostraram taxas de reconhecimento relativamente elevadas, com

porcentagens aproximadas entre 70 e 90% de acerto para as três bases experimentadas. Com

isso, foi possível corroborar a idéia de modelar sinais de fala como processos multifractais.

Assim, por meio da análise das variâncias dos multiplicadores da cascata multiplicativa,

representa-se a distribuição da medida apresentada no Capítulo 2, a qual mostra a forma do

crescimento do processo multifractal.

Além disso, uma vez que o modelo VVGM faz uma análise focada nas partes não-

estacionárias do sinal, é possível distinguir a importância e a quantidade de informação da

identidade de cada locutor presente nestas áreas.

7.6.2 INFLUÊNCIA DO COMPRIMENTO DA JANELA DE PROCESSAMENTO NO DESEMPENHO DOS

PARÂMETROS VVGM

No Capítulo 5, foi mencionado que o comprimento das janelas retangulares adequado ao

procedimento de extração dos parâmetros VVGM era 100ms. Isso foi verificado aplicando este

tamanho de janela no sistema de identificação e obtendo as melhores taxas de reconhecimento,

como pode ser visto na Tabela 7.2, em relação as taxas alcançadas com o uso de outros

comprimentos de janelas menores, listadas na Tabela 7.4.

Dado que os parâmetros VVGM representam a análise da variância dos multiplicadores

nos estágios da cascata gerada para um trecho de fala, ao considerar janelas de 20ms ou 30ms,

têm-se muito menos amostras em comparação com uma janela de 100ms. Isto implica que a

cascata gerada em trechos curtos vai ter menos estágios, assim como variâncias estimadas de

forma menos precisa. Este fenômeno pode ser observado na Figura 7.1, onde são ilustrados os

histogramas dos estágios 2 e 3 para uma locução da primeira base de dados. Nas Figura 7.1.a e

7.1.b, é analisado um trecho de 100ms de duração, e se observa que a distribuição dos

multiplicadores tende a ser gaussiana. Esta distribuição se degenera significativamente nas

Figura 7.1.c e 7.1.d. para 30ms e 7.1.e e 7.1.f. para 20ms.

TESTE E ANÁLISE DE RESULTADOS 105

Figura 7.1 – Histogramas dos multiplicadores para os estágios 2 e 3 de uma locução da primeira base de

dados: a. Estágio 2 para janela de 100ms; b. Estágio 3 para janela de 100ms; c. Estágio 2 para janela de

30ms; d. Estágio 3 para janela de 30ms; e. Estágio 2 para janela de 20ms; f. Estágio 3 para janela de 20ms.

-0.2 0 0.2 0.4 0.6 0.8 1 1.20

0.5

1.5

2.5

3.5

106 TESTE E ANÁLISE DE RESULTADOS

Apesar de que dessa degeneração não pode ser corrigida, a fusão dos dois parâmetros

em um só vetor representa grandes vantagens nas taxas de reconhecimento e na robustez do

sistema, confirmando a hipótese previamente apresentada. Em resumo, para estes casos, sugere-

se a implementação de um sistema com o mesmo tamanho de janelas para o processamento dos

dois parâmetros VVGM e MFCCs. Analisando a Tabela 7.4, verifica-se que esta configuração

obteve melhores resultados que a fusão no nível de pontuação da Tabela 7.3. Outro evento que

mostrou a superioridade do método de fusão no nível de características foi que, em várias

ocasiões, os dois subsistemas isolados (método de fusão no nível de pontuação), escolhem

erradamente um mesmo locutor, impossibilitando sua correção.

7.6.3 AVALIAÇÃO DE SISTEMA COM RUÍDO DE CANAL E COMPARAÇÃO COM SISTEMAS DE

RECONHECIMENTO ATUAIS.

Embora, esta avaliação não seja tão aprofundada (Tabela 7.6), foi possível observar que o

comportamento do sistema foi coerente com os experimentos realizados usando as três bases de

fala gravadas através de microfone, apresentadas no Capitulo 5, e as taxas de reconhecimento

obtidas foram superiores para o sistema com parâmetros combinados.

A base “BaseIME” foi empregada para a avaliação do sistema de reconhecimento de

locutor implementado por (Sant’Ana, R., Coelho, R. & Alcaim, A. 2006), citado no Capítulo de

Introdução. Embora, na referida pesquisa, não seja assumido que o sinal de fala é fractal, usam-

se fundamentos fractais tanto para a extração de parâmetros quanto para o classificador. O

sistema implementado na referência acima também sugere a combinação dos parâmetros

tradicionais MFCCs com seu vetor de parâmetros proposto Hurst e obteve uma taxa de

reconhecimento de 97,46% para locuções de teste de comprimento 5 s, empregando 15

parâmetros MFCCs e 97,66% combinando (MFCCs+HURST). No sistema acima também foi

usado GMM como classificador.

Não foi possível realizar uma comparação direta do sistema apresentado acima com o

proposto nesta dissertação, uma vez que a referência não fornece o número de gaussianas

empregado para a modelagem e, portanto, não é possível replicar a configuração do sistema

TESTE E ANÁLISE DE RESULTADOS 107

com os parâmetros MFCCs. Assim, as taxas de reconhecimento obtidas em cada sistema são

diferentes.

Adicionalmente, observou-se que a base foi gravada com PCM linear a 8 kHz com 8

bits/amostra (elevado ruído de quantização), além de apresentar picos de amplitude elevada,

que interferem com o sistema proposto no processo de normalização e adequação do sinal.

Mesmo nestas condições, as taxas de reconhecimento de ambos os sistema são muito próximas.

Embora o sistema proposto não supere as taxas de reconhecimento do sistema citado, ao excluir

as locuções da pessoa 14 o sistema com VVGM+MFCCs obteve taxas superiores como se observa

na Tabela 7.6. Uma vantagem do sistema proposto nesta dissertação, em relação ao outro, é a

baixa carga computacional, devido ao uso de funções básicas aritméticas (VVGM) enquanto que

o sistema citado emprega funções wavelet (HURST).

7.6.4 DESEMPENHO FINAL DO SISTEMA

Em todos os testes, foi observado um incremento no desempenho do sistema de

identificação ao misturar os parâmetros.

Comparando os resultados dos primeiro conjunto de testes (parâmetros individuais),

mostrados na seção 6.3, com os resultados do segundo conjunto de testes finais (fusão

no nível de pontuação), descritos na seção 6.4, pode-se verificar que a taxa de

reconhecimento subiu 0,40% para a primeira base, 0,32% para a segunda base e 1,70%

para a terceira base.

Comparando os resultados dos primeiro conjunto de testes (parâmetros individuais),

mostrados na seção 6.3, com os resultados do terceiro conjunto de testes finais (fusão

no nível de características), descritos na seção 6.5, pode-se verificar que a taxa de

reconhecimento subiu 0,70% para a primeira base, 1,42% para a segunda base e 3,33%

para a terceira base.

Analisando a Tabela 7.5, pode-se observar que, para todos os comprimentos testados,

o sistema fusionado apresentou taxas de reconhecimento mais altas. Tendo em vista

que, o teste foi realizado com uma ampla quantidade de locuções, esta diferença de

porcentagem de acerto representa um incremento importante no desempenho.

108

109

8 Conclusões

Neste trabalho, foi proposto e implementado um sistema de reconhecimento de locutor

independente de texto, baseado em misturas de gaussianas, que utiliza como vetor de

características os parâmetros multifractais VVGM e os parâmetros clássicos MFCCs. O sistema

desenvolvido tem uma estrutura composta pelos módulos de extração de parâmetros,

treinamento e reconhecimento. A partir desta estrutura, são implementados dois sistemas novos

que combinam os dois parâmetros de características. No primeiro sistema, é efetuada

ponderação da probabilidade a posteriori obtida a partir de cada parâmetro individualmente no

módulo de reconhecimento. No segundo, é feita a fusão dos parâmetros em um só vetor no

módulo de extração de parâmetros. Foram realizados diferentes testes de avaliação para cada

sistema, empregando três bases de fala: “Ynoguti 1”, “Ynoguti 2” e ‚Elsdsr”. Destes testes foi

possível concluir:

Ao se avaliar o sistema ASR empregando unicamente os parâmetros VVGM,

foram obtidas taxas de reconhecimento de 75,80%, 91,30% e 70,01% nas bases

“Ynoguti 1”, “Ynoguti 2” e ‚Elsdsr” respectivamente. Embora estas taxas não

sejam tão elevadas quanto as obtidas pelos sistemas com MFCCs, são suficientes

para mostrar que estes parâmetros possuem informação relevante da identidade

do locutor que pode ser usada como informação complementar.

Foi observado um melhor desempenho nos sistemas com fusão dos parâmetros

VVGM e MFCCs que no sistema baseado unicamente nos parâmetros MFCCs.

Assim, para as bases de dados “Ynoguti 1”, “Ynoguti 2” e ‚Elsdsr”, a taxa de

reconhecimento aumentou 0,4% , 0,33% e 1,71% respectivamente para o método

de fusão no nível de pontuação de probabilidades e 0,7%, 1,43% e 3,35%

110 CONCLUSÕES

respectivamente para o método de fusão no nível de características. Esses

aumentos da taxa de reconhecimento mostram também a superioridade em

relação ao método de ponderação.

Por outro lado, dado que o modelo multifractal VVGM é baseado em cascatas

multiplicativas conservativas, é necessário trabalhar com sinais positivos. Para cumprir este

requisito, foram experimentados dois métodos de adequação: deslocamento e retificação. A

implementação final foi desenvolvida usando retificação, pois, com este método, foi obtido um

melhor desempenho do sistema. Quando são usados sinais deslocados, os intervalos de baixo

nível concentram os valores dos multiplicadores próximos a ½, influenciando sua variância. Por

outro lado, o fato de retificar o sinal intensifica as singularidades presentes no sinal de fala, ao

introduzir mudanças de alta frequência, o que pode ser aproveitado para uma melhor

caracterização por meio de processos multifractais.

Além do sistema de reconhecimento de locutor, neste trabalho, foi feita uma análise das

características multifractais em sinas de fala das três diferentes bases de dados. A partir de

extensos testes e avaliações, concluiu-se que os sinais de fala podem apresentar comportamentos

monofractal ou multifractal, dependendo do tipo de fonema considerado e da escala de tempo

empregada. Assim:

Os resultados experimentais mostram que alguns fonemas, tais como algumas

fricativas, têm usualmente um comportamento monofractal, enquanto os fonemas

vocálicos apresentam um comportamento multifractal. Este análise é feita sob

resolução de escalas de tempo menores que tentam cobrir o fonema quase isolado

(10s, 20ms, 30ms). Por esta razão, não é possível estabelecer um comportamento

fractal único para estas escalas.

De forma geral, quando os intervalos de análise têm duração superior aos 200ms,

o comportamento tende a ser monofractal (pontos e linhas retas).

Embora não seja possível definir uma fronteira rígida de separação entre as

escalas de tempo nas quais o sinal apresente sempre um comportamento

multifractal, observou-se que intervalos de fala com duração entre 50ms e 100ms

CONCLUSÕES 111

revelam um comportamento multifractal de forma geral. Nestas escalas,

normalmente os fonemas aparecem ou isolados (vogais) ou combinados (plosivas

e vogais ou fricativas e vogais), o que garante um comportamento multifractal.

Trabalhos futuros

Validação dos sistemas propostos em situações adversas, como presença de ruído

telefônico.

Validação dos sistemas empregando menos material de treinamento, o que pode

ser interessante para aplicações comerciais.

Experimentar o sistema com outros classificadores alternativos, tais como redes

neurais, SVM, entre outros.

Abordagem de outras aplicações de processamento de fala tais como

segmentação de fala, onde a análise das transições pode proporcionar informação

útil e complementar as abordagens tradicionais.

112

113

9 Referências Bibliográficas

Barnsley, M.F. Fractals Everywhere. 2nd ed. Boston: Academic Press, 1993.

Bund, A. & Havlin, S. Fractals and Disordered Systems. 2nd ed. Cambridge: Cambridge

University Press, 2000.

Campbell, J. "Speaker Recognition: A Tutorial." in Proc. IEEE Vol. 85, no. 9 (September 1997):

1437-1462.

Cirigliano, R. J. da R. "Identificação de Locutor: Otimização do Número de Componentes."

Dissertação de Mestrado, UFRJ, Rio de Janeiro, 2007, 61.

de Lima, MIP. "Multifractals and the Temporal Structure of Rainfall." Ph.D Thesis, Wageningen

Agricultural Univ, 1998, 229 pp.

Dempster, A. P., Laird, N. M. & Rubin, D. B. "Maximum Likelihood from Incomplete Data Via the

EM Algorithm." Journal of the Royal Statistical Society Vol. 39, no. 1 (1977): 1-38.

Devroye, L. "The Double Kernel Method in Density Estimation." In Anais do Instituto Henri

Poincaré Vol. 25 (1989): 533–580.

Elizalde, C. E. & Torre, D. Reconocimiento de Locutor Dependiente de Texto Mediante

Adaptación de Modelos Ocultos de Markov fonéticos. Proyecto fin de carrera, Madrid:

Universidad Autónoma de Madrid, 2007, 89.

Falconer, J. K. Fractal Geometry: Mathematical Foundations and Applications. 2nd ed.

Chichester: John Wiley & Sons, 2003.

Feder, J. Fractals. New York and London: Plenum Press, 1988.

Feng, L. & Hansen, L. K. "A New Database for Speaker Recognition." IMM-Technical Report,

2005.

Gao, J ., Cao, Y., Hu, J. & Tung, W. Multiscale Analysis of Complex Time Series: Integration of

Chaos and Random Fractal Theory, and Beyond. New Jersey: A John Wiley & Sons, 2007.

García, A. P. M., Jiménez, F. J. & Ayuso, J. L. "Análisis Multifractal de Series de Datos

Pluviométricos en Andalucía." Tesis Doctoral, Universidad de Córdoba, Córdoba, 2007, 163.

114 REFERÊNCIAS BIBLIOGRÁFICAS

Gupta, V. & Waymire, E. "A Statistical Analysis of Mesoscale Rainfall as a Random Cascade."

Journal of Applied Meteorology Vol.32 (February 1993): 251–267.

Harte, D. Multifractals : Theory and Applications. Boca Raton: Chapman & Hall/CRC, 2001.

Holmes, J. & Holmes, W. Speech Synthesis and Recognition. 2nd ed. London: Tayor & Francis,

2001.

Ivanov, P. Ch. Long-Range Dependence in Heartbeat Dynamics. Vol. Vol.621, in Processes with

Long-Range Correlations: Theory and Applications, by G. Rangarajan and M. Ding, 339-372.

Berlin: Springer, 2003.

Kinnunen, T. & Li, Haizhou. "An Overview of Text-Independent Speaker Recognition: From

Fatures to Supervectors." ScienceDirect Speech Communication , no. 52 (2010): 12-40.

Kinsner, W. & Grieder, W. "Speech Segmentation Using Multifractal Measures and Amplification

of Signal Features." in Proc. 7th IEEE International Conference on Cognitive Informatics,

October 2008: 351-357.

Kolmogorov, A. N. "A Refinement of Previous Hypotheses Concerning the Local Structure of

Turbulence in a Viscous Incompressible Fluid at High Reynolds Number." Journal of Fluid

Mechanics (Cambridge University Press) Vol. 13, no. 1 (Decembro 1962): 82–85.

Krishna, M. P., Gadre, V. M., & Dessay, U. B. Multifractal Based Network Traffic Modeling.

Bombay: Kluwer Academic Publishers, 2003.

Langi, A. & Kinsner, W. "Consonant Characterization Using Correlation Fractal Dimension for

Speech Recognition." in Proc. IEEE Western Canada Conference on Communications,

Computer, and Power in the Modern Environment Vol. 1 (May 1995): 208-213.

Langit, A. Z. R., Soemintapurat, K. & Kinsners, W. "Multifractal Processing of Speech Signals."

in Proc. IEEE International Conference on Information, Communications and Signal Processing

Vol. 1 (September 1997): 527-531.

Mandelbrot, B. B. Fractals and Scaling in Finance. New York: Springer, 1997.

Mandelbrot, B. The Fractal Geometry of Nature. New York: WH Freeman, 1982.

McLachlan, G. & Peel, D. Mixture Models. New York: John Wiley & Sons, Inc, 2000.

Petry, A. & Barone, D. A. C. "Fractal Dimension Applied to Speaker Identification." in Proc. IEEE

International Conference on Acoustics, Speech, and Signal Processing Vol. 1 (May 2001): 405-

408.

REFERÊNCIAS BIBLIOGRÁFICAS 115

Picone, J. "Signal Modeling Techniques In Speech Recognition." in Proc. IEEE Vol. 81, no. 9

(June 1993): 1215 - 1247.

Quatieri, T. F. Discrete- Time Speech Signal Processing Principles and Practice. New Jersey:

Prentice Hall PTR, 2001.

Rabiner, L. R. & Schafer R. W. Introduction to Digital Speech Processing. Boston-Delf: Now

Publishers Inc., 2007.

Reynolds, D. & Rose, R. C. "A Gaussian Mixture Modeling Approach to Text-Independent

Speaker Identification." IEEE Transactions on Speech and Audio Processing Vol. 3, no. 1

(January 1992): 72-83.

Reynolds, D. A. "Experimental Evaluation of Features for Robust Speaker Identification." IEEE

Transactions on Speeach and Audio Processing Vol.2, no. 4 (October 1994): 639-643.

Reynolds, D. "An Overview of Automatic Speaker Recognition Technology." in Proc. IEEE

International Conference on Acoustics, Speech, and Signal Processing Vol. 4 (May 2002): 4072-

4075.

Riedi, R. H. & Véhel, J. L. "Tcp Traffic is Multifractal: a Numerical Study." Technical Report

3129, INRIA Research report, 1997.

Riedi, R. H. "Introduction to Multifractals." Chap. 28 in Long Range Dependence : Theory and

Applications, by eds. Doukhan, Oppenheim and Taqqu, 625-715. Birkhäuser: RICE University

Technical Report, 2002.

Riedi, R. H., Crouse, M. S., Ribeiro, V. J. & Baraniuk, R. G. "A Multifractal Wavelet Model with

Application to Network Traffic." IEEE Transactions on Information Theory Vol. 45, no. 3 (April

1999): 992-1018.

Sant’Ana, R., Coelho, R. & Alcaim, A. "Text-Independent Speaker Recognition Based on the

Hurst Parameter and the Multidimensional Fractional Brownian Motion Model." IEEE

Transactions on Audio, Speech and Language Processing Vol. 14, no. 3 (May 2006): 931-940.

Scarborough, J.B. Numerical Mathematical Analysis. 5nd ed. Boston: Johns Hopkins Press,

1966.

Stanley, H.E. "Powerlaws and Universality." Nature 378, 1995.

116 REFERÊNCIAS BIBLIOGRÁFICAS

Stênico, J. W. e Lee, L. L. "Estimação da Probabilidade de Perda e um Esquema de Controle de

Admissão para Tráfego Multifractal de Redes." Dissertação de Mestrado, FEEC, UNCAMP,

Campinas, 2009.

Veith, D. & Abry, P. "A Wavelet-Based Joint Estimator of the Parameters." IEEE Transactions on

Information Theory Vol. 45, no. 3 (Mar 1998): 878–897.

Vicsek, T. Fractal Growth Phenomenon. 2nd ed. Singapore: World Scientific Pub Co Inc, 1993.

Vieira, F.H.T. & Lee L.L. "Contribuições ao Cálculo de Banda e de Probabilidade de Perda para

Tráfego Multifractal de Redes." Tese de Doutorado, UNICAMP, Campinas, 2006.

Volkmann, J., Stevens, S. & Newman, E. "A Scale for the Measurement of the Psychological

Magnitude Pitch." The Journal of the Acoustical Society of America Vol. 8, no. 3 (January 1937):

185-190.

Vuuren, V. S. "Speaker Verification in a Time-Feature Space." Ph.D Thesis, Oregon Graduate

Institute of Science and Technology, Pretoria, 1999.

Wang, L. & Geng, X. Behavioral Biometrics for Human Identification: Intelligent Applications.

Hershey-New York: Medical Information Science Reference, 2009.

Ynoguti, C. & Violaro, F. "Reconhecimento de Fala Contínua Usando Modelos Ocultos de

Markov." Tese de Doutorado, FEEC, UNICAMP, Campinas, 1999.

Ynoguti, C. A. & Violaro, F. "A Brazilian Portuguese Speech Database-DVD." XXVI Simpósio

Brasileiro de Telecomunicações . Rio de Janeiro , 2008.

Zhou, Y., Wang, J. & Zhang, X. "Research on Speaker Recognition Based on Multifractal

Spectrum Feature." Second International Conference on Computer Modeling and Simulation,

January 2010: 463-466.

Recommended

CATÁLOGO DE OBRAS ANTIGAS, RARAS E VALIOSAS ......Catálogo de obras antigas, raras e valiosas da Biblioteca da Faculdade de Direito. ___Fortaleza : Universidade Federal do Ceara,

Documents

catlogo obras raras e valiosas · 2018. 12. 31. · Raras e Valiosas ao XX Inventário dos títulos catalogados no projeto de conservação de obras raras e valiosas da Coleção

Documents

OS FOSFATOS NA CANA-DE-AÇÚCAR - teses.usp.br · Ao Prof. Dr. Marcos Omir Marques pelas valiosas sugestões. Ao Prof. Dr. Carlos Alberto França Ribeiro pelas valiosas sugestões,

Documents

Semana Pedagógica. 13 dicas valiosas

Education

Reunião Pré Estágio - Escola Natasha Franco Vieira

Documents

USO DE PARÂMETROS MULTIFRACTAIS NO RECONHECIMENTO … · 2013-01-16 · Julio, Kobi, Bernardo,...

Documents

CATÁLOGO DE OBRAS ANTIGAS, RARAS E VALIOSAS ......Catálogo de obras antigas, raras e valiosas da Biblioteca da Faculdade de Direito. ___Fortaleza : Universidade Federal do Ceara,

catlogo obras raras e valiosas · 2018. 12. 31. · Raras e Valiosas ao XX Inventário dos títulos catalogados no projeto de conservação de obras raras e valiosas da Coleção

6 dicas valiosas para seus posts darem resultados

10 dicas valiosas para desenvolver projetos web com WordPress

Natasha Correia Queiroz Lino (ncql@di.ufpe.br) Agrupamento Conceitual Aprendizagem Não Supervisionada

3 dicas mais valiosas de um aniversário ao outro

Ranking Marcas Brasileiras Mais Valiosas 2012

NATASHA VOGEL MAJEWSKI RODRIGUES

Ranking Interbrand das Marcas Brasileiras mais Valiosas 2010

Joias Gold - Footwear designer Kobi Levi

ACIDENTE VASCULAR CEREBRAL Natasha Casteli Bonfim

FRANCÊS TÉCNICO PROF. ESP. PEDRO CAMPAÑA e NATASHA GARGANO

kamuka nago kobi

Análise comparativa de marcas valiosas: Contextos brasileiro e mundial

Natasha Granato - TCC

Dicas ValiosaDicas valiosas para desenhistas iniciantess Para Desenhistas Iniciantes 01

A INFLUÊNCIA DO TRABALHO DE TOULOUSE-LAUTREC NA COMUNICAÇÃO PUBLICITÁRIA - TCC de Natasha Guedes Elias

OS FOSFATOS NA CANA-DE-AÇÚCAR - teses.usp.br · Ao Prof. Dr. Marcos Omir Marques pelas valiosas sugestões. Ao Prof. Dr. Carlos Alberto França Ribeiro pelas valiosas sugestões,

Semana Pedagógica. 13 dicas valiosas

Reunião Pré Estágio - Escola Natasha Franco Vieira