Reconhecimen to Autom atico de Iden tidade o cal ...joseana/JMF_TesedeDoutorado.pdf · Reconhecimen to Autom atico de Iden tidade V o cal Utilizando Mo delagem H brida: P aram etrica

Reconhecimento Autom�atico de Identidade Vocal

Utilizando Modelagem H��brida:

Param�etrica e Estat��stica

Joseana Macêdo Fechine

Tese de Doutorado submetida �a Coordena�c~ao dos Cursos de P�os-

Gradu�c~ao em Engenharia El�etrica da Universidade Federal da Pa-

ra��ba - Campus II, como parte dos requisitos necess�arios para ob-

ten�c~ao do grau de Doutor em Ciências no dom��nio da Engenharia

El�etrica.

�Area de Concentra�c~ao: Processamento da Informa�c~ao

Benedito Guimar~aes Aguiar Neto - Dr.-Ing.Orientador

Campina Grande, Para��ba, Brasil

cJoseana Macêdo Fechine

Reconhecimento Autom�atico de Identidade Vocal

Utilizando Modelagem H��brida:

Param�etrica e Estat��stica

Joseana Macêdo Fechine

Benedito Guimar~aes Aguiar Neto - Dr.-Ing.Orientador

Abraham Alcaim - Ph.DComponente da Banca

Adri~ao - Ph.DComponente da Banca

Marcus Antônio Brasileiro - Ph.DComponente da Banca

Marcelo Sampaio de Alencar - Ph.DComponente da Banca

Campina Grande, Para��ba, Brasil

ii

Dedico este trabalho a Deus em primeiro lugar, aos meus pais, Jos�e e Ana

Ilda��za, aos meus irm~aos, Vicente, Geovane e Guilhermino e aos meus sobrinhos, Ma-

riana, Melina e Gabriel.

\Todos n�os temos uma soma de deveres a cumprir.

A vida exige de cada um o direito de lutar e vencer."

J.S. Nobre

iii

Agradecimentos

A realiza�c~ao deste trabalho recebeu o apoio de muitos que me ensinaram a ter

perseveran�ca para seguir com o presente estudo. A todos o meu agradecimento e a

certeza de que as palavras e gestos de incentivo n~ao foram in�uteis, sabendo que o

verdadeiro agradecimento consiste no reconhecimento daqueles que contribuem para o

sucesso de outros, ainda que involuntariamente.

Em especial agrade�co a Deus, pelo amor in�nito.

A minha fam��lia, pela paciência, apoio e incentivo sempre presentes.

Ao professor Benedito Guimar~aes Aguiar Neto, pela orienta�c~ao deste trabalho,

est��mulo e dedica�c~ao sempre prestados, que muito me enriqueceram intelectualmen-

te, fortalecendo o meu desenvolvimento pro�ssional.

Ao meu amigo Francisco Madeiro Bernardino J�unior, pelo apoio, incentivo e pela

valorosa contribui�c~ao.

�A professora e amiga Rosângela Maria Vilar Fran�ca, pela valorosa colabora�c~ao,

experiência e sugest~oes.

Aos amigos Paulo M�arcio, Rinaldo, Waslon Terllizzie, Eust�aquio, ...... e demais

colegas do LAPS.

Aos demais amigos que compuseram a amostra de locutores: Isabel, Sissi, Suzete,

professora Maria de F�atima, Rute, Marta, Socorro, Camila, Vânia, Yuska, Ellaine,

Claudia, Vivian, Natasha, Mariana, Renata, Karina, Josemar, Leonel, Bruno, Denis,

Antônio Neto, Alynthor, Luiz Gonzaga J�unior, Felipe, Avishek, Murali, S�ergio, Towar

e Edmar.

A todos que fazem a COPELE, em especial �a Ângela, Pedrinho e Eleonôra, pelo

apoio constante.

A Joab e Antonio Carlos da ATECEL, pelas palavras de incentivo e apoio, como

tamb�em pela gentileza no atendimento das minhas solicita�c~oes.

As minhas grandes amigas K�atia, Magna, K��ssia e Kenia, que tanto me apoiaram

em todos os momentos.

A todos os meus amigos, que direta ou indiretamente me incentivaram no decorrer

deste trabalho.

A Universidade Federal da Para��ba-Campus II, ao CNPq e a CAPES.

iv

Resumo

Este trabalho trata da aplica�c~ao de uma t�ecnica h��brida (param�etrica e estat��stica),

que utiliza An�alise por Predi�c~ao Linear, Quantiza�c~ao Vetorial, Redes Neurais e Mode-

los de Markov Escondidos, para o desenvolvimento de um sistema de reconhecimento

(identi�ca�c~ao) autom�atico da identidade vocal, visando obter alternativas para os al-

goritmos tradicionais. Com o objetivo de se obter um sistema mais r�apido e robusto,

�e realizada uma etapa de pr�e-identi�ca�c~ao, seguida da identi�ca�c~ao. A primeira etapa

utiliza a frequência fundamental (F0) como parâmetro de separa�c~ao pr�evia dos locu-

tores em grupos gerais, de acordo com o sexo. O m�etodo proposto para estima�c~ao da

F0 se mostra e�ciente (99% de classi�ca�c~ao correta), fornecendo estimativas represen-

tativas de cada locutor, reduzindo assim o n�umero de locutores a participar da etapa

posterior. A etapa de identi�ca�c~ao utiliza Modelos de Markov Escondidos (HMMs) de

Densidades Discretas e Quantiza�c~ao Vetorial Param�etrica, com parâmetros ac�usticos

obtidos a partir da An�alise por Predi�c~ao Linear (coe�cientes LPC, Cepestrais, Ce-

pestrais Ponderados, Delta Cepestrais e Delta Cepestrais Ponderados). Os coe�cientes

Cepestrais, seguido dos Delta Cepestrais, proporcionam maiores taxas de identi�ca�c~ao.

Em se tratanto do projeto do dicion�ario do quantizador vetorial, s~ao avaliados três al-

goritmos: LBG (Linde-Buzo-Gray), KMVVT (Kohonen Modi�cado com Vizinhan�ca

Centrada em Torno do Vetor de Treino) e SSC (Competitivo no Espa�co Sin�aptico).

O algoritmo SSC apresenta-se como o mais adequado para o projeto dos dicion�arios,

levando a maiores taxas de identi�ca�c~ao. A modelagem por HMMs se constitui em uma

etapa de \re�namento" do processo de identi�ca�c~ao, sendo utilizada quando as medidas

de distor�c~ao obtidas pela compara�c~ao do padr~ao de teste do locutor a ser identi�cado

(vetor de caracter��sticas ac�usticas) com os padr~oes de referência (dicion�arios do quan-

tizador vetorial) indicarem \similaridade" entre os padr~oes vocais. A t�ecnica aplicada

neste trabalho proporciona a obten�c~ao de um sistema de reconhecimento autom�atico

da identidade vocal que apresenta taxa m�edia de identi�ca�c~ao elevada (97,8%) e signi-

�cativa, baixas taxas m�edias de falsa aceita�c~ao (0,8%) e de falsa rejei�c~ao (1,5%), bem

como alta con�abilidade (99,2%). O sistema de identi�ca�c~ao de locutor desenvolvido

�e, portanto, capaz de discriminar, de forma e�ciente, os locutores a partir das suas

caracter��sticas vocais apresentando, independentemente do sexo do locutor, pequenas

varia�c~oes intralocutor e grandes varia�c~oes interlocutor.

v

Abstract

This work presents an investigation concerning the use a hybrid system (pa-

rametric and statistic) composed by Linear Prediction, Vector Quantization, Neural

Networks and Hidden Markov Models (HMMs) with discrete densities applied to spea-

ker identi�cation. Several parameters, such as coe�cients obtained by Linear Predic-

tion Coding (LPC, Cepstrum, Weighted Cepstrum, Delta Cepstrum and Delta Weigh-

ted Cepstrum methods) are used to represent each speaker. In order to achieve a

robust identi�cation, a two-step system is designed, consisting of a pre-identi�cation

stage followed by an identi�cation stage (main stage). The �rst stage uses the pitch (or

fundamental frequency) to distinguish two subgroups (male and female). The proposed

method to estimate the pitch produces high pre-identi�cation rate (99%), reducing the

set of speakers to be identi�ed in subsequent stage. The main stage is divided into two

substages. The �rst uses vector quantization with codebooks designed by LBG (Linde-

Buzo-Gray), KMVVT (Modi�ed Kohonen's Algorithm with Neighborhood Centered in

the Training Vector) and SSC (Synaptic Space Competitive) algorithms. Results show

that the codebooks of acoustic patterns designed by SSC lead to higher identi�cation

rates when compared to the ones designed by KMVVT and LBG. Additionally, this

work presents a comparative study of the linear predictive analysis methods applied

to speaker identi�cation. Cepstrum and Delta Cepstrum coe�cients produce better

results when compared to other coe�cients. The second substage uses HMMs when

the acoustic patterns indicate that speakers present similar vocal characteristics. Thus,

the second substage is a re�nement of the main stage. The system produces high mean

identi�cation rate (97,8%), small mean false acceptance rate (0,8%) and mean false

rejection rate (1,5%), as well as high con�ability (99,2%). The results show that the

speaker identi�cation system which is able to e�ciently descriminate the vocal cha-

racteristics of the speakers (female and male), with a small intra-speaker and a large

inter-speaker variation.

vi

�Indice

1 Introdu�c~ao 1

1.1 Comunica�c~ao Vocal Homem-M�aquina . . . . . . . . . . . . . . . . . . . 1

1.1.1 Sistemas de Resposta Vocal . . . . . . . . . . . . . . . . . . . . 4

1.1.2 Sistemas de Reconhecimento de Fala . . . . . . . . . . . . . . . 4

1.1.3 Sistemas de Reconhecimento de Locutor . . . . . . . . . . . . . 5

1.2 Motiva�c~ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

1.3 Objetivos do Trabalho . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

1.4 Organiza�c~ao do Trabalho . . . . . . . . . . . . . . . . . . . . . . . . . . 12

2 O Mecanismo de Produ�c~ao da Voz 14

2.1 Introdu�c~ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

2.2 An�alises Ac�usticas Elementares . . . . . . . . . . . . . . . . . . . . . . 16

2.3 Formas de Excita�c~ao: Classi�ca�c~ao dos Sons da Voz . . . . . . . . . . . 18

2.3.1 Sons Sonoros . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

2.3.2 Sons Surdos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

2.3.3 Sons Explosivos . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

2.3.4 Sons com excita�c~ao mista . . . . . . . . . . . . . . . . . . . . . 21

2.4 Parâmetros Temporais do Sinal de Voz . . . . . . . . . . . . . . . . . . 22

2.4.1 Energia por segmento . . . . . . . . . . . . . . . . . . . . . . . . 22

2.4.2 Taxa de Cruzamento por Zero . . . . . . . . . . . . . . . . . . . 23

2.4.3 Coe�ciente de Correla�c~ao Normalizado . . . . . . . . . . . . . . 25

vii

2.4.4 N�umero Total de Picos . . . . . . . . . . . . . . . . . . . . . . . 26

2.4.5 Diferen�ca entre os Picos . . . . . . . . . . . . . . . . . . . . . . 26

2.5 Modelo para Produ�c~ao da Voz . . . . . . . . . . . . . . . . . . . . . . . 26

2.6 Discuss~ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

3 M�etodos para Extra�c~ao de Parâmetros Representativos dos Locuto-

res 29

3.1 Introdu�c~ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

3.2 Frequência Fundamental . . . . . . . . . . . . . . . . . . . . . . . . . . 32

3.2.1 M�etodos no Dom��nio do Tempo . . . . . . . . . . . . . . . . . . 32

3.2.2 Detetor Surdo-Sonoro . . . . . . . . . . . . . . . . . . . . . . . . 34

3.2.3 Estima�c~ao da Frequência Fundamental . . . . . . . . . . . . . . 37

3.3 An�alise por Predi�c~ao Linear . . . . . . . . . . . . . . . . . . . . . . . . 39

3.3.1 Coe�cientes LPC . . . . . . . . . . . . . . . . . . . . . . . . . . 41

3.3.2 Coe�cientes Cepestrais . . . . . . . . . . . . . . . . . . . . . . . 44

3.3.3 Coe�cientes Cepestrais Ponderados . . . . . . . . . . . . . . . . 46

3.3.4 Coe�cientes Delta Cepestrais . . . . . . . . . . . . . . . . . . . 47

3.3.5 Coe�cientes Delta Cepestrais Ponderados . . . . . . . . . . . . . 47

3.4 Discuss~ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

4 M�etodos para o Reconhecimento Autom�atico de Locutor 49

4.1 Introdu�c~ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

4.2 Quantiza�c~ao Vetorial . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

4.2.1 Projeto do dicion�ario . . . . . . . . . . . . . . . . . . . . . . . . 54

4.2.2 Medidas de Distor�c~ao . . . . . . . . . . . . . . . . . . . . . . . . 57

4.3 Redes Neurais Arti�ciais . . . . . . . . . . . . . . . . . . . . . . . . . . 58

4.3.1 Topologia das Redes Neurais . . . . . . . . . . . . . . . . . . . . 59

4.3.2 Regras de Treinamento . . . . . . . . . . . . . . . . . . . . . . . 62

viii

4.4 Modelos de Markov Escondidos . . . . . . . . . . . . . . . . . . . . . . 68

4.4.1 Tipos de HMM . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

4.4.2 Parâmetros do Modelo . . . . . . . . . . . . . . . . . . . . . . . 72

4.4.3 Os três problemas b�asicos dos HMMs e suas solu�c~oes . . . . . . 76

4.5 Discuss~ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87

5 Descri�c~ao do Sistema de Identi�ca�c~ao Autom�atica de Locutor 89

5.1 Introdu�c~ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89

5.2 Processamento do sinal de voz . . . . . . . . . . . . . . . . . . . . . . . 90

5.2.1 Pr�e-ênfase . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91

5.2.2 Segmenta�c~ao para an�alise a curtos intervalos . . . . . . . . . . . 91

5.3 Extra�c~ao de caracter��sticas . . . . . . . . . . . . . . . . . . . . . . . . . 93

5.3.1 Dete�c~ao da Frequência Fundamental . . . . . . . . . . . . . . . 93

5.3.2 Obten�c~ao do vetor de caracter��sticas . . . . . . . . . . . . . . . 94

5.4 Quantiza�c~ao Vetorial . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95

5.4.1 Projeto do dicion�ario . . . . . . . . . . . . . . . . . . . . . . . . 95

5.4.2 Medida de distor�c~ao . . . . . . . . . . . . . . . . . . . . . . . . 95

5.4.3 Escolha da dimens~ao do quantizador . . . . . . . . . . . . . . . 96

5.4.4 Escolha do n�umero de n��veis do quantizador (s��mbolos do alfa-

beto, M) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96

5.5 Modelagem utilizando HMM . . . . . . . . . . . . . . . . . . . . . . . . 96

5.5.1 Escolha do n�umero de estados do HMM (N) . . . . . . . . . . . 97

5.5.2 Inicializa�c~ao de aij . . . . . . . . . . . . . . . . . . . . . . . . . 97

5.5.3 Inicializa�c~ao de bj(k) . . . . . . . . . . . . . . . . . . . . . . . . 98

5.5.4 Uso de m�ultiplas sequências de observa�c~oes . . . . . . . . . . . . 98

5.5.5 Considera�c~oes de implementa�c~ao . . . . . . . . . . . . . . . . . 99

5.6 Padr~oes de Referência e de Teste . . . . . . . . . . . . . . . . . . . . . 101

5.7 Regra de Decis~ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101

5.8 Discuss~ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102

ix

6 Apresenta�c~ao e An�alise dos Resultados 104

6.1 Introdu�c~ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104

6.2 Apresenta�c~ao e An�alise dos Resultados . . . . . . . . . . . . . . . . . . 104

6.2.1 Parâmetros para Avalia�c~ao do Desempenho . . . . . . . . . . . 107

6.2.2 Pr�e-identi�ca�c~ao dos locutores . . . . . . . . . . . . . . . . . . . 108

6.2.3 Identi�ca�c~ao dos locutores . . . . . . . . . . . . . . . . . . . . . 120

6.3 An�alise Estat��stica de Desempenho . . . . . . . . . . . . . . . . . . . . 134

6.3.1 Conceitos B�asicos . . . . . . . . . . . . . . . . . . . . . . . . . . 134

6.3.2 Erro Padr~ao da M�edia . . . . . . . . . . . . . . . . . . . . . . . 135

6.3.3 Estimativa do intervalo de con�an�ca da m�edia aritm�etica de uma

popula�c~ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136

6.3.4 Aplica�c~ao do Teste t de Variância Combinada para Diferen�cas

Entre Duas M�edias Aritm�eticas . . . . . . . . . . . . . . . . . . 138

6.3.5 An�alise estat��stica dos valores obtidos no SRAL . . . . . . . . . 139

7 Conclus~oes e Sugest~oes 143

7.1 Introdu�c~ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143

7.2 Sum�ario da Pesquisa . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144

7.3 Contribui�c~oes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145

7.3.1 Pr�e-identi�ca�c~ao dos locutores . . . . . . . . . . . . . . . . . . . 145

7.3.2 Identi�ca�c~ao dos locutores . . . . . . . . . . . . . . . . . . . . . 147

7.4 Sugest~oes para trabalhos futuros . . . . . . . . . . . . . . . . . . . . . . 149

A Resultados Complementares 151

A.1 Pr�e-identi�ca�c~ao dos Locutores . . . . . . . . . . . . . . . . . . . . . . 151

A.1.1 Detetor Surdo-Sonoro . . . . . . . . . . . . . . . . . . . . . . . . 151

A.1.2 Detetor da Frequência Fundamental . . . . . . . . . . . . . . . . 151

A.2 Identi�ca�c~ao dos Locutores . . . . . . . . . . . . . . . . . . . . . . . . . 152

A.3 An�alise estat��stica de desempenho . . . . . . . . . . . . . . . . . . . . . 154

B Interface do Sistema 194

x

Lista de Tabelas

1.1 Fontes externas de erro para um SRAL. . . . . . . . . . . . . . . . . . . 9

3.1 Limiares de decis~ao que delimitam quatro faixas de energia do detetor

Surdo-Sonoro. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

6.1 An�alise comparativa do desempenho (taxas m�edias de classi�ca�c~ao cor-

reta) dos m�etodos utilizados para estima�c~ao da frequência fundamental:

AMDF(AMDF-1) e AMDF modi�cado (AMDF-2), para os locutores

femininos (LF) e masculinos (LM), para a amostra composta de 40 lo-

cutores. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118

6.2 Parâmetros para avalia�c~ao de desempenho do SRAL, m�etodo QV-LBG

(parâmetros ac�usticos: LPC, CEP, CEP-P, DCEP e DCEP-P), para a

amostra composta de 20 locutores. . . . . . . . . . . . . . . . . . . . . 121

6.3 Parâmetros para avalia�c~ao de desempenho do SRAL, m�etodo QV-KMVVT

(parâmetros ac�usticos: LPC, CEP, DCEP e DCEP-P), para a amostra

composta de 20 locutores. . . . . . . . . . . . . . . . . . . . . . . . . . 125

6.4 Parâmetros para avalia�c~ao do desempenho do SRAL, m�etodo QV-SSC

(parâmetros ac�usticos: CEP e DCEP), para a amostra composta de 20

locutores. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127

6.5 Parâmetros para avalia�c~ao de desempenho do SRAL, m�etodo QV-SSC

(parâmetros ac�usticos: CEP e DCEP), para a amostra composta de 40

locutores. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130

6.6 Parâmetros para avalia�c~ao de desempenho do SRAL, m�etodo QV-SSC-

HMM, para a amostra composta de 40 locutores. . . . . . . . . . . . . 132

6.7 Parâmetros para avalia�c~ao de desempenho do SRAL, m�etodo QV-SSC-

HMM, adicionada a etapa de pr�e-identi�ca�c~ao, para a amostra composta

de 40 locutores. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133

xi

6.8 Intervalo de con�an�ca para a Frequência Fundamental m�edia (em Hz)

dos locutores femininos (LF) e masculinos (LM) (Li, 1 � i � 20, indicao locutor). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140

6.9 Valores do intervalo de con�an�ca para a taxa m�edia de identi�ca�c~ao dos

locutores femininos (LF), masculinos (LM) e para o grupo. . . . . . . . 141

6.10 Resumo dos resultados obtidos com as aplica�c~oes do teste t. . . . . . . 142

A.1 Parâmetros Temporais do sinal de voz - aplausos (n�umero de quadros

= 149, tamanho do quadro = 200, total de amostras lidas = 29.800 -

janela utilizada - Hamming). . . . . . . . . . . . . . . . . . . . . . . . . 155

A.2 Frequência fundamental (em Hz), Frequência Fundamental m�edia (F0) ,

Coe�ciente de Varia�c~ao (C.V.) e Taxas de Erro, dos locutores femininos

(LF1 a LF5) e masculinos (LM1 a LM5), para as cinco elocu�c~oes da

palavra aplausos (E1 a E5). . . . . . . . . . . . . . . . . . . . . . . . . 161

A.3 Frequência Fundamental (em Hz), Frequência Fundamental m�edia (F0),


(LF1 a LF5) e masculinos (LM1 a LM5), para as cinco elocu�c~oes da

palavra bola (E1 a E5). . . . . . . . . . . . . . . . . . . . . . . . . . . . 161


Coe�ciente de Varia�c~ao (C.V.) e Taxas de Erro, dos locutores femini-

nos (LF1 a LF4) e masculinos (LM1 a LM4), para as quarenta cinco

elocu�c~oes de todas as senten�cas (E1 a E45). . . . . . . . . . . . . . . . 162



(LF1 a LF20), para as vinte elocu�c~oes da senten�ca Quero usar a m�aquina

(E1 a E20), algoritmo AMDF (AMDF-1). . . . . . . . . . . . . . . . . 164


Coe�ciente de Varia�c~ao (C.V.) e Taxas de Erro, dos locutores masculi-

nos (LM1 a LM20), para as vinte elocu�c~oes da senten�ca Quero usar a

m�aquina (E1 a E20), algoritmo AMDF (AMDF-1). . . . . . . . . . . . 166

xii



(LF1 a LF20), para as vinte elocu�c~oes da senten�ca Quero usar a m�aquina

(E1 a E20), algoritmo AMDF modi�cado (AMDF-2). . . . . . . . . . . 168


Coe�ciente de Varia�c~ao (C.V.) e Taxas de Erro, dos locutores masculi-

nos (LM1 a LM20), para as vinte elocu�c~oes da senten�ca Quero usar a

m�aquina (E1 a E20), algoritmo AMDF modi�cado (AMDF-2). . . . . . 170

A.9 Taxas de identi�ca�c~ao do SRAL, m�etodo QV-LBG (parâmetros ac�usticos:

LPC, CEP, CEP-P, DCEP e DCEP-P), para os locutores femininos (LF1

a LF10) e masculinos (LM1 a LM10). . . . . . . . . . . . . . . . . . . . 172

A.10 Taxas de falsa rejei�c~ao do SRAL, m�etodo QV-LBG (parâmetros ac�usticos:



A.11 Taxas de falsa aceita�c~ao do SRAL, m�etodo QV-LBG (parâmetros ac�usticos:



A.12 Taxas de identi�ca�c~ao do SRAL, m�etodo QV-KMVVT (parâmetros ac�usticos:

LPC, CEP, DCEP e DCEP-P), para os locutores femininos (LF1 a LF10)

e masculinos (LM1 a LM10). . . . . . . . . . . . . . . . . . . . . . . . . 175

A.13 Taxas de falsa rejei�c~ao do SRAL, m�etodo QV-KMVVT (parâmetros

ac�usticos: LPC, CEP, DCEP e DCEP-P), para os locutores femininos

(LF1 a LF10) e masculinos (LM1 a LM10). . . . . . . . . . . . . . . . . 176

A.14 Taxas de falsa aceita�c~ao do SRAL, m�etodo QV-KMVVT (parâmetros

ac�usticos: LPC, CEP, DCEP e DCEP-P), para os locutores femininos

(LF1 a LF10) e masculinos (LM1 a LM10). . . . . . . . . . . . . . . . . 177

A.15 Taxas de identi�ca�c~ao, falsa rejei�c~ao e falsa aceita�c~ao do SRAL, m�etodo

QV-SSC (parâmetros ac�usticos: CEP e DCEP), para os locutores femi-

ninos (LF1 a LF10) e masculinos (LM1 a LM10). . . . . . . . . . . . . 178


QV-SSC (parâmetros ac�usticos: CEP e DCEP), para os locutores femi-

ninos (LF1 a LF20) e masculinos (LM1 a LM20). . . . . . . . . . . . . 179

xiii


QV-SSC-HMM, para os locutores femininos (LF1 a LF20) e masculinos

(LM1 a LM20). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181


QV-SSC-HMM, adicionada a etapa de pr�e-identi�ca�c~ao, para os locuto-

res femininos (LF1 a LF20) e masculinos (LM1 a LM20). . . . . . . . . 183

A.19 Matriz de confus~ao do SRAL, m�etodo QV-LBG (parâmetro ac�ustico -

LPC), para os locutores femininos (LF1 a LF10) e masculinos (LM1 a

LM10). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185


CEP), para os locutores femininos (LF1 a LF10) e masculinos (LM1 a

LM10). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185


CEP-P), para os locutores femininos (LF1 a LF10) e masculinos (LM1

a LM10). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186


DCEP), para os locutores femininos (LF1 a LF10) e masculinos (LM1 a

LM10). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186


DCEP-P), para os locutores femininos (LF1 a LF10) e masculinos (LM1

a LM10). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 187

A.24 Matriz de confus~ao do SRAL, m�etodo QV-KMVVT (parâmetro ac�ustico

- LPC), para os locutores femininos (LF1 a LF10) e masculinos (LM1 a

LM10). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 187


- CEP), para os locutores femininos (LF1 a LF10) e masculinos (LM1 a

LM10). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 188


- DCEP), para os locutores femininos (LF1 a LF10) e masculinos (LM1

a LM10). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 188


- DCEP-P), para os locutores femininos (LF1 a LF10) e masculinos (LM1

a LM10). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189

xiv

A.28 Matriz de confus~ao do SRAL, m�etodo QV-SSC (parâmetro ac�ustico -

CEP), para os locutores femininos (LF1 a LF10) e masculinos (LM1 a

LM10). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189


DCEP), para os locutores femininos (LF1 a LF10) e masculinos (LM1 a

LM10). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 190


CEP), para os locutores femininos (LF1 a LF20). . . . . . . . . . . . . 190


CEP), para os locutores masculinos (LM1 a LM20). . . . . . . . . . . . 191

A.32 Matriz de similaridade do SRAL, m�etodo QV-SSC (parâmetro ac�ustico:

CEP), dos locutores masculinos e femininos, para as vinte elocu�c~oes da

senten�ca (E1 a E20). . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191

A.33 Matriz de confus~ao do SRAL, m�etodo QV-SSC-HMM, para os locutores

femininos (LF1 a LF20). . . . . . . . . . . . . . . . . . . . . . . . . . . 192

A.34 Matriz de confus~ao do SRAL, m�etodo QV-SSC-HMM, para os locutores

masculinos (LM1 a LM20). . . . . . . . . . . . . . . . . . . . . . . . . . 192

A.35 Distribui�c~ao t-Student. . . . . . . . . . . . . . . . . . . . . . . . . . . . 193

xv

Lista de Figuras

1.1 Descri�c~ao geral do processamento da voz. . . . . . . . . . . . . . . . . . 3

1.2 Modelo gen�erico para um sistema de reconhecimento de locutor. . . . . 6

1.3 Fase de Treinamento de um SRAL. . . . . . . . . . . . . . . . . . . . . 8

1.4 Fase de Reconhecimento de um SRAL. . . . . . . . . . . . . . . . . . . 8

2.1 Anatomia do aparelho fonador. . . . . . . . . . . . . . . . . . . . . . . 15

2.2 Modelo ac�ustico do aparelho fonador. . . . . . . . . . . . . . . . . . . . 16

2.3 Forma de onda no tempo da palavra aplausos. . . . . . . . . . . . . . . 17

2.4 Forma de onda da vogal n~ao nasalizada /a/ na palavra aplausos. . . . . 19

2.5 Forma de onda do fonema /s/ na palavra aplausos. . . . . . . . . . . . 20

2.6 Forma de onda do fonema /p/ na palavra aplausos. . . . . . . . . . . . 20

2.7 Forma de onda do fonema /z/ na palavra aplausos. . . . . . . . . . . . 21

2.8 Forma de onda do fonema /b/ na palavra bola. . . . . . . . . . . . . . 21

2.9 Modelo discreto da produ�c~ao da fala. . . . . . . . . . . . . . . . . . . . 27

3.1 Exemplos t��picos da AMDF: a) AMDF para um quadro do fricativo

surdo /ch/; b) AMDF para um quadro sonoro /a/. . . . . . . . . . . . 34

3.2 Con�gura�c~ao do detetor utilizado na decis~ao surdo-sonoro. . . . . . . . 35

3.3 Diagrama de blocos do Detetor de Per��odo (Frequência) Fundamental. . 37

3.4 Diagrama de blocos para o modelo simpli�cado de produ�c~ao de voz. . . 40

3.5 Exemplo de um segmento de voz selecionado a partir da sequência s(n)

por meio de uma janela retangular, j(n). . . . . . . . . . . . . . . . . . 42

xvi

4.1 Parti�c~ao do espa�co bi-dimensional (K = 2). . . . . . . . . . . . . . . . . 55

4.2 Particionamento da linha real em 10 c�elulas ou intervalos para quanti-

za�c~ao escalar (K = 1). . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

4.3 Estrutura b�asica de um neurônio. . . . . . . . . . . . . . . . . . . . . . 58

4.4 Rede de propaga�c~ao direta sem realimenta�c~ao. . . . . . . . . . . . . . . 60

4.5 Rede de camadas com conex~oes laterais. . . . . . . . . . . . . . . . . . 61

4.6 Rede interconectada. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

4.7 Rede competitiva simples. . . . . . . . . . . . . . . . . . . . . . . . . . 62

4.8 Uma vizinhan�ca quadrada N~wi� em torno do n�o que identi�ca o neurôniovencedor ~wi�. A vizinhan�ca �e de�nida em uma grade ou mapa bidimen-

sional. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

4.9 Uma vizinhan�ca esf�erica N~x em torno do vetor de treino ~x. A vizinhan�ca�e de�nida no espa�co sin�aptico. . . . . . . . . . . . . . . . . . . . . . . . 67

4.10 HMM - \erg�odico" com 5 estados. . . . . . . . . . . . . . . . . . . . . . 71

4.11 HMM - \esquerda-direita" com 5 estados. . . . . . . . . . . . . . . . . 72

4.12 Ilustra�c~ao da sequência de opera�c~oes necess�arias �a computa�c~ao da va-

ri�avel forward �t+1(j). . . . . . . . . . . . . . . . . . . . . . . . . . . . 80

4.13 Implementa�c~ao da computa�c~ao de �t(i) em termos de uma treli�ca de

observa�c~oes t e estados i. . . . . . . . . . . . . . . . . . . . . . . . . . . 81

4.14 Ilustra�c~ao da sequência de opera�c~oes necess�arias �a computa�c~ao da va-

ri�avel backward �t(i). . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82

4.15 Algoritmo de Viterbi. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85

5.1 Diagrama de blocos do sistema de identi�ca�c~ao autom�atica de locutor. 90

5.2 Sinal de voz segmentado. . . . . . . . . . . . . . . . . . . . . . . . . . . 92

6.1 Fase de treinamento do Sistema de Identi�ca�c~ao Autom�atica de locutor. 105

6.2 Fase de identi�ca�c~ao do Sistema de Identi�ca�c~ao Autom�atica de locutor. 106

6.3 Frequência Fundamental dos locutores femininos (LF1 a LF5) e mascu-

linos (LM1 a LM5), para as cinco elocu�c~oes da palavra aplausos (E1 a

E5). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110

xvii

6.4 Frequência Fundamental dos locutores femininos (LF1 a LF5) e mas-

culinos (LM1 a LM5), para as cinco elocu�c~oes da palavra bola (E1 a

E5). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111

6.5 Frequência Fundamental dos locutores femininos (LF1 a LF4), para as

45 elocu�c~oes de todas as senten�cas (E1 a E45). . . . . . . . . . . . . . . 112

6.6 Frequência Fundamental dos locutores masculinos (LM1 a LM4), para

as 45 elocu�c~oes de todas as senten�cas (E1 a E45). . . . . . . . . . . . . 113


20 elocu�c~oes da senten�ca: Quero usar a M�aquina (E1 a E20). . . . . . . 114


as 20 elocu�c~oes da senten�ca: Quero usar a M�aquina (E1 a E20). . . . . 114

6.9 Descri�c~ao da modi�ca�c~ao introduzida no algoritmo de estima�c~ao da

Frequência Fundamental. . . . . . . . . . . . . . . . . . . . . . . . . . . 115


20 elocu�c~oes da senten�ca: Quero usar a M�aquina (E1 a E20), algoritmo

AMDF modi�cado (AMDF-2). . . . . . . . . . . . . . . . . . . . . . . . 117


as 20 elocu�c~oes da senten�ca: Quero usar a M�aquina (E1 a E20), algorit-

mo AMDF modi�cado (AMDF-2). . . . . . . . . . . . . . . . . . . . . 117

6.12 Frequência Fundamental m�edia dos locutores masculinos (LM1 a LM20),

para as 20 elocu�c~oes da senten�ca: Quero usar a M�aquina (E1 a E20),

algoritmo AMDF modi�cado (AMDF-2). . . . . . . . . . . . . . . . . . 119

xviii

Lista de Abreviaturas

SRAL - Sistema de Reconhecimento Autom�atico de Locutor

HMM - Hidden Markov Model (Modelo de Markov Escondido)

VQ - Vector Quantization (QV - Quantiza�c~ao Vetorial)

DTW - Dynamic Time Warping (Alinhamento Dinâmico no Tempo)

Eseg - Energia por segmento (segmental)

TCZ - Taxa de Cruzamento por Zero

NTP - N�umero Total de Picos

DNP - Diferen�ca entre os Picos

PPOS - N�umero de Picos Positivos

PNEG - N�umero de Picos Negativos

RAL - Reconhecimento Autom�atico de Locutor

LBG - Algoritmo para projeto de dicion�arios conhecido como Linde-Buzo-Gray

KMVVT - Algoritmo de Kohonen Modi�cado com Vizinhan�ca Centrada em Torno

do Vetor de Treino

AMDF - Average Magnitude Di�erence Function (Fun�c~ao da M�edia de Diferen�cas

de Amplitudes)

FFT - Fast Fourier Transform (Transformada R�apida de Fourier)

LPC - Linear Prediction Coding

CEP - Coe�cientes Cepestrais

CEP-P - Coe�cientes Cepestrais Ponderados

DCEP - Coe�cientes Delta Cepestrais

xix

DCEP-P - Coe�cientes Delta Cepestrais Ponderados

LFi - i-�esimo locutor feminino

LMi - i-�esimo locutor masculino

Ei - i-�esima elocu�c~ao

F0 - Frequência Fundamental

P0 - Per��odo de Pitch (Per��odo da Frequência Fundamental)

s(n) - sinal de voz

NA - tamanho do \quadro" de amostras do sinal

�s(n) - m�edia do sinal s(n)

sgn[s(n)] - n�umero de vezes que o sinal s(n) inverte a polaridade

�1 - primeiro coe�ciente de correla�c~ao

cs(n)s(n�1) - covariância entre s(n) e s(n� 1)�s(n) - desvio padr~ao de s(n)

Rss(1) - primeiro coe�ciente de autocorrela�c~ao

S(z) - transformada Z do sinal s(n)

G(z) - transformada Z do modelo do pulso glotal g(n)

As(n) e Af (n) - intensidade da excita�c~ao dos sinais de voz e de ru��do, respectiva-

mente.

V (z) - transformada Z do modelo do trato vocal v(n)

R(z) - transformada Z do modelo da radia�c~ao r(n)

H(z) - transformada Z da fun�c~ao de transferência h(n)

U(z) - transformada Z do sinal de excita�c~ao u(n)

T - per��odo de amostragem

K - tamanho do vetor de caracter��sticas ac�usticas do sinal

F1, F2 e F3 - três primeiras frequências formantes

P - per��odo do sinal

d(n) - diferen�ca entre amostras do sinal

xx

Eseg1 e Eseg2 - energia de cada metade do \quadro" em an�alise

E1, E2, E3 - limiares de energia

suso0 - decis~ao surdo-sonoro inicial para o quadro em an�alise

suso�1 - decis~ao surdo-sonoro do �ultimo quadro

suso�2 - decis~ao surdo-sonoro do pen�ultimo quadro

suso - decis~ao surdo-sonoro do quadro atual

max = amplitude m�axima da AMDF

min = amplitude m��nima da AMDF

minp = posi�c~ao do m��nimo da AMDF

ck - k-�esimo coe�ciente LPC (coe�ciente do �ltro)

G - ganho do �ltro

es(n) - estimativa de s(n)e(n) - erro de predi�c~ao

vs(n) - sinal de voz selecionado e ponderado

evs(n) - aproxima�c~ao de vs(n)Erro(n) - Erro quadr�atico

Rr(k) - fun�c~ao de autocorrela�c~ao para curtos intervalos

cei(n) - n-�esimo coe�ciente Cepestral no i-�esimo bloco de amostras

Xi - i-�esimo bloco do espectro de potência do sinal

jp(n) - janela de pondera�c~ao

cpi(n) - n-�esimo coe�ciente Cepestral Ponderado no i-�esimo bloco de amostras

�cei(n) - n-�esimo coe�ciente Delta Cepestral no i-�esimo bloco de amostras

�cpi(n) - n-�esimo coe�ciente Delta Cepestral Ponderado no i-�esimo bloco de amos-

tras.

� - constante de normaliza�c~ao

M - tamanho do dicion�ario

~x - vetor de entrada

xxi

~̂x - vetor de reprodu�c~ao

W - alfabeto de reprodu�c~ao

~wi - vetores do alfabeto de reprodu�c~ao

S - parti�c~ao do espa�co vetorial

Ci - c�elulas do quantizador

q(x) - quantizador de ~x

jjDM jj - medida de distor�c~ao do quantizador vetoriald(~x; ~̂x) - distor�c~ao - erro m�edio quadr�atico

Â0 - alfabeto de reprodu�c~ao inicial

~wi� - neurônio vencedor

�(n) -taxa de aprendizagem na n-�esima itera�c~ao

Oi - fun�c~ao que de�ne a vizinhan�ca em torno do neurônio vencedor�wij - modi�ca�c~ao introduzida na j-�esima componente (sinapse) do neurônio

r(n) - raio de vizinhan�ca, medido na grade bidimensional

dg(�) - distância medida na gradeqi - i-�esimo estado do HMM

N - n�umero de estados do HMM

A = [aij] - matriz transi�c~ao de estados do HMMB= [bj(k)] - matriz de fun�c~ao de probabilidade das observa�c~oes do HMM� = �i - vetor de probabilidade do estado inicial do HMM

L - n�umero de locutores

Ol - vetor de observa�c~oes do l-�esimo locutor

�l - modelo do HMM referente ao l-�esimo locutor

Pl - probabilidade associada ao l-�esimo locutor

�t(i) - probabilidade de avan�co (forward probability)

�t(i) - probabilidade de retrocesso (backward probability)

�t(i) - maior valor de probabilidade ao longo de um �unico caminho

xxii

q�t - sequência de estados �otima

L(Z) - transformada Z do �ltro l(n)

ap - fator de pr�e-ênfase

sp(n) - sinal de voz ap�os a pr�e-ênfase

J(n) - janela (Retangular, Hamming ou Hanning)

s0(n) - sequência de voz �ltrada

fs - frequência de amostragem

esct - coe�ciente de escalonamento

LI e LS - limites inferior e superior, respectivamente, da frequência fundamental

F0F - frequência fundamental feminina

F0M - frequência fundamental masculina

LF e LM - locutor feminino e masculino, respectivamente

C.V. - Coe�ciente de Varia�c~ao

s - desvio padr~ao da amostra

nA - tamanho da amostra

EPm - erro padr~ao da m�edia

1-� - n��vel de con�an�ca ou grau de con�an�ca

� - m�edia populacional

x - m�edia amostral

� - desvio padr~ao populacional

�2 - variância populacional

xxiii

Cap��tulo 1

Introdu�c~ao

1.1 Comunica�c~ao Vocal Homem-M�aquina

O ser humano sempre buscou meios de comunica�c~ao que facilitassem a intera�c~ao

com a m�aquina. Em fun�c~ao disso e do crescente desenvolvimento tecnol�ogico de hard-

ware para o processamento digital de sinais, o meio de comunica�c~ao mais adequado

seria a fala humana. Tal meio de comunica�c~ao proporciona uma cômoda adapta�c~ao

do usu�ario e a capacidade de transmitir uma grande quantidade de informa�c~oes com

pouca intera�c~ao. Os m�etodos tradicionais de identi�ca�c~ao de pessoas requerem a apre-

senta�c~ao de um objeto (chave, cart~ao, etc.) ou uma mensagem fornecida atrav�es de

um teclado (senha, etc.). Muitos desses m�etodos s~ao impratic�aveis em sistemas de

telecomunica�c~oes e apresentam a desvantagem de n~ao serem diretamente dependentes

da pessoa, visto que as pessoas podem perder seu cart~ao ou esquecer sua senha.

A voz �e o meio mais natural de comunica�c~ao do homem. Quando duas pessoas

est~ao conversando, descobre-se com facilidade a idade, sexo e se a l��ngua que est�a

sendo falada �e conhecida.

A partir, unicamente da voz, �e poss��vel identi�car uma s�erie de caracter��sticas de

uma pessoa, tais como, seu grupo s�ocio-cultural, seu estado emocional, seu estado de

sa�ude, a regi~ao onde mora (atrav�es do sotaque) e uma grande quantidade de outras

caracter��sticas.

Torna-se claro, portanto, que a partir do sinal de voz �e poss��vel distinguir algumas

caracter��sticas de cada pessoa. Partindo desse princ��pio, o homem procurou desenvolver

equipamentos que permitissem, atrav�es da voz, a sua comunica�c~ao com as m�aquinas.

1

Introdu�c~ao 2

Com o desenvolvimento tecnol�ogico foi surgindo uma s�erie de equipamentos eletrô-

nicos de uso dom�estico, com o objetivo de melhorar a qualidade de vida do homem

moderno. Tais equipamentos, embora so�sticados, enfrentam ainda di�culdades quanto

a sua utiliza�c~ao, devido �a forma arti�cial com que o usu�ario deve interagir com os

mesmos. Assim, parece claro que o desenvolvimento de uma interface vocal, tornaria

mais f�acil e produtiva a rela�c~ao Homem-M�aquina [1, 2, 3, 4].

Os primeiros trabalhos descrevendo m�aquinas que podiam, de alguma forma, re-

conhecer com certo sucesso a pron�uncia de determinadas palavras datam de 1952 [5].

Uma grande quantidade de trabalhos sobre o assunto surgiu nos anos 60, gra�cas �as

descobertas de algumas propriedades da voz atrav�es do uso de espect�ografos [6] e das

novas facilidades que os computadores digitais vieram oferecer.

Em seguida, veri�cou-se a necessidade de desenvolver m�aquinas capazes n~ao s�o de

entender o que estava sendo dito, mas de responder ao que lhe era perguntado. Os

esfor�cos iniciais para constru�c~ao de m�aquinas falantes datam do �nal do s�eculo XVIII,

quando foram elaborados curiosos engenhos ac�usticos que produziam sons semelhantes

�a voz e eram \tocados" �a maneira de um instrumento musical [2].

Al�em da facilidade de comunica�c~ao, a voz oferece muitas outras vantagens na inte-

ra�c~ao com as m�aquinas como, por exemplo, a velocidade: a maioria das pessoas pode

falar facilmente a taxas de 200 palavras por minuto; por outro lado, poucas pessoas

podem digitar, em um teclado, mais de 60 palavras por minuto [7].

A entrada vocal �e bastante adequada para aplica�c~oes em que uma ou mais das se-

guintes condi�c~oes se aplicam: as m~aos do usu�ario est~ao ocupadas; mobilidade �e exigida

durante o processo de entrada de dados; os olhos do operador devem permanecer �xos

sobre um display; um instrumento �optico ou algum objeto �e rastreado; �e incoveniente

o uso de teclado em um ambiente, dentre outras. Por n~ao requererem nem as m~aos

nem os olhos do usu�ario para sua opera�c~ao, os sistemas de entrada vocal podem ser

utilizados em diversas aplica�c~oes, como por exemplo: controle de tr�afego a�ereo, aux��lio

a de�cientes f��sicos, controle de qualidade e inspe�c~ao e controle de acesso a ambientes

restritos [3].

A identi�ca�c~ao da voz tem a conveniência da facilidade de cole�c~ao de dados.

Outra vantagem dessa t�ecnica, quando comparada com outras t�ecnicas, por exemplo,

o exame de fundo de olho, impress~oes digitais e assinaturas, se refere a sua facilidade

de utiliza�c~ao em sistemas em que se exige o reconhecimento �a distância; por exemplo

transa�c~oes banc�arias por telefone. Al�em disso, a voz n~ao pode ser perdida nem t~ao

Introdu�c~ao 3

pouco esquecida, diferentemente dos outros m�etodos de identi�ca�c~ao, tais como cart~oes

magn�eticos e senhas num�ericas [3].

A comunica�c~ao vocal entre pessoas e m�aquinas inclui s��ntese de voz para texto, re-

conhecimento autom�atico de voz (convers~ao voz-texto) e o reconhecimento de locutores

a partir de suas vozes. Portanto, a comunica�c~ao vocal Homem-M�aquina se divide nas

seguintes sub�areas principais [1]:

1. Resposta Vocal;

2. Reconhecimento de Fala;

3. Reconhecimento de Locutor.

A Figura 1.1 mostra uma descri�c~ao geral do processamento da voz, para a tarefa

de reconhecimento, com ênfase ao reconhecimento de locutor (objeto de estudo deste

trabalho) e a rela�c~ao entre as suas sub�areas [8].

��

��

Processamento da Voz

CodificaçãoReconhecimento

Reconhecimentode fala da linguagem

Identificação Reconhecimentode locutor

Identificaçãode locutor de locutor

Verificação

não cooperativoscooperativos/Locutores

Dependente/independentedo texto

independenteDependente/

do texto

Locutorescooperativos/não cooperativos

Síntese

Figura 1.1: Descri�c~ao geral do processamento da voz.

Introdu�c~ao 4

1.1.1 Sistemas de Resposta Vocal

Sistemas de resposta vocal s~ao projetados para responder a um pedido de infor-

ma�c~ao utilizando mensagens faladas. Assim, a comunica�c~ao de voz em sistemas de

resposta vocal se faz em uma �unica dire�c~ao, isto �e, da m�aquina para o homem [1].

Para gerar a sa��da ac�ustica para um vocabul�ario de v�arias centenas de palavras, �e

geralmente su�ciente usar elementos de texto armazenados digitalmente, consistindo

de frases, palavras, fonemas ou certos parâmetros chaves (codi�ca�c~ao param�etrica),

que podem ser concatenados para formarem a sa��da desejada.

Todos os m�etodos de codi�ca�c~ao de forma de onda conhecidos (PCM 1, PCM di-

ferencial, PCM diferencial adaptativo, etc.) e m�etodos de an�alise-s��ntese (t�ecnicas de

codi�ca�c~ao preditiva linear) podem ser usados para armazenar os elementos de tex-

to. A escolha do m�etodo a ser utilizado �e uma fun�c~ao da qualidade da reprodu�c~ao

das mensagens e da capacidade de armazenamento exigidos pelo sistema. A qualida-

de da voz depende, essencialmente, do m�etodo de codi�ca�c~ao utilizado. Os valores

dos parâmetros derivados dessa representa�c~ao s~ao, ent~ao, usados para controlar um

sintetizador de voz que modela a produ�c~ao da voz humana.

Alguns problemas que ainda devem ser solucionados quanto �a s��ntese de voz incluem,

entona�c~ao incorreta de frases e pron�uncia errônea de palavras mais complexas, ou de

combina�c~oes de palavras [9].

1.1.2 Sistemas de Reconhecimento de Fala

Nos sistemas de reconhecimento de fala a comunica�c~ao vocal �e feita do homem para

a m�aquina. O reconhecimento de fala, pode ser subdividido em um grande n�umero de

sub�areas dependendo de alguns fatores, tais como, tamanho do vocabul�ario, popula�c~ao

de locutores, etc [1].

A tarefa b�asica no reconhecimento de fala �e reconhecer uma determinada elocu�c~ao

de uma senten�ca ou \entender" um texto falado (ou seja, responder de forma correta

ao que est�a sendo falado) [1]. O conceito de entendimento, ao inv�es de reconhecimento,

�e de grande importância para sistemas que tratam com entrada de voz cont��nua com

grande vocabul�ario, enquanto que o conceito de reconhecimento exato �e de maior im-

portância para sistemas de palavras isoladas, vocabul�ario limitado e pequeno n�umero

1Modula�c~ao por Codi�ca�c~ao de Pulsos

Introdu�c~ao 5

de usu�arios [1, 10].

A tecnologia de reconhecimento de fala ainda n~ao permite o entendimento au-

tom�atico de voz uente, de qualquer locutor, usando a mesma linguagem. Os proble-

mas de reconhecimento de fala por m�aquinas est~ao relacionados �a estrutura complexa

da voz humana, que depende de fatores tais como: caracter��sticas vocais, entona�c~ao,

velocidade da fala, estado emocional do usu�ario, etc.

De uma forma geral, os sistemas de reconhecimento autom�atico de fala podem ser

considerados como pertencentes a uma das seguintes categorias [1]:

� Sistemas de Reconhecimento de Palavras Isoladas;

� Sistemas de Reconhecimento de Palavras Conectadas;

� Sistemas de Reconhecimento Dependente do Locutor;

� Sistemas de Reconhecimento Independente do Locutor.

Os sistemas de reconhecimento de palavras isoladas podem ser de�nidos como aque-

les sistemas que exigem uma pausa curta antes e depois das senten�cas que devem ser

reconhecidas [11].

O modo de entrada de palavras conectadas pode ser conveniente para o usu�ario por-

que se assemelha �a maneira mais natural de se falar, contudo esse tipo de comunica�c~ao

tem algumas limita�c~oes em vista do presente est�agio da tecnologia de reconhecimento

de fala [1].

Os sistemas dependentes do locutor s~ao caracterizados por serem treinados para

obedecerem �as caracter��sticas espec��cas da voz dos seus usu�arios [1].

Os sistemas de reconhecimento independente do locutor, ou sistemas \insens��veis"

ao locutor, podem ser de�nidos como aqueles que n~ao est~ao presos �as caracter��sticas

espec��cas da voz do usu�ario [1].

1.1.3 Sistemas de Reconhecimento de Locutor

O objetivo de um sistema de reconhecimento de locutor �e reconhecer um locutor a

partir da sua voz, sendo bastante �util em aplica�c~oes de seguran�ca, como por exemplo o

controle de acesso a ambientes restritos (utiliza�c~ao da voz para abrir e fechar portas) e

Introdu�c~ao 6

o controle de acesso de dados em computadores. Em criminal��stica, pode ser utilizado

com o mesmo prop�osito que hoje �e dado �as impress~oes digitais [1]. Nesse contexto,

os Sistemas de Reconhecimento Autom�atico de Locutor (SRALs) constituem uma das

principais �areas da comunica�c~ao vocal homem-m�aquina [1].

Nos sistemas de reconhecimento de locutor, da mesma forma que nos sistemas de

reconhecimento de fala, a comunica�c~ao vocal �e feita do homem para a m�aquina.

O processo de reconhecimento da identidade vocal de locutores consiste na extra�c~ao

de parâmetros da voz, de um dado locutor, de forma a de�nir um modelo que preserve

as suas caracter��sticas vocais que o diferenciam de outros indiv��duos.

Duas classes de aplica�c~oes s~ao desenvolvidas baseadas em sistemas de reconheci-

mento de locutor: identi�ca�c~ao de locutor e veri�ca�c~ao de locutor. Aplica�c~oes para

identi�ca�c~ao de locutor buscam responder a seguinte quest~ao: \Quem �e você ?", en-

quanto que aplica�c~oes para veri�ca�c~ao de locutor buscam responder: \Você �e mesmo

quem alega ser ?" [8, 12, 13].

A identi�ca�c~ao de locutor �e um processo de determina�c~ao da identidade de um

locutor dentre v�arios locutores, pela compara�c~ao do sinal de voz deste locutor (sinal

de entrada) com os demais, escolhendo o que proporcionar o melhor \casamento" com

o sinal de voz de entrada [1, 14].

A veri�ca�c~ao de locutor tem por objetivo determinar, automaticamente, se a iden-

tidade de um pretenso locutor �e verdadeira ou n~ao [1, 15].

A Figura 1.2 mostra a representa�c~ao geral de um problema de reconhecimento de

locutor [16].

&COMPARAÇÃO

PADRÕES DE

REFERÊNCIA

PROCESSAMENTO

DO SINALde VozSinal

& - RECONHECIMENTO

REGRA DE

DECISÃO

Figura 1.2: Modelo gen�erico para um sistema de reconhecimento de locutor.

O reconhecimento de locutor �e uma tarefa de reconhecimento de padr~oes. Em

Introdu�c~ao 7

essência requer um mapeamento entre identi�ca�c~ao de voz e locutor, tal que cada

poss��vel forma de onda de entrada �e identi�cada com seu locutor correspondente.

Para a implementa�c~ao de um sistema de reconhecimento de locutor deve-se obter,

para cada locutor, um conjunto de parâmetros representativos da sua voz. Os parâme-

tros obtidos ir~ao compor um modelo (ou padr~ao) representativo do locutor. Nesse siste-

ma o locutor ser�a aceito ou rejeitado, a partir da compara�c~ao dos seus parâmetros (pa-

dr~ao) de teste com os parâmetros j�a armazenados (padr~oes de referência), utilizando-se

uma regra de decis~ao.

Dado um sinal de voz de entrada, o objetivo do reconhecimento de locutor �e iden-

ti�car a pessoa mais prov�avel de ser o locutor (dentre uma popula�c~ao conhecida) -

Identi�ca�c~ao de Locutor, ou veri�car se o locutor �e quem ele alega ser - Veri�-

ca�c~ao de Locutor [1]. Portanto, esses sistemas desempenham as seguintes fun�c~oes:

1. Veri�ca�c~ao de locutor - Compara�c~ao com um �unico padr~ao pr�e-estabelecido.

2. Identi�ca�c~ao de locutor - Compara�c~ao com todos os padr~oes pr�e-estabelecidos.

Na veri�ca�c~ao de locutor, uma identidade �e alegada pelo usu�ario e a decis~ao reque-

rida pelo sistema �e estritamente bin�aria, isto �e, consiste simplesmente em aceitar ou

rejeitar a identidade alegada.

A literatura aborda, com diferentes termos, a veri�ca�c~ao de locutor, incluindo de-

nomina�c~oes tais como: veri�ca�c~ao da voz, autentica�c~ao do locutor, autentica�c~ao da voz

e veri�ca�c~ao do locutor [8].

O problema da identi�ca�c~ao de locutor difere signi�cativamente do problema da

veri�ca�c~ao de locutor, uma vez que, nesse caso, o sistema �e requisitado a fazer uma

identi�ca�c~ao entre todos locutores. Assim, em vez de uma �unica compara�c~ao entre um

conjunto de medidas e um padr~ao de referência armazenado, torna-se necess�ario um

n�umero de compara�c~oes igual ao n�umero de locutores. Este tipo de reconhecimento

pode ocorrer de duas formas: conjunto-aberto (o locutor pode n~ao estar entre a popu-

la�c~ao) e conjunto-fechado (sabe-se a priori que o locutor �e um membro da popula�c~ao).

Descri�c~oes gerais de sistemas para o reconhecimento de locutor têm sido mostradas

em [3, 8, 13, 17, 18, 19].

Todas as tarefas de reconhecimento de padr~oes, inclusive o reconhecimento de lo-

cutor, utilizam duas fases: treinamento (Figura 1.3) e reconhecimento (Figura 1.4).

Introdu�c~ao 8

Na fase de treinamento �e estabelecido um dicion�ario de padr~oes de referência de voz,

aos quais s~ao atribu��dos r�otulos que identi�cam o locutor. Na fase de reconhecimento

s~ao obtidos padr~oes de teste que s~ao comparados com todos os padr~oes de referência

e ent~ao, utilizando-se uma regra de decis~ao, �e identi�cado aquele mais semelhante ao

padr~ao de entrada desconhecido.

DE TREINAMENTO

DEFINE E ARMAZENA

PARÂMETROS PADRÕES DE REFERÊNCIA

EXTRA ÇÃO DE

SENTENÇA

Figura 1.3: Fase de Treinamento de um SRAL.

&

DE TESTE

CALCULA

DE TESTE

EXTRAÇÃO DE

PARÂMETROSPADRÃO

PADRÃO DE

REFERÊNCIA

COMPARAÇÃO

& - RECONHECIMENTO

SENTENÇA

Figura 1.4: Fase de Reconhecimento de um SRAL.

O reconhecimento de locutor tamb�em pode ser dependente ou independente do

texto. SRAL dependente do texto requer que o locutor pronuncie uma frase ou uma

dada senha pr�e-determinada e o sistema independente do texto n~ao requer a exigência

do caso anterior. Na �area da criminal��tica, por exemplo, �e de maior interesse o uso de

SRAL independente do texto, uma vez que na maioria das aplica�c~oes os locutores a

serem identi�cados s~ao n~ao cooperativos. Em outras situa�c~oes se torna mais adequado

uso do SRAL dependente do texto, a exemplo das aplica�c~oes que envolvem acesso a

ambientes restritos, neste caso os locutores s~ao cooperativos.

Alguns fatores externos podem contribuir para erros em um sistema de reconheci-

mento autom�atico de locutor. A Tabela 1.1 apresenta alguns dos fatores humanos e de

ambiente que contribuem para esses erros. Esses fatores geralmente s~ao externos aos

algoritmos ou s~ao melhor corrigidos por meios que n~ao envolvam necessariamente os

Introdu�c~ao 9

algoritmos (e.g., o uso de microfones de melhor qualidade). Esses fatores s~ao impor-

tantes e, em alguns casos, n~ao importa o qu~ao bom o algoritmo para reconhecimento

de locutor possa ser, o erro humano (e.g., o erro de leitura e �as vezes de elocu�c~ao) pode

limitar o seu desempenho [8].

Tabela 1.1: Fontes externas de erro para um SRAL.

Erro de elocu�c~ao ou de leitura das frases pr�e-de�nidas

Estado emocional

Varia�c~ao da posi�c~ao do microfone (intra ou inter-sess~oes)

Ambiente ac�ustico pobre ou inconsistente (e.g., ru��do)

Erro de \casamento" do canal (e.g., microfones diferentes para treinamento e teste)

Problemas de sa�ude (e.g., resfriado que pode alterar as caracter��sticas do trato vocal)

Idade (e.g., a forma do trato vocal pode ser alterada com a idade)

Portanto, para o projeto de um SRAL e�ciente, deve-se minimizar, o m�aximo

poss��vel, os erros externos ao sistema e, em seguida, utilizar t�ecnicas que possam re-

presentar, com e�ciência, as caracter��sticas vocais que diferenciam os locutores.

1.2 Motiva�c~ao

A comunica�c~ao oral �e, sem d�uvida alguma, a forma mais natural de comunica�c~ao

humana. Em virtude da intera�c~ao homem-m�aquina se tornar cada vez mais comum,

surge uma demanda natural por sistemas capazes de reconhecer o que est�a sendo di-

to, bem como quem est�a falando [20]. O interesse nessa �area se deve ao n�umero de

aplica�c~oes, bem como �a existência de v�arias quest~oes te�oricas que ainda n~ao foram

respondidas [21].

Sistemas autom�aticos de veri�ca�c~ao e identi�ca�c~ao de locutor s~ao provavelmente os

m�etodos mais econômicos e naturais para solucionar os problemas de uso autorizado de

computadores e sistemas de comunica�c~ao e controle de acesso. Com a disponibilidade

das linhas telefônicas e microfones acoplados aos computadores, o custo de um sistema

de reconhecimento de locutor est�a relacionado, basicamente, ao projeto do software.

Sistemas biom�etricos reconhecem a pessoa pelo uso de tra�cos (fei�c~oes) distintos. A

voz, assim como outras caracter��sticas biom�etricas, n~ao pode ser esquecida ou perdida,

Introdu�c~ao 10

diferentemente dos m�etodos de controle de acesso baseados em objetos (cart~oes, chaves,

etc.) ou mensagens fornecidas atrav�es do teclado (senha, etc.). Al�em disso, os sistemas

de reconhecimento de locutor, atrav�es da fala, podem ser projetados de tal forma que

se tornem robustos, mesmo diante de ru��do e varia�c~oes do canal [19, 22], de altera�c~oes

humanas (e.g., resfriados) e de ambientes de grava�c~ao [8].

Com o objetivo de obter-se sistemas de reconhecimento autom�atico de locutor

e�cientes, diversas t�ecnicas têm sido utilizadas, dentre as quais destacam-se: Mo-

delos de Markov Escondidos (HMMs - Hidden Markov Models) [23, 24, 25, 26], Re-

des Neurais Arti�ciais [27, 28, 29], Quantiza�c~ao Vetorial (VQ - Vector Quantization)

[30, 31, 32, 33, 34], An�alise por Predi�c~ao Linear [35, 36] e Alinhamento Dinâmico no

Tempo (DTW - Dynamic Time Warping) [16].

Apesar do sucesso obtido com a maioria dessas t�ecnicas, o uso de Modelos de Mar-

kov Escondidos se torna cada vez mais popular em sistemas de reconhecimento de

voz e locutor devido a algumas vantagens. Em primeiro lugar, os HMMs s~ao muito

ricos em estrutura matem�atica e, consequentemente, podem formar uma base te�orica

muito forte para uso em um grande grupo de aplica�c~oes (e.g., modelagem do sinal de

voz), tendo a capacidade de solucionar problemas mais dif��ceis como, por exemplo, o

reconhecimento de locutor em sistemas independentes do texto. Segundo, quando apli-

cados apropriadamente, trabalham muito bem para v�arias aplica�c~oes pr�aticas. Al�em

disso, apresentam uma redu�c~ao do custo computacional, na fase de reconhecimento,

em compara�c~ao com outros m�etodos (e.g., DTW) [23, 37, 38, 39].

Entretanto, mesmo diante do sucesso alcan�cado com HMM, torna-se interessante

investigar a utiliza�c~ao conjunta dessas t�ecnicas, de forma a possibilitar o projeto de um

sistema autom�atico de reconhecimento da identidade vocal, para a l��ngua portuguesa,

capaz de modelar e�cientemente as caracter��sticas vocais dos locutores, apresentando

pequenas varia�c~oes intralocutor e grandes varia�c~oes interlocutor.

1.3 Objetivos do Trabalho

Tradicionalmente, os paradigmas para reconhecimento de padr~oes s~ao divididos

em três componentes: extra�c~ao e sele�c~ao de caracter��sticas; escolha dos padr~oes e

classi�ca�c~ao. Embora essa divis~ao seja conveniente para o projeto do sistema, esses

componentes n~ao s~ao independentes. Uma escolha inadequada de algum poder�a com-

prometer, bastante, o desempenho do sistema [8]. O que n~ao poderia ser diferente para

Introdu�c~ao 11

o reconhecimento de locutores.

Dentro desse contexto, o trabalho, aqui apresentado, trata do desenvolvimento de

um sistema h��brido, que utiliza m�etodos param�etrico e estat��stico, para o reconhecimen-

to (identi�ca�c~ao) autom�atico da identidade vocal de locutores, em um grupo fechado

(dependente do texto), para a l��ngua portuguesa, que apresente, a partir da t�ecnica

utilizada, desempenho elevado.

Com o objetivo de tornar a tarefa de reconhecimento mais e�ciente e r�apida, o

sistema �e composto de dois est�agios: pr�e-identi�ca�c~ao e identi�ca�c~ao.

No est�agio de pr�e-identi�ca�c~ao os locutores s~ao separados em dois grupos gerais de

acordo com o sexo (homens e mulheres), utilizando a frequência fundamental. A de-

te�c~ao do Per��odo Fundamental (per��odo da frequência fundamental), ou a estima�c~ao da

frequência fundamental de vibra�c~ao das cordas vocais, torna mais r�apida, portanto, a

fase �nal da identi�ca�c~ao, pois os locutores s�o ser~ao analisados dentro dos seus respec-

tivos subgrupos (masculino ou feminino). Tal procedimento poder�a diminuir as taxas

de erro do sistema (quando o locutor feminino �e considerado masculino e vice-versa).

O segundo est�agio, a identi�ca�c~ao propriamente dita, �e subdividido em duas etapas

da seguinte forma:

Primeira etapa: a regra de decis~ao baseia-se em uma medida de distor�c~ao, obtida a

partir da compara�c~ao do vetor de teste (vetor de parâmetros ac�usticos) com o conjunto

de padr~oes de referência (vetores-c�odigo do dicion�ario). A constru�c~ao dos padr~oes

ac�usticos representativos dos locutores (padr~oes de referência), um padr~ao para cada

locutor, �e levada a efeito a partir da Quantiza�c~ao Vetorial (QV) Param�etrica. Os

parâmetros s~ao obtidos atrav�es da an�alise por predi�c~ao linear, sendo realizada uma

an�alise comparativa do desempenho de diversos tipos de coe�cientes obtidos a partir

dessa an�alise (coe�cientes LPC, Cepestrais, Cepestrais Ponderados, Delta Cepestrais e

Delta Cepestrais Ponderados), de forma a determinar qual(is) o(s) tipo(s) de coe�ciente

que melhor representa(m) as caracter��sticas vocais dos locutores. Na constru�c~ao dos

padr~oes ac�usticos, dicion�arios do QV, s~ao avaliados três m�etodos: o primeiro utiliza

o algoritmo LBG [40], o segundo o algoritmo KMVVT (Kohonen Modi�cado com

Vizinhan�ca Centrada em Torno do Vetor de Treino) e o terceiro m�etodo utiliza o

algoritmo SSC (Competitivo no Espa�co Sin�aptico), os dois �ultimos propostos por Vilar

Fran�ca et al [41, 42, 43]. O algoritmo SSC se mostrou mais adequado para o projeto

do dicion�arios, sendo portanto o escolhido.

Introdu�c~ao 12

Segunda etapa: a regra de decis~ao baseia-se em uma medida de probabilidade, obtida

a partir da compra�c~ao do vetor de teste com o novo conjunto de padr~oes de referência.

Estes padr~oes representativos dos locutores s~ao obtidos a partir da Modelagem por

Modelos de Markov Escondidos (HMMs) de Densidades Discretas (os parâmetros re-

presentativos dos locutores s~ao transformados, a partir da QV, em um conjunto de

observa�c~oes discretas), um HMM associado a cada locutor do sistema.

Na tarefa de reconhecimento (identi�ca�c~ao), s~ao utilizadas, portanto, duas medidas

para discrimina�c~ao de locutores: a medida de distor�c~ao obtida a partir da quanti-

za�c~ao vetorial, seguida da probabilidade obtida do HMM. Esta �ultima �e utilizada como

parâmetro de \re�namento" do processo, sendo aplicada quando a medida de distor�c~ao

indicar \similaridade" entre as caracter��sticas vocais dos locutores.

1.4 Organiza�c~ao do Trabalho

Esta descri�c~ao do trabalho desenvolvido foi estruturada em sete cap��tulos. O pre-

sente cap��tulo tem por objetivo permitir ao leitor uma vis~ao mais ampla da comunica�c~ao

vocal homem-m�aquina, ao mesmo tempo que procura focalizar sua aten�c~ao no objeto

de estudo deste trabalho. Al�em disso, esta se�c~ao apresenta uma breve visualiza�c~ao dos

demais cap��tulos deste documento, mostrando nos par�agrafos a seguir uma descri�c~ao

r�apida desses cap��tulos.

No Cap��tulo 2 �e descrito o mecanismo de produ�c~ao da voz e o seu modelo corres-

pondente, o qual possibilitar�a a obten�c~ao dos parâmetros necess�arios �a representa�c~ao

dos sinais de voz, visando a realiza�c~ao da tarefa de reconhecimento (identi�ca�c~ao)

autom�atico da identidade vocal de locutores.

No Cap��tulo 3 �e realizada a descri�c~ao das t�ecnicas analisadas para extra�c~ao das

caracter��sticas vocais representativas dos locutores.

No Cap��tulo 4 s~ao apresentadas as t�ecnicas a serem utilizadas no processo de reco-

nhecimento (identi�ca�c~ao) de locutor, especi�cando os elementos necess�arios �a mode-

lagem dos sinais de voz de cada locutor, para sua posterior identi�ca�c~ao.

O Cap��tulo 5 faz a descri�c~ao do sistema de reconhecimento (identi�ca�c~ao) au-

tom�atico da identidade vocal de locutores.

No Cap��tulo 6 �e realizada a apresenta�c~ao e an�alise dos resultados obtidos. Por

Introdu�c~ao 13

�m, os resultados, as conclus~oes e sugest~oes para trabalhos futuros s~ao comentados no

Cap��tulo 7.

O Anexo A apresenta resultados complementares aos apresentados no Cap��tulo 5.

No Anexo B �e realizada uma descri�c~ao geral da interface projetada para o sistema

de reconhecimento (identi�ca�c~ao) autom�atico da identidade vocal de locutores.

Cap��tulo 2

O Mecanismo de Produ�c~ao da Voz

2.1 Introdu�c~ao

Os sinais de voz s~ao compostos de uma sequência de sons que servem como uma

representa�c~ao simb�olica da mensagem produzida pelo locutor para o ouvinte. A com-

posi�c~ao desses sons �e governada pelas regras de linguagem. O estudo cient��co da

linguagem e a forma como essas regras s~ao usadas na comunica�c~ao humana �e deno-

minada lingu��stica. A ciência que estuda as caracter��sticas da produ�c~ao do som pelo

homem, especialmente para a descri�c~ao, classi�ca�c~ao e transcri�c~ao da voz, �e denomi-

nada fon�etica [1].

A voz �e um sinal produzido como resultado de v�arias transforma�c~oes que ocorrem

em diferentes n��veis: semântico, lingu��stico, articulat�orio e ac�ustico. As diferen�cas

nessas transforma�c~oes aparecem como diferen�cas nas propriedades ac�usticas do sinal

de voz. Diferen�cas relacionadas com os locutores s~ao um resultado da combina�c~ao das

diferen�cas anatômicas inerentes ao trato vocal (caracter��sticas inerentes) e daquelas

relacionadas ao movimento dinâmico do trato vocal, ou seja, a forma como a pessoa

fala (caracter��sticas instru��das). Em reconhecimento de locutor, todas essas diferen�cas

podem ser usadas para discriminar os locutores entre si [8].

Para gerar o som desejado, o locutor exerce uma s�erie de controles sobre o apa-

relho fonador, representado na Figura 2.1, produzindo a con�gura�c~ao articulat�oria e

a excita�c~ao apropriadas. A Figura 2.1 evidencia as caracter��sticas importantes do

sistema vocal humano. O trato vocal, nome gen�erico dado ao conjunto de cavidades e

estruturas que participam diretamente da produ�c~ao sonora, come�ca na abertura entre

14

O Mecanismo de Produ�c~ao da Voz 15

as cordas vocais, ou glote e termina nos l�abios. O trato vocal assim, consiste da faringe

(a conex~ao entre o esôfago e a boca) e termina na boca ou cavidade oral. O trato nasal

come�ca na �uvula e termina nas narinas. Quando a �uvula �e abaixada, o trato nasal �e

acusticamente acoplado ao trato vocal para produzir os sons nasais da voz. Veri�ca-se

que a forma do trato nasal, n~ao pode ser modi�cada voluntariamente pelo locutor.

Ap�os a �ltragem, determinada pela conforma�c~ao do aparelho fonador, o uxo de ar

injetado pelos pulm~oes �e acoplado ao ambiente externo atrav�es dos orif��cios dos l�abios

e/ou narinas [1].

Figura 2.1: Anatomia do aparelho fonador.

Na Figura 2.2 �e apresentado um modelo mecânico para a produ�c~ao de voz. Nesse

modelo os tratos oral e nasal s~ao representados por tubos acusticamente acoplados.

O diagrama completo inclui o sistema subglotal composto dos pulm~oes, brônquios

e traqu�eia. O sistema subglotal funciona como uma fonte de energia para produ�c~ao da

voz. A voz �e a onda ac�ustica radiada do sistema quando o ar �e expelido dos pulm~oes [1].

O trato vocal e o trato nasal podem ser vistos como tubos de se�c~ao transversal n~ao

uniforme. O som se propaga atrav�es desses tubos e o espectro de frequência �e modelado

pela seletividade de frequência do tubo. Esse efeito �e muito similar aos efeitos de

ressonância observados em instrumentos de sopro. No contexto da produ�c~ao da voz,

as frequências de ressonância do tubo do trato vocal s~ao chamadas de frequências

formantes ou simplesmente formantes. As frequências formantes dependem sobretudo

da forma e dimens~oes do trato vocal. Cada forma �e caracterizada por um conjunto de

frequências formantes. Sons diferentes s~ao formados em fun�c~ao das varia�c~oes da forma


narinas

cavidades nasais

faringe

boca

cordasvocaislábios

úvula

pulmão

Figura 2.2: Modelo ac�ustico do aparelho fonador.

assumida pelo trato vocal. Assim, as propriedades espectrais do sinal de voz variam

com o tempo e com a forma do trato vocal [44].

Se o ouvinte decodi�car de forma correta a sequência de sons emitida, a cadeia de

comunica�c~ao se completar�a fechando o ciclo, que compreende desde a concep�c~ao da

id�eia at�e sua completa assimila�c~ao pelo interlocutor.

Em virtude das limita�c~oes dos org~aos humanos de produ�c~ao de voz e o sistema

auditivo, a comunica�c~ao humana t��pica est�a limitada na faixa de 7-8 kHz [1].

Diante do exposto, faz-se necess�ario realizar an�alises ac�usticas, compreender as

formas de excita�c~ao do aparelho fonador, bem como avaliar os parâmetros temporais

do sinal de voz, de forma a tornar poss��vel a obten�c~ao de um modelo para a produ�c~ao

da voz, o qual �e fundamental para a implementa�c~ao de um sistema de reconhecimento

autom�atico da identidade vocal de locutores.

2.2 An�alises Ac�usticas Elementares

As caracter��sticas espectrais do sinal de voz s~ao variantes no tempo (ou n~ao esta-

cion�arias), visto que o sistema f��sico varia com o tempo. Como resultado, o sinal de voz

pode ser dividido em segmentos que possuem propriedades ac�usticas semelhantes para

curtos intervalos de tempo. Inicialmente, os sinais de voz s~ao, tipicamente, particiona-

dos dentro de duas categorias b�asicas: (1) vogais que quase n~ao apresentam restri�c~ao


�a passagem do ar atrav�es do trato vocal e (2) consoantes que apresentam uma maior

restri�c~ao �a passagem do ar e s~ao, em geral, mais \fracas" em amplitude e podem ser

semelhantes a uma fonte de ru��do. Algumas das diferen�cas entre vogais e consoantes

s~ao evidentes visualizando a forma de onda no tempo da palavra aplausos pronunciada

por um locutor masculino (Figura 2.3).

Figura 2.3: Forma de onda no tempo da palavra aplausos.

Para a engenharia el�etrica �e interessante observar as formas de onda, para veri�car

o que estas podem revelar sobre os aspectos ac�usticos e psicol�ogicos da voz. A Figu-

ra 2.3 apresenta as caracter��sticas b�asicas do sinal de voz tais como: periodicidade,

intensidade, dura�c~ao, etc. Uma das mais importantes caracter��sticas da voz, bastante

evidente na Figura 2.3, �e que a voz n~ao �e constitu��da por sons discretos bem de�nidos.

As varia�c~oes evidentes na forma de onda da voz s~ao uma consequência direta dos

movimentos do sistema articulat�orio da voz, o qual raramente permanece �xo por um

consider�avel per��odo de tempo [1].

Para o prop�osito da comunica�c~ao humana, �e de interesse observar o sinal ac�ustico

produzido pelo locutor, com o objetivo de determinar os paralelos entre a comunica�c~ao

humana e a eletrônica [1].


2.3 Formas de Excita�c~ao: Classi�ca�c~ao dos Sons da

Voz

A Figura 2.3 ilustra a forma de onda t��pica de um sinal de voz, que �e cont��nua

no tempo e em amplitude. Um aspecto muito importante a ser observado �e que o

sinal apresenta trechos que se repetem quase periodicamente e trechos basicamente

aleat�orios, sem nenhuma periodicidade. Assim, os sons da voz podem ser classi�cados

em 3 classes distintas de acordo com o modo de excita�c~ao. As classes s~ao as seguintes [1]:

sons sonoros, sons surdos e sons explosivos.

2.3.1 Sons Sonoros

O uxo de ar vindo dos pulm~oes �e controlado pela abertura e fechamento das cordas

vocais, ou dobras vocais, que s~ao ligamentos semelhantes a dois l�abios que podem ser

tensionados e(ou) aproximados sob o controle do locutor. A abertura entre as dobras

�e denominada glote. Estando a glote completamente fechada, o uxo de ar vindo dos

pulm~oes �e interrompido e a press~ao subgl�otica aumenta at�e que as dobras vocais sejam

separadas, liberando o ar pressionado, gerando um pulso de ar de curta dura�c~ao. Com

o escoamento do ar, a press~ao gl�otica �e reduzida, possibilitando uma nova aproxima�c~ao

das cordas vocais. O processo se repete de forma quase peri�odica. Dessa forma, s~ao

obtidas ondas de press~ao, quase peri�odicas, excitando o trato vocal, que atuando como

um ressonador modi�ca o sinal de excita�c~ao, produzindo frequências de ressonância,

denominadas de formantes, que caracterizar~ao os diferentes sons sonoros [1, 45].

Quanto mais r�apida a repeti�c~ao, mais alta a frequência e mais aguda �e a voz, como

nas vozes femininas e infantis; quanto mais lentamente essas repeti�c~oes se reproduzem,

mais grave �e a voz, como no caso das vozes masculinas [45].

As vogais, cujo grau de nasaliza�c~ao �e determinado pelo abaixamento da �uvula,

s~ao exemplos t��picos de sons sonoros. A Figura 2.4 mostra a forma de onda para a

vogal /a/, na palavra aplausos. Algumas consoantes, como /l/ e /m/, tamb�em s~ao

produzidas com a excita�c~ao glotal.

A frequência m�edia dos pulsos �e denominada frequência fundamental de excita�c~ao,

F0 e o per��odo fundamental (ou per��odo de pitch), P0, �e dado por

P0 =1

F0(2.1)


Figura 2.4: Forma de onda da vogal n~ao nasalizada /a/ na palavra aplausos.

Em processamento de voz os termos pitch e frequência fundamental s~ao utilizados

como sinônimos, embora o conceito de pitch seja mais abrangente. A rigor o pitch de

um determinado est��mulo sonoro (n~ao necessariamente um sinal de voz), corresponde

�a frequência, em Hz, de um tom senoidal que est�a \a�nado" com o est��mulo, segundo a

percep�c~ao auditiva de um determinado indiv��duo. Como, na percep�c~ao de voz, o pitch

dos sons sonoros geralmente corresponde ao valor da frequência fundamental, para as

pessoas com audi�c~ao normal, os dois termos passaram a ser empregados indistintamen-

te [2].

A frequência fundamental dos sons sonoros �ca entre 80-120 Hz (para homens) e

350 Hz (para crian�cas), sendo 240 Hz um valor t��pico para mulheres [46].

2.3.2 Sons Surdos

Os sons surdos s~ao gerados pela produ�c~ao de uma constri�c~ao em algum ponto

do trato vocal (usualmente pr�oximo ao �nal da boca), assim o ar adquire velocidade

su�cientemente alta para produzir turbulência gerando um ru��do de espectro largo

(semelhante ao ru��do branco) para excitar o trato vocal.

Na produ�c~ao desses sons a glote permanece aberta, n~ao havendo vibra�c~ao das cordas

vocais. Por exemplo, na produ�c~ao do fonema /s/ em aplausos (Figura 2.5), l�abios e

dentes s~ao ligeiramente pressionados, deixando assim uma passagem estreita para o ar,

produzindo um uxo de ar turbulento nas imedia�c~oes da constri�c~ao, o qual excita as


cavidades do trato vocal. O som produzido dessa forma tem caracter��sticas ruidosas

com concentra�c~ao relativa de energia nas mais altas componentes de frequência do

espectro de sinais de voz [1, 2].

Figura 2.5: Forma de onda do fonema /s/ na palavra aplausos.

2.3.3 Sons Explosivos

Na gera�c~ao dos sons explosivos, o ar �e totalmente dirigido �a boca, estando esta com-

pletamente fechada. Com o aumento da press~ao, a oclus~ao �e rompida bruscamente,

gerando um pulso que excita o aparelho fonador. Com a excita�c~ao ocorre um movi-

mento r�apido dos articuladores em dire�c~ao �a con�gura�c~ao do pr�oximo som. Exemplos

de sons explosivos s~ao os fonemas /p/, /t/, /k/, dentre outros [1, 2]. A Figura 2.6

mostra a forma de onda do explosivo /p/, em aplausos.

Figura 2.6: Forma de onda do fonema /p/ na palavra aplausos.


2.3.4 Sons com excita�c~ao mista

Os sons fricativos sonoros, como /j/, /v/ e /z/, s~ao produzidos combinando-se vi-

bra�c~ao das cordas vocais e excita�c~ao turbulenta. Nos per��odos em que a press~ao gl�otica

atinge um m�aximo, o escoamento atrav�es da obstru�c~ao torna-se turbulento, gerando o

car�ater fricativo do som; quando a press~ao gl�otica cai abaixo de um dado valor, termina

o escoamento turbulento do ar e as ondas de press~ao apresentam comportamento mais

suave [1, 2]. A Figura 2.7 mostra o fonema fricativo sonoro /z/ em aplausos.

Figura 2.7: Forma de onda do fonema /z/ na palavra aplausos.

Os sons oclusivos (ou explosivos) sonoros, como /d/ e /b/, s~ao produzidos de forma

semelhante aos correspondentes n~ao sonoros, /p/ e /t/, por�em h�a vibra�c~ao das cordas

vocais durante a fase de fechamento da cavidade oral. A Figura 2.8 mostra a forma de

onda do fonema explosivo sonoro /b/ em bola.

Figura 2.8: Forma de onda do fonema /b/ na palavra bola.


2.4 Parâmetros Temporais do Sinal de Voz

O gr�a�co amplitude-versus-tempo de um sinal permite a avalia�c~ao de muitas ca-

racter��sticas importantes que permitem uma completa descri�c~ao do mesmo. A partir

do uso de parâmetros temporais torna-se poss��vel identi�car os sons b�asicos da fala.

Dentre esses parâmetros destacam-se: a Energia do Sinal, a Taxa de Cruzamento por

Zero, o Coe�ciente de Correla�c~ao Normalizado, o N�umero Total de Picos, dentre outros.

A partir da Figura 2.3 �e poss��vel perceber uma combina�c~ao de caracter��sticas ine-

rentes ao processo de produ�c~ao da fala. Em alguns intervalos, o sinal apresenta n��veis

elevados de energia al�em de uma certa periodicidade e, em outros, tem a aparência de

um sinal aleat�orio com n��veis de amplitude bastante reduzidos.

Os parâmetros temporais extra��dos do sinal de voz neste trabalho s~ao: Energia do

Sinal, Coe�ciente de Correla�c~ao Normalizado, Taxa de Cruzamento por Zero, N�umero

Total de Picos e a Diferen�ca entre os Picos [1].

A energia e a taxa de cruzamento por zero s~ao parâmetros tradicionais na an�alise

de voz. Os outros parâmetros: n�umero total de picos (e a diferen�ca entre os picos) da

forma de onda e o coe�ciente de correla�c~ao s~ao propostos para auxiliar a dete�c~ao de

categorias de sons como fricativos surdos e fricativos sonoros, por exemplo [1].

Uma caracter��stica importante dos sinais de voz �e que suas propriedades estat��sticas

podem ser consideradas invariantes no tempo, para curtos intervalos, at�e 32 ms, sendo

um valor t��pico, 16 ms. Assim sendo, para se obter os parâmetros temporais do sinal �e

necess�ario particion�a-lo em segmentos (ou blocos de amostras), visando trabalhar com

o sinal dentro dos seus limites de estacionariedade [1, 20, 27, 47].

2.4.1 Energia por segmento

A energia por segmento (segmental), Eseg, �e de�nida por

Eseg = NA � Ef[s(n)� �s(n)]2g: (2.2)

Para sinais erg�odicos 1 e estacion�arios no sentido amplo 2, com m�edia nula, como a

1Para um processo estoc�astico erg�odico, as suas m�edias estat��sticas s~ao iguais as suas m�edias

temporais.2Um processo estoc�astico estacion�ario no sentido amplo possui uma m�edia constante e uma fun�c~ao

de autocorrela�c~ao que depende apenas da diferen�ca entre os intervalos de medi�c~ao.


voz, Eseg �e de�nida por [1, 2]:

Eseg = NA � Ef[s(n)]2g =NA�1Xn=0

[s(n)]2 e (2.3)

Eseg(dB) = 10:log[Eseg]; (2.4)

em que s(n) �e o sinal de voz, �s(n) a m�edia de s(n) e NA o tamanho da janela (bloco de

amostras do sinal) em an�alise. A energia �e obtida, portanto, simplesmente, somando-se

os quadrados das amplitudes das NA amostras do sinal contido na janela em an�alise,

devendo reetir as varia�c~oes de amplitude do sinal de voz entre intervalos ou janelas.

A amplitude do sinal de voz varia consideravelmente com o tempo. Considerando-se

que a amplitude dos segmentos surdos �e muito menor que a dos segmentos sonoros, a

utiliza�c~ao do parâmetro energia tem importância fundamental na diferencia�c~ao entre

os sons surdos e sonoros.

Frequentemente, a energia �e maior nos sons surdos do que nos intervalos de silêncio

mas, em alguns casos, essa a�rma�c~ao n~ao �e totalmente correta. Quando o segmento

em an�alise representa um som fricativo, sua energia pode estar muito pr�oxima do n��vel

de energia do ru��do, �unico sinal existente nos intervalos de silêncio, o que pode causar

erros de interpreta�c~ao do sinal desejado. Neste caso, outros parâmetros temporais s~ao

utilizados para auxiliar numa tomada de decis~ao correta.

A energia do sinal de voz est�a concentrada na regi~ao de frequências mais baixas

do espectro, que compreende a faixa de 500 a 800 Hz. No entanto, mesmo contendo

baixos valores de energia, as componentes de frequências mais altas s~ao importantes

pois determinam, em grande parte, a inteligilibilidad

Documents

Reconhecimen to Autom atico de Iden tidade o cal ...joseana/JMF_TesedeDoutorado.pdf · Reconhecimen to Autom atico de Iden tidade V o cal Utilizando Mo delagem H brida: P aram etrica