Upload
others
View
2
Download
0
Embed Size (px)
Citation preview
Reconhecimento Autom�atico de Identidade Vocal
Utilizando Modelagem H��brida:
Param�etrica e Estat��stica
Joseana Macêdo Fechine
Tese de Doutorado submetida �a Coordena�c~ao dos Cursos de P�os-
Gradu�c~ao em Engenharia El�etrica da Universidade Federal da Pa-
ra��ba - Campus II, como parte dos requisitos necess�arios para ob-
ten�c~ao do grau de Doutor em Ciências no dom��nio da Engenharia
El�etrica.
�Area de Concentra�c~ao: Processamento da Informa�c~ao
Benedito Guimar~aes Aguiar Neto - Dr.-Ing.Orientador
Campina Grande, Para��ba, Brasil
cJoseana Macêdo Fechine
Reconhecimento Autom�atico de Identidade Vocal
Utilizando Modelagem H��brida:
Param�etrica e Estat��stica
Joseana Macêdo Fechine
Benedito Guimar~aes Aguiar Neto - Dr.-Ing.Orientador
Abraham Alcaim - Ph.DComponente da Banca
Adri~ao - Ph.DComponente da Banca
Marcus Antônio Brasileiro - Ph.DComponente da Banca
Marcelo Sampaio de Alencar - Ph.DComponente da Banca
Campina Grande, Para��ba, Brasil
ii
Dedico este trabalho a Deus em primeiro lugar, aos meus pais, Jos�e e Ana
Ilda��za, aos meus irm~aos, Vicente, Geovane e Guilhermino e aos meus sobrinhos, Ma-
riana, Melina e Gabriel.
\Todos n�os temos uma soma de deveres a cumprir.
A vida exige de cada um o direito de lutar e vencer."
J.S. Nobre
iii
iii
Agradecimentos
A realiza�c~ao deste trabalho recebeu o apoio de muitos que me ensinaram a ter
perseveran�ca para seguir com o presente estudo. A todos o meu agradecimento e a
certeza de que as palavras e gestos de incentivo n~ao foram in�uteis, sabendo que o
verdadeiro agradecimento consiste no reconhecimento daqueles que contribuem para o
sucesso de outros, ainda que involuntariamente.
Em especial agrade�co a Deus, pelo amor in�nito.
A minha fam��lia, pela paciência, apoio e incentivo sempre presentes.
Ao professor Benedito Guimar~aes Aguiar Neto, pela orienta�c~ao deste trabalho,
est��mulo e dedica�c~ao sempre prestados, que muito me enriqueceram intelectualmen-
te, fortalecendo o meu desenvolvimento pro�ssional.
Ao meu amigo Francisco Madeiro Bernardino J�unior, pelo apoio, incentivo e pela
valorosa contribui�c~ao.
�A professora e amiga Rosângela Maria Vilar Fran�ca, pela valorosa colabora�c~ao,
experiência e sugest~oes.
Aos amigos Paulo M�arcio, Rinaldo, Waslon Terllizzie, Eust�aquio, ...... e demais
colegas do LAPS.
Aos demais amigos que compuseram a amostra de locutores: Isabel, Sissi, Suzete,
professora Maria de F�atima, Rute, Marta, Socorro, Camila, Vânia, Yuska, Ellaine,
Claudia, Vivian, Natasha, Mariana, Renata, Karina, Josemar, Leonel, Bruno, Denis,
Antônio Neto, Alynthor, Luiz Gonzaga J�unior, Felipe, Avishek, Murali, S�ergio, Towar
e Edmar.
A todos que fazem a COPELE, em especial �a Ângela, Pedrinho e Eleonôra, pelo
apoio constante.
A Joab e Antonio Carlos da ATECEL, pelas palavras de incentivo e apoio, como
tamb�em pela gentileza no atendimento das minhas solicita�c~oes.
As minhas grandes amigas K�atia, Magna, K��ssia e Kenia, que tanto me apoiaram
em todos os momentos.
A todos os meus amigos, que direta ou indiretamente me incentivaram no decorrer
deste trabalho.
A Universidade Federal da Para��ba-Campus II, ao CNPq e a CAPES.
iv
iv
Resumo
Este trabalho trata da aplica�c~ao de uma t�ecnica h��brida (param�etrica e estat��stica),
que utiliza An�alise por Predi�c~ao Linear, Quantiza�c~ao Vetorial, Redes Neurais e Mode-
los de Markov Escondidos, para o desenvolvimento de um sistema de reconhecimento
(identi�ca�c~ao) autom�atico da identidade vocal, visando obter alternativas para os al-
goritmos tradicionais. Com o objetivo de se obter um sistema mais r�apido e robusto,
�e realizada uma etapa de pr�e-identi�ca�c~ao, seguida da identi�ca�c~ao. A primeira etapa
utiliza a frequência fundamental (F0) como parâmetro de separa�c~ao pr�evia dos locu-
tores em grupos gerais, de acordo com o sexo. O m�etodo proposto para estima�c~ao da
F0 se mostra e�ciente (99% de classi�ca�c~ao correta), fornecendo estimativas represen-
tativas de cada locutor, reduzindo assim o n�umero de locutores a participar da etapa
posterior. A etapa de identi�ca�c~ao utiliza Modelos de Markov Escondidos (HMMs) de
Densidades Discretas e Quantiza�c~ao Vetorial Param�etrica, com parâmetros ac�usticos
obtidos a partir da An�alise por Predi�c~ao Linear (coe�cientes LPC, Cepestrais, Ce-
pestrais Ponderados, Delta Cepestrais e Delta Cepestrais Ponderados). Os coe�cientes
Cepestrais, seguido dos Delta Cepestrais, proporcionam maiores taxas de identi�ca�c~ao.
Em se tratanto do projeto do dicion�ario do quantizador vetorial, s~ao avaliados três al-
goritmos: LBG (Linde-Buzo-Gray), KMVVT (Kohonen Modi�cado com Vizinhan�ca
Centrada em Torno do Vetor de Treino) e SSC (Competitivo no Espa�co Sin�aptico).
O algoritmo SSC apresenta-se como o mais adequado para o projeto dos dicion�arios,
levando a maiores taxas de identi�ca�c~ao. A modelagem por HMMs se constitui em uma
etapa de \re�namento" do processo de identi�ca�c~ao, sendo utilizada quando as medidas
de distor�c~ao obtidas pela compara�c~ao do padr~ao de teste do locutor a ser identi�cado
(vetor de caracter��sticas ac�usticas) com os padr~oes de referência (dicion�arios do quan-
tizador vetorial) indicarem \similaridade" entre os padr~oes vocais. A t�ecnica aplicada
neste trabalho proporciona a obten�c~ao de um sistema de reconhecimento autom�atico
da identidade vocal que apresenta taxa m�edia de identi�ca�c~ao elevada (97,8%) e signi-
�cativa, baixas taxas m�edias de falsa aceita�c~ao (0,8%) e de falsa rejei�c~ao (1,5%), bem
como alta con�abilidade (99,2%). O sistema de identi�ca�c~ao de locutor desenvolvido
�e, portanto, capaz de discriminar, de forma e�ciente, os locutores a partir das suas
caracter��sticas vocais apresentando, independentemente do sexo do locutor, pequenas
varia�c~oes intralocutor e grandes varia�c~oes interlocutor.
v
Abstract
This work presents an investigation concerning the use a hybrid system (pa-
rametric and statistic) composed by Linear Prediction, Vector Quantization, Neural
Networks and Hidden Markov Models (HMMs) with discrete densities applied to spea-
ker identi�cation. Several parameters, such as coe�cients obtained by Linear Predic-
tion Coding (LPC, Cepstrum, Weighted Cepstrum, Delta Cepstrum and Delta Weigh-
ted Cepstrum methods) are used to represent each speaker. In order to achieve a
robust identi�cation, a two-step system is designed, consisting of a pre-identi�cation
stage followed by an identi�cation stage (main stage). The �rst stage uses the pitch (or
fundamental frequency) to distinguish two subgroups (male and female). The proposed
method to estimate the pitch produces high pre-identi�cation rate (99%), reducing the
set of speakers to be identi�ed in subsequent stage. The main stage is divided into two
substages. The �rst uses vector quantization with codebooks designed by LBG (Linde-
Buzo-Gray), KMVVT (Modi�ed Kohonen's Algorithm with Neighborhood Centered in
the Training Vector) and SSC (Synaptic Space Competitive) algorithms. Results show
that the codebooks of acoustic patterns designed by SSC lead to higher identi�cation
rates when compared to the ones designed by KMVVT and LBG. Additionally, this
work presents a comparative study of the linear predictive analysis methods applied
to speaker identi�cation. Cepstrum and Delta Cepstrum coe�cients produce better
results when compared to other coe�cients. The second substage uses HMMs when
the acoustic patterns indicate that speakers present similar vocal characteristics. Thus,
the second substage is a re�nement of the main stage. The system produces high mean
identi�cation rate (97,8%), small mean false acceptance rate (0,8%) and mean false
rejection rate (1,5%), as well as high con�ability (99,2%). The results show that the
speaker identi�cation system which is able to e�ciently descriminate the vocal cha-
racteristics of the speakers (female and male), with a small intra-speaker and a large
inter-speaker variation.
vi
�Indice
1 Introdu�c~ao 1
1.1 Comunica�c~ao Vocal Homem-M�aquina . . . . . . . . . . . . . . . . . . . 1
1.1.1 Sistemas de Resposta Vocal . . . . . . . . . . . . . . . . . . . . 4
1.1.2 Sistemas de Reconhecimento de Fala . . . . . . . . . . . . . . . 4
1.1.3 Sistemas de Reconhecimento de Locutor . . . . . . . . . . . . . 5
1.2 Motiva�c~ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.3 Objetivos do Trabalho . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.4 Organiza�c~ao do Trabalho . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2 O Mecanismo de Produ�c~ao da Voz 14
2.1 Introdu�c~ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.2 An�alises Ac�usticas Elementares . . . . . . . . . . . . . . . . . . . . . . 16
2.3 Formas de Excita�c~ao: Classi�ca�c~ao dos Sons da Voz . . . . . . . . . . . 18
2.3.1 Sons Sonoros . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.3.2 Sons Surdos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.3.3 Sons Explosivos . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.3.4 Sons com excita�c~ao mista . . . . . . . . . . . . . . . . . . . . . 21
2.4 Parâmetros Temporais do Sinal de Voz . . . . . . . . . . . . . . . . . . 22
2.4.1 Energia por segmento . . . . . . . . . . . . . . . . . . . . . . . . 22
2.4.2 Taxa de Cruzamento por Zero . . . . . . . . . . . . . . . . . . . 23
2.4.3 Coe�ciente de Correla�c~ao Normalizado . . . . . . . . . . . . . . 25
vii
2.4.4 N�umero Total de Picos . . . . . . . . . . . . . . . . . . . . . . . 26
2.4.5 Diferen�ca entre os Picos . . . . . . . . . . . . . . . . . . . . . . 26
2.5 Modelo para Produ�c~ao da Voz . . . . . . . . . . . . . . . . . . . . . . . 26
2.6 Discuss~ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3 M�etodos para Extra�c~ao de Parâmetros Representativos dos Locuto-
res 29
3.1 Introdu�c~ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.2 Frequência Fundamental . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.2.1 M�etodos no Dom��nio do Tempo . . . . . . . . . . . . . . . . . . 32
3.2.2 Detetor Surdo-Sonoro . . . . . . . . . . . . . . . . . . . . . . . . 34
3.2.3 Estima�c~ao da Frequência Fundamental . . . . . . . . . . . . . . 37
3.3 An�alise por Predi�c~ao Linear . . . . . . . . . . . . . . . . . . . . . . . . 39
3.3.1 Coe�cientes LPC . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3.3.2 Coe�cientes Cepestrais . . . . . . . . . . . . . . . . . . . . . . . 44
3.3.3 Coe�cientes Cepestrais Ponderados . . . . . . . . . . . . . . . . 46
3.3.4 Coe�cientes Delta Cepestrais . . . . . . . . . . . . . . . . . . . 47
3.3.5 Coe�cientes Delta Cepestrais Ponderados . . . . . . . . . . . . . 47
3.4 Discuss~ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
4 M�etodos para o Reconhecimento Autom�atico de Locutor 49
4.1 Introdu�c~ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
4.2 Quantiza�c~ao Vetorial . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
4.2.1 Projeto do dicion�ario . . . . . . . . . . . . . . . . . . . . . . . . 54
4.2.2 Medidas de Distor�c~ao . . . . . . . . . . . . . . . . . . . . . . . . 57
4.3 Redes Neurais Arti�ciais . . . . . . . . . . . . . . . . . . . . . . . . . . 58
4.3.1 Topologia das Redes Neurais . . . . . . . . . . . . . . . . . . . . 59
4.3.2 Regras de Treinamento . . . . . . . . . . . . . . . . . . . . . . . 62
viii
4.4 Modelos de Markov Escondidos . . . . . . . . . . . . . . . . . . . . . . 68
4.4.1 Tipos de HMM . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
4.4.2 Parâmetros do Modelo . . . . . . . . . . . . . . . . . . . . . . . 72
4.4.3 Os três problemas b�asicos dos HMMs e suas solu�c~oes . . . . . . 76
4.5 Discuss~ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
5 Descri�c~ao do Sistema de Identi�ca�c~ao Autom�atica de Locutor 89
5.1 Introdu�c~ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
5.2 Processamento do sinal de voz . . . . . . . . . . . . . . . . . . . . . . . 90
5.2.1 Pr�e-ênfase . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
5.2.2 Segmenta�c~ao para an�alise a curtos intervalos . . . . . . . . . . . 91
5.3 Extra�c~ao de caracter��sticas . . . . . . . . . . . . . . . . . . . . . . . . . 93
5.3.1 Dete�c~ao da Frequência Fundamental . . . . . . . . . . . . . . . 93
5.3.2 Obten�c~ao do vetor de caracter��sticas . . . . . . . . . . . . . . . 94
5.4 Quantiza�c~ao Vetorial . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
5.4.1 Projeto do dicion�ario . . . . . . . . . . . . . . . . . . . . . . . . 95
5.4.2 Medida de distor�c~ao . . . . . . . . . . . . . . . . . . . . . . . . 95
5.4.3 Escolha da dimens~ao do quantizador . . . . . . . . . . . . . . . 96
5.4.4 Escolha do n�umero de n��veis do quantizador (s��mbolos do alfa-
beto, M) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
5.5 Modelagem utilizando HMM . . . . . . . . . . . . . . . . . . . . . . . . 96
5.5.1 Escolha do n�umero de estados do HMM (N) . . . . . . . . . . . 97
5.5.2 Inicializa�c~ao de aij . . . . . . . . . . . . . . . . . . . . . . . . . 97
5.5.3 Inicializa�c~ao de bj(k) . . . . . . . . . . . . . . . . . . . . . . . . 98
5.5.4 Uso de m�ultiplas sequências de observa�c~oes . . . . . . . . . . . . 98
5.5.5 Considera�c~oes de implementa�c~ao . . . . . . . . . . . . . . . . . 99
5.6 Padr~oes de Referência e de Teste . . . . . . . . . . . . . . . . . . . . . 101
5.7 Regra de Decis~ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
5.8 Discuss~ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
ix
6 Apresenta�c~ao e An�alise dos Resultados 104
6.1 Introdu�c~ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
6.2 Apresenta�c~ao e An�alise dos Resultados . . . . . . . . . . . . . . . . . . 104
6.2.1 Parâmetros para Avalia�c~ao do Desempenho . . . . . . . . . . . 107
6.2.2 Pr�e-identi�ca�c~ao dos locutores . . . . . . . . . . . . . . . . . . . 108
6.2.3 Identi�ca�c~ao dos locutores . . . . . . . . . . . . . . . . . . . . . 120
6.3 An�alise Estat��stica de Desempenho . . . . . . . . . . . . . . . . . . . . 134
6.3.1 Conceitos B�asicos . . . . . . . . . . . . . . . . . . . . . . . . . . 134
6.3.2 Erro Padr~ao da M�edia . . . . . . . . . . . . . . . . . . . . . . . 135
6.3.3 Estimativa do intervalo de con�an�ca da m�edia aritm�etica de uma
popula�c~ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136
6.3.4 Aplica�c~ao do Teste t de Variância Combinada para Diferen�cas
Entre Duas M�edias Aritm�eticas . . . . . . . . . . . . . . . . . . 138
6.3.5 An�alise estat��stica dos valores obtidos no SRAL . . . . . . . . . 139
7 Conclus~oes e Sugest~oes 143
7.1 Introdu�c~ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143
7.2 Sum�ario da Pesquisa . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144
7.3 Contribui�c~oes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145
7.3.1 Pr�e-identi�ca�c~ao dos locutores . . . . . . . . . . . . . . . . . . . 145
7.3.2 Identi�ca�c~ao dos locutores . . . . . . . . . . . . . . . . . . . . . 147
7.4 Sugest~oes para trabalhos futuros . . . . . . . . . . . . . . . . . . . . . . 149
A Resultados Complementares 151
A.1 Pr�e-identi�ca�c~ao dos Locutores . . . . . . . . . . . . . . . . . . . . . . 151
A.1.1 Detetor Surdo-Sonoro . . . . . . . . . . . . . . . . . . . . . . . . 151
A.1.2 Detetor da Frequência Fundamental . . . . . . . . . . . . . . . . 151
A.2 Identi�ca�c~ao dos Locutores . . . . . . . . . . . . . . . . . . . . . . . . . 152
A.3 An�alise estat��stica de desempenho . . . . . . . . . . . . . . . . . . . . . 154
B Interface do Sistema 194
x
Lista de Tabelas
1.1 Fontes externas de erro para um SRAL. . . . . . . . . . . . . . . . . . . 9
3.1 Limiares de decis~ao que delimitam quatro faixas de energia do detetor
Surdo-Sonoro. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
6.1 An�alise comparativa do desempenho (taxas m�edias de classi�ca�c~ao cor-
reta) dos m�etodos utilizados para estima�c~ao da frequência fundamental:
AMDF(AMDF-1) e AMDF modi�cado (AMDF-2), para os locutores
femininos (LF) e masculinos (LM), para a amostra composta de 40 lo-
cutores. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
6.2 Parâmetros para avalia�c~ao de desempenho do SRAL, m�etodo QV-LBG
(parâmetros ac�usticos: LPC, CEP, CEP-P, DCEP e DCEP-P), para a
amostra composta de 20 locutores. . . . . . . . . . . . . . . . . . . . . 121
6.3 Parâmetros para avalia�c~ao de desempenho do SRAL, m�etodo QV-KMVVT
(parâmetros ac�usticos: LPC, CEP, DCEP e DCEP-P), para a amostra
composta de 20 locutores. . . . . . . . . . . . . . . . . . . . . . . . . . 125
6.4 Parâmetros para avalia�c~ao do desempenho do SRAL, m�etodo QV-SSC
(parâmetros ac�usticos: CEP e DCEP), para a amostra composta de 20
locutores. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
6.5 Parâmetros para avalia�c~ao de desempenho do SRAL, m�etodo QV-SSC
(parâmetros ac�usticos: CEP e DCEP), para a amostra composta de 40
locutores. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130
6.6 Parâmetros para avalia�c~ao de desempenho do SRAL, m�etodo QV-SSC-
HMM, para a amostra composta de 40 locutores. . . . . . . . . . . . . 132
6.7 Parâmetros para avalia�c~ao de desempenho do SRAL, m�etodo QV-SSC-
HMM, adicionada a etapa de pr�e-identi�ca�c~ao, para a amostra composta
de 40 locutores. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133
xi
6.8 Intervalo de con�an�ca para a Frequência Fundamental m�edia (em Hz)
dos locutores femininos (LF) e masculinos (LM) (Li, 1 � i � 20, indicao locutor). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140
6.9 Valores do intervalo de con�an�ca para a taxa m�edia de identi�ca�c~ao dos
locutores femininos (LF), masculinos (LM) e para o grupo. . . . . . . . 141
6.10 Resumo dos resultados obtidos com as aplica�c~oes do teste t. . . . . . . 142
A.1 Parâmetros Temporais do sinal de voz - aplausos (n�umero de quadros
= 149, tamanho do quadro = 200, total de amostras lidas = 29.800 -
janela utilizada - Hamming). . . . . . . . . . . . . . . . . . . . . . . . . 155
A.2 Frequência fundamental (em Hz), Frequência Fundamental m�edia (F0) ,
Coe�ciente de Varia�c~ao (C.V.) e Taxas de Erro, dos locutores femininos
(LF1 a LF5) e masculinos (LM1 a LM5), para as cinco elocu�c~oes da
palavra aplausos (E1 a E5). . . . . . . . . . . . . . . . . . . . . . . . . 161
A.3 Frequência Fundamental (em Hz), Frequência Fundamental m�edia (F0),
Coe�ciente de Varia�c~ao (C.V.) e Taxas de Erro, dos locutores femininos
(LF1 a LF5) e masculinos (LM1 a LM5), para as cinco elocu�c~oes da
palavra bola (E1 a E5). . . . . . . . . . . . . . . . . . . . . . . . . . . . 161
A.4 Frequência Fundamental (em Hz), Frequência Fundamental m�edia (F0),
Coe�ciente de Varia�c~ao (C.V.) e Taxas de Erro, dos locutores femini-
nos (LF1 a LF4) e masculinos (LM1 a LM4), para as quarenta cinco
elocu�c~oes de todas as senten�cas (E1 a E45). . . . . . . . . . . . . . . . 162
A.5 Frequência Fundamental (em Hz), Frequência Fundamental m�edia (F0),
Coe�ciente de Varia�c~ao (C.V.) e Taxas de Erro, dos locutores femininos
(LF1 a LF20), para as vinte elocu�c~oes da senten�ca Quero usar a m�aquina
(E1 a E20), algoritmo AMDF (AMDF-1). . . . . . . . . . . . . . . . . 164
A.6 Frequência Fundamental (em Hz), Frequência Fundamental m�edia (F0),
Coe�ciente de Varia�c~ao (C.V.) e Taxas de Erro, dos locutores masculi-
nos (LM1 a LM20), para as vinte elocu�c~oes da senten�ca Quero usar a
m�aquina (E1 a E20), algoritmo AMDF (AMDF-1). . . . . . . . . . . . 166
xii
A.7 Frequência Fundamental (em Hz), Frequência Fundamental m�edia (F0),
Coe�ciente de Varia�c~ao (C.V.) e Taxas de Erro, dos locutores femininos
(LF1 a LF20), para as vinte elocu�c~oes da senten�ca Quero usar a m�aquina
(E1 a E20), algoritmo AMDF modi�cado (AMDF-2). . . . . . . . . . . 168
A.8 Frequência Fundamental (em Hz), Frequência Fundamental m�edia (F0),
Coe�ciente de Varia�c~ao (C.V.) e Taxas de Erro, dos locutores masculi-
nos (LM1 a LM20), para as vinte elocu�c~oes da senten�ca Quero usar a
m�aquina (E1 a E20), algoritmo AMDF modi�cado (AMDF-2). . . . . . 170
A.9 Taxas de identi�ca�c~ao do SRAL, m�etodo QV-LBG (parâmetros ac�usticos:
LPC, CEP, CEP-P, DCEP e DCEP-P), para os locutores femininos (LF1
a LF10) e masculinos (LM1 a LM10). . . . . . . . . . . . . . . . . . . . 172
A.10 Taxas de falsa rejei�c~ao do SRAL, m�etodo QV-LBG (parâmetros ac�usticos:
LPC, CEP, CEP-P, DCEP e DCEP-P), para os locutores femininos (LF1
a LF10) e masculinos (LM1 a LM10). . . . . . . . . . . . . . . . . . . . 173
A.11 Taxas de falsa aceita�c~ao do SRAL, m�etodo QV-LBG (parâmetros ac�usticos:
LPC, CEP, CEP-P, DCEP e DCEP-P), para os locutores femininos (LF1
a LF10) e masculinos (LM1 a LM10). . . . . . . . . . . . . . . . . . . . 174
A.12 Taxas de identi�ca�c~ao do SRAL, m�etodo QV-KMVVT (parâmetros ac�usticos:
LPC, CEP, DCEP e DCEP-P), para os locutores femininos (LF1 a LF10)
e masculinos (LM1 a LM10). . . . . . . . . . . . . . . . . . . . . . . . . 175
A.13 Taxas de falsa rejei�c~ao do SRAL, m�etodo QV-KMVVT (parâmetros
ac�usticos: LPC, CEP, DCEP e DCEP-P), para os locutores femininos
(LF1 a LF10) e masculinos (LM1 a LM10). . . . . . . . . . . . . . . . . 176
A.14 Taxas de falsa aceita�c~ao do SRAL, m�etodo QV-KMVVT (parâmetros
ac�usticos: LPC, CEP, DCEP e DCEP-P), para os locutores femininos
(LF1 a LF10) e masculinos (LM1 a LM10). . . . . . . . . . . . . . . . . 177
A.15 Taxas de identi�ca�c~ao, falsa rejei�c~ao e falsa aceita�c~ao do SRAL, m�etodo
QV-SSC (parâmetros ac�usticos: CEP e DCEP), para os locutores femi-
ninos (LF1 a LF10) e masculinos (LM1 a LM10). . . . . . . . . . . . . 178
A.16 Taxas de identi�ca�c~ao, falsa rejei�c~ao e falsa aceita�c~ao do SRAL, m�etodo
QV-SSC (parâmetros ac�usticos: CEP e DCEP), para os locutores femi-
ninos (LF1 a LF20) e masculinos (LM1 a LM20). . . . . . . . . . . . . 179
xiii
A.17 Taxas de identi�ca�c~ao, falsa rejei�c~ao e falsa aceita�c~ao do SRAL, m�etodo
QV-SSC-HMM, para os locutores femininos (LF1 a LF20) e masculinos
(LM1 a LM20). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181
A.18 Taxas de identi�ca�c~ao, falsa rejei�c~ao e falsa aceita�c~ao do SRAL, m�etodo
QV-SSC-HMM, adicionada a etapa de pr�e-identi�ca�c~ao, para os locuto-
res femininos (LF1 a LF20) e masculinos (LM1 a LM20). . . . . . . . . 183
A.19 Matriz de confus~ao do SRAL, m�etodo QV-LBG (parâmetro ac�ustico -
LPC), para os locutores femininos (LF1 a LF10) e masculinos (LM1 a
LM10). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185
A.20 Matriz de confus~ao do SRAL, m�etodo QV-LBG (parâmetro ac�ustico -
CEP), para os locutores femininos (LF1 a LF10) e masculinos (LM1 a
LM10). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185
A.21 Matriz de confus~ao do SRAL, m�etodo QV-LBG (parâmetro ac�ustico -
CEP-P), para os locutores femininos (LF1 a LF10) e masculinos (LM1
a LM10). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186
A.22 Matriz de confus~ao do SRAL, m�etodo QV-LBG (parâmetro ac�ustico -
DCEP), para os locutores femininos (LF1 a LF10) e masculinos (LM1 a
LM10). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186
A.23 Matriz de confus~ao do SRAL, m�etodo QV-LBG (parâmetro ac�ustico -
DCEP-P), para os locutores femininos (LF1 a LF10) e masculinos (LM1
a LM10). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 187
A.24 Matriz de confus~ao do SRAL, m�etodo QV-KMVVT (parâmetro ac�ustico
- LPC), para os locutores femininos (LF1 a LF10) e masculinos (LM1 a
LM10). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 187
A.25 Matriz de confus~ao do SRAL, m�etodo QV-KMVVT (parâmetro ac�ustico
- CEP), para os locutores femininos (LF1 a LF10) e masculinos (LM1 a
LM10). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 188
A.26 Matriz de confus~ao do SRAL, m�etodo QV-KMVVT (parâmetro ac�ustico
- DCEP), para os locutores femininos (LF1 a LF10) e masculinos (LM1
a LM10). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 188
A.27 Matriz de confus~ao do SRAL, m�etodo QV-KMVVT (parâmetro ac�ustico
- DCEP-P), para os locutores femininos (LF1 a LF10) e masculinos (LM1
a LM10). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189
xiv
A.28 Matriz de confus~ao do SRAL, m�etodo QV-SSC (parâmetro ac�ustico -
CEP), para os locutores femininos (LF1 a LF10) e masculinos (LM1 a
LM10). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189
A.29 Matriz de confus~ao do SRAL, m�etodo QV-SSC (parâmetro ac�ustico -
DCEP), para os locutores femininos (LF1 a LF10) e masculinos (LM1 a
LM10). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 190
A.30 Matriz de confus~ao do SRAL, m�etodo QV-SSC (parâmetro ac�ustico -
CEP), para os locutores femininos (LF1 a LF20). . . . . . . . . . . . . 190
A.31 Matriz de confus~ao do SRAL, m�etodo QV-SSC (parâmetro ac�ustico -
CEP), para os locutores masculinos (LM1 a LM20). . . . . . . . . . . . 191
A.32 Matriz de similaridade do SRAL, m�etodo QV-SSC (parâmetro ac�ustico:
CEP), dos locutores masculinos e femininos, para as vinte elocu�c~oes da
senten�ca (E1 a E20). . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191
A.33 Matriz de confus~ao do SRAL, m�etodo QV-SSC-HMM, para os locutores
femininos (LF1 a LF20). . . . . . . . . . . . . . . . . . . . . . . . . . . 192
A.34 Matriz de confus~ao do SRAL, m�etodo QV-SSC-HMM, para os locutores
masculinos (LM1 a LM20). . . . . . . . . . . . . . . . . . . . . . . . . . 192
A.35 Distribui�c~ao t-Student. . . . . . . . . . . . . . . . . . . . . . . . . . . . 193
xv
Lista de Figuras
1.1 Descri�c~ao geral do processamento da voz. . . . . . . . . . . . . . . . . . 3
1.2 Modelo gen�erico para um sistema de reconhecimento de locutor. . . . . 6
1.3 Fase de Treinamento de um SRAL. . . . . . . . . . . . . . . . . . . . . 8
1.4 Fase de Reconhecimento de um SRAL. . . . . . . . . . . . . . . . . . . 8
2.1 Anatomia do aparelho fonador. . . . . . . . . . . . . . . . . . . . . . . 15
2.2 Modelo ac�ustico do aparelho fonador. . . . . . . . . . . . . . . . . . . . 16
2.3 Forma de onda no tempo da palavra aplausos. . . . . . . . . . . . . . . 17
2.4 Forma de onda da vogal n~ao nasalizada /a/ na palavra aplausos. . . . . 19
2.5 Forma de onda do fonema /s/ na palavra aplausos. . . . . . . . . . . . 20
2.6 Forma de onda do fonema /p/ na palavra aplausos. . . . . . . . . . . . 20
2.7 Forma de onda do fonema /z/ na palavra aplausos. . . . . . . . . . . . 21
2.8 Forma de onda do fonema /b/ na palavra bola. . . . . . . . . . . . . . 21
2.9 Modelo discreto da produ�c~ao da fala. . . . . . . . . . . . . . . . . . . . 27
3.1 Exemplos t��picos da AMDF: a) AMDF para um quadro do fricativo
surdo /ch/; b) AMDF para um quadro sonoro /a/. . . . . . . . . . . . 34
3.2 Con�gura�c~ao do detetor utilizado na decis~ao surdo-sonoro. . . . . . . . 35
3.3 Diagrama de blocos do Detetor de Per��odo (Frequência) Fundamental. . 37
3.4 Diagrama de blocos para o modelo simpli�cado de produ�c~ao de voz. . . 40
3.5 Exemplo de um segmento de voz selecionado a partir da sequência s(n)
por meio de uma janela retangular, j(n). . . . . . . . . . . . . . . . . . 42
xvi
4.1 Parti�c~ao do espa�co bi-dimensional (K = 2). . . . . . . . . . . . . . . . . 55
4.2 Particionamento da linha real em 10 c�elulas ou intervalos para quanti-
za�c~ao escalar (K = 1). . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
4.3 Estrutura b�asica de um neurônio. . . . . . . . . . . . . . . . . . . . . . 58
4.4 Rede de propaga�c~ao direta sem realimenta�c~ao. . . . . . . . . . . . . . . 60
4.5 Rede de camadas com conex~oes laterais. . . . . . . . . . . . . . . . . . 61
4.6 Rede interconectada. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
4.7 Rede competitiva simples. . . . . . . . . . . . . . . . . . . . . . . . . . 62
4.8 Uma vizinhan�ca quadrada N~wi� em torno do n�o que identi�ca o neurôniovencedor ~wi�. A vizinhan�ca �e de�nida em uma grade ou mapa bidimen-
sional. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
4.9 Uma vizinhan�ca esf�erica N~x em torno do vetor de treino ~x. A vizinhan�ca�e de�nida no espa�co sin�aptico. . . . . . . . . . . . . . . . . . . . . . . . 67
4.10 HMM - \erg�odico" com 5 estados. . . . . . . . . . . . . . . . . . . . . . 71
4.11 HMM - \esquerda-direita" com 5 estados. . . . . . . . . . . . . . . . . 72
4.12 Ilustra�c~ao da sequência de opera�c~oes necess�arias �a computa�c~ao da va-
ri�avel forward �t+1(j). . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
4.13 Implementa�c~ao da computa�c~ao de �t(i) em termos de uma treli�ca de
observa�c~oes t e estados i. . . . . . . . . . . . . . . . . . . . . . . . . . . 81
4.14 Ilustra�c~ao da sequência de opera�c~oes necess�arias �a computa�c~ao da va-
ri�avel backward �t(i). . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
4.15 Algoritmo de Viterbi. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
5.1 Diagrama de blocos do sistema de identi�ca�c~ao autom�atica de locutor. 90
5.2 Sinal de voz segmentado. . . . . . . . . . . . . . . . . . . . . . . . . . . 92
6.1 Fase de treinamento do Sistema de Identi�ca�c~ao Autom�atica de locutor. 105
6.2 Fase de identi�ca�c~ao do Sistema de Identi�ca�c~ao Autom�atica de locutor. 106
6.3 Frequência Fundamental dos locutores femininos (LF1 a LF5) e mascu-
linos (LM1 a LM5), para as cinco elocu�c~oes da palavra aplausos (E1 a
E5). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
xvii
6.4 Frequência Fundamental dos locutores femininos (LF1 a LF5) e mas-
culinos (LM1 a LM5), para as cinco elocu�c~oes da palavra bola (E1 a
E5). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
6.5 Frequência Fundamental dos locutores femininos (LF1 a LF4), para as
45 elocu�c~oes de todas as senten�cas (E1 a E45). . . . . . . . . . . . . . . 112
6.6 Frequência Fundamental dos locutores masculinos (LM1 a LM4), para
as 45 elocu�c~oes de todas as senten�cas (E1 a E45). . . . . . . . . . . . . 113
6.7 Frequência Fundamental dos locutores femininos (LF1 a LF20), para as
20 elocu�c~oes da senten�ca: Quero usar a M�aquina (E1 a E20). . . . . . . 114
6.8 Frequência Fundamental dos locutores masculinos (LM1 a LM20), para
as 20 elocu�c~oes da senten�ca: Quero usar a M�aquina (E1 a E20). . . . . 114
6.9 Descri�c~ao da modi�ca�c~ao introduzida no algoritmo de estima�c~ao da
Frequência Fundamental. . . . . . . . . . . . . . . . . . . . . . . . . . . 115
6.10 Frequência Fundamental dos locutores femininos (LF1 a LF20), para as
20 elocu�c~oes da senten�ca: Quero usar a M�aquina (E1 a E20), algoritmo
AMDF modi�cado (AMDF-2). . . . . . . . . . . . . . . . . . . . . . . . 117
6.11 Frequência Fundamental dos locutores masculinos (LM1 a LM20), para
as 20 elocu�c~oes da senten�ca: Quero usar a M�aquina (E1 a E20), algorit-
mo AMDF modi�cado (AMDF-2). . . . . . . . . . . . . . . . . . . . . 117
6.12 Frequência Fundamental m�edia dos locutores masculinos (LM1 a LM20),
para as 20 elocu�c~oes da senten�ca: Quero usar a M�aquina (E1 a E20),
algoritmo AMDF modi�cado (AMDF-2). . . . . . . . . . . . . . . . . . 119
xviii
Lista de Abreviaturas
SRAL - Sistema de Reconhecimento Autom�atico de Locutor
HMM - Hidden Markov Model (Modelo de Markov Escondido)
VQ - Vector Quantization (QV - Quantiza�c~ao Vetorial)
DTW - Dynamic Time Warping (Alinhamento Dinâmico no Tempo)
Eseg - Energia por segmento (segmental)
TCZ - Taxa de Cruzamento por Zero
NTP - N�umero Total de Picos
DNP - Diferen�ca entre os Picos
PPOS - N�umero de Picos Positivos
PNEG - N�umero de Picos Negativos
RAL - Reconhecimento Autom�atico de Locutor
LBG - Algoritmo para projeto de dicion�arios conhecido como Linde-Buzo-Gray
KMVVT - Algoritmo de Kohonen Modi�cado com Vizinhan�ca Centrada em Torno
do Vetor de Treino
AMDF - Average Magnitude Di�erence Function (Fun�c~ao da M�edia de Diferen�cas
de Amplitudes)
FFT - Fast Fourier Transform (Transformada R�apida de Fourier)
LPC - Linear Prediction Coding
CEP - Coe�cientes Cepestrais
CEP-P - Coe�cientes Cepestrais Ponderados
DCEP - Coe�cientes Delta Cepestrais
xix
DCEP-P - Coe�cientes Delta Cepestrais Ponderados
LFi - i-�esimo locutor feminino
LMi - i-�esimo locutor masculino
Ei - i-�esima elocu�c~ao
F0 - Frequência Fundamental
P0 - Per��odo de Pitch (Per��odo da Frequência Fundamental)
s(n) - sinal de voz
NA - tamanho do \quadro" de amostras do sinal
�s(n) - m�edia do sinal s(n)
sgn[s(n)] - n�umero de vezes que o sinal s(n) inverte a polaridade
�1 - primeiro coe�ciente de correla�c~ao
cs(n)s(n�1) - covariância entre s(n) e s(n� 1)�s(n) - desvio padr~ao de s(n)
Rss(1) - primeiro coe�ciente de autocorrela�c~ao
S(z) - transformada Z do sinal s(n)
G(z) - transformada Z do modelo do pulso glotal g(n)
As(n) e Af (n) - intensidade da excita�c~ao dos sinais de voz e de ru��do, respectiva-
mente.
V (z) - transformada Z do modelo do trato vocal v(n)
R(z) - transformada Z do modelo da radia�c~ao r(n)
H(z) - transformada Z da fun�c~ao de transferência h(n)
U(z) - transformada Z do sinal de excita�c~ao u(n)
T - per��odo de amostragem
K - tamanho do vetor de caracter��sticas ac�usticas do sinal
F1, F2 e F3 - três primeiras frequências formantes
P - per��odo do sinal
d(n) - diferen�ca entre amostras do sinal
xx
Eseg1 e Eseg2 - energia de cada metade do \quadro" em an�alise
E1, E2, E3 - limiares de energia
suso0 - decis~ao surdo-sonoro inicial para o quadro em an�alise
suso�1 - decis~ao surdo-sonoro do �ultimo quadro
suso�2 - decis~ao surdo-sonoro do pen�ultimo quadro
suso - decis~ao surdo-sonoro do quadro atual
max = amplitude m�axima da AMDF
min = amplitude m��nima da AMDF
minp = posi�c~ao do m��nimo da AMDF
ck - k-�esimo coe�ciente LPC (coe�ciente do �ltro)
G - ganho do �ltro
es(n) - estimativa de s(n)e(n) - erro de predi�c~ao
vs(n) - sinal de voz selecionado e ponderado
evs(n) - aproxima�c~ao de vs(n)Erro(n) - Erro quadr�atico
Rr(k) - fun�c~ao de autocorrela�c~ao para curtos intervalos
cei(n) - n-�esimo coe�ciente Cepestral no i-�esimo bloco de amostras
Xi - i-�esimo bloco do espectro de potência do sinal
jp(n) - janela de pondera�c~ao
cpi(n) - n-�esimo coe�ciente Cepestral Ponderado no i-�esimo bloco de amostras
�cei(n) - n-�esimo coe�ciente Delta Cepestral no i-�esimo bloco de amostras
�cpi(n) - n-�esimo coe�ciente Delta Cepestral Ponderado no i-�esimo bloco de amos-
tras.
� - constante de normaliza�c~ao
M - tamanho do dicion�ario
~x - vetor de entrada
xxi
~̂x - vetor de reprodu�c~ao
W - alfabeto de reprodu�c~ao
~wi - vetores do alfabeto de reprodu�c~ao
S - parti�c~ao do espa�co vetorial
Ci - c�elulas do quantizador
q(x) - quantizador de ~x
jjDM jj - medida de distor�c~ao do quantizador vetoriald(~x; ~̂x) - distor�c~ao - erro m�edio quadr�atico
Â0 - alfabeto de reprodu�c~ao inicial
~wi� - neurônio vencedor
�(n) -taxa de aprendizagem na n-�esima itera�c~ao
Oi - fun�c~ao que de�ne a vizinhan�ca em torno do neurônio vencedor�wij - modi�ca�c~ao introduzida na j-�esima componente (sinapse) do neurônio
r(n) - raio de vizinhan�ca, medido na grade bidimensional
dg(�) - distância medida na gradeqi - i-�esimo estado do HMM
N - n�umero de estados do HMM
A = [aij] - matriz transi�c~ao de estados do HMMB= [bj(k)] - matriz de fun�c~ao de probabilidade das observa�c~oes do HMM� = �i - vetor de probabilidade do estado inicial do HMM
L - n�umero de locutores
Ol - vetor de observa�c~oes do l-�esimo locutor
�l - modelo do HMM referente ao l-�esimo locutor
Pl - probabilidade associada ao l-�esimo locutor
�t(i) - probabilidade de avan�co (forward probability)
�t(i) - probabilidade de retrocesso (backward probability)
�t(i) - maior valor de probabilidade ao longo de um �unico caminho
xxii
q�t - sequência de estados �otima
L(Z) - transformada Z do �ltro l(n)
ap - fator de pr�e-ênfase
sp(n) - sinal de voz ap�os a pr�e-ênfase
J(n) - janela (Retangular, Hamming ou Hanning)
s0(n) - sequência de voz �ltrada
fs - frequência de amostragem
esct - coe�ciente de escalonamento
LI e LS - limites inferior e superior, respectivamente, da frequência fundamental
F0F - frequência fundamental feminina
F0M - frequência fundamental masculina
LF e LM - locutor feminino e masculino, respectivamente
C.V. - Coe�ciente de Varia�c~ao
s - desvio padr~ao da amostra
nA - tamanho da amostra
EPm - erro padr~ao da m�edia
1-� - n��vel de con�an�ca ou grau de con�an�ca
� - m�edia populacional
x - m�edia amostral
� - desvio padr~ao populacional
�2 - variância populacional
xxiii
Cap��tulo 1
Introdu�c~ao
1.1 Comunica�c~ao Vocal Homem-M�aquina
O ser humano sempre buscou meios de comunica�c~ao que facilitassem a intera�c~ao
com a m�aquina. Em fun�c~ao disso e do crescente desenvolvimento tecnol�ogico de hard-
ware para o processamento digital de sinais, o meio de comunica�c~ao mais adequado
seria a fala humana. Tal meio de comunica�c~ao proporciona uma cômoda adapta�c~ao
do usu�ario e a capacidade de transmitir uma grande quantidade de informa�c~oes com
pouca intera�c~ao. Os m�etodos tradicionais de identi�ca�c~ao de pessoas requerem a apre-
senta�c~ao de um objeto (chave, cart~ao, etc.) ou uma mensagem fornecida atrav�es de
um teclado (senha, etc.). Muitos desses m�etodos s~ao impratic�aveis em sistemas de
telecomunica�c~oes e apresentam a desvantagem de n~ao serem diretamente dependentes
da pessoa, visto que as pessoas podem perder seu cart~ao ou esquecer sua senha.
A voz �e o meio mais natural de comunica�c~ao do homem. Quando duas pessoas
est~ao conversando, descobre-se com facilidade a idade, sexo e se a l��ngua que est�a
sendo falada �e conhecida.
A partir, unicamente da voz, �e poss��vel identi�car uma s�erie de caracter��sticas de
uma pessoa, tais como, seu grupo s�ocio-cultural, seu estado emocional, seu estado de
sa�ude, a regi~ao onde mora (atrav�es do sotaque) e uma grande quantidade de outras
caracter��sticas.
Torna-se claro, portanto, que a partir do sinal de voz �e poss��vel distinguir algumas
caracter��sticas de cada pessoa. Partindo desse princ��pio, o homem procurou desenvolver
equipamentos que permitissem, atrav�es da voz, a sua comunica�c~ao com as m�aquinas.
1
Introdu�c~ao 2
Com o desenvolvimento tecnol�ogico foi surgindo uma s�erie de equipamentos eletrô-
nicos de uso dom�estico, com o objetivo de melhorar a qualidade de vida do homem
moderno. Tais equipamentos, embora so�sticados, enfrentam ainda di�culdades quanto
a sua utiliza�c~ao, devido �a forma arti�cial com que o usu�ario deve interagir com os
mesmos. Assim, parece claro que o desenvolvimento de uma interface vocal, tornaria
mais f�acil e produtiva a rela�c~ao Homem-M�aquina [1, 2, 3, 4].
Os primeiros trabalhos descrevendo m�aquinas que podiam, de alguma forma, re-
conhecer com certo sucesso a pron�uncia de determinadas palavras datam de 1952 [5].
Uma grande quantidade de trabalhos sobre o assunto surgiu nos anos 60, gra�cas �as
descobertas de algumas propriedades da voz atrav�es do uso de espect�ografos [6] e das
novas facilidades que os computadores digitais vieram oferecer.
Em seguida, veri�cou-se a necessidade de desenvolver m�aquinas capazes n~ao s�o de
entender o que estava sendo dito, mas de responder ao que lhe era perguntado. Os
esfor�cos iniciais para constru�c~ao de m�aquinas falantes datam do �nal do s�eculo XVIII,
quando foram elaborados curiosos engenhos ac�usticos que produziam sons semelhantes
�a voz e eram \tocados" �a maneira de um instrumento musical [2].
Al�em da facilidade de comunica�c~ao, a voz oferece muitas outras vantagens na inte-
ra�c~ao com as m�aquinas como, por exemplo, a velocidade: a maioria das pessoas pode
falar facilmente a taxas de 200 palavras por minuto; por outro lado, poucas pessoas
podem digitar, em um teclado, mais de 60 palavras por minuto [7].
A entrada vocal �e bastante adequada para aplica�c~oes em que uma ou mais das se-
guintes condi�c~oes se aplicam: as m~aos do usu�ario est~ao ocupadas; mobilidade �e exigida
durante o processo de entrada de dados; os olhos do operador devem permanecer �xos
sobre um display; um instrumento �optico ou algum objeto �e rastreado; �e incoveniente
o uso de teclado em um ambiente, dentre outras. Por n~ao requererem nem as m~aos
nem os olhos do usu�ario para sua opera�c~ao, os sistemas de entrada vocal podem ser
utilizados em diversas aplica�c~oes, como por exemplo: controle de tr�afego a�ereo, aux��lio
a de�cientes f��sicos, controle de qualidade e inspe�c~ao e controle de acesso a ambientes
restritos [3].
A identi�ca�c~ao da voz tem a conveniência da facilidade de cole�c~ao de dados.
Outra vantagem dessa t�ecnica, quando comparada com outras t�ecnicas, por exemplo,
o exame de fundo de olho, impress~oes digitais e assinaturas, se refere a sua facilidade
de utiliza�c~ao em sistemas em que se exige o reconhecimento �a distância; por exemplo
transa�c~oes banc�arias por telefone. Al�em disso, a voz n~ao pode ser perdida nem t~ao
Introdu�c~ao 3
pouco esquecida, diferentemente dos outros m�etodos de identi�ca�c~ao, tais como cart~oes
magn�eticos e senhas num�ericas [3].
A comunica�c~ao vocal entre pessoas e m�aquinas inclui s��ntese de voz para texto, re-
conhecimento autom�atico de voz (convers~ao voz-texto) e o reconhecimento de locutores
a partir de suas vozes. Portanto, a comunica�c~ao vocal Homem-M�aquina se divide nas
seguintes sub�areas principais [1]:
1. Resposta Vocal;
2. Reconhecimento de Fala;
3. Reconhecimento de Locutor.
A Figura 1.1 mostra uma descri�c~ao geral do processamento da voz, para a tarefa
de reconhecimento, com ênfase ao reconhecimento de locutor (objeto de estudo deste
trabalho) e a rela�c~ao entre as suas sub�areas [8].
���
���
Processamento da Voz
CodificaçãoReconhecimento
Reconhecimentode fala da linguagem
Identificação Reconhecimentode locutor
Identificaçãode locutor de locutor
Verificação
não cooperativoscooperativos/Locutores
Dependente/independentedo texto
independenteDependente/
do texto
Locutorescooperativos/não cooperativos
Síntese
Figura 1.1: Descri�c~ao geral do processamento da voz.
Introdu�c~ao 4
1.1.1 Sistemas de Resposta Vocal
Sistemas de resposta vocal s~ao projetados para responder a um pedido de infor-
ma�c~ao utilizando mensagens faladas. Assim, a comunica�c~ao de voz em sistemas de
resposta vocal se faz em uma �unica dire�c~ao, isto �e, da m�aquina para o homem [1].
Para gerar a sa��da ac�ustica para um vocabul�ario de v�arias centenas de palavras, �e
geralmente su�ciente usar elementos de texto armazenados digitalmente, consistindo
de frases, palavras, fonemas ou certos parâmetros chaves (codi�ca�c~ao param�etrica),
que podem ser concatenados para formarem a sa��da desejada.
Todos os m�etodos de codi�ca�c~ao de forma de onda conhecidos (PCM 1, PCM di-
ferencial, PCM diferencial adaptativo, etc.) e m�etodos de an�alise-s��ntese (t�ecnicas de
codi�ca�c~ao preditiva linear) podem ser usados para armazenar os elementos de tex-
to. A escolha do m�etodo a ser utilizado �e uma fun�c~ao da qualidade da reprodu�c~ao
das mensagens e da capacidade de armazenamento exigidos pelo sistema. A qualida-
de da voz depende, essencialmente, do m�etodo de codi�ca�c~ao utilizado. Os valores
dos parâmetros derivados dessa representa�c~ao s~ao, ent~ao, usados para controlar um
sintetizador de voz que modela a produ�c~ao da voz humana.
Alguns problemas que ainda devem ser solucionados quanto �a s��ntese de voz incluem,
entona�c~ao incorreta de frases e pron�uncia errônea de palavras mais complexas, ou de
combina�c~oes de palavras [9].
1.1.2 Sistemas de Reconhecimento de Fala
Nos sistemas de reconhecimento de fala a comunica�c~ao vocal �e feita do homem para
a m�aquina. O reconhecimento de fala, pode ser subdividido em um grande n�umero de
sub�areas dependendo de alguns fatores, tais como, tamanho do vocabul�ario, popula�c~ao
de locutores, etc [1].
A tarefa b�asica no reconhecimento de fala �e reconhecer uma determinada elocu�c~ao
de uma senten�ca ou \entender" um texto falado (ou seja, responder de forma correta
ao que est�a sendo falado) [1]. O conceito de entendimento, ao inv�es de reconhecimento,
�e de grande importância para sistemas que tratam com entrada de voz cont��nua com
grande vocabul�ario, enquanto que o conceito de reconhecimento exato �e de maior im-
portância para sistemas de palavras isoladas, vocabul�ario limitado e pequeno n�umero
1Modula�c~ao por Codi�ca�c~ao de Pulsos
Introdu�c~ao 5
de usu�arios [1, 10].
A tecnologia de reconhecimento de fala ainda n~ao permite o entendimento au-
tom�atico de voz uente, de qualquer locutor, usando a mesma linguagem. Os proble-
mas de reconhecimento de fala por m�aquinas est~ao relacionados �a estrutura complexa
da voz humana, que depende de fatores tais como: caracter��sticas vocais, entona�c~ao,
velocidade da fala, estado emocional do usu�ario, etc.
De uma forma geral, os sistemas de reconhecimento autom�atico de fala podem ser
considerados como pertencentes a uma das seguintes categorias [1]:
� Sistemas de Reconhecimento de Palavras Isoladas;
� Sistemas de Reconhecimento de Palavras Conectadas;
� Sistemas de Reconhecimento Dependente do Locutor;
� Sistemas de Reconhecimento Independente do Locutor.
Os sistemas de reconhecimento de palavras isoladas podem ser de�nidos como aque-
les sistemas que exigem uma pausa curta antes e depois das senten�cas que devem ser
reconhecidas [11].
O modo de entrada de palavras conectadas pode ser conveniente para o usu�ario por-
que se assemelha �a maneira mais natural de se falar, contudo esse tipo de comunica�c~ao
tem algumas limita�c~oes em vista do presente est�agio da tecnologia de reconhecimento
de fala [1].
Os sistemas dependentes do locutor s~ao caracterizados por serem treinados para
obedecerem �as caracter��sticas espec���cas da voz dos seus usu�arios [1].
Os sistemas de reconhecimento independente do locutor, ou sistemas \insens��veis"
ao locutor, podem ser de�nidos como aqueles que n~ao est~ao presos �as caracter��sticas
espec���cas da voz do usu�ario [1].
1.1.3 Sistemas de Reconhecimento de Locutor
O objetivo de um sistema de reconhecimento de locutor �e reconhecer um locutor a
partir da sua voz, sendo bastante �util em aplica�c~oes de seguran�ca, como por exemplo o
controle de acesso a ambientes restritos (utiliza�c~ao da voz para abrir e fechar portas) e
Introdu�c~ao 6
o controle de acesso de dados em computadores. Em criminal��stica, pode ser utilizado
com o mesmo prop�osito que hoje �e dado �as impress~oes digitais [1]. Nesse contexto,
os Sistemas de Reconhecimento Autom�atico de Locutor (SRALs) constituem uma das
principais �areas da comunica�c~ao vocal homem-m�aquina [1].
Nos sistemas de reconhecimento de locutor, da mesma forma que nos sistemas de
reconhecimento de fala, a comunica�c~ao vocal �e feita do homem para a m�aquina.
O processo de reconhecimento da identidade vocal de locutores consiste na extra�c~ao
de parâmetros da voz, de um dado locutor, de forma a de�nir um modelo que preserve
as suas caracter��sticas vocais que o diferenciam de outros indiv��duos.
Duas classes de aplica�c~oes s~ao desenvolvidas baseadas em sistemas de reconheci-
mento de locutor: identi�ca�c~ao de locutor e veri�ca�c~ao de locutor. Aplica�c~oes para
identi�ca�c~ao de locutor buscam responder a seguinte quest~ao: \Quem �e você ?", en-
quanto que aplica�c~oes para veri�ca�c~ao de locutor buscam responder: \Você �e mesmo
quem alega ser ?" [8, 12, 13].
A identi�ca�c~ao de locutor �e um processo de determina�c~ao da identidade de um
locutor dentre v�arios locutores, pela compara�c~ao do sinal de voz deste locutor (sinal
de entrada) com os demais, escolhendo o que proporcionar o melhor \casamento" com
o sinal de voz de entrada [1, 14].
A veri�ca�c~ao de locutor tem por objetivo determinar, automaticamente, se a iden-
tidade de um pretenso locutor �e verdadeira ou n~ao [1, 15].
A Figura 1.2 mostra a representa�c~ao geral de um problema de reconhecimento de
locutor [16].
&COMPARAÇÃO
PADRÕES DE
REFERÊNCIA
PROCESSAMENTO
DO SINALde VozSinal
& - RECONHECIMENTO
REGRA DE
DECISÃO
Figura 1.2: Modelo gen�erico para um sistema de reconhecimento de locutor.
O reconhecimento de locutor �e uma tarefa de reconhecimento de padr~oes. Em
Introdu�c~ao 7
essência requer um mapeamento entre identi�ca�c~ao de voz e locutor, tal que cada
poss��vel forma de onda de entrada �e identi�cada com seu locutor correspondente.
Para a implementa�c~ao de um sistema de reconhecimento de locutor deve-se obter,
para cada locutor, um conjunto de parâmetros representativos da sua voz. Os parâme-
tros obtidos ir~ao compor um modelo (ou padr~ao) representativo do locutor. Nesse siste-
ma o locutor ser�a aceito ou rejeitado, a partir da compara�c~ao dos seus parâmetros (pa-
dr~ao) de teste com os parâmetros j�a armazenados (padr~oes de referência), utilizando-se
uma regra de decis~ao.
Dado um sinal de voz de entrada, o objetivo do reconhecimento de locutor �e iden-
ti�car a pessoa mais prov�avel de ser o locutor (dentre uma popula�c~ao conhecida) -
Identi�ca�c~ao de Locutor, ou veri�car se o locutor �e quem ele alega ser - Veri�-
ca�c~ao de Locutor [1]. Portanto, esses sistemas desempenham as seguintes fun�c~oes:
1. Veri�ca�c~ao de locutor - Compara�c~ao com um �unico padr~ao pr�e-estabelecido.
2. Identi�ca�c~ao de locutor - Compara�c~ao com todos os padr~oes pr�e-estabelecidos.
Na veri�ca�c~ao de locutor, uma identidade �e alegada pelo usu�ario e a decis~ao reque-
rida pelo sistema �e estritamente bin�aria, isto �e, consiste simplesmente em aceitar ou
rejeitar a identidade alegada.
A literatura aborda, com diferentes termos, a veri�ca�c~ao de locutor, incluindo de-
nomina�c~oes tais como: veri�ca�c~ao da voz, autentica�c~ao do locutor, autentica�c~ao da voz
e veri�ca�c~ao do locutor [8].
O problema da identi�ca�c~ao de locutor difere signi�cativamente do problema da
veri�ca�c~ao de locutor, uma vez que, nesse caso, o sistema �e requisitado a fazer uma
identi�ca�c~ao entre todos locutores. Assim, em vez de uma �unica compara�c~ao entre um
conjunto de medidas e um padr~ao de referência armazenado, torna-se necess�ario um
n�umero de compara�c~oes igual ao n�umero de locutores. Este tipo de reconhecimento
pode ocorrer de duas formas: conjunto-aberto (o locutor pode n~ao estar entre a popu-
la�c~ao) e conjunto-fechado (sabe-se a priori que o locutor �e um membro da popula�c~ao).
Descri�c~oes gerais de sistemas para o reconhecimento de locutor têm sido mostradas
em [3, 8, 13, 17, 18, 19].
Todas as tarefas de reconhecimento de padr~oes, inclusive o reconhecimento de lo-
cutor, utilizam duas fases: treinamento (Figura 1.3) e reconhecimento (Figura 1.4).
Introdu�c~ao 8
Na fase de treinamento �e estabelecido um dicion�ario de padr~oes de referência de voz,
aos quais s~ao atribu��dos r�otulos que identi�cam o locutor. Na fase de reconhecimento
s~ao obtidos padr~oes de teste que s~ao comparados com todos os padr~oes de referência
e ent~ao, utilizando-se uma regra de decis~ao, �e identi�cado aquele mais semelhante ao
padr~ao de entrada desconhecido.
DE TREINAMENTO
DEFINE E ARMAZENA
PARÂMETROS PADRÕES DE REFERÊNCIA
EXTRA ÇÃO DE
SENTENÇA
Figura 1.3: Fase de Treinamento de um SRAL.
&
DE TESTE
CALCULA
DE TESTE
EXTRAÇÃO DE
PARÂMETROSPADRÃO
PADRÃO DE
REFERÊNCIA
COMPARAÇÃO
& - RECONHECIMENTO
SENTENÇA
Figura 1.4: Fase de Reconhecimento de um SRAL.
O reconhecimento de locutor tamb�em pode ser dependente ou independente do
texto. SRAL dependente do texto requer que o locutor pronuncie uma frase ou uma
dada senha pr�e-determinada e o sistema independente do texto n~ao requer a exigência
do caso anterior. Na �area da criminal��tica, por exemplo, �e de maior interesse o uso de
SRAL independente do texto, uma vez que na maioria das aplica�c~oes os locutores a
serem identi�cados s~ao n~ao cooperativos. Em outras situa�c~oes se torna mais adequado
uso do SRAL dependente do texto, a exemplo das aplica�c~oes que envolvem acesso a
ambientes restritos, neste caso os locutores s~ao cooperativos.
Alguns fatores externos podem contribuir para erros em um sistema de reconheci-
mento autom�atico de locutor. A Tabela 1.1 apresenta alguns dos fatores humanos e de
ambiente que contribuem para esses erros. Esses fatores geralmente s~ao externos aos
algoritmos ou s~ao melhor corrigidos por meios que n~ao envolvam necessariamente os
Introdu�c~ao 9
algoritmos (e.g., o uso de microfones de melhor qualidade). Esses fatores s~ao impor-
tantes e, em alguns casos, n~ao importa o qu~ao bom o algoritmo para reconhecimento
de locutor possa ser, o erro humano (e.g., o erro de leitura e �as vezes de elocu�c~ao) pode
limitar o seu desempenho [8].
Tabela 1.1: Fontes externas de erro para um SRAL.
Erro de elocu�c~ao ou de leitura das frases pr�e-de�nidas
Estado emocional
Varia�c~ao da posi�c~ao do microfone (intra ou inter-sess~oes)
Ambiente ac�ustico pobre ou inconsistente (e.g., ru��do)
Erro de \casamento" do canal (e.g., microfones diferentes para treinamento e teste)
Problemas de sa�ude (e.g., resfriado que pode alterar as caracter��sticas do trato vocal)
Idade (e.g., a forma do trato vocal pode ser alterada com a idade)
Portanto, para o projeto de um SRAL e�ciente, deve-se minimizar, o m�aximo
poss��vel, os erros externos ao sistema e, em seguida, utilizar t�ecnicas que possam re-
presentar, com e�ciência, as caracter��sticas vocais que diferenciam os locutores.
1.2 Motiva�c~ao
A comunica�c~ao oral �e, sem d�uvida alguma, a forma mais natural de comunica�c~ao
humana. Em virtude da intera�c~ao homem-m�aquina se tornar cada vez mais comum,
surge uma demanda natural por sistemas capazes de reconhecer o que est�a sendo di-
to, bem como quem est�a falando [20]. O interesse nessa �area se deve ao n�umero de
aplica�c~oes, bem como �a existência de v�arias quest~oes te�oricas que ainda n~ao foram
respondidas [21].
Sistemas autom�aticos de veri�ca�c~ao e identi�ca�c~ao de locutor s~ao provavelmente os
m�etodos mais econômicos e naturais para solucionar os problemas de uso autorizado de
computadores e sistemas de comunica�c~ao e controle de acesso. Com a disponibilidade
das linhas telefônicas e microfones acoplados aos computadores, o custo de um sistema
de reconhecimento de locutor est�a relacionado, basicamente, ao projeto do software.
Sistemas biom�etricos reconhecem a pessoa pelo uso de tra�cos (fei�c~oes) distintos. A
voz, assim como outras caracter��sticas biom�etricas, n~ao pode ser esquecida ou perdida,
Introdu�c~ao 10
diferentemente dos m�etodos de controle de acesso baseados em objetos (cart~oes, chaves,
etc.) ou mensagens fornecidas atrav�es do teclado (senha, etc.). Al�em disso, os sistemas
de reconhecimento de locutor, atrav�es da fala, podem ser projetados de tal forma que
se tornem robustos, mesmo diante de ru��do e varia�c~oes do canal [19, 22], de altera�c~oes
humanas (e.g., resfriados) e de ambientes de grava�c~ao [8].
Com o objetivo de obter-se sistemas de reconhecimento autom�atico de locutor
e�cientes, diversas t�ecnicas têm sido utilizadas, dentre as quais destacam-se: Mo-
delos de Markov Escondidos (HMMs - Hidden Markov Models) [23, 24, 25, 26], Re-
des Neurais Arti�ciais [27, 28, 29], Quantiza�c~ao Vetorial (VQ - Vector Quantization)
[30, 31, 32, 33, 34], An�alise por Predi�c~ao Linear [35, 36] e Alinhamento Dinâmico no
Tempo (DTW - Dynamic Time Warping) [16].
Apesar do sucesso obtido com a maioria dessas t�ecnicas, o uso de Modelos de Mar-
kov Escondidos se torna cada vez mais popular em sistemas de reconhecimento de
voz e locutor devido a algumas vantagens. Em primeiro lugar, os HMMs s~ao muito
ricos em estrutura matem�atica e, consequentemente, podem formar uma base te�orica
muito forte para uso em um grande grupo de aplica�c~oes (e.g., modelagem do sinal de
voz), tendo a capacidade de solucionar problemas mais dif��ceis como, por exemplo, o
reconhecimento de locutor em sistemas independentes do texto. Segundo, quando apli-
cados apropriadamente, trabalham muito bem para v�arias aplica�c~oes pr�aticas. Al�em
disso, apresentam uma redu�c~ao do custo computacional, na fase de reconhecimento,
em compara�c~ao com outros m�etodos (e.g., DTW) [23, 37, 38, 39].
Entretanto, mesmo diante do sucesso alcan�cado com HMM, torna-se interessante
investigar a utiliza�c~ao conjunta dessas t�ecnicas, de forma a possibilitar o projeto de um
sistema autom�atico de reconhecimento da identidade vocal, para a l��ngua portuguesa,
capaz de modelar e�cientemente as caracter��sticas vocais dos locutores, apresentando
pequenas varia�c~oes intralocutor e grandes varia�c~oes interlocutor.
1.3 Objetivos do Trabalho
Tradicionalmente, os paradigmas para reconhecimento de padr~oes s~ao divididos
em três componentes: extra�c~ao e sele�c~ao de caracter��sticas; escolha dos padr~oes e
classi�ca�c~ao. Embora essa divis~ao seja conveniente para o projeto do sistema, esses
componentes n~ao s~ao independentes. Uma escolha inadequada de algum poder�a com-
prometer, bastante, o desempenho do sistema [8]. O que n~ao poderia ser diferente para
Introdu�c~ao 11
o reconhecimento de locutores.
Dentro desse contexto, o trabalho, aqui apresentado, trata do desenvolvimento de
um sistema h��brido, que utiliza m�etodos param�etrico e estat��stico, para o reconhecimen-
to (identi�ca�c~ao) autom�atico da identidade vocal de locutores, em um grupo fechado
(dependente do texto), para a l��ngua portuguesa, que apresente, a partir da t�ecnica
utilizada, desempenho elevado.
Com o objetivo de tornar a tarefa de reconhecimento mais e�ciente e r�apida, o
sistema �e composto de dois est�agios: pr�e-identi�ca�c~ao e identi�ca�c~ao.
No est�agio de pr�e-identi�ca�c~ao os locutores s~ao separados em dois grupos gerais de
acordo com o sexo (homens e mulheres), utilizando a frequência fundamental. A de-
te�c~ao do Per��odo Fundamental (per��odo da frequência fundamental), ou a estima�c~ao da
frequência fundamental de vibra�c~ao das cordas vocais, torna mais r�apida, portanto, a
fase �nal da identi�ca�c~ao, pois os locutores s�o ser~ao analisados dentro dos seus respec-
tivos subgrupos (masculino ou feminino). Tal procedimento poder�a diminuir as taxas
de erro do sistema (quando o locutor feminino �e considerado masculino e vice-versa).
O segundo est�agio, a identi�ca�c~ao propriamente dita, �e subdividido em duas etapas
da seguinte forma:
Primeira etapa: a regra de decis~ao baseia-se em uma medida de distor�c~ao, obtida a
partir da compara�c~ao do vetor de teste (vetor de parâmetros ac�usticos) com o conjunto
de padr~oes de referência (vetores-c�odigo do dicion�ario). A constru�c~ao dos padr~oes
ac�usticos representativos dos locutores (padr~oes de referência), um padr~ao para cada
locutor, �e levada a efeito a partir da Quantiza�c~ao Vetorial (QV) Param�etrica. Os
parâmetros s~ao obtidos atrav�es da an�alise por predi�c~ao linear, sendo realizada uma
an�alise comparativa do desempenho de diversos tipos de coe�cientes obtidos a partir
dessa an�alise (coe�cientes LPC, Cepestrais, Cepestrais Ponderados, Delta Cepestrais e
Delta Cepestrais Ponderados), de forma a determinar qual(is) o(s) tipo(s) de coe�ciente
que melhor representa(m) as caracter��sticas vocais dos locutores. Na constru�c~ao dos
padr~oes ac�usticos, dicion�arios do QV, s~ao avaliados três m�etodos: o primeiro utiliza
o algoritmo LBG [40], o segundo o algoritmo KMVVT (Kohonen Modi�cado com
Vizinhan�ca Centrada em Torno do Vetor de Treino) e o terceiro m�etodo utiliza o
algoritmo SSC (Competitivo no Espa�co Sin�aptico), os dois �ultimos propostos por Vilar
Fran�ca et al [41, 42, 43]. O algoritmo SSC se mostrou mais adequado para o projeto
do dicion�arios, sendo portanto o escolhido.
Introdu�c~ao 12
Segunda etapa: a regra de decis~ao baseia-se em uma medida de probabilidade, obtida
a partir da compra�c~ao do vetor de teste com o novo conjunto de padr~oes de referência.
Estes padr~oes representativos dos locutores s~ao obtidos a partir da Modelagem por
Modelos de Markov Escondidos (HMMs) de Densidades Discretas (os parâmetros re-
presentativos dos locutores s~ao transformados, a partir da QV, em um conjunto de
observa�c~oes discretas), um HMM associado a cada locutor do sistema.
Na tarefa de reconhecimento (identi�ca�c~ao), s~ao utilizadas, portanto, duas medidas
para discrimina�c~ao de locutores: a medida de distor�c~ao obtida a partir da quanti-
za�c~ao vetorial, seguida da probabilidade obtida do HMM. Esta �ultima �e utilizada como
parâmetro de \re�namento" do processo, sendo aplicada quando a medida de distor�c~ao
indicar \similaridade" entre as caracter��sticas vocais dos locutores.
1.4 Organiza�c~ao do Trabalho
Esta descri�c~ao do trabalho desenvolvido foi estruturada em sete cap��tulos. O pre-
sente cap��tulo tem por objetivo permitir ao leitor uma vis~ao mais ampla da comunica�c~ao
vocal homem-m�aquina, ao mesmo tempo que procura focalizar sua aten�c~ao no objeto
de estudo deste trabalho. Al�em disso, esta se�c~ao apresenta uma breve visualiza�c~ao dos
demais cap��tulos deste documento, mostrando nos par�agrafos a seguir uma descri�c~ao
r�apida desses cap��tulos.
No Cap��tulo 2 �e descrito o mecanismo de produ�c~ao da voz e o seu modelo corres-
pondente, o qual possibilitar�a a obten�c~ao dos parâmetros necess�arios �a representa�c~ao
dos sinais de voz, visando a realiza�c~ao da tarefa de reconhecimento (identi�ca�c~ao)
autom�atico da identidade vocal de locutores.
No Cap��tulo 3 �e realizada a descri�c~ao das t�ecnicas analisadas para extra�c~ao das
caracter��sticas vocais representativas dos locutores.
No Cap��tulo 4 s~ao apresentadas as t�ecnicas a serem utilizadas no processo de reco-
nhecimento (identi�ca�c~ao) de locutor, especi�cando os elementos necess�arios �a mode-
lagem dos sinais de voz de cada locutor, para sua posterior identi�ca�c~ao.
O Cap��tulo 5 faz a descri�c~ao do sistema de reconhecimento (identi�ca�c~ao) au-
tom�atico da identidade vocal de locutores.
No Cap��tulo 6 �e realizada a apresenta�c~ao e an�alise dos resultados obtidos. Por
Introdu�c~ao 13
�m, os resultados, as conclus~oes e sugest~oes para trabalhos futuros s~ao comentados no
Cap��tulo 7.
O Anexo A apresenta resultados complementares aos apresentados no Cap��tulo 5.
No Anexo B �e realizada uma descri�c~ao geral da interface projetada para o sistema
de reconhecimento (identi�ca�c~ao) autom�atico da identidade vocal de locutores.
Cap��tulo 2
O Mecanismo de Produ�c~ao da Voz
2.1 Introdu�c~ao
Os sinais de voz s~ao compostos de uma sequência de sons que servem como uma
representa�c~ao simb�olica da mensagem produzida pelo locutor para o ouvinte. A com-
posi�c~ao desses sons �e governada pelas regras de linguagem. O estudo cient���co da
linguagem e a forma como essas regras s~ao usadas na comunica�c~ao humana �e deno-
minada lingu��stica. A ciência que estuda as caracter��sticas da produ�c~ao do som pelo
homem, especialmente para a descri�c~ao, classi�ca�c~ao e transcri�c~ao da voz, �e denomi-
nada fon�etica [1].
A voz �e um sinal produzido como resultado de v�arias transforma�c~oes que ocorrem
em diferentes n��veis: semântico, lingu��stico, articulat�orio e ac�ustico. As diferen�cas
nessas transforma�c~oes aparecem como diferen�cas nas propriedades ac�usticas do sinal
de voz. Diferen�cas relacionadas com os locutores s~ao um resultado da combina�c~ao das
diferen�cas anatômicas inerentes ao trato vocal (caracter��sticas inerentes) e daquelas
relacionadas ao movimento dinâmico do trato vocal, ou seja, a forma como a pessoa
fala (caracter��sticas instru��das). Em reconhecimento de locutor, todas essas diferen�cas
podem ser usadas para discriminar os locutores entre si [8].
Para gerar o som desejado, o locutor exerce uma s�erie de controles sobre o apa-
relho fonador, representado na Figura 2.1, produzindo a con�gura�c~ao articulat�oria e
a excita�c~ao apropriadas. A Figura 2.1 evidencia as caracter��sticas importantes do
sistema vocal humano. O trato vocal, nome gen�erico dado ao conjunto de cavidades e
estruturas que participam diretamente da produ�c~ao sonora, come�ca na abertura entre
14
O Mecanismo de Produ�c~ao da Voz 15
as cordas vocais, ou glote e termina nos l�abios. O trato vocal assim, consiste da faringe
(a conex~ao entre o esôfago e a boca) e termina na boca ou cavidade oral. O trato nasal
come�ca na �uvula e termina nas narinas. Quando a �uvula �e abaixada, o trato nasal �e
acusticamente acoplado ao trato vocal para produzir os sons nasais da voz. Veri�ca-se
que a forma do trato nasal, n~ao pode ser modi�cada voluntariamente pelo locutor.
Ap�os a �ltragem, determinada pela conforma�c~ao do aparelho fonador, o uxo de ar
injetado pelos pulm~oes �e acoplado ao ambiente externo atrav�es dos orif��cios dos l�abios
e/ou narinas [1].
Figura 2.1: Anatomia do aparelho fonador.
Na Figura 2.2 �e apresentado um modelo mecânico para a produ�c~ao de voz. Nesse
modelo os tratos oral e nasal s~ao representados por tubos acusticamente acoplados.
O diagrama completo inclui o sistema subglotal composto dos pulm~oes, brônquios
e traqu�eia. O sistema subglotal funciona como uma fonte de energia para produ�c~ao da
voz. A voz �e a onda ac�ustica radiada do sistema quando o ar �e expelido dos pulm~oes [1].
O trato vocal e o trato nasal podem ser vistos como tubos de se�c~ao transversal n~ao
uniforme. O som se propaga atrav�es desses tubos e o espectro de frequência �e modelado
pela seletividade de frequência do tubo. Esse efeito �e muito similar aos efeitos de
ressonância observados em instrumentos de sopro. No contexto da produ�c~ao da voz,
as frequências de ressonância do tubo do trato vocal s~ao chamadas de frequências
formantes ou simplesmente formantes. As frequências formantes dependem sobretudo
da forma e dimens~oes do trato vocal. Cada forma �e caracterizada por um conjunto de
frequências formantes. Sons diferentes s~ao formados em fun�c~ao das varia�c~oes da forma
O Mecanismo de Produ�c~ao da Voz 16
narinas
cavidades nasais
faringe
boca
cordasvocaislábios
úvula
pulmão
Figura 2.2: Modelo ac�ustico do aparelho fonador.
assumida pelo trato vocal. Assim, as propriedades espectrais do sinal de voz variam
com o tempo e com a forma do trato vocal [44].
Se o ouvinte decodi�car de forma correta a sequência de sons emitida, a cadeia de
comunica�c~ao se completar�a fechando o ciclo, que compreende desde a concep�c~ao da
id�eia at�e sua completa assimila�c~ao pelo interlocutor.
Em virtude das limita�c~oes dos org~aos humanos de produ�c~ao de voz e o sistema
auditivo, a comunica�c~ao humana t��pica est�a limitada na faixa de 7-8 kHz [1].
Diante do exposto, faz-se necess�ario realizar an�alises ac�usticas, compreender as
formas de excita�c~ao do aparelho fonador, bem como avaliar os parâmetros temporais
do sinal de voz, de forma a tornar poss��vel a obten�c~ao de um modelo para a produ�c~ao
da voz, o qual �e fundamental para a implementa�c~ao de um sistema de reconhecimento
autom�atico da identidade vocal de locutores.
2.2 An�alises Ac�usticas Elementares
As caracter��sticas espectrais do sinal de voz s~ao variantes no tempo (ou n~ao esta-
cion�arias), visto que o sistema f��sico varia com o tempo. Como resultado, o sinal de voz
pode ser dividido em segmentos que possuem propriedades ac�usticas semelhantes para
curtos intervalos de tempo. Inicialmente, os sinais de voz s~ao, tipicamente, particiona-
dos dentro de duas categorias b�asicas: (1) vogais que quase n~ao apresentam restri�c~ao
O Mecanismo de Produ�c~ao da Voz 17
�a passagem do ar atrav�es do trato vocal e (2) consoantes que apresentam uma maior
restri�c~ao �a passagem do ar e s~ao, em geral, mais \fracas" em amplitude e podem ser
semelhantes a uma fonte de ru��do. Algumas das diferen�cas entre vogais e consoantes
s~ao evidentes visualizando a forma de onda no tempo da palavra aplausos pronunciada
por um locutor masculino (Figura 2.3).
Figura 2.3: Forma de onda no tempo da palavra aplausos.
Para a engenharia el�etrica �e interessante observar as formas de onda, para veri�car
o que estas podem revelar sobre os aspectos ac�usticos e psicol�ogicos da voz. A Figu-
ra 2.3 apresenta as caracter��sticas b�asicas do sinal de voz tais como: periodicidade,
intensidade, dura�c~ao, etc. Uma das mais importantes caracter��sticas da voz, bastante
evidente na Figura 2.3, �e que a voz n~ao �e constitu��da por sons discretos bem de�nidos.
As varia�c~oes evidentes na forma de onda da voz s~ao uma consequência direta dos
movimentos do sistema articulat�orio da voz, o qual raramente permanece �xo por um
consider�avel per��odo de tempo [1].
Para o prop�osito da comunica�c~ao humana, �e de interesse observar o sinal ac�ustico
produzido pelo locutor, com o objetivo de determinar os paralelos entre a comunica�c~ao
humana e a eletrônica [1].
O Mecanismo de Produ�c~ao da Voz 18
2.3 Formas de Excita�c~ao: Classi�ca�c~ao dos Sons da
Voz
A Figura 2.3 ilustra a forma de onda t��pica de um sinal de voz, que �e cont��nua
no tempo e em amplitude. Um aspecto muito importante a ser observado �e que o
sinal apresenta trechos que se repetem quase periodicamente e trechos basicamente
aleat�orios, sem nenhuma periodicidade. Assim, os sons da voz podem ser classi�cados
em 3 classes distintas de acordo com o modo de excita�c~ao. As classes s~ao as seguintes [1]:
sons sonoros, sons surdos e sons explosivos.
2.3.1 Sons Sonoros
O uxo de ar vindo dos pulm~oes �e controlado pela abertura e fechamento das cordas
vocais, ou dobras vocais, que s~ao ligamentos semelhantes a dois l�abios que podem ser
tensionados e(ou) aproximados sob o controle do locutor. A abertura entre as dobras
�e denominada glote. Estando a glote completamente fechada, o uxo de ar vindo dos
pulm~oes �e interrompido e a press~ao subgl�otica aumenta at�e que as dobras vocais sejam
separadas, liberando o ar pressionado, gerando um pulso de ar de curta dura�c~ao. Com
o escoamento do ar, a press~ao gl�otica �e reduzida, possibilitando uma nova aproxima�c~ao
das cordas vocais. O processo se repete de forma quase peri�odica. Dessa forma, s~ao
obtidas ondas de press~ao, quase peri�odicas, excitando o trato vocal, que atuando como
um ressonador modi�ca o sinal de excita�c~ao, produzindo frequências de ressonância,
denominadas de formantes, que caracterizar~ao os diferentes sons sonoros [1, 45].
Quanto mais r�apida a repeti�c~ao, mais alta a frequência e mais aguda �e a voz, como
nas vozes femininas e infantis; quanto mais lentamente essas repeti�c~oes se reproduzem,
mais grave �e a voz, como no caso das vozes masculinas [45].
As vogais, cujo grau de nasaliza�c~ao �e determinado pelo abaixamento da �uvula,
s~ao exemplos t��picos de sons sonoros. A Figura 2.4 mostra a forma de onda para a
vogal /a/, na palavra aplausos. Algumas consoantes, como /l/ e /m/, tamb�em s~ao
produzidas com a excita�c~ao glotal.
A frequência m�edia dos pulsos �e denominada frequência fundamental de excita�c~ao,
F0 e o per��odo fundamental (ou per��odo de pitch), P0, �e dado por
P0 =1
F0(2.1)
O Mecanismo de Produ�c~ao da Voz 19
Figura 2.4: Forma de onda da vogal n~ao nasalizada /a/ na palavra aplausos.
Em processamento de voz os termos pitch e frequência fundamental s~ao utilizados
como sinônimos, embora o conceito de pitch seja mais abrangente. A rigor o pitch de
um determinado est��mulo sonoro (n~ao necessariamente um sinal de voz), corresponde
�a frequência, em Hz, de um tom senoidal que est�a \a�nado" com o est��mulo, segundo a
percep�c~ao auditiva de um determinado indiv��duo. Como, na percep�c~ao de voz, o pitch
dos sons sonoros geralmente corresponde ao valor da frequência fundamental, para as
pessoas com audi�c~ao normal, os dois termos passaram a ser empregados indistintamen-
te [2].
A frequência fundamental dos sons sonoros �ca entre 80-120 Hz (para homens) e
350 Hz (para crian�cas), sendo 240 Hz um valor t��pico para mulheres [46].
2.3.2 Sons Surdos
Os sons surdos s~ao gerados pela produ�c~ao de uma constri�c~ao em algum ponto
do trato vocal (usualmente pr�oximo ao �nal da boca), assim o ar adquire velocidade
su�cientemente alta para produzir turbulência gerando um ru��do de espectro largo
(semelhante ao ru��do branco) para excitar o trato vocal.
Na produ�c~ao desses sons a glote permanece aberta, n~ao havendo vibra�c~ao das cordas
vocais. Por exemplo, na produ�c~ao do fonema /s/ em aplausos (Figura 2.5), l�abios e
dentes s~ao ligeiramente pressionados, deixando assim uma passagem estreita para o ar,
produzindo um uxo de ar turbulento nas imedia�c~oes da constri�c~ao, o qual excita as
O Mecanismo de Produ�c~ao da Voz 20
cavidades do trato vocal. O som produzido dessa forma tem caracter��sticas ruidosas
com concentra�c~ao relativa de energia nas mais altas componentes de frequência do
espectro de sinais de voz [1, 2].
Figura 2.5: Forma de onda do fonema /s/ na palavra aplausos.
2.3.3 Sons Explosivos
Na gera�c~ao dos sons explosivos, o ar �e totalmente dirigido �a boca, estando esta com-
pletamente fechada. Com o aumento da press~ao, a oclus~ao �e rompida bruscamente,
gerando um pulso que excita o aparelho fonador. Com a excita�c~ao ocorre um movi-
mento r�apido dos articuladores em dire�c~ao �a con�gura�c~ao do pr�oximo som. Exemplos
de sons explosivos s~ao os fonemas /p/, /t/, /k/, dentre outros [1, 2]. A Figura 2.6
mostra a forma de onda do explosivo /p/, em aplausos.
Figura 2.6: Forma de onda do fonema /p/ na palavra aplausos.
O Mecanismo de Produ�c~ao da Voz 21
2.3.4 Sons com excita�c~ao mista
Os sons fricativos sonoros, como /j/, /v/ e /z/, s~ao produzidos combinando-se vi-
bra�c~ao das cordas vocais e excita�c~ao turbulenta. Nos per��odos em que a press~ao gl�otica
atinge um m�aximo, o escoamento atrav�es da obstru�c~ao torna-se turbulento, gerando o
car�ater fricativo do som; quando a press~ao gl�otica cai abaixo de um dado valor, termina
o escoamento turbulento do ar e as ondas de press~ao apresentam comportamento mais
suave [1, 2]. A Figura 2.7 mostra o fonema fricativo sonoro /z/ em aplausos.
Figura 2.7: Forma de onda do fonema /z/ na palavra aplausos.
Os sons oclusivos (ou explosivos) sonoros, como /d/ e /b/, s~ao produzidos de forma
semelhante aos correspondentes n~ao sonoros, /p/ e /t/, por�em h�a vibra�c~ao das cordas
vocais durante a fase de fechamento da cavidade oral. A Figura 2.8 mostra a forma de
onda do fonema explosivo sonoro /b/ em bola.
Figura 2.8: Forma de onda do fonema /b/ na palavra bola.
O Mecanismo de Produ�c~ao da Voz 22
2.4 Parâmetros Temporais do Sinal de Voz
O gr�a�co amplitude-versus-tempo de um sinal permite a avalia�c~ao de muitas ca-
racter��sticas importantes que permitem uma completa descri�c~ao do mesmo. A partir
do uso de parâmetros temporais torna-se poss��vel identi�car os sons b�asicos da fala.
Dentre esses parâmetros destacam-se: a Energia do Sinal, a Taxa de Cruzamento por
Zero, o Coe�ciente de Correla�c~ao Normalizado, o N�umero Total de Picos, dentre outros.
A partir da Figura 2.3 �e poss��vel perceber uma combina�c~ao de caracter��sticas ine-
rentes ao processo de produ�c~ao da fala. Em alguns intervalos, o sinal apresenta n��veis
elevados de energia al�em de uma certa periodicidade e, em outros, tem a aparência de
um sinal aleat�orio com n��veis de amplitude bastante reduzidos.
Os parâmetros temporais extra��dos do sinal de voz neste trabalho s~ao: Energia do
Sinal, Coe�ciente de Correla�c~ao Normalizado, Taxa de Cruzamento por Zero, N�umero
Total de Picos e a Diferen�ca entre os Picos [1].
A energia e a taxa de cruzamento por zero s~ao parâmetros tradicionais na an�alise
de voz. Os outros parâmetros: n�umero total de picos (e a diferen�ca entre os picos) da
forma de onda e o coe�ciente de correla�c~ao s~ao propostos para auxiliar a dete�c~ao de
categorias de sons como fricativos surdos e fricativos sonoros, por exemplo [1].
Uma caracter��stica importante dos sinais de voz �e que suas propriedades estat��sticas
podem ser consideradas invariantes no tempo, para curtos intervalos, at�e 32 ms, sendo
um valor t��pico, 16 ms. Assim sendo, para se obter os parâmetros temporais do sinal �e
necess�ario particion�a-lo em segmentos (ou blocos de amostras), visando trabalhar com
o sinal dentro dos seus limites de estacionariedade [1, 20, 27, 47].
2.4.1 Energia por segmento
A energia por segmento (segmental), Eseg, �e de�nida por
Eseg = NA � Ef[s(n)� �s(n)]2g: (2.2)
Para sinais erg�odicos 1 e estacion�arios no sentido amplo 2, com m�edia nula, como a
1Para um processo estoc�astico erg�odico, as suas m�edias estat��sticas s~ao iguais as suas m�edias
temporais.2Um processo estoc�astico estacion�ario no sentido amplo possui uma m�edia constante e uma fun�c~ao
de autocorrela�c~ao que depende apenas da diferen�ca entre os intervalos de medi�c~ao.
O Mecanismo de Produ�c~ao da Voz 23
voz, Eseg �e de�nida por [1, 2]:
Eseg = NA � Ef[s(n)]2g =NA�1Xn=0
[s(n)]2 e (2.3)
Eseg(dB) = 10:log[Eseg]; (2.4)
em que s(n) �e o sinal de voz, �s(n) a m�edia de s(n) e NA o tamanho da janela (bloco de
amostras do sinal) em an�alise. A energia �e obtida, portanto, simplesmente, somando-se
os quadrados das amplitudes das NA amostras do sinal contido na janela em an�alise,
devendo reetir as varia�c~oes de amplitude do sinal de voz entre intervalos ou janelas.
A amplitude do sinal de voz varia consideravelmente com o tempo. Considerando-se
que a amplitude dos segmentos surdos �e muito menor que a dos segmentos sonoros, a
utiliza�c~ao do parâmetro energia tem importância fundamental na diferencia�c~ao entre
os sons surdos e sonoros.
Frequentemente, a energia �e maior nos sons surdos do que nos intervalos de silêncio
mas, em alguns casos, essa a�rma�c~ao n~ao �e totalmente correta. Quando o segmento
em an�alise representa um som fricativo, sua energia pode estar muito pr�oxima do n��vel
de energia do ru��do, �unico sinal existente nos intervalos de silêncio, o que pode causar
erros de interpreta�c~ao do sinal desejado. Neste caso, outros parâmetros temporais s~ao
utilizados para auxiliar numa tomada de decis~ao correta.
A energia do sinal de voz est�a concentrada na regi~ao de frequências mais baixas
do espectro, que compreende a faixa de 500 a 800 Hz. No entanto, mesmo contendo
baixos valores de energia, as componentes de frequências mais altas s~ao importantes
pois determinam, em grande parte, a inteligilibilidad