237

Reconhecimen to Autom atico de Iden tidade o cal ...joseana/JMF_TesedeDoutorado.pdf · Reconhecimen to Autom atico de Iden tidade V o cal Utilizando Mo delagem H brida: P aram etrica

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

  • Reconhecimento Autom�atico de Identidade Vocal

    Utilizando Modelagem H��brida:

    Param�etrica e Estat��stica

    Joseana Macêdo Fechine

    Tese de Doutorado submetida �a Coordena�c~ao dos Cursos de P�os-

    Gradu�c~ao em Engenharia El�etrica da Universidade Federal da Pa-

    ra��ba - Campus II, como parte dos requisitos necess�arios para ob-

    ten�c~ao do grau de Doutor em Ciências no dom��nio da Engenharia

    El�etrica.

    �Area de Concentra�c~ao: Processamento da Informa�c~ao

    Benedito Guimar~aes Aguiar Neto - Dr.-Ing.Orientador

    Campina Grande, Para��ba, Brasil

    cJoseana Macêdo Fechine

  • Reconhecimento Autom�atico de Identidade Vocal

    Utilizando Modelagem H��brida:

    Param�etrica e Estat��stica

    Joseana Macêdo Fechine

    Benedito Guimar~aes Aguiar Neto - Dr.-Ing.Orientador

    Abraham Alcaim - Ph.DComponente da Banca

    Adri~ao - Ph.DComponente da Banca

    Marcus Antônio Brasileiro - Ph.DComponente da Banca

    Marcelo Sampaio de Alencar - Ph.DComponente da Banca

    Campina Grande, Para��ba, Brasil

    ii

  • Dedico este trabalho a Deus em primeiro lugar, aos meus pais, Jos�e e Ana

    Ilda��za, aos meus irm~aos, Vicente, Geovane e Guilhermino e aos meus sobrinhos, Ma-

    riana, Melina e Gabriel.

    \Todos n�os temos uma soma de deveres a cumprir.

    A vida exige de cada um o direito de lutar e vencer."

    J.S. Nobre

    iii

  • iii

  • Agradecimentos

    A realiza�c~ao deste trabalho recebeu o apoio de muitos que me ensinaram a ter

    perseveran�ca para seguir com o presente estudo. A todos o meu agradecimento e a

    certeza de que as palavras e gestos de incentivo n~ao foram in�uteis, sabendo que o

    verdadeiro agradecimento consiste no reconhecimento daqueles que contribuem para o

    sucesso de outros, ainda que involuntariamente.

    Em especial agrade�co a Deus, pelo amor in�nito.

    A minha fam��lia, pela paciência, apoio e incentivo sempre presentes.

    Ao professor Benedito Guimar~aes Aguiar Neto, pela orienta�c~ao deste trabalho,

    est��mulo e dedica�c~ao sempre prestados, que muito me enriqueceram intelectualmen-

    te, fortalecendo o meu desenvolvimento pro�ssional.

    Ao meu amigo Francisco Madeiro Bernardino J�unior, pelo apoio, incentivo e pela

    valorosa contribui�c~ao.

    �A professora e amiga Rosângela Maria Vilar Fran�ca, pela valorosa colabora�c~ao,

    experiência e sugest~oes.

    Aos amigos Paulo M�arcio, Rinaldo, Waslon Terllizzie, Eust�aquio, ...... e demais

    colegas do LAPS.

    Aos demais amigos que compuseram a amostra de locutores: Isabel, Sissi, Suzete,

    professora Maria de F�atima, Rute, Marta, Socorro, Camila, Vânia, Yuska, Ellaine,

    Claudia, Vivian, Natasha, Mariana, Renata, Karina, Josemar, Leonel, Bruno, Denis,

    Antônio Neto, Alynthor, Luiz Gonzaga J�unior, Felipe, Avishek, Murali, S�ergio, Towar

    e Edmar.

    A todos que fazem a COPELE, em especial �a Ângela, Pedrinho e Eleonôra, pelo

    apoio constante.

    A Joab e Antonio Carlos da ATECEL, pelas palavras de incentivo e apoio, como

    tamb�em pela gentileza no atendimento das minhas solicita�c~oes.

    As minhas grandes amigas K�atia, Magna, K��ssia e Kenia, que tanto me apoiaram

    em todos os momentos.

    A todos os meus amigos, que direta ou indiretamente me incentivaram no decorrer

    deste trabalho.

    A Universidade Federal da Para��ba-Campus II, ao CNPq e a CAPES.

    iv

  • iv

  • Resumo

    Este trabalho trata da aplica�c~ao de uma t�ecnica h��brida (param�etrica e estat��stica),

    que utiliza An�alise por Predi�c~ao Linear, Quantiza�c~ao Vetorial, Redes Neurais e Mode-

    los de Markov Escondidos, para o desenvolvimento de um sistema de reconhecimento

    (identi�ca�c~ao) autom�atico da identidade vocal, visando obter alternativas para os al-

    goritmos tradicionais. Com o objetivo de se obter um sistema mais r�apido e robusto,

    �e realizada uma etapa de pr�e-identi�ca�c~ao, seguida da identi�ca�c~ao. A primeira etapa

    utiliza a frequência fundamental (F0) como parâmetro de separa�c~ao pr�evia dos locu-

    tores em grupos gerais, de acordo com o sexo. O m�etodo proposto para estima�c~ao da

    F0 se mostra e�ciente (99% de classi�ca�c~ao correta), fornecendo estimativas represen-

    tativas de cada locutor, reduzindo assim o n�umero de locutores a participar da etapa

    posterior. A etapa de identi�ca�c~ao utiliza Modelos de Markov Escondidos (HMMs) de

    Densidades Discretas e Quantiza�c~ao Vetorial Param�etrica, com parâmetros ac�usticos

    obtidos a partir da An�alise por Predi�c~ao Linear (coe�cientes LPC, Cepestrais, Ce-

    pestrais Ponderados, Delta Cepestrais e Delta Cepestrais Ponderados). Os coe�cientes

    Cepestrais, seguido dos Delta Cepestrais, proporcionam maiores taxas de identi�ca�c~ao.

    Em se tratanto do projeto do dicion�ario do quantizador vetorial, s~ao avaliados três al-

    goritmos: LBG (Linde-Buzo-Gray), KMVVT (Kohonen Modi�cado com Vizinhan�ca

    Centrada em Torno do Vetor de Treino) e SSC (Competitivo no Espa�co Sin�aptico).

    O algoritmo SSC apresenta-se como o mais adequado para o projeto dos dicion�arios,

    levando a maiores taxas de identi�ca�c~ao. A modelagem por HMMs se constitui em uma

    etapa de \re�namento" do processo de identi�ca�c~ao, sendo utilizada quando as medidas

    de distor�c~ao obtidas pela compara�c~ao do padr~ao de teste do locutor a ser identi�cado

    (vetor de caracter��sticas ac�usticas) com os padr~oes de referência (dicion�arios do quan-

    tizador vetorial) indicarem \similaridade" entre os padr~oes vocais. A t�ecnica aplicada

    neste trabalho proporciona a obten�c~ao de um sistema de reconhecimento autom�atico

    da identidade vocal que apresenta taxa m�edia de identi�ca�c~ao elevada (97,8%) e signi-

    �cativa, baixas taxas m�edias de falsa aceita�c~ao (0,8%) e de falsa rejei�c~ao (1,5%), bem

    como alta con�abilidade (99,2%). O sistema de identi�ca�c~ao de locutor desenvolvido

    �e, portanto, capaz de discriminar, de forma e�ciente, os locutores a partir das suas

    caracter��sticas vocais apresentando, independentemente do sexo do locutor, pequenas

    varia�c~oes intralocutor e grandes varia�c~oes interlocutor.

    v

  • Abstract

    This work presents an investigation concerning the use a hybrid system (pa-

    rametric and statistic) composed by Linear Prediction, Vector Quantization, Neural

    Networks and Hidden Markov Models (HMMs) with discrete densities applied to spea-

    ker identi�cation. Several parameters, such as coe�cients obtained by Linear Predic-

    tion Coding (LPC, Cepstrum, Weighted Cepstrum, Delta Cepstrum and Delta Weigh-

    ted Cepstrum methods) are used to represent each speaker. In order to achieve a

    robust identi�cation, a two-step system is designed, consisting of a pre-identi�cation

    stage followed by an identi�cation stage (main stage). The �rst stage uses the pitch (or

    fundamental frequency) to distinguish two subgroups (male and female). The proposed

    method to estimate the pitch produces high pre-identi�cation rate (99%), reducing the

    set of speakers to be identi�ed in subsequent stage. The main stage is divided into two

    substages. The �rst uses vector quantization with codebooks designed by LBG (Linde-

    Buzo-Gray), KMVVT (Modi�ed Kohonen's Algorithm with Neighborhood Centered in

    the Training Vector) and SSC (Synaptic Space Competitive) algorithms. Results show

    that the codebooks of acoustic patterns designed by SSC lead to higher identi�cation

    rates when compared to the ones designed by KMVVT and LBG. Additionally, this

    work presents a comparative study of the linear predictive analysis methods applied

    to speaker identi�cation. Cepstrum and Delta Cepstrum coe�cients produce better

    results when compared to other coe�cients. The second substage uses HMMs when

    the acoustic patterns indicate that speakers present similar vocal characteristics. Thus,

    the second substage is a re�nement of the main stage. The system produces high mean

    identi�cation rate (97,8%), small mean false acceptance rate (0,8%) and mean false

    rejection rate (1,5%), as well as high con�ability (99,2%). The results show that the

    speaker identi�cation system which is able to e�ciently descriminate the vocal cha-

    racteristics of the speakers (female and male), with a small intra-speaker and a large

    inter-speaker variation.

    vi

  • �Indice

    1 Introdu�c~ao 1

    1.1 Comunica�c~ao Vocal Homem-M�aquina . . . . . . . . . . . . . . . . . . . 1

    1.1.1 Sistemas de Resposta Vocal . . . . . . . . . . . . . . . . . . . . 4

    1.1.2 Sistemas de Reconhecimento de Fala . . . . . . . . . . . . . . . 4

    1.1.3 Sistemas de Reconhecimento de Locutor . . . . . . . . . . . . . 5

    1.2 Motiva�c~ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

    1.3 Objetivos do Trabalho . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

    1.4 Organiza�c~ao do Trabalho . . . . . . . . . . . . . . . . . . . . . . . . . . 12

    2 O Mecanismo de Produ�c~ao da Voz 14

    2.1 Introdu�c~ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

    2.2 An�alises Ac�usticas Elementares . . . . . . . . . . . . . . . . . . . . . . 16

    2.3 Formas de Excita�c~ao: Classi�ca�c~ao dos Sons da Voz . . . . . . . . . . . 18

    2.3.1 Sons Sonoros . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

    2.3.2 Sons Surdos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

    2.3.3 Sons Explosivos . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

    2.3.4 Sons com excita�c~ao mista . . . . . . . . . . . . . . . . . . . . . 21

    2.4 Parâmetros Temporais do Sinal de Voz . . . . . . . . . . . . . . . . . . 22

    2.4.1 Energia por segmento . . . . . . . . . . . . . . . . . . . . . . . . 22

    2.4.2 Taxa de Cruzamento por Zero . . . . . . . . . . . . . . . . . . . 23

    2.4.3 Coe�ciente de Correla�c~ao Normalizado . . . . . . . . . . . . . . 25

    vii

  • 2.4.4 N�umero Total de Picos . . . . . . . . . . . . . . . . . . . . . . . 26

    2.4.5 Diferen�ca entre os Picos . . . . . . . . . . . . . . . . . . . . . . 26

    2.5 Modelo para Produ�c~ao da Voz . . . . . . . . . . . . . . . . . . . . . . . 26

    2.6 Discuss~ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

    3 M�etodos para Extra�c~ao de Parâmetros Representativos dos Locuto-

    res 29

    3.1 Introdu�c~ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

    3.2 Frequência Fundamental . . . . . . . . . . . . . . . . . . . . . . . . . . 32

    3.2.1 M�etodos no Dom��nio do Tempo . . . . . . . . . . . . . . . . . . 32

    3.2.2 Detetor Surdo-Sonoro . . . . . . . . . . . . . . . . . . . . . . . . 34

    3.2.3 Estima�c~ao da Frequência Fundamental . . . . . . . . . . . . . . 37

    3.3 An�alise por Predi�c~ao Linear . . . . . . . . . . . . . . . . . . . . . . . . 39

    3.3.1 Coe�cientes LPC . . . . . . . . . . . . . . . . . . . . . . . . . . 41

    3.3.2 Coe�cientes Cepestrais . . . . . . . . . . . . . . . . . . . . . . . 44

    3.3.3 Coe�cientes Cepestrais Ponderados . . . . . . . . . . . . . . . . 46

    3.3.4 Coe�cientes Delta Cepestrais . . . . . . . . . . . . . . . . . . . 47

    3.3.5 Coe�cientes Delta Cepestrais Ponderados . . . . . . . . . . . . . 47

    3.4 Discuss~ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

    4 M�etodos para o Reconhecimento Autom�atico de Locutor 49

    4.1 Introdu�c~ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

    4.2 Quantiza�c~ao Vetorial . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

    4.2.1 Projeto do dicion�ario . . . . . . . . . . . . . . . . . . . . . . . . 54

    4.2.2 Medidas de Distor�c~ao . . . . . . . . . . . . . . . . . . . . . . . . 57

    4.3 Redes Neurais Arti�ciais . . . . . . . . . . . . . . . . . . . . . . . . . . 58

    4.3.1 Topologia das Redes Neurais . . . . . . . . . . . . . . . . . . . . 59

    4.3.2 Regras de Treinamento . . . . . . . . . . . . . . . . . . . . . . . 62

    viii

  • 4.4 Modelos de Markov Escondidos . . . . . . . . . . . . . . . . . . . . . . 68

    4.4.1 Tipos de HMM . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

    4.4.2 Parâmetros do Modelo . . . . . . . . . . . . . . . . . . . . . . . 72

    4.4.3 Os três problemas b�asicos dos HMMs e suas solu�c~oes . . . . . . 76

    4.5 Discuss~ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87

    5 Descri�c~ao do Sistema de Identi�ca�c~ao Autom�atica de Locutor 89

    5.1 Introdu�c~ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89

    5.2 Processamento do sinal de voz . . . . . . . . . . . . . . . . . . . . . . . 90

    5.2.1 Pr�e-ênfase . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91

    5.2.2 Segmenta�c~ao para an�alise a curtos intervalos . . . . . . . . . . . 91

    5.3 Extra�c~ao de caracter��sticas . . . . . . . . . . . . . . . . . . . . . . . . . 93

    5.3.1 Dete�c~ao da Frequência Fundamental . . . . . . . . . . . . . . . 93

    5.3.2 Obten�c~ao do vetor de caracter��sticas . . . . . . . . . . . . . . . 94

    5.4 Quantiza�c~ao Vetorial . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95

    5.4.1 Projeto do dicion�ario . . . . . . . . . . . . . . . . . . . . . . . . 95

    5.4.2 Medida de distor�c~ao . . . . . . . . . . . . . . . . . . . . . . . . 95

    5.4.3 Escolha da dimens~ao do quantizador . . . . . . . . . . . . . . . 96

    5.4.4 Escolha do n�umero de n��veis do quantizador (s��mbolos do alfa-

    beto, M) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96

    5.5 Modelagem utilizando HMM . . . . . . . . . . . . . . . . . . . . . . . . 96

    5.5.1 Escolha do n�umero de estados do HMM (N) . . . . . . . . . . . 97

    5.5.2 Inicializa�c~ao de aij . . . . . . . . . . . . . . . . . . . . . . . . . 97

    5.5.3 Inicializa�c~ao de bj(k) . . . . . . . . . . . . . . . . . . . . . . . . 98

    5.5.4 Uso de m�ultiplas sequências de observa�c~oes . . . . . . . . . . . . 98

    5.5.5 Considera�c~oes de implementa�c~ao . . . . . . . . . . . . . . . . . 99

    5.6 Padr~oes de Referência e de Teste . . . . . . . . . . . . . . . . . . . . . 101

    5.7 Regra de Decis~ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101

    5.8 Discuss~ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102

    ix

  • 6 Apresenta�c~ao e An�alise dos Resultados 104

    6.1 Introdu�c~ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104

    6.2 Apresenta�c~ao e An�alise dos Resultados . . . . . . . . . . . . . . . . . . 104

    6.2.1 Parâmetros para Avalia�c~ao do Desempenho . . . . . . . . . . . 107

    6.2.2 Pr�e-identi�ca�c~ao dos locutores . . . . . . . . . . . . . . . . . . . 108

    6.2.3 Identi�ca�c~ao dos locutores . . . . . . . . . . . . . . . . . . . . . 120

    6.3 An�alise Estat��stica de Desempenho . . . . . . . . . . . . . . . . . . . . 134

    6.3.1 Conceitos B�asicos . . . . . . . . . . . . . . . . . . . . . . . . . . 134

    6.3.2 Erro Padr~ao da M�edia . . . . . . . . . . . . . . . . . . . . . . . 135

    6.3.3 Estimativa do intervalo de con�an�ca da m�edia aritm�etica de uma

    popula�c~ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136

    6.3.4 Aplica�c~ao do Teste t de Variância Combinada para Diferen�cas

    Entre Duas M�edias Aritm�eticas . . . . . . . . . . . . . . . . . . 138

    6.3.5 An�alise estat��stica dos valores obtidos no SRAL . . . . . . . . . 139

    7 Conclus~oes e Sugest~oes 143

    7.1 Introdu�c~ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143

    7.2 Sum�ario da Pesquisa . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144

    7.3 Contribui�c~oes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145

    7.3.1 Pr�e-identi�ca�c~ao dos locutores . . . . . . . . . . . . . . . . . . . 145

    7.3.2 Identi�ca�c~ao dos locutores . . . . . . . . . . . . . . . . . . . . . 147

    7.4 Sugest~oes para trabalhos futuros . . . . . . . . . . . . . . . . . . . . . . 149

    A Resultados Complementares 151

    A.1 Pr�e-identi�ca�c~ao dos Locutores . . . . . . . . . . . . . . . . . . . . . . 151

    A.1.1 Detetor Surdo-Sonoro . . . . . . . . . . . . . . . . . . . . . . . . 151

    A.1.2 Detetor da Frequência Fundamental . . . . . . . . . . . . . . . . 151

    A.2 Identi�ca�c~ao dos Locutores . . . . . . . . . . . . . . . . . . . . . . . . . 152

    A.3 An�alise estat��stica de desempenho . . . . . . . . . . . . . . . . . . . . . 154

    B Interface do Sistema 194

    x

  • Lista de Tabelas

    1.1 Fontes externas de erro para um SRAL. . . . . . . . . . . . . . . . . . . 9

    3.1 Limiares de decis~ao que delimitam quatro faixas de energia do detetor

    Surdo-Sonoro. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

    6.1 An�alise comparativa do desempenho (taxas m�edias de classi�ca�c~ao cor-

    reta) dos m�etodos utilizados para estima�c~ao da frequência fundamental:

    AMDF(AMDF-1) e AMDF modi�cado (AMDF-2), para os locutores

    femininos (LF) e masculinos (LM), para a amostra composta de 40 lo-

    cutores. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118

    6.2 Parâmetros para avalia�c~ao de desempenho do SRAL, m�etodo QV-LBG

    (parâmetros ac�usticos: LPC, CEP, CEP-P, DCEP e DCEP-P), para a

    amostra composta de 20 locutores. . . . . . . . . . . . . . . . . . . . . 121

    6.3 Parâmetros para avalia�c~ao de desempenho do SRAL, m�etodo QV-KMVVT

    (parâmetros ac�usticos: LPC, CEP, DCEP e DCEP-P), para a amostra

    composta de 20 locutores. . . . . . . . . . . . . . . . . . . . . . . . . . 125

    6.4 Parâmetros para avalia�c~ao do desempenho do SRAL, m�etodo QV-SSC

    (parâmetros ac�usticos: CEP e DCEP), para a amostra composta de 20

    locutores. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127

    6.5 Parâmetros para avalia�c~ao de desempenho do SRAL, m�etodo QV-SSC

    (parâmetros ac�usticos: CEP e DCEP), para a amostra composta de 40

    locutores. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130

    6.6 Parâmetros para avalia�c~ao de desempenho do SRAL, m�etodo QV-SSC-

    HMM, para a amostra composta de 40 locutores. . . . . . . . . . . . . 132

    6.7 Parâmetros para avalia�c~ao de desempenho do SRAL, m�etodo QV-SSC-

    HMM, adicionada a etapa de pr�e-identi�ca�c~ao, para a amostra composta

    de 40 locutores. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133

    xi

  • 6.8 Intervalo de con�an�ca para a Frequência Fundamental m�edia (em Hz)

    dos locutores femininos (LF) e masculinos (LM) (Li, 1 � i � 20, indicao locutor). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140

    6.9 Valores do intervalo de con�an�ca para a taxa m�edia de identi�ca�c~ao dos

    locutores femininos (LF), masculinos (LM) e para o grupo. . . . . . . . 141

    6.10 Resumo dos resultados obtidos com as aplica�c~oes do teste t. . . . . . . 142

    A.1 Parâmetros Temporais do sinal de voz - aplausos (n�umero de quadros

    = 149, tamanho do quadro = 200, total de amostras lidas = 29.800 -

    janela utilizada - Hamming). . . . . . . . . . . . . . . . . . . . . . . . . 155

    A.2 Frequência fundamental (em Hz), Frequência Fundamental m�edia (F0) ,

    Coe�ciente de Varia�c~ao (C.V.) e Taxas de Erro, dos locutores femininos

    (LF1 a LF5) e masculinos (LM1 a LM5), para as cinco elocu�c~oes da

    palavra aplausos (E1 a E5). . . . . . . . . . . . . . . . . . . . . . . . . 161

    A.3 Frequência Fundamental (em Hz), Frequência Fundamental m�edia (F0),

    Coe�ciente de Varia�c~ao (C.V.) e Taxas de Erro, dos locutores femininos

    (LF1 a LF5) e masculinos (LM1 a LM5), para as cinco elocu�c~oes da

    palavra bola (E1 a E5). . . . . . . . . . . . . . . . . . . . . . . . . . . . 161

    A.4 Frequência Fundamental (em Hz), Frequência Fundamental m�edia (F0),

    Coe�ciente de Varia�c~ao (C.V.) e Taxas de Erro, dos locutores femini-

    nos (LF1 a LF4) e masculinos (LM1 a LM4), para as quarenta cinco

    elocu�c~oes de todas as senten�cas (E1 a E45). . . . . . . . . . . . . . . . 162

    A.5 Frequência Fundamental (em Hz), Frequência Fundamental m�edia (F0),

    Coe�ciente de Varia�c~ao (C.V.) e Taxas de Erro, dos locutores femininos

    (LF1 a LF20), para as vinte elocu�c~oes da senten�ca Quero usar a m�aquina

    (E1 a E20), algoritmo AMDF (AMDF-1). . . . . . . . . . . . . . . . . 164

    A.6 Frequência Fundamental (em Hz), Frequência Fundamental m�edia (F0),

    Coe�ciente de Varia�c~ao (C.V.) e Taxas de Erro, dos locutores masculi-

    nos (LM1 a LM20), para as vinte elocu�c~oes da senten�ca Quero usar a

    m�aquina (E1 a E20), algoritmo AMDF (AMDF-1). . . . . . . . . . . . 166

    xii

  • A.7 Frequência Fundamental (em Hz), Frequência Fundamental m�edia (F0),

    Coe�ciente de Varia�c~ao (C.V.) e Taxas de Erro, dos locutores femininos

    (LF1 a LF20), para as vinte elocu�c~oes da senten�ca Quero usar a m�aquina

    (E1 a E20), algoritmo AMDF modi�cado (AMDF-2). . . . . . . . . . . 168

    A.8 Frequência Fundamental (em Hz), Frequência Fundamental m�edia (F0),

    Coe�ciente de Varia�c~ao (C.V.) e Taxas de Erro, dos locutores masculi-

    nos (LM1 a LM20), para as vinte elocu�c~oes da senten�ca Quero usar a

    m�aquina (E1 a E20), algoritmo AMDF modi�cado (AMDF-2). . . . . . 170

    A.9 Taxas de identi�ca�c~ao do SRAL, m�etodo QV-LBG (parâmetros ac�usticos:

    LPC, CEP, CEP-P, DCEP e DCEP-P), para os locutores femininos (LF1

    a LF10) e masculinos (LM1 a LM10). . . . . . . . . . . . . . . . . . . . 172

    A.10 Taxas de falsa rejei�c~ao do SRAL, m�etodo QV-LBG (parâmetros ac�usticos:

    LPC, CEP, CEP-P, DCEP e DCEP-P), para os locutores femininos (LF1

    a LF10) e masculinos (LM1 a LM10). . . . . . . . . . . . . . . . . . . . 173

    A.11 Taxas de falsa aceita�c~ao do SRAL, m�etodo QV-LBG (parâmetros ac�usticos:

    LPC, CEP, CEP-P, DCEP e DCEP-P), para os locutores femininos (LF1

    a LF10) e masculinos (LM1 a LM10). . . . . . . . . . . . . . . . . . . . 174

    A.12 Taxas de identi�ca�c~ao do SRAL, m�etodo QV-KMVVT (parâmetros ac�usticos:

    LPC, CEP, DCEP e DCEP-P), para os locutores femininos (LF1 a LF10)

    e masculinos (LM1 a LM10). . . . . . . . . . . . . . . . . . . . . . . . . 175

    A.13 Taxas de falsa rejei�c~ao do SRAL, m�etodo QV-KMVVT (parâmetros

    ac�usticos: LPC, CEP, DCEP e DCEP-P), para os locutores femininos

    (LF1 a LF10) e masculinos (LM1 a LM10). . . . . . . . . . . . . . . . . 176

    A.14 Taxas de falsa aceita�c~ao do SRAL, m�etodo QV-KMVVT (parâmetros

    ac�usticos: LPC, CEP, DCEP e DCEP-P), para os locutores femininos

    (LF1 a LF10) e masculinos (LM1 a LM10). . . . . . . . . . . . . . . . . 177

    A.15 Taxas de identi�ca�c~ao, falsa rejei�c~ao e falsa aceita�c~ao do SRAL, m�etodo

    QV-SSC (parâmetros ac�usticos: CEP e DCEP), para os locutores femi-

    ninos (LF1 a LF10) e masculinos (LM1 a LM10). . . . . . . . . . . . . 178

    A.16 Taxas de identi�ca�c~ao, falsa rejei�c~ao e falsa aceita�c~ao do SRAL, m�etodo

    QV-SSC (parâmetros ac�usticos: CEP e DCEP), para os locutores femi-

    ninos (LF1 a LF20) e masculinos (LM1 a LM20). . . . . . . . . . . . . 179

    xiii

  • A.17 Taxas de identi�ca�c~ao, falsa rejei�c~ao e falsa aceita�c~ao do SRAL, m�etodo

    QV-SSC-HMM, para os locutores femininos (LF1 a LF20) e masculinos

    (LM1 a LM20). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181

    A.18 Taxas de identi�ca�c~ao, falsa rejei�c~ao e falsa aceita�c~ao do SRAL, m�etodo

    QV-SSC-HMM, adicionada a etapa de pr�e-identi�ca�c~ao, para os locuto-

    res femininos (LF1 a LF20) e masculinos (LM1 a LM20). . . . . . . . . 183

    A.19 Matriz de confus~ao do SRAL, m�etodo QV-LBG (parâmetro ac�ustico -

    LPC), para os locutores femininos (LF1 a LF10) e masculinos (LM1 a

    LM10). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185

    A.20 Matriz de confus~ao do SRAL, m�etodo QV-LBG (parâmetro ac�ustico -

    CEP), para os locutores femininos (LF1 a LF10) e masculinos (LM1 a

    LM10). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185

    A.21 Matriz de confus~ao do SRAL, m�etodo QV-LBG (parâmetro ac�ustico -

    CEP-P), para os locutores femininos (LF1 a LF10) e masculinos (LM1

    a LM10). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186

    A.22 Matriz de confus~ao do SRAL, m�etodo QV-LBG (parâmetro ac�ustico -

    DCEP), para os locutores femininos (LF1 a LF10) e masculinos (LM1 a

    LM10). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186

    A.23 Matriz de confus~ao do SRAL, m�etodo QV-LBG (parâmetro ac�ustico -

    DCEP-P), para os locutores femininos (LF1 a LF10) e masculinos (LM1

    a LM10). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 187

    A.24 Matriz de confus~ao do SRAL, m�etodo QV-KMVVT (parâmetro ac�ustico

    - LPC), para os locutores femininos (LF1 a LF10) e masculinos (LM1 a

    LM10). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 187

    A.25 Matriz de confus~ao do SRAL, m�etodo QV-KMVVT (parâmetro ac�ustico

    - CEP), para os locutores femininos (LF1 a LF10) e masculinos (LM1 a

    LM10). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 188

    A.26 Matriz de confus~ao do SRAL, m�etodo QV-KMVVT (parâmetro ac�ustico

    - DCEP), para os locutores femininos (LF1 a LF10) e masculinos (LM1

    a LM10). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 188

    A.27 Matriz de confus~ao do SRAL, m�etodo QV-KMVVT (parâmetro ac�ustico

    - DCEP-P), para os locutores femininos (LF1 a LF10) e masculinos (LM1

    a LM10). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189

    xiv

  • A.28 Matriz de confus~ao do SRAL, m�etodo QV-SSC (parâmetro ac�ustico -

    CEP), para os locutores femininos (LF1 a LF10) e masculinos (LM1 a

    LM10). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189

    A.29 Matriz de confus~ao do SRAL, m�etodo QV-SSC (parâmetro ac�ustico -

    DCEP), para os locutores femininos (LF1 a LF10) e masculinos (LM1 a

    LM10). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 190

    A.30 Matriz de confus~ao do SRAL, m�etodo QV-SSC (parâmetro ac�ustico -

    CEP), para os locutores femininos (LF1 a LF20). . . . . . . . . . . . . 190

    A.31 Matriz de confus~ao do SRAL, m�etodo QV-SSC (parâmetro ac�ustico -

    CEP), para os locutores masculinos (LM1 a LM20). . . . . . . . . . . . 191

    A.32 Matriz de similaridade do SRAL, m�etodo QV-SSC (parâmetro ac�ustico:

    CEP), dos locutores masculinos e femininos, para as vinte elocu�c~oes da

    senten�ca (E1 a E20). . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191

    A.33 Matriz de confus~ao do SRAL, m�etodo QV-SSC-HMM, para os locutores

    femininos (LF1 a LF20). . . . . . . . . . . . . . . . . . . . . . . . . . . 192

    A.34 Matriz de confus~ao do SRAL, m�etodo QV-SSC-HMM, para os locutores

    masculinos (LM1 a LM20). . . . . . . . . . . . . . . . . . . . . . . . . . 192

    A.35 Distribui�c~ao t-Student. . . . . . . . . . . . . . . . . . . . . . . . . . . . 193

    xv

  • Lista de Figuras

    1.1 Descri�c~ao geral do processamento da voz. . . . . . . . . . . . . . . . . . 3

    1.2 Modelo gen�erico para um sistema de reconhecimento de locutor. . . . . 6

    1.3 Fase de Treinamento de um SRAL. . . . . . . . . . . . . . . . . . . . . 8

    1.4 Fase de Reconhecimento de um SRAL. . . . . . . . . . . . . . . . . . . 8

    2.1 Anatomia do aparelho fonador. . . . . . . . . . . . . . . . . . . . . . . 15

    2.2 Modelo ac�ustico do aparelho fonador. . . . . . . . . . . . . . . . . . . . 16

    2.3 Forma de onda no tempo da palavra aplausos. . . . . . . . . . . . . . . 17

    2.4 Forma de onda da vogal n~ao nasalizada /a/ na palavra aplausos. . . . . 19

    2.5 Forma de onda do fonema /s/ na palavra aplausos. . . . . . . . . . . . 20

    2.6 Forma de onda do fonema /p/ na palavra aplausos. . . . . . . . . . . . 20

    2.7 Forma de onda do fonema /z/ na palavra aplausos. . . . . . . . . . . . 21

    2.8 Forma de onda do fonema /b/ na palavra bola. . . . . . . . . . . . . . 21

    2.9 Modelo discreto da produ�c~ao da fala. . . . . . . . . . . . . . . . . . . . 27

    3.1 Exemplos t��picos da AMDF: a) AMDF para um quadro do fricativo

    surdo /ch/; b) AMDF para um quadro sonoro /a/. . . . . . . . . . . . 34

    3.2 Con�gura�c~ao do detetor utilizado na decis~ao surdo-sonoro. . . . . . . . 35

    3.3 Diagrama de blocos do Detetor de Per��odo (Frequência) Fundamental. . 37

    3.4 Diagrama de blocos para o modelo simpli�cado de produ�c~ao de voz. . . 40

    3.5 Exemplo de um segmento de voz selecionado a partir da sequência s(n)

    por meio de uma janela retangular, j(n). . . . . . . . . . . . . . . . . . 42

    xvi

  • 4.1 Parti�c~ao do espa�co bi-dimensional (K = 2). . . . . . . . . . . . . . . . . 55

    4.2 Particionamento da linha real em 10 c�elulas ou intervalos para quanti-

    za�c~ao escalar (K = 1). . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

    4.3 Estrutura b�asica de um neurônio. . . . . . . . . . . . . . . . . . . . . . 58

    4.4 Rede de propaga�c~ao direta sem realimenta�c~ao. . . . . . . . . . . . . . . 60

    4.5 Rede de camadas com conex~oes laterais. . . . . . . . . . . . . . . . . . 61

    4.6 Rede interconectada. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

    4.7 Rede competitiva simples. . . . . . . . . . . . . . . . . . . . . . . . . . 62

    4.8 Uma vizinhan�ca quadrada N~wi� em torno do n�o que identi�ca o neurôniovencedor ~wi�. A vizinhan�ca �e de�nida em uma grade ou mapa bidimen-

    sional. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

    4.9 Uma vizinhan�ca esf�erica N~x em torno do vetor de treino ~x. A vizinhan�ca�e de�nida no espa�co sin�aptico. . . . . . . . . . . . . . . . . . . . . . . . 67

    4.10 HMM - \erg�odico" com 5 estados. . . . . . . . . . . . . . . . . . . . . . 71

    4.11 HMM - \esquerda-direita" com 5 estados. . . . . . . . . . . . . . . . . 72

    4.12 Ilustra�c~ao da sequência de opera�c~oes necess�arias �a computa�c~ao da va-

    ri�avel forward �t+1(j). . . . . . . . . . . . . . . . . . . . . . . . . . . . 80

    4.13 Implementa�c~ao da computa�c~ao de �t(i) em termos de uma treli�ca de

    observa�c~oes t e estados i. . . . . . . . . . . . . . . . . . . . . . . . . . . 81

    4.14 Ilustra�c~ao da sequência de opera�c~oes necess�arias �a computa�c~ao da va-

    ri�avel backward �t(i). . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82

    4.15 Algoritmo de Viterbi. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85

    5.1 Diagrama de blocos do sistema de identi�ca�c~ao autom�atica de locutor. 90

    5.2 Sinal de voz segmentado. . . . . . . . . . . . . . . . . . . . . . . . . . . 92

    6.1 Fase de treinamento do Sistema de Identi�ca�c~ao Autom�atica de locutor. 105

    6.2 Fase de identi�ca�c~ao do Sistema de Identi�ca�c~ao Autom�atica de locutor. 106

    6.3 Frequência Fundamental dos locutores femininos (LF1 a LF5) e mascu-

    linos (LM1 a LM5), para as cinco elocu�c~oes da palavra aplausos (E1 a

    E5). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110

    xvii

  • 6.4 Frequência Fundamental dos locutores femininos (LF1 a LF5) e mas-

    culinos (LM1 a LM5), para as cinco elocu�c~oes da palavra bola (E1 a

    E5). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111

    6.5 Frequência Fundamental dos locutores femininos (LF1 a LF4), para as

    45 elocu�c~oes de todas as senten�cas (E1 a E45). . . . . . . . . . . . . . . 112

    6.6 Frequência Fundamental dos locutores masculinos (LM1 a LM4), para

    as 45 elocu�c~oes de todas as senten�cas (E1 a E45). . . . . . . . . . . . . 113

    6.7 Frequência Fundamental dos locutores femininos (LF1 a LF20), para as

    20 elocu�c~oes da senten�ca: Quero usar a M�aquina (E1 a E20). . . . . . . 114

    6.8 Frequência Fundamental dos locutores masculinos (LM1 a LM20), para

    as 20 elocu�c~oes da senten�ca: Quero usar a M�aquina (E1 a E20). . . . . 114

    6.9 Descri�c~ao da modi�ca�c~ao introduzida no algoritmo de estima�c~ao da

    Frequência Fundamental. . . . . . . . . . . . . . . . . . . . . . . . . . . 115

    6.10 Frequência Fundamental dos locutores femininos (LF1 a LF20), para as

    20 elocu�c~oes da senten�ca: Quero usar a M�aquina (E1 a E20), algoritmo

    AMDF modi�cado (AMDF-2). . . . . . . . . . . . . . . . . . . . . . . . 117

    6.11 Frequência Fundamental dos locutores masculinos (LM1 a LM20), para

    as 20 elocu�c~oes da senten�ca: Quero usar a M�aquina (E1 a E20), algorit-

    mo AMDF modi�cado (AMDF-2). . . . . . . . . . . . . . . . . . . . . 117

    6.12 Frequência Fundamental m�edia dos locutores masculinos (LM1 a LM20),

    para as 20 elocu�c~oes da senten�ca: Quero usar a M�aquina (E1 a E20),

    algoritmo AMDF modi�cado (AMDF-2). . . . . . . . . . . . . . . . . . 119

    xviii

  • Lista de Abreviaturas

    SRAL - Sistema de Reconhecimento Autom�atico de Locutor

    HMM - Hidden Markov Model (Modelo de Markov Escondido)

    VQ - Vector Quantization (QV - Quantiza�c~ao Vetorial)

    DTW - Dynamic Time Warping (Alinhamento Dinâmico no Tempo)

    Eseg - Energia por segmento (segmental)

    TCZ - Taxa de Cruzamento por Zero

    NTP - N�umero Total de Picos

    DNP - Diferen�ca entre os Picos

    PPOS - N�umero de Picos Positivos

    PNEG - N�umero de Picos Negativos

    RAL - Reconhecimento Autom�atico de Locutor

    LBG - Algoritmo para projeto de dicion�arios conhecido como Linde-Buzo-Gray

    KMVVT - Algoritmo de Kohonen Modi�cado com Vizinhan�ca Centrada em Torno

    do Vetor de Treino

    AMDF - Average Magnitude Di�erence Function (Fun�c~ao da M�edia de Diferen�cas

    de Amplitudes)

    FFT - Fast Fourier Transform (Transformada R�apida de Fourier)

    LPC - Linear Prediction Coding

    CEP - Coe�cientes Cepestrais

    CEP-P - Coe�cientes Cepestrais Ponderados

    DCEP - Coe�cientes Delta Cepestrais

    xix

  • DCEP-P - Coe�cientes Delta Cepestrais Ponderados

    LFi - i-�esimo locutor feminino

    LMi - i-�esimo locutor masculino

    Ei - i-�esima elocu�c~ao

    F0 - Frequência Fundamental

    P0 - Per��odo de Pitch (Per��odo da Frequência Fundamental)

    s(n) - sinal de voz

    NA - tamanho do \quadro" de amostras do sinal

    �s(n) - m�edia do sinal s(n)

    sgn[s(n)] - n�umero de vezes que o sinal s(n) inverte a polaridade

    �1 - primeiro coe�ciente de correla�c~ao

    cs(n)s(n�1) - covariância entre s(n) e s(n� 1)�s(n) - desvio padr~ao de s(n)

    Rss(1) - primeiro coe�ciente de autocorrela�c~ao

    S(z) - transformada Z do sinal s(n)

    G(z) - transformada Z do modelo do pulso glotal g(n)

    As(n) e Af (n) - intensidade da excita�c~ao dos sinais de voz e de ru��do, respectiva-

    mente.

    V (z) - transformada Z do modelo do trato vocal v(n)

    R(z) - transformada Z do modelo da radia�c~ao r(n)

    H(z) - transformada Z da fun�c~ao de transferência h(n)

    U(z) - transformada Z do sinal de excita�c~ao u(n)

    T - per��odo de amostragem

    K - tamanho do vetor de caracter��sticas ac�usticas do sinal

    F1, F2 e F3 - três primeiras frequências formantes

    P - per��odo do sinal

    d(n) - diferen�ca entre amostras do sinal

    xx

  • Eseg1 e Eseg2 - energia de cada metade do \quadro" em an�alise

    E1, E2, E3 - limiares de energia

    suso0 - decis~ao surdo-sonoro inicial para o quadro em an�alise

    suso�1 - decis~ao surdo-sonoro do �ultimo quadro

    suso�2 - decis~ao surdo-sonoro do pen�ultimo quadro

    suso - decis~ao surdo-sonoro do quadro atual

    max = amplitude m�axima da AMDF

    min = amplitude m��nima da AMDF

    minp = posi�c~ao do m��nimo da AMDF

    ck - k-�esimo coe�ciente LPC (coe�ciente do �ltro)

    G - ganho do �ltro

    es(n) - estimativa de s(n)e(n) - erro de predi�c~ao

    vs(n) - sinal de voz selecionado e ponderado

    evs(n) - aproxima�c~ao de vs(n)Erro(n) - Erro quadr�atico

    Rr(k) - fun�c~ao de autocorrela�c~ao para curtos intervalos

    cei(n) - n-�esimo coe�ciente Cepestral no i-�esimo bloco de amostras

    Xi - i-�esimo bloco do espectro de potência do sinal

    jp(n) - janela de pondera�c~ao

    cpi(n) - n-�esimo coe�ciente Cepestral Ponderado no i-�esimo bloco de amostras

    �cei(n) - n-�esimo coe�ciente Delta Cepestral no i-�esimo bloco de amostras

    �cpi(n) - n-�esimo coe�ciente Delta Cepestral Ponderado no i-�esimo bloco de amos-

    tras.

    � - constante de normaliza�c~ao

    M - tamanho do dicion�ario

    ~x - vetor de entrada

    xxi

  • ~̂x - vetor de reprodu�c~ao

    W - alfabeto de reprodu�c~ao

    ~wi - vetores do alfabeto de reprodu�c~ao

    S - parti�c~ao do espa�co vetorial

    Ci - c�elulas do quantizador

    q(x) - quantizador de ~x

    jjDM jj - medida de distor�c~ao do quantizador vetoriald(~x; ~̂x) - distor�c~ao - erro m�edio quadr�atico

    Â0 - alfabeto de reprodu�c~ao inicial

    ~wi� - neurônio vencedor

    �(n) -taxa de aprendizagem na n-�esima itera�c~ao

    Oi - fun�c~ao que de�ne a vizinhan�ca em torno do neurônio vencedor�wij - modi�ca�c~ao introduzida na j-�esima componente (sinapse) do neurônio

    r(n) - raio de vizinhan�ca, medido na grade bidimensional

    dg(�) - distância medida na gradeqi - i-�esimo estado do HMM

    N - n�umero de estados do HMM

    A = [aij] - matriz transi�c~ao de estados do HMMB= [bj(k)] - matriz de fun�c~ao de probabilidade das observa�c~oes do HMM� = �i - vetor de probabilidade do estado inicial do HMM

    L - n�umero de locutores

    Ol - vetor de observa�c~oes do l-�esimo locutor

    �l - modelo do HMM referente ao l-�esimo locutor

    Pl - probabilidade associada ao l-�esimo locutor

    �t(i) - probabilidade de avan�co (forward probability)

    �t(i) - probabilidade de retrocesso (backward probability)

    �t(i) - maior valor de probabilidade ao longo de um �unico caminho

    xxii

  • q�t - sequência de estados �otima

    L(Z) - transformada Z do �ltro l(n)

    ap - fator de pr�e-ênfase

    sp(n) - sinal de voz ap�os a pr�e-ênfase

    J(n) - janela (Retangular, Hamming ou Hanning)

    s0(n) - sequência de voz �ltrada

    fs - frequência de amostragem

    esct - coe�ciente de escalonamento

    LI e LS - limites inferior e superior, respectivamente, da frequência fundamental

    F0F - frequência fundamental feminina

    F0M - frequência fundamental masculina

    LF e LM - locutor feminino e masculino, respectivamente

    C.V. - Coe�ciente de Varia�c~ao

    s - desvio padr~ao da amostra

    nA - tamanho da amostra

    EPm - erro padr~ao da m�edia

    1-� - n��vel de con�an�ca ou grau de con�an�ca

    � - m�edia populacional

    x - m�edia amostral

    � - desvio padr~ao populacional

    �2 - variância populacional

    xxiii

  • Cap��tulo 1

    Introdu�c~ao

    1.1 Comunica�c~ao Vocal Homem-M�aquina

    O ser humano sempre buscou meios de comunica�c~ao que facilitassem a intera�c~ao

    com a m�aquina. Em fun�c~ao disso e do crescente desenvolvimento tecnol�ogico de hard-

    ware para o processamento digital de sinais, o meio de comunica�c~ao mais adequado

    seria a fala humana. Tal meio de comunica�c~ao proporciona uma cômoda adapta�c~ao

    do usu�ario e a capacidade de transmitir uma grande quantidade de informa�c~oes com

    pouca intera�c~ao. Os m�etodos tradicionais de identi�ca�c~ao de pessoas requerem a apre-

    senta�c~ao de um objeto (chave, cart~ao, etc.) ou uma mensagem fornecida atrav�es de

    um teclado (senha, etc.). Muitos desses m�etodos s~ao impratic�aveis em sistemas de

    telecomunica�c~oes e apresentam a desvantagem de n~ao serem diretamente dependentes

    da pessoa, visto que as pessoas podem perder seu cart~ao ou esquecer sua senha.

    A voz �e o meio mais natural de comunica�c~ao do homem. Quando duas pessoas

    est~ao conversando, descobre-se com facilidade a idade, sexo e se a l��ngua que est�a

    sendo falada �e conhecida.

    A partir, unicamente da voz, �e poss��vel identi�car uma s�erie de caracter��sticas de

    uma pessoa, tais como, seu grupo s�ocio-cultural, seu estado emocional, seu estado de

    sa�ude, a regi~ao onde mora (atrav�es do sotaque) e uma grande quantidade de outras

    caracter��sticas.

    Torna-se claro, portanto, que a partir do sinal de voz �e poss��vel distinguir algumas

    caracter��sticas de cada pessoa. Partindo desse princ��pio, o homem procurou desenvolver

    equipamentos que permitissem, atrav�es da voz, a sua comunica�c~ao com as m�aquinas.

    1

  • Introdu�c~ao 2

    Com o desenvolvimento tecnol�ogico foi surgindo uma s�erie de equipamentos eletrô-

    nicos de uso dom�estico, com o objetivo de melhorar a qualidade de vida do homem

    moderno. Tais equipamentos, embora so�sticados, enfrentam ainda di�culdades quanto

    a sua utiliza�c~ao, devido �a forma arti�cial com que o usu�ario deve interagir com os

    mesmos. Assim, parece claro que o desenvolvimento de uma interface vocal, tornaria

    mais f�acil e produtiva a rela�c~ao Homem-M�aquina [1, 2, 3, 4].

    Os primeiros trabalhos descrevendo m�aquinas que podiam, de alguma forma, re-

    conhecer com certo sucesso a pron�uncia de determinadas palavras datam de 1952 [5].

    Uma grande quantidade de trabalhos sobre o assunto surgiu nos anos 60, gra�cas �as

    descobertas de algumas propriedades da voz atrav�es do uso de espect�ografos [6] e das

    novas facilidades que os computadores digitais vieram oferecer.

    Em seguida, veri�cou-se a necessidade de desenvolver m�aquinas capazes n~ao s�o de

    entender o que estava sendo dito, mas de responder ao que lhe era perguntado. Os

    esfor�cos iniciais para constru�c~ao de m�aquinas falantes datam do �nal do s�eculo XVIII,

    quando foram elaborados curiosos engenhos ac�usticos que produziam sons semelhantes

    �a voz e eram \tocados" �a maneira de um instrumento musical [2].

    Al�em da facilidade de comunica�c~ao, a voz oferece muitas outras vantagens na inte-

    ra�c~ao com as m�aquinas como, por exemplo, a velocidade: a maioria das pessoas pode

    falar facilmente a taxas de 200 palavras por minuto; por outro lado, poucas pessoas

    podem digitar, em um teclado, mais de 60 palavras por minuto [7].

    A entrada vocal �e bastante adequada para aplica�c~oes em que uma ou mais das se-

    guintes condi�c~oes se aplicam: as m~aos do usu�ario est~ao ocupadas; mobilidade �e exigida

    durante o processo de entrada de dados; os olhos do operador devem permanecer �xos

    sobre um display; um instrumento �optico ou algum objeto �e rastreado; �e incoveniente

    o uso de teclado em um ambiente, dentre outras. Por n~ao requererem nem as m~aos

    nem os olhos do usu�ario para sua opera�c~ao, os sistemas de entrada vocal podem ser

    utilizados em diversas aplica�c~oes, como por exemplo: controle de tr�afego a�ereo, aux��lio

    a de�cientes f��sicos, controle de qualidade e inspe�c~ao e controle de acesso a ambientes

    restritos [3].

    A identi�ca�c~ao da voz tem a conveniência da facilidade de cole�c~ao de dados.

    Outra vantagem dessa t�ecnica, quando comparada com outras t�ecnicas, por exemplo,

    o exame de fundo de olho, impress~oes digitais e assinaturas, se refere a sua facilidade

    de utiliza�c~ao em sistemas em que se exige o reconhecimento �a distância; por exemplo

    transa�c~oes banc�arias por telefone. Al�em disso, a voz n~ao pode ser perdida nem t~ao

  • Introdu�c~ao 3

    pouco esquecida, diferentemente dos outros m�etodos de identi�ca�c~ao, tais como cart~oes

    magn�eticos e senhas num�ericas [3].

    A comunica�c~ao vocal entre pessoas e m�aquinas inclui s��ntese de voz para texto, re-

    conhecimento autom�atico de voz (convers~ao voz-texto) e o reconhecimento de locutores

    a partir de suas vozes. Portanto, a comunica�c~ao vocal Homem-M�aquina se divide nas

    seguintes sub�areas principais [1]:

    1. Resposta Vocal;

    2. Reconhecimento de Fala;

    3. Reconhecimento de Locutor.

    A Figura 1.1 mostra uma descri�c~ao geral do processamento da voz, para a tarefa

    de reconhecimento, com ênfase ao reconhecimento de locutor (objeto de estudo deste

    trabalho) e a rela�c~ao entre as suas sub�areas [8].

    ���

    ���

    Processamento da Voz

    CodificaçãoReconhecimento

    Reconhecimentode fala da linguagem

    Identificação Reconhecimentode locutor

    Identificaçãode locutor de locutor

    Verificação

    não cooperativoscooperativos/Locutores

    Dependente/independentedo texto

    independenteDependente/

    do texto

    Locutorescooperativos/não cooperativos

    Síntese

    Figura 1.1: Descri�c~ao geral do processamento da voz.

  • Introdu�c~ao 4

    1.1.1 Sistemas de Resposta Vocal

    Sistemas de resposta vocal s~ao projetados para responder a um pedido de infor-

    ma�c~ao utilizando mensagens faladas. Assim, a comunica�c~ao de voz em sistemas de

    resposta vocal se faz em uma �unica dire�c~ao, isto �e, da m�aquina para o homem [1].

    Para gerar a sa��da ac�ustica para um vocabul�ario de v�arias centenas de palavras, �e

    geralmente su�ciente usar elementos de texto armazenados digitalmente, consistindo

    de frases, palavras, fonemas ou certos parâmetros chaves (codi�ca�c~ao param�etrica),

    que podem ser concatenados para formarem a sa��da desejada.

    Todos os m�etodos de codi�ca�c~ao de forma de onda conhecidos (PCM 1, PCM di-

    ferencial, PCM diferencial adaptativo, etc.) e m�etodos de an�alise-s��ntese (t�ecnicas de

    codi�ca�c~ao preditiva linear) podem ser usados para armazenar os elementos de tex-

    to. A escolha do m�etodo a ser utilizado �e uma fun�c~ao da qualidade da reprodu�c~ao

    das mensagens e da capacidade de armazenamento exigidos pelo sistema. A qualida-

    de da voz depende, essencialmente, do m�etodo de codi�ca�c~ao utilizado. Os valores

    dos parâmetros derivados dessa representa�c~ao s~ao, ent~ao, usados para controlar um

    sintetizador de voz que modela a produ�c~ao da voz humana.

    Alguns problemas que ainda devem ser solucionados quanto �a s��ntese de voz incluem,

    entona�c~ao incorreta de frases e pron�uncia errônea de palavras mais complexas, ou de

    combina�c~oes de palavras [9].

    1.1.2 Sistemas de Reconhecimento de Fala

    Nos sistemas de reconhecimento de fala a comunica�c~ao vocal �e feita do homem para

    a m�aquina. O reconhecimento de fala, pode ser subdividido em um grande n�umero de

    sub�areas dependendo de alguns fatores, tais como, tamanho do vocabul�ario, popula�c~ao

    de locutores, etc [1].

    A tarefa b�asica no reconhecimento de fala �e reconhecer uma determinada elocu�c~ao

    de uma senten�ca ou \entender" um texto falado (ou seja, responder de forma correta

    ao que est�a sendo falado) [1]. O conceito de entendimento, ao inv�es de reconhecimento,

    �e de grande importância para sistemas que tratam com entrada de voz cont��nua com

    grande vocabul�ario, enquanto que o conceito de reconhecimento exato �e de maior im-

    portância para sistemas de palavras isoladas, vocabul�ario limitado e pequeno n�umero

    1Modula�c~ao por Codi�ca�c~ao de Pulsos

  • Introdu�c~ao 5

    de usu�arios [1, 10].

    A tecnologia de reconhecimento de fala ainda n~ao permite o entendimento au-

    tom�atico de voz uente, de qualquer locutor, usando a mesma linguagem. Os proble-

    mas de reconhecimento de fala por m�aquinas est~ao relacionados �a estrutura complexa

    da voz humana, que depende de fatores tais como: caracter��sticas vocais, entona�c~ao,

    velocidade da fala, estado emocional do usu�ario, etc.

    De uma forma geral, os sistemas de reconhecimento autom�atico de fala podem ser

    considerados como pertencentes a uma das seguintes categorias [1]:

    � Sistemas de Reconhecimento de Palavras Isoladas;

    � Sistemas de Reconhecimento de Palavras Conectadas;

    � Sistemas de Reconhecimento Dependente do Locutor;

    � Sistemas de Reconhecimento Independente do Locutor.

    Os sistemas de reconhecimento de palavras isoladas podem ser de�nidos como aque-

    les sistemas que exigem uma pausa curta antes e depois das senten�cas que devem ser

    reconhecidas [11].

    O modo de entrada de palavras conectadas pode ser conveniente para o usu�ario por-

    que se assemelha �a maneira mais natural de se falar, contudo esse tipo de comunica�c~ao

    tem algumas limita�c~oes em vista do presente est�agio da tecnologia de reconhecimento

    de fala [1].

    Os sistemas dependentes do locutor s~ao caracterizados por serem treinados para

    obedecerem �as caracter��sticas espec���cas da voz dos seus usu�arios [1].

    Os sistemas de reconhecimento independente do locutor, ou sistemas \insens��veis"

    ao locutor, podem ser de�nidos como aqueles que n~ao est~ao presos �as caracter��sticas

    espec���cas da voz do usu�ario [1].

    1.1.3 Sistemas de Reconhecimento de Locutor

    O objetivo de um sistema de reconhecimento de locutor �e reconhecer um locutor a

    partir da sua voz, sendo bastante �util em aplica�c~oes de seguran�ca, como por exemplo o

    controle de acesso a ambientes restritos (utiliza�c~ao da voz para abrir e fechar portas) e

  • Introdu�c~ao 6

    o controle de acesso de dados em computadores. Em criminal��stica, pode ser utilizado

    com o mesmo prop�osito que hoje �e dado �as impress~oes digitais [1]. Nesse contexto,

    os Sistemas de Reconhecimento Autom�atico de Locutor (SRALs) constituem uma das

    principais �areas da comunica�c~ao vocal homem-m�aquina [1].

    Nos sistemas de reconhecimento de locutor, da mesma forma que nos sistemas de

    reconhecimento de fala, a comunica�c~ao vocal �e feita do homem para a m�aquina.

    O processo de reconhecimento da identidade vocal de locutores consiste na extra�c~ao

    de parâmetros da voz, de um dado locutor, de forma a de�nir um modelo que preserve

    as suas caracter��sticas vocais que o diferenciam de outros indiv��duos.

    Duas classes de aplica�c~oes s~ao desenvolvidas baseadas em sistemas de reconheci-

    mento de locutor: identi�ca�c~ao de locutor e veri�ca�c~ao de locutor. Aplica�c~oes para

    identi�ca�c~ao de locutor buscam responder a seguinte quest~ao: \Quem �e você ?", en-

    quanto que aplica�c~oes para veri�ca�c~ao de locutor buscam responder: \Você �e mesmo

    quem alega ser ?" [8, 12, 13].

    A identi�ca�c~ao de locutor �e um processo de determina�c~ao da identidade de um

    locutor dentre v�arios locutores, pela compara�c~ao do sinal de voz deste locutor (sinal

    de entrada) com os demais, escolhendo o que proporcionar o melhor \casamento" com

    o sinal de voz de entrada [1, 14].

    A veri�ca�c~ao de locutor tem por objetivo determinar, automaticamente, se a iden-

    tidade de um pretenso locutor �e verdadeira ou n~ao [1, 15].

    A Figura 1.2 mostra a representa�c~ao geral de um problema de reconhecimento de

    locutor [16].

    &COMPARAÇÃO

    PADRÕES DE

    REFERÊNCIA

    PROCESSAMENTO

    DO SINALde VozSinal

    & - RECONHECIMENTO

    REGRA DE

    DECISÃO

    Figura 1.2: Modelo gen�erico para um sistema de reconhecimento de locutor.

    O reconhecimento de locutor �e uma tarefa de reconhecimento de padr~oes. Em

  • Introdu�c~ao 7

    essência requer um mapeamento entre identi�ca�c~ao de voz e locutor, tal que cada

    poss��vel forma de onda de entrada �e identi�cada com seu locutor correspondente.

    Para a implementa�c~ao de um sistema de reconhecimento de locutor deve-se obter,

    para cada locutor, um conjunto de parâmetros representativos da sua voz. Os parâme-

    tros obtidos ir~ao compor um modelo (ou padr~ao) representativo do locutor. Nesse siste-

    ma o locutor ser�a aceito ou rejeitado, a partir da compara�c~ao dos seus parâmetros (pa-

    dr~ao) de teste com os parâmetros j�a armazenados (padr~oes de referência), utilizando-se

    uma regra de decis~ao.

    Dado um sinal de voz de entrada, o objetivo do reconhecimento de locutor �e iden-

    ti�car a pessoa mais prov�avel de ser o locutor (dentre uma popula�c~ao conhecida) -

    Identi�ca�c~ao de Locutor, ou veri�car se o locutor �e quem ele alega ser - Veri�-

    ca�c~ao de Locutor [1]. Portanto, esses sistemas desempenham as seguintes fun�c~oes:

    1. Veri�ca�c~ao de locutor - Compara�c~ao com um �unico padr~ao pr�e-estabelecido.

    2. Identi�ca�c~ao de locutor - Compara�c~ao com todos os padr~oes pr�e-estabelecidos.

    Na veri�ca�c~ao de locutor, uma identidade �e alegada pelo usu�ario e a decis~ao reque-

    rida pelo sistema �e estritamente bin�aria, isto �e, consiste simplesmente em aceitar ou

    rejeitar a identidade alegada.

    A literatura aborda, com diferentes termos, a veri�ca�c~ao de locutor, incluindo de-

    nomina�c~oes tais como: veri�ca�c~ao da voz, autentica�c~ao do locutor, autentica�c~ao da voz

    e veri�ca�c~ao do locutor [8].

    O problema da identi�ca�c~ao de locutor difere signi�cativamente do problema da

    veri�ca�c~ao de locutor, uma vez que, nesse caso, o sistema �e requisitado a fazer uma

    identi�ca�c~ao entre todos locutores. Assim, em vez de uma �unica compara�c~ao entre um

    conjunto de medidas e um padr~ao de referência armazenado, torna-se necess�ario um

    n�umero de compara�c~oes igual ao n�umero de locutores. Este tipo de reconhecimento

    pode ocorrer de duas formas: conjunto-aberto (o locutor pode n~ao estar entre a popu-

    la�c~ao) e conjunto-fechado (sabe-se a priori que o locutor �e um membro da popula�c~ao).

    Descri�c~oes gerais de sistemas para o reconhecimento de locutor têm sido mostradas

    em [3, 8, 13, 17, 18, 19].

    Todas as tarefas de reconhecimento de padr~oes, inclusive o reconhecimento de lo-

    cutor, utilizam duas fases: treinamento (Figura 1.3) e reconhecimento (Figura 1.4).

  • Introdu�c~ao 8

    Na fase de treinamento �e estabelecido um dicion�ario de padr~oes de referência de voz,

    aos quais s~ao atribu��dos r�otulos que identi�cam o locutor. Na fase de reconhecimento

    s~ao obtidos padr~oes de teste que s~ao comparados com todos os padr~oes de referência

    e ent~ao, utilizando-se uma regra de decis~ao, �e identi�cado aquele mais semelhante ao

    padr~ao de entrada desconhecido.

    DE TREINAMENTO

    DEFINE E ARMAZENA

    PARÂMETROS PADRÕES DE REFERÊNCIA

    EXTRA ÇÃO DE

    SENTENÇA

    Figura 1.3: Fase de Treinamento de um SRAL.

    &

    DE TESTE

    CALCULA

    DE TESTE

    EXTRAÇÃO DE

    PARÂMETROSPADRÃO

    PADRÃO DE

    REFERÊNCIA

    COMPARAÇÃO

    & - RECONHECIMENTO

    SENTENÇA

    Figura 1.4: Fase de Reconhecimento de um SRAL.

    O reconhecimento de locutor tamb�em pode ser dependente ou independente do

    texto. SRAL dependente do texto requer que o locutor pronuncie uma frase ou uma

    dada senha pr�e-determinada e o sistema independente do texto n~ao requer a exigência

    do caso anterior. Na �area da criminal��tica, por exemplo, �e de maior interesse o uso de

    SRAL independente do texto, uma vez que na maioria das aplica�c~oes os locutores a

    serem identi�cados s~ao n~ao cooperativos. Em outras situa�c~oes se torna mais adequado

    uso do SRAL dependente do texto, a exemplo das aplica�c~oes que envolvem acesso a

    ambientes restritos, neste caso os locutores s~ao cooperativos.

    Alguns fatores externos podem contribuir para erros em um sistema de reconheci-

    mento autom�atico de locutor. A Tabela 1.1 apresenta alguns dos fatores humanos e de

    ambiente que contribuem para esses erros. Esses fatores geralmente s~ao externos aos

    algoritmos ou s~ao melhor corrigidos por meios que n~ao envolvam necessariamente os

  • Introdu�c~ao 9

    algoritmos (e.g., o uso de microfones de melhor qualidade). Esses fatores s~ao impor-

    tantes e, em alguns casos, n~ao importa o qu~ao bom o algoritmo para reconhecimento

    de locutor possa ser, o erro humano (e.g., o erro de leitura e �as vezes de elocu�c~ao) pode

    limitar o seu desempenho [8].

    Tabela 1.1: Fontes externas de erro para um SRAL.

    Erro de elocu�c~ao ou de leitura das frases pr�e-de�nidas

    Estado emocional

    Varia�c~ao da posi�c~ao do microfone (intra ou inter-sess~oes)

    Ambiente ac�ustico pobre ou inconsistente (e.g., ru��do)

    Erro de \casamento" do canal (e.g., microfones diferentes para treinamento e teste)

    Problemas de sa�ude (e.g., resfriado que pode alterar as caracter��sticas do trato vocal)

    Idade (e.g., a forma do trato vocal pode ser alterada com a idade)

    Portanto, para o projeto de um SRAL e�ciente, deve-se minimizar, o m�aximo

    poss��vel, os erros externos ao sistema e, em seguida, utilizar t�ecnicas que possam re-

    presentar, com e�ciência, as caracter��sticas vocais que diferenciam os locutores.

    1.2 Motiva�c~ao

    A comunica�c~ao oral �e, sem d�uvida alguma, a forma mais natural de comunica�c~ao

    humana. Em virtude da intera�c~ao homem-m�aquina se tornar cada vez mais comum,

    surge uma demanda natural por sistemas capazes de reconhecer o que est�a sendo di-

    to, bem como quem est�a falando [20]. O interesse nessa �area se deve ao n�umero de

    aplica�c~oes, bem como �a existência de v�arias quest~oes te�oricas que ainda n~ao foram

    respondidas [21].

    Sistemas autom�aticos de veri�ca�c~ao e identi�ca�c~ao de locutor s~ao provavelmente os

    m�etodos mais econômicos e naturais para solucionar os problemas de uso autorizado de

    computadores e sistemas de comunica�c~ao e controle de acesso. Com a disponibilidade

    das linhas telefônicas e microfones acoplados aos computadores, o custo de um sistema

    de reconhecimento de locutor est�a relacionado, basicamente, ao projeto do software.

    Sistemas biom�etricos reconhecem a pessoa pelo uso de tra�cos (fei�c~oes) distintos. A

    voz, assim como outras caracter��sticas biom�etricas, n~ao pode ser esquecida ou perdida,

  • Introdu�c~ao 10

    diferentemente dos m�etodos de controle de acesso baseados em objetos (cart~oes, chaves,

    etc.) ou mensagens fornecidas atrav�es do teclado (senha, etc.). Al�em disso, os sistemas

    de reconhecimento de locutor, atrav�es da fala, podem ser projetados de tal forma que

    se tornem robustos, mesmo diante de ru��do e varia�c~oes do canal [19, 22], de altera�c~oes

    humanas (e.g., resfriados) e de ambientes de grava�c~ao [8].

    Com o objetivo de obter-se sistemas de reconhecimento autom�atico de locutor

    e�cientes, diversas t�ecnicas têm sido utilizadas, dentre as quais destacam-se: Mo-

    delos de Markov Escondidos (HMMs - Hidden Markov Models) [23, 24, 25, 26], Re-

    des Neurais Arti�ciais [27, 28, 29], Quantiza�c~ao Vetorial (VQ - Vector Quantization)

    [30, 31, 32, 33, 34], An�alise por Predi�c~ao Linear [35, 36] e Alinhamento Dinâmico no

    Tempo (DTW - Dynamic Time Warping) [16].

    Apesar do sucesso obtido com a maioria dessas t�ecnicas, o uso de Modelos de Mar-

    kov Escondidos se torna cada vez mais popular em sistemas de reconhecimento de

    voz e locutor devido a algumas vantagens. Em primeiro lugar, os HMMs s~ao muito

    ricos em estrutura matem�atica e, consequentemente, podem formar uma base te�orica

    muito forte para uso em um grande grupo de aplica�c~oes (e.g., modelagem do sinal de

    voz), tendo a capacidade de solucionar problemas mais dif��ceis como, por exemplo, o

    reconhecimento de locutor em sistemas independentes do texto. Segundo, quando apli-

    cados apropriadamente, trabalham muito bem para v�arias aplica�c~oes pr�aticas. Al�em

    disso, apresentam uma redu�c~ao do custo computacional, na fase de reconhecimento,

    em compara�c~ao com outros m�etodos (e.g., DTW) [23, 37, 38, 39].

    Entretanto, mesmo diante do sucesso alcan�cado com HMM, torna-se interessante

    investigar a utiliza�c~ao conjunta dessas t�ecnicas, de forma a possibilitar o projeto de um

    sistema autom�atico de reconhecimento da identidade vocal, para a l��ngua portuguesa,

    capaz de modelar e�cientemente as caracter��sticas vocais dos locutores, apresentando

    pequenas varia�c~oes intralocutor e grandes varia�c~oes interlocutor.

    1.3 Objetivos do Trabalho

    Tradicionalmente, os paradigmas para reconhecimento de padr~oes s~ao divididos

    em três componentes: extra�c~ao e sele�c~ao de caracter��sticas; escolha dos padr~oes e

    classi�ca�c~ao. Embora essa divis~ao seja conveniente para o projeto do sistema, esses

    componentes n~ao s~ao independentes. Uma escolha inadequada de algum poder�a com-

    prometer, bastante, o desempenho do sistema [8]. O que n~ao poderia ser diferente para

  • Introdu�c~ao 11

    o reconhecimento de locutores.

    Dentro desse contexto, o trabalho, aqui apresentado, trata do desenvolvimento de

    um sistema h��brido, que utiliza m�etodos param�etrico e estat��stico, para o reconhecimen-

    to (identi�ca�c~ao) autom�atico da identidade vocal de locutores, em um grupo fechado

    (dependente do texto), para a l��ngua portuguesa, que apresente, a partir da t�ecnica

    utilizada, desempenho elevado.

    Com o objetivo de tornar a tarefa de reconhecimento mais e�ciente e r�apida, o

    sistema �e composto de dois est�agios: pr�e-identi�ca�c~ao e identi�ca�c~ao.

    No est�agio de pr�e-identi�ca�c~ao os locutores s~ao separados em dois grupos gerais de

    acordo com o sexo (homens e mulheres), utilizando a frequência fundamental. A de-

    te�c~ao do Per��odo Fundamental (per��odo da frequência fundamental), ou a estima�c~ao da

    frequência fundamental de vibra�c~ao das cordas vocais, torna mais r�apida, portanto, a

    fase �nal da identi�ca�c~ao, pois os locutores s�o ser~ao analisados dentro dos seus respec-

    tivos subgrupos (masculino ou feminino). Tal procedimento poder�a diminuir as taxas

    de erro do sistema (quando o locutor feminino �e considerado masculino e vice-versa).

    O segundo est�agio, a identi�ca�c~ao propriamente dita, �e subdividido em duas etapas

    da seguinte forma:

    Primeira etapa: a regra de decis~ao baseia-se em uma medida de distor�c~ao, obtida a

    partir da compara�c~ao do vetor de teste (vetor de parâmetros ac�usticos) com o conjunto

    de padr~oes de referência (vetores-c�odigo do dicion�ario). A constru�c~ao dos padr~oes

    ac�usticos representativos dos locutores (padr~oes de referência), um padr~ao para cada

    locutor, �e levada a efeito a partir da Quantiza�c~ao Vetorial (QV) Param�etrica. Os

    parâmetros s~ao obtidos atrav�es da an�alise por predi�c~ao linear, sendo realizada uma

    an�alise comparativa do desempenho de diversos tipos de coe�cientes obtidos a partir

    dessa an�alise (coe�cientes LPC, Cepestrais, Cepestrais Ponderados, Delta Cepestrais e

    Delta Cepestrais Ponderados), de forma a determinar qual(is) o(s) tipo(s) de coe�ciente

    que melhor representa(m) as caracter��sticas vocais dos locutores. Na constru�c~ao dos

    padr~oes ac�usticos, dicion�arios do QV, s~ao avaliados três m�etodos: o primeiro utiliza

    o algoritmo LBG [40], o segundo o algoritmo KMVVT (Kohonen Modi�cado com

    Vizinhan�ca Centrada em Torno do Vetor de Treino) e o terceiro m�etodo utiliza o

    algoritmo SSC (Competitivo no Espa�co Sin�aptico), os dois �ultimos propostos por Vilar

    Fran�ca et al [41, 42, 43]. O algoritmo SSC se mostrou mais adequado para o projeto

    do dicion�arios, sendo portanto o escolhido.

  • Introdu�c~ao 12

    Segunda etapa: a regra de decis~ao baseia-se em uma medida de probabilidade, obtida

    a partir da compra�c~ao do vetor de teste com o novo conjunto de padr~oes de referência.

    Estes padr~oes representativos dos locutores s~ao obtidos a partir da Modelagem por

    Modelos de Markov Escondidos (HMMs) de Densidades Discretas (os parâmetros re-

    presentativos dos locutores s~ao transformados, a partir da QV, em um conjunto de

    observa�c~oes discretas), um HMM associado a cada locutor do sistema.

    Na tarefa de reconhecimento (identi�ca�c~ao), s~ao utilizadas, portanto, duas medidas

    para discrimina�c~ao de locutores: a medida de distor�c~ao obtida a partir da quanti-

    za�c~ao vetorial, seguida da probabilidade obtida do HMM. Esta �ultima �e utilizada como

    parâmetro de \re�namento" do processo, sendo aplicada quando a medida de distor�c~ao

    indicar \similaridade" entre as caracter��sticas vocais dos locutores.

    1.4 Organiza�c~ao do Trabalho

    Esta descri�c~ao do trabalho desenvolvido foi estruturada em sete cap��tulos. O pre-

    sente cap��tulo tem por objetivo permitir ao leitor uma vis~ao mais ampla da comunica�c~ao

    vocal homem-m�aquina, ao mesmo tempo que procura focalizar sua aten�c~ao no objeto

    de estudo deste trabalho. Al�em disso, esta se�c~ao apresenta uma breve visualiza�c~ao dos

    demais cap��tulos deste documento, mostrando nos par�agrafos a seguir uma descri�c~ao

    r�apida desses cap��tulos.

    No Cap��tulo 2 �e descrito o mecanismo de produ�c~ao da voz e o seu modelo corres-

    pondente, o qual possibilitar�a a obten�c~ao dos parâmetros necess�arios �a representa�c~ao

    dos sinais de voz, visando a realiza�c~ao da tarefa de reconhecimento (identi�ca�c~ao)

    autom�atico da identidade vocal de locutores.

    No Cap��tulo 3 �e realizada a descri�c~ao das t�ecnicas analisadas para extra�c~ao das

    caracter��sticas vocais representativas dos locutores.

    No Cap��tulo 4 s~ao apresentadas as t�ecnicas a serem utilizadas no processo de reco-

    nhecimento (identi�ca�c~ao) de locutor, especi�cando os elementos necess�arios �a mode-

    lagem dos sinais de voz de cada locutor, para sua posterior identi�ca�c~ao.

    O Cap��tulo 5 faz a descri�c~ao do sistema de reconhecimento (identi�ca�c~ao) au-

    tom�atico da identidade vocal de locutores.

    No Cap��tulo 6 �e realizada a apresenta�c~ao e an�alise dos resultados obtidos. Por

  • Introdu�c~ao 13

    �m, os resultados, as conclus~oes e sugest~oes para trabalhos futuros s~ao comentados no

    Cap��tulo 7.

    O Anexo A apresenta resultados complementares aos apresentados no Cap��tulo 5.

    No Anexo B �e realizada uma descri�c~ao geral da interface projetada para o sistema

    de reconhecimento (identi�ca�c~ao) autom�atico da identidade vocal de locutores.

  • Cap��tulo 2

    O Mecanismo de Produ�c~ao da Voz

    2.1 Introdu�c~ao

    Os sinais de voz s~ao compostos de uma sequência de sons que servem como uma

    representa�c~ao simb�olica da mensagem produzida pelo locutor para o ouvinte. A com-

    posi�c~ao desses sons �e governada pelas regras de linguagem. O estudo cient���co da

    linguagem e a forma como essas regras s~ao usadas na comunica�c~ao humana �e deno-

    minada lingu��stica. A ciência que estuda as caracter��sticas da produ�c~ao do som pelo

    homem, especialmente para a descri�c~ao, classi�ca�c~ao e transcri�c~ao da voz, �e denomi-

    nada fon�etica [1].

    A voz �e um sinal produzido como resultado de v�arias transforma�c~oes que ocorrem

    em diferentes n��veis: semântico, lingu��stico, articulat�orio e ac�ustico. As diferen�cas

    nessas transforma�c~oes aparecem como diferen�cas nas propriedades ac�usticas do sinal

    de voz. Diferen�cas relacionadas com os locutores s~ao um resultado da combina�c~ao das

    diferen�cas anatômicas inerentes ao trato vocal (caracter��sticas inerentes) e daquelas

    relacionadas ao movimento dinâmico do trato vocal, ou seja, a forma como a pessoa

    fala (caracter��sticas instru��das). Em reconhecimento de locutor, todas essas diferen�cas

    podem ser usadas para discriminar os locutores entre si [8].

    Para gerar o som desejado, o locutor exerce uma s�erie de controles sobre o apa-

    relho fonador, representado na Figura 2.1, produzindo a con�gura�c~ao articulat�oria e

    a excita�c~ao apropriadas. A Figura 2.1 evidencia as caracter��sticas importantes do

    sistema vocal humano. O trato vocal, nome gen�erico dado ao conjunto de cavidades e

    estruturas que participam diretamente da produ�c~ao sonora, come�ca na abertura entre

    14

  • O Mecanismo de Produ�c~ao da Voz 15

    as cordas vocais, ou glote e termina nos l�abios. O trato vocal assim, consiste da faringe

    (a conex~ao entre o esôfago e a boca) e termina na boca ou cavidade oral. O trato nasal

    come�ca na �uvula e termina nas narinas. Quando a �uvula �e abaixada, o trato nasal �e

    acusticamente acoplado ao trato vocal para produzir os sons nasais da voz. Veri�ca-se

    que a forma do trato nasal, n~ao pode ser modi�cada voluntariamente pelo locutor.

    Ap�os a �ltragem, determinada pela conforma�c~ao do aparelho fonador, o uxo de ar

    injetado pelos pulm~oes �e acoplado ao ambiente externo atrav�es dos orif��cios dos l�abios

    e/ou narinas [1].

    Figura 2.1: Anatomia do aparelho fonador.

    Na Figura 2.2 �e apresentado um modelo mecânico para a produ�c~ao de voz. Nesse

    modelo os tratos oral e nasal s~ao representados por tubos acusticamente acoplados.

    O diagrama completo inclui o sistema subglotal composto dos pulm~oes, brônquios

    e traqu�eia. O sistema subglotal funciona como uma fonte de energia para produ�c~ao da

    voz. A voz �e a onda ac�ustica radiada do sistema quando o ar �e expelido dos pulm~oes [1].

    O trato vocal e o trato nasal podem ser vistos como tubos de se�c~ao transversal n~ao

    uniforme. O som se propaga atrav�es desses tubos e o espectro de frequência �e modelado

    pela seletividade de frequência do tubo. Esse efeito �e muito similar aos efeitos de

    ressonância observados em instrumentos de sopro. No contexto da produ�c~ao da voz,

    as frequências de ressonância do tubo do trato vocal s~ao chamadas de frequências

    formantes ou simplesmente formantes. As frequências formantes dependem sobretudo

    da forma e dimens~oes do trato vocal. Cada forma �e caracterizada por um conjunto de

    frequências formantes. Sons diferentes s~ao formados em fun�c~ao das varia�c~oes da forma

  • O Mecanismo de Produ�c~ao da Voz 16

    narinas

    cavidades nasais

    faringe

    boca

    cordasvocaislábios

    úvula

    pulmão

    Figura 2.2: Modelo ac�ustico do aparelho fonador.

    assumida pelo trato vocal. Assim, as propriedades espectrais do sinal de voz variam

    com o tempo e com a forma do trato vocal [44].

    Se o ouvinte decodi�car de forma correta a sequência de sons emitida, a cadeia de

    comunica�c~ao se completar�a fechando o ciclo, que compreende desde a concep�c~ao da

    id�eia at�e sua completa assimila�c~ao pelo interlocutor.

    Em virtude das limita�c~oes dos org~aos humanos de produ�c~ao de voz e o sistema

    auditivo, a comunica�c~ao humana t��pica est�a limitada na faixa de 7-8 kHz [1].

    Diante do exposto, faz-se necess�ario realizar an�alises ac�usticas, compreender as

    formas de excita�c~ao do aparelho fonador, bem como avaliar os parâmetros temporais

    do sinal de voz, de forma a tornar poss��vel a obten�c~ao de um modelo para a produ�c~ao

    da voz, o qual �e fundamental para a implementa�c~ao de um sistema de reconhecimento

    autom�atico da identidade vocal de locutores.

    2.2 An�alises Ac�usticas Elementares

    As caracter��sticas espectrais do sinal de voz s~ao variantes no tempo (ou n~ao esta-

    cion�arias), visto que o sistema f��sico varia com o tempo. Como resultado, o sinal de voz

    pode ser dividido em segmentos que possuem propriedades ac�usticas semelhantes para

    curtos intervalos de tempo. Inicialmente, os sinais de voz s~ao, tipicamente, particiona-

    dos dentro de duas categorias b�asicas: (1) vogais que quase n~ao apresentam restri�c~ao

  • O Mecanismo de Produ�c~ao da Voz 17

    �a passagem do ar atrav�es do trato vocal e (2) consoantes que apresentam uma maior

    restri�c~ao �a passagem do ar e s~ao, em geral, mais \fracas" em amplitude e podem ser

    semelhantes a uma fonte de ru��do. Algumas das diferen�cas entre vogais e consoantes

    s~ao evidentes visualizando a forma de onda no tempo da palavra aplausos pronunciada

    por um locutor masculino (Figura 2.3).

    Figura 2.3: Forma de onda no tempo da palavra aplausos.

    Para a engenharia el�etrica �e interessante observar as formas de onda, para veri�car

    o que estas podem revelar sobre os aspectos ac�usticos e psicol�ogicos da voz. A Figu-

    ra 2.3 apresenta as caracter��sticas b�asicas do sinal de voz tais como: periodicidade,

    intensidade, dura�c~ao, etc. Uma das mais importantes caracter��sticas da voz, bastante

    evidente na Figura 2.3, �e que a voz n~ao �e constitu��da por sons discretos bem de�nidos.

    As varia�c~oes evidentes na forma de onda da voz s~ao uma consequência direta dos

    movimentos do sistema articulat�orio da voz, o qual raramente permanece �xo por um

    consider�avel per��odo de tempo [1].

    Para o prop�osito da comunica�c~ao humana, �e de interesse observar o sinal ac�ustico

    produzido pelo locutor, com o objetivo de determinar os paralelos entre a comunica�c~ao

    humana e a eletrônica [1].

  • O Mecanismo de Produ�c~ao da Voz 18

    2.3 Formas de Excita�c~ao: Classi�ca�c~ao dos Sons da

    Voz

    A Figura 2.3 ilustra a forma de onda t��pica de um sinal de voz, que �e cont��nua

    no tempo e em amplitude. Um aspecto muito importante a ser observado �e que o

    sinal apresenta trechos que se repetem quase periodicamente e trechos basicamente

    aleat�orios, sem nenhuma periodicidade. Assim, os sons da voz podem ser classi�cados

    em 3 classes distintas de acordo com o modo de excita�c~ao. As classes s~ao as seguintes [1]:

    sons sonoros, sons surdos e sons explosivos.

    2.3.1 Sons Sonoros

    O uxo de ar vindo dos pulm~oes �e controlado pela abertura e fechamento das cordas

    vocais, ou dobras vocais, que s~ao ligamentos semelhantes a dois l�abios que podem ser

    tensionados e(ou) aproximados sob o controle do locutor. A abertura entre as dobras

    �e denominada glote. Estando a glote completamente fechada, o uxo de ar vindo dos

    pulm~oes �e interrompido e a press~ao subgl�otica aumenta at�e que as dobras vocais sejam

    separadas, liberando o ar pressionado, gerando um pulso de ar de curta dura�c~ao. Com

    o escoamento do ar, a press~ao gl�otica �e reduzida, possibilitando uma nova aproxima�c~ao

    das cordas vocais. O processo se repete de forma quase peri�odica. Dessa forma, s~ao

    obtidas ondas de press~ao, quase peri�odicas, excitando o trato vocal, que atuando como

    um ressonador modi�ca o sinal de excita�c~ao, produzindo frequências de ressonância,

    denominadas de formantes, que caracterizar~ao os diferentes sons sonoros [1, 45].

    Quanto mais r�apida a repeti�c~ao, mais alta a frequência e mais aguda �e a voz, como

    nas vozes femininas e infantis; quanto mais lentamente essas repeti�c~oes se reproduzem,

    mais grave �e a voz, como no caso das vozes masculinas [45].

    As vogais, cujo grau de nasaliza�c~ao �e determinado pelo abaixamento da �uvula,

    s~ao exemplos t��picos de sons sonoros. A Figura 2.4 mostra a forma de onda para a

    vogal /a/, na palavra aplausos. Algumas consoantes, como /l/ e /m/, tamb�em s~ao

    produzidas com a excita�c~ao glotal.

    A frequência m�edia dos pulsos �e denominada frequência fundamental de excita�c~ao,

    F0 e o per��odo fundamental (ou per��odo de pitch), P0, �e dado por

    P0 =1

    F0(2.1)

  • O Mecanismo de Produ�c~ao da Voz 19

    Figura 2.4: Forma de onda da vogal n~ao nasalizada /a/ na palavra aplausos.

    Em processamento de voz os termos pitch e frequência fundamental s~ao utilizados

    como sinônimos, embora o conceito de pitch seja mais abrangente. A rigor o pitch de

    um determinado est��mulo sonoro (n~ao necessariamente um sinal de voz), corresponde

    �a frequência, em Hz, de um tom senoidal que est�a \a�nado" com o est��mulo, segundo a

    percep�c~ao auditiva de um determinado indiv��duo. Como, na percep�c~ao de voz, o pitch

    dos sons sonoros geralmente corresponde ao valor da frequência fundamental, para as

    pessoas com audi�c~ao normal, os dois termos passaram a ser empregados indistintamen-

    te [2].

    A frequência fundamental dos sons sonoros �ca entre 80-120 Hz (para homens) e

    350 Hz (para crian�cas), sendo 240 Hz um valor t��pico para mulheres [46].

    2.3.2 Sons Surdos

    Os sons surdos s~ao gerados pela produ�c~ao de uma constri�c~ao em algum ponto

    do trato vocal (usualmente pr�oximo ao �nal da boca), assim o ar adquire velocidade

    su�cientemente alta para produzir turbulência gerando um ru��do de espectro largo

    (semelhante ao ru��do branco) para excitar o trato vocal.

    Na produ�c~ao desses sons a glote permanece aberta, n~ao havendo vibra�c~ao das cordas

    vocais. Por exemplo, na produ�c~ao do fonema /s/ em aplausos (Figura 2.5), l�abios e

    dentes s~ao ligeiramente pressionados, deixando assim uma passagem estreita para o ar,

    produzindo um uxo de ar turbulento nas imedia�c~oes da constri�c~ao, o qual excita as

  • O Mecanismo de Produ�c~ao da Voz 20

    cavidades do trato vocal. O som produzido dessa forma tem caracter��sticas ruidosas

    com concentra�c~ao relativa de energia nas mais altas componentes de frequência do

    espectro de sinais de voz [1, 2].

    Figura 2.5: Forma de onda do fonema /s/ na palavra aplausos.

    2.3.3 Sons Explosivos

    Na gera�c~ao dos sons explosivos, o ar �e totalmente dirigido �a boca, estando esta com-

    pletamente fechada. Com o aumento da press~ao, a oclus~ao �e rompida bruscamente,

    gerando um pulso que excita o aparelho fonador. Com a excita�c~ao ocorre um movi-

    mento r�apido dos articuladores em dire�c~ao �a con�gura�c~ao do pr�oximo som. Exemplos

    de sons explosivos s~ao os fonemas /p/, /t/, /k/, dentre outros [1, 2]. A Figura 2.6

    mostra a forma de onda do explosivo /p/, em aplausos.

    Figura 2.6: Forma de onda do fonema /p/ na palavra aplausos.

  • O Mecanismo de Produ�c~ao da Voz 21

    2.3.4 Sons com excita�c~ao mista

    Os sons fricativos sonoros, como /j/, /v/ e /z/, s~ao produzidos combinando-se vi-

    bra�c~ao das cordas vocais e excita�c~ao turbulenta. Nos per��odos em que a press~ao gl�otica

    atinge um m�aximo, o escoamento atrav�es da obstru�c~ao torna-se turbulento, gerando o

    car�ater fricativo do som; quando a press~ao gl�otica cai abaixo de um dado valor, termina

    o escoamento turbulento do ar e as ondas de press~ao apresentam comportamento mais

    suave [1, 2]. A Figura 2.7 mostra o fonema fricativo sonoro /z/ em aplausos.

    Figura 2.7: Forma de onda do fonema /z/ na palavra aplausos.

    Os sons oclusivos (ou explosivos) sonoros, como /d/ e /b/, s~ao produzidos de forma

    semelhante aos correspondentes n~ao sonoros, /p/ e /t/, por�em h�a vibra�c~ao das cordas

    vocais durante a fase de fechamento da cavidade oral. A Figura 2.8 mostra a forma de

    onda do fonema explosivo sonoro /b/ em bola.

    Figura 2.8: Forma de onda do fonema /b/ na palavra bola.

  • O Mecanismo de Produ�c~ao da Voz 22

    2.4 Parâmetros Temporais do Sinal de Voz

    O gr�a�co amplitude-versus-tempo de um sinal permite a avalia�c~ao de muitas ca-

    racter��sticas importantes que permitem uma completa descri�c~ao do mesmo. A partir

    do uso de parâmetros temporais torna-se poss��vel identi�car os sons b�asicos da fala.

    Dentre esses parâmetros destacam-se: a Energia do Sinal, a Taxa de Cruzamento por

    Zero, o Coe�ciente de Correla�c~ao Normalizado, o N�umero Total de Picos, dentre outros.

    A partir da Figura 2.3 �e poss��vel perceber uma combina�c~ao de caracter��sticas ine-

    rentes ao processo de produ�c~ao da fala. Em alguns intervalos, o sinal apresenta n��veis

    elevados de energia al�em de uma certa periodicidade e, em outros, tem a aparência de

    um sinal aleat�orio com n��veis de amplitude bastante reduzidos.

    Os parâmetros temporais extra��dos do sinal de voz neste trabalho s~ao: Energia do

    Sinal, Coe�ciente de Correla�c~ao Normalizado, Taxa de Cruzamento por Zero, N�umero

    Total de Picos e a Diferen�ca entre os Picos [1].

    A energia e a taxa de cruzamento por zero s~ao parâmetros tradicionais na an�alise

    de voz. Os outros parâmetros: n�umero total de picos (e a diferen�ca entre os picos) da

    forma de onda e o coe�ciente de correla�c~ao s~ao propostos para auxiliar a dete�c~ao de

    categorias de sons como fricativos surdos e fricativos sonoros, por exemplo [1].

    Uma caracter��stica importante dos sinais de voz �e que suas propriedades estat��sticas

    podem ser consideradas invariantes no tempo, para curtos intervalos, at�e 32 ms, sendo

    um valor t��pico, 16 ms. Assim sendo, para se obter os parâmetros temporais do sinal �e

    necess�ario particion�a-lo em segmentos (ou blocos de amostras), visando trabalhar com

    o sinal dentro dos seus limites de estacionariedade [1, 20, 27, 47].

    2.4.1 Energia por segmento

    A energia por segmento (segmental), Eseg, �e de�nida por

    Eseg = NA � Ef[s(n)� �s(n)]2g: (2.2)

    Para sinais erg�odicos 1 e estacion�arios no sentido amplo 2, com m�edia nula, como a

    1Para um processo estoc�astico erg�odico, as suas m�edias estat��sticas s~ao iguais as suas m�edias

    temporais.2Um processo estoc�astico estacion�ario no sentido amplo possui uma m�edia constante e uma fun�c~ao

    de autocorrela�c~ao que depende apenas da diferen�ca entre os intervalos de medi�c~ao.

  • O Mecanismo de Produ�c~ao da Voz 23

    voz, Eseg �e de�nida por [1, 2]:

    Eseg = NA � Ef[s(n)]2g =NA�1Xn=0

    [s(n)]2 e (2.3)

    Eseg(dB) = 10:log[Eseg]; (2.4)

    em que s(n) �e o sinal de voz, �s(n) a m�edia de s(n) e NA o tamanho da janela (bloco de

    amostras do sinal) em an�alise. A energia �e obtida, portanto, simplesmente, somando-se

    os quadrados das amplitudes das NA amostras do sinal contido na janela em an�alise,

    devendo reetir as varia�c~oes de amplitude do sinal de voz entre intervalos ou janelas.

    A amplitude do sinal de voz varia consideravelmente com o tempo. Considerando-se

    que a amplitude dos segmentos surdos �e muito menor que a dos segmentos sonoros, a

    utiliza�c~ao do parâmetro energia tem importância fundamental na diferencia�c~ao entre

    os sons surdos e sonoros.

    Frequentemente, a energia �e maior nos sons surdos do que nos intervalos de silêncio

    mas, em alguns casos, essa a�rma�c~ao n~ao �e totalmente correta. Quando o segmento

    em an�alise representa um som fricativo, sua energia pode estar muito pr�oxima do n��vel

    de energia do ru��do, �unico sinal existente nos intervalos de silêncio, o que pode causar

    erros de interpreta�c~ao do sinal desejado. Neste caso, outros parâmetros temporais s~ao

    utilizados para auxiliar numa tomada de decis~ao correta.

    A energia do sinal de voz est�a concentrada na regi~ao de frequências mais baixas

    do espectro, que compreende a faixa de 500 a 800 Hz. No entanto, mesmo contendo

    baixos valores de energia, as componentes de frequências mais altas s~ao importantes

    pois determinam, em grande parte, a inteligilibilidad