14
1 Aplicações de Aplicações de Processamento de Processamento de Voz Voz Prof. Marcio Eisencraft Prof. Marcio Eisencraft

1 Aplicações de Processamento de Voz Prof. Marcio Eisencraft

Embed Size (px)

Citation preview

Page 1: 1 Aplicações de Processamento de Voz Prof. Marcio Eisencraft

1

Aplicações de Aplicações de Processamento de Processamento de

VozVozProf. Marcio EisencraftProf. Marcio Eisencraft

Page 2: 1 Aplicações de Processamento de Voz Prof. Marcio Eisencraft

2 Universidade Presbiteriana Mackenzie

SumárioSumário

1.1. IntroduçãoIntrodução

2.2. Modelagem básicaModelagem básica

3.3. Aplicações: Aplicações: 1.1. Geração de fonemasGeração de fonemas

2.2. Reconhecimento de fonemasReconhecimento de fonemas

3.3. Voz sintéticaVoz sintética

4.4. CodificaçãoCodificação

4.4. Trabalhos presentes e futurosTrabalhos presentes e futuros

Page 3: 1 Aplicações de Processamento de Voz Prof. Marcio Eisencraft

3 Universidade Presbiteriana Mackenzie

1. Introdução1. Introdução Processamento de vozProcessamento de voz é um dos mais é um dos mais

importantes instrumentos da era digital.importantes instrumentos da era digital. Exemplos de aplicação: Exemplos de aplicação:

discagem automáticadiscagem automática atendimento automáticoatendimento automático auxílio de pessoas deficientesauxílio de pessoas deficientes SegurançaSegurança

Uma das grandes áreas de pesquisa Uma das grandes áreas de pesquisa dentro da Engeharia de dentro da Engeharia de TelecomunicaçõesTelecomunicações

Page 4: 1 Aplicações de Processamento de Voz Prof. Marcio Eisencraft

4 Universidade Presbiteriana Mackenzie

2. Modelagem básica 2. Modelagem básica (1/2)(1/2)

O trato vocalO trato vocal

Page 5: 1 Aplicações de Processamento de Voz Prof. Marcio Eisencraft

5 Universidade Presbiteriana Mackenzie

2. Modelagem básica 2. Modelagem básica (2/2)(2/2)

Page 6: 1 Aplicações de Processamento de Voz Prof. Marcio Eisencraft

6 Universidade Presbiteriana Mackenzie

3. Aplicações3. Aplicações

1.1. Geração de fonemasGeração de fonemas

2.2. Reconhecimento de fonemasReconhecimento de fonemas

3.3. Voz sintéticaVoz sintética

4.4. Codificação e compactaçãoCodificação e compactação

Page 7: 1 Aplicações de Processamento de Voz Prof. Marcio Eisencraft

7 Universidade Presbiteriana Mackenzie

3.1 Geração de fonemas3.1 Geração de fonemas Trato vocal modelado como filtros Trato vocal modelado como filtros

digitais com atrasos e ganhos.digitais com atrasos e ganhos.

Page 8: 1 Aplicações de Processamento de Voz Prof. Marcio Eisencraft

8 Universidade Presbiteriana Mackenzie

3.2 Reconhecimento de 3.2 Reconhecimento de fonemas (1/2)fonemas (1/2)

Page 9: 1 Aplicações de Processamento de Voz Prof. Marcio Eisencraft

9 Universidade Presbiteriana Mackenzie

3.2 Reconhecimento de 3.2 Reconhecimento de fonemas (2/2)fonemas (2/2) Formantes e relação entre elas são tabeladas e Formantes e relação entre elas são tabeladas e

usadas para identificar vogais e sexo do falante.usadas para identificar vogais e sexo do falante.

0 1 2 3 4 5 6 7 8 9-1

-0.5

0

0.5

1

Tempo (s)

Ampli

tude

Forma de Onda - vogal A

0 500 1000 1500 2000 2500 3000 3500 4000-100

-50

0

Freq

Ampli

tude

Densidade Espectral

NornalYule-Walker

0 1 2 3 4 5 6-0.3

-0.2

-0.1

0

0.1

0.2

Tempo (s)

Ampli

tude

Forma de Onda - vogal U

0 500 1000 1500 2000 2500 3000 3500 4000

-100

-80

-60

-40

-20

Freq

Ampli

tude

Densidade Espectral

NornalYule-Walker

Page 10: 1 Aplicações de Processamento de Voz Prof. Marcio Eisencraft

10 Universidade Presbiteriana Mackenzie

3.3 Voz sintética3.3 Voz sintética Tendo um banco de dados com os Tendo um banco de dados com os

coeficientes para cada fonema, é possível coeficientes para cada fonema, é possível gerar voz sintética.gerar voz sintética.

Problema: sons são vocálicos ou fricativos.Problema: sons são vocálicos ou fricativos.0.5 1 1.5 2 2.5 3 3.5 4 4.5

x 104

-0.5

0

0.5

1

ori

gin

al

0.5 1 1.5 2 2.5 3 3.5 4 4.5

x 104

-0.5

0

0.5

1

imp

uls

os

0.5 1 1.5 2 2.5 3 3.5 4 4.5

x 104

-1

0

1

ruid

o

Page 11: 1 Aplicações de Processamento de Voz Prof. Marcio Eisencraft

11 Universidade Presbiteriana Mackenzie

3.4 Codificação – 3.4 Codificação – CompactaçãoCompactação

Coeficientes de predição – Coeficientes de predição – LPCLPC Transmite-se apenas o erro de Transmite-se apenas o erro de

predição ao invés do próprio sinalpredição ao invés do próprio sinal São necessários menos bits para a São necessários menos bits para a

codificaçãocodificação Usado, por exemplo, em sistemas de Usado, por exemplo, em sistemas de

telefonia digital – economia de até telefonia digital – economia de até 50% na taxa de transmissão.50% na taxa de transmissão.

0 0.5 1 1.5 2 2.5 3 3.5 4 4.5

x 104

-1

0

1

ori

gin

al

0 0.5 1 1.5 2 2.5 3 3.5 4 4.5

x 104

-1

0

1

Pre

dic

ao

0 0.5 1 1.5 2 2.5 3 3.5 4 4.5

x 104

-1

0

1

Err

o d

e p

red

icao

0 0.5 1 1.5 2 2.5 3 3.5 4 4.5

x 104

-1

0

1

Reco

nstr

uid

o

Page 12: 1 Aplicações de Processamento de Voz Prof. Marcio Eisencraft

12 Universidade Presbiteriana Mackenzie

4. Alguns trabalhos atuais e 4. Alguns trabalhos atuais e futurosfuturos

Eliminação de ruído em voz Eliminação de ruído em voz (videoconferência) (videoconferência)

Sincronismo automatizado entre Sincronismo automatizado entre articulação e fala para animaçõesarticulação e fala para animações

Reconhecimento de voz em ambientes Reconhecimento de voz em ambientes barulhentosbarulhentos

Novas técnicas de compactação baseadas Novas técnicas de compactação baseadas em percepção auditiva (em percepção auditiva (waveletswavelets))

Page 13: 1 Aplicações de Processamento de Voz Prof. Marcio Eisencraft

13 Universidade Presbiteriana Mackenzie

Algumas ReferênciasAlgumas Referências PICKETT, J. M. PICKETT, J. M. Acoustics Of Speech Communication: Acoustics Of Speech Communication:

Fundamentals, Speech Perception Theory, And Fundamentals, Speech Perception Theory, And TechnologyTechnology. 2. ed. New Jersey: Prentice Hall. 1999. 404 p. 2. ed. New Jersey: Prentice Hall. 1999. 404 p

RABINER, L.R.; SCHAFER, R. W. RABINER, L.R.; SCHAFER, R. W. Digital Processing of Digital Processing of Speech SignalsSpeech Signals. 7. ed., Prentice Hall. 1978. . 7. ed., Prentice Hall. 1978.

STONICK, V. L. STONICK, V. L. Labs for signals and systems: using Labs for signals and systems: using MATLABMATLAB. . PWS, c1996. PWS, c1996.

BURRUS, C. S. et al. BURRUS, C. S. et al. Computer-based exercises for signal Computer-based exercises for signal processing using Matlab 5processing using Matlab 5. Prentice-Hall, c1998. . Prentice-Hall, c1998.

BEHLAU, M. S.; et al. Análise Espectrográfica de BEHLAU, M. S.; et al. Análise Espectrográfica de Formantes das vogais do português brasileiro. Formantes das vogais do português brasileiro. Revista Revista ACTA AWHOACTA AWHO, Volume VII, n. 2, p. 74-85, 1988., Volume VII, n. 2, p. 74-85, 1988.

MONTEIRO, M. C. MONTEIRO, M. C. Uma análise espectrográfica das Uma análise espectrográfica das formantes das vogais orais do português brasileiro falado formantes das vogais orais do português brasileiro falado em São Pauloem São Paulo. 1995. 74f. Monografia (Especialização)-. 1995. 74f. Monografia (Especialização)-Escola Paulista de Medicina, São Paulo, São Paulo, 1995.Escola Paulista de Medicina, São Paulo, São Paulo, 1995.

Page 14: 1 Aplicações de Processamento de Voz Prof. Marcio Eisencraft

14 Universidade Presbiteriana Mackenzie

FIMFIM

Contato: Contato: [email protected]@mackenzie.br

meusite.mackenzie.br/mmeusite.mackenzie.br/marcioftarcioft