40
CELP Artur Benneman Rafael Henrique de Moraes Feron Renan dos Santos Fagundes

Artur Benneman Rafael Henrique de Moraes Feron Renan dos Santos Fagundes

Embed Size (px)

Citation preview

  • Slide 1
  • Artur Benneman Rafael Henrique de Moraes Feron Renan dos Santos Fagundes
  • Slide 2
  • Motivao Comunicaes de voz permanecer o meio predominante de comunicao humana. Proporciona a transmisso de sinais de fala com boa qualidade atravs de canais de comunicao com banda estreita. O sistema CELP o ncleo da maioria dos sistema celular, e sistemas de comunicao de banda estreita(VoIP).
  • Slide 3
  • SINAIS DA FALA Fala produzido por um sinal de excitao gerada em nossa garganta, o que modificado por ressonncias produzidas por diferentes formatos de nosso trato vocal, nasal e da faringe.
  • Slide 4
  • Vogais e Consoantes Este sinal de excitao pode ser a vibrao glotal produzido pela abertura e fechamento peridico cordas vocais o que cria voz sonora, como as vogais ou apenas o fluxo continuo de ar empurrado por nossos pulmes, que cria a fala no articulada, tais como o consoantes, ou mesmo uma combinao de ambos ao mesmo tempo
  • Slide 5
  • Anatomia da voz As trs estruturas mais importantes so os pulmes as cordas vocais e a laringe. A fonte de energia para a gerao de sons provida pelo diafragma e msculos abdominais que pressionam os pulmes e geram um fluxo de ar controlado que passa pelas cordas vocais. O mecanismo de produo da voz apresenta uma resposta limitada em freqncia, com limite por volta de 10kHz. 95% da energia do sinal de voz esta concentrada na faixa de freqncia entre 300 e 3400 Hz, pode se limitar o canal a esta banda com uma perda tolervel em qualidade.
  • Slide 6
  • Anatomia do voz Quando o ar vibrante entra na glote h uma mudana na resistncia do ar (ao abrir ou fechar a continuidade da traquia) e isso faz o processo de modulao da voz.
  • Slide 7
  • Anatomia da voz O som produzido quando a glote, que uma abertura nas cordas vocais, vibra abrindo e fechando. O fluxo de ar interrompido e assim se cria uma seqncia de impulsos que possuem algumas freqncias bsicas chamadas de tom (pitch). Nos homens estas freqncias esto entre 80 e 160Hz e nas mulheres entre 180 e 320Hz.
  • Slide 8
  • Vogais e consoantes Exemplos de sons do tipo VOICED so as 5 vogais, das quais notam-se claras diferenas no pitch e na formant do sinal ao comparar o som da vogal A com o som da vogal I dispostas nas figuras abaixo:
  • Slide 9
  • Vogais e consoantes
  • Slide 10
  • Vogais e Consoantes J os sons do tipo UNVOICED, so bem caracterizados atravs do exemplo do fonema S, que consta abaixo. Sons deste tipo so descritos atravs de AWGN Aditive White Gaussian Noise, e possui amplitude praticamente constante em todo espectro.
  • Slide 11
  • Pitch e formantes O componente peridica da excitao glotal caracterizado pela sua freqncia fundamental F0 [Hz], chamado pitch. As freqncias de ressonncia o trato vocal, oral e da faringe so chamados formantes. No espectro de um quadro de fala, o pitch aparece como picos estreitos na fundamental e harmnicas Formantes aparecem como picos largos do envelope do espectro
  • Slide 12
  • Pitch e formantes
  • Slide 13
  • Codecs existentes Comparao rudimentar de alguns dos esquemas de codec existens na atualidade em termos de qualidade de voz e bitrate.
  • Slide 14
  • Evoluo dos algoritmos
  • Slide 15
  • Linear Predictive Code Anlise de predio linear de sinais de voz o ncleo da maioria dos sistemas de codificao parametricos de voz (Celulares, VoIP, e etc). Um modelo simples de sntese da voz que tem sido usado em processamento de fala para vrias aplicaes de codificao.
  • Slide 16
  • Modelo do aparelho fonador Este modelo do sistema inspirado no mecanismo humano de produo da fala. Voz sonora produzida pela exitao do filtro do trato vocal com pulsos quasi-peridica do glote. A periodicidade da voz sonora devido vibrao cordas vocais. Fala no articulada (no vozeada) produzido forando o ar atravs de uma constrio no trato vocal.
  • Slide 17
  • Linear Predictive Coding O trato vocal geralmente representado por filtro digital de dcima ordem do tipo somente plos, como mostrado no modelo LPC da fala. A fala produzida pela excitao do filtro do trato vocal, com pulsos quasi-periodicos pulsos da glote E a fala no articulada gerada usando o estmulo rudo aleatrio ou pseudo-branco. Os coeficientes do filtro e os parmetros de excitao so geralmente determinadas a cada 20 ms ou menos.
  • Slide 18
  • Codificador LPC
  • Slide 19
  • Decodificador LPC
  • Slide 20
  • Comparao entre real e LPC
  • Slide 21
  • LINEAR PREDICTIVE CODING O filtro digital para aplicaes do linear predictive coding caracterizado pela seguinte equao de diferenas. Os parmetros de a i so os coeficientes do filtro e controlam as caractersticas de freqncia de resposta do filtro. Estes so determinados pela analise LPC.
  • Slide 22
  • Analise LPC
  • Slide 23
  • Derivao do algoritimo LPC O objetivo do LPC minimizar a informao contida no sinal de exitao. Os parametros de predio a i so desconhecidos e so determinadas pela minimizao Erro quadratico medio (MSE) do sinal de exitao (e(n)).
  • Slide 24
  • O sinal de excitao (e(n)) pode ser gerado apartir de um sinal de voz (s(n)) atraves da convoluo com o filtro LPC inverso, o qual um filtro FIR, com coeficientes a i (a determinar) Derivao do algoritimo LPC
  • Slide 25
  • Isto feito tomando a deriva do sinal de energia da exitao a cada uma dos coeficientes, e igualando a zero.
  • Slide 26
  • Derivao do algoritimo LPC Isto gera uma Matriz Toepliz, que pode ser resolvida usando o algoritmo recursivo Levinson-Durbin.
  • Slide 27
  • Fittro de sintese A predio dos parmetros a(i) tambm so usados para formar o filtro digital somente plos para sntese de voz. Os coeficientes do LPC so computados resolvendo o a matriz de autorrelao, gerando o filtro:
  • Slide 28
  • Estruturas de Filtros All-Pole Filtro all-pole, forma direta. Filtro lattice Tem a vantagem de ter maior imunidade a quantizao
  • Slide 29
  • Estimao do ganho O valor do ganho a ser aplicado no sinal de exitao escolhido determinado pelo valor RMS do sinal de exitao ideal. O qual obtido na analise LPC, sendo o primeiro coeficiente d matrix de autocorrelao
  • Slide 30
  • Seleo de sinal vozeado no vozeado Apartir do sinal de autocorrelao do sinal (excluindo o valor R(0)) definido um limiar de deciso. Usualmente 0,3 do valor normalizado do vetor.
  • Slide 31
  • Estimao periodo do Pitch A fala possui uma falsa periodicidade, oque dificulta a estimativa do pitch Pode ser determinado apartir do sinal de autocorrelao do sinal, procurando os valores de pico e repties do sinal (na faixa de 20 a 160). Como visto nas figuras abaixo.
  • Slide 32
  • Estimativa do pitch - Sinal no vozeado
  • Slide 33
  • Estimativa do pitch - Sinal vozeado
  • Slide 34
  • Code Excited Linear Prediction Explora melhor a idia de codificao anlise-por- sntese da fala, utilizando o conceito de quantizao vetorial (VQ) para a seqncia de excitao. O codificador seleciona uma sequncia de excitao de um codebook de seqncias pr-definidas estocsticas.
  • Slide 35
  • CELP CELP, adicionalmente, aproveita a periodicidade de sons vozeados e melhorar a eficincia do preditor. O filtro do preditor de termo longo cascateado com o filtro de sntese, o que melhora a eficincia do codebook O mais simples preditor de longo prazo consiste de um filtro de um nico polo, o qual representa um simples atraso com ganho ajustvel O mtodo de escolha dos vetores do Codebook a analise por sntese
  • Slide 36
  • CELP : Analise por sintese O sistema varre cada um dos possveis candidatos a sinal de excitao oriundos do gerador de excitao Identifica o sinal que minimiza o erro entre o correspondente sinal sintetizado e o sinal de fala da entrada O Decoder correspondente simplesmente o gerador de excitao e o filtro de sintetizao.
  • Slide 37
  • CELP : Com filtro LTP Esta estrutura adiciona o filtro de predio longa (LTP), o qual utilizado para aproveitar o fato de que o sinal de exitao tem uma alta autocorrelao na frequencia do pitch.
  • Slide 38
  • CELP : Estrutura Original A estrutura do codificador CELP original tem como filtro LTP um filtro de um plo apenas. Essa adio aproveita o fato de que o sinal de exitao apresenta uma alta autocorelao na frequencia do pitch. Porem esse modelo computacionalmente ineficiente.
  • Slide 39
  • CELP : Codebook Adaptativo Cada vetor do Codebook adaptativo representa diferentes valores de pitch. Assim a busca pelos os parmetros do filtro de predio longa so simplificados a busca de um vetor no codebook adaptativo.
  • Slide 40
  • CELP : Estrutura final Retirar o efeito do frame anterior deixado nas condies iniciais do filtro de sintese. Encontrar o vetor do codebook Adaptativo que minimiza o Erro quadratico do sinal sintetizado.E retirar o efeito desta exitao Encontrar o vetor do codebook Fixo que minimiza o Erro quadratico do sinal sintetizado.