Sistema de decisão automático para conversão de áudio em texto na geração de legenda oculta

Preview:

DESCRIPTION

Apresentação realizada na defesa da dissertação do Mestrado Integrado Profissional em Computação Aplicada (MPCOMP) da UFRJ/UECE, Rio de Janeiro, 2015.

Citation preview

  • SISTEMA DE DECISO AUTOMTICO PARA CONVERSO DE UDIO EM TEXTO

    NA GERAO DE LEGENDA OCULTA

    Luiz Fausto

  • Agenda

    Introduo Legenda Oculta Reconhecimento Autom;co de Voz (RAV) Gerao de Legenda Oculta com RAV no mundo Avaliao de Desempenho Concluso e Trabalhos Futuros

  • INTRODUO

  • Tema Desenvolvimento de um sistema de RAV para gerao de closed cap*on a par;r de so,ware livre e de bases de dados disponveis publicamente

    Obje>vo Treinar e avaliar um sistema de RAV na gerao de closed cap*on para programas de televiso ao vivo com fala espontnea em Portugus do Brasil u;lizando relocuo

  • LEGENDA OCULTA (CLOSED CAPTION)

  • Decientes audi;vos: quase 10 milhes

    Acessibilidade

  • Norma Complementar N 001/2006

    Uso obrigatrio de Legenda Oculta (Closed Cap*on) pelas emissoras,

    conforme cronograma estabelecido:

    Junho / 2011 08 horas / dia Junho / 2012 12 horas / dia Abril / 2014 16 horas / dia Abril / 2015 20 horas / dia

    Junho / 2017 24 horas / dia

    Legislao NBR 15290:2005

    Diretrizes para a legenda oculta Acertos:

    no sistema CC ao vivo, o texto das legendas deve ter no mnimo 98% de acerto

    Sincronia: no sistema CC ao vivo pode ser tolerado um atraso mximo de quatro segundos

  • Esteno>pia

    Digitao em tempo real u;lizando smbolos fon;cos em teclado especial (esten;po)

    Os smbolos so conver;dos em palavras de acordo com um dicionrio

    Mo-de-obra escassa e cara, treinamento demorado

    Erros: digitao, palavras fora do dicionrio

  • RECONHECIMENTO AUTOMTICO DE VOZ (RAV)

  • Relocuo Sistema adaptado a uma voz, sem precisar considerar a variabilidade fon;ca entre pessoas

    Melhor relao sinal/rudo

    Correo da disuncia oral

    Custo operacional mais baixo que esteno;pia

  • IBM ViaVoice Sistema no o>mizado para a

    aplicao na gerao de legenda oculta

    Produto descon>nuado h quase 10 anos, sem subs;tuto comercial para o Portugus do Brasil

    Ausncia de suporte corre;vo e evolu;vo

    Potenciais problemas para manter o sistema funcionando a longo prazo

    A quan>dade de licenas existentes limitada

  • Soaware Livre

    CMUSphinx

    F a l a B r a s i l

    iATROS

    SRILM

  • Funcionamento

  • Dicionrio abafa a b a f a abafada a b a f a d a abafadas a b a f a d a s abafado a b a f a d u abafados a b a f a d u s abafamento a b a f a m ee t u abafando a b a f aa d u abafar a b a f a xm abafou a b a f o w

  • Processamento Digital de Sinais

    MFCC

    DCT

    Log

    Banco de Filtros (Escala Mel)

    Espectro de Potncia

    Janelamento

    Pr-nfase

    Reamostragem

    Sinal de Entrada

  • Modelo Acs>co

  • Modelo de Linguagem -1.9060 a informao consta -3.6396 a informao constava -2.7161 a informao contida -3.6396 a informao contradiz -3.6396 a informao contraria -3.6396 a informao contm -2.3215 a informao correta -1.7412 a informao da -1.9408 a informao dada -2.7161 a informao das -0.7528 a informao de -3.0395 a informao desde -3.0395 a informao desejada -3.0395 a informao deve

  • Decodicao

  • GERAO DE LEGENDA OCULTA COM RAV NO

    MUNDO

  • AVALIAO DE DESEMPENHO

  • Material da Avaliao

    CMUSphinx

    FalaBrasil

  • Programas (50% das sentenas u;lizadas para treinamento; 50% u;lizadas para teste)

    Blocos Durao Palavras

    BOM DIA BRASIL 5 52m50s 7.903

    BEM ESTAR 2 38m55s 6.333

    DOMINGO DO FAUSTO 4 01h45m02s 14.686

    TOTAL 11 03h16m47s 28.922

  • Material de Treinamento - Corpora de Texto

    Sentenas Palavras Vocabulrio

    Globo.com (ViaVoice) 100.954 1.707.869 53.633

    Globo.com + FalaBrasil

    (CMUSphinx - Uso Geral)

    1.593.389 24.746.658 210.446

    BOM DIA BRASIL 82 4.011 1.333

    BEM ESTAR 76 3.056 939

    DOMINGO DO FAUSTO 341 7.690 1.569

  • Material de Treinamento - Corpora de Voz Corpus Reduzido

    Corpus Intermedirio

    Corpus Maior Sentenas Palavras Vocabulrio Durao Vozes Ambiente

    Voz Masculina - Cons>tuio1.0 (FalaBrasil)

    * * * 1.238 68.575 5.305 08h50m12s 1 Controlado

    Vozes Masculinas - LapsBenchMark1.4

    (FalaBrasil) * * 500 5.166 2.102 38m10s 25 No controlado

    Vozes Masculinas - VoxForge * * 1.828 9.173 584 01h51m24s 78

    No controlado

    Vozes Femininas - LapsBenchMark1.4

    (FalaBrasil) * 200 2.062 1.064 15m51s 10 No controlado

    Vozes Femininas - VoxForge * 180 855 351 09m30s 6

    No controlado

  • Material de Adaptao de Locutor

    Sentenas Palavras Vocabulrio Durao

    IBM ViaVoice 1.027 6.622 1.953 53m50s

    Relocuo 499 14.757 2.889 98m23s

  • Resultados

    Taxa de palavras fora do dicionrio* Perplexidade

    Dicionrio de uso geral

    Dicionrio especco do programa

    Modelo de linguagem de uso geral

    Modelo de linguagem

    especco do programa

    BOM DIA BRASIL 0,57% 0,47% 266,22 246,74

    BEM ESTAR 1,34% 1,27% 666,42 589,79

    DOMINGO DO FAUSTO 2,30% 1,37% 773,50 536,94

    * Dicionrios com as 65.535 palavras mais frequentes do corpus

  • Resultados Relocuo Esteno>pia IBM Via Voice CMU Sphinx c/ Corpus Reduzido

    CMU Sphinx c/ Corpus

    Intermedirio

    CMU Sphinx c/ Corpus Maior

    SUBTOTAL BOM DIA BRASIL

    Acertos: 99,11% 84,90% 83,91% 81,02% 82,44% 81,82%

    Erros: Subs>tuies:

    1,10% 0,48%

    17,97% 6,96%

    20,93% 12,82%

    21,57% 14,09%

    20,43% 13,23%

    20,56% 13,34%

    Omisses: 0,40% 8,14% 4,53% 4,89% 4,33% 4,84% Inseres: 0,22% 2,87% 3,58% 2,59% 2,87% 2,38%

    Acurcia: 98,90% 82,03% 79,07% 78,43% 79,57% 79,44%

    SUBTOTAL BEM ESTAR

    Acertos: 95,42% 66,95% 71,49% 68,90% 69,93% 71,20%

    Erros: Subs>tuies:

    5,01% 3,32%

    36,52% 13,33%

    32,18% 22,60%

    33,46% 22,93%

    33,30% 22,43%

    32,03% 22,46%

    Omisses: 1,26% 19,72% 5,91% 8,17% 7,64% 6,34% Inseres: 0,43% 3,47% 3,67% 2,36% 3,23% 3,23%

    Acurcia: 94,99% 63,48% 67,82% 66,54% 66,70% 67,97%

    SUBTOTAL DOMINGO DO

    FAUSTO

    Acertos: 94,69% 60,83% 64,87% 68,88% 70,75% 70,75%

    Erros: Subs>tuies:

    7,20% 3,14%

    40,29% 9,02%

    38,36% 27,36%

    33,81% 22,83%

    32,03% 20,99%

    31,94% 21,33%

    Omisses: 2,17% 30,15% 7,77% 8,29% 8,26% 7,92% Inseres: 1,89% 1,12% 3,23% 2,69% 2,78% 2,69%

    Acurcia: 92,80% 59,71% 61,64% 66,19% 67,97% 68,06%

    TOTAL GERAL

    Acertos: 96,06% 68,75% 71,52% 72,23% 73,78% 73,90%

    Erros: Subs>tuies:

    5,05% 2,45%

    33,37% 9,40%

    32,24% 22,34%

    30,36% 20,44%

    29,13% 19,18%

    28,83% 19,39%

    Omisses: 1,49% 21,85% 6,48% 7,33% 7,04% 6,71% Inseres: 1,11% 2,12% 3,42% 2,59% 2,91% 2,73%

    Acurcia: 94,95% 66,63% 67,76% 69,64% 70,87% 71,17%

  • Resultados

    Sistema Latncia CPU * RAM

    Relocuo 1,059 s N/A N/A

    Esteno>pia 4,034 s N/A N/A

    IBM ViaVoice 2,098 s < 20% (de 1 core) < 70 MB

    CMU Sphinx 0,652 s ~ 20% (de 4 cores) ~ 300 MB

    * Intel Core i5 de 2,4 GHz

  • CONCLUSES E TRABALHOS FUTUROS

  • Concluses

    Demanda por sistemas de RAV em Portugus do Brasil Sistemas de RAV testados apresentaram acurcia mais alta e latncia

    mais baixa que a esteno;pia Sistema baseado em so,ware livre apresentou melhor desempenho Possibilidades de melhorias futuras Taxa de acerto mnima especicada pela ABNT NBR 15290 no pde ser

    ob;da por RAV nem por esteno;pia

  • Trabalhos Futuros

    Desenvolver corpus de voz sucientemente grande e diversicado Desenvolver mecanismos autom;cos para gerar corpus de texto a par;r

    da Internet Experimentar smbolos fon;cos diferentes para vogais tnicas O;mizar o tempo de treinamento do sistema Avaliar outros so,wares de RAV

  • Trabalhos Futuros

    Atualizao autom;ca dos dicionrios, modelos de linguagem e modelos acs;cos

    Desenvolver interface operacional Ferramentas de correo da transcrio Gerao de relatrios de desempenho Integrao com ferramentas de codicao de closed cap*on Integrao da soluo completa em uma ferramenta simples de usar Realizar avaliao qualita;va do desempenho, com a par;cipao de

    decientes audi;vos

  • PERGUNTAS?

  • OBRIGADO!