40
TRABALHO DE GRADUAÇÃO INTERFACE BASEADA EM RECONHECIMENTO DE VOZ PARA VÍDEO LAPAROSCOPIA Por, Lucas Fernandes Aguiar Brasília, Dezembro de 2013

INTERFACE BASEADA EM RECONHECIMENTO DE VOZ … · se crie terminologias e construções gramaticias novas a partir de modelos acústicos e de linguagem da LN. Uma LNC não é uma

  • Upload
    vuongtu

  • View
    214

  • Download
    0

Embed Size (px)

Citation preview

Page 1: INTERFACE BASEADA EM RECONHECIMENTO DE VOZ … · se crie terminologias e construções gramaticias novas a partir de modelos acústicos e de linguagem da LN. Uma LNC não é uma

TRABALHO DE GRADUAÇÃO

INTERFACE BASEADA EM RECONHECIMENTO DE VOZ PARA VÍDEO LAPAROSCOPIA

Por, Lucas Fernandes Aguiar

Brasília, Dezembro de 2013

Page 2: INTERFACE BASEADA EM RECONHECIMENTO DE VOZ … · se crie terminologias e construções gramaticias novas a partir de modelos acústicos e de linguagem da LN. Uma LNC não é uma

UNIVERSIDADE DE BRASILIA Faculdade de Tecnologia

Curso de Graduação em Engenharia de Controle e Automação

TRABALHO DE GRADUAÇÃO

INTERFACE BASEADA EM RECONHECIMENTO DE VOZ PARA VÍDEO LAPAROSCOPIA

POR,

Lucas Fernandes Aguiar

Relatório submetido como requisito parcial para obtenção do grau de Engenheiro de Controle e Automação.

Banca Examinadora

Prof. Ícaro dos Santos, Ph. D. UnB/ ENE (Orientador)

Prof. Ricardo Zelenovsky, Dr. UnB/ ENE (Examinador Interno)

Prof. Antônio Padilha L. Bó, Dr.. UnB/ ENE (Examinador Interno)

Brasília, Dezembro de 2013

ii

Page 3: INTERFACE BASEADA EM RECONHECIMENTO DE VOZ … · se crie terminologias e construções gramaticias novas a partir de modelos acústicos e de linguagem da LN. Uma LNC não é uma

FICHA CATALOGRÁFICA AGUIAR, LUCAS FERNANDES Interface Baseada em Reconhecimento de Voz para Vídeo Laparoscopia ,

[Distrito Federal] 2013.

xi, 29p., 297 mm (FT/UnB, Engenheiro, Controle e Automação, 2013). Trabalho de

Graduação – Universidade de Brasília. Faculdade de Tecnologia.

1.Reconhecimento de Voz 2.Interface 3.Vídeo Laparoscopia I. Mecatrônica/FT/UnB

REFERÊNCIA BIBLIOGRÁFICA

AGUIAR, L. F., (2013). Interface Baseada em Reconhecimento de Voz para Vídeo

Laparoscopia. Trabalho de Graduação em Engenharia de Controle e Automação,

Publicação FT.TG-nº 15, Faculdade de Tecnologia, Universidade de Brasília, Brasília, DF,

29p.

CESSÃO DE DIREITOS

AUTOR: Lucas Fernandes Aguiar.

TÍTULO DO TRABALHO DE GRADUAÇÃO: Interface Baseada em Reconhecimento de Voz

para Vídeo Laparoscopia.

GRAU: Engenheiro de Controle e Automação. ANO: 2013

É concedida à Universidade de Brasília permissão para reproduzir cópias deste Trabalho de

Graduação e para emprestar ou vender tais cópias somente para propósitos acadêmicos e

científicos. O autor reserva outros direitos de publicação e nenhuma parte desse Trabalho

de Graduação pode ser reproduzida sem autorização por escrito do autor.

____________________________

Lucas Fernandes Aguiar SHCGN 710 Bloco H Casa 13 – Asa Norte. 70750-738 Brasília – DF – Brasil.

iii

Page 4: INTERFACE BASEADA EM RECONHECIMENTO DE VOZ … · se crie terminologias e construções gramaticias novas a partir de modelos acústicos e de linguagem da LN. Uma LNC não é uma

Dedicatória

Dedico este trabalho a todos os meus familiares e amigos próximos que sempre estiveramao meu lado me apoiando em minhas empreitadas acadêmicas e profissionais.

Lucas Fernandes Aguiar

iv

Page 5: INTERFACE BASEADA EM RECONHECIMENTO DE VOZ … · se crie terminologias e construções gramaticias novas a partir de modelos acústicos e de linguagem da LN. Uma LNC não é uma

Agradecimentos

Agradeço inicialmente a Deus e ao apoio da minha família e namorada Solange, queestão sempre me oferencendo o suporte incondicional que preciso em todas as atividadesque exerço. Agradeço ao professor Icaro pelos conselhos e direcionamentos e ao alunode doutorado do Laboratório de Engenharia Biomédica Raphael Matsunaga pelo esforçoempenhado no acompanhamento direto do meu trabalho. Por fim, agradeço aos colegasde trabalho no LaB e aos amigos de sempre da MERT.

Lucas Fernandes Aguiar

v

Page 6: INTERFACE BASEADA EM RECONHECIMENTO DE VOZ … · se crie terminologias e construções gramaticias novas a partir de modelos acústicos e de linguagem da LN. Uma LNC não é uma

RESUMO

Cirurgias minimamente invasivas como laparoscopia, ablação e endoscopia estão se tornando cadadia mais comuns devido ao grande benefício ao paciente em termos de rapidez na recuperação, di-minuição de cicatrizes e menor risco de contração de infecções decorrentes da cirurgia. Entretanto,tais procedimentos representam maior dificuldade na perspectiva do cirurgião pelo uso não intui-tivo de ferramentas e elevado tempo de aprendizagem. Este trabalho propõe o desenvolvimento umprotótipo de interfaceamento por voz para equipamentos utilizados em vídeo laparoscopia. O ci-rurgião interage com o sistema através de uma interface gráfica em um tablet, o qual se conecta viaWi-Fi com um concentrador de informações que está diretamente ligado aos equipamentos. Os co-mandos ao sistema podem ser tanto táteis, como por voz e são utilizados para alterar configuraçõesdos equipamentos necessárias durante a operação.

Palavras Chave: reconhecimento de voz, interface, vídeo laparoscopia.

ABSTRACT

Minimally invasive surgeries such as laparoscopy, ablation and endoscopy are getting graduallymore common due to its benefits to the patient in terms of faster recovery period, less and smallerscarves, and low infection risk after the surgery. However, such procedures represent more difficultyon the surgeon’s perspective because of the use of non-intuitive tools and long learning periods.This work presents the devolopment of a voice interfacing prototype for equipment used on videolaparoscopy surgeries. Physicians may interact with the system through a graphical interface ona tablet, which is connected via Wi-Fi to a information concentrator that is directly connected tothe equipment. The commands can be sent by both tactile buttons or by speech and are meant tomodify equipment setup during the surgery.

Keywords: voice recognition, interface, video laparoscopy.

vi

Page 7: INTERFACE BASEADA EM RECONHECIMENTO DE VOZ … · se crie terminologias e construções gramaticias novas a partir de modelos acústicos e de linguagem da LN. Uma LNC não é uma

SUMÁRIO

1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.1 Motivação................................................................................ 11.2 Contextualização ..................................................................... 21.2.1 Vídeo laparoscopia ................................................................... 21.2.2 Interfaceamento por voz ........................................................... 31.2.3 Linguagem natural controlada .................................................. 31.3 Definição do problema .............................................................. 41.4 Objetivos do projeto................................................................. 41.5 Apresentação do trabalho......................................................... 5

2 Revisão Bibliográfica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62.1 Introdução .............................................................................. 62.2 Reconhecedores de voz para português brasileiro ........................ 62.3 Modelos ocultos de markov ....................................................... 82.4 Julius ...................................................................................... 92.5 Coruja..................................................................................... 92.6 Métricas de avaliação ............................................................... 102.7 Reconhecimento de voz em cirurgias minimamente invasivas ............ 112.8 Redes Wi-Fi .............................................................................. 11

3 Desenvolvimento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123.1 Introdução .............................................................................. 123.2 Modelagem do sistema ............................................................... 123.3 Software do concentrador ........................................................ 133.3.1 Arquivos .................................................................................. 133.3.2 Configurações .......................................................................... 143.3.3 Inicialização............................................................................. 153.3.4 Núcleo de processamento .......................................................... 153.4 Aplicativo android.................................................................... 163.4.1 Resposta ao toque de botões...................................................... 163.4.2 Resposta à entrada de áudio ...................................................... 173.5 Protocolo de Comunicação ........................................................ 18

�vii

Page 8: INTERFACE BASEADA EM RECONHECIMENTO DE VOZ … · se crie terminologias e construções gramaticias novas a partir de modelos acústicos e de linguagem da LN. Uma LNC não é uma

4 Sistema Experimental AstusVoice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 204.1 Introdução .............................................................................. 204.2 Concentrador .......................................................................... 214.3 Tablet..................................................................................... 214.4 Arduíno ................................................................................... 214.5 Testes e resultados................................................................... 22

5 Conclusões . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 235.1 Conclusões finais ...................................................................... 235.2 Trabalhos Futuros ................................................................... 23

REFERÊNCIAS BIBLIOGRÁFICAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

Anexos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

I Comandos de Voz. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

viii

Page 9: INTERFACE BASEADA EM RECONHECIMENTO DE VOZ … · se crie terminologias e construções gramaticias novas a partir de modelos acústicos e de linguagem da LN. Uma LNC não é uma

LISTA DE FIGURAS

1.1 Laparoscopia ginecológica [1] ......................................................................... 21.2 Estrutura Ótica do Laparoscópio [2] ................................................................ 3

2.1 Diagrama de funcionamento do reconhecedor de voz [3]....................................... 72.2 Diagrama de uma cadeia de um HMM que representa um fonema [4]com modificações 92.3 Pacote Coruja [5] com modificações ................................................................. 10

3.1 Diagrama de caso de uso da modelagem UML................................................... 133.2 Tela inicial de configuração do concentrador ..................................................... 153.3 Tela do concentrador mostrando o status dos equipamentos ................................. 163.4 Tela do concentrador mostrando o recebimento de um comando de voz .................. 173.5 Tela inicial do aplicativo android .................................................................... 183.6 Estrutura de uma mensagem ......................................................................... 19

4.1 Configuração experimental do sistema AstusVoice .............................................. 204.2 Tablet utilizado no experimento ..................................................................... 21

ix

Page 10: INTERFACE BASEADA EM RECONHECIMENTO DE VOZ … · se crie terminologias e construções gramaticias novas a partir de modelos acústicos e de linguagem da LN. Uma LNC não é uma

LISTA DE TABELAS

4.1 Precisão em ambientes variados - 2 m do concentrador........................................ 224.2 Precisão para distâncias variadas do tablet para o concentrador - ambiente silencioso 22

x

Page 11: INTERFACE BASEADA EM RECONHECIMENTO DE VOZ … · se crie terminologias e construções gramaticias novas a partir de modelos acústicos e de linguagem da LN. Uma LNC não é uma

LISTA DE SÍMBOLOS

Sobrescritos

ˆ Probabilidade Condicional

Siglas

API Application Programming InterfaceCRC Cyclic Redundancy CheckingFDA US Food and Drug AdministrationHMM Hiden Markov ModelLC Linguagem ControladaLN Linguagem NaturalLNC Linguagem Natural ControladaLVCSR Large Vocabulary Continuos Speech RecognitionMFCC Mel-frequency Cepstrum CoefficientsNOTES Natural Orifice Translumenal Endoscopic SurgeryPT-BR Português brasileiroSIMIS Speech In Minimal Invasive SurgeryRAV Reconhecimento Automático de VozUFPA Universidade Federal do ParáWER Word Error Rate

�xi

Page 12: INTERFACE BASEADA EM RECONHECIMENTO DE VOZ … · se crie terminologias e construções gramaticias novas a partir de modelos acústicos e de linguagem da LN. Uma LNC não é uma

Capítulo 1

Introdução

1.1 Motivação

Procedimentos cirúrgicos podem ser divididos em três níveis de invasividade. As cirurgias nãoinvasivas não atravessam a pele nem vão além das aberturas naturais do corpo humano. Cirugiasabertas envolvem o corte de pele e tecidos a fim de que o cirurgião tenha acesso direto e visibilidadeda área ou órgão que requer atenção. As cirurgias minimamente invasivas realizam incisões menoresque cirurgias abertas, o que resulta em recuperação mais rápida e menor riscos de contrair infecções.Alguns exemplos de procedimentos minimamente invasivos são laparoscopia, cirurgia assistida porrobô, cirurgia endovascular, e cirurgia endoscópica transluminal por orifícios naturais - NOTES[6].

Cirurgias por laparoscopia vêm sendo utilizadas com grande sucesso em seres humanos por maisde 100 anos para procedimentos intra-abdominais [7] e atualmente é também largamente utilizadapara cirugias em articulações, principalmente em joelhos, bem como operações ginecológicas -cistos de ovário, dilatação das trompas, torção de ovário, gravidez ectópica - e urológicas, bemcomo tratar prolapsos (queda) da bexiga, do reto e do útero [8]. A Fig. 1.1 mostra um exemplode um procedimento de laparoscopia ginecológica onde pode-se observar que as incisões são depequenas dimensões.

Ao longo de todos esses anos o procedimento de laparoscopia evoluiu bastante juntamente comos avanços tecnológico nas áres de imageamento médico, controle e automação de equipamentoscirúrgicos, uso de materiais mais bem aceitos pelo organismo humano e a integração de interfacesamigáveis a equipamentos médicos para tornar o uso destas ferramentas uma experiência maisintuitiva e de rápida apredizagem. O uso de interfaces amigáveis é uma tendência que avança porvariadas abordagens, tais como uso de robôs em cirurgias, reconstrução tridimensional de órgãose tecidos, e controle por voz.

1

Page 13: INTERFACE BASEADA EM RECONHECIMENTO DE VOZ … · se crie terminologias e construções gramaticias novas a partir de modelos acústicos e de linguagem da LN. Uma LNC não é uma

Figura 1.1: Laparoscopia ginecológica [1]

1.2 Contextualização

A empresa paulista Astus Medical se destaca no mercado nacional de equipamentros eletromé-dicos como sendo a primeira empresa brasileira a desenvolver equipamentos de vídeo laparoscopiacom tecnologia digital. O grupo vem exercendo crecente esforço em inovação tecnológica agregadaa seus produtos, estratégia que vai de encontro às diretrizes do Governo Federal na área de saúdepública. Desta forma, este projeto se concretiza como um investimento conjunto entre o Ministérioda Saúde e a Astus Medical com o objetivo de fomentar a inovação tecnológica em equipamentosmédicos desenvolvidos e produzidos no país, com foco em vídeo laparoscopia.

1.2.1 Vídeo laparoscopia

A cirurgia de vídeo laparoscopia é um procedimento minimamente invasivo no qual uma pe-quena incisão é feita na parede abdominal pela qual um instrumento chamado laparoscópio éintroduzido. Conforme mostrado na Fig. 1.2, o laparoscópio possui uma estrutura ótica e umamicrocâmera é acoplada à janela proximal do equipamento para possibilitar ao cirurgião ver dentrodo abdômen sem grandes incisões. A imagem da área da cirurgia é ampliada e exibida em ummonitor. Uma fonte de luz deve ser conectada ao laparoscópio com a utilização de fibras óticas.Então, o cirurgião faz outras poucas incisões entre 5 e 15mm de comprimento para inserir finosinstrumentos utilizados na operação.

A cavidade abdominal é inteiramente preenchida por órgãos que estão dispostos bem próximosao outro, logo a parede abdominal precisa ser inflada antes da inserção dos outros intrumentos afim de que se distenda e um espaço interno seja criado para que o cirurgião veja internamente aocorpo. O gás dióxido de carbono (CO2) é utilizado para a insuflação por ser inerte e pouco absorvidopelo corpo. Desta forma, removendo cuidadosamente tecidos doentes em pequenas partes, órgãoscancerosos ou danificados podem ser removidos através de técnicas de laparoscopia.

2

Page 14: INTERFACE BASEADA EM RECONHECIMENTO DE VOZ … · se crie terminologias e construções gramaticias novas a partir de modelos acústicos e de linguagem da LN. Uma LNC não é uma

Figura 1.2: Estrutura Ótica do Laparoscópio [2]

1.2.2 Interfaceamento por voz

Interfaces baseadas em reconhecimento de voz respondem a comandos transmitidos pelos usuá-rios através da fala humana e os traduzem em informações para um computador. Esse tipo deinterface é muito efetiva e natural em ambientes em que o usuário possui mãos ou olhos ocupadoscom outras atividades [9]. Entretanto, é muito importante que se reduza o ruído de fundo paramaior clareza na transmissão dos comandos. Esta tecnologia vem se popularizando em smart pho-nes, como a Siri (Apple) e o Now (Google), e em geral são softwares fechados. Grande esforço vemsendo aplicado no desenvolvimento de plataformas baseadas em software livre, as quais já estãoapresentando grande confiablidade, tais como o CMU Sphinx desenvolvido na Carnegie MellonUniversity [10] e o Julius [11].

1.2.3 Linguagem natural controlada

Linguagem Natural Controlada (LNC) é um sunconjunto precisamente definido da LinguagemNatural (LN) contendo restrições léxicas, gramaticais e de estilo. Essas limitações permitem quese crie terminologias e construções gramaticias novas a partir de modelos acústicos e de linguagemda LN. Uma LNC não é uma sublinguagem da LN, pois sublinguagens evoluem com um tempodentro de uma comunidade, enquanto LNCs são adaptações artificiais de uma linguagem de formaa mantê-la o mais natural possível, conforme citado em [12].

Aplicações robustas de reconhecimento de voz apresentam maior precisão quando operadas porapenas uma pessoas por vez e são configuradas para reconhecer vocabulários menores e com gra-mática mais simples. Também devem ter sintaxe e semântica muito claras e de fácil entendimentopara o usuário, além de evitar ambiguidades [9].

3

Page 15: INTERFACE BASEADA EM RECONHECIMENTO DE VOZ … · se crie terminologias e construções gramaticias novas a partir de modelos acústicos e de linguagem da LN. Uma LNC não é uma

1.3 Definição do problema

Apesar das claras vantagens da cirurgia por vídeo laparoscopia em termos dos resultados parao paciente, este procedimento é mais complicado da perspectiva do cirurgião quando comparada àcirurgia aberta. O cirurgião tem um espaço menor de trabalho no local da intervenção, perdendoportanto a destreza. Algumas características desse procedimento tornam a cirurgia laproscópicauma atividade motora não intuitiva e de difícil aprendizagem, como o fato de o ponto de atuaçãodo instrumento de operação se mover em sentido contrário ao movimento da mão do médico devidoao ponto pivotante, e de que o cirurgião precisa de ferramentas para manipular os tecidos ao invésde fazê-lo diretamente com as mãos.

Este tipo de procedimento requer o uso imultâneo de diversos equipamentos médicos. O lapa-roscópio é o instrumento principal, a ele são acoplados os demais. A fonte de luz, o insuflador, acâmera, o gravador de vídeo, além dos instrumentos de incisão, corte e manuseio de tecidos. Ocirurgião precisa de agilidade e treinamento para executar cada passo em ordem correta, além dediversas pessoas trabalhando como assistente de operação com a finalidade de realizar trocas deferramentas, configuração de equipamentos e posicionamento de instrumentos. Esses fatores fazemcom que cirurgias laparoscópicas demandem muito tempo, dinheiro e grande número de pessoasenvolvidas.

1.4 Objetivos do projeto

O projeto busca utilizar uma linguagem natural controlada para criar uma interface baseadaem reconhecimento de voz com trinta e oito comandos em portugês e com algumas palavras eminglês que seja pouco dependente do locutor e do ambiente para configurar os principais equipa-mentos eletromédicos utilizados em procedimentos de vídeo laparoscopia - fonte de luz, insuflador,microcâmera e gravador de vídeo - visando diminuir o número de pessoas necessárias para realizara cirurgia bem como reduzir o tempo total e consequentemente o custo da cirurgia. A interface émostrada em um tablet e aceita tanto comandos por voz quanto por toques na tela. Essas mensa-gens são transmitidas para um computador concentrador, que por sua vez reconhece o comando eenvia para os equipamentos.

Mais especificamente, os objetivos são:

• Desenvolver software que utiliza ferramenta de reconhecimento de voz contínua para reco-nhecer comandos de voz em português.

• Desenvolver aplicativo em sistema operacional android para transmitir comandos por botõese por áudio obtido do microfone do tablet para um computador concentrador de informaçõesatravés de comunicação WiFi.

• Definir um protocolo de comunicação para ser utilizado tanto na comunicação do tablet como computador concentrador quanto do concentrador com os equipamentos.

4

Page 16: INTERFACE BASEADA EM RECONHECIMENTO DE VOZ … · se crie terminologias e construções gramaticias novas a partir de modelos acústicos e de linguagem da LN. Uma LNC não é uma

• Converter as mensagens de comando do tablet em ações e transmiti-las para os equipamentosvia USB.

1.5 Apresentação do trabalho

No capítulo 2 é feita uma revisão bibliográfica sobre modelos utilizados em reconhecedores devoz. Em seguida, o capítulo 3 descreve a metodologia empregada no desenvolvimento dos softwaresdo projeto. O aparato experimentail é discutido no capítulo 4 e os resultados obtidos são avaliados,seguido das conclusões no capítulo 5. Os anexos contém material complementar.

5

Page 17: INTERFACE BASEADA EM RECONHECIMENTO DE VOZ … · se crie terminologias e construções gramaticias novas a partir de modelos acústicos e de linguagem da LN. Uma LNC não é uma

Capítulo 2

Revisão Bibliográfica

2.1 Introdução

A conversão de linguagem falada na forma de sinais analógicos de áudio para textos com sig-nificado claro e inteligível é chamada reconhecimento automático de voz (RAV). Alguns fatores dosistema de RAV são determinantes nos resultados apresentados. Quanto ao tipo de fala, o sistemapode reconhecer palavras isoladas ou fala contínua com palavras em sequência. O reconhecimentode fala contínua apresenta maior dificuldade em discursos com poucas pausas. O tamanho dovocabulário também influi na qualidade dos resultados, sendo que quanto menor o vocabulárioaceito, maior a precisão e menores as chances de ambiguidades, além de diminuir as possibilidadesde busca de palavras, tornando a pesquisa mais rápida.

2.2 Reconhecedores de voz para português brasileiro

Sistemas de reconhecimento de voz com suporte a grandes vocabulários (LVCSR) são um tipode RAV. O treinamento de um LVCSR demanda um grande corpus de voz, que são gravaçõesde vozes com variações de ambiente de gravação, nível de ruído, uso de vocabulário e sotaque dolocutor na língua desejada, e de texto, que são os respectivos textos transcritos e digitalizados.Os corpora, conjunto de corpus, são utilizados para treinar e testar modelos acústicos, modelos delinguagem e modelos léxicos, que são elementos básicos para o funcionamento de um reconhecedorde voz.

Existem diversos corpora de texto e voz disponíveis na língua inglesa, com extensas horas degravações, pertindo treinamentos mais robustos dos modelos de busca de palavras. Ao contrário, nalíngua portuguesa brasileira (PT-BR) existe pouca disponibilidade de corpora de grandes dimensõespara treinamento de modelos acústicos. Portanto, em sitemas para PT-BR é mais comum odesenvolvimento de reconhecedores de voz com vocabulário reduzido e com identificação de palavrasisoladas em detrimento de reconhecimento contínuo de fala com o objetivo de obter maior precisãodo reconhecedor.

6

Page 18: INTERFACE BASEADA EM RECONHECIMENTO DE VOZ … · se crie terminologias e construções gramaticias novas a partir de modelos acústicos e de linguagem da LN. Uma LNC não é uma

Outros desafios recorrentes para o decodificador de áudio são diversidade de pronúncias, altavelocidade de pronúncia, palavras com mesma pronúncia (homófonas),ausência de pausas entrepalavras, timbre de voz, intensidade de voz, não linearidades na transmissão do sinal, filtragemlinear pelo microfone e degradação acústica.

Dicionários fonéticos são transcrições contendo as palavras conhecidas pelo vocabulário dosistema associadas às respectivas sequências de fonemas que definem em forma textual a acústicada palavra. A Gramática define as sequências de classes de palavras que são consideradas corretas.Em uma busca de fala contínua o resultado sempre será uma frase que respeita a gramática, poisa frases gramaticalmente incorretas é atribuída a probabilidade zero de ocorrência.

O modelo de linguagem define a conexão entre as palavras conhecidas, suas respectivas re-presentações fonéticas, e as possíveis contruções gramaticais definidas para a linguagem, impondorestrições sintáticas. Ele é treinado a partir do corpus de texto e do dicionário fonético e podemser modelos n-grama, baseados em gramática ou mesmo uma simples lista de palavras para re-conhecimento de palavras isoladas. O modelo acústico é treinado a partir do corpora de voz ede texto e o dicionário fonético e consiste nos parâmetros dos sinais das gravações utilizadas notreinamento. Cada fonema é definido no modelo acústico por um modelo HMM. O modelo léxicodefine as palavras que o sistema conhece e é capaz de reconhecer e sua transcrição fonética, éformado pela extração dos parâmetros do dicionário fonético.

O processo de funcionamento do sistema utiliza a entrada de áudio a ser avaliada e digitalizaeste sinal a uma determinada taxa de amostragem, gerando uma representação digital da falacaracterizada como um vetor contendo os parâmetros para a análise estatística. Esta representaçãoé então passada por filtros baseados em restrições impostas pelos modelos acústico, de linguageme léxico, e a probabilidade de a palavra analisada corresponder às palavras conhecidas é estimada.A Fig. 2.1 mostra um diagrama com a sequência de funcionamento de um reconhecedor de voztreinado.

Figura 2.1: Diagrama de funcionamento do reconhecedor de voz [3]

A busca pelo resultado é feita extraindo padrões do sinal de entrada, classificando estatísti-

7

Page 19: INTERFACE BASEADA EM RECONHECIMENTO DE VOZ … · se crie terminologias e construções gramaticias novas a partir de modelos acústicos e de linguagem da LN. Uma LNC não é uma

camente esses dados e exibindo como resultado a frase que corresponda com maior probabilidadeao que foi falado levando em consideração os modelos treinados anteriormente. A tarefa de buscaé feita por um decodificador, que será detalhado adiante. A Eq. 2.1 é a regra de Bayes paraprobabilidades condicionais e define formalemente a equação para o cálculo das probabilidades deidentificação da palavra.

W = argmaxWP (O\W )P (W )

P (O)= argmaxWP (O\W )P (W ) (2.1)

A probabilidade condicional W da sequência de palavras W ser a procurada depende da matrizde parâmetros do sinal de entrada O . A probabilidade da matriz O não depende da sequência depalavras avaliada W. Por fim, o resultado desta equação é a sequência W com maior probabilidadede corresponder ao sinal de entrada e que portanto maximiza o produto da probabilidade P(O\W)da ocorrência de O dada a sequência W, que é fornecida pelo modelo acústico, multiplicada pelaprobabilidade P(W) de ocorrência da sequência W, dado obtido através do modelo de linguagem[13].

2.3 Modelos ocultos de markov

Dentre as técnicas desenvolvidas para reconhecimento de voz, as que mais se destacam nosmodelos atuais são baseadas em Redes Neurais ou em Modelos Ocultos de Markov (HMM), ouuma combinação destes em modelos híbridos mais precisos. Este último é uma classe de modelosestatísticos muito efetivos na análise de uma série discreta no tempo e é o método mais recorrenteem trabalhos recentes de alta relevância na área de RAV [14, 15, 16, 17, 18, 19].

O surgimento deste método matemático impulsionou de forma impactante o aumento na pre-cisão de sistemas de RAV. Apesar do aumento na taxa de acertos, este tipo de modelo estatísticotende a operar de forma mais lenta que em tempo-real devido ao grande custo computacional pararealizar avaliações de proximidade entre duas hipósteses de frases em uma busca para identificar aentrada de voz [20]. Uma grande vantagem do HMM está na possibilidade de representar eventosacústicos com diferentes durações, além de implementar algoritmos eficientes e confiáveis no cálculodos parâmetros dos modelos durante a fase de treinamento. Uma cadeia HMM de três estadoscom topologia left-to-right é geralmente utilizada para representar fonemas, pois estes têm com-portamento dinâmico devido ao fato de um fonema afetar os anteriores e os subsequentes durantea fala. A Fig. 2.2 mostra um diagrama de uma cadeia de um HMM deste tipo.

Um modelo oculto de markov é uma composição de dois processos estocásticos. O primeirorepresenta a variação temporal, o segundo é um processo observável que representa a variação es-pectral. Uma cadeia de HMM é uma máquina de estados finitos cujos estados podem ser modeladoscomo distribuições de misturas gaussianas. A topologia de uma cadeia utilizada para modelagemem reconhecimento de voz deve ser do tipo esquerda para direita (left-to-right), de forma que astransições somente possam ocorrer para o próprio estado ou para seus vizinhos da direita [19]. Umaentrada de áudio é representada neste modelo por uma sequência de quadros no tempo. É possível

8

Page 20: INTERFACE BASEADA EM RECONHECIMENTO DE VOZ … · se crie terminologias e construções gramaticias novas a partir de modelos acústicos e de linguagem da LN. Uma LNC não é uma

Figura 2.2: Diagrama de uma cadeia de um HMM que representa um fonema [4]com modificações

calcular a probabildiade de ocorrência de uma certa sequência de quadros que seja conhecida peloreconhecedor. Logo, se a probabilidade de se gerar uma sequência observada na entrada é alta,declara-se a semelhança entre o sinal de entrada e uma frase válida para o reconhecedor. Estasprobabilidades são embutidas no modelo acústico na fase de treinamento e utilizadas na Eq. 2.1.

2.4 Julius

A ferramenta de decodificação Julius [11] é um software aberto de LVCSR de alto desempe-nho, sem nenhuma restrição para desenvolvimento comercial, utilizada mundialmente tanto paraindústria como para pesquisas acadêmicas, em computadores comuns - não necessita nenhuma oti-mização em termos de hardware - em tempo real, com ampla documentação, integra ferramentassofisticadas na busca (n-grama, HMM, gramáticas baseadas em regras). O decodificador é todoescrito em linguagem C e suportado em plataforma Linux.

O Julius suporta o processamento tanto de arquivos de áudio quanto áudio obtido pelo mi-crofone em tempo de execução, além de aceitar entrada de áudio através de rede via socket. Estedecodificador é de duas passadas, com um estágio de busca de avanço no tempo que facilita o se-gundo estágio, que é o de retorno. Este estágio demanda mais força computacional, mas a primeirapassada elimina grande número de possibildiades, acelerando o processo. Nesta passada a busca éfeita em sentido contrário ao sentido natural do tempo.

2.5 Coruja

Interfaces de programação de aplicativos (API) são implementações de funcionalidades de baixonível com o objetivo de ofertar ferramentas aos programadores que desejam utilizar daquelas fun-cionalidades, mas sem ter que desenvolvê-las por inteiro para que o foco do projeto se mantenhana construção de um aplicativo em alto nível. No caso de reconecimento de voz, a LaPSAPI daUFPA fornece uma bilbioteca de uso livre em C/C++ para plataforma Linux com funcionalidades

9

Page 21: INTERFACE BASEADA EM RECONHECIMENTO DE VOZ … · se crie terminologias e construções gramaticias novas a partir de modelos acústicos e de linguagem da LN. Uma LNC não é uma

de baixo nível já implementadas para o uso do decodificador Julius. Desta forma, não é precisodesenvolver toda a estrutura para manipular o decodificador, a interação ocorre através da API,restanto apenas modificar configurações e parâmetros conforme o projeto.

O pacote Coruja inclui o decodificador Julius, a LaPSAPI, e modelos acústico e de linguagempreviamente treinados para reconhecimento de voz em PT-BR. O Coruja foi desenvolvido com oobjetivo de ser livre e facilitar a implementação de reconhecimento de voz em aplicações de diversasáreas da engenharia. A Fig. 2.3 detalha as partes do pacote Coruja.

Figura 2.3: Pacote Coruja [5] com modificações

2.6 Métricas de avaliação

A maneira mais natural, porém nem sempre a mais simples, de se avaliar os modelos treinadosdo sistema é constriur variações de cada modelo e comparar as taxas de erro do reconhecedor aoutilizar cada um dos modelos. Uma solução mais elegante é trabalhar com o conceito de quantidadede entropia da informação para estimar a eficiênia dos modelos acústico, de linguagem e léxico.A entropia da informação é uma forma de medir a quantidade de informação contida em umamensagem, sendo que quanto maior for a incerteza sobre o significado da mensagem, maior é suaentropia.

Entretanto, o método mais utilizados para avaliação de reconhecedores de voz é mais práticono sentido de dar importância aos resultados obtidos que correspondam ao esperado. A taxa deerro por palavras (WER) é definida em [21] como sendo a Eq. 2.2.

WER =D +R

W× 100% (2.2)

A taxa de erro depende portanto do número de palavras na entrada W, do número de erros porpalavras que foram substituídas ou trocadas R, e do número de erros por palavras deletadas D.

10

Page 22: INTERFACE BASEADA EM RECONHECIMENTO DE VOZ … · se crie terminologias e construções gramaticias novas a partir de modelos acústicos e de linguagem da LN. Uma LNC não é uma

2.7 Reconhecimento de voz em cirurgias minimamente invasivas

Grande parte dos trabalhos em interfaces para laparoscopia se resume a joysticks, pedais ouinterfaces assistidas por robôs. A principal aplicação de interfaceamento por voz em laparoscopiaconsiste em controle de sistemas de posicionamento dos instrumentos juntamente com algum auxíliorobótico [22, 23, 24]. Apesar de o uso da voz ser algo natural ao ser humano para efetuar comandos,muitas dessas interfaces não se destacaram neste mercado pois são dependentes do usuário, poucoconfiáveis, e apresentam lentidão de operação.

Em 2011 a empresa francesa EndoControl, que é especializada em sistema ativos para auxílioem cirurgias de endoscopia relatou sobre o primeiro caso de cirurgia geral realizado com auxíliodo sistema de controle por voz ViKY [25]. Recentemente em 2013, a mesma empresa conseguiuaprovação da agência americana de alimentos e medicações (FDA) para comercializar o primeirosistema ativo de auxílio em cirurgias controlado por voz para posicionamento de manipuladoresuterinos em cirurgias ginecológicas [26] .

Para a língua inglesa existe uma base de dados de voz especialemente coletada em ambientesde cirurgias minimamente invasivas, é conhecida como SIMIS [27]. Essa base de dados incluiruídos de fundo e até mesmo emoções dos cirurgiões que podem ser identificadas pela voz. Estasinformações permitem que estudos da natureza deste trabalho evoluam de maneira mais rápida,pois com dados específicos do ambiente real de uma cirurgia é possível a contrução de filtros maisprecisos, configuração de parâmetros do sistema, além de treinamento e testes de reconhecedores devoz especializados. Os resultados de sistemas de voz em ambientes de cirurgia minamente invasivasmostram taxas de acurácia entre 75-90% [27, 28].

2.8 Redes Wi-Fi

Wi-Fi é um padrão de comunicação em redes sem fio. Opera em faixas de frequência sem prote-ção por licensas de instalação e operação. Redes Wi-Fi permitem que informações sejam trocadasa grandes distâncias. A Wi-Fi permite a comunicação entre dois dispositivos sem pontos inter-mediários de acesso através de redes Ad-Hoc criadas por computadores que se tornam roteadoresvirtuais. Um sub padrão da Wi-Fi chamado Wi-Fi Direct especifica um novo método de trans-missão de dados entre dois equipamentos sem que um dos dispositivos tenha que criar uma redeAd-Hoc. Desta forma o sistema se torna mais seguro, pois em redes Wi-Fi convencionais qualquerdispositivo que adentre ao campo de cobertura tem apossibilidade de acessar outros dispositivosna rede.

11

Page 23: INTERFACE BASEADA EM RECONHECIMENTO DE VOZ … · se crie terminologias e construções gramaticias novas a partir de modelos acústicos e de linguagem da LN. Uma LNC não é uma

Capítulo 3

Desenvolvimento

3.1 Introdução

A construção de uma ferramenta de reconhecimento de voz demanda o uso de muitas horas degravação de voz e extensos textos para treinamento e validação. Uma aplicação para reconheci-mento de voz necessita de uma ferramenta de reconhecimento de voz, como descrito no capítulo2. Para se obter um reconhecedor pouco vulnerável a ruídos externos, sotaque do locutor e ambi-ente de gravação do áudio, optou-se pelo uso de um vocabulário restrito a trinta e oito frases comno máximo seis palavras. A maneira mais efetiva de se obter resultados práticos sem demandardemasiado tempo na construção de um sistema de reconhecimento de voz é utilizar uma API. Osistema AstusVoice de reconhecimento de voz foi desenvolvido em cima da LaPSAPI.

3.2 Modelagem do sistema

A visão geral do sistema deve ser claramente definida antes do desenvolviemento. Com esteobjetivo o sistema foi projetado sobre uma modelagem UML. Esta linguagem de modelagem ofereceextensa variedade de diagramas e técnicas de notação gráfica para representações do sistema emdesenvolvimento em alto e baixo níveis, classes do software do sistema, sequências e dependênciasde uso, além de fluxo de tarefas e posicionamento dos agentes envolvidos no uso do sistema pormeio de modelos visuais.

A arquitetura do sistema é do tipo servidor-cliente, onde um computador concentrador funcionacomo o servidor. Ele está diretamente conectado aos equipamentos médicos via USB. Dispositivosmóveis são clientes e podem se conectar ao concetrador via Wi-Fi e ao servidor e enviar comandosa este. A Fig. 3.1 mostra o diagrama de caso de uso da modelagem UML para o sistema. Osatores são as partes que interagem com o sistema (voz, equipamentos,...). Os círculos são tarefassequenciadas e epecificadas em alto nível.

12

Page 24: INTERFACE BASEADA EM RECONHECIMENTO DE VOZ … · se crie terminologias e construções gramaticias novas a partir de modelos acústicos e de linguagem da LN. Uma LNC não é uma

Figura 3.1: Diagrama de caso de uso da modelagem UML

3.3 Software do concentrador

O sistema de reconhecimento de voz foi desenvolvido em linguagem C++. A LaPSAPI descritana Seção 2.5 é utilizada para interação com o decodificador Julius.

3.3.1 Arquivos

Os seguintes arquivos que fazem parte do software são de grande importância para o funciona-mento do reconhecedor:

• dictionary_ssp.dic: dicionário fonético em português.

• edaz.conf: arquivo de configurações do Julius.

• astus.voca: define o vocabulário utilizado (conjunto de palavras que o reconhecedor entende)e a separação das palavras em classes gramaticias.

• astus.term: associa cada uma das classes de astus.voca a um número. Este arquivo é geradopor um script.

• astus.dict: associa cada palavra do vocabulário ao número de sua. Este arquivo também égerado por um script.

13

Page 25: INTERFACE BASEADA EM RECONHECIMENTO DE VOZ … · se crie terminologias e construções gramaticias novas a partir de modelos acústicos e de linguagem da LN. Uma LNC não é uma

• astus.grammar: define a gramática do reconhecedor, cada linha desse arquivo representa umapossibilidade de ocorrência de ordem de palavras. As classes gramaticais são separadas porespaços. O reconhecedor somente aceitará frases que respeitem à gramática estabelecida.

• astus.dfa: matrix de parâmetro das frases aceitas pelo reconhecedor. Deve ser gerada a partirdos arquivos .grammar e .voca.

• LaPSAM1.7.1.am.bin: modelo acústico em português. Define o som de cada fonema utilizadono dicionário.

• LaPSLM1.7.1.lm.bin: modelo de linguagem em português. Define o uso dos fonemas emdiversas frases.

• LaPSAM1.7.1.tiedlist: define de que maneira interrupções, silêncio, suspiros, dentre outrossons adversos devem ser interpretados.

• astus.jconf: arquivo de configurações do Julius. Nele estão definidos os caminhos para osarquivos .dfa, .dict, .am.bin, .tiedlist e .conf, além de outros parâmetros do reconhecedor.

• main_astus.cpp: aplicação que utiliza a API para realizar a tarefa desejada.

3.3.2 Configurações

Após definidas as frases que seriam reconhecidas, é criado o dicionário fonético correspondenteas estas, sendo que muitas palavras já estão definidas no pacote coruja. Para sobrepor o problemade dependência do locutor a fonética de algumas palavras foi modificada buscando a melhorana precisão do sistema, outras foram definidas com duas ou mais pronúncias distintas a fim deaumentar as chances de acerto. A especificação deste projeto conta de algumas palavras na línguainglêsa. O maior desafio desta etapa é criar a fonética de palavras em inglês com fonemas emportuguês, com o cuidado de notar que palavras em inglês pronunciadas por brasileiros possuemsua fonética adaptada pelo falante.

A primeira porta do servidor (8888) é destinada para o recebimento de mesagens de comandosformatadas conforme o protocolo de comunicação definido na seção 3.5 e o envio para os equi-pamentos, além do envio de mensagens de status dos equipamentos para os quais tenha enviadocomandos. A segunda porta (5530) é configurada para receber o stream de áudio contínuo quechega pelo microfone do dispositivo móvel conectado. Portanto, o sistema recebe o áudio via socketde protocolo de comunicação TCP/IP contianuamente. O áudio que chega é avaliado e divididoem frases utilizando os espaços de silêncio entre elas. Os fragmentos de áudio contendo as frasesseparadas é então enviado para o pré-processamento.

Devido à aleatoriedade de sinais de voz e ruídos externos indesejados, um pré-processamentodeve ser realizado. O pré-processamento do sinal é configurado no arquivo .jconf. É nesta etapa quealgumas ferramentas de filtragem são aplicadas sobre o sinal de voz e em seguida ocorre a extraçãode parâmetros deste sinal. Neste trabalho é feita uma parametrização por MFCC. Durante esteprocesso ocorre uma transformação não-inversível com redução da complexidade do sinal e consisteem extrair as partes mais relevantes do sinal.

14

Page 26: INTERFACE BASEADA EM RECONHECIMENTO DE VOZ … · se crie terminologias e construções gramaticias novas a partir de modelos acústicos e de linguagem da LN. Uma LNC não é uma

3.3.3 Inicialização

Ao inciar, a aplicação configura as características de pré-processamento; carrega os modelospara reconhecimento de voz e a gramática; inicializa e busca por dispositivos USB conectados;inicializa o servidor com duas portas de acesso, uma para comandos táteis e outra para o streamde áudio; e aguarda pela conexão de um cliente. A tela inicial de configuração é mostrada na Fig.3.2.

Figura 3.2: Tela inicial de configuração do concentrador

3.3.4 Núcleo de processamento

O software foi projetado para funcionar em ciclos de um segundo. Após a conexão de algumcliente ao servidor da aplicação, esta mostra o status do sistema e passa a realizar ciclos com assequintes tarefas:

• Verifica se novos equipamentos foram conectados via USB e se algum se desconectou.

• Verifica se existe algum dispositivo tentando conexão com o servidor ou, caso já esteja co-nectado, verifica se existem mensagens no formato aceito pelo protocolo.

• Atualiza status do sistema.

• Mostra status do sistema.

A tela do concentrador mostrando o status dos equipamentos é apresentada na Fig. 3.3.

Caso alguma mensagem recebida seja um comando válido esta é reenviada para o equipamentocorreto. Já as frases que chegam continuamente pelo stream de áudio são imediatamente pré-processadas e é feita a busca conforme mostrado na seção 2.2. Caso alguma frase seja reconhecidao núcleo de processamento é interrompido para que a mensagem seja enviada e o status do sistema

15

Page 27: INTERFACE BASEADA EM RECONHECIMENTO DE VOZ … · se crie terminologias e construções gramaticias novas a partir de modelos acústicos e de linguagem da LN. Uma LNC não é uma

Figura 3.3: Tela do concentrador mostrando o status dos equipamentos

seja atualizado. A Fig. 3.4 mostra a tela do concentrador quando uma mensagem é recebida porvoz.

3.4 Aplicativo android

O tablet funciona como o front-end com o usuário. É a partir dele que o operador envia umcomando, seja este tátil ou por voz. A tela inicial apresenta botões com todas as opções possíveisde comando separados em colunas conforme o equipamento a que se refere, além dos botões notopo de Conectar ao Concentrador, Ativa Voz e Pausa Voz, como mostrado na Fig. 3.5. Antes deiniciar o aplicativo o usuário deverá ligar o computador concentrador para que este inicie o servidore se certificar de que o dispositivo móvel esteja conectado à rede WiFi criada pelo concentrador ouà mesma rede WiFi que o concentrador esteja conectado. As atividades do aplicativo são iniciadasde duas formas: ao toque de algum dos botões; ou à entrada de áudio pelo microfone configuradono dispositivo.

3.4.1 Resposta ao toque de botões

Após iniciar o aplicativo o usuário deve apertar o botão Conectar ao Concentrador para queo aplicativo android inicie o servidor e se comunique com o concentrador, o aplicativo cria dois

16

Page 28: INTERFACE BASEADA EM RECONHECIMENTO DE VOZ … · se crie terminologias e construções gramaticias novas a partir de modelos acústicos e de linguagem da LN. Uma LNC não é uma

Figura 3.4: Tela do concentrador mostrando o recebimento de um comando de voz

sockets e inicia dois clientes distintos para se conectar ao servidor com o IP do concentrador eportas de acesso que estão pré-configurados no aplicativo.

A primeira porta (8888) é destinada para o envio de mesagens de comandos pela interface tátildo tablet android para o concentrador e o recebimento de mensagens de status dos equipamentospara os quais tenha enviado comandos. A segunda porta (5530) é configurada para enviar o streamde áudio contínuo que chega pelo microfone do dispositivo móvel.

Após estabelecida a conexão o usuário pode optar por apenas enviar comandos pela interfacetátil ou iniciar a leitura de voz do microfone que estiver conectado ao dispositivo no momento oumicrofone interno caso não exista outro apertando o botão Ativa Voz. A leitura de áudio pode serdesativada a qualquer momento através do botão Pausa Voz e reiniciada novamente com o botãoAtiva Voz.

3.4.2 Resposta à entrada de áudio

Uma vez ativada a transmissão de áudio contínuo o usuário pode pronunciar os comandos,que são os mesmos que estão escritos nos botões, com uma pequena pausa entre eles. Comandosfalados sem pausa não serão identidficados de forma correta, pois o reconhecedor de voz utiliza aspausas (silêncios) para marcar o fim e começo de frases.

O usuário precisa tomar cuidado especial para evitar falar ao microfone caso não esteja envi-

17

Page 29: INTERFACE BASEADA EM RECONHECIMENTO DE VOZ … · se crie terminologias e construções gramaticias novas a partir de modelos acústicos e de linguagem da LN. Uma LNC não é uma

Figura 3.5: Tela inicial do aplicativo android

ando comandos, pois o sistema é configurado para encontrar a frase que corresponda com maiorprobabilidade a qualquer entrada de áudio que este receba, o que poderia acarretar identificaçãode algum comando de forma não intencional. O reconhecedor mostra o resultado da busca sempreque a confiança seja maior ou igual ao limite determinado.

3.5 Protocolo de Comunicação

As informações são trocadas pelos equipamentos através de mensagens bem definidas. Todosos equipamentos podem enviar e receber mensagens. As mensagens são divididas em dois tipos:comando - mensagem que demanda uma ação do equipamento que a recebe; status - mensagemque informa sobre a situação do equipamento que a envia.

A rede de comunicação é composta por seis elementos. Os seguintes elementos recebem coman-dos e enviam status : fonte de luz; insuflador; câmera; gravador. O tablet envia comandos e recebestatus. O concentrador é responsável por receber e distribuir mensagens de qualquer tipo.

O protocolo de comunicação entre os equipamentos é utilizado tanto na transmisssão de dadosde comando do tablet para os equipamentos quanto para os dados de status do sistema que sãopassados dos equipamentos para o concentrador. Este protocolo é utilizado concomitantementecom o protocolo TCP/IP.

A mensagem é composta por três bytes (vinte e quatro bits), e dividida da seguinte forma:

18

Page 30: INTERFACE BASEADA EM RECONHECIMENTO DE VOZ … · se crie terminologias e construções gramaticias novas a partir de modelos acústicos e de linguagem da LN. Uma LNC não é uma

• Byte 1: identificador do elemento de origem da mensagem.

• Bytes 2 e 3: conteúdo da mensagem. O primeiro bit identifica se a mensagem é um comandoou um status. Os seis bits seguintes indentificam o comando ou status propriamente dito.Os nove últimos bits são reservados para indicar o nível do status caso seja necessário.

• Byte 4: identificador do elemento de destino da mensagem.

• Byte 5: verificador de erros na mensagem. Este byte é reservado para utilização do algoritmode verificação de erros CRC.

Cada um dos bytes deve seguir um padrão de ocorrência de forma que a mensagem seja bemespecificada para possibilitar fácil identificação e auto correção de eventuais erros de transmissãode dados. A Fig. 3.6 mostra a estrutura de uma mensagem codificada neste protocolo.

Figura 3.6: Estrutura de uma mensagem

Os identificadores de equipamentos diferem um do outro por pelo menos dois bits, além disso,a soma dos bits de um identificador sempre deve ser igual a dois. Esses fatores contribuem parauma rápida e efetiva verificação da correta transmissão dos dados.

19

Page 31: INTERFACE BASEADA EM RECONHECIMENTO DE VOZ … · se crie terminologias e construções gramaticias novas a partir de modelos acústicos e de linguagem da LN. Uma LNC não é uma

Capítulo 4

Sistema Experimental AstusVoice

4.1 Introdução

O sistema AstusVoice de interfaceamento por voz desenvolvido foi incorporado a um aparatoexperimental para testes e validações. A interface foi instalada em um laptop representando ocomputador concentrador de informações. O aplicativo android foi instalado em um tablet paraque pudesse escutar e enviar comandos táteis e de áudio para o concentrador. Um arduíno foiutilizado para receber os comandos do concentrador via USB e realizar ações conforme o comandodo usuário. A configuração experimental está mostrada na Fig. 4.1.

Figura 4.1: Configuração experimental do sistema AstusVoice

20

Page 32: INTERFACE BASEADA EM RECONHECIMENTO DE VOZ … · se crie terminologias e construções gramaticias novas a partir de modelos acústicos e de linguagem da LN. Uma LNC não é uma

4.2 Concentrador

O laptop concentrador utilizado possui processador Intel Core 2 Duo de 2 GHz. Nele foiinstalada a última versão da distribuição Ubuntu Linux, além de um desktop mais leve paracarregamento rápido (XFCE). Foram feitas configurações de acesso para que a aplicação inicieassim que o laptop for ligado. O computador precisa estar conectado a uma rede Wi-Fi.

4.3 Tablet

O protótipo construído interage com o usuário através do tablet, por onde é possível enviarcomandos táteis e por voz para configurar os equipamentos utilizados na cirurgia laparoscópica. Otablet utilizado no experimento - Fig. 4.2 - é o Samsung Galaxy Note com tela de 10,1 polegadas ealta resolução, processador Quad Core de 1,4GHz, suporta tecnologia WiFi e Bluetooth. O tabletprecisa estar conectado à mesma rede Wi-Fi que o concentrador. Um microfone integrado comfones de ouvido foi conectado por fio ao tablet para a entrada de voz.

Figura 4.2: Tablet utilizado no experimento

4.4 Arduíno

Os equipamentos da Astus Medical para vídeo laparoscopia ainda estão em preparação paraintegração ao sistema. Portanto, um arduíno faz o papel dos equipamentos médicos nos testes.Este recebe as mensagens do concentrador via USB executa ações simplesmente demonstrativas,como o acendimento de LEDs e mostrar os comandos em uma tela LCD.

21

Page 33: INTERFACE BASEADA EM RECONHECIMENTO DE VOZ … · se crie terminologias e construções gramaticias novas a partir de modelos acústicos e de linguagem da LN. Uma LNC não é uma

4.5 Testes e resultados

O sistema foi testado a fim de validar os resultados obtidos pelo reconhecedor de voz em se-parado. Os testes foram conduzidos em ambiente fechado. O sistema foi testado por dez pessoas,sendo metade brasileiros e a outra metado de falantes da língua espanhola, ambos falando emportuguês. As pessoas foram convidadas a falar uma lista contendo uma vez cada um dos co-mandos aceitos pelo sistema - a lista se encontra nos Anexos - em variadas situações de ruído,como ar condicionado e conversas paralelas, bem como para variadas distâncias do tablet para oconcentrador.

Os resultados experimentais são mostrados nas tabelas 4.1 e 4.2.

Tabela 4.1: Precisão em ambientes variados - 2 m do concentrador

Ambiente Tempo de resposta WER Precisão[s] % %

silencioso 1,956 11 89ar condicionado 2,095 16 84conversa baixa 2,101 15 85conversa alta 2,124 45 55

Tabela 4.2: Precisão para distâncias variadas do tablet para o concentrador - ambiente silencioso

Distância Tempo de resposta WER Precisão[s] % %

0,5m 1,930 12 882,0m 2,116 14 865,0m 2,110 12 88

Os resultados obtidos estão dentro do esperado conforme mostrado na seção 2.7, deveriam ficarentre 75% e 90%, exceto para o caso em que existem pessoas conversando em alto volume próximodo microfone. O tempo de resposta condiz com uma aplicação em tempo real para todos os casos,com uma média de aproximadamente 2 segundos entre o fim da pronúncia da frase até a mudançado status no sistema na tela do concentrador. Estes tempos não consideram casos em que a frasenão foi identificada, pois nestes casos a confiabilidade no resultado é menor que o valor limiteconfigurado e o reconhecedor não deve mostrar nenhuma resposta.

22

Page 34: INTERFACE BASEADA EM RECONHECIMENTO DE VOZ … · se crie terminologias e construções gramaticias novas a partir de modelos acústicos e de linguagem da LN. Uma LNC não é uma

Capítulo 5

Conclusões

5.1 Conclusões finais

Este trabalho caracteriza-se pelo estudo de ferramentas atreladas a sistemas de reconhecimentode voz e o uso de uma API contendo essas ferramentas para a construção de uma aplicaçãoque relacione, através de um protocolo de comunicação definido, comandos de voz com ações deequipamentos eletromédicos utilizados em cirurgias de vídeo laparoscopia. Ainda, foi foco destetrabalho o desenvolvimento de aplicativo android para leitura e envio de comandos táteis e áudio.

Os resultados mostraram que apesar dos entraves tecnológicos em se trabalhar com reconhe-cimento de voz para PT-BR devido à escassez de material de grande porte e de qualidade, é reala possibilidade de uso deste tipo de sistema em procedimentos cirúrgicos de laparoscopia apósrefinamento do layout e do design do sistema como um todo.

5.2 Trabalhos Futuros

Neste trabalho as mensagens de comando são enviadas para um arduíno que por sua vezrealiza alguma ação para determinados comandos, além disso o status dos equipamentos é enviadoapenas para o concentrador. Portanto, trabalhos futuros se concentrarão em integrar o sistemadesenvolvido aos equipamentos de laparoscopia e enviar o status de cada equipamento para o tableta fim de que seja exibido de forma mais evidente para o usuário. Para tal, faz-se necessária umamudança do layout do aplicativo android de forma que este não apenas contenha botões, e simpequenos botões e visualizadores das configurações selecionadas nos equipamentos.

Vislumbra-se também a possibilidade de utilizar o sistema aprimorado de reconhecimento porvoz em outros procedimentos médicos que também fazem uso de equipamentos eletromédicos di-gitais, tais como ablação hepática e cardíaca e ressonancia magnética.

23

Page 35: INTERFACE BASEADA EM RECONHECIMENTO DE VOZ … · se crie terminologias e construções gramaticias novas a partir de modelos acústicos e de linguagem da LN. Uma LNC não é uma

REFERÊNCIAS BIBLIOGRÁFICAS

[1] LAPAROSCOPIA Ginecológica. https://www.operarme.es/noticia/19/

en-que-consiste-la-laparoscopia. Accessado em: 15/12/2013.

[2] ASTUS Estrutura Ótica do Laparoscópio. http://www.astusmedical.com.br/_web/

servicos/. Accessado em: 13/11/2013.

[3] UNIVERSIA. http://mit.universia.com.br/6/6345/PDF/lecture1.pdf. Accessado em:14/12/2013.

[4] HMM. http://masters.donntu.edu.ua/2008/fvti/verenich/library/th_eng.htm. Acces-sado em: 14/12/2013.

[5] BATISTA, P. dos S. Avanços em Reconhecimento de Fala para Português Brasileiro e Aplica-ções: Ditado no LibreOffice e Unidade de Resposta Audível com Asterisk. Dissertação (Mestrado)— Instituto de Tecnologia, Universidade Federal do Pará, Brasil, 2013.

[6] UCSANDIEGO About Minimally Invasive Surgery. http://health.ucsd.edu/specialties/surgery/mis/about/Pages/default.aspx. Accessado em: 13/11/2013.

[7] HATZINGER, M. et al. Hans christian jacobaeus: Inventor of human laparoscopy and thora-coscopy. Journal of Endourology, v. 20, n. 11, p. 848–850, December 2006.

[8] EM que consiste a laparoscopia? http://www.abc.med.br/p/exames-e-procedimentos/

357764/laparoscopia+o+que+e+como+e+quais+sao+as+desvantagens+e+os+riscos.htm. Ac-cessado em: 12/12/2013.

[9] KALJURAND, K.; ALUMäE, T. Controlled natural language in speech recognition based userinterface. In: Third Workshop on Controlled Natural Language. [S.l.: s.n.], 2012. p. 79–94.

[10] CMU Sphyinx. http://cmusphinx.sourceforge.net/. Accessado em: 12/12/2013.

[11] JULIUS. http://julius.sourceforge.jp/en_index.php. Accessado em: 12/12/2013.

[12] CEUSTERS, W. et al. From a time standart for medical informatics to a controlled langagefor health. International Journal of Medical Informatics, v. 48, p. 85–101, February 1998.

[13] RABINER, L.; SCHAFER, R. Digital Processing of Speech Signal. [S.l.]: Prentice-Hall, 1978.

24

Page 36: INTERFACE BASEADA EM RECONHECIMENTO DE VOZ … · se crie terminologias e construções gramaticias novas a partir de modelos acústicos e de linguagem da LN. Uma LNC não é uma

[14] KINJO, T.; FUNAKI, K. On hmm speech recognition based on complex speech analysis. In:IEEE 32nd Annual Conference on Industrial Electronics. [S.l.: s.n.], 2006. p. 3477 – 3480.

[15] HERACLEOUS, P. et al. Analysis and recognition of nam speech using hmm distances andvisual information. IEEE Transactions on Audio, Speech, and Language Processing, v. 18, n. 6,p. 1528 – 1538, August 2010.

[16] REVATHI, A.; VENKATARAMANI, Y. Speaker independent continuous speech and isolateddigit recognition using vq and hmm. In: International Conference on Communications andSignal Processing. [S.l.: s.n.], 2011. p. 198 – 202.

[17] LISHUANG, Z.; ZHIYAN, H. Speech recognition system based on integrating feature andhmm. In: International Conference on Measuring Technology and Mechatronics Automation.[S.l.: s.n.], 2010. p. 449 – 452.

[18] LIU, C.-Y. et al. Hmm and bpnn based speech recognition system for home service robot. In:International Conference on Advanced Robotics and Intelligent Systems. [S.l.: s.n.], 2013. p. 38– 43.

[19] NAJKAR, N.; RAZZAZI, F.; SAMETI, H. A novel approach to hmm-based speech recognitionsystems using particle swarm optimization. International Journal of Mathematical and ComputerModelling, v. 52, p. 1910 – 1920, September 2010.

[20] CAI, J. et al. Efficient likelihood evaluation and dynamic gaussian selection for hmm-basedspeech recognition. International Journal of Computer Speech and Language, v. 23, p. 147 Ű164, April 2009.

[21] HUANG, X.; ACERO, A.; HON, H. Spoken Language Processing. [S.l.]: Prentice-Hall, 2001.

[22] SCHULLER, B. et al. Robust speech recognition for human-robot interaction in minimalinvasive surgery. In: 4th Russian-Bavarian Conference on Bio-Medical Engineering. [S.l.: s.n.],2008.

[23] MUNOZ, V. et al. A medical robotic assistant for minimally invasive surgery. In: IEEEInternational Conference on Robotics and Automation. [S.l.: s.n.], 2000.

[24] L.METTLER; M.IBRAHIM; W.JONA. One year of experience working with the aid of arobotic assistant (the voice-controlled optic holder esop*) in gynaecological endoscopic surgery.Oxford Journal on Human Reprodution, v. 13, p. 2748Ű2750, 1998.

[25] ENDOCONTROL. http://www.summitmedicalgroup.com/press-release/

First-General-Surgery-Case-Performed-With-ViKY/. Accessado em: 15/12/2013.

[26] ENDOCONTROL. http://www.endocontrol-medical.com/press_release/PR_ViKY_UP.

pdf. Accessado em: 15/12/2013.

[27] SCHULLER, B. et al. Emotion sensitive speech control for human-robot interaction in mi-nimal invasive surgery. In: IEEE International Symposium on Robot and Human InteractiveCommunication. [S.l.: s.n.], 2008. p. 453 – 458.

25

Page 37: INTERFACE BASEADA EM RECONHECIMENTO DE VOZ … · se crie terminologias e construções gramaticias novas a partir de modelos acústicos e de linguagem da LN. Uma LNC não é uma

[28] FERNáNDEZ-LOZANO et al. A telerobotic system for remote surgical collaboration withcommunications delay. In: ESA Workshop on Advanced Space Technologies for Robotics andAutoma. [S.l.: s.n.], 2002.

26

Page 38: INTERFACE BASEADA EM RECONHECIMENTO DE VOZ … · se crie terminologias e construções gramaticias novas a partir de modelos acústicos e de linguagem da LN. Uma LNC não é uma

ANEXOS

27

Page 39: INTERFACE BASEADA EM RECONHECIMENTO DE VOZ … · se crie terminologias e construções gramaticias novas a partir de modelos acústicos e de linguagem da LN. Uma LNC não é uma

I. COMANDOS DE VOZ

COMANDOS GERAISIniciar Procedimento - ativa reconhecimento de vozPausar Procedimento - pausa reconhecimento de vozRetomar Procedimento - reativa reconhecimento de voz quando pausadoFinalizar Procedimento - finaliza aplicação

FONTE DE LUZLiga Fonte de Luz - liga equipamento de iluminaçãoDesliga Fonte de Luz - desliga equipamento de iluminaçãoMais Luz - aumenta a luminosidadeMenos Luz - reduz a luminosidade

CÂMERALiga Câmera - liga câmera acoplada ao laparoscópioDesliga Câmera - desliga câmera acoplada ao laparoscópioWhite Balance - ativa função de balanceamento de imagemZoom - aplica zoom à imagemCom Ganho - aplica ganho à imagemSem Ganho - retira ganho da imagemUser 1 -seleciona configurações do usuário 1User 2 - seleciona configurações do usuário 2Endoflexível - carrega configurações tipo endoflexível

INSUFLADORLiga Insuflador - liga equipamento de insuflaçãoDesliga Insuflador - desliga equipamento de insuflaçãoStart - inicia insuflaçãoStop - para insuflaçãoReset - zera as configurações de pressão, fluxo e tempo de insuflaçãoAumenta Pressão - aumenta pressão de insuflaçãoDiminui Pressão - diminui pressão de insuflaçãoAumenta Fluxo - aumenta fluxo de insuflaçãoDiminui Fluxo - diminui fluxo de insuflação1 Litro por Minuto - configura fluxo de insuflação em 1 l/min3 Litros por Minuto - configura fluxo de insuflação em 3 l/min45 Litros por Minuto - configura fluxo de insuflação em 45 l/minTemperatura On - liga controle de temperaturaTemperatura Off - desliga controle de temperatura

28

Page 40: INTERFACE BASEADA EM RECONHECIMENTO DE VOZ … · se crie terminologias e construções gramaticias novas a partir de modelos acústicos e de linguagem da LN. Uma LNC não é uma

Liga Alarme - liga alarme de avisoDesliga Alarme - desliga alarme de aviso

GRAVADORLiga Gravador - liga equipamento de gravaçãoDesliga Gravador - desliga equipamento de gravaçãoInicia Gravação - inicia gravação de vídeoPára Gravação - para gravação de vídeoFoto - tira uma foto a partir do vídeo

29