Novos recursos do Aelius para o processamento computacional raso do português

Embed Size (px)

DESCRIPTION

ALENCAR, Leonel Figueiredo de. Novos recursos do Aelius para o processamento computacional raso do português. In: LAPORTE, E.; SMARSARO, A.; VALE, O. (Orgs.). Dialogar é preciso: linguística para o processamento de línguas.1 ed.Vitória: PPGEL/UFES, 2013, p. 7-20. ISBN: 978-85-8087-104-3 Resumo: A fim de tornar acessível a estudantes e pesquisadores de Letras e Linguística a análise automática de textos por meio de diversas bibliotecas livremente disponíveis e como forma de iniciação na linguística computa- cional, também por parte de alunos de engenharia e computação, iniciamos o desenvolvimento do Aelius. Esse software, implementado em Python com base no NLTK, constitui-se de ferramentas específicas para o processamento sintático raso do português, complementando, desse modo, essa biblioteca, carente de recursos para essa língua, ao mesmo tempo em que oferece uma interface ainda mais amigável, viabilizando, desse modo, a sua utilização por não programadores. Neste artigo, focamos os novos recursos do Aelius para a toquenização e etiquetagem morfossintática do português, comparan- do-os com os da biblioteca Apache OpenNLP, aparentemente a caixa de fer- ramentas para o PALN que mais se aproxima do NLTK. Nessa comparação, o Aelius revelou-se uma alternativa superior no que concerne à toquenização e etiquetagem morfossintática do português, não só por apresentar melhor acurácia, mas também por permitir anotar textos morfossintaticamente se- gundo estratégias diferentes de toquenização e conforme conjuntos de eti- quetas distintos, inclusive por meio de ferramentas externas, a partir de uma única interface. Palavras-chave: Análise sintática rasa. Toquenização. Etiquetagem morfos- sintática automática. Anotação de corpora linguísticos. NLTK. Python.