Upload
augusto-herrmann-batista
View
143
Download
1
Embed Size (px)
Citation preview
Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos
Extração Automática de DefiniçõesUm Estudo de Caso em Textos Legislativos
Augusto Herrmann Batista
Orientador: Edilson FernedaCo-orientador: Hércules Antonio do Prado
Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos
Roteiro
Contextualização e Motivação Problema Objetivos Revisão da Literatura (EI e ED) Referencial Teórico Metodologia Resultados e Discussão Conclusões e Trabalhos Futuros
Ref.: pág. 13
Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos
Contextualização e Motivação
Por que se fazer um Glossário? Facilitar o aprendizado Fixar conceitos Externalizar um jargão Evitar ambiguidades Reduzir ruídos de comunicação
Ref.: págs. 10 a 12
Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos
Contextualização e Motivação
Extração Manual Tarefa Dispendiosa Grande Volume de Textos
Obs.: ainda está sujeita a desacordo entre anotadores!
Ref.: págs. 10 a 12, 39 e 40
Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos
Problema
Problema ”Dado um conjunto de textos em linguagem natural
em língua portuguesa, em meio eletrônico, como extrair automaticamente um conjunto de termos e definições originalmente apresentados de forma não-estruturada visando a construção de um glossário?”
Ref.: pág. 12
Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos
Objetivos
Objetivo Geral Elaborar um método de extração de definições a
partir de textos em língua portuguesa aplicando técnicas de processamento de linguagem natural
Objetivos Específicos Estudar técnicas existentes em ED Selecionar, adaptar e combinar Efetuar estudo de caso e aplicar a técnica
Ref.: pág. 12
Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos
Revisão de Literatura
Origens na Extração de Informação (EI) Revisões de Muslea (1999) e Sarawagi (2007) Uso de sequências de padrões sintáticos e slots
(e.g. AutoSlog – RILOFF, 1993) Proximidade semântica com uso do Wordnet
(MILLER, 1995) Aprendizagem de máquina estatística
Modelos Markovianos Ocultos (HMM) Entropia Máxima (MEMM) Campos Aleatórios Condicionais (CRF)
Modelos Híbridos (regras + aprendizagem)Ref.: págs. 14 a 23
Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos
Revisão de Literatura
Problemas Relacionados à Extração de Definições (ED) Origem: sistemas de resposta automática a
perguntas (e.g. SAGGION, 2004) ”Quem é … ?” ”O que é um … ?”
Extração de Tesauros (e.g., CURRAN e MOENS, 2002)
Apoio à Construção de Ontologias (e.g., MALAISÉ, 2005, apud ALARCÓN et al, 2007; GANGEMI et al, 2003 apud NAVIGLI e VELARDI, 2010)
Ref.: págs. 24 a 26
Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos
Revisão de Literatura
Abordagens em ED Baseadas em regras / padrões morfossintáticos
(e.g. TANEV et al, 2005) Baseadas em aprendizagem de máquina estatística
(e.g. FAHMI e BOUMA, 2006) Bayesiano Ingênuo Entropia Máxima Máquinas de Vetor de Suporte (MVS) Algortimos Genéticos (BORG et al, 2007)
Ref.: págs. 25, 29, 30 e 35
Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos
Revisão de Literatura
ED em Língua Portuguesa Pinto e Oliveira (2004)
Corpógrafo – Textos de Medicina Identificação manual de estruturas sintáticas comuns Construção de expressões regulares
Del Gaudio e Branco (2007, 2009) Textos em TI e EAD Gramática baseada em regras
Ref.: págs. 30 a 32
Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos
Referencial Teórico
Definições Genus et differentia – Aristóteles
definiendum genus differentia
Shaw (1922): por etimologia por análise (ou intensional) por exclusão por exemplo (ou extensional)
Ref.: págs. 47 a 49
Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos
Referencial Teórico
Etiquetagem Morfossintática presente na cadeia de processamento de PLN atribui etiquetas com o papel desempenhado pelo
segmento na frase Tipos de etiquetadores
Expressões Regulares Estatísticos N-Gramas Aprendizagem baseada em transformações
(BRILL, 1993 apud BIRD et al, 2009)
Ref.: págs. 49 a 54
Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos
Referencial Teórico
Máquinas de Vetor de Suporte abordagem de aprendizagem de máquina para
problemas de classificação classifica vetores n-dimensionais
cada dimensão representa uma característica separador que maximiza a margem entre as
classes de vetores
Ref.: págs. 54 a 57
Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos
Metodologia
Ref.: Figura 12, pág. 58
Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos
Metodologia
Corpus de experimentação – Coleção Brasileira do Direito das Telecomunicações (ARANHA e LIMA, 2009) 1.940 documentos com 6.120.832 tokens
Leis, Decretos, Resoluções, Jurisprudência 1.757 termos no glossário 2.097 definições
Ref.: págs. 59 a 60
Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos
Metodologia
”Problemas” no corpus faltam alguns documentos referenciados
Ex.: ”Acessórios”, referencia a Resolução da ANATEL nº 533, de 10/09/2009. O documento não consta no corpus.
correções ortográficas Ex.: no Anexo à Resolução da ANATEL nº 297, de
10/05/2002 está: ”questão específca”. No glossário, ”questão específica”.
definições omitidas Ex.: ”contratante” e ”contratado” na Lei 8.666/1993
Ref.: págs. 60 a 62
Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos
Metodologia
Pré-processamento conversão de formatos filtragem para sanear os problemas
Segmentação por períodos por palavras
Ref.: págs. 61 a 62
Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos
Metodologia
Etiquetagem morfossintática treino no corpus MAC-MORPHO (ALUÍSIO et al,
2003) divisão de treino/testes 90%/10% acurácia: 90,44%
Ref.: págs. 62 a 65
Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos
Metodologia
Funções extratoras de características (FEC) retornam um valor numérico ou binário
normalizado para a faixa [0, 1] exemplos:
o segmento contém o verbo ”ser” seguido de um determinante?
o segmento contém dois pontos (”:”) entre as cinco primeiras posições?
exemplos de características negativas: palavra não seguida por conjugação do verbo ”ser”
Ref.: págs. 65 a 66
Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos
Metodologia
Treino Coleção Brasileira de Direito das
Telecomunicações (ARANHA e LIMA, 2009) amostragem aleatória de 70% dos períodos
utilizados para treino normalização dos valores das FEC resposta de referência (”gold standard”) balanceamento da quantidade de instâncias
Aplicação 30% restantes para aplicação e validaçãoRef.: págs. 67 a 69
Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos
Metodologia
Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos
Resultados e Discussão
Resultados acurácia: 73,5% precisão: 75,6% Revocação: 69,6%
Matriz de confusão:
PrediçãoCorreção
Negativa Positiva
Negativa 30538,7%
8911,3%
Positiva 12015,2%
27534,9%
Ref.: págs. 70 a 71
Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos
Conclusões
Atingidos os objetivos geral e específicos estudo das técnicas existentes escolha de uma abordagem p/ construir glossário estudo de caso
Poucos trabalhos em língua portuguesa, nenhum aplicado a textos normativos
Primeiro passo para a construção de glossários (revisão manual)
Ref.: pág. 72
Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos
Trabalhos Futuros
Construção de corpus anotado manualmente revisado
Aplicação em outras áreas do conhecimento Uso de programação genética e outras, aplicadas
à língua portuguesa
Ref.: págs. 72 a 75