28
Metodologia de Pré- processamento Textual para Extração de Informação em Artigos Científicos do Domínio Biomédico Universidade Federal de São Carlos - UFSCar Departamento de Computação - DC Programa de Pós-Graduação em Ciência da Computação - PPGCC Aluno: Pablo Freire Matos Orientador: Dr. Ricardo Rodrigues Ciferri Coorientador: Dr. Thiago Alexandre S. Pardo Área: Banco de Dados

Metodologia de Pré-processamento Textual para Extração de Informação em Artigos Científicos do Domínio Biomédico Universidade Federal de São Carlos - UFSCar

Embed Size (px)

Citation preview

Page 1: Metodologia de Pré-processamento Textual para Extração de Informação em Artigos Científicos do Domínio Biomédico Universidade Federal de São Carlos - UFSCar

Metodologia de Pré-processamento Textual para Extração de Informação em

Artigos Científicos do Domínio Biomédico

Universidade Federal de São Carlos - UFSCarDepartamento de Computação - DC

Programa de Pós-Graduação em Ciência da Computação - PPGCC

Aluno: Pablo Freire MatosOrientador: Dr. Ricardo Rodrigues Ciferri

Coorientador: Dr. Thiago Alexandre S. Pardo Área: Banco de Dados

Page 2: Metodologia de Pré-processamento Textual para Extração de Informação em Artigos Científicos do Domínio Biomédico Universidade Federal de São Carlos - UFSCar

Roteiro Introdução

Contexto Objetivos

Proposta de Dissertação

WTDBD/SBBD08/10/092/20

Page 3: Metodologia de Pré-processamento Textual para Extração de Informação em Artigos Científicos do Domínio Biomédico Universidade Federal de São Carlos - UFSCar

Roteiro Introdução

Contexto Objetivos

Proposta de Dissertação

WTDBD/SBBD08/10/093/20

Page 4: Metodologia de Pré-processamento Textual para Extração de Informação em Artigos Científicos do Domínio Biomédico Universidade Federal de São Carlos - UFSCar

Contextualização

Quantidade imensa de informação disponível

Humanos não são capazes de assimilar todo esse conteúdo

Informação via e-mail, blogs, wikis, artigos... + de 80% das informações estão em formato de texto

WTDBD/SBBD

Tan (1999) e Chen (2001)

08/10/09

Grantz (2007)

4/20

Page 5: Metodologia de Pré-processamento Textual para Extração de Informação em Artigos Científicos do Domínio Biomédico Universidade Federal de São Carlos - UFSCar

Contextualização PubMed

+ de 18 milhões de artigos (desde 1966) MEDLINE (área de ciências + biomedicina)

Entrez - Sistema integrado do NCBI 35 bases com 350 milhões de registros Sickle Cell Anemia

15.748 registros do PubMed (citações e resumos) 3.463 do PubMed Central (artigos completos)

WTDBD/SBBD08/10/095/20

Page 6: Metodologia de Pré-processamento Textual para Extração de Informação em Artigos Científicos do Domínio Biomédico Universidade Federal de São Carlos - UFSCar

Contextualização Infinidade de meios de publicação

American Journal of Hematology, Blood, British Journal of Haematology, Haematologica, The New England Journal of Medicine,…

Leva tempo para ler e identificar as principais informações do artigo

Solução: Mineração de Textos

WTDBD/SBBD08/10/096/20

Page 7: Metodologia de Pré-processamento Textual para Extração de Informação em Artigos Científicos do Domínio Biomédico Universidade Federal de São Carlos - UFSCar

Objetivos Identificar e extrair informações novas, úteis e

interessantes em artigos científicos sobre a doença Anemia Falciforme

Foco: efeitos positivos e negativos (do tratamento)

Organização e armazenamento de informação em um BD para posterior mineração

WTDBD/SBBD08/10/097/20

Page 8: Metodologia de Pré-processamento Textual para Extração de Informação em Artigos Científicos do Domínio Biomédico Universidade Federal de São Carlos - UFSCar

BD

Exemplo de Extração de Termos

WTDBD/SBBD

she died during the second year of therapy from acute severe anemia during an episode of splenic sequestration

Efeito Negativo

in some adolescents poor compliance was evidentOutros

BDBD

Reductions in the frequency of chest syndrome and the number of transfusions strengthen the conclusion that hydroxyurea is a useful agent in sickle cell anemia

Reductions in the frequency of chest syndromeReductions in the number of transfusionsepisode of splenic sequestration

08/10/09

Aprendizado de Máquina Regras e Dicionário

EfeitoPositivo

8/20

Page 9: Metodologia de Pré-processamento Textual para Extração de Informação em Artigos Científicos do Domínio Biomédico Universidade Federal de São Carlos - UFSCar

Roteiro Introdução Proposta de Dissertação

WTDBD/SBBD08/10/099/20

Page 10: Metodologia de Pré-processamento Textual para Extração de Informação em Artigos Científicos do Domínio Biomédico Universidade Federal de São Carlos - UFSCar

Processo de MT

WTDBD/SBBD08/10/09

É uma das fases mais críticas Feldman e Sanger (2007)

10/20

Page 11: Metodologia de Pré-processamento Textual para Extração de Informação em Artigos Científicos do Domínio Biomédico Universidade Federal de São Carlos - UFSCar

Metodologia de Pré-processamento

WTDBD/SBBD08/10/0911/20

Page 12: Metodologia de Pré-processamento Textual para Extração de Informação em Artigos Científicos do Domínio Biomédico Universidade Federal de São Carlos - UFSCar

Pré-processamento Textual

WTDBD/SBBD08/10/0912/20

Page 13: Metodologia de Pré-processamento Textual para Extração de Informação em Artigos Científicos do Domínio Biomédico Universidade Federal de São Carlos - UFSCar

Processo Geral de Extração de Informação

WTDBD/SBBD08/10/0913/20

Page 14: Metodologia de Pré-processamento Textual para Extração de Informação em Artigos Científicos do Domínio Biomédico Universidade Federal de São Carlos - UFSCar

Categorização

WTDBD/SBBD

MOVER

Saída

Treinamento

Efeito Negativo

Efeito Positivo

Outros

Teste

Diversos arquivos com sentenças de efeito positivo

Diversos arquivos com sentenças de efeito negativo

Diversos arquivos com sentenças de outros

Novo textoTXT

Conjunto desentençasclassificadas em classes

Cla

sses

Anthony e Lashkia (2003)

Precisão de 68%

08/10/0914/20

Page 15: Metodologia de Pré-processamento Textual para Extração de Informação em Artigos Científicos do Domínio Biomédico Universidade Federal de São Carlos - UFSCar

Sentenças classificadas - Mover

WTDBD/SBBD08/10/0915/20

Page 16: Metodologia de Pré-processamento Textual para Extração de Informação em Artigos Científicos do Domínio Biomédico Universidade Federal de São Carlos - UFSCar

Análise dos Resultados - Classificação Taxa de Precisão (P)

Baseline ≤ P ≤ Topline Baseline: Mover Topline: Taxa de precisão humana

50 sentenças (efeito positivo, efeito negativo e outros) Kappa de 6 anotadores (65,20%)

WTDBD/SBBD08/10/09

Ganho de 18,99%

Ganho de 27,01%

16/20

Page 17: Metodologia de Pré-processamento Textual para Extração de Informação em Artigos Científicos do Domínio Biomédico Universidade Federal de São Carlos - UFSCar

Considerações Sobre a Classificação Pré-processamento: 3 classes (Complicação, Benefício

e Outro) Matriz atributo-valor

Frequência mínima = 2 1 a 3 gramas sem stopword e sem stemmer

Eliminar Ruído com J48 Balanceamento (Bias 1 em Java - Mantém a distribuição das

classes) Seleção de Atributo (Meta)

Ganho de Informação

Classificador Naive Bayes Support Vector Machine

WTDBD/SBBD08/10/0917/20

Page 18: Metodologia de Pré-processamento Textual para Extração de Informação em Artigos Científicos do Domínio Biomédico Universidade Federal de São Carlos - UFSCar

Extração de Informação: Dicionário + Regras1. Identificar verdadeiro positivo (efeito positivo)

2. Eliminar falso positivo (fator de risco)

3. Elaborar como recuperar falsos negativos

WTDBD/SBBD

reductions in the frequency of chest syndrome and the number of transfusions strengthen the conclusion that hydroxyurea is a useful agent in sickle cell anemia

1

in scd children hydroxyurea has been shown to decrease the rate and the intensity of painful events and the number of days of hospitalization

2

hydroxyurea therapy can ameliorate the clinical course of sickle cell anemia in some adults with three or more painful crises per year

3

treatment was also stopped in another patient because of the first occurrence of pathological tcd velocities

4

08/10/0918/20

Page 19: Metodologia de Pré-processamento Textual para Extração de Informação em Artigos Científicos do Domínio Biomédico Universidade Federal de São Carlos - UFSCar

Análise dos Resultados - Extração Precisão, Revocação e Medida-F (Extração

de Informação)

Comparação com outros trabalhos

WTDBD/SBBD08/10/0919/20

Page 20: Metodologia de Pré-processamento Textual para Extração de Informação em Artigos Científicos do Domínio Biomédico Universidade Federal de São Carlos - UFSCar

Quatro Experimentos

1. Regras

2. Regras e Dicionário

3. AM e Regras

4. AM, Regras e Dicionário

WTDBD/SBBD08/10/0920/20

Page 21: Metodologia de Pré-processamento Textual para Extração de Informação em Artigos Científicos do Domínio Biomédico Universidade Federal de São Carlos - UFSCar

Metodologia de Pré-processamento Textual Voltada à Extração de Informação em Artigos Científicos do Domínio

Biomédico

Universidade Federal de São Carlos - UFSCarDepartamento de Computação - DC

Programa de Pós-Graduação em Ciência da Computação - PPGCC

Dúvidas?

Aluno: Pablo Freire MatosOrientador: Dr. Ricardo Rodrigues Ciferri

Coorientador: Dr. Thiago Alexandre S. Pardo Área: Banco de Dados

Page 22: Metodologia de Pré-processamento Textual para Extração de Informação em Artigos Científicos do Domínio Biomédico Universidade Federal de São Carlos - UFSCar

Cronograma de Atividades

WTDBD/SBBD

Defesa do exame de qualificaçãoClassificação manual (anotadores: 3 médicos e 3 leigos) em três classes de 50 sentenças e cálculo da medida de concordância KappaTreinamento e teste no classificador Mover de 500 a 1.500 sentenças identificadas manualmente nos artigos. Calcular a acurácia.

Desenvolvimento do módulo de extração de efeitos da AF(abordagem baseada em regras e dicionário)Avaliar a extração de informação com as medidas de precisão, revocação e Medida-FRedação e submissão de artigo aos encontros qualificados de Ciência da ComputaçãoConcepção e projeto da ferramenta SCAeXtractor, integrando o módulo de classificação e o de extração nesta ferramenta para o processo de extração de informação ser realizado de forma transparente e automática

Realização dos quatros testes propostos na análise dos resultadosPossibilitar ao especialista do domínio visualizar e validar o resultado da extração de informaçãoRedação da dissertação de mestrado

Preparação e defesa da dissertação

08/10/0922/20

Page 23: Metodologia de Pré-processamento Textual para Extração de Informação em Artigos Científicos do Domínio Biomédico Universidade Federal de São Carlos - UFSCar

Referências ANTHONY, L.; LASHKIA, G. V. Mover: a machine learning tool to assist in the

reading and writing of technical papers. IEEE Transactions on Professional Communication, v. 46, n. 3, p. 185-193, 2003.

ARANHA, C. N. Uma abordagem de pré-processamento automático para mineração de textos em português: sob o enfoque da inteligência computacional. 144 f. Tese (Doutorado em Engenharia Elétrica) – Departamento de Engenharia Elétrica, Pontifícia Universidade Católica do Rio de Janeiro, Rio de Janeiro, 2007.

BREMER, E. G. et al. Text mining of full text articles and creation of a knowledge base for analysis of microarray data. In: KNOWLEDGE EXPLORATION IN LIFE SCIENCE INFORMATICS (KELSI), 2004, Milan, Italy. Proceedings... 2004. p. 84-95.

CHEN, H. Knowledge management systems: a text mining perspective. Tucson, AZ: University of Arizona, 2001.

CORNEY, D. P. A. et al. BioRAT: extracting biological information from full-length papers. Bioinformatics, v. 20, n. 17, p. 3206-3213, 2004.

WTDBD/SBBD08/10/0923/20

Page 24: Metodologia de Pré-processamento Textual para Extração de Informação em Artigos Científicos do Domínio Biomédico Universidade Federal de São Carlos - UFSCar

Referências (cont. 1) FELDMAN, R.; DAGAN, I. Knowledge discovery in textual databases (KDT). In:

INTERNATIONAL CONFERENCE ON KNOWLEDGE DISCOVERY AND DATA MINING (KDD), 1995, Montréal, Québec. Proceedings... Menlo Park, CA: AAAI Press, 1995. p. 112-117.

FELDMAN, R.; SANGER, J. The text mining handbook: advanced approaches in analyzing unstructured data. New York: Cambridge University Press, 2007. 391 p.

GARTEN, Y.; ALTMAN, R. Pharmspresso: a text mining tool for extraction of pharmacogenomic concepts and relationships from full text. BMC Bioinformatics, v. 10, p. S6, 2009. Suppl. 2.

GANTZ, J. F. et al. The expanding digital universe: a forecast of worldwide information growth through 2010. IDC Whitepaper, 2007.

HEARST, M. A. Untangling text data mining. In: ANNUAL MEETING OF THE ASSOCIATION OF COMPUTATIONAL LINGUISTICS, 37th, 1999, College Park, Maryland. Proceedings... Morristown, NJ: Association for Computational Linguistics, 1999. p. 3-10.

WTDBD/SBBD08/10/0924/20

Page 25: Metodologia de Pré-processamento Textual para Extração de Informação em Artigos Científicos do Domínio Biomédico Universidade Federal de São Carlos - UFSCar

Referências (cont. 2) IMAMURA, C. Y.-M. Pré-processamento para extração de conhecimento de

bases textuais. 103 f. Dissertação (Mestrado em Ciência de Computação e Matemática Computacional) – Instituto de Ciências Matemáticas e de Computação, Universidade de São Paulo, São Carlos, 2001.

MARTINS, C. A. Uma abordagem para pré-processamento de dados textuais em algoritmos de aprendizado. 174 f. Tese (Doutorado em Ciência de Computação e Matemática Computacional) – Instituto de Ciências Matemáticas e de Computação, Universidade de São Paulo, São Carlos, 2003.

MINISTÉRIO DA SAÚDE. Doença falciforme e outras hemoglobinopatias: anemia falciforme. 2008.

NATIONAL CENTER FOR BIOTECHNOLOGY INFORMATION. PubMed. 2009. Disponível em: <http://www.ncbi.nlm.nih.gov/pubmed/>. Acesso em: 16 mar. 2009.

NATIONAL CENTER FOR BIOTECHNOLOGY INFORMATION. Entrez, the life sciences search engine. 2009. Disponível em: <http://www.ncbi.nlm.nih.gov/Entrez/>. Acesso em: 26 mar. 2009.

SCHUEMIE, M. J. et al. Distribution of information in biomedical abstracts and full-text publications. Bioinformatics, v. 20, n. 16, p. 2597-2604, 2004.

WTDBD/SBBD08/10/0925/20

Page 26: Metodologia de Pré-processamento Textual para Extração de Informação em Artigos Científicos do Domínio Biomédico Universidade Federal de São Carlos - UFSCar

Referências (cont. 3) ______. Evaluation of techniques for increasing recall in a dictionary approach

to gene and protein name identification. Journal of Biomedical Informatics, v. 40, n. 3, p. 316-324, 2007.

TAN, A.-H. Text mining: the state of the art and the challenges. In: KNOWLEDGE DISCOVERY FROM ADVANCED DATABASES (KDAD), 1999, Beijing, China. Proceedings... PAKDD, 1999. p. 71-76.

TANABE, L.; WILBUR, W. J. Tagging gene and protein names in biomedical text. Bioinformatics, v. 18, n. 8, p. 1124-1132, 2002a.

______. Tagging gene and protein names in full text articles. In: WORKSHOP ON NATURAL LANGUAGE PROCESSING IN THE BIOMEDICAL DOMAIN, 2002, Phildadelphia, Pennsylvania. Proceedings... Morristown, NJ: Association for Computational Linguistics, 2002b. p. 9-13.

WTDBD/SBBD08/10/0926/20

Page 27: Metodologia de Pré-processamento Textual para Extração de Informação em Artigos Científicos do Domínio Biomédico Universidade Federal de São Carlos - UFSCar

Referências Classificação ANTHONY, L.; LASHKIA, G. V. Mover: a machine learning tool to assist in

the reading and writing of technical papers. IEEE Transactions on Professional Communication, v. 46, n. 3, p. 185-193, 2003.

BURSTEIN, J.; MARCU, D.; KNIGHT, K. Finding the WRITE stuff: automatic identification of discourse structure in student essays. Intelligent Systems, IEEE, v. 18, n. 1, p. 32-39, 2003.

BATISTA, G. E. A. P. A.; PRATI, R. C.; MONARD, M. C. A study of the behavior of several methods for balancing machine learning training data. SIGKDD Explorations Newsletter, v. 6, n. 1, p. 20-29, 2004.

HEY, D. F.; FELTRIM, V. D. Uma investigação sobre a aplicação de algoritmos de aprendizado à classificação de papéis retóricos. In: VIII Fórum de Informática e Tecnologia de Maringá, XI Mostra de Trabalhos de Informática, 2008, Maringá. Anais... Universidade Estadual de Maringá, 2008. p. 94-104.

08/10/09 WTDBD/SBBD27/20

Page 28: Metodologia de Pré-processamento Textual para Extração de Informação em Artigos Científicos do Domínio Biomédico Universidade Federal de São Carlos - UFSCar

Referências Classificação (Cont.) WITTEN, I. H.; FRANK, E. Data mining: practical machine learning tools

and techniques with Java implementations. 2nd ed. San Francisco, CA: Morgan Kaufmann, 2005. 525 p.

WTDBD/SBBD08/10/0928/20