Metodologia de Pré-processamento Textual Voltada à Extração de Informação em Artigos Científicos do Domínio Biomédico Aluno: Pablo Freire Matos Orientador:

Metodologia de Pré-processamento Textual Voltada à Extração de Informação em Artigos Científicos do Domínio

Biomédico

Aluno: Pablo Freire MatosOrientador: Dr. Ricardo Rodrigues Ciferri

Área: Banco de Dados

Universidade Federal de São Carlos - UFSCarDepartamento de Computação - DC

Programa de Pós-Graduação em Ciência da Computação - PPGCC

Roteiro Introdução

Contextualização Objetivos Hipótese e Contribuições Justificativa

Revisão Literária Mineração de Textos Extração Automática Trabalhos Correlatos

Proposta de DissertaçãoQualificação27/04/09 2/46

Roteiro Introdução

Contextualização Objetivos Hipótese e Contribuições Justificativa

Revisão Literária Proposta de Dissertação

Qualificação27/04/09 3/46

Contextualização Quantidade imensa de informação disponível

Humanos não são capazes de assimilar todo esse conteúdo

Informação via e-mail, blogs, wikis, artigos... + de 80% das informações estão em formato de texto

Qualificação

Tan (1999) e Chen (2001)

27/04/09 4/46

Grantz (2007)

Contextualização PubMed

+ de 18 milhões de artigos (desde 1966) MEDLINE (área de ciências + biomedicina)

Entrez - Sistema integrado do NCBI 35 bases com 350 milhões de registros Sickle Cell Anemia

15.748 registros do PubMed (citações e resumos) 3.463 do PubMed Central (artigos completos)


Contextualização Infinidade de meios de publicação

American Journal of Hematology, Blood, British Journal of Haematology, Haematologica, The New England Journal of Medicine

Leva tempo para ler e identificar as principais informações do artigo

Solução: Mineração de Textos


Contextualização Domínio biomédico

Anemia Falciforme

Em conjunto com Ribeirão Preto: Universidade de São Paulo e

Fundação Hemocentro França: Université Paris Diderot-Paris 7 e Hôpital

Robert Debré

Informações sobre equipe de trabalho Docentes: 5, Mestrandos: 2, Graduandos: 3


O que é Anemia Falciforme (AF)?

Qualificação

Hemácias Normais

Hemácias Falciformes bloqueando o fluxo sanguíneo

Hemácias passam livremente pelos vasos sanguíneos

Hemácias Falciformes

Adaptado de National Institute of Health (2008)27/04/09 8/46

Objetivos Identificar e extrair informações novas, úteis e

interessantes em artigos científicos sobre a doença Anemia Falciforme

Foco: efeitos positivos e negativos (do tratamento) paciente - trabalho correlato sintoma, tratamento e fator de risco - futuros trabalhos

Organização e armazenamento de informação em um BD para posterior mineração


BD

Exemplo de Extração de Termos

Qualificação

Efeito Positivo

she died during the second year of therapy from acute severe anemia during an episode of splenic sequestration

Efeito Negativo

in some adolescents poor compliance was evidentOutros

BD

ecnos c-786 alleles are associated a decreased risk of acute chest syndrome

decreased risk of acute chest syndromeepisode of splenic sequestration

27/04/09 10/46

Hipótese e Contribuições Hipótese:

É possível extrair informações que auxiliem o médico e complementem seu conhecimento atual

Contribuições teóricas Conhecimento do domínio Metodologia de extração de informação

Contribuições práticas Criação e disponibilização de recursos: coleção de

documentos, dicionário e base de regras Criação e disponibilização de ferramentas: Extrator de

informação (SCAeXtractor), conversor e etiquetador de formatos (SCAtRanslator)

Qualificação

Artigos Completos

27/04/09 11/46

Justificativa Por que extrair informação

de artigos completos?

Benefícios + da metade da informação encontra-se no corpo do artigo + seção + informação a ser extraída

Problemas Conversão formato + tempo de processamento copyright

Qualificação

Localização no documento (%)Nº d

e re

gist

ros

enco

ntra

dos

Schuemie et al. (2004)

Gene e Proteína

Corney et al. (2004)

27/04/09 12/46

Roteiro

Introdução Revisão Literária

Mineração de Textos Extração Automática Trabalhos Correlatos

Proposta de Dissertação


Mineração de Textos (MT)

Extrair informações úteis em documentos no formato textual não-estruturado através da identificação de conhecimento e exploração de padrões

Qualificação

Hearst (1999)

27/04/09 14/46

Processo de MT

Qualificação

Imamura (2001) Martins (2003)Feldman e Sanger (2007)

27/04/09 15/46

Áreas utilizadas neste trabalho Extração de Informação Aprendizado de Máquina Processamento de Língua Natural


Extração de Informação

Métodos para extração de informação relevantes Regras Dicionário/Glossário Templates


Aprendizado de Máquina

Qualificação

Adaptado de Monard e Baranauskas (2003)27/04/09 18/46

Categorização

Qualificação

Adaptado de Dörre, Gerstl e Seiffert (1999)27/04/09 19/46

Processamento de Língua Natural Recursos e ferramentas de processamento

da língua Stemming x lematização Segmentadores textuais Etiquetador morfossintático (POS) Extratores de termos

Qualificação

cantaremos→cantcantaremos→cantar

27/04/09 20/46

Roteiro





Reconhecimento Automático de Termo Desafio na literatura biomédica

Novos termos (neologismos) Variações léxicas: sinônimos e homônimos Falta de padronização

Terminologia abrange aspectos extração, variação de termo, classificação e

mapeamento

Qualificação

Krauthammer e Nenadic (2004)

27/04/09 22/46

Abordagens para Extração de InformaçãoAbordagem Vantagem Desvantagem Referências

Dicionário

•Casamento de padrão com informações armazenadas no dicionário

•Limitação de nomes•Variações de nome (baixa revocação)•Nomes curtos causam falsos positivos (diminui a precisão)

•Krauthammer et al. (2000)•Ono et al. (2001)•Tsuruoka et al. (2004)•Egorov et al. (2004)•Kou et al. (2005)•Schuemie et al. (2007)

Regras

•Melhor precisão •Requer tempo•Restrito a um domínio•Exclui termos que não correspondem aos padrões predefinidos (diminui a revocação)

•Fukuda et al. (1998)•Franzén et al. (2002)•Hu et al. (2005)

Aprendizado de Máquina

•Independência de domínio•Alto desempenho para predição

•Grande quantidade de dados de treinamento•Re-treinamento após o advento de novos dados•Classificação é prejudicada com uma classe minoritária

•Nobata, Collier e Tsujii (1999)•Collier, Nobata e Tsujii (2000)•Kazama et al. (2002)


Roteiro





Trabalhos Correlatos – Resumos


Trabalhos Correlatos – Artigos Completos


Trabalhos Correlatos – Artigos Completos


Roteiro

Introdução Revisão Literária Proposta de Dissertação


Processo de MT

Qualificação

É uma das fases mais críticas Feldman e Sanger (2007)

27/04/09 29/46

Pré-processamento Textual


Metodologia de Pré-processamento


Esquema Conceitual EER


Processo Geral de Extração de Informação


Processo Geral de Extração de Informação


Categorização

Qualificação

MOVER

Saída

Treinamento

Efeito Negativo

Efeito Positivo

Outros

Teste

Diversos arquivos com sentenças de efeito positivo

Diversos arquivos com sentenças de efeito negativo

Diversos arquivos com sentenças de outros

Novo textoTXT

Conjunto desentençasclassificadas em classes

Cla

sses Anthony e

Lashkia (2003)

Precisão de 86%

27/04/09 35/46

Sentenças classificadas - Mover


Extração de Informação

Regras Identificação e extração de efeitos Podendo usar ou não um dicionário


Repositório de Dicionário de Termos

Efeitos

Positivo (benefício) Negativo (complicação)

Cure acute chest syndrome

decrease the rate of painful events acute lun injury

no adverse events due transfusion vasooclusive crisesdecrease of the number of days of hospitalization intracranion hemorrhage

transfusion prevents ACS splenic sequestration

Qualificação

Termos predefinidos por especialistas do domínio Repositório é incremental (Adição é semiautomática)

27/04/09 38/46

Dicionário + Regras1. Identificar verdadeiro positivo (efeito positivo)2. Eliminar falso positivo (fator de risco)3. Elaborar como recuperar falsos negativos

Qualificação

reductions in the frequency of chest syndrome and the number of transfusions strengthen the conclusion that hydroxyurea is a useful agent in sickle cell anemia

1

in scd children hydroxyurea has been shown to decrease the rate and the intensity of painful events and the number of days of hospitalization

2

hydroxyurea therapy can ameliorate the clinical course of sickle cell anemia in some adults with three or more painful crises per year

3

treatment was also stopped in another patient because of the first occurrence of pathological tcd velocities

4

27/04/09 39/46

Análise dos Resultados


Análise dos Resultados - Mover Taxa de Precisão (P)

Baseline ≤ P ≤ Topline Baseline: Erro majoritário (acerto mínimo) Topline: Taxa de precisão humana

50 a 100 (efeito positivo, efeito negativo e outros)

Kappa (Anotadores) 77,58% (gene, proteína ou RNAm)

Hatzivassiloglou, Duboue e Rzhetsky (2001 apud Schuemie et al., 2007)


Análise dos Resultados - Extração Precisão, Revocação e Medida-F (Extração

de Informação)

Comparação com outros trabalhos


Quatro Experimentos

1. Regras2. Regras e Dicionário3. AM e Regras4. AM, Regras e Dicionário


Ferramentas a serem utilizadas Mover PostgreSQL 8.3 NetBeans IDE Jude Community 5.4.1 Linguagem R


Considerações Finais

Investigar melhor a forma de representação dos dados extraídos Modelo relacional BD XML BD OO

Como organizar os dados para facilitar O processo de mineração de dados posterior


Cronograma de Atividades

Qualificação

Defesa do exame de qualificaçãoClassificação manual (anotadores: 3 médicos e 3 leigos) em três classes de 100 sentenças e cálculo da medida de concordância KappaTreinamento e teste no classificador Mover de 500 a 1.500 sentenças identificadas manualmente nos artigos. Calcular a taxa de precisão.Desenvolvimento do módulo de extração de efeitos da AF(abordagem baseada em regras e dicionário)Avaliar a extração de informação com as medidas de precisão, revocação e Medida-FRedação e submissão de artigo aos encontros qualificados de Ciência da ComputaçãoConcepção e projeto da ferramenta SCAeXtractor, integrando o classificador Mover e o módulo de extração nesta ferramenta para o processo de extração de informação ser realizado de forma transparente e automática

Realização dos quatros testes propostos na análise dos resultadosPossibilitar ao especialista do domínio visualizar e validar o resultado da extração de informaçãoRedação da dissertação de mestrado

Preparação e defesa da dissertação

27/04/09 46/46

Metodologia de Pré-processamento Textual Voltada à Extração de Informação em Artigos Científicos do Domínio

Biomédico

Aluno: Pablo Freire MatosOrientador: Dr. Ricardo Rodrigues Ciferri

Área: Banco de Dados

Universidade Federal de São Carlos - UFSCarDepartamento de Computação - DC

Programa de Pós-Graduação em Ciência da Computação - PPGCC

Dúvidas?

Referências ANTHONY, L.; LASHKIA, G. V. Mover: a machine learning tool to assist in the

reading and writing of technical papers. IEEE Transactions on Professional Communication, v. 46, n. 3, p. 185-193, 2003.

ARANHA, C. N. Uma abordagem de pré-processamento automático para mineração de textos em português: sob o enfoque da inteligência computacional. 144 f. Tese (Doutorado em Engenharia Elétrica) – Departamento de Engenharia Elétrica, Pontifícia Universidade Católica do Rio de Janeiro, Rio de Janeiro, 2007.

BREMER, E. G. et al. Text mining of full text articles and creation of a knowledge base for analysis of microarray data. In: KNOWLEDGE EXPLORATION IN LIFE SCIENCE INFORMATICS (KELSI), 2004, Milan, Italy. Proceedings... 2004. p. 84-95.

CHEN, H. Knowledge management systems: a text mining perspective. Tucson, AZ: University of Arizona, 2001.

CORNEY, D. P. A. et al. BioRAT: extracting biological information from full-length papers. Bioinformatics, v. 20, n. 17, p. 3206-3213, 2004.


Referências (cont. 1) FELDMAN, R.; DAGAN, I. Knowledge discovery in textual databases (KDT). In:

INTERNATIONAL CONFERENCE ON KNOWLEDGE DISCOVERY AND DATA MINING (KDD), 1995, Montréal, Québec. Proceedings... Menlo Park, CA: AAAI Press, 1995. p. 112-117.

FELDMAN, R.; SANGER, J. The text mining handbook: advanced approaches in analyzing unstructured data. New York: Cambridge University Press, 2007. 391 p.

GARTEN, Y.; ALTMAN, R. Pharmspresso: a text mining tool for extraction of pharmacogenomic concepts and relationships from full text. BMC Bioinformatics, v. 10, p. S6, 2009. Suppl. 2.

GANTZ, J. F. et al. The expanding digital universe: a forecast of worldwide information growth through 2010. IDC Whitepaper, 2007.

HEARST, M. A. Untangling text data mining. In: ANNUAL MEETING OF THE ASSOCIATION OF COMPUTATIONAL LINGUISTICS, 37th, 1999, College Park, Maryland. Proceedings... Morristown, NJ: Association for Computational Linguistics, 1999. p. 3-10.


Referências (cont. 2) IMAMURA, C. Y.-M. Pré-processamento para extração de conhecimento de

bases textuais. 103 f. Dissertação (Mestrado em Ciência de Computação e Matemática Computacional) – Instituto de Ciências Matemáticas e de Computação, Universidade de São Paulo, São Carlos, 2001.

MARTINS, C. A. Uma abordagem para pré-processamento de dados textuais em algoritmos de aprendizado. 174 f. Tese (Doutorado em Ciência de Computação e Matemática Computacional) – Instituto de Ciências Matemáticas e de Computação, Universidade de São Paulo, São Carlos, 2003.

MINISTÉRIO DA SAÚDE. Doença falciforme e outras hemoglobinopatias: anemia falciforme. 2008.

NATIONAL CENTER FOR BIOTECHNOLOGY INFORMATION. PubMed. 2009. Disponível em: <http://www.ncbi.nlm.nih.gov/pubmed/>. Acesso em: 16 mar. 2009.

NATIONAL CENTER FOR BIOTECHNOLOGY INFORMATION. Entrez, the life sciences search engine. 2009. Disponível em: <http://www.ncbi.nlm.nih.gov/Entrez/>. Acesso em: 26 mar. 2009.

SCHUEMIE, M. J. et al. Distribution of information in biomedical abstracts and full-text publications. Bioinformatics, v. 20, n. 16, p. 2597-2604, 2004.


http://www.ncbi.nlm.nih.gov/pubmed/

http://www.ncbi.nlm.nih.gov/Entrez/

Referências (cont. 3) ______. Evaluation of techniques for increasing recall in a dictionary approach

to gene and protein name identification. Journal of Biomedical Informatics, v. 40, n. 3, p. 316-324, 2007.

TAN, A.-H. Text mining: the state of the art and the challenges. In: KNOWLEDGE DISCOVERY FROM ADVANCED DATABASES (KDAD), 1999, Beijing, China. Proceedings... PAKDD, 1999. p. 71-76.

TANABE, L.; WILBUR, W. J. Tagging gene and protein names in biomedical text. Bioinformatics, v. 18, n. 8, p. 1124-1132, 2002a.

______. Tagging gene and protein names in full text articles. In: WORKSHOP ON NATURAL LANGUAGE PROCESSING IN THE BIOMEDICAL DOMAIN, 2002, Phildadelphia, Pennsylvania. Proceedings... Morristown, NJ: Association for Computational Linguistics, 2002b. p. 9-13.


Apêndice

Modelo Relacional PAPER (Paper_ID, Paper_Title, Paper_Journal, Paper_Year, Authors, PDF, HTML,

XML, Total_Patient, Concluded_Patient)

SYMPTOM (Symptom_ID, Symptom_Name, Symptom_Acronym, Symptom_Desc) PAPER_SYMPTOM (Paper_ID, Symptom_ID, Page, Paragraph, Sentence,

Patient_Number)

EFFECT (Effect_ID, Effect_Name, Effect_Acronym, Effect_Desc, Effect_Type) Effect_Type: Positive (Complication), Negative (Benefit)

PAPER_EFFECT (Paper_ID, Effect_ID, Page, Paragraph, Sentence, Patient_Number)

TREATMENT (Treatment_ID, Treatment_Name, Treatment_Acronym, Treatment_Desc, Treatment_Type) Treatment_Type: Drug, Therapy

PAPER_TREATMENT (Paper_ID, Treatment_ID, Page, Paragraph, Sentence, Patient_Number)

RISK_FACTOR (Risk_ID, Risk_Name, Risk_Acronym, Risk_Desc)


Diagrama de Classes


Documents

Metodologia de Pré-processamento Textual Voltada à Extração de Informação em Artigos Científicos do Domínio Biomédico Aluno: Pablo Freire Matos Orientador: