76
Pablo Freire Matos Ricardo Rodrigues Ciferri Orientador (DC/UFSCar) Thiago Alexandre Salgueiro Pardo Coorientador (ICMC/USP) Metodologia de Pré-processamento Textual para Extração de Informação sobre Efeitos de Doenças em Artigos Científicos do Domínio Biomédico

Metodologia de Pré-processamento Textual para Extração de ...gbd.dc.ufscar.br/download/files/Pablo.Defesa.pdf · sobre Efeitos de Doenças em Artigos Científicos do Domínio Biomédico

Embed Size (px)

Citation preview

Page 1: Metodologia de Pré-processamento Textual para Extração de ...gbd.dc.ufscar.br/download/files/Pablo.Defesa.pdf · sobre Efeitos de Doenças em Artigos Científicos do Domínio Biomédico

Pablo Freire Matos

Ricardo Rodrigues Ciferri – Orientador (DC/UFSCar)

Thiago Alexandre Salgueiro Pardo – Coorientador (ICMC/USP)

Metodologia de Pré-processamento

Textual para Extração de Informação

sobre Efeitos de Doenças em Artigos

Científicos do Domínio Biomédico

Page 2: Metodologia de Pré-processamento Textual para Extração de ...gbd.dc.ufscar.br/download/files/Pablo.Defesa.pdf · sobre Efeitos de Doenças em Artigos Científicos do Domínio Biomédico

Roteiro

Introdução

Revisão Literária

Metodologia Proposta e Instanciação

Estudos de Caso

Conclusão

24/09/102/52

Page 3: Metodologia de Pré-processamento Textual para Extração de ...gbd.dc.ufscar.br/download/files/Pablo.Defesa.pdf · sobre Efeitos de Doenças em Artigos Científicos do Domínio Biomédico

Contexto e Motivação

Quantidade imensa de

Informação disponível

Humanos não são capazes de assimilar todo

esse conteúdo

Informação via e-mail, blogs, wikis, artigos...

+ de 80% das informações estão em formato de texto

Tan (1999) e Chen (2001)24/09/10

Gantz et al. (2007)

Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

3/52

Page 4: Metodologia de Pré-processamento Textual para Extração de ...gbd.dc.ufscar.br/download/files/Pablo.Defesa.pdf · sobre Efeitos de Doenças em Artigos Científicos do Domínio Biomédico

Contexto e Motivação

PubMed

+ de 18 milhões de artigos (desde 1966)

MEDLINE (área de ciências + biomedicina)

Entrez - Sistema integrado do NCBI

35 bases com 350 milhões de registros

Sickle Cell Anemia

16.654 registros do PubMed (citações e resumos)

4.765 do PubMed Central (artigos completos)

24/09/104/52

Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

Page 5: Metodologia de Pré-processamento Textual para Extração de ...gbd.dc.ufscar.br/download/files/Pablo.Defesa.pdf · sobre Efeitos de Doenças em Artigos Científicos do Domínio Biomédico

Contexto e Motivação

Infinidade de meios de publicação

American Journal of Hematology, Blood, British

Journal of Haematology, Haematologica, The New

England Journal of Medicine

Leva tempo para

ler e identificar as principais

informações do artigo

Inviável analisar toda

a literatura relevante manualmente

24/09/105/52

Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

Page 6: Metodologia de Pré-processamento Textual para Extração de ...gbd.dc.ufscar.br/download/files/Pablo.Defesa.pdf · sobre Efeitos de Doenças em Artigos Científicos do Domínio Biomédico

Contexto e Motivação

Esses documentos estão em formato não estruturado

Há a necessidade de transformar esses dados de

formato não estruturado para estruturado

Objetivo: processo de descoberta de conhecimento

automático

24/09/106/52

Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

Page 7: Metodologia de Pré-processamento Textual para Extração de ...gbd.dc.ufscar.br/download/files/Pablo.Defesa.pdf · sobre Efeitos de Doenças em Artigos Científicos do Domínio Biomédico

Objetivo

Propor uma metodologia de pré-

processamento textual para extração de

informação sobre efeitos de doenças em

artigos científicos do domínio biomédico

A metodologia é composta por quatro etapas:

Entrada de Dados (Etapa 1)

Classificação de Sentenças (Etapa 2)

Identificação de Termos Relevantes (Etapa 3)

Gerenciamento de Termos (Etapa 4)

24/09/107/52

Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

Page 8: Metodologia de Pré-processamento Textual para Extração de ...gbd.dc.ufscar.br/download/files/Pablo.Defesa.pdf · sobre Efeitos de Doenças em Artigos Científicos do Domínio Biomédico

Hipóteses Hipótese 1: É possível usar abordagens de extração de informação

para identificar automaticamente termos relevantes do domínio

biomédico com alta precisão e revocação

Hipótese 2: Extrair termos relacionados a efeitos de doenças no

domínio biomédico de outras seções do artigo, além do seu resumo,

permite obter uma maior quantidade de informação relevante

Hipótese 3: Uso de duas etapas separadas e consecutivas:

Etapa 1: classificar as sentenças em classes de interesse. Etapa 2:

identificar e extrair termos apenas nas sentenças classificadas

nestas classes de interesse

possibilita um bom resultado no processo de extração de

informação de termos relacionados a efeitos de doenças no domínio

biomédico24/09/10

Todas as sentenças =

+falsos positivos

Todas as seções =

+falsos positivos

8/52

Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

Page 9: Metodologia de Pré-processamento Textual para Extração de ...gbd.dc.ufscar.br/download/files/Pablo.Defesa.pdf · sobre Efeitos de Doenças em Artigos Científicos do Domínio Biomédico

Mineração de Textos Extrair informações úteis em documentos no formato

textual não-estruturado através da identificação de

conhecimento e exploração de padrões Hearst (1999)

24/09/10

Imamura (2001)

Martins (2003)

Feldman e Sanger (2007)

9/52

Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

Page 10: Metodologia de Pré-processamento Textual para Extração de ...gbd.dc.ufscar.br/download/files/Pablo.Defesa.pdf · sobre Efeitos de Doenças em Artigos Científicos do Domínio Biomédico

Abordagens para Extração de InformaçãoAbordagem Vantagem Desvantagem

Dicionário

•Casamento de padrão com

informações armazenadas no

dicionário

•Limitação de nomes

•Variações de nome (baixa

revocação)

•Nomes curtos causam falsos

positivos (diminui a precisão)

Regras

•Melhor precisão •Requer tempo

•Restrito a um domínio

•Exclui termos que não

correspondem aos padrões

predefinidos (diminui a

revocação)

Aprendizado de

Máquina

•Independência de domínio

•Alto desempenho para

predição

•Grande quantidade de dados

de treinamento

•Retreinamento após o

advento de novos dados

•Classificação é prejudicada

com uma classe minoritária24/09/10

10/52

Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

Page 11: Metodologia de Pré-processamento Textual para Extração de ...gbd.dc.ufscar.br/download/files/Pablo.Defesa.pdf · sobre Efeitos de Doenças em Artigos Científicos do Domínio Biomédico

Trabalhos Correlatos – Resumos

24/09/1011/52

Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

Page 12: Metodologia de Pré-processamento Textual para Extração de ...gbd.dc.ufscar.br/download/files/Pablo.Defesa.pdf · sobre Efeitos de Doenças em Artigos Científicos do Domínio Biomédico

Trabalhos Correlatos – Artigos Completos

24/09/1012/52

1) Abordagem de AM: Classificação de Sentenças

2) Artigos: Algumas Seções

Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

Page 13: Metodologia de Pré-processamento Textual para Extração de ...gbd.dc.ufscar.br/download/files/Pablo.Defesa.pdf · sobre Efeitos de Doenças em Artigos Científicos do Domínio Biomédico

Metodologia Proposta para Extração

de Informação no Domínio Biomédico

24/09/1013/52

Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

Page 14: Metodologia de Pré-processamento Textual para Extração de ...gbd.dc.ufscar.br/download/files/Pablo.Defesa.pdf · sobre Efeitos de Doenças em Artigos Científicos do Domínio Biomédico

Etapa 1: Entrada de Dados

24/09/1014/52

Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

Page 15: Metodologia de Pré-processamento Textual para Extração de ...gbd.dc.ufscar.br/download/files/Pablo.Defesa.pdf · sobre Efeitos de Doenças em Artigos Científicos do Domínio Biomédico

Etapa 1: Entrada de Dados (1/2)

24/09/10

Formato TXT

Formato XML

15/52

Carosia e Ciferri (2010)

Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

Page 16: Metodologia de Pré-processamento Textual para Extração de ...gbd.dc.ufscar.br/download/files/Pablo.Defesa.pdf · sobre Efeitos de Doenças em Artigos Científicos do Domínio Biomédico

Etapa 1: Entrada de Dados (2/2)

24/09/10

Exemplo Formato XML

Exemplo Formato TXT

16/52

Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

Page 17: Metodologia de Pré-processamento Textual para Extração de ...gbd.dc.ufscar.br/download/files/Pablo.Defesa.pdf · sobre Efeitos de Doenças em Artigos Científicos do Domínio Biomédico

Etapa 2: Classificação de Sentenças

24/09/10

Seções processadas: Abstract, Results e Discussion

17/52

Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

Page 18: Metodologia de Pré-processamento Textual para Extração de ...gbd.dc.ufscar.br/download/files/Pablo.Defesa.pdf · sobre Efeitos de Doenças em Artigos Científicos do Domínio Biomédico

Etapa 2: Classificação de Sentenças (1/2)

Saída

Treinamento

Efeito Positivo

Efeito Negativo

Outros

Teste

Diversos arquivos com sentenças de efeito negativo

Diversos arquivos com sentenças de efeito positivo

Diversos arquivos com sentenças de outros

Novo textoTXT

Conjunto desentençasclassificadas em classes

Cla

sses

24/09/1018/52

Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

Modelo Bag-of-words

Medida binária

Atributos: 1 a 3 gramas

Frequência mínima: 2

Page 19: Metodologia de Pré-processamento Textual para Extração de ...gbd.dc.ufscar.br/download/files/Pablo.Defesa.pdf · sobre Efeitos de Doenças em Artigos Científicos do Domínio Biomédico

Etapa 2: Classificação de Sentenças (2/2)

24/09/10

Efeito Negativo

Efeito Positivo

Outros

19/52

Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

Page 20: Metodologia de Pré-processamento Textual para Extração de ...gbd.dc.ufscar.br/download/files/Pablo.Defesa.pdf · sobre Efeitos de Doenças em Artigos Científicos do Domínio Biomédico

Ferramenta SCA-Classifier

24/09/10

API Weka

20/52

Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

Page 21: Metodologia de Pré-processamento Textual para Extração de ...gbd.dc.ufscar.br/download/files/Pablo.Defesa.pdf · sobre Efeitos de Doenças em Artigos Científicos do Domínio Biomédico

Etapa 3: Identificação de Termos Relevantes

24/09/1021/52

Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

Page 22: Metodologia de Pré-processamento Textual para Extração de ...gbd.dc.ufscar.br/download/files/Pablo.Defesa.pdf · sobre Efeitos de Doenças em Artigos Científicos do Domínio Biomédico

24/09/10

Banco de Dados Biomédico

Exemplo de Sentenças

Informação Relevante

Dicionário

Termo Variação

hemorrhagecentral nervous system hemorrhage

intracranial hemorrhage

pain

painful episode

pain crises

pain crisis

22/52

Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

Page 23: Metodologia de Pré-processamento Textual para Extração de ...gbd.dc.ufscar.br/download/files/Pablo.Defesa.pdf · sobre Efeitos de Doenças em Artigos Científicos do Domínio Biomédico

Remover Falso Positivo

24/09/10

Dicionário

Lista de Exclusão de Termo (LET): Termos substantivos, compostos e siglas do

domínio biomédico que são irrelevantes e que sinalizam segmentos textuais que podem

ser desconsiderados no processamento.

Lista de Exclusão de Palavra (LEP): Palavras comuns e gerais irrelevantes que não são

do domínio biomédico e palavras irrelevantes do domínio biomédico que estão associadas a

algum termo. LEP com 1000 palavras: http://www.bckelk.ukfsn.org/words/uk1000.html

23/52

Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

Page 24: Metodologia de Pré-processamento Textual para Extração de ...gbd.dc.ufscar.br/download/files/Pablo.Defesa.pdf · sobre Efeitos de Doenças em Artigos Científicos do Domínio Biomédico

Exemplo de Sentença Etiquetada

Part-Of-Speech (POS)

24/09/10

Regras

Etiquetador POS da Stanford:

96,86% - treinamento

86,91% - palavras novas

Padrão Tag:

Penn Treebank

Exemplo de Sentença

padrão JJ_NN

24/52

Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

Page 25: Metodologia de Pré-processamento Textual para Extração de ...gbd.dc.ufscar.br/download/files/Pablo.Defesa.pdf · sobre Efeitos de Doenças em Artigos Científicos do Domínio Biomédico

Termos Relevantes

Extraídos:

Expressão Composta

Verbo

Expressão Composta

Verbo

Expressão Composta

Verbo

Expressão Composta

Verbo

acute chest syndromes

cerebrovascular events

osteonecrosis

mycoplasma

viral pneumonia

pavovirus

1

24/09/10

Regras

Estratégia 1:

Verbo e Expressão com POS

Palavra Etiquetada: III - irrelevante

RRR - relevante

Exemplo

2

3

4

(JJ)?_NN_(of_IN)

25/52

Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

Page 26: Metodologia de Pré-processamento Textual para Extração de ...gbd.dc.ufscar.br/download/files/Pablo.Defesa.pdf · sobre Efeitos de Doenças em Artigos Científicos do Domínio Biomédico

Palavra Etiquetada: III - irrelevante

RRR - relevante

Estratégia 2: POS

24/09/10

Regras

Como identificar termos nas sentenças que

não contêm verbo e expressão composta

representativos?

26/52

Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

Page 27: Metodologia de Pré-processamento Textual para Extração de ...gbd.dc.ufscar.br/download/files/Pablo.Defesa.pdf · sobre Efeitos de Doenças em Artigos Científicos do Domínio Biomédico

Estratégia 2: POS

24/09/10

Regras

Termo na cor turquesa não selecionado pela Estratégia 1

27/52

Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

Page 28: Metodologia de Pré-processamento Textual para Extração de ...gbd.dc.ufscar.br/download/files/Pablo.Defesa.pdf · sobre Efeitos de Doenças em Artigos Científicos do Domínio Biomédico

Ferramenta SCA-Extractor

24/09/1028/52

Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

Page 29: Metodologia de Pré-processamento Textual para Extração de ...gbd.dc.ufscar.br/download/files/Pablo.Defesa.pdf · sobre Efeitos de Doenças em Artigos Científicos do Domínio Biomédico

Etapa 4: Gerenciamento de Termos

24/09/1029/52

Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

Page 30: Metodologia de Pré-processamento Textual para Extração de ...gbd.dc.ufscar.br/download/files/Pablo.Defesa.pdf · sobre Efeitos de Doenças em Artigos Científicos do Domínio Biomédico

Etapa 4: Gerenciamento de Termos

Quatro operações:

Inserir novos termos

Validar termos extraídos

Mover termos extraídos

Hierarquizar termos

24/09/1030/52

Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

Page 31: Metodologia de Pré-processamento Textual para Extração de ...gbd.dc.ufscar.br/download/files/Pablo.Defesa.pdf · sobre Efeitos de Doenças em Artigos Científicos do Domínio Biomédico

Estudos de Caso: Etapa 2 e Etapa 3

24/09/10

Classificação: Efeito Negativo, Efeito Positivo e Outros

Extração: Efeito Negativo

Classificação10-Fold Cross-Validation

Classificação e ExtraçãoHoldout (p = 2/3)

Sentenças Aleatórias

31/52

6 Algoritmos de AM

SVM e NB (Estatístico)

ID3 e J48 (Árvore de Decisão)

Prism e OneR (Regra)

3 Configurações para

construir a MAV

Sem Filtro

Balanceamento

Remoção de Ruído

Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

Page 32: Metodologia de Pré-processamento Textual para Extração de ...gbd.dc.ufscar.br/download/files/Pablo.Defesa.pdf · sobre Efeitos de Doenças em Artigos Científicos do Domínio Biomédico

Estudo de Caso (1):

Classificação de Sentenças (Etapa 2)

24/09/1032/52

Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

Page 33: Metodologia de Pré-processamento Textual para Extração de ...gbd.dc.ufscar.br/download/files/Pablo.Defesa.pdf · sobre Efeitos de Doenças em Artigos Científicos do Domínio Biomédico

Estudo de Caso (1):

Classificação de Sentenças (Etapa 2)

24/09/10

Medida com

10-Fold Cross-Validation

Amostra601

Melhor Índice

Acurácia SVM com Balanceamento 87,19%

Medida-F da classe

Efeito NegativoSVM com Balanceamento 83,16%

Medida com Holdout

Amostra300Melhor Índice

Acurácia SVM com Balan. ou Rem. 62,33%

Medida-F da classe

Efeito NegativoSVM com Remoção de Ruído 71,81%

33/52

Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

Page 34: Metodologia de Pré-processamento Textual para Extração de ...gbd.dc.ufscar.br/download/files/Pablo.Defesa.pdf · sobre Efeitos de Doenças em Artigos Científicos do Domínio Biomédico

Estudo de Caso (2):Identificação de Termos Relevantes (Etapa 3)

24/09/10

Classificação Manual

Extração Fictícia

Classificação Automática

Extração Real

Matriz de Confusão: Holdout Amostra300

Prec Rev Med-F

73% 71% 71,81%

34/52

Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

Page 35: Metodologia de Pré-processamento Textual para Extração de ...gbd.dc.ufscar.br/download/files/Pablo.Defesa.pdf · sobre Efeitos de Doenças em Artigos Científicos do Domínio Biomédico

Nomenclatura dos Termos Extraídos

24/09/10

Verdadeiro

PositivoTermo Real Termo Extraído

Termo Completo respiratory failure respiratory failure

Termo Parcial acute hepatic sequestration hepatic sequestration

Termo Adicional chronic lung diseaseresultant chronic lung

disease

Falso Positivo Exemplo

Termo que foi extraído, mas que não deveria

ser extraído hydroxyurea therapy

Falso Negativo Exemplo

Termo que deveria ser extraído, mas que não

foi extraídothrombocytopenia

35/52

Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

Page 36: Metodologia de Pré-processamento Textual para Extração de ...gbd.dc.ufscar.br/download/files/Pablo.Defesa.pdf · sobre Efeitos de Doenças em Artigos Científicos do Domínio Biomédico

Classificação Manual e Extração Fictícia

24/09/10

Extração Fictícia

36/52

Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

Page 37: Metodologia de Pré-processamento Textual para Extração de ...gbd.dc.ufscar.br/download/files/Pablo.Defesa.pdf · sobre Efeitos de Doenças em Artigos Científicos do Domínio Biomédico

Classificação Automática e Extração Real

24/09/10

Extração Real

37/52

Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

Page 38: Metodologia de Pré-processamento Textual para Extração de ...gbd.dc.ufscar.br/download/files/Pablo.Defesa.pdf · sobre Efeitos de Doenças em Artigos Científicos do Domínio Biomédico

Extração Fictícia versus Extração Real

24/09/10

Regra e Dicionário

38/52

Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

Page 39: Metodologia de Pré-processamento Textual para Extração de ...gbd.dc.ufscar.br/download/files/Pablo.Defesa.pdf · sobre Efeitos de Doenças em Artigos Científicos do Domínio Biomédico

Estudo de Caso (2):Identificação de Termos Relevantes (Etapa 3)

24/09/10

Classificação Manual

Extração Fictícia

Classificação Automática

Extração Real

Matriz de Confusão: Holdout Amostra300

39/52

Prec Rev Med-F

73% 71% 71,81%

Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

Page 40: Metodologia de Pré-processamento Textual para Extração de ...gbd.dc.ufscar.br/download/files/Pablo.Defesa.pdf · sobre Efeitos de Doenças em Artigos Científicos do Domínio Biomédico

Conclusão Abordagens de extração de informação auxiliam na

identificação automaticamente de termos relevantes do

domínio biomédico com alta precisão e revocação

Extração de termos relacionados a efeitos de doenças no

domínio biomédico de outras seções do artigo, além do

resumo, permite obter uma maior quantidade de informação

relevante

Uso de duas etapas separadas e consecutivas possibilita um

bom resultado no processo de extração de informação de

termos relacionados a efeitos de doenças no domínio

biomédico24/09/10

40/52

Hipótese 2

Algumas seções = -falsos positivos

Hipótese 3

Algumas sentenças = -falsos positivos

Hipótese 1

Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

Page 41: Metodologia de Pré-processamento Textual para Extração de ...gbd.dc.ufscar.br/download/files/Pablo.Defesa.pdf · sobre Efeitos de Doenças em Artigos Científicos do Domínio Biomédico

Contribuições Contribuição teórica

Metodologia de extração de informação

Amostra300:

Extração de Informação Real: Medida-F de 80,43%

Classificação Automática: Medida-F de 71,81%

Contribuições práticas

Criação e disponibilização de recursos: coleção de

documentos, dicionário e base de regras

Criação e disponibilização de ferramentas:

Classificador de Sentenças (SCA-Classifier)

Extrator de Informação (SCA-Extractor)

Gerenciador de Termos (SCA-TermManager)

24/09/1041/52

Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

Page 42: Metodologia de Pré-processamento Textual para Extração de ...gbd.dc.ufscar.br/download/files/Pablo.Defesa.pdf · sobre Efeitos de Doenças em Artigos Científicos do Domínio Biomédico

Trabalhos Futuros (1/2)

24/09/10

Criação de uma coleção de documentos anotada

42/52

Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

Page 43: Metodologia de Pré-processamento Textual para Extração de ...gbd.dc.ufscar.br/download/files/Pablo.Defesa.pdf · sobre Efeitos de Doenças em Artigos Científicos do Domínio Biomédico

Trabalhos Futuros (2/2) Investigação do uso da metodologia na identificação

de outros termos:

tratamento e fator de risco

Instanciação da metodologia para identificar efeitos de outras

doenças:

câncer, mal de Alzheimer, mal de Parkinson e glaucoma

Investigação da aplicação da metodologia em outros

domínios além do domínio biomédico:

erupção de vulcão e poluição ambiental

Utilizar análise semântica para identificar termos que estão

implícitos nas sentenças:

Sentença com termo implícito: “The recent availability of an oral iron

chelator may render prolonged transfusion more acceptable.”24/09/10

43/52

Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

Page 44: Metodologia de Pré-processamento Textual para Extração de ...gbd.dc.ufscar.br/download/files/Pablo.Defesa.pdf · sobre Efeitos de Doenças em Artigos Científicos do Domínio Biomédico

Produção Científica (1/2)

MATOS, P. F.; CIFERRI, R. R.; PARDO, T. A. S. Metodologia de pré-

processamento textual para extração de informação em artigos científicos

do domínio biomédico. In: WORKSHOP DE TESES E DISSERTAÇÕES

EM BANCOS DE DADOS, VIII, 2009, Fortaleza, Ceará. Anais... Simpósio

Brasileiro de Banco de Dados, 2009. p. 7-12.

24/09/10

Qualis

B3

Evento Nacional

44/52

Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

Page 45: Metodologia de Pré-processamento Textual para Extração de ...gbd.dc.ufscar.br/download/files/Pablo.Defesa.pdf · sobre Efeitos de Doenças em Artigos Científicos do Domínio Biomédico

Produção Científica (2/2)

MATOS, P. F.; LOMBARDI, L. O.; PARDO, T. A. S; CIFERRI, C. D. A. ;

VIEIRA, M. T. P.; CIFERRI, R. R. An environment for data analysis in

biomedical domain: information extraction for decision support systems. In:

GARCÍA-PEDRAJAS, N. et al. (Ed.). International Conference on

Industrial, Engineering & Other Applications of Applied Intelligent

Systems (IEA-AIE). 23th. Heidelberg: Springer, 2010. p. 306-316. (Lecture

Notes in Computer Science; v. 6096).

24/09/10

Evento Internacional

Qualis

B3

45/52

Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

Page 46: Metodologia de Pré-processamento Textual para Extração de ...gbd.dc.ufscar.br/download/files/Pablo.Defesa.pdf · sobre Efeitos de Doenças em Artigos Científicos do Domínio Biomédico

Produção Técnica (1/2)

Pôster e Relatório Técnico MATOS, P. F.; CIFERRI, R. R.; PARDO, T. A. S. Methodology of textual

preprocessing for information extraction in scientific papers of the biomedical domain.

In: WORKSHOP DE PÓS-GRADUAÇÃO SEMANA DE COMPUTAÇÃO, 3º, 2010,

São Carlos. Anais... UFSCar, 2010. Pôster.

MATOS, P. F.; LOMBARDI, L. O.; CIFERRI, R. R.; PARDO, T. A. S.; CIFERRI, C. D.

A.; VIEIRA, M. T. P. Relatório Técnico "Conceitos sobre Aprendizado de

Máquina". São Carlos: Departamento de Computação, Universidade Federal de São

Carlos, 2009. p. 23.

MATOS, P. F.; LOMBARDI, L. O.; CIFERRI, R. R.; PARDO, T. A. S.; CIFERRI, C. D.

A.; VIEIRA, M. T. P. Relatório Técnico "Métricas de Avaliação". São Carlos:

Departamento de Computação, Universidade Federal de São Carlos, 2009. p. 15.

PINTO, A. C. S.; MATOS, P. F.; PERLIN, C. B.; ANDRADE, C. G.; CAROSIA, A. E.

O.; LOMBARDI, L. O.; CIFERRI, R. R.; PARDO, T. A. S.; CIFERRI, C. D. A.; VIEIRA,

M. T. P. Technical Report "Sickle Cell Anemia". São Carlos: Department of

Computer Science, Federal University of São Carlos, 2009. p. 16.24/09/10

46/52

Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

Page 47: Metodologia de Pré-processamento Textual para Extração de ...gbd.dc.ufscar.br/download/files/Pablo.Defesa.pdf · sobre Efeitos de Doenças em Artigos Científicos do Domínio Biomédico

Produção Técnica (2/2)

Softwares

MATOS, P. F.; CIFERRI, R. R.; PARDO, T. A. S. SCA-TermManager: a

tool from the biomedical domain to assist the expert in term management.

2010. Software. Disponível em:

<http://gbd.dc.ufscar.br/~pablofmatos/files/SCA-TermManager.rar>. Acesso

em: 30 ago. 2010.

MATOS, P. F.; CIFERRI, R. R.; PARDO, T. A. S. SCA-Extractor: a tool for

information extraction in scientific papers of the biomedical domain. 2010.

Software. Disponível em: <http://gbd.dc.ufscar.br/~pablofmatos/files/SCA-

Extractor.rar>. Acesso em: 30 ago. 2010.

MATOS, P. F.; CIFERRI, R. R.; PARDO, T. A. S. SCA-Classifier: a tool for

sentence classification in scientific papers of the biomedical domain. 2010.

Software. Disponível em: <http://gbd.dc.ufscar.br/~pablofmatos/files/SCA-

Classifier.rar>. Acesso em: 30 ago. 2010.

24/09/1047/52

Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

Page 48: Metodologia de Pré-processamento Textual para Extração de ...gbd.dc.ufscar.br/download/files/Pablo.Defesa.pdf · sobre Efeitos de Doenças em Artigos Científicos do Domínio Biomédico

Agradecimentos

Idealizador do projeto Anemia Falciforme

Médico Dr. Marco Antonio Zago

Especialista do Domínio

Médica Drª. Ana Cristina Silva Pinto

24/09/1048/52

Page 49: Metodologia de Pré-processamento Textual para Extração de ...gbd.dc.ufscar.br/download/files/Pablo.Defesa.pdf · sobre Efeitos de Doenças em Artigos Científicos do Domínio Biomédico

Referências Citadas na Apresentação (1/3) BREMER, E. G. et al. Text mining of full text articles and creation of a

knowledge base for analysis of microarray data. In: LÓPEZ, J. A.;

BENFENATI, E.; DUBITZKY, W. (Ed.). Knowledge Exploration in Life

Science Informatics (KELSI). Heidelberg: Springer, 2004. p. 84-95. (Lecture

Notes in Computer Science; v. 3303).

CAROSIA, A. E. O.; CIFERRI, C. D. A. Ferramenta SCDtRanslator:

conversão do formato PDF para o formato XML aplicada ao domínio de

artigos médicos sobre a Doença Anemia Falciforme. São Carlos: Instituto de

Ciências Matemáticas e de Computação, Universidade de São Paulo, 2010.

p. 40.

CHEN, H. Knowledge management systems: a text mining perspective.

Tucson, AZ: University of Arizona, 2001. 50 p.

CORNEY, D. P. A. et al. BioRAT: extracting biological information from full-

length papers. Bioinformatics, v. 20, n. 17, p. 3206-3213, 2004.

FELDMAN, R.; SANGER, J. The text mining handbook: advanced

approaches in analyzing unstructured data. New York: Cambridge University

Press, 2007. 391 p.24/09/10

49/52

Page 50: Metodologia de Pré-processamento Textual para Extração de ...gbd.dc.ufscar.br/download/files/Pablo.Defesa.pdf · sobre Efeitos de Doenças em Artigos Científicos do Domínio Biomédico

Referências Citadas na Apresentação (2/3) GANTZ, J. F. et al. The expanding digital universe: a forecast of worldwide

information growth through 2010. IDC Whitepaper, 2007.

HEARST, M. A. Untangling text data mining. In: ANNUAL MEETING OF THE

ASSOCIATION OF COMPUTATIONAL LINGUISTICS, 37th, 1999, College

Park, Maryland. Proceedings... Morristown, NJ: Association for Computational

Linguistics, 1999. p. 3-10.

GARTEN, Y.; ALTMAN, R. Pharmspresso: a text mining tool for extraction of

pharmacogenomic concepts and relationships from full text. BMC

Bioinformatics, v. 10, p. S6, 2009. Suppl. 2.

IMAMURA, C. Y.-M. Pré-processamento para extração de conhecimento de

bases textuais. 103 f. Dissertação (Mestrado em Ciência de Computação e

Matemática Computacional) – Instituto de Ciências Matemáticas e de

Computação, Universidade de São Paulo, São Carlos, 2001.

MARTINS, C. A. Uma abordagem para pré-processamento de dados

textuais em algoritmos de aprendizado. 174 f. Tese (Doutorado em Ciência

de Computação e Matemática Computacional) – Instituto de Ciências

Matemáticas e de Computação, Universidade de São Paulo, São Carlos, 2003.

24/09/1050/52

Page 51: Metodologia de Pré-processamento Textual para Extração de ...gbd.dc.ufscar.br/download/files/Pablo.Defesa.pdf · sobre Efeitos de Doenças em Artigos Científicos do Domínio Biomédico

Referências Citadas na Apresentação (3/3) SCHUEMIE, M. J. et al. Distribution of information in biomedical abstracts

and full-text publications. Bioinformatics, v. 20, n. 16, p. 2597-2604, 2004.

_______. Evaluation of techniques for increasing recall in a dictionary

approach to gene and protein name identification. Journal of Biomedical

Informatics, v. 40, n. 3, p. 316-324, 2007.

TAN, A.-H. Text mining: the state of the art and the challenges. In:

KNOWLEDGE DISCOVERY FROM ADVANCED DATABASES (KDAD),

1999, Beijing, China. Proceedings... PAKDD, 1999. p. 71-76.

TANABE, L.; WILBUR, W. J. Tagging gene and protein names in

biomedical text. Bioinformatics, v. 18, n. 8, p. 1124-1132, 2002a.

_______. Tagging gene and protein names in full text articles. In:

WORKSHOP ON NATURAL LANGUAGE PROCESSING IN THE

BIOMEDICAL DOMAIN, 2002, Phildadelphia, Pennsylvania. Proceedings...

Morristown, NJ: Association for Computational Linguistics, 2002b. p. 9-13.

24/09/1051/52

Page 52: Metodologia de Pré-processamento Textual para Extração de ...gbd.dc.ufscar.br/download/files/Pablo.Defesa.pdf · sobre Efeitos de Doenças em Artigos Científicos do Domínio Biomédico

Pablo Freire Matos

Ricardo Rodrigues Ciferri – Orientador (DC/UFSCar)

Thiago Alexandre Salgueiro Pardo – Coorientador (ICMC/USP)

Metodologia de Pré-processamento

Textual para Extração de Informação

sobre Efeitos de Doenças em Artigos

Científicos do Domínio Biomédico

Page 53: Metodologia de Pré-processamento Textual para Extração de ...gbd.dc.ufscar.br/download/files/Pablo.Defesa.pdf · sobre Efeitos de Doenças em Artigos Científicos do Domínio Biomédico

Padrão POS: Estratégia 1

Número Padrão

1.0¹ (JJ_JJ_NN_NN_(NN)?)

1.1¹ (~JJ)_(JJ_NN_NN_(NN)?)

1.2¹ (JJ_JJ_NN)_(~NN)

1.3 (~JJ)_(JJ_NN)_(~NN)

1.4 ((~NN)&(~JJ))_(NN_NN)_( (~NN)&(~JJ))

1.5 (~JJ)_(JJ_NN)_(IN_NN_NN_NN)

¹ Padrão também utilizado na Estratégia 2.

24/09/1053/52

Page 54: Metodologia de Pré-processamento Textual para Extração de ...gbd.dc.ufscar.br/download/files/Pablo.Defesa.pdf · sobre Efeitos de Doenças em Artigos Científicos do Domínio Biomédico

Padrão POS: Estratégia 2

Número Padrão

1.0¹ (JJ_JJ_NN_NN_(NN)?)

1.1¹ (~JJ)_(JJ_NN_NN_(NN)?)

1.2¹ (JJ_JJ_NN)_(~NN)

2.0 (~JJ)_(JJ_NN_IN_JJ_NN)_(~NN)

2.1 ((~JJ)_NN_IN)_(JJ_NN)_(~NN)

3.0 (~JJ)_(JJ_NN)_(IN_NN_NN_NN)

3.1 (~JJ)_(JJ_NN_IN_NN_NN)_(~NN)

3.2 ((~JJ)_JJ_NN_IN)_(NN)_(~NN)

¹ Padrão também utilizado na Estratégia 1.

24/09/1054/52

Page 55: Metodologia de Pré-processamento Textual para Extração de ...gbd.dc.ufscar.br/download/files/Pablo.Defesa.pdf · sobre Efeitos de Doenças em Artigos Científicos do Domínio Biomédico

Baseline nas 131 Sentenças

24/09/10

Verdadeiros Positivos

Falsos Positivos

55/52

Page 56: Metodologia de Pré-processamento Textual para Extração de ...gbd.dc.ufscar.br/download/files/Pablo.Defesa.pdf · sobre Efeitos de Doenças em Artigos Científicos do Domínio Biomédico

Baseline nas 128 Sentenças

24/09/10

Verdadeiros Positivos

Falsos Positivos

56/52

Page 57: Metodologia de Pré-processamento Textual para Extração de ...gbd.dc.ufscar.br/download/files/Pablo.Defesa.pdf · sobre Efeitos de Doenças em Artigos Científicos do Domínio Biomédico

Regra e Dicionários nas 131 Sentenças

24/09/10

Verdadeiros Positivos

Falsos Positivos

57/52

Page 58: Metodologia de Pré-processamento Textual para Extração de ...gbd.dc.ufscar.br/download/files/Pablo.Defesa.pdf · sobre Efeitos de Doenças em Artigos Científicos do Domínio Biomédico

Regra e Dicionários nas 128 Sentenças

24/09/10

Verdadeiros Positivos

Falsos Positivos

58/52

Page 59: Metodologia de Pré-processamento Textual para Extração de ...gbd.dc.ufscar.br/download/files/Pablo.Defesa.pdf · sobre Efeitos de Doenças em Artigos Científicos do Domínio Biomédico

Trabalhos Futuros (3/3) Distinção dos termos extraídos

Hierarquização dos termos extraídos:

parvovirus infection e infection

24/09/10

Banco de Dados Biomédico

59/52

Page 60: Metodologia de Pré-processamento Textual para Extração de ...gbd.dc.ufscar.br/download/files/Pablo.Defesa.pdf · sobre Efeitos de Doenças em Artigos Científicos do Domínio Biomédico

Estudos de Caso - Considerações

24/09/10

Erro do etiquetador

1. Splenomegaly classificado como advérbio

2. Parvovirus classificado como verbo

60/52

Page 61: Metodologia de Pré-processamento Textual para Extração de ...gbd.dc.ufscar.br/download/files/Pablo.Defesa.pdf · sobre Efeitos de Doenças em Artigos Científicos do Domínio Biomédico

Estudo de Caso (1):

Classificação de Sentenças

24/09/10

Método de Particionamento: 10-Fold Cross-Validation

61/52

Page 62: Metodologia de Pré-processamento Textual para Extração de ...gbd.dc.ufscar.br/download/files/Pablo.Defesa.pdf · sobre Efeitos de Doenças em Artigos Científicos do Domínio Biomédico

Experimento 1:

Fases de Treinamento e de Teste

24/09/1062/52

Page 63: Metodologia de Pré-processamento Textual para Extração de ...gbd.dc.ufscar.br/download/files/Pablo.Defesa.pdf · sobre Efeitos de Doenças em Artigos Científicos do Domínio Biomédico

Experimento 1:

Fases de Treinamento e de Teste

24/09/1063/52

Page 64: Metodologia de Pré-processamento Textual para Extração de ...gbd.dc.ufscar.br/download/files/Pablo.Defesa.pdf · sobre Efeitos de Doenças em Artigos Científicos do Domínio Biomédico

Experimento 2:

Fase de Uso do Modelo de Classificação

24/09/10

Método de Particionamento: Holdout (p = 2/3)

64/52

Page 65: Metodologia de Pré-processamento Textual para Extração de ...gbd.dc.ufscar.br/download/files/Pablo.Defesa.pdf · sobre Efeitos de Doenças em Artigos Científicos do Domínio Biomédico

Experimento 2:

Fase de Uso do Modelo de Classificação

24/09/1065/52

Page 66: Metodologia de Pré-processamento Textual para Extração de ...gbd.dc.ufscar.br/download/files/Pablo.Defesa.pdf · sobre Efeitos de Doenças em Artigos Científicos do Domínio Biomédico

Experimento 2:

Fase de Uso do Modelo de Classificação

24/09/1066/52

Page 67: Metodologia de Pré-processamento Textual para Extração de ...gbd.dc.ufscar.br/download/files/Pablo.Defesa.pdf · sobre Efeitos de Doenças em Artigos Científicos do Domínio Biomédico

LET¹

Outros

blood case cohort criteria

doppler dose period study

transcranial velocities velocity

24/09/10

¹ Termos substantivos (e.g., dose, period, cohort, criteria), compostos (e.g., sickle cell

disease, sickle cell anemia) e siglas (e.g., hb, scd, tcd) do domínio biomédico que são

irrelevantes e que sinalizam segmentos textuais que podem ser desconsiderados no

processamento.

Tratamento

bronchoscopy hydroxyurea transfusion transplantation

Sigla

hb scd tcd

marrow e treatment não são LET:

marrow depression

treatment failure

Doença

sickle cell disease sickle cell anemia

67/52

Page 68: Metodologia de Pré-processamento Textual para Extração de ...gbd.dc.ufscar.br/download/files/Pablo.Defesa.pdf · sobre Efeitos de Doenças em Artigos Científicos do Domínio Biomédico

Eliminar Termo com LET

24/09/10

Exemplos de Sentenças que utilizam da LET

LET

68/52

Page 69: Metodologia de Pré-processamento Textual para Extração de ...gbd.dc.ufscar.br/download/files/Pablo.Defesa.pdf · sobre Efeitos de Doenças em Artigos Científicos do Domínio Biomédico

LEP¹

LEP

complication different episode history

multiple ongoing other patient

patient-year previous primary recurrence

recurrent repeated risk secondary

treatment underlying

24/09/10

¹ Palavras comuns e gerais irrelevantes que não são do domínio biomédico (e.g, other,

different, underlying) e palavras irrelevantes do domínio biomédico que estão associadas a

algum termo (e.g., painful episodes, recurrent splenic sequestration, stroke risk, primary

stroke, multiple vaso-occlusive).

treatment está sendo uma LEP:

year of treatment (VN)

chooosing treatment (FP)

LEP com 1000 palavras:

http://www.bckelk.ukfsn.org/words/uk1000.html

69/52

Page 70: Metodologia de Pré-processamento Textual para Extração de ...gbd.dc.ufscar.br/download/files/Pablo.Defesa.pdf · sobre Efeitos de Doenças em Artigos Científicos do Domínio Biomédico

LEP: Padrão (JJ)?_NN_(of_IN)

NN_(of_IN)

analysis of chance of episode of finding of

frequency of history of rate of years of

patient-years of

24/09/10

JJ_NN_(of_IN)

fatal episode of first occurrence of high risk of previous history of

past history of

Objetivo: Aumentar a lista LEP com os substantivos (e.g., analysis, chance, episode,

finding, frequency, history, rate, years, patient-years, occurrence, risk, history)

70/52

Page 71: Metodologia de Pré-processamento Textual para Extração de ...gbd.dc.ufscar.br/download/files/Pablo.Defesa.pdf · sobre Efeitos de Doenças em Artigos Científicos do Domínio Biomédico

LEPLEP

24/09/10

Identificar Falso Positivo

Remover Falso Positivo presente na LEP

71/52

Page 72: Metodologia de Pré-processamento Textual para Extração de ...gbd.dc.ufscar.br/download/files/Pablo.Defesa.pdf · sobre Efeitos de Doenças em Artigos Científicos do Domínio Biomédico

Motivação

Localização no documento (%)Nº

de

regis

tro

s en

con

trad

os

Schuemie et al. (2004)

Gene e Proteína

Corney et al. (2004)

24/09/10

Por que extrair informação

de artigos completos?

Benefícios

+ da metade da informação

encontra-se no corpo do artigo

+ seção + informação a ser extraída

Problemas

Conversão formato

+ tempo de processamento

copyright72/52

Page 73: Metodologia de Pré-processamento Textual para Extração de ...gbd.dc.ufscar.br/download/files/Pablo.Defesa.pdf · sobre Efeitos de Doenças em Artigos Científicos do Domínio Biomédico

Etapa 2: Classificação de Sentenças (3/3)

24/09/10

Processo de Classificação de Sentenças Supervisionado

73/52

Page 74: Metodologia de Pré-processamento Textual para Extração de ...gbd.dc.ufscar.br/download/files/Pablo.Defesa.pdf · sobre Efeitos de Doenças em Artigos Científicos do Domínio Biomédico

Classificação Manual e Extração Fictícia

24/09/10Extração Fictícia

74/52

Page 75: Metodologia de Pré-processamento Textual para Extração de ...gbd.dc.ufscar.br/download/files/Pablo.Defesa.pdf · sobre Efeitos de Doenças em Artigos Científicos do Domínio Biomédico

Classificação Automática e Extração Real

24/09/10

Extração Real

75/52

Page 76: Metodologia de Pré-processamento Textual para Extração de ...gbd.dc.ufscar.br/download/files/Pablo.Defesa.pdf · sobre Efeitos de Doenças em Artigos Científicos do Domínio Biomédico

Extração Fictícia versus Extração Real

24/09/10

Dicionário

76/52