Upload
doandieu
View
216
Download
0
Embed Size (px)
Citation preview
Pablo Freire Matos
Ricardo Rodrigues Ciferri – Orientador (DC/UFSCar)
Thiago Alexandre Salgueiro Pardo – Coorientador (ICMC/USP)
Metodologia de Pré-processamento
Textual para Extração de Informação
sobre Efeitos de Doenças em Artigos
Científicos do Domínio Biomédico
Roteiro
Introdução
Revisão Literária
Metodologia Proposta e Instanciação
Estudos de Caso
Conclusão
24/09/102/52
Contexto e Motivação
Quantidade imensa de
Informação disponível
Humanos não são capazes de assimilar todo
esse conteúdo
Informação via e-mail, blogs, wikis, artigos...
+ de 80% das informações estão em formato de texto
Tan (1999) e Chen (2001)24/09/10
Gantz et al. (2007)
Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão
3/52
Contexto e Motivação
PubMed
+ de 18 milhões de artigos (desde 1966)
MEDLINE (área de ciências + biomedicina)
Entrez - Sistema integrado do NCBI
35 bases com 350 milhões de registros
Sickle Cell Anemia
16.654 registros do PubMed (citações e resumos)
4.765 do PubMed Central (artigos completos)
24/09/104/52
Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão
Contexto e Motivação
Infinidade de meios de publicação
American Journal of Hematology, Blood, British
Journal of Haematology, Haematologica, The New
England Journal of Medicine
Leva tempo para
ler e identificar as principais
informações do artigo
Inviável analisar toda
a literatura relevante manualmente
24/09/105/52
Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão
Contexto e Motivação
Esses documentos estão em formato não estruturado
Há a necessidade de transformar esses dados de
formato não estruturado para estruturado
Objetivo: processo de descoberta de conhecimento
automático
24/09/106/52
Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão
Objetivo
Propor uma metodologia de pré-
processamento textual para extração de
informação sobre efeitos de doenças em
artigos científicos do domínio biomédico
A metodologia é composta por quatro etapas:
Entrada de Dados (Etapa 1)
Classificação de Sentenças (Etapa 2)
Identificação de Termos Relevantes (Etapa 3)
Gerenciamento de Termos (Etapa 4)
24/09/107/52
Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão
Hipóteses Hipótese 1: É possível usar abordagens de extração de informação
para identificar automaticamente termos relevantes do domínio
biomédico com alta precisão e revocação
Hipótese 2: Extrair termos relacionados a efeitos de doenças no
domínio biomédico de outras seções do artigo, além do seu resumo,
permite obter uma maior quantidade de informação relevante
Hipótese 3: Uso de duas etapas separadas e consecutivas:
Etapa 1: classificar as sentenças em classes de interesse. Etapa 2:
identificar e extrair termos apenas nas sentenças classificadas
nestas classes de interesse
possibilita um bom resultado no processo de extração de
informação de termos relacionados a efeitos de doenças no domínio
biomédico24/09/10
Todas as sentenças =
+falsos positivos
Todas as seções =
+falsos positivos
8/52
Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão
Mineração de Textos Extrair informações úteis em documentos no formato
textual não-estruturado através da identificação de
conhecimento e exploração de padrões Hearst (1999)
24/09/10
Imamura (2001)
Martins (2003)
Feldman e Sanger (2007)
9/52
Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão
Abordagens para Extração de InformaçãoAbordagem Vantagem Desvantagem
Dicionário
•Casamento de padrão com
informações armazenadas no
dicionário
•Limitação de nomes
•Variações de nome (baixa
revocação)
•Nomes curtos causam falsos
positivos (diminui a precisão)
Regras
•Melhor precisão •Requer tempo
•Restrito a um domínio
•Exclui termos que não
correspondem aos padrões
predefinidos (diminui a
revocação)
Aprendizado de
Máquina
•Independência de domínio
•Alto desempenho para
predição
•Grande quantidade de dados
de treinamento
•Retreinamento após o
advento de novos dados
•Classificação é prejudicada
com uma classe minoritária24/09/10
10/52
Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão
Trabalhos Correlatos – Resumos
24/09/1011/52
Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão
Trabalhos Correlatos – Artigos Completos
24/09/1012/52
1) Abordagem de AM: Classificação de Sentenças
2) Artigos: Algumas Seções
Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão
Metodologia Proposta para Extração
de Informação no Domínio Biomédico
24/09/1013/52
Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão
Etapa 1: Entrada de Dados
24/09/1014/52
Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão
Etapa 1: Entrada de Dados (1/2)
24/09/10
Formato TXT
Formato XML
15/52
Carosia e Ciferri (2010)
Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão
Etapa 1: Entrada de Dados (2/2)
24/09/10
Exemplo Formato XML
Exemplo Formato TXT
16/52
Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão
Etapa 2: Classificação de Sentenças
24/09/10
Seções processadas: Abstract, Results e Discussion
17/52
Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão
Etapa 2: Classificação de Sentenças (1/2)
Saída
Treinamento
Efeito Positivo
Efeito Negativo
Outros
Teste
Diversos arquivos com sentenças de efeito negativo
Diversos arquivos com sentenças de efeito positivo
Diversos arquivos com sentenças de outros
Novo textoTXT
Conjunto desentençasclassificadas em classes
Cla
sses
24/09/1018/52
Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão
Modelo Bag-of-words
Medida binária
Atributos: 1 a 3 gramas
Frequência mínima: 2
Etapa 2: Classificação de Sentenças (2/2)
24/09/10
Efeito Negativo
Efeito Positivo
Outros
19/52
Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão
Ferramenta SCA-Classifier
24/09/10
API Weka
20/52
Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão
Etapa 3: Identificação de Termos Relevantes
24/09/1021/52
Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão
24/09/10
Banco de Dados Biomédico
Exemplo de Sentenças
Informação Relevante
Dicionário
Termo Variação
hemorrhagecentral nervous system hemorrhage
intracranial hemorrhage
pain
painful episode
pain crises
pain crisis
22/52
Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão
Remover Falso Positivo
24/09/10
Dicionário
Lista de Exclusão de Termo (LET): Termos substantivos, compostos e siglas do
domínio biomédico que são irrelevantes e que sinalizam segmentos textuais que podem
ser desconsiderados no processamento.
Lista de Exclusão de Palavra (LEP): Palavras comuns e gerais irrelevantes que não são
do domínio biomédico e palavras irrelevantes do domínio biomédico que estão associadas a
algum termo. LEP com 1000 palavras: http://www.bckelk.ukfsn.org/words/uk1000.html
23/52
Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão
Exemplo de Sentença Etiquetada
Part-Of-Speech (POS)
24/09/10
Regras
Etiquetador POS da Stanford:
96,86% - treinamento
86,91% - palavras novas
Padrão Tag:
Penn Treebank
Exemplo de Sentença
padrão JJ_NN
24/52
Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão
Termos Relevantes
Extraídos:
Expressão Composta
Verbo
Expressão Composta
Verbo
Expressão Composta
Verbo
Expressão Composta
Verbo
acute chest syndromes
cerebrovascular events
osteonecrosis
mycoplasma
viral pneumonia
pavovirus
1
24/09/10
Regras
Estratégia 1:
Verbo e Expressão com POS
Palavra Etiquetada: III - irrelevante
RRR - relevante
Exemplo
2
3
4
(JJ)?_NN_(of_IN)
25/52
Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão
Palavra Etiquetada: III - irrelevante
RRR - relevante
Estratégia 2: POS
24/09/10
Regras
Como identificar termos nas sentenças que
não contêm verbo e expressão composta
representativos?
26/52
Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão
Estratégia 2: POS
24/09/10
Regras
Termo na cor turquesa não selecionado pela Estratégia 1
27/52
Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão
Ferramenta SCA-Extractor
24/09/1028/52
Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão
Etapa 4: Gerenciamento de Termos
24/09/1029/52
Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão
Etapa 4: Gerenciamento de Termos
Quatro operações:
Inserir novos termos
Validar termos extraídos
Mover termos extraídos
Hierarquizar termos
24/09/1030/52
Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão
Estudos de Caso: Etapa 2 e Etapa 3
24/09/10
Classificação: Efeito Negativo, Efeito Positivo e Outros
Extração: Efeito Negativo
Classificação10-Fold Cross-Validation
Classificação e ExtraçãoHoldout (p = 2/3)
Sentenças Aleatórias
31/52
6 Algoritmos de AM
SVM e NB (Estatístico)
ID3 e J48 (Árvore de Decisão)
Prism e OneR (Regra)
3 Configurações para
construir a MAV
Sem Filtro
Balanceamento
Remoção de Ruído
Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão
Estudo de Caso (1):
Classificação de Sentenças (Etapa 2)
24/09/1032/52
Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão
Estudo de Caso (1):
Classificação de Sentenças (Etapa 2)
24/09/10
Medida com
10-Fold Cross-Validation
Amostra601
Melhor Índice
Acurácia SVM com Balanceamento 87,19%
Medida-F da classe
Efeito NegativoSVM com Balanceamento 83,16%
Medida com Holdout
Amostra300Melhor Índice
Acurácia SVM com Balan. ou Rem. 62,33%
Medida-F da classe
Efeito NegativoSVM com Remoção de Ruído 71,81%
33/52
Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão
Estudo de Caso (2):Identificação de Termos Relevantes (Etapa 3)
24/09/10
Classificação Manual
Extração Fictícia
Classificação Automática
Extração Real
Matriz de Confusão: Holdout Amostra300
Prec Rev Med-F
73% 71% 71,81%
34/52
Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão
Nomenclatura dos Termos Extraídos
24/09/10
Verdadeiro
PositivoTermo Real Termo Extraído
Termo Completo respiratory failure respiratory failure
Termo Parcial acute hepatic sequestration hepatic sequestration
Termo Adicional chronic lung diseaseresultant chronic lung
disease
Falso Positivo Exemplo
Termo que foi extraído, mas que não deveria
ser extraído hydroxyurea therapy
Falso Negativo Exemplo
Termo que deveria ser extraído, mas que não
foi extraídothrombocytopenia
35/52
Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão
Classificação Manual e Extração Fictícia
24/09/10
Extração Fictícia
36/52
Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão
Classificação Automática e Extração Real
24/09/10
Extração Real
37/52
Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão
Extração Fictícia versus Extração Real
24/09/10
Regra e Dicionário
38/52
Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão
Estudo de Caso (2):Identificação de Termos Relevantes (Etapa 3)
24/09/10
Classificação Manual
Extração Fictícia
Classificação Automática
Extração Real
Matriz de Confusão: Holdout Amostra300
39/52
Prec Rev Med-F
73% 71% 71,81%
Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão
Conclusão Abordagens de extração de informação auxiliam na
identificação automaticamente de termos relevantes do
domínio biomédico com alta precisão e revocação
Extração de termos relacionados a efeitos de doenças no
domínio biomédico de outras seções do artigo, além do
resumo, permite obter uma maior quantidade de informação
relevante
Uso de duas etapas separadas e consecutivas possibilita um
bom resultado no processo de extração de informação de
termos relacionados a efeitos de doenças no domínio
biomédico24/09/10
40/52
Hipótese 2
Algumas seções = -falsos positivos
Hipótese 3
Algumas sentenças = -falsos positivos
Hipótese 1
Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão
Contribuições Contribuição teórica
Metodologia de extração de informação
Amostra300:
Extração de Informação Real: Medida-F de 80,43%
Classificação Automática: Medida-F de 71,81%
Contribuições práticas
Criação e disponibilização de recursos: coleção de
documentos, dicionário e base de regras
Criação e disponibilização de ferramentas:
Classificador de Sentenças (SCA-Classifier)
Extrator de Informação (SCA-Extractor)
Gerenciador de Termos (SCA-TermManager)
24/09/1041/52
Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão
Trabalhos Futuros (1/2)
24/09/10
Criação de uma coleção de documentos anotada
42/52
Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão
Trabalhos Futuros (2/2) Investigação do uso da metodologia na identificação
de outros termos:
tratamento e fator de risco
Instanciação da metodologia para identificar efeitos de outras
doenças:
câncer, mal de Alzheimer, mal de Parkinson e glaucoma
Investigação da aplicação da metodologia em outros
domínios além do domínio biomédico:
erupção de vulcão e poluição ambiental
Utilizar análise semântica para identificar termos que estão
implícitos nas sentenças:
Sentença com termo implícito: “The recent availability of an oral iron
chelator may render prolonged transfusion more acceptable.”24/09/10
43/52
Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão
Produção Científica (1/2)
MATOS, P. F.; CIFERRI, R. R.; PARDO, T. A. S. Metodologia de pré-
processamento textual para extração de informação em artigos científicos
do domínio biomédico. In: WORKSHOP DE TESES E DISSERTAÇÕES
EM BANCOS DE DADOS, VIII, 2009, Fortaleza, Ceará. Anais... Simpósio
Brasileiro de Banco de Dados, 2009. p. 7-12.
24/09/10
Qualis
B3
Evento Nacional
44/52
Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão
Produção Científica (2/2)
MATOS, P. F.; LOMBARDI, L. O.; PARDO, T. A. S; CIFERRI, C. D. A. ;
VIEIRA, M. T. P.; CIFERRI, R. R. An environment for data analysis in
biomedical domain: information extraction for decision support systems. In:
GARCÍA-PEDRAJAS, N. et al. (Ed.). International Conference on
Industrial, Engineering & Other Applications of Applied Intelligent
Systems (IEA-AIE). 23th. Heidelberg: Springer, 2010. p. 306-316. (Lecture
Notes in Computer Science; v. 6096).
24/09/10
Evento Internacional
Qualis
B3
45/52
Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão
Produção Técnica (1/2)
Pôster e Relatório Técnico MATOS, P. F.; CIFERRI, R. R.; PARDO, T. A. S. Methodology of textual
preprocessing for information extraction in scientific papers of the biomedical domain.
In: WORKSHOP DE PÓS-GRADUAÇÃO SEMANA DE COMPUTAÇÃO, 3º, 2010,
São Carlos. Anais... UFSCar, 2010. Pôster.
MATOS, P. F.; LOMBARDI, L. O.; CIFERRI, R. R.; PARDO, T. A. S.; CIFERRI, C. D.
A.; VIEIRA, M. T. P. Relatório Técnico "Conceitos sobre Aprendizado de
Máquina". São Carlos: Departamento de Computação, Universidade Federal de São
Carlos, 2009. p. 23.
MATOS, P. F.; LOMBARDI, L. O.; CIFERRI, R. R.; PARDO, T. A. S.; CIFERRI, C. D.
A.; VIEIRA, M. T. P. Relatório Técnico "Métricas de Avaliação". São Carlos:
Departamento de Computação, Universidade Federal de São Carlos, 2009. p. 15.
PINTO, A. C. S.; MATOS, P. F.; PERLIN, C. B.; ANDRADE, C. G.; CAROSIA, A. E.
O.; LOMBARDI, L. O.; CIFERRI, R. R.; PARDO, T. A. S.; CIFERRI, C. D. A.; VIEIRA,
M. T. P. Technical Report "Sickle Cell Anemia". São Carlos: Department of
Computer Science, Federal University of São Carlos, 2009. p. 16.24/09/10
46/52
Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão
Produção Técnica (2/2)
Softwares
MATOS, P. F.; CIFERRI, R. R.; PARDO, T. A. S. SCA-TermManager: a
tool from the biomedical domain to assist the expert in term management.
2010. Software. Disponível em:
<http://gbd.dc.ufscar.br/~pablofmatos/files/SCA-TermManager.rar>. Acesso
em: 30 ago. 2010.
MATOS, P. F.; CIFERRI, R. R.; PARDO, T. A. S. SCA-Extractor: a tool for
information extraction in scientific papers of the biomedical domain. 2010.
Software. Disponível em: <http://gbd.dc.ufscar.br/~pablofmatos/files/SCA-
Extractor.rar>. Acesso em: 30 ago. 2010.
MATOS, P. F.; CIFERRI, R. R.; PARDO, T. A. S. SCA-Classifier: a tool for
sentence classification in scientific papers of the biomedical domain. 2010.
Software. Disponível em: <http://gbd.dc.ufscar.br/~pablofmatos/files/SCA-
Classifier.rar>. Acesso em: 30 ago. 2010.
24/09/1047/52
Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão
Agradecimentos
Idealizador do projeto Anemia Falciforme
Médico Dr. Marco Antonio Zago
Especialista do Domínio
Médica Drª. Ana Cristina Silva Pinto
24/09/1048/52
Referências Citadas na Apresentação (1/3) BREMER, E. G. et al. Text mining of full text articles and creation of a
knowledge base for analysis of microarray data. In: LÓPEZ, J. A.;
BENFENATI, E.; DUBITZKY, W. (Ed.). Knowledge Exploration in Life
Science Informatics (KELSI). Heidelberg: Springer, 2004. p. 84-95. (Lecture
Notes in Computer Science; v. 3303).
CAROSIA, A. E. O.; CIFERRI, C. D. A. Ferramenta SCDtRanslator:
conversão do formato PDF para o formato XML aplicada ao domínio de
artigos médicos sobre a Doença Anemia Falciforme. São Carlos: Instituto de
Ciências Matemáticas e de Computação, Universidade de São Paulo, 2010.
p. 40.
CHEN, H. Knowledge management systems: a text mining perspective.
Tucson, AZ: University of Arizona, 2001. 50 p.
CORNEY, D. P. A. et al. BioRAT: extracting biological information from full-
length papers. Bioinformatics, v. 20, n. 17, p. 3206-3213, 2004.
FELDMAN, R.; SANGER, J. The text mining handbook: advanced
approaches in analyzing unstructured data. New York: Cambridge University
Press, 2007. 391 p.24/09/10
49/52
Referências Citadas na Apresentação (2/3) GANTZ, J. F. et al. The expanding digital universe: a forecast of worldwide
information growth through 2010. IDC Whitepaper, 2007.
HEARST, M. A. Untangling text data mining. In: ANNUAL MEETING OF THE
ASSOCIATION OF COMPUTATIONAL LINGUISTICS, 37th, 1999, College
Park, Maryland. Proceedings... Morristown, NJ: Association for Computational
Linguistics, 1999. p. 3-10.
GARTEN, Y.; ALTMAN, R. Pharmspresso: a text mining tool for extraction of
pharmacogenomic concepts and relationships from full text. BMC
Bioinformatics, v. 10, p. S6, 2009. Suppl. 2.
IMAMURA, C. Y.-M. Pré-processamento para extração de conhecimento de
bases textuais. 103 f. Dissertação (Mestrado em Ciência de Computação e
Matemática Computacional) – Instituto de Ciências Matemáticas e de
Computação, Universidade de São Paulo, São Carlos, 2001.
MARTINS, C. A. Uma abordagem para pré-processamento de dados
textuais em algoritmos de aprendizado. 174 f. Tese (Doutorado em Ciência
de Computação e Matemática Computacional) – Instituto de Ciências
Matemáticas e de Computação, Universidade de São Paulo, São Carlos, 2003.
24/09/1050/52
Referências Citadas na Apresentação (3/3) SCHUEMIE, M. J. et al. Distribution of information in biomedical abstracts
and full-text publications. Bioinformatics, v. 20, n. 16, p. 2597-2604, 2004.
_______. Evaluation of techniques for increasing recall in a dictionary
approach to gene and protein name identification. Journal of Biomedical
Informatics, v. 40, n. 3, p. 316-324, 2007.
TAN, A.-H. Text mining: the state of the art and the challenges. In:
KNOWLEDGE DISCOVERY FROM ADVANCED DATABASES (KDAD),
1999, Beijing, China. Proceedings... PAKDD, 1999. p. 71-76.
TANABE, L.; WILBUR, W. J. Tagging gene and protein names in
biomedical text. Bioinformatics, v. 18, n. 8, p. 1124-1132, 2002a.
_______. Tagging gene and protein names in full text articles. In:
WORKSHOP ON NATURAL LANGUAGE PROCESSING IN THE
BIOMEDICAL DOMAIN, 2002, Phildadelphia, Pennsylvania. Proceedings...
Morristown, NJ: Association for Computational Linguistics, 2002b. p. 9-13.
24/09/1051/52
Pablo Freire Matos
Ricardo Rodrigues Ciferri – Orientador (DC/UFSCar)
Thiago Alexandre Salgueiro Pardo – Coorientador (ICMC/USP)
Metodologia de Pré-processamento
Textual para Extração de Informação
sobre Efeitos de Doenças em Artigos
Científicos do Domínio Biomédico
Padrão POS: Estratégia 1
Número Padrão
1.0¹ (JJ_JJ_NN_NN_(NN)?)
1.1¹ (~JJ)_(JJ_NN_NN_(NN)?)
1.2¹ (JJ_JJ_NN)_(~NN)
1.3 (~JJ)_(JJ_NN)_(~NN)
1.4 ((~NN)&(~JJ))_(NN_NN)_( (~NN)&(~JJ))
1.5 (~JJ)_(JJ_NN)_(IN_NN_NN_NN)
¹ Padrão também utilizado na Estratégia 2.
24/09/1053/52
Padrão POS: Estratégia 2
Número Padrão
1.0¹ (JJ_JJ_NN_NN_(NN)?)
1.1¹ (~JJ)_(JJ_NN_NN_(NN)?)
1.2¹ (JJ_JJ_NN)_(~NN)
2.0 (~JJ)_(JJ_NN_IN_JJ_NN)_(~NN)
2.1 ((~JJ)_NN_IN)_(JJ_NN)_(~NN)
3.0 (~JJ)_(JJ_NN)_(IN_NN_NN_NN)
3.1 (~JJ)_(JJ_NN_IN_NN_NN)_(~NN)
3.2 ((~JJ)_JJ_NN_IN)_(NN)_(~NN)
¹ Padrão também utilizado na Estratégia 1.
24/09/1054/52
Baseline nas 131 Sentenças
24/09/10
Verdadeiros Positivos
Falsos Positivos
55/52
Baseline nas 128 Sentenças
24/09/10
Verdadeiros Positivos
Falsos Positivos
56/52
Regra e Dicionários nas 131 Sentenças
24/09/10
Verdadeiros Positivos
Falsos Positivos
57/52
Regra e Dicionários nas 128 Sentenças
24/09/10
Verdadeiros Positivos
Falsos Positivos
58/52
Trabalhos Futuros (3/3) Distinção dos termos extraídos
Hierarquização dos termos extraídos:
parvovirus infection e infection
24/09/10
Banco de Dados Biomédico
59/52
Estudos de Caso - Considerações
24/09/10
Erro do etiquetador
1. Splenomegaly classificado como advérbio
2. Parvovirus classificado como verbo
60/52
Estudo de Caso (1):
Classificação de Sentenças
24/09/10
Método de Particionamento: 10-Fold Cross-Validation
61/52
Experimento 1:
Fases de Treinamento e de Teste
24/09/1062/52
Experimento 1:
Fases de Treinamento e de Teste
24/09/1063/52
Experimento 2:
Fase de Uso do Modelo de Classificação
24/09/10
Método de Particionamento: Holdout (p = 2/3)
64/52
Experimento 2:
Fase de Uso do Modelo de Classificação
24/09/1065/52
Experimento 2:
Fase de Uso do Modelo de Classificação
24/09/1066/52
LET¹
Outros
blood case cohort criteria
doppler dose period study
transcranial velocities velocity
24/09/10
¹ Termos substantivos (e.g., dose, period, cohort, criteria), compostos (e.g., sickle cell
disease, sickle cell anemia) e siglas (e.g., hb, scd, tcd) do domínio biomédico que são
irrelevantes e que sinalizam segmentos textuais que podem ser desconsiderados no
processamento.
Tratamento
bronchoscopy hydroxyurea transfusion transplantation
Sigla
hb scd tcd
marrow e treatment não são LET:
marrow depression
treatment failure
Doença
sickle cell disease sickle cell anemia
67/52
Eliminar Termo com LET
24/09/10
Exemplos de Sentenças que utilizam da LET
LET
68/52
LEP¹
LEP
complication different episode history
multiple ongoing other patient
patient-year previous primary recurrence
recurrent repeated risk secondary
treatment underlying
24/09/10
¹ Palavras comuns e gerais irrelevantes que não são do domínio biomédico (e.g, other,
different, underlying) e palavras irrelevantes do domínio biomédico que estão associadas a
algum termo (e.g., painful episodes, recurrent splenic sequestration, stroke risk, primary
stroke, multiple vaso-occlusive).
treatment está sendo uma LEP:
year of treatment (VN)
chooosing treatment (FP)
LEP com 1000 palavras:
http://www.bckelk.ukfsn.org/words/uk1000.html
69/52
LEP: Padrão (JJ)?_NN_(of_IN)
NN_(of_IN)
analysis of chance of episode of finding of
frequency of history of rate of years of
patient-years of
24/09/10
JJ_NN_(of_IN)
fatal episode of first occurrence of high risk of previous history of
past history of
Objetivo: Aumentar a lista LEP com os substantivos (e.g., analysis, chance, episode,
finding, frequency, history, rate, years, patient-years, occurrence, risk, history)
70/52
LEPLEP
24/09/10
Identificar Falso Positivo
Remover Falso Positivo presente na LEP
71/52
Motivação
Localização no documento (%)Nº
de
regis
tro
s en
con
trad
os
Schuemie et al. (2004)
Gene e Proteína
Corney et al. (2004)
24/09/10
Por que extrair informação
de artigos completos?
Benefícios
+ da metade da informação
encontra-se no corpo do artigo
+ seção + informação a ser extraída
Problemas
Conversão formato
+ tempo de processamento
copyright72/52
Etapa 2: Classificação de Sentenças (3/3)
24/09/10
Processo de Classificação de Sentenças Supervisionado
73/52
Classificação Manual e Extração Fictícia
24/09/10Extração Fictícia
74/52
Classificação Automática e Extração Real
24/09/10
Extração Real
75/52
Extração Fictícia versus Extração Real
24/09/10
Dicionário
76/52