68
Celso Araujo Fontes (IME) Maio/2011 Explorando inferência em um sistema de anotação semântica Explorando Inferência em um Sistema de Anotação Semântica Orientadoras: Maria Claudia R. Cavalcanti, D.Sc. Ana Maria de Carvalho Moura, Dr. Ing Aluno: Celso Araujo Fontes Instituto Militar de Engenharia Rio de Janeiro, 26 de maio de 2011

EXPLORANDO INFERÊNCIA EM UM SISTEMA DE ANOTAÇÃO SEMÂNTICA

Embed Size (px)

DESCRIPTION

Dissertação completa em: http://www2.comp.ime.eb.br/dissertacoes/2011-Celso_Fontes.pdf Ferramenta disponível em: http://code.google.com/p/autometa/

Citation preview

Page 1: EXPLORANDO INFERÊNCIA EM UM SISTEMA DE ANOTAÇÃO SEMÂNTICA

Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica

Explorando Inferência em um Sistema de Anotação Semântica

Orientadoras:

Maria Claudia R. Cavalcanti, D.Sc.Ana Maria de Carvalho Moura, Dr. Ing

Aluno: Celso Araujo Fontes

Instituto Militar de Engenharia

Rio de Janeiro, 26 de maio de 2011

Page 2: EXPLORANDO INFERÊNCIA EM UM SISTEMA DE ANOTAÇÃO SEMÂNTICA

Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica

Sumário

1. Introdução2. Fundamentação Teórica3. Anotação Semântica4. Arquitetura para o desenvolvimento de um sistema

de anotação automática em documentos5. Desenvolvimento da ferramenta AutôMeta6. Avaliação e Testes7. Conclusão

Page 3: EXPLORANDO INFERÊNCIA EM UM SISTEMA DE ANOTAÇÃO SEMÂNTICA

Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica

Introdução

• Pesquisas ainda são baseadas em textos, dificultando a precisão na recuperação da informação

IntroduçãoFundamentação Teórica

Anotação SemânticaArquitetura

Desenvolvimento da FerramentaAvaliação e Testes

Conclusão

Page 4: EXPLORANDO INFERÊNCIA EM UM SISTEMA DE ANOTAÇÃO SEMÂNTICA

Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica

Introdução

• Metadados• Web Semântica

• RDF, OWL ...• Web Tradicional = usa-se somente HTML

• Onde está a semântica?

• Anotação Semânticanome: <b>celso</b>, cidade: <i>rio de janeiro</i>

IntroduçãoFundamentação Teórica

Anotação SemânticaArquitetura

Desenvolvimento da FerramentaAvaliação e Testes

Conclusão

Page 5: EXPLORANDO INFERÊNCIA EM UM SISTEMA DE ANOTAÇÃO SEMÂNTICA

Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica

Motivação

• Anotar não é uma tarefa trivial• Grande volume de documentos• Necessidade de mecanismos automáticos de

anotação• Ferramentas atuais de anotação semântica

• Vocabulários Arbitrários• Ferramentas nem sempre exploram as informações

implícitas• Utilização de formatos próprios dificulta a

recuperação por ferramenta de busca semântica.

IntroduçãoFundamentação Teórica

Anotação SemânticaArquitetura

Desenvolvimento da FerramentaAvaliação e Testes

Conclusão

Page 6: EXPLORANDO INFERÊNCIA EM UM SISTEMA DE ANOTAÇÃO SEMÂNTICA

Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica

Hipótese

É possível gerar documentos melhor anotados a partir da exploração mais profunda da ontologia, contemplando inferência?

IntroduçãoFundamentação Teórica

Anotação SemânticaArquitetura

Avaliação e TestesConclusão

Referências Bibliográficas

Page 7: EXPLORANDO INFERÊNCIA EM UM SISTEMA DE ANOTAÇÃO SEMÂNTICA

Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica

Objetivos da dissertação

• Desenvolver um sistema para anotação semântica em documentos com base em conceitos de uma ontologia

• Utilizar-se de um raciocinador para inferir novas anotações

• Uso de meta anotações para justificar as anotações inferidas.

IntroduçãoFundamentação Teórica

Anotação SemânticaArquitetura

Avaliação e TestesConclusão

Referências Bibliográficas

Page 8: EXPLORANDO INFERÊNCIA EM UM SISTEMA DE ANOTAÇÃO SEMÂNTICA

Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica

Fundamentação Teórica

• Ontologia:• “Uma especificação explícita de uma conceituação.

A conceituação é uma abstração simplificada do domínio em que se deseja representar para algum propósito” (GRUBBER, 1992)

• Características:• Classes• Relações• Instâncias

IntroduçãoFundamentação Teórica

Anotação SemânticaArquitetura

Desenvolvimento da FerramentaAvaliação e Testes

Conclusão

Page 9: EXPLORANDO INFERÊNCIA EM UM SISTEMA DE ANOTAÇÃO SEMÂNTICA

Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica

Linguagens para Representação de Ontologias

• RDF (Resource Description Framework)• Exemplo:

• Maria Claudia orienta Celso

#MariaClaudia

orienta#Celso

Sujeito Predicado Objeto

IntroduçãoFundamentação Teórica

Anotação SemânticaArquitetura

Avaliação e TestesConclusão

Referências Bibliográficas

Page 10: EXPLORANDO INFERÊNCIA EM UM SISTEMA DE ANOTAÇÃO SEMÂNTICA

Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica

Linguagens para Representação de Ontologias

OWL (Web Ontology Language):Um exemplo com inferência com sinonímia

Maria Claudia

Yoko

owl:sameAs

Celso

orienta

orienta (inferido)

IntroduçãoFundamentação Teórica

Anotação SemânticaArquitetura

Desenvolvimento da FerramentaAvaliação e Testes

Conclusão

Page 11: EXPLORANDO INFERÊNCIA EM UM SISTEMA DE ANOTAÇÃO SEMÂNTICA

Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica

Anotação Semântica

“A anotação semântica de um documento descreve o seu conteúdo pela associação de trechos relevantes do texto e conceitos descritos em uma ontologia” (ELLER, 2008).

IntroduçãoFundamentação Teórica

Anotação SemânticaArquitetura

Desenvolvimento da FerramentaAvaliação e Testes

Conclusão

Page 12: EXPLORANDO INFERÊNCIA EM UM SISTEMA DE ANOTAÇÃO SEMÂNTICA

Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica

Anotação Semântica

Adaptado de (OREN, 2006)

Page 13: EXPLORANDO INFERÊNCIA EM UM SISTEMA DE ANOTAÇÃO SEMÂNTICA

Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica

Anotação Semântica

Para OREN et al. (2006), o resultado de uma anotação A é uma tupla <as, ap, ao, ac>, onde:

• as é o dado (ou sujeito) sendo anotado • ao é a anotação em si • ap é o predicado que define o tipo de

relacionamento entre o as e ao • ac é o contexto em que a anotação é feita.

IntroduçãoFundamentação Teórica

Anotação SemânticaArquitetura

Avaliação e TestesConclusão

Referências Bibliográficas

Page 14: EXPLORANDO INFERÊNCIA EM UM SISTEMA DE ANOTAÇÃO SEMÂNTICA

Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica

Especificações para Anotação Semântica

• Microformat• eRDF • RDFa • HTML5 Microdata

IntroduçãoFundamentação Teórica

Anotação SemânticaArquitetura

Desenvolvimento da FerramentaAvaliação e Testes

Conclusão

Page 15: EXPLORANDO INFERÊNCIA EM UM SISTEMA DE ANOTAÇÃO SEMÂNTICA

Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica

HTML

<div><b>Celso Araujo</b>, nascido em <i>25/11/1985</i>.

</div>

IntroduçãoFundamentação Teórica

Anotação SemânticaArquitetura

Desenvolvimento da FerramentaAvaliação e Testes

Conclusão

Page 16: EXPLORANDO INFERÊNCIA EM UM SISTEMA DE ANOTAÇÃO SEMÂNTICA

Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica

HTML+RDFa

<div id="#Celso">

<b property="foaf:name">Celso Araujo</b>, nascido em

<i property="foaf:birthday">25/11/1985</i>

</div>

#Celso

“Celso Araujo”

“25/11/1985”

foaf:name

foaf:birthday

IntroduçãoFundamentação Teórica

Anotação SemânticaArquitetura

Avaliação e TestesConclusão

Referências Bibliográficas

Page 17: EXPLORANDO INFERÊNCIA EM UM SISTEMA DE ANOTAÇÃO SEMÂNTICA

Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica

Ferramentas de Anotação Semântica

• GATE• SMORE• Annotea• Amaya• OpenCalais• Zemanta• Ontos• Textwize

IntroduçãoFundamentação Teórica

Anotação SemânticaArquitetura

Desenvolvimento da FerramentaAvaliação e Testes

Conclusão

Page 18: EXPLORANDO INFERÊNCIA EM UM SISTEMA DE ANOTAÇÃO SEMÂNTICA

Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica

Ferramentas de Anotação Semântica

IntroduçãoFundamentação Teórica

Anotação SemânticaArquitetura

Desenvolvimento da FerramentaAvaliação e Testes

Conclusão

I Ii iii Iv v Vi Vii

Representação da Anotação Armazenamento da Anotação

Referência com a Ontologia

Referência entre termo e Anotação

Entrada de Ontologias Customizadas Tipo Plataforma

Annotea Não intrusiva RDF/XML Xpointer SIM SIM Manual Desktop

GATE Híbrida Banco de dados e XML URIS SIM SIM Híbrida Desktop

KIM Não intrusiva ??? ??? SIM SIM Automática Desktop

OpenCalais Não intrusivaRDF/XML, JSON, Microformat e SimpleFormat

URIS SIM NÃO Automática Web

Zemanta Não intrusiva XML, JSON, WNJSON, RDF/XML URL NÃO NÃO Automática Web

SMORE Não intrusiva RDF/XML URIS NÃO SIM Manual Desktop

Ontos Não intrusiva JSON ??? ??? SIM Automática Web

TextWise Não intrusiva JSON, XML e RDF URI SIM NÃO Automática Web

Page 19: EXPLORANDO INFERÊNCIA EM UM SISTEMA DE ANOTAÇÃO SEMÂNTICA

Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica

Ferramentas de Análise e Busca Semântica

• Sindice• Google Rich Snippets• Yahoo Search Monkey

IntroduçãoFundamentação Teórica

Anotação SemânticaArquitetura

Avaliação e TestesConclusão

Referências Bibliográficas

Page 20: EXPLORANDO INFERÊNCIA EM UM SISTEMA DE ANOTAÇÃO SEMÂNTICA

Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica

Uso de Anotação Semântica

IntroduçãoFundamentação Teórica

Anotação SemânticaArquitetura

Desenvolvimento da FerramentaAvaliação e Testes

Conclusão

Page 21: EXPLORANDO INFERÊNCIA EM UM SISTEMA DE ANOTAÇÃO SEMÂNTICA

Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica

Uso de Anotação Semântica

<h1 ... property="dc:title">Programming the Semantic Web</h1> <h1 ... property="dc:title">Programming the Semantic Web</h1>

fonte: http://oreilly.com/catalog/9780596153823/

IntroduçãoFundamentação Teórica

Anotação SemânticaArquitetura

Avaliação e TestesConclusão

Referências Bibliográficas

ap

as

ao

Page 22: EXPLORANDO INFERÊNCIA EM UM SISTEMA DE ANOTAÇÃO SEMÂNTICA

Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica

Ferramentas de Análise e Busca Semântica

IntroduçãoFundamentação Teórica

Anotação SemânticaArquitetura

Avaliação e TestesConclusão

Referências Bibliográficas

Page 23: EXPLORANDO INFERÊNCIA EM UM SISTEMA DE ANOTAÇÃO SEMÂNTICA

Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica

Arquitetura para anotação Semântica Automática em Documentos

Ontologia

RaciocinadorAnalisador

DocumentoAnotadoAnotador

Análise e Comparação MetaAnotação

DocumentoNão Estruturado

MetaAnotador

Usuário

Agente

IntroduçãoFundamentação Teórica

Anotação SemânticaArquitetura

Avaliação e TestesConclusão

Referências Bibliográficas

Page 24: EXPLORANDO INFERÊNCIA EM UM SISTEMA DE ANOTAÇÃO SEMÂNTICA

Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica

#Celso

#Maria_Claudia #Yoko

#Ana_Maria

owl:sameAs

conhece

conheceOntologia

Documento

Processo de Anotação (Entrada)

IntroduçãoFundamentação Teórica

Anotação SemânticaArquitetura

Desenvolvimento da FerramentaAvaliação e Testes

Conclusão

Page 25: EXPLORANDO INFERÊNCIA EM UM SISTEMA DE ANOTAÇÃO SEMÂNTICA

Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica

Processo de Anotação (Identificação dos Termos)

Celso é aluno das Professoras Yoko e Ana Maria.

#Celso

#Maria_Claudia #Yoko

#Ana_Maria

owl:sameAs

conhece

conhece

Analise e Comparação

IntroduçãoFundamentação Teórica

Anotação SemânticaArquitetura

Desenvolvimento da FerramentaAvaliação e Testes

Conclusão

Page 26: EXPLORANDO INFERÊNCIA EM UM SISTEMA DE ANOTAÇÃO SEMÂNTICA

Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica

Processo de Anotação (Identificação das Triplas)

Celso é aluno das Professoras Yoko e Ana Maria.1. Celso conhece Maria_Claudia2. Celso conhece Ana_Maria3. Celso conhece Yoko

#Celso

#Maria_Claudia #Yoko

#Ana_Maria

owl:sameAs

conhece

conhece

Analisador Raciocinador

IntroduçãoFundamentação Teórica

Anotação SemânticaArquitetura

Avaliação e TestesConclusão

Referências Bibliográficas

Page 27: EXPLORANDO INFERÊNCIA EM UM SISTEMA DE ANOTAÇÃO SEMÂNTICA

Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica

Processo de Anotação (Meta anotação sob a inferência)

3. Celso conhece Yoko Anotação referenciaId ‘3’ _ resultadoDe:

Celso conhece Maria_ClaudiaMaria_Claudia mesmaPessoaQue Yoko

#Celso

#Maria_Claudia #Yoko

#Ana_Maria

owl:sameAs

conhece

conheceRaciocinador

Explainer

IntroduçãoFundamentação Teórica

Anotação SemânticaArquitetura

Avaliação e TestesConclusão

Referências Bibliográficas

Page 28: EXPLORANDO INFERÊNCIA EM UM SISTEMA DE ANOTAÇÃO SEMÂNTICA

Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica

Meta-Anotação

Baseado em OWL (MCGUINNESS e HARMELEN, 2004) e OWL2 (MOTIK, et al., 2009)

IntroduçãoFundamentação Teórica

Anotação SemânticaArquitetura

Avaliação e TestesConclusão

Referências Bibliográficas

Page 29: EXPLORANDO INFERÊNCIA EM UM SISTEMA DE ANOTAÇÃO SEMÂNTICA

Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica

Meta-Anotação

Declarações(metaanotaçao)

<2,"Annotation Inequality DifferentIndividuals" ><”#Pessoa”,rdf:subclass>

<”owl:cardinality, “2”><onProperty, “temProgenitor”><”#Neymar”,temProgenitor,”#Nadine”><”#Neymar”,temProgenitor,”#NeymarPai”>

<”#Neymar”,temProgenitor,”#NeymarDaSilvaSantos”><”#Nadine”,differentFrom,”#NeymarPai”><”#Nadine”,differentFrom,”#NeymarDaSilvaSantos”>

Anotação Inferida <2,”#NeymarPai”,sameAs,”#NeymarDaSilvaSantos”>

• Toda Pessoa tem 2 progenitores• Neymar é filho de Nadine e Neymar Santos• Sua mãe e seu pai não são as mesmas pessoas• Seu pai também é conhecido como Neymar Pai

IntroduçãoFundamentação Teórica

Anotação SemânticaArquitetura

Desenvolvimento da FerramentaAvaliação e Testes

Conclusão

Page 30: EXPLORANDO INFERÊNCIA EM UM SISTEMA DE ANOTAÇÃO SEMÂNTICA

Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica

Desenvolvimento da ferramenta AutôMeta (AutoMatic MetaData)

Tecnologias adotadas para prototipação:

• JAVA• NetBeans• OWLAPI• Pellet• Java-rdfa• Jakarta-Commons

IntroduçãoFundamentação Teórica

Anotação SemânticaArquitetura

Desenvolvimento da FerramentaAvaliação e Testes

Conclusão

Page 31: EXPLORANDO INFERÊNCIA EM UM SISTEMA DE ANOTAÇÃO SEMÂNTICA

Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica

Formalismo de Anotação do AutôMeta

<ai, asi, T[ao1..aom] ><ai, apm+1, aom+1 />..<ai, apn ..aon /> Termo </><span id="ai" about="asi" typeof="ao1 .. aon ">

<span id="ai+1" rel="pi+1" resource="aon+1"></span> … <span id="ai+m" property="pi+m" content="aon+m"></span> Termo

</span>

IntroduçãoFundamentação Teórica

Anotação SemânticaArquitetura

Desenvolvimento da FerramentaAvaliação e Testes

Conclusão

Page 32: EXPLORANDO INFERÊNCIA EM UM SISTEMA DE ANOTAÇÃO SEMÂNTICA

Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica

Exemplo de Anotação gerada pelo Autômeta<span id="am-1" about="#Celso" typeof="auto:Aluno auto:Pessoa">

<span id="am-2" rel="orientadoPor" resource="Ana"></span>

<span id="am-3" rel="orientadoPor" resource="Maria"></span>

<span id="am-4" property="nomeCompleto" content="Celso Fontes“></span>

Celso

</span>

IntroduçãoFundamentação Teórica

Anotação SemânticaArquitetura

Desenvolvimento da FerramentaAvaliação e Testes

Conclusão

Page 33: EXPLORANDO INFERÊNCIA EM UM SISTEMA DE ANOTAÇÃO SEMÂNTICA

Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica

AutôMeta (Interface GUI)

Page 34: EXPLORANDO INFERÊNCIA EM UM SISTEMA DE ANOTAÇÃO SEMÂNTICA

Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica

Prototipação – AutôMeta

Documento+Anotação

MetadadosExtraídos

IntroduçãoFundamentação Teórica

Anotação SemânticaArquitetura

Desenvolvimento da FerramentaAvaliação e Testes

Conclusão

Page 35: EXPLORANDO INFERÊNCIA EM UM SISTEMA DE ANOTAÇÃO SEMÂNTICA

Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica

Prototipação – AutôMeta

Usuário

Agente

Potencial para buscas semânticas:

• Sindice • Google Rich Snippets• Yahoo Search Monkey

IntroduçãoFundamentação Teórica

Anotação SemânticaArquitetura

Desenvolvimento da FerramentaAvaliação e Testes

Conclusão

Page 36: EXPLORANDO INFERÊNCIA EM UM SISTEMA DE ANOTAÇÃO SEMÂNTICA

Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica

Avaliação e Testes

OBJETIVO: • Avaliar o potencial de recuperação de

informações sobre documentos anotados semanticamente pela ferramenta AutôMeta

• Volume extensivo de documentos• Ontologia de domínio

IntroduçãoFundamentação Teórica

Anotação SemânticaArquitetura

Desenvolvimento da FerramentaAvaliação e Testes

Conclusão

Page 37: EXPLORANDO INFERÊNCIA EM UM SISTEMA DE ANOTAÇÃO SEMÂNTICA

Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica

TREC Genômica 2006

• Text Retrieval Conference• Textos completos em HTML = 162.259 • 11.638 documentos distintos avaliados• 28 perguntas

IntroduçãoFundamentação Teórica

Anotação SemânticaArquitetura

Desenvolvimento da FerramentaAvaliação e Testes

Conclusão

Page 38: EXPLORANDO INFERÊNCIA EM UM SISTEMA DE ANOTAÇÃO SEMÂNTICA

Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica

TREC (Pergunta e Avaliação)

NEW ID GENE(S) DISEASE QUESTION160 PRNP Mad Cow

DiseaseWhat is the role of PrnP in mad cow

disease?

TOPIC PMID OFFSET LENGTH SPANID RELEVANCE

160 8995353 1983 1766 899.535.319.831.766 NOT

160 8995353 3962 1369 899.535.339.621.369 DEFINITELY

160 9045652 4268 2400 904.565.242.682.400 DEFINITELY

160 9535949 50363 1856 9.535.949.503.631.850 NOT

160 15722549 8230 2514 1.572.254.982.302.510 POSSIBLY

IntroduçãoFundamentação Teórica

Anotação SemânticaArquitetura

Desenvolvimento da FerramentaAvaliação e Testes

Conclusão

Page 39: EXPLORANDO INFERÊNCIA EM UM SISTEMA DE ANOTAÇÃO SEMÂNTICA

Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica

TREC (Exemplo de Documento)

IntroduçãoFundamentação Teórica

Anotação SemânticaArquitetura

Desenvolvimento da FerramentaAvaliação e Testes

Conclusão

Page 40: EXPLORANDO INFERÊNCIA EM UM SISTEMA DE ANOTAÇÃO SEMÂNTICA

Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica

Ontologia de Entrada

• Testes com Gene e Mesh sem sucesso• Através do SINDICE verificou-se que a

Dbpedia comtempla a maior parte dos termos utilizados nas perguntas

IntroduçãoFundamentação Teórica

Anotação SemânticaArquitetura

Desenvolvimento da FerramentaAvaliação e Testes

Conclusão

Page 41: EXPLORANDO INFERÊNCIA EM UM SISTEMA DE ANOTAÇÃO SEMÂNTICA

Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica

Dbpedia

• Versão “semântica” da DBpedia• Base de 3.5 milhões de conceitos (BIZER,

2011)• Triplas são extraídas da Wikipedia

IntroduçãoFundamentação Teórica

Anotação SemânticaArquitetura

Desenvolvimento da FerramentaAvaliação e Testes

Conclusão

Page 42: EXPLORANDO INFERÊNCIA EM UM SISTEMA DE ANOTAÇÃO SEMÂNTICA

Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica

Dbpedia ….

<resource:Obama> <ontology:spouse> <resource:Michelle_Obama>.

<resource:Obama> <ontology:vicePresident> <resource:Joe_Biden>

....

Wikipedia EN

Dbpedia (n3)

IntroduçãoFundamentação Teórica

Anotação SemânticaArquitetura

Desenvolvimento da FerramentaAvaliação e Testes

Conclusão

Page 43: EXPLORANDO INFERÊNCIA EM UM SISTEMA DE ANOTAÇÃO SEMÂNTICA

Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica

DBpedia (Recorte)

• Zemanta Web Service• RDFCAT• Esquema OWL Dbpedia 3.6 • Sinonímia (redirect):

• Bovine_Spongiform_Encephelopathy redirect Mad Cow• Bovine_Spongiform_Encephelopathy sameAs Mad Cow

IntroduçãoFundamentação Teórica

Anotação SemânticaArquitetura

Desenvolvimento da FerramentaAvaliação e Testes

Conclusão

Page 44: EXPLORANDO INFERÊNCIA EM UM SISTEMA DE ANOTAÇÃO SEMÂNTICA

Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica

Dbpedia (Recorte)

Recurso OWL/RDF Total/Valor

Classes 323

Object Properties 629

Data Properties 706

Indivíduos 2665

Expressividade DL ALOF(D)

Relações de “is-a” 272

Object Properties Domain 505

Object Properties Range 488

Data Properties Domain 589

Data Properties Range 407

Sinonímia entre indivíduos 549

Functional Data Properties 18

[1] Description logic (lógica descritiva)[2] A L= Attributive language; O = Object Restrictions (nominais) (ex: hasValue); F= Functional Properties; D = Data values (ex: data properties)

IntroduçãoFundamentação Teórica

Anotação SemânticaArquitetura

Desenvolvimento da FerramentaAvaliação e Testes

Conclusão

Page 45: EXPLORANDO INFERÊNCIA EM UM SISTEMA DE ANOTAÇÃO SEMÂNTICA

Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica

Ambiente de Testes

Intel Xeon 5520 2,26GHz (com 4 núcleos reais e 4 virtuais - hyper-threading)

12 GB Memória e 1TB de disco rígidoSistema operacional Linux Debian Lenny.

Powered By

IntroduçãoFundamentação Teórica

Anotação SemânticaArquitetura

Desenvolvimento da FerramentaAvaliação e Testes

Conclusão

Page 46: EXPLORANDO INFERÊNCIA EM UM SISTEMA DE ANOTAÇÃO SEMÂNTICA

Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica

Massas de Dados

baseTXT baseREASONER baseNOREASONER

Artigos da TREC convertidos em (TXT) sem nenhuma anotação semântica;

Artigos da TREC anotações do recorte Dbpedia e com Inferência

Artigos da TREC anotações do recorte Dbpedia apenas com informações explícitas

IntroduçãoFundamentação Teórica

Anotação SemânticaArquitetura

Desenvolvimento da FerramentaAvaliação e Testes

Conclusão

Page 47: EXPLORANDO INFERÊNCIA EM UM SISTEMA DE ANOTAÇÃO SEMÂNTICA

Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica

Recuperação de Informação (métricas)

Cobertura e Precisão (BARROS, 2011)

Em (BECHARA, 2010):

• Precisão é a interseção entre os documentos relevantes e os documentos recuperados, divididos pelo número de documentos recuperados; e

• Cobertura é a interseção entre os documentos relevantes e os documentos recuperados, divididos pelo número de documentos relevantes.

IntroduçãoFundamentação Teórica

Anotação SemânticaArquitetura

Desenvolvimento da FerramentaAvaliação e Testes

Conclusão

Page 48: EXPLORANDO INFERÊNCIA EM UM SISTEMA DE ANOTAÇÃO SEMÂNTICA

Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica

Recuperação da Informação (métricas)

IntroduçãoFundamentação Teórica

Anotação SemânticaArquitetura

Desenvolvimento da FerramentaAvaliação e Testes

Conclusão

Page 49: EXPLORANDO INFERÊNCIA EM UM SISTEMA DE ANOTAÇÃO SEMÂNTICA

Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica

Primeiro Ambiente

Simulação de um ambiente Tradicional de buscaConsultas em Texto Plano (Indexação e Busca)Lucene 3.0.2

Remoção de STOP WORDS Stemming

baseTXT baseREASONER

IntroduçãoFundamentação Teórica

Anotação SemânticaArquitetura

Desenvolvimento da FerramentaAvaliação e Testes

Conclusão

Page 50: EXPLORANDO INFERÊNCIA EM UM SISTEMA DE ANOTAÇÃO SEMÂNTICA

Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica

Precisão (TXT X REASONER)

160 161 162 163 164 165 166 167 168 169 170 171 172 174 176 177 178 179 181 182 184 185 186 187

000

001

001

txt (precision) reasoner (precision)

baseTXT baseREASONER

IntroduçãoFundamentação Teórica

Anotação SemânticaArquitetura

Desenvolvimento da FerramentaAvaliação e Testes

Conclusão

Page 51: EXPLORANDO INFERÊNCIA EM UM SISTEMA DE ANOTAÇÃO SEMÂNTICA

Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica

Precisão

• TXT precisao melhor• Sinonímia aumentou o numero de

documentos retornados declinando a precisao na maioria dos casos

• Valores para o predicado “ontology:abstract” foram responsáveis por maior diferença entre documentos anotados e não anotados

IntroduçãoFundamentação Teórica

Anotação SemânticaArquitetura

Desenvolvimento da FerramentaAvaliação e Testes

Conclusão

Page 52: EXPLORANDO INFERÊNCIA EM UM SISTEMA DE ANOTAÇÃO SEMÂNTICA

Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica

Precisão (Sinonimia)

<span property="ontology:abstract" content="PRNP (PRioN Protein) is a gene that codes for a protein called the prion protein (PrP) …" datatype="rdf:PlainLiteral" xml:lang="en"> prion protein </span>

baseTXTbaseREASONER

What is the role of PrnP im mad cow disease?

Trecho de documento RELEVANTE

IntroduçãoFundamentação Teórica

Anotação SemânticaArquitetura

Desenvolvimento da FerramentaAvaliação e Testes

Conclusão

Page 53: EXPLORANDO INFERÊNCIA EM UM SISTEMA DE ANOTAÇÃO SEMÂNTICA

Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica

Precisão (Sinonimia)

<span property="ontology:abstract" content="Cathepsin D is a protein that in humans is

encoded by the CTSD gene. It has been used as a breast cancer tumor marker." datatype="rdf:PlainLiteral" xml:lang="en"> Cathepsin D </span>

baseTXT

baseREASONER

Trecho de documento NAO RELEVANTE

How do Cathepsin D (CTSD) and apolipoprotein E (ApoE) interactions contribute to Alzheimer’s disease?

IntroduçãoFundamentação Teórica

Anotação SemânticaArquitetura

Desenvolvimento da FerramentaAvaliação e Testes

Conclusão

Page 54: EXPLORANDO INFERÊNCIA EM UM SISTEMA DE ANOTAÇÃO SEMÂNTICA

Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica

Cobertura (TXT X REASONER)

160 161 162 163 164 165 166 167 168 169 170 171 172 174 176 177 178 179 181 182 184 185 186 187

000

001

001

txt (recall) reasoner (recall)

baseTXT baseREASONER

IntroduçãoFundamentação Teórica

Anotação SemânticaArquitetura

Desenvolvimento da FerramentaAvaliação e Testes

Conclusão

Page 55: EXPLORANDO INFERÊNCIA EM UM SISTEMA DE ANOTAÇÃO SEMÂNTICA

Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica

Medida F (TXT x REASONER)

160 161 162 163 164 165 166 167 168 169 170 171 172 174 176 177 178 179 181 182 184 185 186 187

000

001

001

txt (medida f) reasoner (medida f)

baseTXT baseREASONER

IntroduçãoFundamentação Teórica

Anotação SemânticaArquitetura

Desenvolvimento da FerramentaAvaliação e Testes

Conclusão

Page 56: EXPLORANDO INFERÊNCIA EM UM SISTEMA DE ANOTAÇÃO SEMÂNTICA

Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica

Segundo Ambiente

Simulação de uma ferramenta de busca semântica

Base com inferência X Base sem inferênciaConsultas em SPARQL

JenaJavaRDFa

baseREASONER baseNOREASONER

IntroduçãoFundamentação Teórica

Anotação SemânticaArquitetura

Desenvolvimento da FerramentaAvaliação e Testes

Conclusão

Page 57: EXPLORANDO INFERÊNCIA EM UM SISTEMA DE ANOTAÇÃO SEMÂNTICA

Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica

SPARQL

Anotação das perguntas pelo AutôMeta para recuperação dos termos da ontologia

Tripla Chave:Sujeito anônimo (?asn)Predicado (ap) e objeto (ao) únicos

SELECT ?g WHERE

GRAPH ?g{ ?as1 foaf:page <wiki:Bovine_spongiform_encephalopathy> . ?as2 foaf:page <wiki:PRNP> }

IntroduçãoFundamentação Teórica

Anotação SemânticaArquitetura

Desenvolvimento da FerramentaAvaliação e Testes

Conclusão

Page 58: EXPLORANDO INFERÊNCIA EM UM SISTEMA DE ANOTAÇÃO SEMÂNTICA

Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica

Precisão (REASONER x NOREASONER)

160 161 162 163 164 165 166 167 168 169 170 171 172 174 176 177 178 179 181 182 184 185 186 187

000

001

001

no reasoner (precision) reasoner (precision)

baseREASONER baseNOREASONER

IntroduçãoFundamentação Teórica

Anotação SemânticaArquitetura

Desenvolvimento da FerramentaAvaliação e Testes

Conclusão

Page 59: EXPLORANDO INFERÊNCIA EM UM SISTEMA DE ANOTAÇÃO SEMÂNTICA

Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica

Precisão (REASONER x NOREASONER)

• Resultados baixos em sua maioria para ambas as bases

• Maior sucesso na média final para baseReasoner (0,22 x 0,09)

• Casos de Derrotas de Reasoner por:– Maior número de documentos retornados– Maior número de triplas retornados pelas

consultas SPARQLs

IntroduçãoFundamentação Teórica

Anotação SemânticaArquitetura

Desenvolvimento da FerramentaAvaliação e Testes

Conclusão

Page 60: EXPLORANDO INFERÊNCIA EM UM SISTEMA DE ANOTAÇÃO SEMÂNTICA

Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica

Cobertura (REASONER X NOREASONER)

160 161 162 163 164 165 166 167 168 169 170 171 172 174 176 177 178 179 181 182 184 185 186 187

000

001

001

no reasoner (recall) reasoner (recall)

baseREASONER baseNOREASONER

IntroduçãoFundamentação Teórica

Anotação SemânticaArquitetura

Desenvolvimento da FerramentaAvaliação e Testes

Conclusão

Page 61: EXPLORANDO INFERÊNCIA EM UM SISTEMA DE ANOTAÇÃO SEMÂNTICA

Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica

Cobertura

• Melhores resultados da baseReasoner (0,89 x 0,29)

• Maior número de documentos retornados graças a sinonímia e ao SPARQL

IntroduçãoFundamentação Teórica

Anotação SemânticaArquitetura

Desenvolvimento da FerramentaAvaliação e Testes

Conclusão

Page 62: EXPLORANDO INFERÊNCIA EM UM SISTEMA DE ANOTAÇÃO SEMÂNTICA

Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica

Medida F (REASONER x NOREASONER)

baseREASONER baseNOREASONER

160 161 162 163 164 165 166 167 168 169 170 171 172 174 176 177 178 179 181 182 184 185 186 187

000

001

001

no reasoner (medida f) reasoner (medida f)

IntroduçãoFundamentação Teórica

Anotação SemânticaArquitetura

Desenvolvimento da FerramentaAvaliação e Testes

Conclusão

Page 63: EXPLORANDO INFERÊNCIA EM UM SISTEMA DE ANOTAÇÃO SEMÂNTICA

Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica

Medida F

baseTXT baseREASONERbaseNOREASONER

baseREASONER

0,22 0,21 0,08 0,29

Ambiente Tradicional Ambiente Semântico

IntroduçãoFundamentação Teórica

Anotação SemânticaArquitetura

Desenvolvimento da FerramentaAvaliação e Testes

Conclusão

Page 64: EXPLORANDO INFERÊNCIA EM UM SISTEMA DE ANOTAÇÃO SEMÂNTICA

Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica

Conclusão

• Este trabalho teve como objetivo desenvolver um sistema que permitisse o enriquecimento de documentos através de anotações semânticas explorando o potencial implícito de uma ontologia.

IntroduçãoFundamentação Teórica

Anotação SemânticaArquitetura

Desenvolvimento da FerramentaAvaliação e Testes

Conclusão

Page 65: EXPLORANDO INFERÊNCIA EM UM SISTEMA DE ANOTAÇÃO SEMÂNTICA

Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica

Contribuições

• Estudo comparativo de Ferramentas e Padrões de anotação semântica;

• Proposta de uma arquitetura para anotação semântica;

• Taxonomia para especificação de Meta Anotações;• Recorte ontológico da base de dados Dbpedia; • Metodologia para a tradução de perguntas para

SPARQL;

IntroduçãoFundamentação Teórica

Anotação SemânticaArquitetura

Desenvolvimento da FerramentaAvaliação e Testes

Conclusão

Page 66: EXPLORANDO INFERÊNCIA EM UM SISTEMA DE ANOTAÇÃO SEMÂNTICA

Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica

Contribuições

• Utilização de uma abordagem de anotação semântica em formato aberto e visível pelos principais mecanismos de busca semântica do mercado (ex.: Sindice e Google);

• Dois ambientes de recuperação (tradicional e semântico);

• Artigo exposto no ONTOBRAS 2010 (FONTES, et al., 2010c)

• Artigo apresentado no WTDBD 2010 (FONTES, et al., 2010b)

• Artigo submetido para o SBBD 2011

Page 67: EXPLORANDO INFERÊNCIA EM UM SISTEMA DE ANOTAÇÃO SEMÂNTICA

Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica

Trabalhos Futuros

• Uso de técnicas avançadas de linguística computacional• Anotações feitas pela ferramenta de modo a auxiliar na

seleção dos melhores termos, onde a ferramenta poderia fazer “sugestões” ao especialista;

• Múltiplas ontologias• Otimização no recurso de auto completar • Formatos ricos de documento de entrada

IntroduçãoFundamentação Teórica

Anotação SemânticaArquitetura

Desenvolvimento da FerramentaAvaliação e Testes

Conclusão

Page 68: EXPLORANDO INFERÊNCIA EM UM SISTEMA DE ANOTAÇÃO SEMÂNTICA

Celso Araujo Fontes (IME) Maio/2011Explorando inferência em um sistema de anotação semântica

Referências Bibliográficas

• OREN, E. What are Semantic Annotations?. 2006. Disponível em: <http:// www.siegfried-handschuh.net/pub/2006/whatissemannot2006.pdf>.

• BECHARA, A. Expansão semântica de consultas baseada em esquemas terminológicos: uma experimentação no domínio biomédico. 2010. Disponível em: <http://teses2.ufrj.br/15/teses/751890.pdf>. Dissertação de Mestrado, UFRJ.

• GRUBER, T. A Translation Approach to Portable Ontology Specifications. 1992. Disponível em: <http://www-ksl.stanford.edu/KSL_Abstracts/KSL-92-71.html>.

• BARROS, F. Avaliação de Desempenho de Sistemas de RI. 2011. Disponível em: <http://www.cin.ufpe.br/~if796/aulas/cap3.ppt>

• MCGUINESS D. e F. HARMELEN. OWL Web Ontology Language Overview. Disponível em: <http://www.w3.org/TR/owl-features/>.

• MOTIK, B., P. PATEL-SCHNEIDER e B. PARSIA. 2009. OWL 2 Web Ontology Language Structural Specification and Functional-Style Syntax. Disponível em: <http://www.w3.org/TR/2009/REC-owl2-syntax-20091027/>.