Reuso de Ontologias para Publicação na Web Semântica
Maria Cláudia Cavalcanti ([email protected])
Programa de Pós-Graduação em Sistemas e Computação Instituto Militar de Engenharia - IME
I Encontro de Computação Semântica - Rio de Janeiro, 11 de Março de 2015
Sumário
• Quem Somos • Mo-vação • Nossas inicia-vas nos úl-mos 10 anos • Em andamento • Perspec-vas Futuras
Grupo e Colaborações • Grupo ONTOI2 (Interoperabilidade e Integração de
Ontologias) • Iniciado em 2006 – coordenação: Profa Maria Cláudia • Parcerias: Profa. Ana Maria Moura (LNCC)
Profa Maria Luiza Machado Campos (UFRJ) Prof Sérgio Serra (UFRRJ); Pesquisadores Floriano Paes e Alberto Dávila (Fiocruz)
• Alunos -tulados pelo IME: Kele Belloze (2007); Hermínio Souza Jr (2008); Fernanda Lach-m (2008);
Sidbey Ventury (2010); Celso Fontes (2011); Priscilla Correa e Castro Gomes (2012); Debora Alvernaz (2012); Alda Maria Silva (2012); Marcus Albert Silva (2013); Raquel Lima Façanha (2014);
• Alunos novos (2014/15): • Yasmmim Cortes (M.Sc. IME -‐ em andamento) • Marlon Coelho (D.Sc.Fiocruz -‐ em andamento)
Quem Somos Mo*vação Inicia*vas
Em andamento Perspec*vas
As of September 2011
MusicBrainz
(zitgist)
P20
Turismo de
Zaragoza
yovisto
Yahoo! Geo
Planet
YAGO
World Fact-book
El ViajeroTourism
WordNet (W3C)
WordNet (VUA)
VIVO UF
VIVO Indiana
VIVO Cornell
VIAF
URIBurner
Sussex Reading
Lists
Plymouth Reading
Lists
UniRef
UniProt
UMBEL
UK Post-codes
legislationdata.gov.uk
Uberblic
UB Mann-heim
TWC LOGD
Twarql
transportdata.gov.
uk
Traffic Scotland
theses.fr
Thesau-rus W
totl.net
Tele-graphis
TCMGeneDIT
TaxonConcept
Open Library (Talis)
tags2con delicious
t4gminfo
Swedish Open
Cultural Heritage
Surge Radio
Sudoc
STW
RAMEAU SH
statisticsdata.gov.
uk
St. Andrews Resource
Lists
ECS South-ampton EPrints
SSW Thesaur
us
SmartLink
Slideshare2RDF
semanticweb.org
SemanticTweet
Semantic XBRL
SWDog Food
Source Code Ecosystem Linked Data
US SEC (rdfabout)
Sears
Scotland Geo-
graphy
ScotlandPupils &Exams
Scholaro-meter
WordNet (RKB
Explorer)
Wiki
UN/LOCODE
Ulm
ECS (RKB
Explorer)
Roma
RISKS
RESEX
RAE2001
Pisa
OS
OAI
NSF
New-castle
LAASKISTI
JISC
IRIT
IEEE
IBM
Eurécom
ERA
ePrints dotAC
DEPLOY
DBLP (RKB
Explorer)
Crime Reports
UK
Course-ware
CORDIS (RKB
Explorer)CiteSeer
Budapest
ACM
riese
Revyu
researchdata.gov.
ukRen. Energy Genera-
tors
referencedata.gov.
uk
Recht-spraak.
nl
RDFohloh
Last.FM (rdfize)
RDF Book
Mashup
Rådata nå!
PSH
Product Types
Ontology
ProductDB
PBAC
Poké-pédia
patentsdata.go
v.uk
OxPoints
Ord-nance Survey
Openly Local
Open Library
OpenCyc
Open Corpo-rates
OpenCalais
OpenEI
Open Election
Data Project
OpenData
Thesau-rus
Ontos News Portal
OGOLOD
JanusAMP
Ocean Drilling Codices
New York
Times
NVD
ntnusc
NTU Resource
Lists
Norwe-gian
MeSH
NDL subjects
ndlna
myExperi-ment
Italian Museums
medu-cator
MARC Codes List
Man-chester Reading
Lists
Lotico
Weather Stations
London Gazette
LOIUS
Linked Open Colors
lobidResources
lobidOrgani-sations
LEM
LinkedMDB
LinkedLCCN
LinkedGeoData
LinkedCT
LinkedUser
FeedbackLOV
Linked Open
Numbers
LODE
Eurostat (OntologyCentral)
Linked EDGAR
(OntologyCentral)
Linked Crunch-
base
lingvoj
Lichfield Spen-ding
LIBRIS
Lexvo
LCSH
DBLP (L3S)
Linked Sensor Data (Kno.e.sis)
Klapp-stuhl-club
Good-win
Family
National Radio-activity
JP
Jamendo (DBtune)
Italian public
schools
ISTAT Immi-gration
iServe
IdRef Sudoc
NSZL Catalog
Hellenic PD
Hellenic FBD
PiedmontAccomo-dations
GovTrack
GovWILD
GoogleArt
wrapper
gnoss
GESIS
GeoWordNet
GeoSpecies
GeoNames
GeoLinkedData
GEMET
GTAA
STITCH
SIDER
Project Guten-berg
MediCare
Euro-stat
(FUB)
EURES
DrugBank
Disea-some
DBLP (FU
Berlin)
DailyMed
CORDIS(FUB)
Freebase
flickr wrappr
Fishes of Texas
Finnish Munici-palities
ChEMBL
FanHubz
EventMedia
EUTC Produc-
tions
Eurostat
Europeana
EUNIS
EU Insti-
tutions
ESD stan-dards
EARTh
Enipedia
Popula-tion (En-AKTing)
NHS(En-
AKTing) Mortality(En-
AKTing)
Energy (En-
AKTing)
Crime(En-
AKTing)
CO2 Emission
(En-AKTing)
EEA
SISVU
education.data.g
ov.uk
ECS South-ampton
ECCO-TCP
GND
Didactalia
DDC Deutsche Bio-
graphie
datadcs
MusicBrainz
(DBTune)
Magna-tune
John Peel
(DBTune)
Classical (DB
Tune)
AudioScrobbler (DBTune)
Last.FM artists
(DBTune)
DBTropes
Portu-guese
DBpedia
dbpedia lite
Greek DBpedia
DBpedia
data-open-ac-uk
SMCJournals
Pokedex
Airports
NASA (Data Incu-bator)
MusicBrainz(Data
Incubator)
Moseley Folk
Metoffice Weather Forecasts
Discogs (Data
Incubator)
Climbing
data.gov.uk intervals
Data Gov.ie
databnf.fr
Cornetto
reegle
Chronic-ling
America
Chem2Bio2RDF
Calames
businessdata.gov.
uk
Bricklink
Brazilian Poli-
ticians
BNB
UniSTS
UniPathway
UniParc
Taxonomy
UniProt(Bio2RDF)
SGD
Reactome
PubMedPub
Chem
PRO-SITE
ProDom
Pfam
PDB
OMIMMGI
KEGG Reaction
KEGG Pathway
KEGG Glycan
KEGG Enzyme
KEGG Drug
KEGG Com-pound
InterPro
HomoloGene
HGNC
Gene Ontology
GeneID
Affy-metrix
bible ontology
BibBase
FTS
BBC Wildlife Finder
BBC Program
mes BBC Music
Alpine Ski
Austria
LOCAH
Amster-dam
Museum
AGROVOC
AEMET
US Census (rdfabout)
Media
Geographic
Publications
Government
Cross-domain
Life sciences
User-generated content
4
Mo-vação – Web de textos e de dados
Linked Open Data
Lei de Acesso a Informação
Quem Somos Mo*vação Inicia*vas
Em andamento Perspec*vas
Sidney Nicolau Venturi Filho 5
Mo-vação – Web Semân-ca
Anotação: Inserir conteúdo intelegível por máquinas e humanos, em documentos e dados na Web.
(Adaptado de J. Hendler et al, 2001)
Quem Somos Mo*vação Inicia*vas
Em andamento Perspec*vas
Mo-vação • Anotação com Ontologias
• Publicação de Textos Anotados para melhorar a recuperação
• Publicação de Dados Anotados para facilitar a integração, interligação
• Dados Legados (de Sistemas Legados) Ligados • Questões:
• Ontologias são grandes, como facilitar o reuso? • Qual(is) Ontologia(s) reusar para publicar os dados?
Quem Somos Mo*vação Inicia*vas
Em andamento Perspec*vas
Anotação de Dados: Dados Biomédicos
• Uma extensão do processo de anotação genômica para ampliar o uso e a evolução colaborativa de ontologias no domínio da biologia molecular
• Kele Belloze (2009) • Captura dos problemas ao
Anotar Dados Biomédicos • Gene Ontology (GO)
• Evolução de Ontologias a partir do processo de anotação genômica
Quem Somos Mo*vação Inicia*vas
Em andamento Perspec*vas
Anotação de Dados: o processo Anotação de Textos Anotação de Dados Legados com Ontologias de Topo
Anotação de Textos: Publicação de Textos Anotados
• Explorando Inferência em um Sistema de Anotação Semântica • Celso Fontes (2011) • Publicação: IEEE Int. Conf. on Semantic Computing 2013, Irvine, EUA
• Ferramenta de Anotação de Textos: Autômeta • Anotações no padrão RDFa; qq ontologia em RDF; • Código e ferramenta disponível no GitHub para download
Ontologia
Raciocinador Analisador
Documento Anotado
Anotador
Análise e Comparação MetaAnotação
Documento Não Estruturado
Meta Anotador
Usuário
Agente
Quem Somos Mo*vação Inicia*vas
Em andamento Perspec*vas
Anotação de Dados Anotação de Textos Anotação de Dados Legados com Ontologias de Topo
Anotação de Textos: Publicação de Textos Anotados
• Autômeta
Quem Somos Mo*vação Inicia*vas
Em andamento Perspec*vas
Anotação de Dados Anotação de Textos Anotação de Dados Legados com Ontologias de Topo
Anotação de Textos: Publicação de Textos Anotados
• Experimento
• Corpus Genomic TREC
• 11000 docs • Recorte da
Dbpedia • Resultados
Quem Somos Mo*vação Inicia*vas
Em andamento Perspec*vas
Anotação de Dados Anotação de Textos Anotação de Dados Legados com Ontologias de Topo
Anotação de Textos: Cenário Científico
• Priorização de alvos para fármacos no combate a doenças tropicais negligenciadas causadas por protozoários
• Kele Belloze, D.Sc. Programa de PG em Biologia Computacional e Sistemas (2013)
• Anotação de Textos Científicos com várias ontologias
• Descoberta de Relações
• Apoio à Decisão
Quem Somos Mo*vação Inicia*vas
Em andamento Perspec*vas
Anotação de Dados Anotação de Textos Anotação de Dados Legados com Ontologias de Topo
Anotação de Textos: Cenário Científico • Suporte à Anotação Múltipla
baseada em Modularização de Ontologias: uma Experiência na Área Biomédica
• Priscilla Correia e Castro (2012)
• Anotação de Textos Científicos com várias ontologias
• Ontologia Base • Geração de Módulos com base
em uma amostra de anotação
Quem Somos Mo*vação Inicia*vas
Em andamento Perspec*vas
Anotação de Dados Anotação de Textos Anotação de Dados Legados com Ontologias de Topo
Anotação de Textos: Cenário Científico • Combining Ontology
Modules for Scientific Text Annotation
• Marcus Albert A. Silva (2014)
• Publicações: IEEE e-Science 2014, Guarujá, SP; JIDM/SBBD 2014
• Estratégia de Modularização baseada em amostra de anotação com Ontologias
• Anotação de um Corpus Científico com várias ontologias
• Combinação de módulos das ontologias em uma única estrutura
• Experimentos • Redução do tempo com
boa precisão
Quem Somos Mo*vação Inicia*vas
Em andamento Perspec*vas
Anotação de Dados Anotação de Textos Anotação de Dados Legados com Ontologias de Topo
Anotação de Dados: Alinhamento de Ontologias
• Objetivo: Apoiar os pesquisadores da Fiocruz na melhoria do seu processo de anotação através do alinhamento entre a GO (em uso) e as ontologias de interesse do laboratório (e.g. INOH) – Buscar ferramentas de alinhamento (semi) automático – Realizar os alinhamentos com base nestas ferramentas – Validar os alinhamentos – Disponibilizar os alinhamentos nos Bancos de dados
(StingrayDB e ProtozoaDB) para uso do sistema de anotação
Quem Somos Mo*vação Inicia*vas
Em andamento Perspec*vas
Anotação de Dados Anotação de Textos Anotação de Dados Legados com Ontologias de Topo
Anotação de Dados: Alinhamento de Ontologias
– Ontologia Fonte: GO.Biological Process • Total de classes: 17.180
– Ontologia Alvo: INOH.Event • Total de classes: 2.787
– Segmentação: GALEN Segmenter http://www.co-ode.org/galen/ Parametrização default (prof = 100) – Ferramenta de alinhamento: FOAM; Disponível para download; código aberto; documentação disponível e origem confiável cutoff = 0,90
Resultado: 178 alinhamentos consolidados (sem redundância) 83 alinhamentos úteis 95 falsos positivos 46,63% de acertos
Quem Somos Mo*vação Inicia*vas
Em andamento Perspec*vas
Anotação de Dados Anotação de Textos Anotação de Dados Legados com Ontologias de Topo
• Ontologias Locais ou de Domínios: • Pressupõem que o caminho entre os dados
existentes e as ontologias que os representam já está estabelecido;
• Apesar da riqueza de representação que uma ontologia pode oferecer, soluções voltadas para esquemas simples.
• Ontologias de Topo ou Alto Nível ou
Fundamentação: • Independente de domínio, facilitando sua
aplicação; • Aplicável a esquema conceituais;
Anotação de Dados: Alinhamento de Ontologias
(Guarino, 1998) (Sacramento et al., 2010):
Quem Somos Mo*vação Inicia*vas
Em andamento Perspec*vas
Anotação de Dados Anotação de Textos Anotação de Dados Legados com Ontologias de Topo
Anotação de Dados Legados
• Diretrizes para o Resgate do Esquema Conceitual e seu Compromisso Ontológico a partir de um Banco de Dados: Um Estudo de Caso no Domínio da Litoestratigrafia
• Alda Maria Ferreira Rosa da Silva (2012) • Trabalho publicado no FOIS 2012, Graz, Áustria
• Publicar Dados do Esquema Legado do GEOBANK (CPRM)
Quem Somos Mo*vação Inicia*vas
Em andamento Perspec*vas
Anotação de Dados Anotação de Textos Anotação de Dados Legados com Ontologias de Topo
Diretrizes para o Resgate para o Esquema Conceitual e seu Compromisso Ontológico a par-r de um Banco de Dados:Um Estudo de Caso no Domínio de Litoestra-grafia Alda Maria F. R. Silva
Anotação de Dados Legados: Estudo de Caso GEOBANK Etapa 3 – Explicitação do Compromisso Ontológico
Classificar segundo as metacategorias
• Outro produto desta etapa é modelagem das metacategorias
Quem Somos Mo*vação Inicia*vas
Em andamento Perspec*vas
Anotação de Dados Anotação de Textos Anotação de Dados Legados com Ontologias de Topo
Diretrizes para o Resgate para o Esquema Conceitual e seu Compromisso Ontológico a par-r de um Banco de Dados:Um Estudo de Caso no Domínio de Litoestra-grafia Alda Maria F. R. Silva
Anotação de Dados Legados: Estudo de Caso GEOBANK Esquemas Conceituais bem Fundamentados X Esquema Integrado
• Alinhamento do esquema integrado – Parte 1;
Quem Somos Mo*vação Inicia*vas
Em andamento Perspec*vas
Anotação de Dados Anotação de Textos Anotação de Dados Legados com Ontologias de Topo
Diretrizes para o Resgate para o Esquema Conceitual e seu Compromisso Ontológico a par-r de um Banco de Dados:Um Estudo de Caso no Domínio de Litoestra-grafia Alda Maria F. R. Silva
Anotação de Dados Legados: Estudo de Caso GEOBANK Esquemas Conceituais bem Fundamentados X Esquema Integrado
• Alinhamento do esquema integrado – Parte 2;
Quem Somos Mo*vação Inicia*vas
Em andamento Perspec*vas
Anotação de Dados Anotação de Textos Anotação de Dados Legados com Ontologias de Topo
Diretrizes para o Resgate para o Esquema Conceitual e seu Compromisso Ontológico a par-r de um Banco de Dados:Um Estudo de Caso no Domínio de Litoestra-grafia Alda Maria F. R. Silva
Anotação de Dados Legados: Estudo de Caso GEOBANK Esquemas Conceituais bem Fundamentados X Esquema Integrado
• Alinhamento do esquema conceitual;
Quem Somos Mo*vação Inicia*vas
Em andamento Perspec*vas
Anotação de Dados Anotação de Textos Anotação de Dados Legados com Ontologias de Topo
Abril/2012 22/31
E
Anotação de Dados Legados: Open Government Data U Open Linked Data
• Um Método para Apoiar o Resgate do Compromisso Ontológico de um Esquema de Dados Conceitual Legado
• Raquel Lima Façanha (2015) • Estudo de Caso para publicar dados do SIAPRO (SJRJ - Seção Judiciária
do Rio de Janeiro) Esquema Legado Ontologia de Topo
Quem Somos Mo*vação Inicia*vas
Em andamento Perspec*vas
Anotação de Dados Anotação de Textos Anotação de Dados Legados com Ontologias de Topo
Abril/2012 23/31
Anotação de Dados Legados: Open Government Data U Open Linked Data
• A Sistemática: • Pareamento entre
elementos do esquema e da ontologia de topo
• Top-down • Foco na
Semântica • Dependências de
Existência • Passo final:
• Representação do esquema em RDF com anotações da Ontologia de Topo
Quem Somos Mo*vação Inicia*vas
Em andamento Perspec*vas
Anotação de Dados Anotação de Textos Anotação de Dados Legados com Ontologias de Topo
• Aluno de D.Sc. Marlon Coelho • Fiocruz/IFAC -‐ iniciado em 2014 • Coorientação com Floriano Paes -‐ FIocruz • Dados das anotações em textos cienoficos com
múl-plas ontologias biomédicas • Modelagem multdimensional para o domínio
Biomédico • Correlação entre termos para apoio a Decisão • Método para modelagem mul-dimensional a par-r
de anotações em texto
Quem Somos Mo*vação Inicia*vas
Em andamento Perspec*vas
• Aluna de M.Sc. Yasmmim Cortes • IME – início 2015 • Dados Biomédicos resultantes do Projeto
BIOKNOWLOGY • MetaResistomeDB: dados sobre resistência a
antibióticos extraídos de amostras de esgotos hospitalares
• Dificuldade de encontrar a(s) base(s) de dado(s) e a(s) ontologia(s)
• Combinando dados de anotações em texto e crowdsourcing para facilitar a publicação de dados na Web de Dados
Quem Somos Mo*vação Inicia*vas
Em andamento Perspec*vas
• Em busca de Parcerias • Estudos de Caso Reais • Instituições: Governo/Privadas
• Outras iniciativas em andamento • Gerência de Dados Grandes
• Aplicação em dados de telefonia • Aplicação em dados de Monitoramento
de Redes
Quem Somos Mo*vação Inicia*vas
Em andamento Perspec*vas
Reuso de Ontologias para Publicação na Web Semântica
Maria Cláudia Cavalcanti ([email protected])
Programa de Pós-Graduação em Sistemas e Computação Instituto Militar de Engenharia - IME
I Encontro de Computação Semântica - Rio de Janeiro, 11 de Março de 2015