18
UMA METODOLOGIA PARA CONSTRUÇÃO DE GEO-ONTOLOGIAS Marcirio Silveira Chaves Orientadores: Mário J. Silva e Diana Santos UNIVERSIDADE DE LISBOA FACULDADE DE CIÊNCIAS DEPARTAMENTO DE INFORMÁTICA Doutoramento em Informática Especialidade Engenharia Informática Lisboa, 16 de outubro de 2009.

Phd Marcirio Chaves

Embed Size (px)

DESCRIPTION

Apresentação de tese de doutoramento.

Citation preview

Page 1: Phd Marcirio Chaves

UMA METODOLOGIA PARA

CONSTRUÇÃO DE GEO-

ONTOLOGIAS

Marcirio Silveira ChavesOrientadores: Mário J. Silva e Diana

Santos

UNIVERSIDADE DE LISBOA

FACULDADE DE CIÊNCIAS

DEPARTAMENTO DE INFORMÁTICA

Doutoramento em InformáticaEspecialidade Engenharia Informática

Lisboa, 16 de outubro de 2009.

Page 2: Phd Marcirio Chaves

GEO-ONTOLOGIA

Geo-ontologia: um conjunto de conceitos

geográficos e relacionamentos geográficos

definidos formalmente e sem ambiguidade.

Serve para:

Normalização de terminologia

Integrar base de dados e textos (85%)

2

Page 3: Phd Marcirio Chaves

3

PROBLEMA CONCRETO

CTTDistrito,

Concelho, Freguesia

CTTDistrito,

Concelho, Freguesia

ISO 19109Feature, feature type

ISO 19109Feature, feature type

INENomenclatura de

Unidade Territorial (NUT)

1,2,3

INENomenclatura de

Unidade Territorial (NUT)

1,2,3

Wikipedia e textos

Província, região, aldeia

Wikipedia e textos

Província, região, aldeia

Geo-OntologiaGeo-

Ontologia

Page 4: Phd Marcirio Chaves

SUMÁRIO

4

Desafios

Solução Proposta

Estado da Arte

Geographic Knowledge Base (GKB)

Geograficidade

Sistema de Extração e Integração de Conhecimento Geográfico (SEI-Geo)

Metodologia Proposta

Contribuições

Page 5: Phd Marcirio Chaves

DESAFIOS Informação em bases de dados geográficas

com baixa qualidade, escondida e sub-utilizada

Ontologias carecem de ocorrências e, na prática, não estão disponíveis

Tratamento de informação geográfica em

texto

Ausência de detalhes nas metodologias para construção de ontologias

5

Page 6: Phd Marcirio Chaves

SOLUÇÃO PROPOSTA

6

Etapa Solução Proposta

Encontrar, limpar e integrar informação proveniente de bases de dados geográficas com informações complementares

GKB

Realizar estudos quantitativos Caracterização da geograficidade presente em textos da web em português

Reconhecer o conhecimento disponível em textos e gerar uma representação formal desse conhecimento

SEI-Geo - Extrator

Integrar a ontologia gerada por um sistema de extração e integração de conhecimento geográfico numa ontologia existente

SEI-Geo - Integrador

Page 7: Phd Marcirio Chaves

ESTADO DA ARTE

Representação de conhecimento

7

Tipo de relacionamento

Grau de formalidade

Especialista no domínio

Classificação facetada

livre baixo sim

Mapa de tópicos livre baixo não

Vocabulário controlado

- baixo sim

Taxonomia É um/parte de alto sim

Tesauro BT/NT SN Use/Use For

alto sim

Meta-modelo Livre, porém limitado

baixo sim

Folksonomia rasa baixo não

Ontologia livre alto sim

Page 8: Phd Marcirio Chaves

Sistemas de extração e integração de informação geográfica

8

Padrões Ontologia Integra conhecimento

Geo PT

Snowball ✓ ✗ ✗ ✓ ✗

Ontolearn ✗ ✓ (WordNet)

✓ ✗ ✗

KnowItAll/KnowItNow ✓ ✗ ✗ ✗ ✗

OntoSyphon ✓ ✓ ✗ ✗ ✗

OnLocus e Endereçamento

✓ ✓(ênfase endereços)

✗ ✓ ✓

SEI-Geo ✓ ✓ ✓ ✓ ✓

ESTADO DA ARTE

Page 9: Phd Marcirio Chaves

Metodologias para construção de ontologias

9

TGN SPIRIT Geo-Names GKB

Limpeza de dados

proposta

não proposta

não proposta

descrita em detalhe

Integração de conhecimento

regras similaridade similaridade regras

Formato XML XML, RDF e OWL

XML, RDF e OWL

XML, RDF e OWL

Multi-lingua sim não sim sim

Versionamento mês/ano

N/D variável variável

Documentação informal

formal Informal formal

ESTADO DA ARTE

Page 10: Phd Marcirio Chaves

SISTEMA DE GESTÃO DE CONHECIMENTO GEOGRÁFICO

10

Informação textual não estruturada

Fontes de informação

estruturadas (autoridades)

Ambiente de extração e integração de conhecimento

geográfico

ExtraçãoLimpezaCarregamento

SEI-Geo - Extrator Portugal

Lisboa Sintra

Belém

Arbustos

Rio Tejo

Portugal

Lisboa Sintra

Belém

Geo-ontologia

Rio Tejo

Graça

Rua 25 de Abril

Queluz

SEI-Geo -Integrador

Page 11: Phd Marcirio Chaves

MODELO CONCEITUAL DA GKB

11

Entidade Geográfic

a

Tipo de Entidade

Nome de

Entidade

Tipo de relacionament

o

Relacionamento

Page 12: Phd Marcirio Chaves

GEO-ONTOLOGIAS PRODUZIDAS WGO – World Geographic Ontology

Mais de 13 mil entidades geográficas (EG) (mais de 10 mil distintas)

Ca. 25.000 relacionamentos

Geo-Net-PT01 Mais de 400 mil EG (34 mil termos distintos) Mais de 75% dos termos formados por 1 ou 3

palavras 45% dos termos formados por uma palavra

estão presentes no nome de outras EG formadas por mais de uma palavra

12

Page 13: Phd Marcirio Chaves

GEOGRAFICIDADE DA WEB PORTUGUESA

78,8% dos termos formados por 1 palavra da Geo-Net-PT

estão no WPT 03

nomes de locais em nomes de pessoas e organizações

amostra aleatória de 32.000 documentos do WPT 03

31% das entidades mencionadas distintas da

categoria pessoa e

mais de 23% das entidades mencionadas distintas da

categoria organização

contêm um nome geográfico incluído na Geo-Net-

PT 13

Page 14: Phd Marcirio Chaves

SEI-Geo

14

Mundo

País

Cidade

Rua

Portugal

Sintra

São João

<Local tipo=“adm” subtipo=“aldeia”> Aldeia de Penedo</Local> em <Local tipo=“adm” subtipo=“cidade”> Sintra</Local>.

Identificador

Extrator de

arbustos

Frases c/ potencial conteúdo geográfico

Conceitos e Ocorrências

de Geo-ontologias

Mundo

PaísCidad

eRua

PortugalSintra

São João

Padrões

ArbustosCidade

AldeiaSintra

Penedo

Anotador

Frases anotadas

GKB

Integrador de Conhecimento

Geográfico

Geo-Ontologiasexpandidas

Geo-Ontologias

Aldeia

Mundo

País

Cidade

Rua

Portugal

Sintra

São João Penedo

Geo-Ontologiasexpandidas

Sentenças

... na aldeia de Penedo localizada em Sintra.

Classificador

EM e relacionamentos

reconhecidos

frases com EM e relacionamentos

reconhecidos

Page 15: Phd Marcirio Chaves

METODOLOGIA PROPOSTA NESSA TESE

Concepção de um modelo conceitual

Sub-domínios, relacionamentos (intra-inter), variantes, diferenças de opinião, atributos das EG, etc.

Seleção e limpeza de fontes de informação

Autoridade, custo de aquisição, tipo de

licenciamento e formato

Integração de conhecimento

Exportação de conhecimento e as aplicações15

Page 16: Phd Marcirio Chaves

VALIDAÇÃO INDIRETA DA METODOLOGIA

Sistemas de REM (SEI-Geo e CaGE)

Módulos do Sistema de Recuperação de Informação

Geográfica da UL

Interfaces

Sistemas que utilizaram as geo-ontologias produzidas participaram em avaliações internacionais (GeoCLEF e HAREM) com resultados significativos. 16

Page 17: Phd Marcirio Chaves

CONTRIBUIÇÕES Metodologia para construção de geo-

ontologias proposta e validada

17

Sistema de gestão de conhecimento geográfico – GKB

Análise da geograficidade

Sistema de Extração e Integração de Conhecimento Geográfico – SEI-Geo

Geo-ontologias públicas e gratuitas – WGO e

Page 18: Phd Marcirio Chaves

PRINCIPAIS PUBLICAÇÕES Chaves, Marcirio Silveira. Geo-ontologias e padrões para reconhecimento

de locais e suas relações em textos: a participação do SEI-Geo no Segundo HAREM. In: Cristina Mota e Diana Santos (eds.). Desafios na avaliação conjunta do reconhecimento de entidades mencionadas: O Segundo HAREM, Linguateca, p. 231–245, 2009. ISBN: 978-989-20-1656-6

Chaves, Marcirio Silveira; Rodrigues, Catarina e Silva, Mário J.. Data Model for Geographic Ontologies Generation. XATA2007 - XML: Aplicações e Tecnologias Associadas. 15-16 de Fevereiro, Lisboa, Portugal, 2007.

Santos, Diana e Chaves, Marcirio Silveira. The place of place in geographical IR. In 3rd Workshop on Geographic Information Retrieval, SIGIR'2006. p. 5-8, August 10th, Seattle, 2006.

Chaves, Marcirio Silveira e Santos, Diana. What kinds of geographical information are there in the Portuguese Web?. In Renata Vieira, Paulo Quaresma, Maria da Graça Volpes Nunes, Nuno Mamede, Claudia Oliveira & Maria Carmelita Dias (eds.), Encontro para o Processamento Computacional da Língua Portuguesa Escrita e Falada (PROPOR'2006), LNAI 3960 - Springer, (Itatiaia, RJ, 13 a 17 de maio), pp. 264-267. ISBN 3-540-34045-9

Silva, Mário J.; Martins, Bruno; Chaves, Marcirio Silveira; Cardoso, Nuno; Afonso, Ana Paula. Adding Geographic Scopes to Web Resources. CEUS - Computers, Environment and Urban Systems, Elsevier Science. volume 30, issue 4, July, pages 378-399, 2006.

Chaves, Marcirio Silveira; Silva, Mário J. and Martins, Bruno. A Geographic Knowledge Base for Semantic Web Applications. 20th Brazilian Symposium on Databases - SBBD, Uberlândia, Minas Gerais, Brazil, p. 40-54, 3-7 October, 2005.

18