32
Semântica em Integração de Dados – Ontologia Contextual Vinícius Torres

Semântica em Integração de Dados – Ontologia Contextual Vinícius Torres

Embed Size (px)

Citation preview

Page 1: Semântica em Integração de Dados – Ontologia Contextual Vinícius Torres

Semântica em Integração de Dados – Ontologia Contextual

Vinícius Torres

Page 2: Semântica em Integração de Dados – Ontologia Contextual Vinícius Torres

Roteiro•Integração de Esquemas

•Pré-processamento para Integração

•Word Sense Disambiguation•Spell Check•Expansão de abreviação e acrônimos

•Contexto

•Modelagem Contextual

•Ontologia Contextual

•Ontologia Contextual para pré-processamento

Page 3: Semântica em Integração de Dados – Ontologia Contextual Vinícius Torres

Integração de Esquemas

Integração de Informação: começou com integração de BD, e tem sido estudado pela comunidade de Banco de Dados desde a década de 80.

Problema: schema matching, que lida com 2 (ou mais) esquemas de banco de dados para produzir um mapeamento entre seus atributos.

Objetivo: merging dos esquemas em um esquema global único.

Page 4: Semântica em Integração de Dados – Ontologia Contextual Vinícius Torres

Integração de Esquemas

Integração de esquemas é o processo que recebe esquemas de fontes de dados distintos e produz um esquema unificado.

Page 5: Semântica em Integração de Dados – Ontologia Contextual Vinícius Torres

Integrando 2 esquemas

Ex1:S1 S2Cust CustomerCode NumberName First NamePhone Last Name

Phone Number

Ex2:S1 S2Cust CustomerCNo CustIDCompName ContactFirstName Phone

Page 6: Semântica em Integração de Dados – Ontologia Contextual Vinícius Torres

Pré-processamento para Integração

Tokenização: A tokenização é o processo de identificar e transformar os atributos em palavras.

Remoção de caracteres: “-”, “_”, ”.” …..

UpperCase: FirstName, MyHouse

Stop-words: Remoção de palavras sem relevância semântica(artigos, preposições, etc).

Page 7: Semântica em Integração de Dados – Ontologia Contextual Vinícius Torres

Pré-processamento para Integração

Spell-check:

Um problema adicional na normalização é a correção ortográfica. expansion of abbreviations and acronyms;schema element sense disambiguation;

4 tipos de erros

inserção(computter, com letras a mais);deleção(com letras a menos, hous);substituição(housi, com o i no lugar do e) ;transposição(dgo, com o g e o em posições invertidas).[Chan, 2005]

Page 8: Semântica em Integração de Dados – Ontologia Contextual Vinícius Torres

Pré-processamento para Integração

Expansão de Abreviações e Acrônimos:

• escolher o sentido correto de acordo com o contexto onde o termo é apresentado ;

• difícil, pois pode existir mais de sugestão de expansão, ou ainda, nenhuma.

Page 9: Semântica em Integração de Dados – Ontologia Contextual Vinícius Torres

Pré-processamento para Integração

Expansão de Abreviações e Acrônimos:

2 categorias de abreviações (Hill, 2008)

Simples: Única Palavra•Prefixo: ‘attri’(attribute)•Aleatório: ‘msg’(Message) e src(Source)

Composta: Multi-palavas•Acrônimos: ‘ssn’(Social Security Number)•Partes das Palavras: doctype(Document Type)

Page 10: Semântica em Integração de Dados – Ontologia Contextual Vinícius Torres

Pré-processamento para Integração

Expansão de Abreviações e Acrônimos:

Expansão baseada em dicíonários:

•mais de um termo encontrado;•problema expandido quando de utiliza a web;•dicionário precisa ser constantemente atualizado.

Page 11: Semântica em Integração de Dados – Ontologia Contextual Vinícius Torres

Pré-processamento para Integração

Ferramentas para normalização: (Belian, 2008)

Cupid Tokenização, expansão e eliminação(prepositions)

Thesaurus

Embley et al. Expansão Wordnet

COMA++ Expansão Thesaurus

OntoBuilder Tokenização Wordnet

Page 12: Semântica em Integração de Dados – Ontologia Contextual Vinícius Torres

WordNet

Alguns relacionamentos do synset car.

Page 13: Semântica em Integração de Dados – Ontologia Contextual Vinícius Torres

Contexto

Contexto é definido como um informação contextual usada para representar circunstâncias envolvendo certas entidades, onde a entidade pode ser uma pessoa, lugar, objeto ou um procedimento que é considerado relevante na interação entre usuários e aplicação.

[Strang et al., 2003].

Page 14: Semântica em Integração de Dados – Ontologia Contextual Vinícius Torres

Contexto

Sistemas Sensíveis ao Contexto auxiliam pessoas nas tarefas diárias adaptando seu comportamento baseado em informações contextuais do usuário. Contexto Computacional é qualquer informação relevante descrevendo entidades em um interação homem-máquina.

[Neto, 2005].

Page 15: Semântica em Integração de Dados – Ontologia Contextual Vinícius Torres

Contexto(Fases)

Page 16: Semântica em Integração de Dados – Ontologia Contextual Vinícius Torres

Modelagem Contextual

Definir e usar contexto em aplicações computacionais requer um modelo contextual bem definido que deve representar e lidar com o conhecimento contextual.

[Strang et al., 2003]

•Compartilha um entendimento comum da estrutura da informação;

•Reuso de conhecimento contextual;

•Raciocínio.

Page 17: Semântica em Integração de Dados – Ontologia Contextual Vinícius Torres

Contexto

Ontologia Contextual para Integração precisa incluir informações contextuais:

•Fontes de Dados;•Esquemas;•Vocabulario(significado, relacionamentos semânticos, léxico)

Elementos Contextuais

•Usuário;•Ambiente;•Dados;•Associações;•Procedimentos; e •Aplicação.

Page 18: Semântica em Integração de Dados – Ontologia Contextual Vinícius Torres

Ontologia Contextualpara Integração

[Belian, 2008]

Page 19: Semântica em Integração de Dados – Ontologia Contextual Vinícius Torres

Ontologia Contextualpara Integração

[Belian, 2008]

Page 20: Semântica em Integração de Dados – Ontologia Contextual Vinícius Torres

Ontologia Contextualpara Integração

[Belian, 2008]

Page 21: Semântica em Integração de Dados – Ontologia Contextual Vinícius Torres

Ontologia Contextualpara Integração

[Belian, 2008]

Page 22: Semântica em Integração de Dados – Ontologia Contextual Vinícius Torres

Ontologia Contextual- Raciocínio

A utilização de Ontologias para representação contextual nos permite inferências:

• Se “paciente” = {any};• Se “cliente” = {saúde privada};• Se “usuário” = {saúde pública, tratamento de drogas}.

Page 23: Semântica em Integração de Dados – Ontologia Contextual Vinícius Torres

Contexto para resolução semântica

O processo de integração de esquemas geralmente é baseado nas seguintes etapas:

1. Pre- Integração(processemento) ;2. Comparação de Esquemas;3. Merging entre as diversas fonte de dados.

[Belian, 2008].

Page 24: Semântica em Integração de Dados – Ontologia Contextual Vinícius Torres

Contexto para resolução semântica

Pré-Integração:

1. Expansão de abreviações e acrônimos.

2. Desambiguação de significado;

3. Spell-check.

Page 25: Semântica em Integração de Dados – Ontologia Contextual Vinícius Torres

Contexto para resolução semântica

Expansão de abreviação e acrônimos:

Exemplo: “PA”

Page 26: Semântica em Integração de Dados – Ontologia Contextual Vinícius Torres

Contexto para Word Sense Disambiguation

Word sense disambiguation é determinar qual o significado da palavra em questão a depender do contexto.[Jurafksy, 2000]

Exemplo Clássico:Word: “Manga”

Dicionário Aurélio On-linemanga 1 sf. 1. Parte do vestuário onde se enfia o braço. 2. Qualquer peça de forma tubular que reveste ou protege outra peça.3. O fruto da mangueira

Page 27: Semântica em Integração de Dados – Ontologia Contextual Vinícius Torres

Contexto para Word Sense Disambiguation

Outro Exemplo:Word: “Usuário”

1. Usuário de Computador. 2. Usuário de drogas em tratamento.3. Usuário do SUS.(na esfera particular pode ser cliente ou

paciente).

Domínio de Saúde. Porém subdomínios diferentes:

•Psicologia•SUS

Page 28: Semântica em Integração de Dados – Ontologia Contextual Vinícius Torres

Contexto para Word Sense Disambiguation

Ainda no exemplo:Word: “Usuário”

Page 29: Semântica em Integração de Dados – Ontologia Contextual Vinícius Torres

“Aplicação” Exemplo

Normalização:Atributo: “diag_code” Entidade: “office_visit”

[Belian, 2008]

1. Obtem-se o termo completo formado pelos tokens “diag” e “code”;2. O termo “diag code” é classificado na ontologia levando em

consideração os elementos contextuais;3. Diag é expandido na ontologia para Diagnoses;4. O termo “Diagnoses Code” é classificado na ontologia.

Page 30: Semântica em Integração de Dados – Ontologia Contextual Vinícius Torres

“Aplicação” Exemplo

[Belian, 2008]

Page 31: Semântica em Integração de Dados – Ontologia Contextual Vinícius Torres

Referências[Chan, 2005] Chan, S., He, B. & Ounis, I. (2005), An in-depth survey on the automatic detection and correction of spelling mistakes, in ‘Proceedings of the 5th Dutch-Belgian Information Retrieval Workshop (DIR)’.[Hill, 2008] Hill, E. et al. AMAP: Automatically Mining Abbreviation Expansions in Programs to Enhance Software Maintenance Tools. MSR. 2008[Strang et al. 2003] Strang, T., Linnhoff-Popien, C., Frank, K.: CoOL: A Context OntologyLanguage to enable Contextual Interoperability. Proceedings of 4th IFIP WG 6.1, InternationalConference on Distributed Applications and Interoperable Systems, DAIS, 2003.[Belian, 2008]Belian, Rosalie Barreto A context-based name resolution approach for semantic schema integration - Tese. – Recife – 2008.

Page 32: Semântica em Integração de Dados – Ontologia Contextual Vinícius Torres

Dúvidas

?[Belian, 2008]