Upload
phamkhanh
View
215
Download
0
Embed Size (px)
Citation preview
Interoperabilidade Semântica e Compatibilização de Linguagens em
ambientes heterogêneos: a questão do acesso aberto e as possibilidades de
tratamento terminológico
Profa. Dra Maria Luiza de Almeida CamposUniversidade Federal Fluminense
Departamento de Ciência da InformaçãoPrograma de Pós-Graduação em Ciência da Informação
Grupo de Pesquisa - Estudos ônticos e ontológicos em contextos informacionais: representação, recuperação e métricas
Maria Luiza de A. Campos – Pré ConfOA
A Ciência Aberta e o TratamentoTerminológico
• O tema Ciência Aberta vem alterando, não só conceitos, mas também o modus operandi das instituições de pesquisa científica em todo o mundo, principalmente, nas universidades, institutos de pesquisa e laboratórios.
• Oriunda do movimento de Acesso Aberto ao Conhecimento, a Ciência Aberta vem, aos poucos implantando mudanças expressivas principalmente relacionadas à organização, recuperação e acesso às informações e dados científicos.
• Neste sentido, uma questão que se apresenta está relacionada a integração entre esses diversos dados através de uma terminologia consistente para obtenção de uma recuperação precisa em Ambientes Heterogêneos.
Maria Luiza de A. Campos – Pré ConfOA
Ambientes Heterogênicos e os Produtos Informacionais
• Tipos de dados podem incluir, por exemplo, números, imagens, textos, vídeos, áudio, software, algoritmos, equações, animações, modelos, simulações.
Maria Luiza de A. Campos – Pré ConfOA
No Espaço da Ciência
• Exemplos específicos: sequência genômica, exemplar de uma planta, dados atmosféricos
Fonte: http://www.scielo.br/scielo.php?script=sci_arttext&pid=S0102-261X2009000100010
Maria Luiza de A. Campos – Pré ConfOA
A questão da Heterogeneidade
• Um problema de difícil tratamento e de recuperação devido a diversidade de fontes de informação e formas de tratamento
• Essas fontes possuem diferenças de natureza sintática, semântica e estruturais entre os sistemas
• Envolve interoperabilidade e cooperação entre essas múltiplas fontes de informação
Maria Luiza de A. Campos – Pré ConfOA
A questão que se coloca
• Como possibilitar o intercâmbio desses dados e o compartilhamento de informações e conhecimentos de maneira que as informações recebidas sejam processadas de maneira significativa?
Interoperabilidade Semântica
• Capacidade dos sistemas de tecnologias de informação e comunicação (TIC) para o intercâmbio de dados e compartilhamento de informações e conhecimentos de forma significativa.
Maria Luiza de A. Campos – Pré ConfOA
Objetivo
• Contribuir para a discussão no âmbito do acesso aberto de algumas questões que envolvem a interoperabilidade semântica em ambientes heterogêneos
• Apresentar procedimentos teóricos e metodológicos no âmbito da Ciência da Informação relacionados a compatibilização de linguagens, visando melhorias no tratamento e recuperação de informação nesses ambientes
Maria Luiza de A. Campos – Pré ConfOA
O Universo de Ciência e de Tecnologia nos Sistemas de Informação de Pesquisa (CRIS)
UM AMBIENTE HETEROGÊNIO
Organizações de Pesquisa
Oportunidades de Investimento
Projetos
Publicações
Patentes
Equipamento
Governos
FinanciadoresPesquisadores
Publicadores
Bibliotecas
Centros de Dados
Instituiçõesde Pesquisa
Indústria
Produtos
Dados de PesquisaInfraestrutura
Pesquisadores
Fonte: EUROCRIS.org
Maria Luiza de A. Campos – Pré ConfOAEnorme Diversidade de Recursos
Fonte: EUROCRIS.org
Maria Luiza de A. Campos – Pré ConfOA
Uso Racional de Metadados
Descrição de Dados de Forma Consistente
Uso de Ontologias
Fontes de Dados Heterôgeneospodem ser tratados através de associações semânticas
00
11
00
01
11
00
01
10
10
10
00
10
11
00
01
01
11
01
00
10
11
00
10
10
01
11
11
01
01
01
00
“Informação” não estruturada X estruturadaINFORMAÇÃO DESCONTEXTUALIZADA
INFORMAÇÃO CONTEXTUALIZADA
Buscar por “João Brasil”???
Maria Luiza de A. Campos – Pré ConfOAFonte: material didático do prof. Carlos Henrique Marcondes (UFF)
Informações precisam ser contextualizadas
A questão fundamental é que queremos possibilitar o acesso a
estas informações em um espaço de uma Web que se quer
semântica
Maria Luiza de A. Campos – Pré ConfOA
INFORMAÇÃO CONTEXTUALIZADA = SENTIDO APROPRIADO PARA ATENDER A UM PROPÓSITO
Onde está a Semântica?
Na Web Semântica
Maria Luiza de A. Campos – Pré ConfOA
O Cavalo Canadense é um herbívoro que come folhas de
Plátano
A Semântica está na linguagem?
Maria Luiza de A. Campos – Pré ConfOA
Vegetal
herbívoro Árvore
Cavalo
come
É-um
É-um
Cavalo Canadense
É-um
Folha
É-parte-de
PlátanoÉ-um
A Semântica está no processo cognitivo de um indivíduo?
Maria Luiza de A. Campos – Pré ConfOA
M
A Semântica está no Modelo Cognitivo de compreensão de indivíduos?
Maria Luiza de A. Campos – Pré ConfOA
M
A Semântica na Web Semântica deve ser extraída dos dados contidos nas informações e deverão ser transportados para um Modelo Formal.
Maria Luiza de A. Campos – Pré ConfOA
���������� ������ ��� ������
�� �� ���� ��� ���� ������ ��� ������� ������������� ������� ������� ��ִ ����� ������� ! ��ִ" ���
��� ���#�$�"�� �� %� ����%��" ����$
� ����"� ����� ������
"�$�%� �� "���&� ���� ��� ����� ��$���� ��� ����� "����"� ������ &�� �
#�$�"�� ��' ��� ��� (�ִ �������
���� % ���� ��� ����� �% �� ��� ������ ��� ������ �� �� ���� ��� ���� ���) ���" % �"��$���" ��� *
�%���� " ���� ���
A linguagem natural para a máquina pode ser definida como um conjunto de caracteres que não fazem sentido.
É necessário que subjacente a estes caracteres exista uma linguagem formalizada
Maria Luiza de A. Campos – Pré ConfOA
A Linguagem Natural deve ser “escrita” para a máquina como um modelo formal.
Maria Luiza de A. Campos – Pré ConfOA
O MODELO DEVE SER TRANSFERIDO DA MENTE DO INDIVÍDUO PARA A MÁQUINA ATRAVÉS DE UMA LINGUAGEM FORMALIZADA QUE POSSA POSSIBILITAR INFERÊNCIAS SOBRE UM DADO CONHECIMENTO
Maria Luiza de A. Campos – Pré ConfOA
Web semântica• Ontologias são fundamentais para a interoperabilidade
semântica – possuem uma linguagem formalizada• Uma ontologia é (definindo de forma bem simples) um vocabulário
consensual, compartilhado, de entendimento comum de um domínio. Escrito através de uma especificação formal, que a máquina “entende”.
21
Maria Luiza de A. Campos – Pré ConfOAFonte: material didático - Disciplina Representação da Informação / UFF
Ontologia do dinossauro
22
Maria Luiza de A. Campos – Pré ConfOAFonte: material didático - Disciplina Representação da Informação / UFF
Trecho do código OWL da ontologia
23
Maria Luiza de A. Campos – Pré ConfOAFonte: material didático - Disciplina Representação da Informação / UFF
Ligações comuns x nomeadas: exemplo
Maria Luiza de A. Campos – Pré ConfOA
WEB SINTÁTICA X WEB SEMÂNTICA
Fonte: material didático - Disciplina Representação da Informação / UFF
Buscas apoiadas por ontologias leves/tesauros
NECESSIDADE DE CONTROLE TERMINOLÓGICO
25
Relações nomeadas
Maria Luiza de A. Campos – Pré ConfOA
A Web semântica: características
• Uma Web de dados descritos com metadados
• Capaz de ser entendida por humanos e máquinas simultaneamente
• Informação estruturada e com semântica bem definida
• Permite a realização de inferências sobre o seu conteúdo
• Oferece suporte a aplicações inteligentes e inovadoras
• Agentes de software capazes de processar e entender os dados
• Facilita a automação, integração e distribuição dos dados
• Cooperação entre pessoas e agentes de software
Maria Luiza de A. Campos – Pré ConfOAFonte: material didático - Disciplina Representação da Informação / UFF
Web semântica
• Interoperabilidade Sintática• Formatos de dados e linguagens compatíveis
• Interoperabilidade Semântica• É preciso ser capaz de concordar sobre o
“significado” de dados e operações sobre esses dados
Fonte: material didático - Disciplina Representação da Informação / UFF Maria Luiza de A. Campos – Pré ConfOA
Fonte: Santos, F. C. L. Interoperabilidade Semântica entre repositórios de saúde pública. Conferência luso-brasileira de acesso aberto. Maria Luiza de A. Campos – Pré ConfOA
Eis a questão ...
• Hoje em dia, os dados manipulados pelas instituições estão dispersos nos mais variados recursos de informação, tais como bases de dados e documentos de diferentes tipos.
• Com isso, a integração da informação contida nessas fontes é uma tarefa árdua.
• Diferentes abordagens podem ser seguidas para conseguir a integração, porém o desafio principal será conquistar a interoperabilidade semântica entre as fontes de informação, garantindo a manipulação do conjunto sem forçar a conversão das partes em um formato único.
Maria Luiza de A. Campos – Pré ConfOA
Para atingir a interoperabilidade semântica é necessário adotar
princípios de Compatibilização
A Ciência da Informação e seus aportes teóricos
Maria Luiza de A. Campos – Pré ConfOA
Compatibilização
• Ciência da Computação
• Capacidade dos computadores de vários tipos de utilizar programas escritos para outros sem conversão para outras linguagens de máquinas
• Ciência da Informação
• Medida de similaridade entre duas linguagens, onde se introduz o conceito de graus de compatibilidade e estabelecem a distribuição entre compatibilidade no plano semântico e no plano linguístico.
Maria Luiza de A. Campos – Pré ConfOA
Compatibilidade de Linguagens de
Tratamento e Recuperação de
Informações: o desafio do profissional de
informação
Maria Luiza de A. Campos – Pré ConfOA
Compatibilidade
•Medida de similaridade entre duas linguagens, onde se introduz o conceito de graus de compatibilidade e estabelecem a distribuição entre compatibilidade no plano semântico e no plano linguístico.
Maria Luiza de A. Campos – Pré ConfOA
Compatibilidade pode ser definida, em outras palavras, como...
• a qualidade de um vocabulário de se articular com outro de temática afim, direta ou indiretamente , seja para definirequivalências conceituais entre seustermos, estabelecendo relações de semelhança, seja para complementá-lo em seu escopo, estabelecendo relações de natureza lógica ou ontológica
Maria Luiza de A. Campos – Pré ConfOA
Compatibilidade - motivação
• Possibilidade de recuperar informação que podecoexistir ou ser conectada de forma coerente entresistemas que utilizam esses vocabulários, permitindoum intercâmbio de informações entre esses sistemas.
• Para tanto cria-se Matriz de Compatibilização
• Mapeamento das potencialidade semânticase linguísticas as Linguagens
•Taxa de Coincidência Verbal
•Grau de Compatibilidade ConceitualMaria Luiza de A. Campos – Pré ConfOA
Taxa de coincidência verbal
• Analise da medida de similaridade entre o símbolo linguístico e seu conteúdo conceitual
• Autor no Sistema A = Produtor intelectual de um Documento
• Autor no Sistema Y = O que promove uma demanda judicial
A problemática dos MetadadosMaria Luiza de A. Campos – Pré ConfOA
Grau de Compatibilidade Conceitual
• Compreende três fases:
• Coincidência conceitual
• Termos possuem a mesma forma verbal e todas as sua características são idênticas.
• Termos são idênticos conceitualmente e possuem/ e não possuem o mesmo termo genérico – problemas encontrados nas Ontologias da GO
• Correspondência conceitual
• Dois conceitos combinam a maior parte de suas características, sendo similares
• São considerados quase sinônimos - problemas encontrados nas Ontologias da GO
• Correlação Conceitual
• Dois conceitos são correlacionados através de símbolos matemáticos, por exemplo.
• Indica que um conceito em uma linguagem equivale a uma combinação deconceitos na outra linguagem
Maria Luiza de A. Campos – Pré ConfOA
A Medida de Compatibilidade Conceitual está diretamente relacionada com o estudo das definições e das relações
conceituais• As características dos conceitos, são também
conceitos e estão expressas na definição conceitual e nas relações
• Estudo das definições conceituais
• Estudo das relaçõesMétodo de Dalhberg – matriz de compatibilidade conceitual- mapear as potencialidade semânticas
Compatibilização pressupõe o estudo das definições e relações conceituais
Maria Luiza de A. Campos – Pré ConfOA
Produto da compatibilização
Pode ser :
• Um novo vocabulário, fruto da junçãode vocabulários compatíveis, ou
•Uma linguagem intermediária que estabelece correspondências entre ostermos destes vocabulários.
Maria Luiza de A. Campos – Pré ConfOA
Existem diversas Propostas metodológicas
• Linguagem Mundial – possibilidade de elaboração de uma linguagem universal
• Linguagem de Comutação – propõe a criação de uma estrutura básica comum, servindo de elemento norteador no desenvolvimento de linguagens individuais
• Linguagem Intermediária – é uma linguagem de conversão que integra diversas linguagens• Este conceito surge em 1963, esboçado pelo Groupe d´Etude sur Information
Scientifique (GEIS) no projeto de criação de um léxico intermediário.
Maria Luiza de A. Campos – Pré ConfOA
Linguagem Intermediária• Criação de uma léxico intermediário com um sistema
de códigos que possa convergir para dois ou mais instrumentos de representação a ser compatibilizados
• Características:
• As Linguagens originais são mantidas
• Criação de uma linguagem de conversão ( sistema de códigos)
• Propõe a adoção de uma Linguagem Base
• A linguagem de maior abrangência no domínio. Será utilizada como padrão para análise
Maria Luiza de A. Campos – Pré ConfOA
Linguagem Intermediária• Criação de uma léxico intermediário com um sistema
de códigos que possa convergir para dois ou mais instrumentos de representação a ser compatibilizados
• Características:
• Estabelece onze níveis de correspondência
• correspondência exata (idiomas diferentes, plural/singular); termos sinônimos; termo específico para o termo genérico...
• Ex: O vocabulário de origem usa uma só um descritor para designar um conceito, enquanto que para o mesmo conceito o vocabulário destino precisa usar dois ou mais descritores emconjunto
• Ex: o descriptor do vocabulário de origem existe no vocabulário de destino descriptor mais genérico
Maria Luiza de A. Campos – Pré ConfOA
Léxico intermediário
• Vocabulário central que atua como um mediador de mapeamentos entre nvocabulários com os quais queremosestabelecer compatibilidade.
• O Mapeamento é feito entre cadavocabulário e o léxico.
Maria Luiza de A. Campos – Pré ConfOA
Método de Neville – Reconciliação de Tesauros –propõe uma linguagem intermediária através do mapeamento entre
vocabulários
Mapeamento
• no mapeamento busca-se obter umacorrespondência entre dois vocabulários, onde se estabelecem critérios de conversão de um vocabulário para o outro.
• é unidirecional, ou seja, é feito tendo em vista a conversão de um vocabulário para outro, mas não vice-versa.
Maria Luiza de A. Campos – Pré ConfOA
Uma outra Proposta ...O Vocabulário Integrado
• Na integração o foco é gerar um novo vocabulário, que possivelmente tem seu escopo ampliado em relação aos vocabulários originais, uma vez que é o resultado da agregação desses vocabulários.
• Essa visão contrasta com a abordagem do léxico intermediário, que têm por princípio a preservação dos vocabulários originais e o estabelecimento de equivalências entre os vocabulários, enquanto que na integração essa preservação é perdida uma vez que se cria um novo vocabulário.
Maria Luiza de A. Campos – Pré ConfOA
Abordagens para integração
• Uso de diversas estratégias de casamento léxico• a normalização prévia dos termos dos
vocabulários• a exploração da estrutura hierárquica• a análise de documentos indexados com os
vocabulários• a participação de especialistas para validar o
resultado proposto de casamentos propostospor processos semi-automatizados
Maria Luiza de A. Campos – Pré ConfOA
Qual o princípio adotar? O que serve aos nossos propósitos visando possibilitar o acesso aberto????
OBRIGADA!!!
Maria Luiza de A. Campos – Pré ConfOA
Estudos ônticos e ontológicos em contextos informacionais: representação, recuperação e métricas
Grupo de pesquisa