14
DataGramaZero - Revista de Ciência da Informação - v.9 n.4 Ago08 ARTIGO 02 Semelhanças e Diferenças entre Tesauros e Ontologias Similarities and Differences between Thesauri and Ontologies por Rodrigo de Sales e Ligia Café Resumo: Tesauros e ontologias são modelos de representação do conhecimento que, servindo como instrumentos de controle terminológico, auxiliam o processo de indexação e recuperação de informações por assunto. Este artigo consiste na comunicação de uma pesquisa desenvolvida no curso de Mestrado em Ciência da Informação da Universidade Federal de Santa Catarina, que teve como objetivo estudar as semelhanças e diferenças entre tesauros e ontologias. Foi empregado, no plano metodológico, o Método de Análise de Conteúdo de Laurence Bardin. No plano teórico, a pesquisa foi subsidiada pela Teoria Comunicativa da Terminologia (TCT) de Maria Teresa Cabré. A análise dos resultados e interpretações proporcionaram significativas contribuições, visto que inúmeras características semelhantes e diferentes entre tesauros e ontologias foram identificadas e comentadas. A constatação de que ambos os modelos apresentam semelhanças e diferenças no tocante aos termos, conceitos e objetivos permite um entendimento mais profundo desses instrumentos, tão imprescindíveis à comunicação técnica e científica. Palavras-chaves: Tesauro; Ontologia; Linguagem documentária; Teoria comunicativa da terminologia; Método de análise de conteúdo; Representação do conhecimento. Abstract: Thesauri and ontologies are knowledge models representation. They can be employed as tools for terminology control and assistance in the process of indexing and retrieving information by subject. This paper consists in a description of a research developed in the course of Masters in Information Science of the Federal University of Santa Catarina. Such research studied the similarities and differences between thesauri and ontologies. Laurence Bardin's Content Analysis Method was followed as methodological base. Theoretical framework comes from Maria Teresa Cabré's Communicative Theory of Terminology (CTT). Analysis and interpretation of results provided meanful contributions, since it was possible to bring forth a large range of similar and different characteristics between thesauri and ontologies. Such similarities and differences were identified and commented. It was verified that both models shows differences and similarities concerning to terms, concepts and objectives, enabling a deeper understanding of indispensable tools for scientific and technical communication. Keywords: Thesaurus; Ontology; Documentary language; Communicative theory of terminology; Content analysis method; Knowledge representation. Introdução 1 A linguagem de especialidade, que é a linguagem utilizada por especialistas de determinado domínio, visa a precisão da informação comunicada em ambientes específicos. Para que tal precisão seja consolidada são necessários instrumentos que zelem pela não-ambigüidade do discurso especializado. As linguagens documentárias são exemplos de instrumentos que objetivam o controle dessa precisão terminológica no âmbito da representação do conhecimento e da recuperação da informação. A representação do conhecimento por ora abordada se refere à ação de representar (no sentido de tornar presente) conteúdos de informações materializadas (registradas). A recuperação da informação se refere àquele mesmo termo cunhado em 1951 por Calvin Mooers , que englobou em sua definição os aspectos intelectuais concernentes à descrição e busca de informações, além do aparato técnico utilizado para sua operacionalização. Para Saracevic (1996), a recuperação da informação foi (e continua sendo) a principal solução para o primeiro grande ‘problema’ da Ciência da Informação, a “explosão informacional”, que, anunciada em 1945 por Vannevar Bush , foi a mola propulsora das discussões incipientes relativas à tecnologia da informação. Atualmente, um dos fazeres da Ciência da Informação é fomentar esforços teóricos e práticos para a precisão da transferência da informação especializada, tratando o conteúdo informacional de forma a permitir a eficiência de sua recuperação. Para tanto, é aconselhável a adoção de linguagens documentárias. Linguagens Documentárias (LDs), também conhecidas como modelos de representação do conhecimento, são linguagens artificialmente construídas e constituídas de sistemas simbólicos que visam descrever sinteticamente conteúdos documentais, e são utilizadas nos sistemas informacionais para indexação, armazenamento e recuperação da informação. Com o desenvolvimento na área da Documentação, as Linguagens Documentárias, LDs avançaram seus escopos, passando de sistemas alfanuméricos de classificações, ou até mesmo de sistemas internos de organização de acervos, à instrumentos de controle terminológico. O tesauro é uma linguagem documentária caracterizada pela especificidade e pela complexidade existente no relacionamento entre os termos que comunicam o conhecimento especializado. A ontologia é um modelo de representação do conhecimento que, a exemplo do tesauro, é utilizada para representar e recuperar informação por meio de estruturas conceituais (no caso da ontologia o meio de ação é o informático). Na literatura, não é tarefa fácil encontrar estudos que analisem a fundo as diferenças e semelhanças entre esses dois modelos de representação do conhecimento que de uma maneira geral perseguem uma meta em comum, minimizar os obstáculos da representação e da recuperação da informação e, conseqüentemente, reduzir os ruídos conceituais da comunicação técnico e científica. Além do mais, o emprego de ambos os modelos como linguagens documentárias para o universo da informação, os tornam passíveis de análises que os coloquem como modelos afins localizados em espaços similares.

Semelhanças e Diferenças entre Tesauros e Ontologias ... can be employed as tools for terminology control and ... buscarem o melhor termo (ou ... nível das relações extensionais

Embed Size (px)

Citation preview

Page 1: Semelhanças e Diferenças entre Tesauros e Ontologias ... can be employed as tools for terminology control and ... buscarem o melhor termo (ou ... nível das relações extensionais

DataGramaZero - Revista de Ciência da Informação - v.9 n.4 Ago08 ARTIGO 02

Semelhanças e Diferenças entre Tesauros e OntologiasSimilarities and Differences between Thesauri and Ontologies

por Rodrigo de Sales e Ligia Café

Resumo: Tesauros e ontologias são modelos de representação do conhecimento que, servindo como instrumentos de controle terminológico, auxiliam oprocesso de indexação e recuperação de informações por assunto. Este artigo consiste na comunicação de uma pesquisa desenvolvida no curso deMestrado em Ciência da Informação da Universidade Federal de Santa Catarina, que teve como objetivo estudar as semelhanças e diferenças entretesauros e ontologias. Foi empregado, no plano metodológico, o Método de Análise de Conteúdo de Laurence Bardin. No plano teórico, a pesquisa foisubsidiada pela Teoria Comunicativa da Terminologia (TCT) de Maria Teresa Cabré. A análise dos resultados e interpretações proporcionaramsignificativas contribuições, visto que inúmeras características semelhantes e diferentes entre tesauros e ontologias foram identificadas e comentadas. Aconstatação de que ambos os modelos apresentam semelhanças e diferenças no tocante aos termos, conceitos e objetivos permite um entendimento maisprofundo desses instrumentos, tão imprescindíveis à comunicação técnica e científica.Palavras-chaves: Tesauro; Ontologia; Linguagem documentária; Teoria comunicativa da terminologia; Método de análise de conteúdo; Representaçãodo conhecimento.

Abstract: Thesauri and ontologies are knowledge models representation. They can be employed as tools for terminology control and assistance in theprocess of indexing and retrieving information by subject. This paper consists in a description of a research developed in the course of Masters inInformation Science of the Federal University of Santa Catarina. Such research studied the similarities and differences between thesauri and ontologies.Laurence Bardin's Content Analysis Method was followed as methodological base. Theoretical framework comes from Maria Teresa Cabré'sCommunicative Theory of Terminology (CTT). Analysis and interpretation of results provided meanful contributions, since it was possible to bring fortha large range of similar and different characteristics between thesauri and ontologies. Such similarities and differences were identified and commented. Itwas verified that both models shows differences and similarities concerning to terms, concepts and objectives, enabling a deeper understanding ofindispensable tools for scientific and technical communication.Keywords: Thesaurus; Ontology; Documentary language; Communicative theory of terminology; Content analysis method; Knowledge representation.

Introdução 1A linguagem de especialidade, que é a linguagem utilizada por especialistas de determinado domínio, visa a precisão dainformação comunicada em ambientes específicos. Para que tal precisão seja consolidada são necessários instrumentos quezelem pela não-ambigüidade do discurso especializado. As linguagens documentárias são exemplos de instrumentos que objetivam o controle dessa precisão terminológica no âmbitoda representação do conhecimento e da recuperação da informação. A representação do conhecimento por ora abordada serefere à ação de representar (no sentido de tornar presente) conteúdos de informações materializadas (registradas). A recuperação da informação se refere àquele mesmo termo cunhado em 1951 por Calvin Mooers, que englobou em suadefinição os aspectos intelectuais concernentes à descrição e busca de informações, além do aparato técnico utilizado para suaoperacionalização. Para Saracevic (1996), a recuperação da informação foi (e continua sendo) a principal solução para oprimeiro grande ‘problema’ da Ciência da Informação, a “explosão informacional”, que, anunciada em 1945 por VannevarBush, foi a mola propulsora das discussões incipientes relativas à tecnologia da informação. Atualmente, um dos fazeres da Ciência da Informação é fomentar esforços teóricos e práticos para a precisão da transferênciada informação especializada, tratando o conteúdo informacional de forma a permitir a eficiência de sua recuperação. Paratanto, é aconselhável a adoção de linguagens documentárias.

Linguagens Documentárias (LDs), também conhecidas como modelos de representação do conhecimento, são linguagensartificialmente construídas e constituídas de sistemas simbólicos que visam descrever sinteticamente conteúdos documentais, esão utilizadas nos sistemas informacionais para indexação, armazenamento e recuperação da informação. Com odesenvolvimento na área da Documentação, as Linguagens Documentárias, LDs avançaram seus escopos, passando desistemas alfanuméricos de classificações, ou até mesmo de sistemas internos de organização de acervos, à instrumentos decontrole terminológico. O tesauro é uma linguagem documentária caracterizada pela especificidade e pela complexidade existente no relacionamentoentre os termos que comunicam o conhecimento especializado. A ontologia é um modelo de representação do conhecimentoque, a exemplo do tesauro, é utilizada para representar e recuperar informação por meio de estruturas conceituais (no caso daontologia o meio de ação é o informático). Na literatura, não é tarefa fácil encontrar estudos que analisem a fundo as diferenças e semelhanças entre esses dois modelosde representação do conhecimento que de uma maneira geral perseguem uma meta em comum, minimizar os obstáculos darepresentação e da recuperação da informação e, conseqüentemente, reduzir os ruídos conceituais da comunicação técnico ecientífica. Além do mais, o emprego de ambos os modelos como linguagens documentárias para o universo da informação, os tornampassíveis de análises que os coloquem como modelos afins localizados em espaços similares.

Page 2: Semelhanças e Diferenças entre Tesauros e Ontologias ... can be employed as tools for terminology control and ... buscarem o melhor termo (ou ... nível das relações extensionais

Este artigo é um relato de uma pesquisa de Mestrado, desenvolvida no Programa de Pós-Graduação em Ciência daInformação da Universidade Federal de Santa Catarina, que realizou uma análise teórico-comparativa da literatura relativa aostesauros e às ontologias de modo a identificar e refletir quais as semelhanças e diferenças existentes entre ambos.

Na esfera teórica, a pesquisa foi subsidiada pelos fundamentos da Teoria Comunicativa da Terminologia (TCT), criada porMaria Teresa Cabré da Universitat Pompeu Fabra (Barcelona). No quadro metodológico, a Análise de Conteúdo, definida porLaurence Bardin, conduziu todo o processo de construção do corpus, coleta e tratamento das informações, bem como asinterpretações dos resultados obtidos.

A estrutura do artigo está formada, além desta introdução, pela exposição de algumas definições significativascorrespondentes aos tesauros e às ontologias, por uma apresentação em linhas gerais das idéias da Teoria Comunicativa daTerminologia, TCT, pela descrição metodológica da pesquisa (espinha dorsal deste texto) e por afirmações conclusivas comrelação aos resultados encontrados na investigação.

Tesauros e OntologiasSintetizando as inúmeras definições de tesauros encontradas na literatura é possível enfatizar que tesauros são vocabulárioscontrolados formados por termos (descritores) semanticamente relacionados, e atuam como instrumentos de controleterminológico. Os tesauros podem estar estruturados hierarquicamente (gênero-espécie e todo-parte) e associativamente(aproximação semântica), e, são utilizados principalmente para indexar e recuperar informações por meio de seu conteúdo.

Cabré (1993) afirma que os tesauros são ‘recopilações’ de termos relacionados semanticamente que servem como ferramentapara organizar e recuperar informação.

Segundo as diretrizes para a construção de tesauros descritas no padrão norte-americano ANSI/NISO Z39.19:

Um tesauro é um vocabulário controlado organizado em uma ordem preestabelecida e estruturadode modo que os relacionamentos de equivalência, de homografia, de hierarquia, e de associaçãoentre termos sejam indicados claramente e identificados por indicadores de relacionamentopadronizados empregados reciprocamente. As finalidades primordiais de um tesauro são (a)facilitar a recuperação dos documentos e (b) alcançar a consistência na indexação dos documentosescritos ou registrados de outra forma e outros tipos, principalmente para sistemas dearmazenamento e de recuperação de informação pós-coordenados (ANSI/NISO Z39.19, 2003),(tradução nossa).

O ANSI/NISO Z39.19 (2003) ressalta que os tesauros não são utilizados somente pelos especialistas da informação no momento daindexação, mas também por usuários da informação no momento da busca de documentos. Essa afirmação é enaltecida porMoreira (2003), que além de concordar que o tesauro é o elo entre a linguagem utilizada pelos indexadores e pelos usuários,afirma que os termos e as relações dos termos contidos nos tesauros fazem deles instrumentos essenciais para ambos(indexador e usuário) buscarem o melhor termo (ou termos) em um sistema de informação.

As ontologias, que são aparatos desenvolvidos pela engenharia computacional, consistem em especificações formais quevisam descrever estruturas conceituais de domínios específicos. Para Gruber (1993a), ontologias são esquemas conceituais em sistemas da base de dados. Um esquema conceitual forneceuma descrição lógica de dados compartilhados, permitindo programas de aplicação e interoperabilidade entre as bases dedados. Uma ontologia define o vocabulário usado para compor expressões complexas. O objetivo da ontologia é viabilizar um comumacordo no uso do vocabulário compartilhado de uma maneira coerente e consistente. A definição mais difundida paraontologia no âmbito da representação do conhecimento é a de Gruber (1993b), a qual o autor afirma que uma ontologia é umaespecificação formal e explícita de uma conceitualização compartilhada. Ao entendimento do autor, ‘conceitualização’ se refere a um modelo abstrato dos fenômenos no mundo, identificando osconceitos relevantes daqueles fenômenos. O termo ‘formal’ se refere ao fato de que a ontologia deve ser legível por máquina;‘explícito’ se justifica porque os tipos de conceitos usados e suas restrições de uso são definidos explicitamente; e‘compartilhado’ reflete que a ontologia deve capturar o conhecimento consensual aceito pelas comunidades.

Guarino e Giaretta (1995) afirmam ser problemático o fato de Gruber (1993b) considerar que a conceitualização reside nonível das relações extensionais 3 descrevendo um estado particular das coisas. Para eles a conceitualização reside no nível dasrelações intencionais, e descreve os vários estados das coisas. Guarino e Giaretta (1995) ressaltam que ontologia é uma teoria lógica que fornece um relato explícito e parcial de umaconceitualização, e, afirmam também que ontologia pode ser considerada sinônimo de conceitualização, ou seja, uma estruturasemântica intencional que codifica as regras implícitas, legitimando uma estrutura de uma parte da realidade. Guarino (1998)expõe que o termo ‘ontologia’ denota o resultado da atividade de análise conceitual que modela um domínio, realizada pormeio de metodologias padrão.

Ding e Foo (2001) afirmam ser ontologia uma estrutura de termos que possibilita o compartilhamento de informações de

Page 3: Semelhanças e Diferenças entre Tesauros e Ontologias ... can be employed as tools for terminology control and ... buscarem o melhor termo (ou ... nível das relações extensionais

determinado domínio do conhecimento, sendo que domínio pode também ser entendido como uma tarefa específica.

Segundo Noy e McGuinness (2005), uma ontologia é uma descrição explícita e formal de:

a) conceitos em um domínio de discurso,b) propriedades de cada conceito descrevendo as características e atributos do conceito, ec) restrições sobre as propriedades.

Mais recentemente, em artigo que visa esclarecer questões referentes à construção e ao compartilhamento de ontologias, Sowa(2006) afirma que:

O objeto de estudo da ontologia é o estudo das categorias de coisas que existem ou podem existirem algum domínio. O produto deste estudo, conhecido como ontologia, é um catálogo dos tipos decoisas que se admite existir em um domínio do interesse D da perspectiva de uma pessoa que useuma língua L com a finalidade de falar sobre D. Os tipos na ontologia representam os predicados,os sentidos da palavra [termo], ou os tipos de conceito e relação da língua L quando usados paradiscutir tópicos no domínio D. Uma lógica não interpretada é ontologicamente neutra: Não impõenenhuma restrição ao assunto ou à maneira em que o assunto é caracterizado. Por si só, a lógicanão diz nada sobre qualquer coisa, mas a combinação da lógica com uma ontologia fornece umalíngua que pode expressar relacionamentos sobre as entidades no domínio de interesse (Sowa,1999, p. 1-2), (tradução nossa).

As definições por ora apresentadas convergem em afirmar que a ontologia proporciona uma vocabulário formal e comumbaseado em uma estrutura de conceitos específicos de um dado domínio.

Com as definições expostas até então, são muito tênues as linhas que caracterizam os tesauros e as ontologias a ponto dediferenciá-los e/ou aproximá-los no tocante ao uso que o universo da representação do conhecimento faz desses instrumentos.Por isso, buscou-se na Terminologia, mais especificamente na Teoria Comunicativa da Terminologia, parâmetros parainvestigar mais detidamente o que há de comum e o que há de diferente entre esses instrumentos.

Teoria Comunicativa da Terminologia (TCT)A consistência teórica para o estudo comparativo entre os dois modelos de representação do conhecimento acima descritos,foi encontrada na ciência dos termos (Terminologia). Dentre as teorias da Terminologia que ancoram os estudos mais recentesde organização e representação do conhecimento, merecem destaque, sem pormenorizar as diferenças de abordagens, a TeoriaGeral da Terminologia (TGT) de Eugen Wüster, a Teoria da Socioterminologia de François Gaudin e a Teoria Comunicativada Terminologia (TCT) de Maria Teresa Cabré. A Teoria Comunicativa da Terminologia (TCT) fundamenta seus princípios no caráter comunicativo do discurso especializado,apresentando com isso uma coerente reflexão a respeito da linguagem efetivamente utilizada no âmbito especializado. Por talmotivo, essa foi a teoria encarregada de subsidiar a pesquisa aqui apresentada.

Definida no final da década de 1990, a Teoria Comunicativa da Terminologia, TCT é uma teoria descritiva de base lingüísticae perspectiva funcionalista focada no caráter comunicativo do termo. Cabré (1999) definiu uma teoria generalizada levandoem consideração que a Terminologia é interdisciplinar (integrando aspectos da Lingüística, das Ciências Cognitivas e dasCiências Sociais) e transdisciplinar (atua em todas as disciplinas). Segundo a autora, a Teoria Comunicativa da Terminologia. TCT não considera os termos como unidades isoladas queconstituem seu próprio sistema, mas sim, considera-os como unidades que se incorporam no léxico de um falante no momentoem que este adquire o know-how de especialista por meio da aprendizagem do conhecimento especializado.

Bem como toda teoria terminológica, a teoria de Cabré direciona sua luz às implicações que dizem respeito ao termo e aoconceito. Mas a lente concebida pela Teoria Comunicativa da Terminologia, TCT permite visionar o termo de uma maneiradiferente. Ao dar ênfase a análise da estrutura e do funcionamento terminológico e, levando em conta o aspecto variacionista,o termo é visto na teoria de Cabré como uma unidade denominativo-conceitual, como uma unidade de conhecimento. Assim, com base em princípios epistemológicos focados na dimensão comunicativa das línguas naturais, a TeoriaComunicativa da Terminologia, TCT enxerga o termo como uma unidade de conhecimento, composta por uma forma e umconteúdo, sendo que a forma é a unidade lexical que denomina o conceito (conteúdo).Com base nos fundamentos da Teoria Comunicativa da Terminologia, TCT foram extraídos os seguintes elementos deobservação para a análise: a) o termo: considerando seu caráter de unidade de conhecimento pertencente à linguagemnatural e as distintas funções deste no contexto discursivo. Considerando também sua característica pragmática inserida nodiscurso e sua simultaneidade quanto à forma e conteúdo: b) o conceito e seus diferentes tipos de relações, formadores daestrutura conceitual; e c) os objetivos (teóricos e práticos) atribuídos aos modelos em questão.

Quadro MetodológicoPara caracterizar a pesquisa é necessário apresentar os diversos pontos de vista que a envolveram e a tornarammetodologicamente científica. Do ponto de vista da abordagem do problema, a pesquisa é qualitativa, pois está pautada em

Page 4: Semelhanças e Diferenças entre Tesauros e Ontologias ... can be employed as tools for terminology control and ... buscarem o melhor termo (ou ... nível das relações extensionais

análises e interpretações de conteúdos para alcançar os objetivos. Do ponto de vista de seus objetivos é uma pesquisa decaráter exploratório, e, na ótica dos procedimentos técnicos, trata-se de uma pesquisa documental, que empregou técnicas daAnálise de Conteúdo para o levantamento, tratamento e análise das informações.

Conforme a determinação do método de Análise de Conteúdo, definido por Bardin (2003), a análise foi dividida em três fases:

a) Pré-Análise;b) Exploração do material; ec)Tratamento dos resultados, inferências e interpretações.

Pré-AnáliseA pré-análise possui três missões principais: a) a escolha dos documentos que serão submetidos à análise, caracterizada pelaconstrução de um corpus de análise; b) a formulação de hipóteses e objetivos; c) a delimitação de índices e indicadoresfundamentais à interpretação dos resultados; e d) a escolha de categorias de análise. O universo da investigação foiconstituído por artigos técnicos e científicos e Teses. A área de abrangência foi a Ciência da Informação e Ciência daComputação.

Seguindo a orientação de Bardin (2003), para a construção do corpus de análise foram considerados as seguintes regras: a)regra da exaustividade; b) regra da representatividade; c) regra de homogeneidade; e d) regra de pertinência. Caberessaltar que não foi possível zelar pela regra de exaustividade, que por sua vez zela pela não-seletividade. Tal afirmação se deve ao fato de que uma seleção dos documentos referentes à ontologia foi imprescindível para separar ostextos que abordam tal tema como objeto da Filosofia daqueles que o aborda como objeto da Ciência da Informação ou daComputação. Outra seleção necessária diz respeito ao tipo de artigos levantados, pois, por se tratar de uma pesquisa teórica, aanálise utilizou somente artigos de conteúdo teórico, ou seja, artigos que apresentem alguma reflexão teórica acerca do tema.

A representatividade do corpus foi assegurada pela escolha das bases de dados utilizadas para o levantamento bibliográfico,pois as mesmas representam uma parcela significativa da literatura referente à temática. Como mencionado anteriormente, osdocumentos analisados foram artigos e relatórios de pesquisa (predominantemente homogêneos em estrutura e linguagem deespecialidade), e as técnicas de análise também seguiram um padrão homogêneo. O respeito às regras descritas acimaacarretou no zelo pela pertinência do material. O levantamento bibliográfico foi realizado durante a última semana do mês de abril de 2007 nas bases de dados da Libraryand Information Science Abstracts - LISA, da Wilson Library Literature and Information Science Full Text e, da BibliotecaDigital de Teses e Dissertações do IBICT - BDTD. Os documentos que não estavam integralmente disponíveis on-line foram solicitados pela comutação bibliográfica por meio dosistema COMUT.Como estratégia de busca foram utilizados os termos: Tesauro, Thesaurus, Thesauri, Ontologia, Ontology e Ontologies nosdispositivos de consulta disponíveis nas referidas bases de dados. Nas bases da Wilson Library Literature and Information Science Full Text e da da Biblioteca Digital de Teses eDissertações do IBICT, BDTD a busca de cada termo foi realizada utilizando a opção de busca avançada por Assunto. Para abusca nas bases da LISA - Library and Information Science Abstracts foi utilizada a busca avançada por Palavras-Chave paratermos referentes ao tema tesauro, e, busca avançada por Título para os termos referentes ao tema ontologia, pois narealização de um pré-teste foi constatado um número excessivo de ocorrências referente a esse tema na busca por Palavras-Chave. O período de abrangência foi de dez anos (de 1998 a 2007) e os idiomas foram delimitados em português (para contemplarestudos realizados no Brasil), inglês (pelo fato de que a maior parte dos textos científicos da Ciência da Informação estáescrita em inglês) e espanhol (pelo fato de que a teoria da pesquisa é espanhola).

Após a consulta às bases de dados, foram identificados 78 (setenta e oito) documentos que, sob um primeiro olhar (leitura dosresumos), apresentavam abordagens teóricas a respeito dos tesauros e/ou ontologias. Para definir o Corpus foi realizada umaleitura detalhada dos resumos, introduções e conclusões dos 78 documentos com o fim de selecionar os textos queefetivamente apresentavam uma abordagem teórica. Após esta leitura técnica o corpus estava constituído de 62 (sessenta edois) documentos. A etapa seguinte consistiu na leitura integral dos textos visando selecionar somente aqueles que apresentavam em seuconteúdo alguma referência a qualquer dos índices da investigação (Termos, Conceitos e Objetivos). Como conseqüência foiconstruído um Corpus Final (Corpus de Análise) composto por 34 (trinta e quatro) documentos, sendo trinta e três artigostécnico e científicos e uma tese. Este resultado por si só já aponta um dado importante para a investigação. A incidência de textos de abordagem teóricareferente aos modelos de representação do conhecimento foi relativamente pequena se comparada com o número de textosque apresentavam relatos de pesquisas aplicadas, haja vista que, na etapa de levantamento bibliográfico efetuada durante a

Page 5: Semelhanças e Diferenças entre Tesauros e Ontologias ... can be employed as tools for terminology control and ... buscarem o melhor termo (ou ... nível das relações extensionais

construção do Corpus, centenas de documentos foram encontradas, tanto para tesauro quanto para ontologia. Mais uma vez seevidencia a relevância de um estudo de abordagem teórica e terminológica para o tema proposto.

Dos trinta e quatro documentos selecionados para o Corpus de Análise, dezessete correspondem ao tema ‘tesauro’, sendodezesseis artigos e uma tese, dezesseis artigos são relativos ao tema ‘ontologia’, e um artigo cobre ambos os temas.

Como sugerido pela Análise de Conteúdo, após a construção do corpus é necessário a definição das hipóteses, dos objetivos,dos índices e dos indicadores da investigação. Na fase destinada à formulação das hipóteses e objetivos, Bardin (2003) definehipótese como sendo uma afirmação provisória passível de verificação e comprovação, sendo o objetivo a finalidade geralproposta pela análise. A autora ressalta que não há a necessidade de se criar um corpus de hipóteses previamente, pois aformulação dessas hipóteses muitas vezes consiste em explicitar direções de análise que funcionem durante o processo deanálise (hipóteses implícitas).

O objetivo da análise, como já foi devidamente descrito, é apurar elementos teórico-conceituais que possibilitem aidentificação de características que aproximam e que distanciam tesauros e ontologias. Optou-se em trabalhar com ‘hipótesesimplícitas’ que se manifestaram no decorrer da análise, principalmente na exploração do material.

Os índices são os elementos que melhor explicitam o conteúdo de acordo com os objetivos da análise. Os índices delimitadosforam as unidades lexicais consideradas primordiais para o alcance do objetivo do estudo, que foram extraídas dosfundamentos da Teoria Comunicativa da Terminologia, TCT, a lembrar: “termo”, “conceito” e “objetivo”. Por se tratar deuma análise qualitativa, os indicadores que regeram os trabalhos foram a ‘presença’ ou ‘ausência’ dos respectivos índices nostextos analisados. Ou seja, somente os textos que faziam alguma referência aos ‘termos’, ‘conceitos’ e/ou ‘objetivos’, foramincluídos na análise. Essa aplicação dos índices e indicadores ocorreu no momento da construção do Corpus de Análise.

Juntamente à escolha das categorias de análise, que estão embasadas nos índices da investigação, Bardin (2003) sugere aescolha de ‘unidades de registros’ que podem auxiliar a descrição dos documentos submetidos à análise. Com isso, foramdeterminados como unidades de registro os seguintes elementos:

1. Referencia bibliográfica do documento: registro dos dados do autor, título, editor, data depublicação, volume, página, mês, ano, e demais dados complementares referentes à bibliografia.

2. Indicação do tema do documento: descreve se o documento aborda o tema tesauro, ontologia ouambos.

3. Resumo do conteúdo do documento: registro dos elementos que possibilitam o entendimentogeral do texto.

4. Observações: registro de informações relevantes, tais como aspectos estruturais, tipologias dasLDs, teorias utilizadas e áreas de aplicação, que não foram contempladas nas categorias.

Como categorias de análise ficaram determinadas:

1. Termo: registra uma síntese contendo a perspectiva apresentada no documento com relação aostermos do modelo de representação do conhecimento em questão.

2. Conceito: registra uma síntese contendo a perspectiva apresentada no documento com relaçãoaos conceitos e estruturas conceituais do modelo de representação do conhecimento em questão.

3. Objetivo: registra uma síntese contendo a abordagem apresentada no documento com relaçãoaos objetivos (teóricos e práticos) do modelo de representação do conhecimento em questão.

Para o registro dos elementos correspondentes às categorias que contemplam os índices da análise, ou seja, são os elementosque possibilitam analisar as diferenças e semelhanças entre tesauros e ontologias, focaram-se os seguintes parâmetrosbaseados na ótica funcionalista da Teoria Comunicativa da Terminologia, TCT: a) Categoria Termo – as funções dasunidades terminológicas, a relação forma-conteúdo do termo e, os níveis de relacionamento entre os termos; b) CategoriaConceito – a relação com a designação do termo e a relação entre os próprios conceitos e; c) Categoria Objetivo –finalidades das linguagens documentárias em questão.

Exploração do MaterialConcluída a etapa da pré-análise, que definiu todos os elementos necessários para o rigor da análise, iniciou-se a fase daexploração do material. A exploração do material foi realizada por meio da técnica de fichamento de textos e auxiliada poruma base de dados criada no Microsoft ® Access 2003. A leitura minuciosa de cada documento foi devidamente fichada, combase nas ‘unidades de registro’ e ‘categorias’ descritas acima, e registrada na referida base de dados. Para cada textoanalisado foi elaborada uma ficha (para fins de esclarecimento, cada página da base de dados corresponde a uma ficha)contendo registros relativos às unidades de registro (Referência, Tema, Resumo e Observações) e às categorias (Termo,Conceito e Objetivo).

Page 6: Semelhanças e Diferenças entre Tesauros e Ontologias ... can be employed as tools for terminology control and ... buscarem o melhor termo (ou ... nível das relações extensionais

A Figura 1 mostra a ficha de registro de um dos textos analisados.

Figura 1 – Base de Dados Criada para o Fichamento

O Microsoft ® Access possibilita, dentre outros dispositivos, a geração automática de relatórios organizados conforme anecessidade requerida por quem o está utilizando. É possível gerar relatórios com quaisquer das categorias ou unidades quealimentaram sua base, além de definir flexivelmente a ordem de apresentação das informações. Lançando mão dessedispositivo, após o fichamento do material analisado, foram gerados dois relatórios para auxiliar o processo de análise dosresultados. O Relatório 1 apresentou a descrição de todas as informações registradas no processo de coleta de informações:Referência, Tema, Resumo, Termo, Conceito, Objetivo e Observações. O Relatório 2 apresentou a descrição, em ordem temática, apenas das informações referentes às categorias de análise: Termo,Conceito e Objetivo. O Relatório 2 foi utilizado para analisar as variáveis (índices) que possibilitaram identificar as diferençase semelhanças entre tesauros e ontologias, ao passo que o Relatório 1, além de apresentar as informações gerais de cadadocumento, auxiliou a redação do referido estudo.

Tratamento dos Resultados Obtidos e InferênciasApós elaboração dos Relatórios 1 e 2 iniciou-se a etapa de tratamento dos resultados obtidos com a exploração do material.Os resultados foram tratados com vistas a viabilizar a etapa final da análise do conteúdo, a inferência. Seguindo a orientaçãodo método de Bardin (2003), que afirma que a Análise de Conteúdo possibilita uma leitura não-aderente (se é que isto sejapossível) em que o leitor tem a oportunidade de se distanciar dos textos analisados e captar informações suplementares, forameleitos o ‘pólo da análise’ e as ‘variáveis de inferência’. A autora, apoiada pelos elementos constitutivos da visão clássica da comunicação, afirma que os pólos de observação para ainterpretação da análise são: a mensagem (significação e código), o suporte (canal), e o interlocutor (emissor e receptor). Apresente análise focou a ‘mensagem’ como pólo de observação.

Para a análise baseada na mensagem, Bardin (2003) afirma existir dois níveis possíveis: do código (significante) e da

Page 7: Semelhanças e Diferenças entre Tesauros e Ontologias ... can be employed as tools for terminology control and ... buscarem o melhor termo (ou ... nível das relações extensionais

significação (significado). Apropriando-se da afirmação da autora de que o estudo formal do código nem sempre é necessárioe que a análise pode ser realizada a partir das significações da mensagem, esta investigação foi baseada no pólo ‘mensagem’no nível da ‘significação’.

As variáveis de inferência foram escolhidas de acordo com a percepção, ocorrida durante todos os processos anteriores,sobretudo durante a leitura e fichamento dos textos, de elementos recorrentes na grande maioria dos documentos analisados.Tais elementos foram selecionados e considerados como variáveis de inferência inseridas nas categorias da análise, a saber:

a) Categoria Termo – definição/função, tipos, relação entre termos e relação com os conceitos;b) Categoria Conceito – definição/função, organização dos conceitos, relação entre conceitos erelação com os termos; ec) Categoria Objetivo – teórico (relativo à terminologia em geral) e prático (relativo aos sistemas deinformação).

Com o intuído de facilitar a comparação dos aspectos que caracterizam os tesauros e as ontologias foram elaboradas umaTabela A, que descreve o conteúdo concernente aos tesauros, e uma Tabela B, que descreve o conteúdo referente àsontologias, ambas orientadas pelas categorias de análise e variáveis de inferência. Os conteúdos das referidas tabelas foramextraídos da análise realizada sobre o Relatório 2 e pautados na significação da mensagem.

A Tabela 1 é um modelo das Tabelas A e B da pesquisaTabela 1: Modelo das Tabelas Utilizadas para Análise da Mensagem

Elaborada pelos autores

Com a caracterização dos elementos dos tesauros e das ontologias, devidamente registrados de acordo com as categorias deanálise e variáveisde inferência, o passo seguinte foi o cruzamento dos conteúdos das Tabelas A e B com o fim de identificar as semelhanças ediferenças existentes entreambos os modelos de representação do conhecimento. Para tanto, foram elaboradas outras duas tabelas (Tabela C e Tabela D)que apresentaramrespectivamente os pontos de convergência (Tabela C) e os pontos de diferença (Tabela D) entre ambas as linguagensdocumentárias. A Tabela 2

Page 8: Semelhanças e Diferenças entre Tesauros e Ontologias ... can be employed as tools for terminology control and ... buscarem o melhor termo (ou ... nível das relações extensionais

(abaixo) mostra o modelo das Tabelas C e D da pesquisa.

Tabela 2: Modelo das Tabelas Utilizadas para Comparação de Dados

Elaborado pelos autores

As SemelhançasPara explicitar textualmente são listadas as características que convergem entre tesauros e ontologias, melhor dizendo, eis assemelhanças entre eles:

• Termo é um signo verbal (lingüístico) que representa, denomina, designa, denota, sintetiza,expressa, especifica um conceito, ou seja, o termo é um signo verbal que ‘mostra’ um conceito.Esteestudo, apropriando-se da noção defendida pela Teoria Comunicativa da Terminologia, TCT de queum termo é constituído por forma e conteúdo, opta em sintetizar os verbos utilizados na literaturapor meio do verbo ‘mostrar’. Cada uma das ações manifestadas pelos verbos acima essencialmenteexerce a mesma ação 5 , mostrar um conceito, no sentido de fazer ver um conceito. Quando umespecialista faz uso de um tesauro ou de uma ontologia, ou mesmo quando consulta um texto, eleenxerga os conceitos especializados por meio dos termos especializados, fato este que torna seguraa afirmação de que o conceito se manifesta por meio do termo, e que aquele está contido neste.

• Os termos genéricos e específicos dos tesauros podem ser considerados nas ontologias como ostermos universais (Tipo) e particulares (Instâncias).

• As características do conceito, ou seja, os atributos predicáveis de cada objeto conceitualizado,regem o relacionamento entre os termos. Uma segunda semelhança referente ao relacionamentoentre os termos está no fundamento da relação Gênero/Espécie (tesauro) e Tipo/Instância(ontologia). Outro ponto de encontro é a relação de qualidade, onde uma faceta ou categoria estáatrelada a um valor de qualidade.

• O conceito é uma representação mental (objeto do pensamento) de algo real (material ouimaterial) que é percebido, interpretado e mostrado pelo termo.

• Os conceitos são categorizados por semelhança.

• O relacionamento entre os conceitos, que é regido pelas características que possuem, éhierárquico, podendo se manifestar de forma superordenada (do conceito mais específico para o

Page 9: Semelhanças e Diferenças entre Tesauros e Ontologias ... can be employed as tools for terminology control and ... buscarem o melhor termo (ou ... nível das relações extensionais

mais geral) e subordinada (do conceito geral para o especifico).

• A relação do conceito com o termo é que este representa, designa, reflete, expressa, personifica,sintetiza e comunica aquele, ou seja, o conceito é visto por meio do termo.

• Tanto tesauros quanto ontologias têm como objetivos controlar terminologias especializadas,esclarecendo barreiras lingüísticas, concebendo uma estrutura conceitual, e, potencializar acomunicação especializada, gerindo a linguagem específica e concebendo um vocabuláriocompartilhado.

• Na prática, tanto tesauros quanto ontologias, têm como objetivos organizar informaçõesespecializadas, coordenar o vocabulário especializado, auxiliar a consulta do usuário de formasistemática e, potencializar a recuperação da informação, atuando como interfaces entreinformações e seus consumidores.

As DiferençasAs características que distanciam os tesauros das ontologias são mais numerosas que as características que os aproximam. Portal motivo, as diferenças não são apresentadas por meio de uma lista de características, como ocorrido com a descrição dassemelhanças, mas sim por meio de uma redação explicativa que dê conta da complexidade de tal observação.

No que diz respeito ao termo, as diferenças encontradas nos textos residem predominantemente na função exercida por eles.Os textos relativos às ontologias focam mais nas funções desempenhadas pelos termos, sem se (pre)ocupar em defini-los,ficando apenas notória a idéia de que um termo é uma etiqueta que se refere a um conceito. A literatura relativa aos tesauros atribui aos termos a função de evitar ou diminuir a flexibilidade da linguagem e descrever umconceito de maneira unívoca em um sistema de informação, ao passo que a literatura relativa às ontologias atribui aos termos afunção de definir formalmente coisas em um domínio de interesse e viabilizar a consulta a um sistema de informação fazendouso de conceitos pré-estabelecidos por especialistas. As funções dos termos atribuídas pelos textos referentes ao tesauro sãofunções de caráter terminológico e conceitual, ao passo que os outros textos atribuem aos termos funções mais práticas emambientes de aplicação especializados.

Na parte do corpus que representa os tesauros, foram encontrados nove tipos de termos não identificados nos textoscorrespondentes às ontologias: Termo Simples, Termo Composto, Termo Equivalente, Termo Preferido, Termo Proibido,Termo Relacionado, Termos Polissêmicos, Identificador e Termo Qualificado. No que diz respeito às ontologias, foiidentificada apenas uma classificação de termo que se distancia dos tipos encontrados nos tesauros, a saber: a Entidade (termoque mostra uma substância). Os demais tipos de termos, como visto anteriormente, apresentam alguma aproximação comaqueles constituintes dos tesauros.

Nos documentos correspondentes às ontologias são definidas apenas duas informações a respeito da relação entre os termos: aprimeira afirma que a relação semântica está diretamente ligada à apresentação sintática em um discurso; a segunda expõe queo relacionamento entre os termos é realizado pelos especialistas, ou seja, dá-se por meio do consenso de um determinadodomínio. Já a literatura referente aos tesauros apresenta três tipos de relações entre os termos (diferentes das ontologias): a)Equivalência – quando um termo apresenta uma relação de sinonímia com outro, e, neste caso o termo adotado pelotesauro (termo preferido), também conhecido como descritor, é determinado na elaboração do tesauro lançando mão da siglaUP (Usado Para). O termo preterido é marcado pela sigla USE (que o remete para o descritor correspondente); b) Associativo – apresentarelação semântica não hierárquica; c) Nota Explicativa - orientação que elucida a respeito do emprego de determinado termofornecendo informações como a definição do termo e sua relação com outros termos.

Com relação ao conceito, a literatura voltada aos tesauros o considera como o conjunto formado pelas características de umobjeto, que por sua vez são sintetizadas por um termo, definição pautada na Teoria do Conceito. Para os estudos deontologias, os conceitos são unidades de um vocabulário especializado que representam classes, entidades, atributos eprocessos. É possível identificar que, no âmbito dos tesauros o conceito é abordado sob uma ótica mais teórica (abstrata), como umaunidade representante de um objeto. No âmbito das ontologias, embora o conceito também seja uma unidade representante deum objeto, o conceito é tratado sob uma ótica mais aplicada. Essa diferença de visões reflete a diferença de abordagens dasáreas de conhecimento que cobrem os estudos aqui analisados. A área da Ciência da Informação, que predominantemente cobre os estudos de tesauros, objetiva uma investigação de cunhomais reflexivo, mapeando todo um campo teórico-conceitual em busca de embasamentos e entendimentos teóricos emetodológicos referentes a aplicações passadas e futuras. A área da Ciência da Computação, responsável pela maioria dosestudos de ontologias, não negligenciando as reflexões teóricas, mas sim, priorizando a construção dos aparatos informáticos,centra suas investigações no desenvolvimento e aplicação de seus produtos (nesse caso as ontologias).

Page 10: Semelhanças e Diferenças entre Tesauros e Ontologias ... can be employed as tools for terminology control and ... buscarem o melhor termo (ou ... nível das relações extensionais

Isso explica a diferente maneira que os artigos relativos aos tesauros abordam o assunto se comparado com os textos relativosàs ontologias. Com base na análise do corpus, ao imaginar um ciclo de desenvolvimento científico para este caso, é possívelvisualizar a pesquisa da Ciência da Informação alimentando e sendo alimentada pela pesquisa da Ciência da Computação, evice-versa. Obviamente que ambas as pesquisas, além de se complementarem, perpassam por outras áreas (como a Lingüísticapor exemplo) para fortalecer este ciclo.

Os textos relativos ao tesauro não fazem uso da expressão organização de conceitos, ao passo que os textos relativos àsontologias, nesse aspecto, distinguem os conceitos concretos principais, que são aqueles que apresentam propriedades dodomínio, bem como seus relacionamentos, dos conceitos abstratos, que são as características.

Os tesauros apresentam dois tipos de relacionamento entre conceitos que não foram identificados na literatura referente àsontologias: o relacionamento ontológico, que diz respeito à proximidade situacional dos elementos na realidade (contigüidadedos conceitos no espaço), e que é considerada a relação entre conceito e realidade e; o relacionamento de equivalência, queocorre quando um conceito é representado por mais de uma forma. Enquanto os textos relativos às ontologias relatam que interligações entre conceitos mais refinados e conceitos maisperiféricos formam as relações adicionais, os textos voltados aos tesauros apresentam relacionamentos dos tipos:descendência, instrumental, causa e efeito, benefício, prejuízo, material, aparência, processo e estado. Finalizando a questão dos tipos de relações possíveis entre os conceitos contidos em um tesauro, afirma-se que essa relação édeterminada pelo uso que o domínio faz dos conceitos, além das características próprias do respectivo domínio. Por outrolado, na literatura das ontologias é mencionada a seguinte informação a respeito do relacionamento entre conceitos atreladosao domínio: as relações conceituais, que se dão no nível intencional, são definidas em um espaço do domínio, e podem serrepresentadas em grupos de mundos possíveis (conjunto de coisas, estados e relações de coisas que são convencionalmentedeterminados como possíveis, mas que estão sob a égide de um conjunto de regras também determinado). Tal informação pode não caracterizar uma diferença, mas evidencia uma função que transcende as possibilidades derelacionamento conceitual dos tesauros.

Outra particularidade do relacionamento entre conceitos, possível somente nas ontologias, é a relação concebida por meio deaxiomas, os quais definem a interpretação pretendida. Embora os textos referentes aos tesauros enumerem uma quantidademaior de tipos de relacionamentos entre conceitos, a flexibilidade do relacionamento por meio de axiomas, viabilizada peloformalismo informático das ontologias, proporciona maior dinamicidade no tangente ao relacionamento conceitual.

Ao que se refere aos objetivos teóricos, a análise de conteúdo identificou como meta dos tesauros auxiliar a inter-relação entrelinguagem natural e linguagem artificial, fornecendo um sistema de símbolos lingüísticos para agrupar e relacionar informaçõesde uma temática. Do lado das ontologias, foram identificados como objetivo fornecer um mapa semântico aos camposindividuais e o relacionamento entre os campos, servindo como uma ferramenta que crie uma estrutura lógica, uma filosofia,uma classificação em uma disciplina (domínio). Enquanto os tesauros almejam orientar qual o termo mais adequado para representar um conceito, as ontologias visamesclarecer o significado pretendido de um vocabulário por meio de axiomas.

Com isso, fica evidente que, embora ambos tenham (em teoria) o objetivo de servir como uma ferramenta de referência pararepresentação de assuntos especializados, os tesauros estão voltados ao elo que une a linguagem do usuário da informação(especialista ou não) com a linguagem utilizada pelas unidades e pelos sistemas de informação, preocupando-se em concederum sistema simbólico que esclareça a relação entre os termos e os conceitos. Já as ontologias, transcendem esta meta depadronizar a linguagem utilizada na indexação e na recuperação da informação, propondo ser um mapa semântico, umaestrutura formal para um dado domínio, ou seja, as ontologias de fato possuem como objetivo principal viabilizar uma base deconhecimento.

Partindo para o âmbito das aplicações dos modelos de representação do conhecimento, fica evidente que os objetivos dostesauros são a padronização e a normalização terminológica das atividades de indexação e recuperação nos sistemasinformacionais. Já as ontologias, devido ao seu formalismo informático, vão em busca de uma estrutura de conceitos com altonível de dinamicidade no que diz respeito aos modelos de representação do conhecimento. Enquanto os tesauros pretendem servir como pontes que ligam as necessidades de informação aos sistemas de recuperação dainformação, as ontologias pretendem ajudar a responder perguntas em um corpo de informação, não apenas relacionando osconceitos aos termos e os definindo, mas também, esclarecendo-os e contextualizando-os em uma classificação, baseado nasdisciplinas, nas línguas e nas culturas. Enquanto os tesauros se voltam à atividade de indexação baseada em linguagem natural, as ontologias servem como umaespécie de dicionário que é usado tanto por humano quanto por base de conhecimento (máquina) para processar linguagemnatural. As ontologias não visam à ‘tradução’ de linguagens naturais a linguagens especializadas e vice-versa, mas sim, atuamno próprio processamento dessas linguagens. O uso da palavra ‘dicionário’ torna evidente que as ontologias vão além de propor uma estrutura conceitual por meio do

Page 11: Semelhanças e Diferenças entre Tesauros e Ontologias ... can be employed as tools for terminology control and ... buscarem o melhor termo (ou ... nível das relações extensionais

relacionamento controlado de termos, pois os dicionários têm como característica apresentar definições de palavras. Ao passoque os tesauros almejam ser um vocabulário oficial para a indexação e recuperação de documentos, deixando explícita suafunção de controle terminológico para as respectivas atividades, as ontologias visam a um entendimento comum ecompartilhado de um determinado domínio, deixando clara sua função de responder perguntas em uma base de conhecimento.Assim como os tesauros estão voltados para a normalização terminológica de um sistema de informação, as ontologias estãovoltadas para a ‘identificação e definição’ dos ‘conceitos relevantes’ que caracterizam um domínio.

Nota-se que, assim como a literatura aponta como objetivo dos tesauros, propor um conjunto estruturado de termos sob a basede um sistema de conceitos aptos a organizar conteúdos, auxiliando a representação desse conteúdo e evitando asambigüidades lingüísticas, aponta também como objetivo das ontologias, possibilitar por meio de aplicações lógicas aconstrução de modelos computacionais para um determinado domínio de aplicação. Embora isto não evidencie uma oposiçãodireta com características próprias dos tesauros, denota mais uma vez que os recursos informáticos possibilitam que osobjetivos das ontologias vão além daqueles almejados pelos tesauros.

Devido a esse fato, de as ontologias serem criadas e desenvolvidas no meio informático, são inúmeros os objetivos atribuídos aelas que transbordam a esfera de atuação dos tesauros. Dentre eles:

a) representar o mundo real (ou parte do mundo real) em um dado domínio; b) interoperabilizar sistemas; c) proporcionar a interoperabilidade dos serviços ofertados na web, potencializando os níveis deserviços ofertados, ou seja, sustentar a web semântica; d) propiciar benefícios na engenharia de sistemas (reusabilidade, confiabilidade e especificação); e) fornecer base conceitual para projetos de pesquisa e execução; f) melhorar a comunicação e o aprendizado, assistindo escritores e leitores, fornecendo estruturasconceituais que sustentam o ensino; g) possibilitar serviços baseados em operacionalizações semânticas; h) ligar parte do conhecimento humano aos processamentos computacionais; i) descrever a semântica de um domínio de modo que seja compreensível por homens e máquinas; j) melhorar a consistência e o reuso da informação e o compartilhamento do conhecimento; k) recuperação da informação e raciocínio automático de um dado domínio; l) capturar significados e relações entre os significados; m) servir como um catálogo dos tipos de coisas que existem em um domínio D da perspectiva deuma pessoa que use uma língua L com a finalidade de falar sobre D; n) representar os predicados, os sentidos das palavras, ou os tipos de conceitos e relações dalíngua L quando usados para discutir tópicos no domínio D; o) na web semântica, serve para fornecer uma conceitualização parcial de um dado domínio deforma compartilhada entre usuários comuns e que seja formalmente definida por uma linguagemprocessada por máquinas; p) oferecer meios concisos e sistemáticos para definir a semântica dos recursos web e; q) proporcionar regras de inferência e deduções racionais para que sistemas sejam inteligíveis eprocessados automaticamente por meio das várias linguagens de marcação.

Fica evidente que as ontologias transcendem a questão da representação do conhecimento, ou da simples representação deconteúdos documentais, mais freqüentemente atribuída aos tesauros, para assumir um papel de ferramenta elementar aossistemas de informação automatizados, às bases de conhecimento e aos serviços ofertados pela web, sobretudo no tocante aweb semântica.

Page 12: Semelhanças e Diferenças entre Tesauros e Ontologias ... can be employed as tools for terminology control and ... buscarem o melhor termo (ou ... nível das relações extensionais

ConclusõesAs características semelhantes e diferentes aqui apresentadas, foram frutos de inferências extraídas dos documentosanalisados, ou seja, é o resultado de uma interpretação controlada por variáveis predeterminadas. Torna-se, portanto,inevitável o esclarecimento de que esses resultados pertencem a uma investigação que deu vazão à subjetividade do analista. No entanto, essa subjetividade não significa uma falta de rigor científico quanto à análise do conteúdo dos documentos, massim, representa que o objetivo aqui alcançado teve uma interferência ‘controlada’ do sujeito em relação ao objeto observado.Isso leva a consideração de que as características que aproximam e distanciam tesauros e ontologias identificadas neste estudonão são últimas e acabadas, mas sim, características significativas que possibilitam afirmações importantes ao estudo dadiferença entre tesauros e ontologias.

A quantidade de características diferentes entre os modelos de representação do conhecimento analisados na pesquisa sãosignificativamente superiores aos pontos de convergência entre eles, algo que já poderia ter sido previsto pelo fato de ambospertencerem genuinamente a áreas de conhecimento distintas (tesauro – disciplinas da Ciência da Informação; ontologia –disciplinas da Ciência da Computação).

Embora ambos os modelos de representação do conhecimento sejam utilizados em situações similares e com funções porvezes concomitantes, seria uma redução afirmar que ontologias são linguagens documentárias que visam o controleterminológico nas atividades de indexação e recuperação da informação, bem como, seria também uma incoerência afirmarque tesauros são especificações comuns e compartilhadas de uma conceitualização. A simples afirmação de que ontologias são linguagens documentárias já se evidencia como uma incoerência. Embora asontologias possam cumprir papéis desempenhados pelas linguagens documentárias, já foi enfatizado neste trabalho quelinguagens documentárias são instrumentos de controle terminológico que auxiliam o processo de classificação, indexação erecuperação de documentos por assunto, uma definição muito aquém das possibilidades de execução de uma ontologia.

O que é possível dizer, diante das semelhanças por ora descritas, é que ambos os modelos trabalham para esclarecerimplicações relativas aos termos e aos conceitos de um dado domínio, e que por vezes compartilham de objetivos iguais.Embora claramente distintos, ambos operam em ambientes de linguagens específicas com o intuito de facilitar a comunicaçãoespecializada. Com isso, não é descabido afirmar que tesauros e ontologias são objetos distintos operando em ambientessemelhantes, com funções e capacidades que ora se aproximam ora se distanciam. As características das diferenças apontadas neste artigo não são indicadores de vantagens e desvantagens de um modelo emrelação ao outro, mas sim índices que apontam para a evolução dos modelos de representação do conhecimento que, ao longoda história, caminharam da classificação filosófica e bibliográfica de assuntos para a construção de uma estrutura conceitual,uma estrutura de pensamento comum. Servidas pelos aparatos informáticos, e toda potencialidade que eles concedem, asontologias são hoje o exemplo de sofisticação no que tange à representação do conhecimento.

Avançando um pouco mais o assunto, e trazendo para esta reflexão as idéias funcionalistas da Teoria Comunicativa daTerminologia (TCT), é possível ousar a seguinte afirmação: a ontologia é a potencial concretização dos postulados da TeoriaComunicativa da Terminologia, TCT. Tal afirmação se constrói com base no seguinte raciocínio: se a Teoria Comunicativa daTerminologia, TCT persegue uma Terminologia baseada em uma linguagem natural (embora contida de especificidade) e real(efetivamente usada nos ambientes especializados), e, se as ontologias concebem uma especificação comum e compartilhadade uma conceitualização, o que permite especialistas compartilharem do mesmo vocabulário, tem-se que as ontologias sãocapazes de formalizar (não no sentido de padronizar, mas sim no sentido de legitimar uma estrutura) uma terminologiaefetivamente utilizada e compartilhada entre especialistas. Obviamente que a ousadia de tal afirmação surge mais como uma ‘hipótese’ a ser investigada do que uma ‘tese’ a serdefendida. Porém, sua presença neste trabalho se justifica no fato de ser uma reflexão resultante da análise que buscou estudaros modelos de representação do conhecimento com base na visão comunicativa da terminologia.

Com a hipótese de que as ontologias potencialmente legitimam informaticamente o que foi definido pela Teoria Comunicativada Terminologia, TCT surge uma semente que poderá germinar um pensamento direcionado à idéia de que a teoria que melhorvislumbra o funcionamento da linguagem especializada pode ser formalizada por meio de uma ferramenta computacional. Tem-se com isso uma teoria das Ciências Humanas sendo formalmente aplicada por um artefato proveniente das CiênciasTecnológicas contribuindo para o avanço da comunicação técnica e científica, conseqüentemente, contribuindo para o avançoda representação do conhecimento nos mais variados ambientes estudados no universo da Ciência da Informação.

A despeito da hipótese levantada, a contribuição principal do presente artigo está na identificação, devidamente comentada,das diferenças e semelhanças existentes entre os tesauros e as ontologias, assunto pouco tratado na literatura corrente. Talcontribuição traz ao universo da Ciência da Informação, dedicado, dentre outros esforços, ao fluxo informacional nosambientes científicos e profissionais, alicerces para melhor compreender essas ferramentas de representação do conhecimentoe suas finalidades, auxiliando assim sua adequada aplicação. Por fim, vê-se este trabalho como uma fonte para o entendimentoconceitual e prático dos tesauros e das ontologias.

Page 13: Semelhanças e Diferenças entre Tesauros e Ontologias ... can be employed as tools for terminology control and ... buscarem o melhor termo (ou ... nível das relações extensionais

Notas:[1] - Artigo baseado em pesquisa de Mestrado desenvolvida no Programa de Pós-Graduação em Ciência da Informação daUniversidade Federal de Santa Catarina. Apoio financeiro da CAPES

[2] - Um tesauro é um vocabulário controlado organizado em uma ordem preestabelecida e estruturado de modo que osrelacionamentos de equivalência, de homografia, de hierarquia, e de associação entre termos sejam indicados claramente eidentificados por indicadores de relacionamento padronizados empregados reciprocamente. As finalidades primordiais de umtesauro são (a) facilitar a recuperação dos documentos e (b) alcançar a consistência na indexação dos documentos escritos ouregistrados de outra forma e outros tipos, principalmente para sistemas de armazenamento e de recuperação de informaçãopós-coordenados. (Tradução dos autores).

[3] - Para a ISO 1087-1 (2000) a extensão é a totalidade de objetos que correspondem a um conceito, e, a intenção é oconjunto de características que constituem um conceito.

[4] - O objeto de estudo da ontologia é o estudo das categorias de coisas que existem ou podem existir em algum domínio. Oproduto deste estudo, conhecido como ontologia, é um catálogo dos tipos de coisas que se admite existir em um domínio dointeresse D da perspectiva de uma pessoa que use uma língua L com a finalidade de falar sobre D. Os tipos na ontologiarepresentam os predicados, os sentidos da palavra [termo], ou os tipos de conceito e relação da língua L quando usados paradiscutir tópicos no domínio D. Uma lógica não interpretada é ontologicamente neutra: Não impõe nenhuma restrição aoassunto ou à maneira em que o assunto é caracterizado. Por si só, a lógica não diz nada sobre qualquer coisa, mas acombinação da lógica com uma ontologia fornece uma língua que pode expressar relacionamentos sobre as entidades nodomínio de interesse. (Tradução nossa).

[5] - O Dicionário Eletrônico Houaiss da Língua Portuguesa apresenta as seguintes definições para os verbos mencionados: A)Representar: [ser a imagem ou a reprodução de; trazer à memória; figurar como símbolo; aparecer numa outra forma;significar; tornar presente; substituir, estar no lugar de; fazer às vezes de]. B) Denominar: [nomear (algo ou alguém) de,designar]. C) Designar: [indicar (alguém ou algo) de maneira a distingui-lo de todos os demais; apontar, mostrar; ser marca,sinal, índice de; aplicar-se, representar, significar]. D) Denotar: [mostrar, indicar através de sinais ou indícios; representar,significar (um conceito, a idéia genérica de uma coisa concreta ou abstrata)]. E) Sintetizar: [tornar sintético, resumido;sumarizar; combinar (fatos, partes, elementos), de modo a compor um todo; congeminar, harmonizar]. F) Especificar: [indicarcom precisão; precisar, apontar, discriminar].

Bibliografia

AMERICAN NATIONAL STANDARDS INSTITUTE. Guidelines for the Construction, format and management ofmonolingual thesauri. Bethesda, USA: American National Standards Institute, 2003. (ANSI Z39.19-2003). Disponível em<http://www.niso.org/standards/index.html>. Acessado em: 30.ago.2005.

BARDIN, Laurence. L’ analyse du contenu. 7. ed. Paris: PUF, 2003. 296 p. (Le Psychologue, 69).

BIBLIOTECA DIGITAL DE TESES E DISSERTAÇÕES. Instituto Brasileiro de Informação em Ciência e Tecnologia.Disponível em <http://bdtd.ibict.br/>. Acessado em: 25.abr.2007.

CABRÉ, M. Teresa. La terminología: representación y comunicación. Barcelona: Institut Universitari de Lingüística Aplicada,1999. 369 p.

____________. La terminologia: teoría, metodología, aplicaciones. Traducción castellana de Carles Tebé. Barcelona: EditorialAntártida/ Empúries, 1993. 526 p.

DING, Ying: FOO, Schubert. Ontology research and development. Part 1: a review of ontology generation. Journal ofInformation Science, v. 28, n. 123, 2002. Disponível em <http://jis.sagepub.com/cgi/reprint/28/2/123>. Acessado em:10.jun.2008.

GUARINO, N. Formal ontology and information systems. In: N. Guarino, editor, Proceedings… 1st International Conferenceon Formal Ontologies in Information Systems, FOIS'98, Trento, Italy, pages 3-15. IOS Press, June 1998. Disponível em<http://www.loa-cnr.it/Papers/FOIS98.pdf>. Acessado em: 10.jun.2008.

GUARINO, N.; GIARETTA, P. Ontologies and knowledge bases: towards a terminological clarification. In: N. Mars (ed.).Towards very large knowledge bases: knowledge building and knowledge sharing. Amsterdam: IOS Press, 1995. p. 25-32.Disponíel em <http://www.loa-cnr.it/Papers/KBKS95.pdf>. Acessado em: 10.jun.2008.

GRUBER, Thomas R. A translation approach to portable ontology specifications. Appeared in Knowledge Acquisition, v. 5, n.2, p.199-220, 1993a. Disponível em<http://tomgruber.org/writing/ontolingua-kaj-1993.pdf>. Acessado em: 07.fev.2007.

GRUBER, Thomas R. Toward principles for the design of ontologies used for knowledge sharing. 1993b. Disponível em<http://tomgruber.org/writing/onto-design.pdf>. Acessado em: 13.jan.2007.

Page 14: Semelhanças e Diferenças entre Tesauros e Ontologias ... can be employed as tools for terminology control and ... buscarem o melhor termo (ou ... nível das relações extensionais

INTERNATIONAL STANDARD ORGANIZATION ISO, Genova. ISO 1087-1:2000; Terminology work: vocabulary. Part 1:theory and application. Genova, 2000.

LISA: Library and Information Science Abstracts. Disponível em <http://www.csa.com/factsheets/lisa-set-c.php>. Acessadoem: 25.abr.2007.

MOREIRA, Alexandra. Tesauros e Ontologias: estudo de definições presentes na literatura das áreas das Ciências daComputação e da Informação, utilizando-se o método analítico-sintético. Belo Horizonte, 2003. 150 f. il. Dissertação(Mestrado em Ciência da Informação) – Escola de Ciência da Informação, Universidade Federal de Minas Gerais, 2003.Disponível em <http://opus.grude.ufmg.br/opus/opusanexos.nsf/4d078acf4b397b3f83256e86004d9d55/915f0db8ceb5bb3583256fb0006a1d5e/$FILE/mestrado - Alexandra Moreira.pdf>. Acessado em: 16.abr.2006.

NOY, Natalya F.; McGUINNESS, Deborah L. Desarrollo de ontologías – 101: guía para crear tu primera ontología. Traduçãode Erick Antezana, 2005. 29 p. Disponível em <http://protege.stanford.edu/publications/ontology_development/ontology101-es.pdf>. Acessado em: 06.nov.2007.

SARACEVIC, Tefko. Ciência da informação: origem, evolução e relações. Perspectivas em Ciência da Informação, BeloHorizonte, v. 1, n. 1, p. 41-62, jan./jun. 1996

SOWA, J. F. Building, sharing and merging ontologies. Tutorial. [S. 1. : s. n.], 1999. Disponível em: <http://users.bestweb.net/~sowa/ontology/ontoshar.htm>. Acessado em: 10.jun.2008.

WILSON LIBRARY LITERATURE AND INFORMATION SCIENCE FULL TEXT. Disponível em <http://www.ovid.com/site/catalog/DataBase/203.jsp?top=2&mid=3&bottom=7&subsection=10>. Acessado em: 26.abr.2007.

Sobre os autores / About the Authors:

Rodrigo de Sales

[email protected]

Mestre em Ciência da Informação, Universidade Federal de Santa Catarina.

Ligia Café

[email protected] Doutora em Lingüística. Docente do Programa de Pós-Graduação em Ciência da Informação da Universidade Federal deSanta Catarina.