Aprendizagem de Ontologias a Partir de Textos

Embed Size (px)

Citation preview

  • 5/26/2018 Aprendizagem de Ontologias a Partir de Textos

    1/22

    PPGCC

    Pontifcia Universidade Catolica do Rio Grande do SulFaculdade de Informatica

    Programa de PosGraduacao em Ciencia da Computacao

    Aprendizagem de Ontologias a partir de Textos

    Lucelene Lopes, Renata Vieira

    Relatorio Tecnico N0 056

    Porto Alegre, Outubro de 2009

  • 5/26/2018 Aprendizagem de Ontologias a Partir de Textos

    2/22

    Resumo

    Neste relatorio sao apresentados de forma detalhada o conceito e as etapas de Aprendizagem de Ontologias (Ontology Learning), em particular, no caso desta aprendizagem ser

    feita a partir de textos. Como todo o processo de construcao de ontologias, a Aprendizagem de Ontologia tambem visa construir uma representacao de conhecimento conceitual deum domnio especfico que pode ser utilizada em diversas areas para diferentes aplicacoes.Porem, nesta abordagem, a construcao de ontologia e feita atraves de metodos automaticose semiautomaticos de extracao de conhecimento originarios da area de Aprendizagem deMaquina. Esses metodos buscam reduzir o custo na construcao de ontologias, bem como nasua representacao estrutural. Cabe salientar que o objetivo deste relatorio e uma revisaobibliografica sem a ambicao de propor novas tecnicas ou abordagens.

  • 5/26/2018 Aprendizagem de Ontologias a Partir de Textos

    3/22

    Captulo 1

    Introducao

    Ontologias sao representacoes formais de um modelo de domnio. A uma ontologia podemosassociar uma base de conhecimento que instancia conceitos e relacoes desta ontologia. O

    termo Aprendizagem de Ontologias (Ontology Learning) foi introduzido originalmente porAlexander Madche e Steffen Staab [26], e pode ser descrito como processo de aquisicao deum modelo de domnio a partir de dados.

    Sendo assim, a Aprendizagem de Ontologia pode ser vista como um caso particular deconstrucao de ontologia onde, ao inves de se utilizar o conhecimento de um especialista paraconstruir uma ontologia de maneira manual, utilizase um processo de inferencia a partir deum volume consideravel de dados de forma semiautomatica [11].

    Segundo Madche e Staab, a Aprendizagem de Ontologias visa a integracao de variasareas do conhecimento para facilitar a construcao de ontologias, em particular a area deAprendizagem de Maquina. A automatizacao de todo o processo de construcao de ontologiasnao e possvel com as atuais tecnologias, neste sentido o que se busca e um processo semiautomatico que minimize a intervencao humana [26].

    Neste caso, a area de Aprendizagem de Maquina tem um potencial de contribuicao bastante grande, por se tratar de uma area onde existem metodos, tecnicas e ferramentas consolidadas [27]. O processo usual de Aprendizagem de Maquina e menos ambicioso que aAprendizagem de Ontologias, ainda que seja em muitos casos bastante complexo. No entanto, diversas tecnicas de extracao de conhecimento podem ser adaptadas a certas fases daAprendizagem de Ontologias, principalmente quando a aprendizagem e feita sobre textos.

    Quando a Aprendizagem de Ontologias e feita sobre fontes textuais nao estruturadas, edenominada Aprendizagem de Ontologias a partir de Textos [11]. Este processo e bastantecomplexo sendo necessario estruturalo em etapas onde apenas algumas delas poderao ser

    automatizadas.O objetivo deste relatorio e uma revisao de literatura sobre Aprendizagem de Ontologia

    a partir de Textos exposta de maneira didatica. Sendo assim, esse relatorio esta organizado,alem desta introducao, em duas secoes e uma breve conclusao. A secao 2 descreve formalmente Ontologias, utilizandose de um exemplo apresentado em detalhe. A secao 3 apresentaAprendizagem de Ontologias a partir de Textos, atraves de suas etapas. Finalmente a conclusao sumariza a contribuicao e sugere trabalhos futuros.

    1

  • 5/26/2018 Aprendizagem de Ontologias a Partir de Textos

    4/22

    Captulo 2

    Ontologias

    Ontologia e uma especificacao formal de uma conceitualizacao [16]. De um ponto de vistaformal uma ontologia e uma estrutura [11]:

    := ( )

    Composta de:

    Quatro conjuntos disjuntos:

    identificadores de conceitos;

    identificadores de relacao;

    identificadores de atributos; e

    tipos de dados (inteiros, strings, etc);

    Um semireticulado superiordefinido sobre os elementos de (conceitos) chamadode hierarquia de conceitos ou taxonomia, que possui:

    um supremo ;

    uma relacao de subconceito e superconceito entre dois conceitos 1 e 2 pertencentes a que diz que 1 e um subconceito de 2, caso 1 2, e que 2 e um

    superconceito de1

    ; adcionalmente caso nao exista um conceito 3 tal que 1 3 2, dizse que

    1 e um subconceito direto de 2 e, analogamente, 2 e um superconceito diretode 1, estas relacoes denotase como 1 2;

    Uma funcao : + que estabelece relacoes entre conceitos, chamada assinatura

    de relacao, estas funcoes definem uma relacao do conjunto e dois conjuntos deconceitos de , respectivamente:

    2

  • 5/26/2018 Aprendizagem de Ontologias a Partir de Textos

    5/22

    domnio (domain) que diz quais conceitos podem originar a relacao; e

    intervalo (range) que diz que conceitos podem ser destino da relacao;

    Uma ordem parcial sobre que estabelece uma ordem de precedencia de certasrelacoes sobre outras, chamada hierarquia de relacao, que de forma analoga a hierarquiade conceitos define:

    os conceitos de subrelacao e superelacao que diz que duas relacoes 1 e 2 pertencentes a onde 1 2 sao: 1 uma subrelacao de 2 e, analogamente, 2 umasuperelacao de 1; e

    os conceitos de subrelacao e superelacao diretas quando nao existe uma relacao3 tal que 1 3 2, que denotase 1 2;

    Uma funcao: , similar a funcao, mas que relaciona atributos ao invesde conceitos, chamada assinatura de atributos.

    Para exemplificar as definicoes apresentadas, considerase o exemplo da Figura 2.1. Nestaontologia os conjuntos , , e sao:

    =

    =

    =

    =

    O semireticulado superior possui o supremo = e sua hierarquia e:

    3

  • 5/26/2018 Aprendizagem de Ontologias a Partir de Textos

    6/22

    Figura 2.1: Ontologia Exemplo

    Utilizando a notacao (relacao) =domainrange, a funcao define:

    ( ) = ( )( ) = ( )

    ( ) = ( )( ) = ( )( ) = ( )

    ( ) = ( )( ) = ( )( ) = ( )

    ( ) = ( )

    4

  • 5/26/2018 Aprendizagem de Ontologias a Partir de Textos

    7/22

    A ordem parcial define:

    Utilizando uma notacao analoga a utilizada para a funcao, a funcaodefine apenas:

    () = ( )

    2.1 Sistema de Axiomas

    Usualmente, definese junto com uma ontologia um conjunto de axiomas que permite estabelecer propriedades necessarias entre conceitos, relacoes e atributos desta ontologia. For

    malmente, um sistema de axiomas de uma ontologia e definido pela tripla:

    := ( )

    Composta de:

    uma linguagem logica ;

    um conjunto de axiomasque pode fazer referencia a conceitos, relacoes e atributos;

    um mapeamento :

    Logo, este conjunto de axiomas pode ser utilizado para definir restricoes entre conceitos,tipicamente conceitos que sao disjuntos, como por exemplo definicoes de conceitos disjuntosna ontologia exemplo da Figura 2.1:

    (() ())

    (() ())

    (() ())

    Igualmente usual na area e utilizar axiomas para definir relacoes simetricas, ou seja,definir que duas relacoes tem um comportamento analogo. Por exemplo, na ontologia utilizada nesta secao e possvel definir as seguintes simetrias de relacoes:

    Se um homem e marido de uma mulher, esta sera sua esposa:( ( ) ( ));

    5

  • 5/26/2018 Aprendizagem de Ontologias a Partir de Textos

    8/22

    Se uma pessoa e dona de um cachorro, este cachorro pertence a esta pessoa:( ( ) ( ));

    Se um ser vivo e parente de outro, este tambem e seu parente:( ( ) ( ));

    Se um ser vivo e pai de outro, este sera seu filho (inverso de pai):( ( ) ( ));

    Se um ser vivo e mae de outro, este sera seu filho (inverso de mae):( ( ) ( ));

    Podese ainda utilizar axiomas para definir outros tipos de restricoes, como por exemplodefinir que as relacoes de paternidade so existem entre duas pessoas, ou entre dois animais. Isto somado ao fato de que somente indivduos ou podem ser maese, analogamente, somente indivduos e podem ser pai, resulta nas seguintes

    restricoes:

    (() ( ) ())

    (() ( ) ())

    (() ( ) ())

    (() ( ) ())

    (() ( ) ())

    (() ( ) ())

    (() ( ) ())

    (() ( ) ())

    Outro exemplo de restricao permite definir que um ser vivo possa ter apenas um pai euma mae, ou ainda que um cachorro possa ter apenas um dono:

    ( ( ) ( ) = )

    ( ( ) ( ) =)

    ( ( ) ( ) =)

    ( ( ) ( ) =)

    ( ( ) ( ) = )

    ( ( ) ( ) = )

    6

  • 5/26/2018 Aprendizagem de Ontologias a Partir de Textos

    9/22

    Uma forma mais sofisticada de utilizar os axiomas tambem pode ser utilizado para definirsubconceitos a partir de um axioma, por exemplo, podemos dizer que um homem e netoquando ele e filho de alguem que tambem e filho de alguem, ou seja:

    (() ( ( ) ( )) ( ( ) ( )))

    2.2 Base de Conhecimento

    Uma vez definida a ontologia e o sistema de axiomas, a ontologia e populada atraves dadefinicao de instancias para conceitos, relacoes e atributos.

    De um ponto de vista formal, isto e feito atraves da definicao de uma base de conhecimento:

    := ( )

    Composta de:

    um conjunto de identificadores de instancias, ou simplesmente instancias;

    uma funcao : (), chamada instanciacao de conceitos, que define para cadaconceito qualquer subconjunto1 de ;

    uma funcao : (+), chamada instanciacao de relacoes, que define para cada

    relacao qualquer tupla2 contendo elementos de ;

    uma funcao: ()+, chamada instanciacao de atributos, que define para

    cada atributo um par com uma instancia de e um elemento do seu tipo dedados .

    A ttulo de exemplo, para a ontologia apresentada na Figura 2.1, acrescentase asinstancias conforme a Figura 2.2.

    Assim sendo, considerase o seguinte conjunto :

    I := Mateus, Lucas,Joao, Maria,Rita, Ines,Lobo, Sultao,Pitucha, Huli

    1A notacao () denota o conjunto com todos os subconjuntos possveis do conjunto.2A notacao + denota todos os conjuntos possveis de tuplas formadas por elementos de .

    7

  • 5/26/2018 Aprendizagem de Ontologias a Partir de Textos

    10/22

    Figura 2.2: Ontologia Exemplo e Todas Instancias

    As instanciacoes de conceitos sao:

    () := Mateus, Lucas, Joao () := Maria, Rita, Ines () := Lobo, Sultao () := Pitucha, Huli

    8

  • 5/26/2018 Aprendizagem de Ontologias a Partir de Textos

    11/22

    As instanciacoes de relacoes sao:

    ( ) := (Mateus,Lucas), (Lucas,Joao),(Lobo,Sultao)

    ( ) := (Maria,Rita), (Rita,Ines),

    (Pitucha,Huli)( ) := (Mateus,Joao), (Joao,Maria),

    (Rita,Joao) ( ) := (Mateus,Rita) ( ) := (Ines,Joao) ( ) := (Mateus,Sultao), (Maria,Pitucha),

    (Maria,Lobo), (Ines,Huli)

    As intanciacoes de atributos sao:

    () := (, 65),

    (, 43),(, 22),(, 56),(, 30),(, 21),(, 6),(, 3),(, 8),(, 5)

    2.3 Extensoes

    Aplicandose a uma ontologia instanciada por uma base de conhecimentos e levandoseem consideracao um sistema de axiomas e possvel popular esta definicao com instanciacoesadicionais decorrentes do semireticulado , da ordem parcial e da aplicacao dos axiomas. Estas extensoes sao definidas como, para conceitos ,, para relacoes e , para atributos .

    Considerando o exemplo apresentado, decorre do semireticulado :

    := Mateus, Lucas, Joao,Maria, Rita, Ines

    := Lobo, Sultao,Pitucha, Huli

    := Mateus, Lucas, Joao,Maria, Rita, Ines,Lobo, Sultao,Pitucha, Huli

    9

  • 5/26/2018 Aprendizagem de Ontologias a Partir de Textos

    12/22

    Decorre dos axiomas de simetria:

    := (Joao,Mateus),(Maria,Joao),(Joao,Rita)

    := (Lucas,Mateus),(Joao,Lucas),(Sultao,Lobo)

    := (Rita,Maria),(Ines,Rita),(Huli,Pitucha)

    := (Joao,Ines) := (Rita,Mateus) := (Sultao,Mateus),

    (Pitucha,Maria),(Lobo,Maria),

    (Huli,Ines)

    Decorre do axioma que define o subconceito :

    := Joao

    Decorre da ordem parcial :

    := (Mateus,Lucas),(Lucas,Joao),(Lobo,Sultao),

    (Maria,Rita),(Rita,Ines),(Pitucha,Huli),(Lucas,Mateus),(Joao,Lucas),(Sultao,Lobo),(Rita,Maria),(Ines,Rita),(Huli,Pitucha)

    Consideradas todas as instanciacoes e as extensoes apresentadas ficam definidos os indivduos e seus respectivos conceitos, relacoes e atributos conforme descrito na Tabela 2.1.

    10

  • 5/26/2018 Aprendizagem de Ontologias a Partir de Textos

    13/22

    Indivduo Conceitos Relacoes Atributos

    Mateus (Lucas) (65) (Joao) (Lucas)

    (Rita)

    (Sultao)Lucas (Joao) (43)

    (Mateus)

    (Joao) (Mateus)

    Joao (Lucas) (22)

    (Ines) (Mateus)

    (Maria)

    (Rita)

    (Lucas)

    Maria (Rita) (56) (Joao)

    (Rita) (Pitucha) (Lobo)

    Rita (Lucas) (30) (Mateus) (Joao)

    (Lucas)

    Ines (Joao) (21) (Huli)

    Lobo (Sultao) (6) (Sultao) (Maria)

    Sultao (Lobo) (3)

    (Pitucha) (Lobo)

    (Pitucha)

    (Mateus)

    Pitucha (Sultao) (8) (Huli)

    (Sultao) (Huli) (Maria)

    Huli (Pitucha) (5)

    (Pitucha) (Ines)

    Tabela 2.1: Instanciacao e Extensoes da Ontologia Exemplo

    11

  • 5/26/2018 Aprendizagem de Ontologias a Partir de Textos

    14/22

    Captulo 3

    Aprendizagem de Ontologias a partir

    de Textos

    O processo de aprendizagem de ontologia a partir de textos segundo [11] e composto de oitoetapas seguidas da populacao da ontologia. No entanto para facilitar o entendimento, nesserelatorio optouse por aglutinar estas tarefas em 5 grupos:

    extracao de termos: este grupo trata das tarefas de extracao lexica de termos e definicaode sinonimos definida em [11];

    definicao de conceitos: neste grupo estao as tarefas responsaveis pela definicao deque elementos vao compor o conjunto e o semireticulado superior conforme adefinicao formal da secao anterior;

    definicao de relacoes e atributos: neste grupo encontrase as tarefas que definem os

    elementos de e , bem como as funcoes e e a ordem parcial ;

    instanciacao de axiomas: este grupo e composto pelas tarefas de instanciacao de axiomas (conjunto ) e sua representacao em uma linguagem logica ();

    populacao de ontologias: este grupo e composto pelas tarefas de instanciacao de conceitos e relacoes a partir de textos, ou seja, criar a base de conhecimentos conformea definicao formal da secao anterior.

    3.1 Extracao de Termos

    A tarefa de extracao de termos e o ponto de partida para a Aprendizagem de Ontologiasa partir de Textos. Portanto, ha necessidade de cuidado redobrado nesta etapa para naocomprometer a qualidade das etapas seguintes. Esta tarefa consiste em estabelecer umconjunto de termos relevantes com significado para um determinado domnio. Um termoe uma palavra ou conjunto de palavras que possui uma semantica associada ao domniode interesse. Usualmente, a extracao de termos esta baseada em metodos de recuperacao

    12

  • 5/26/2018 Aprendizagem de Ontologias a Partir de Textos

    15/22

    de informacao atraves de indexacao de termos [29], ou em metodos de Processamento deLinguagem Natural [4].

    Esses metodos, em sua maioria, utilizam tecnicas estatsticas para o processamento deextracao de termos, alem de estabelecer os termos estes devem ser associados segundo suasemantica em sinonimos. Sinonimos sao termos que podem ser empregados com pelo menos

    um significado equivalente, sem necessariamente serem sinonimos perfeitos. Por exemplo,apesar de cachorro e melhor amigo do homem serem termos diferentes, em determinadoscontextos podem ser empregados como sinonimos.

    A entrada desta etapa e um conjunto de textos, o resultado intermediario e uma lista determos e o resultado final e uma lista de conjuntos de termos que possuem para o domnioescolhido uma semantica equivalente entre si.

    3.2 Definicao de Conceitos e Hierarquia

    A tarefa de identificacao de conceitos esta baseada na busca de similaridade semantica entre os termos de um contexto. Nesse sentido, a busca de similaridade semantica se tornasemelhante a indetificacao de sinonimos.

    No caso de identificacao de sinonimos, procurase termos diferentes que podem ser substitudos sem alteracao de significado. Por exemplo, em um determinado contexto o termocachorro pode ser substitudo pelo termo cao. Para identificacao de conceitos buscasetermos que tambem sao utilizados de maneira similar, porem sua substituicao muda o significado no contexto. Por exemplo, os termos cachorro e gato fazem parte de um mesmoconceito (animais) mas nao sao sinonimos.

    Entre as tecnicas de extracao de conceitos podese observar tres diferentes abordagens:

    abordagem baseadas em agrupamento que consideram grupos (cluster) de termos relacionados como conceitos [19, 24, 28].

    tecnicas de reducao de dimensoes que revelam conexoes inerentes entre palavras quelevam a formacao de grupos [32, 21].

    abordagem de um ponto de vista extensional, ou seja, apartir de alguns conceitos dadosse estende suas definicoes para novos conceitos atraves de interpretacao composicional[13, 12, 35].

    A inducao de uma hierarquia entre os conceitos detectados segue um de tres paradigmas:

    busca de padroes lexicosintaticos que explora a extrutura interna de frases nominaispara extracao de relacoes taxonomicas. Ainda que bastante precisa, essa tecnica tempouca aplicabilidade, pois, tais padroes nao sao encontrados com frequencia [5].

    algoritmos de agrupamento hierarquico baseado na hipotese distribuicional de Harris.Neste caso, a busca de hierarquia e frequentemente concatenada com a deteccao deconceitos tambem feita por agrupamento [8, 3, 14].

    13

  • 5/26/2018 Aprendizagem de Ontologias a Partir de Textos

    16/22

    analise de coocorrencia de termos que busca a hierarquia de acordo com a coocorrenciade termos na mesma sentenca, paragrafo ou documento. Por exemplo, um termo 1 emais especfico que um termo 2 se 2 aparece em todos documentos nos quais aparece1 e o contrario nao e verdade [30].

    3.3 Definicao de Relacoes e Atributos

    A definicao de relacoes e atributos tem como objetivo encontrar conceitos em que possuemuma relacao ontologica nao taxonomica entre eles. No caso do conjunto de relacoes ()buscase uma relacao nao taxonomica entre dois ou mais conceitos, por exemplo, entre doisseres vivos existe uma relacao de parentesco. No caso de atributos (), buscase uma relacaoentre um conceito e um valor de um tipo de dado definido ( ), por exemplo, um ser vivotem uma idade que e um valor numerico pertencente a .

    Uma vez definidas as relacoes e atibutos, e necessario definir seus nomes correspondes de

    acordo com as ocorrencias do corpus. Por exemplo, a relacao de parentesco pode ser chamada , enquanto o atributo de idade sera simplesmente . Em seguida e necessariodeterminar o nvel correto de abstracao de acordo com a hierarquia para estabelecer odomnio e intervalo de cada relacao , bem como as informacoes correspondentes para osatributos . Finalmente, e preciso identificar as possveis hierarquias entre as relacoes,ou seja, a ordem parcial .

    Determinar as relacoes e uma das mais complexas dentre as tarefas de construcao deontologias a partir de textos. Poucas abordagens foram empregadas com este proposito eseu sucessso e discutvel. Dentre elas citase o trabalho de Madche e Staab [34] que baseiasenuma variante do algoritmo de extracao de regras de associacao que procura a coocorrenciade termos em setencas [11]. O trabalho de Ciaramita et alli [7] segue a mesma linha respeitando a hierarquia de conceitos e baseandose em dependencias sintaticas encontradasno texto. No entanto, esses trabalhos, segundo Cimiano, sao apenas abordagens superficiaisque estao distantes de prover uma solucao satisfatoria para a definicao de relacoes e atributosa partir de texto.

    3.4 Instanciacao de Axiomas

    Para a definir os axiomas de uma ontologia, se assume a existencia de um conjunto deaxiomasque possui definicoes usuais como por exemplo, disjuncao de conceitos e simetria

    de relacoes. Desta forma, a tarefa a ser feita consiste em instanciar esses axiomas de descobrindo a partir do contexto, por exemplo:

    que conceitos sao disjuntos: Haase e Volker [17] propoem uma abordagem que procuratermos coordenados e experessoes como homens e mulheres que indicam umaprovavel disjuncao destes conceitos. Notase que disjuncoes nao ocorrem necessariamente com apenas um par de conceitos, por exemplo, uma expressao peixes, caes egatos pode indicar que estes tres conceitos sao disjuntos.

    14

  • 5/26/2018 Aprendizagem de Ontologias a Partir de Textos

    17/22

    que relacoes sao simetricas: Lin e Pantel [23] propoem uma abordagem que analisasimilaridade em caminhos de arvores de dependencias que possam sugerir simetriasde relacoes, ou seja, um certo numero de inversoes em domnios e intervalos entreduas relacoes pode indicar uma simetria como, por exemplo, nas funcoes e

    da ontologia da secao anterior.

    No que diz respeito a outros axiomas alem dos usuais, ou seja, restricoes especficas a cadaontologia individualmente, pouco pode ser feito com as tecnologias atuais, pois esta e a areamenos pesquisada no que diz respeito a aprendizagem de ontologias [11]. A busca deste tipode axioma e ao mesmo tempo complexa e relativamente de rara aplicacao, pois nao e frequenteencontrar este tipo de restricoes em ontologias. Os poucos trabalhos aproximativos nestaarea foram feitos por Shamsfard e Barforoush [33] tentando derivar axiomas de expressoescondicionais quantificadas e Lavrac e Dzeroski [22] buscando aplicar programacao logicaindutiva a grandes conjuntos de dados de treino.

    3.5 Populacao de Ontologias

    A tarefa de popular ontologias a partir de textos consiste em instanciar conceitos, relacoese atributos por meio de tarefas de reconhecimento de entidades nomeadas [11], ou seja,construir a base de conhecimentos conforme a definicao formal da secao anterior.

    Enquanto instanciar relacoes e atributos em um corpus e uma tarefa muito difcil querequer conhecimento completo da linguagem natural, e portanto esta alem da fronteira tecnologica atual, a instaciacao de conceitos tem sido proposta com relativo sucesso por diversaspesquisas na area. Intuitivamente, esta maior dificuldade de detectar relacoes ao inves deconceitos faz sentido. Por exemplo na ontologia proposta na Secao 2, e mais facil depreender

    de um texto quem sao os homens, quem sao as mulheres e quem sao os cachorros, do que asrelacoes que existem entre eles.

    Ainda que somente a instaciacao de conceitos seja viavel no momento, seus objetivostem sido modestos. A maioria dos trabalhos busca classificar entidades nomeadas sobre umconjunto finito, conhecido e, frequentemente, pequeno de conceitos. Sao exemplos os trabalhos de Hirshman e Schinchor [20] que instanciam apenas tres conceitos: pessoas, localidadese organizacoes; e de Fleischman e Hovy [15] que instanciam oito classes: atletas, polticos,religiosos, empresarios, artistas, cientistas e policiais.

    Porem, alguns trabalhos sao mais ambiciosos ao tentarem classificar numeros maioresde conceitos, como e o caso de Hahn e Schnattinger [18] que classificam entidades em 325

    conceitos e Alfonseca e Manandhar [1] que classificam sobre 1200 conjuntos de sinonimos.Mais ambicioso ainda e o trabalho de Evans [13] que faz ao mesmo tempo a deteccao dosconceitos e sua instanciacao ao mesmo tempo, ou seja, este trabalho nao parte de um conjuntoconhecido de conceitos.

    Finalmente, Cimiano [11] propoe duas metodologias de instanciacao de conceitos: Populacao baseada em corpus: uma metodologia que parte de uma hierarquia de con

    ceitos predefinida que contem um grande numero de conceitos (da ordem de centenas). Esta aboradgem calcula medidas de similaridade e, segundo o autor, funciona

    15

  • 5/26/2018 Aprendizagem de Ontologias a Partir de Textos

    18/22

    de forma independente do corpus utilizado. Esta abordagem mais proxima de tecnicastradicionais foi proposta por Cimiano e Volker [9].

    Aprendizado porGoogling: uma metodologia moderna que a partir de um conjunto depadroes independente de domnio busca classificar entidades contidas em um texto a

    partir de resultados obtidos no Google para estas entidades. Esta abordagem baseiasena ideia de que o conhecimento global sobre um termo (expresso pela busca no Google)supera o conhecimento individual que possa ser ter sobre este termo. Esta forma declassificacao esta disponvel no sistema CPANKOW [10].

    16

  • 5/26/2018 Aprendizagem de Ontologias a Partir de Textos

    19/22

    Captulo 4

    Conclusao

    O objetivo deste relatorio foi tracar um panorama das tecnicas disponveis para aprendizadode ontologias a partir de texto.

    Uma das conclusoes naturais ao final desta revisao bibliografica e o fato indiscutvel queesta area ainda apresenta muitos desafios e uma quantidade enorme de questoes em aberto.Apesar disso, muitas pesquisas tem sido feitas e a compreensao de cada uma delas e umtrabalho futuro bastante grande devido a complexidade das tecnicas envolvidas. Notaveltambem e a grande variedade das abordagens na area que vai desde trabalhos baseados emestudos sociais, como e o caso da abordagem de aprendizagem por Googling [10], ate trabalhos completamente baseados em logica induditiva, como e o caso de deteccao de axiomasgerais [22].

    Um trabalho futuro igualmente necessario consiste em observar outras tecnicas praticasaplicadas na extracao de termos como o trabalho de Bourigault e Lame [4] sobre textosjurdicos em frances e metodos estatsticos sofistificados baseados em amostragem como otrabalho de Baroni e Bernardini [2] que propoe um metodo sofisticado chamado BootCat.Alem destes, outros trabalhos semelhantes podem ser includos, pois, como foi dito, esta areaainda carece de muitas pesquisas e muito precisa ser pesquisado.

    17

  • 5/26/2018 Aprendizagem de Ontologias a Partir de Textos

    20/22

    Referencias Bibliograficas

    [1] ALFONSECA , E.; MANANDHAR, S. Extending a lexical ontology by a combination ofdistributional semantics signatures. In Proceedings of the 13th International Conferenceon Knowledge Engineering and Knowledge Management (EKAW), pp. 17, 2002.

    [2] BARONI, M.; BERNADINI, S. BootCaT: Bootstrapping Corpora and Terms from theWeb. In Proceedings of the 4th International Conference on Language Resources and

    Evaluation (LREC), pp.13131316, 2004.

    [3] BISSON, G.; NEDELLEC, C; CANAMERO, L. Designing clustering methods for ontology building The MoK workbench. In Proceedings of the ECAI Ontology LearningWorkshop, 2000.

    [4] BOURIGAULT, D.; LAME, G. Analyse distributionnelle et structuration de terminologie Application a la construction dune ontologie documentaire du Droit, TAL, 431,pp. 122, 2002.

    [5] BUITELLAAR, P.; OLEJNIK, D.; SINTEK, M. A Protege plugin for ontology extraction from text based on linguistic analysis. In Proceedings of the 1st European SemanticWeb Simposium (ESWS), 2004.

    [6] BUITELAAR, P.; CIMIANO, P.; MAGNINI, B. Ontology learning from text: Anoverview. In: Buitelaar, P.; Cimiano, P.; and Magnini, B. (Ed.). Ontology Learningfrom Text: Methods, Evaluation and Applications, v. 123 of Frontiers in Artificial Intelligence and Apllications. IOS Press, 2005.

    [7] CIARAMITA, M.; GANGEMI, A.; RATSCH,E.; SARIC, J.; ROJAS, I. Unsupervisedlearning of semantic relations between concepts of molecular biology ontology. In Proceedings of the 19th International Joint Conference on Artificial Intelligence (IJCAI),2005.

    [8] CIMIANO, P.; HOTHO,A.; STAAB,S. Comparing conceptual, divisive and agglomerative clustering for learning taxonomies from text. In Proceedings of the EuropeanConferenc on Artificial Intelligence (ECAI), 2004.

    [9] CIMIANO, P.; HOTHO,A.; STAAB,S. Learning concept hierarchies from text corporausing formal concept analysis. Journal of Artificial Intelligence Research (JAIR), v. 24,pp. 305339, 2005.

    18

  • 5/26/2018 Aprendizagem de Ontologias a Partir de Textos

    21/22

    [10] CIMIANO, P.; LADWIG,G.; STAAB,S. Gimme the contxt: Contextdriven automaticsemanti annotation with CPANKOW. In Porceedings of the 14th Word Wide WebConference (WWW), pp. 332341, 2005.

    [11] CIMIANO, P. Ontology Learning and Population from Text Algorithms, Evaluation

    and Applications. Springer, 2006.

    [12] ETZIONI, O.; CAFARELLA, M.; DOWNEY, D.; POPESCU, A.M.; SHAKED, T.;SODERLAND, S.; WELD, D.; YATES,A. Methodsfor domainindependent informationextraction from the web: An experimental comaprison. In Proceedings of the 19thNational Conference on Artificial Intelligence (AAAI), 2004.

    [13] EVANS,R. A framework for named entity recognition in the open domain. In Proceedings of the International Conference on Recent Advances in Natural Language Processing (RANLP), 2003.

    [14] FAURE, D.; NEDELLEC, C. A corpusbased conceptual clustering method for verbframes and ontology. In Velardi, P., editor, Proceeding of the LREC Workshop onAdapting lexical and corpus resources to sublanguages and applications, 1998.

    [15] FLEISCHMAN, M.; HOVY, E.Fine grained classification of named entities. In Proceedings of the 19th International Conference on Computational Linguistics (COLING), pp.17, 2002.

    [16] GRUBER, T. Toward principles for the design of ontologies used knowledge sharing. InFormal Analysis in Conceptual Analysis and Knowledge Representation. Kluwer, 1993.

    [17] HAASE, P.; VOLKER, J. Ontology learning and reasoning dealing with uncertaintyand inconsistency. In Proceedings of the Workshop on Uncertainty Reasoning of theSemantic Web (URSW), pp 4555, 2005

    [18] HAHN, U.; SCHNATTINGER, K. Ontology engineering via text understanding. InProceedings of the 15th IFIP World Computer Congress, pp. 429442, 1998.

    [19] HINDLE, D. Noun Classification from predicateargument structures. In Proceedingsof the Annual Meeting of the Association for Computational Linguistics (ACL), 1990.

    [20] HIRSCHMAN, L.; CHINCHOR, N. Muc7 named entity task definition. In Proceedingsof the 7th Message Understanding Conference (MUC7), 1997.

    [21] LANDAUER, T.; DUMAIS, S. Asolution to platos problem: The latent semantic analysis theory of acquisition, induction and representation of knowledge. PsychologicalRewiew, v. 104, pp. 211240, 1997.

    [22] LAVRAC, N.; DZEROSKI, S. Inductive Logic Programming: Techiniques and Applications. Ellis Horwood, 1994.

    19

  • 5/26/2018 Aprendizagem de Ontologias a Partir de Textos

    22/22

    [23] LIN, D.; PANTEL, P. DIRT discovery of inference rules from text. In Proceedings ofthe ACM SIGKDD Conference on Knowlwdge Discorevy and Data Mining, pp. 323328,2001.

    [24] LIN, D.; PANTEL, P. Concept discovery from text. In Proceedings of the International

    Conference on Computacional Linguistics (COLLING), 2002.

    [25] MADCHE, A.; STAAB, S. Semiautomatic Engineering of Ontologies from Text. In:Proceedings of the 12th Intenational Conference on Software Engineering and Knowledge

    Engineering, 2000.

    [26] MADCHE, A.; STAAB, S. Ontology learning for the semantic web. IEEE IntelligentSystems, v. 16, nr. 2, pp. 7279, 2001.

    [27] MITCHELL, T. Machine Learning. McGrawHill, 1997.

    [28] REINBERGER, M.; SPYNS,P. Unsupervised text mining for the learning of dogmainspired ontologies. In Ontology Learninf from Text: Methods, Applications and Evaluation, 123 in Frontier in Artificial Intelligence and Applications, IOS Press, 2005.

    [29] SALTON, G.; SINGHAL, A.; MITRA, M.; BUCKLEY, C. Automatic text structuringand summarization. Information Processing and Management, v. 33, nr. 2, pp. 193207,Elsevier, March 1997.

    [30] SANDERSON, M.; CROFT,B. Deriving concept hierarchies from text. In Proceedingsof the SIGIR Conference on Research and Development in Information Retrieval, pp.206213, 1999.

    [31] SHUTZE, H.; BUITELAAR, P. RealExt: A tool for relation extraction from text inontology extension. In Proceedings of the International Semantic Web Conference, pp.593606, 2005.

    [32] SHUTZE, H. Word space. In Advances in Neural Information Processings Systems 5,pp. 895902, 1993.

    [33] SHAMSFARD, M.; BARFOROUSH, A. Learning ontologies from natural languagetexts. HumanComputer Studies, v. 60(1), PP. 1763, 2004

    [34] STAAB,S.; ERDMANN, E.; MADCHE, A. Engineering ontologies using semantic pat

    terns. In Proceedings of the IJCAI Workshop on EBusiness and Intelligent Web, 2001.

    [35] VELARDI, P.; NAVIGLI, R.; CUCHIARELLI, A.; NERI,F. Evaluation onf OntoLearn,a methodology for automatic population of domain ontologies. In Ontology Learningfrom Text: Methods, Aplications and Evaluation, nr. 123 in Frontiers in Artificial Intelligence an Applications, pp. 92106, IOS Press, 2005.

    20