12
Aquisição de Relações Semânticas a partir de Textos da Wikipédia Wellington Franco¹, Vládia Pinheiro², Marcelino Pequeno¹, Vasco Furtado² 1 Departamento de Computação Universidade Federal do Ceará Campus do Pici 60455-760 Fortaleza CE Brasil 2 Laboratório de Engenharia do Comhecimento Universidade de Fortaleza Av. Washington Soares, 1321 60811-905 Fortaleza, CE Brasil {jwellingtonfranco,marcel}@lia.ufc.br, {vladiacelia,vasco}@unifor.br Abstract. In this paper we propose a method for acquiring semantic relations between concepts from the text of Wikipedia documents, which makes use of an existing implicit knowledge in hypermedia systems: links between articles. The main distinguishing feature of the proposed method is independent of pre-defined regular expressions, using links to define the arguments of relations and identifying redundant relations. The evaluation per 100 thousand Wikipedia articles demonstrated the feasibility of the proposed method and the results outperformed the state of the art. Resumo. Neste artigo propomos um método para aquisição de relações semânticas entre conceitos, a partir do texto de documentos da Wikipédia, que faz uso de um conhecimento implícito existente em sistemas hipermídia: os links entre artigos. O principal diferencial do método proposto é a independência de expressões regulares pré-definidas, o uso de links para definição dos argumentos das relações e a identificação de relações redundantes. A avaliação realizada em 100 mil artigos da Wikipédia demonstrou a viabilidade do método proposto e os resultados suplantaram o estado da arte. 1 Introdução Um dos desafios das pesquisas da área de Processamento de Linguagem Natural (PLN) é prover recursos semântico-linguísticos que expressem conhecimento de mundo. Desafio ainda maior quando consideramos a língua portuguesa [Pardo, Caseli e Nunes 2009]. Segundo [Kay 2005, p.19], há o consenso de que a compreensão de textos por

Aquisição de Relações Semânticas a partir de Textos da ... · há uma relação entre o artigo corrente e o outro artigo referenciado pelo link. O método proposto objetiva capturar

  • Upload
    hakhue

  • View
    214

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Aquisição de Relações Semânticas a partir de Textos da ... · há uma relação entre o artigo corrente e o outro artigo referenciado pelo link. O método proposto objetiva capturar

Aquisição de Relações Semânticas a partir de

Textos da Wikipédia

Wellington Franco¹, Vládia Pinheiro², Marcelino Pequeno¹, Vasco

Furtado²

1Departamento de Computação – Universidade Federal do Ceará –

Campus do Pici – 60455-760 – Fortaleza – CE – Brasil

2Laboratório de Engenharia do Comhecimento – Universidade de

Fortaleza – Av. Washington Soares, 1321 – 60811-905 – Fortaleza, CE

– Brasil

{jwellingtonfranco,marcel}@lia.ufc.br,

{vladiacelia,vasco}@unifor.br

Abstract. In this paper we propose a method for acquiring

semantic relations between concepts from the text of

Wikipedia documents, which makes use of an existing implicit

knowledge in hypermedia systems: links between articles. The

main distinguishing feature of the proposed method is

independent of pre-defined regular expressions, using links to

define the arguments of relations and identifying redundant

relations. The evaluation per 100 thousand Wikipedia articles

demonstrated the feasibility of the proposed method and the

results outperformed the state of the art.

Resumo. Neste artigo propomos um método para aquisição

de relações semânticas entre conceitos, a partir do texto de

documentos da Wikipédia, que faz uso de um conhecimento

implícito existente em sistemas hipermídia: os links entre

artigos. O principal diferencial do método proposto é a

independência de expressões regulares pré-definidas, o uso de

links para definição dos argumentos das relações e a

identificação de relações redundantes. A avaliação realizada

em 100 mil artigos da Wikipédia demonstrou a viabilidade do

método proposto e os resultados suplantaram o estado da

arte.

1 Introdução

Um dos desafios das pesquisas da área de Processamento de Linguagem Natural (PLN)

é prover recursos semântico-linguísticos que expressem conhecimento de mundo.

Desafio ainda maior quando consideramos a língua portuguesa [Pardo, Caseli e Nunes

2009]. Segundo [Kay 2005, p.19], há o consenso de que a compreensão de textos por

Page 2: Aquisição de Relações Semânticas a partir de Textos da ... · há uma relação entre o artigo corrente e o outro artigo referenciado pelo link. O método proposto objetiva capturar

sistemas computacionais depende tanto de conhecimento de mundo como de

conhecimento linguístico. A geração de uma base de conhecimento completa,

consistente e correta, para o conhecimento genérico próprio ao senso comum representa

um desafio ainda maior do que quando lidamos com o conhecimento circunscrito a um

domínio específico.

Uma solução promissora é utilizar a Wikipédia como fonte de conhecimento

devido a confiabilidade, dinamicidade e abrangência de seu conteúdo. A Wikipédia é

uma enciclopédia multilíngue, colaborativa e com qualidade editorial comparável às

enciclopédias tradicionais [Kittur and Kraut, 2008]. Em português, a Wikipédia possui

cerca de 760 mil artigos. Muitos trabalhos propõem abordagens para aquisição de

conhecimento que utiliza a informação estruturada da Wikipédia, como os infoboxes e a

árvore de categorias [Auer and Lehmann 2007, Suchanek et al. 2008], porém o

conteúdo conceitual descrito em forma textual na enciclopédia não é capturado.

Métodos e técnicas para extração de informações de textos de documentos poderiam ser

adaptadas para extrair conhecimento dos artigos da Wikipédia. As técnicas mais

proeminentes são aprendizado de máquina [Wu and Weld 2010] e casamento de padrões

de expressões regulares [Stoutenburg et al. 2009]. O ReVerb [Fader et al. 2011], em

particular, propõe o uso de restrições léxicas, expressões regulares, e um conjunto de

features, para suplantar problemas como extração de relações pouco informativas,

irrelevantes e incoerentes. No entanto, ReVerb baseia-se na definição de features

através de aprendizagem supervisionada (portanto, necessita de um processo manual de

anotação de um conjunto de treinamento), e não identifica relações redundantes.

Neste trabalho nos propomos a superar esses obstáculos, Apresentamos um

método para aquisição de relações semânticas entre conceitos, a partir do texto de

documentos da Wikipédia, que faz uso de um conhecimento implícito existente na

Wikipédia e em sistemas hipermídia: os links entre artigos. Ao longo do texto descritivo

de um artigo da Wikipédia aparecem links para outros artigos que são evidências de que

há uma relação entre o artigo corrente e o outro artigo referenciado pelo link. O método

proposto objetiva capturar a relação semântica expressa entre os artigos, o corrente e o

artigo chamado por um link, identificando relações similares através de uma medida de

similaridade semântica.

O artigo está organizado como descrito a seguir. Na seção 2, comentamos os

trabalhos relacionados existentes. Na seção 3, descrevemos o método de aquisição de

relações semânticas proposto. Na seção 4, apresentamos a avaliação realizada em uma

base de 100 mil artigos da Wikipédia e os resultados obtidos. Por fim, na seção 5,

concluímos este trabalho e discutimos algumas possibilidades para futuro

desenvolvimento.

2 Trabalhos Relacionados

Trabalhos para aquisição de conhecimento a partir da Wikipédia podem ser

divididos em dois grupos. No primeiro grupo, abordagens utilizam a estrutura da

Wikipédia como fonte de informação (p.ex. infoboxes e a árvore de categorias). A

principal desvantagem destes trabalhos é que desconsideram o conteúdo nos textos dos

artigos da Wikipédia como fonte de conhecimento. Os trabalhos a seguir são

representativos deste primeiro grupo.

A DBPedia1 é uma base semântica construída a partir da Wikipédia que

disponibiliza na Web o seu conteúdo através do formato Resource Description

1 http://wiki.dbpedia.org/About

Page 3: Aquisição de Relações Semânticas a partir de Textos da ... · há uma relação entre o artigo corrente e o outro artigo referenciado pelo link. O método proposto objetiva capturar

Framework (RDF) [Beckett and McBride 2004]. O método de aquisição de

conhecimento utilizado neste projeto realiza a extração a partir do Infobox da

Wikipédia. Por exemplo, o infobox de um país traz informações como: população,

extensão geográfica, localização, etc. Na DBPedia o conceito Brasil tem a propriedade

PopulatedPlace/areaTotal, cujo valor é extraído do respectivo infobox. O projeto YAGO

[Suchanek et al. 2008] consistiu na construção automática de uma base de

conhecimento pela combinação das categorias e infoboxes da Wikipédia com as

relações taxonômicas da WordNet [Miller 1995]. Cada synset da WordNet é uma classe

na base Yago, e a hierarquia entre categorias da Wikipédia corresponde a relação de

hiperonímia na WordNet. Por exemplo, na Wikipédia tem-se a categoria “Povo norte-

americano no Japão”, a qual é associada como subClassOf da classe Pessoa da

WordNet. [Miller 1995] construiu um extrator de conceitos utilizando a estrutura da

Wikipédia. [Xavier and de Lima 2012] utiliza as categorias da Wikipédia para a

extração de novos conceitos, e os links entre conceitos da mesma categoria ou sub-

categoria para extração de relações genéricas do tipo “relacionado a”.

No segundo grupo estão as abordagens que exploram o conteúdo textual dos artigos

e os links existentes entre eles como fonte de informação. Semantic Wiki [Völkel et al.

2006] é uma extensão da Wikipédia que descreve semanticamente as ligações entre

artigos e seus links. Por exemplo, no artigo sobre a cidade de Londres tem-se o seguinte

texto: Londres é a capital da Inglaterra e do Reino Unido2, e o Semantic Wiki anota a

relação semântica ao lado do link: Londres é a capital da [[capital of::Inglaterra]] e do

[[capital of::Reino Unido]]. [Stoutenburg et al. 2009] propõe a extração de relações

entre links de artigos utilizando expressões regulares para detectar seis tipos de relações:

isA, partOf, bornOnDate, diedOnDate, bornIn e locatedIn. A definição de expressões

regulares para um conjunto restrito de relações, obviamente são adequadas para fins

específicos e, embora apresente boa precisão (em torno de 80%), possui baixa cobertura

de tipos de relações semânticas.

Wikipedia-based Open IE (WOE) [Wu and Weld 2010] propõe a extração

automática de relações do tipo (arg1, relacao, arg2) utilizando técnicas de aprendizado

supervisionado em um conjunto de exemplos etiquetados manualmente. Embora não

restrinja o conjunto de relações semânticas a serem extraídas, apresentam em torno de

36% de relações pouco informativas ou incoerentes. ReVerb [Fader et al. 2011] também

é um sistema aberto para extração de informações (Open IE System), pois não requer

um vocabulário pré-especificado. ReVerb propõe um conjunto de expressões regulares e

restrições lexicais visando reduzir a extração de relações pouco informativas,

irrelevantes e incoerentes, como as geradas por WOE. Nele pode-se definir três

expressões regulares para sintagmas verbais: (i) um verbo; (ii) um verbo seguido

imediatamente de uma preposição; (iii) um verbo seguido de nomes, adjetivos,

advérbios, e finalizando com uma preposição. Por exemplo, a partir da sentença de

entrada Hudson was born in Hampstead, which is a suburb of London, ReVerb extrai as

seguintes relações (Hudson, was born in, Hampstead) e (Hampstead, is a suburb of,

London). A aplicação pura de padrões sintáticos pelo ReVerb faz com que seu nível de

precisão seja baixo. Para melhorar este resultado, ReVerb adota 9 features ad hoc para

2 Os termos em negrito e sublinhados são links no artigo da Wikipédia

Page 4: Aquisição de Relações Semânticas a partir de Textos da ... · há uma relação entre o artigo corrente e o outro artigo referenciado pelo link. O método proposto objetiva capturar

definir uma função de confiança, aprendida por um classificador. Testes comparativos

entre o ReVerb, WOE e TextRunner [Yates et al. 2007] indicaram melhoria na curva de

precisão e cobertura. As principais desvantagens do ReVerb são a dependência de

expressões regulares pré-definidas, a necessidade de análise de features para a função

de confiança para outras línguas, exigindo um processo de anotação de corpus, além de

não identificar tipos de relações redundantes. [Speer and Havasi 2012] relatam que 65%

das extrações incorretas extraídas pelo ReVerb foram casos em que o mesmo não soube

identificar corretamente os argumentos da relação.

3 Método de Aquisição Automática de Relações Semânticas

Nesta seção detalhamos um método automático de extração de relações semânticas a

partir de textos em linguagem natural presentes nos artigos da Wikipédia. As relações

extraídas expressam um relacionamento semântico entre dois conceitos c1 e c2 e podem

ser representadas na forma (c1, relacao, c2).

O principal diferencial do método proposto é a independência de expressões

regulares pré-definidas, o uso de links para definição dos argumentos das relações e a

identificação de relações redundantes. Para além destas vantagens, o método proposto

não aplica técnicas de aprendizagem supervisionada, cuja necessidade de anotação de

corpus é sempre um gargalo para avanços nas pesquisas em PLN para língua

portuguesa. A figura 1 apresenta o método proposto com as seguintes etapas: Mineração

e Seleção de Sentenças, Clusterização de Sentenças, e Aquisição de Relações

Semânticas.

Figura1:Método de Aquisição Automática de Relações Semânticas.

3.1 Mineração e Seleção de Sentenças

O objetivo desta etapa é separar e analisar as sentenças do texto de entrada (documento

da Wikipédia), gerando um conjunto de sentenças candidatas. Na primeira atividade é

realizada a preparação do documento de entrada com a aplicação de regras e parâmetros

específicos, tais como: qual segmento do texto de entrada a ser processado,

delimitadores de trechos a serem descartados, escolha de um domínio específico, etc.

Essas regras são definidas e adaptadas pelo usuário do método. A figura 2 apresenta o

artigo Agricultura e em destaque o primeiro parágrafo do mesmo. Uma regra poderia

definir, por exemplo, que o primeiro parágrafo deve ser o segmento do texto a ser

processado, pois este, em geral, apresenta uma descrição sucinta do conceito

referenciado no artigo, contendo as informações mais relevantes. Outra regra poderia,

Page 5: Aquisição de Relações Semânticas a partir de Textos da ... · há uma relação entre o artigo corrente e o outro artigo referenciado pelo link. O método proposto objetiva capturar

por exemplo, definir que trechos de textos entre parênteses devem ser descartados. No

exemplo da Figura 2, não será descartado nenhum trecho do primeiro parágrafo, caso

esta última regra seja usada.

Figura 2. Screenshot do artigo Agricultura da Wikipédia em português com seu

primeiro parágrafo em destaque.

Na segunda atividade, é realizada a análise e extração de sentenças entre a

expressão que nomeia o artigo (o nome do artigo) e os links presentes no documento

preparado. Na Wikipédia, diversos links são inseridos ao longo do texto de um artigo,

os quais indiciam uma relação entre o artigo corrente e outro artigo referenciado pelo

link. Por exemplo, na Figura 2, no primeiro parágrafo do artigo Agricultura tem-se o

trecho ”Agricultura é o conjunto de técnicas utilizadas para cultivar plantas...” e a

existência dos links (sublinhados) técnicas e plantas, indiciam que há uma relação entre

Agricultura e estes conceitos, expressa pelo segmento de texto entre eles. Para extração

das sentenças, o texto é analisado por um POS tagger, que realiza a análise

morfossintática do texto, ou seja, a separação (tokenização) e classificação das palavras

e expressões (Part Of Speech) do texto. Em seguida, são extraídas sentenças do texto de

entrada no formato <artigo> <segmento_texto> <link>, onde:

<artigo> é a expressão que nomeia o artigo da Wikipédia, geralmente ocorre

no início do texto;

<segmento_texto> é o texto entre o artigo e um link, que expressa uma relação

entre <artigo> e <link>. As palavras são registradas em sua forma canônica;

<link> é a expressão marcada como um link para outro artigo da Wikipédia.

Por fim, são removidas as stop words de <segmento_texto>. Stop words são

palavras muito frequentes, que não possuem valor semântico, servindo apenas como

elementos estruturadores de uma sentença (tais como artigos, conjunções, etc) [Silva

and Ribeiro 2003]. Do texto acima, são extraídas as seguintes sentenças: (1)

<agricultura> <ser conjunto de> <técnica>; (2) <agricultura> <utilizar para cultivar>

<planta>.

Page 6: Aquisição de Relações Semânticas a partir de Textos da ... · há uma relação entre o artigo corrente e o outro artigo referenciado pelo link. O método proposto objetiva capturar

Na última atividade desta etapa, realiza-se a seleção de sentenças candidatas para

extração de relações semânticas. Critérios de seleção podem ser aplicados, tais como:

existências de verbos (obrigatório), substantivos comuns, advérbios, adjetivos, ou

preposições (opcionais) em <segmento_texto>; número limite de termos em

<segmento_texto>; <artigo> e/ou <link> não sejam nomes próprios. Por exemplo, a

restrição do número limite de termos advém do fato de que <segmento_texto> com um

número excessivo de termos, por exemplo 10 (dez), indica uma complexidade estrutural

na sentença que dificultaria o processo de aquisição de conhecimento. Por exemplo, a

sentença extraída “<Arqueologia> <incluir em campo de estudo intervenção fazer por

homem em> <meio ambiente>“ é complexa o suficiente para ser classificada.

3.2 Clusterização das sentenças

Nessa etapa do método, o objetivo é identificar grupos de sentenças similares usando

algoritmos de clusterização [Veyssieres and Plant 1998]. Nosso argumento é que

muitas tipos de relações semânticas são expressas por <segmento_texto> similares e

devem ser adquiridas como relações semânticas de mesmo tipo. Na atividade de geração

de clusters considera duas medidas de similaridade entre segmentos de texto

<segmento_texto> s1 e s2. A primeira é a medida sintática Sin(s1,s2), que calcula a

porcentagem de termos idênticos em s1 e s2, descartando-se as preposições. Por

exemplo, para s1=<transmitir por> e s2=<transmitir>, como a preposição “por” é

descartada de s1, Sin(s1,s2)=1 (ou 100%). A segunda medida utilizada é a medida semântica Sem(s1,s2) (1), que define o quão

dois segmentos de textos são semanticamente similares pela média ponderada do

somatório das similaridades semânticas entre conceitos de s1 e s2. A medida proposta é

independente de qualquer medida de similaridade semântica entre conceitos. Esta

independência é interessante devido ao método proposto poder ser aplicado a qualquer

base de conhecimento.

(1) Sem(s1, s2) =

Onde:

Ɵtj é o valor de similaridade semântica entre os conceitos representados pelos

termos de T1 e T2, onde:

tj = (t1, t2), tal que t1 ∈ T1 e t2 ∈ T2

T1 é o conjunto de termos de s1

T2 é o conjunto de termos de s2

T1 x T2: produto cartesiano entre termos da mesma classe gramatical

(substantivo x substantivo, verbo x verbo) de T1 e T2

qi é a quantidade de elementos de cada classe gramatical em T1 x T2, por

exemplo, quantidade de substantivos e de verbos.

Pi é o peso da i-ésima classe gramatical

Page 7: Aquisição de Relações Semânticas a partir de Textos da ... · há uma relação entre o artigo corrente e o outro artigo referenciado pelo link. O método proposto objetiva capturar

n é a quantidade de classes gramaticais em T1 x T2

Para exemplificar, sejam as seguintes sentenças candidatas “<mastigação> <obter>

<bolo alimentar>” e “<célula> <adquirir> <herança genética>”, com s1 = <obter> e s2

= <adquirir>. Aplicando os dados abaixo na fórmula (1), tem-se que Sem(s1,s2), = 95%.

T1 x T2 = { (obter, adquirir) }, pois T1 = {obter} e T2 = {adquirir}

q1 = 1, pois existe somente um par da classe gramatical verbo

P1 = 3, peso arbitrado para a classe gramatical dos verbos

n = 1, pois T1 e T2 possuem somente termos da classe gramatical dos verbos

Ɵtj = 95%, valor de similaridade entre “obter” e “adquirir” calculado pela

InferenceNet.

O algoritmo de clusterização de sentenças, apresentado a seguir, agrupa pares de

conceitos c1 e c2 relacionados por <segmento_texto> semanticamente similares a partir

de um valor de corte (p.ex. 95%) ou similaridade sintática = 100%.

3.3 Aquisição de relações semânticas

Na última etapa do método, o objetivo é a aquisição final de relações semânticas

da forma (c1, relacao, c2) para uma base de conhecimento B. A entrada desta etapa são

clusters Cli, cada um sendo identificado com um conjunto Si de <segmento_texto>

similares e contendo n pares de conceitos (ck,cl). Inicialmente, somente clusters com

mais de k pares de conceitos são pré-selecionados, pois representam tipos de relações

com muitos distintos argumentos. Em [Fader et al. 2011], experimentos mostraram que

k=20 é um valor ótimo para eliminar clusters com relações muito específicas.

O próximo passo é definir a relacaoi que melhor representa o conjunto Si de cada

cluster cli ∈ Cli. Como dito, o método proposto é independente de base

desconhecimento B, podendo, por exemplo, ser aplicado para bases como ConceptNet

[Speer and Havasi 2012], WordNet [Miller 1995] e InferenceNet [Pinheiro et al. 2010].

Todas estas propõem um conjunto finito e bem controlado de tipos de relações

semânticas. Por exemplo, a ConceptNet 5.0 [Speer and Havasi 2012] contém 54 tipos

Page 8: Aquisição de Relações Semânticas a partir de Textos da ... · há uma relação entre o artigo corrente e o outro artigo referenciado pelo link. O método proposto objetiva capturar

de relações, tais como: partOf, locationOf, motivationOf. O conjunto de tipos de

relações pré-definidas de B é utilizado como parâmetro desta atividade. Para o conjunto

Si de <segmento_texto> similares, é selecionado aquele sj ∈ Si com maior valor de

similaridade com algum tipo de relação semântica pré-definido de B. Ao final, para

cada cluster cli ∈ Cli, é definido relacaoi = sj. Por último, são geradas as relações

semânticas (ck, relacaoi, cl) para cada par de conceitos (ck,cl), contido em Cli.

Exemplificando, seja o seguinte cluster <localizar entre;localizar em;localizar

a;localizar;estar localizar em>. O <segmento_texto> = localizar possui o maior valor

de similaridade com o tipo de relação locationOf, pré-definido nas bases InferenceNet e

ConceptNet.

4 Avaliação

O objetivo da avaliação foi investigar (1) qual a qualidade do conteúdo extraído pelo

método proposto, ou seja, se as relações semânticas extraídas de fato contribuirão para

evolução de bases de conhecimento, e (2) se a identificação de relações redundantes

otimiza a quantidade de relações extraídas. Para esta avaliação, o método foi

implementado e aplicado para aquisição de relações para a base InferenceNet [Pinheiro

et al. 2010] e utilizou o parser FreeLing 3.0 [Padró and Stanilovsky 2012]. No entanto,

o método pode ser aplicado para outras bases de conhecimento e pode ser utilizado

outro analisador morfossintático para língua portuguesa. Para processamento da

Wikipédia em português utilizou-se a ferramenta WikipediaMiner [Milne and Witten

2012].

O InferenceNet [Pinheiro et al. 2010] contém relações semânticas de senso comum

e inferencialistas sobre conceitos e sentenças, expressos em língua portuguesa e língua

inglesa. InferenceNet é representada por uma rede semântica de conceitos interligados

por relações inferenciais que expressam as situações de uso dos conceitos. Esta rede

obedece à visão holística de que conhecer um conceito é conhecer suas relações, na

forma de premissas ou conclusões, com outros conceitos. Por exemplo, na rede

semântica do conceito “crime” tem-se, por exemplo, uma relação inferencial de pós-

condição (crime, efeitoDe, culpa).

A metodologia de avaliação contemplou os seguintes passos:

1. Seleção aleatória de 100 mil artigos da Wikipédia;

2. Execução do método proposto para aquisição de relações para base

InferenceNet. Os dados gerados, parâmetros, regras e ferramentas utilizadas

são descritos na Tabela 1;

3. Avaliação humana das relações semânticas extraídas. Desenvolvemos uma

aplicação Web que selecionava aleatoriamente 20 relações semânticas dentre

as 12.362 relações adquiridas neste experimento. As relações eram

apresentadas em linguagem natural para facilitar a leitura dos avaliadores.

Avaliadores humanos foram convidados a participar via e-mail ou redes

sociais e foram orientados sobre a metodologia de avaliação. Os avaliadores

eram homens e mulheres, com idade entre 20 e 50 anos. Para completar a

avaliação eles deveriam classificar as sentenças quanto a veracidade das

mesmas: “Verdadeira”, “Parcialmente Verdadeira”, “Eu não sei”, “Vaga ou

Parcialmente Falsa”, “Falsa.”.

4. Resultados foram coletados e analisados.

Page 9: Aquisição de Relações Semânticas a partir de Textos da ... · há uma relação entre o artigo corrente e o outro artigo referenciado pelo link. O método proposto objetiva capturar

Etapa do método Entrada Saída Parâmetros

Mineração e Seleção de Sentenças

100.000 artigos da Wikipédia

143.395 sentenças

33.985 sentenças

21.802 sentenças

- Somente 1

o.parágrafo

analisado

- Parser FreeLing

- Seleção de sentenças com V,N e PREP

- artigos/links de nomes comuns

- Sentenças com <= 3 termos

Clusterização de Sentenças

21.802 sentenças candidatas

287 clusters - SimSem da InferenceNet [Pinheiro et al.

2009]

Aquisição de Relações Semânticas

287 clusters

64 clusters

12.362 relações

- Seleção de clusters com >=20 elementos

Tabela 1. Dados gerados, parâmetros, regras e ferramentas utilizadas em cada etapa do

método.

Após 48h com a aplicação Web disponível, 80 avaliadores julgaram 1395 relações

semânticas distintas e 295 relações em duplicidade (relações avaliadas por mais de um

avaliador). Foram computados os somatórios de relações avaliadas em cada classe da

avaliação. Para as relações avaliadas por mais de um humano, foi contabilizada somente

a avaliação no pior caso. Como resultado, 76% das relações semânticas foram avaliadas

como “verdadeiras” ou “parcialmente verdadeiras”. Neste cômputo foram

desconsideradas as respostas da classe “Não sei”. Consideramos este resultado

promissor, pois suplantou o resultado médio do algoritmo ReVerb que obteve precisão

de 75%. Além disso, o método aqui proposto eliminou uma das principais causas de

incorretude do ReVerb – a identificação incorreta dos argumentos de uma relação. Isto

foi possível pelo uso da estrutura de links ao longo do artigo da Wikipédia como indício

de quais conceitos estão sendo, de fato, relacionados pelo texto.

Em outro experimento, foram gerados clusters somente pela igualdade sintática

entre dois <segmento_texto>, ou seja, eram considerados redundantes apenas quando os

<segmento_texto> eram idênticos. Esta abordagem é a mesma utilizada pelo ReVerb.

Neste caso, foram gerados 881 clusters e 94 destes com mais de 20 pares de conceitos

(argumentos) relacionados. Assim, apenas 5312 relações semânticas foram extraídas e

geradas para a base de conhecimento InferenceNet. A estratégia proposta neste trabalho

utiliza a similaridade semântica para identificar tipos de relações redundantes,

possibilitando que um número menor de clusters sejam formados e com clusters que

Page 10: Aquisição de Relações Semânticas a partir de Textos da ... · há uma relação entre o artigo corrente e o outro artigo referenciado pelo link. O método proposto objetiva capturar

relacionam mais pares de conceitos. Pela similaridade semântica, foram gerados 287

clusters e 64 com mais de 20 pares de conceitos (argumentos), gerando, assim, um

número maior de relações semânticas (12.362, conforme Tabela 1).

5 Conclusão

Neste trabalho propomos um método aberto para aquisição de conhecimento a partir de

textos dos artigos da Wikipédia. A revisão de trabalhos relacionados indicaram que as

técnicas mais proeminentes são aprendizagem de máquina, que exige a anotação de

corpus, casamento de padrões de expressões regulares e restrições lexicais. ReVerb, por

exemplo, define três expressões regulares para sintagmas verbais. A aplicação pura de

padrões sintáticos pelo ReVerb faz com que seu nível de precisão seja baixo. Para

melhorar este resultado, ReVerb adota features ad hoc para definir uma função de

confiança, aprendida por um classificador. Destacamos as seguintes desvantagens do

ReVerb: dependência de expressões regulares pré-definidas, necessidade de análise de

atributos para a função de confiança para aplicação em outras línguas, e a não

identificação de tipos de relações redundantes. Além disso, apresenta uma deficiência

na identificação correta dos argumentos da relação semântica entre dois conceitos.

O método, aqui proposto, permite a aquisição de relações semânticas entre

conceitos, a partir do texto de documentos da Wikipédia, aproveitando-se dos links entre

artigos para identificar os argumentos da relação. Adicionalmente, prescinde da

definição prévia de expressões regulares e de um processo oneroso de anotação de

corpus. Visando a otimização a aquisição de conhecimento, identifica tipos de relações

similares através de uma medida de similaridade semântica.

O método foi utilizado em um corpus da Wikipédia em português de 100 mil

artigos e 12.632 relações semânticas foram geradas para a base de conhecimento

InferenceNet. Um grupo de 80 avaliadores humanos analisou a veracidade de 1395

relações semânticas, selecionadas aleatoriamente. Os resultados obtidos indicaram que a

acurácia do método é de 76%, superior ao estado da arte. Além disso, a etapa de

clusterização de tipos de relações por similaridade semântica permite a aquisição de um

maior número de relações. Como trabalhos futuros, esperamos melhorar o algoritmo de

aquisição de sentenças para segmentos de textos complexos e uma avaliação extrínseca

do conhecimento adquirido.

Referências [Auer et al. 2007] Auer, S., Bizer, C., Kobilarov, G., Lehmann, J., Cyganiak,

R., and Ives, Z. (2007). Dbpedia: A nucleus for a web of open data. The Semantic

Web, pages 722–735. [Auer and Lehmann 2007] Auer, S. and Lehmann, J. (2007). What Have

Innsbruck and Leipzig in Common? Extracting Semantics from Wiki Content. In

The Semantic Web: Research and Applications, pages 503–517. Springer.

[Beckett and McBride 2004] Beckett, D. and McBride, B. (2004). RDF/XML

syntax specification (revised). W3C recommendation, 10.

[Bick 2000] Bick, E. (2000). The Parsing System “Palavras”: Automatic

Grammatical Analysis of Portuguese in a Constraint Grammar Framework.

Aarhus University Press Aarhus, Denmark.

Page 11: Aquisição de Relações Semânticas a partir de Textos da ... · há uma relação entre o artigo corrente e o outro artigo referenciado pelo link. O método proposto objetiva capturar

[Fader et al. 2011] Fader, A., Soderland, S., and Etzioni, O. (2011). Identifying

Relations for Open Information Extraction. In Proceedings of the Conference on

Empirical Methods in Natural Language Processing, pages 1535-1545.

Association for Computational Linguistics.

[Gregorowicz and Kramer 2006] Gregorowicz, A. and Kramer, M. A. (2006). Mining

a Large-scale Term-concept Network from Wikipedia. MITRE Corporation, 202.

[Kay 2005, p.19] Kay, M. (2005). The Oxford Handbook of Computational Linguistics.

Mitkov, R(ed). Computational Linguistics 30(1), pages 17-22.

[Kittur and Kraut 2008] Kittur, A. and Kraut, R. (2008). Harnessing the Wisdom of

Crowds in Wikipedia: Quality Through Coordination. In Proceedings of the 2008

ACM conference on Computer supported cooperative work, pages 37–46. ACM.

[Kohl et al. 1998] Kohl, K., Jones, D., Berwick, R., and Nomura, N. (1998).

Representing Verb Alternations in Wordnet. WordNet. An Electronic Lexical

Database, pages 153–178.

[Miller 1995] Miller, G. (1995). WordNet: a Lexical Database for English.

Communications of the ACM, 38(11), pages 39-41.

[Milne and Witten 2012] Milne, D. and Witten, I. H. (2012). An open-source toolkit for

mining wikipedia. Artificial Intelligence.

[Nakayama et al. 2007] Nakayama, K., Hara, T., and Nishio, S. (2007). A Thesaurus

Construction Method from Large Scaleweb Dictionaries. In Advanced Information

Networking and Applications, 2007. AINA’07. 21st International Conference on,

pages 932–939. IEEE.

[Padró and Stanilovsky 2012] Padró, L. and Stanilovsky, E. (2012). Freeling 3.0:

Towards Wider Multilinguality. In Proceedings of Language Resources and

Evaluation (LREC). European Language Resources Association.

[Pardo et al. 2009] Pardo, T., Caseli, H., and Nunes, M. (2009). Mapeamento da

Comunidade Brasileira de Processamento de Lìnguas Naturais. In The

Proceedings of the 7th Brazilian Symposium in Information and Human Language

Technology-STIL, pages 1–21.

[Pei et al. 2008] Pei, M., Nakayama, K., Hara, T., and Nishio, S. (2008). Constructing

a Global Ontology by Concept Mapping Using Wikipedia Thesaurus. In

Advanced Information Networking and Applications-Workshops, 2008. AINAW

2008. 22nd International Conference on, pages 1205–1210. IEEE.

[Pinheiro 2010] Pinheiro, V. SIM: Um Modelo Semântico Inferencialista para

Expressão e Raciocínio em Sistemas de Linguagem Natural. Phd Thesis,

Universidade Federal do Ceará. 2010.

[Pinheiro et al. 2010] Pinheiro, V., Pequeno, T., Furtado, V., and Franco, W.

(2010). InferenceNet.Br: Expression of Inferentialist Semantic Content of the

Portuguese Language. In PROPOR, volume 6001 of Lecture Notes in Computer

Science, pages 90–99. Springer.

Page 12: Aquisição de Relações Semânticas a partir de Textos da ... · há uma relação entre o artigo corrente e o outro artigo referenciado pelo link. O método proposto objetiva capturar

[Pinheiro et al. 2009] Pinheiro, V., Pequeno, T., Furtado, V., and Nogueira, D.

(2009). Semantic Inferentialist Analyser: Um Analisador Semântico de Sentenças

em Linguagem Natural. In Proceedings of the 7th Brazilian Symposium in

Information and Human Language Technology. Brasil, STIL ’09.

[Silva and Ribeiro 2003] Silva, C. and Ribeiro, B. (2003). The Importance of Stop

Word Removal on Recall Values in Text Categorization. In Neural Networks,

2003. Proceedings of the International Joint Conference on, volume 3, pages

1661–1666. IEEE.

[Speer and Havasi 2012] Speer, R. and Havasi, C. (2012). Representing general

relational knowledge in Conceptnet 5. In International Conference on Language

Resources and Evaluation (LREC), pages 79–86.

[Stoutenburg et al. 2009] Stoutenburg, S., Kalita, J., and Hawthorne, S. (2009).

Extracting Semantic Relationships between Wikipedia Articles. In Proc. 35th

International Conference on Current Trends in Theory and Practice of Computer

Science.

[Suchanek et al. 2008] Suchanek, F., Kasneci, G., and Weikum, G. (2008). Yago: A

Large Ontology from Wikipedia and Wordnet. Web Semantics: Science, Services

and Agents on the World Wide Web, 6(3), pages 203–217.

[Suchanek et al. 2007] Suchanek, F. M., Kasneci, G., and Weikum, G. (2007). Yago:

a core of semantic knowledge. In Proceedings of the 16th international conference

on World Wide Web, pages 697–706. ACM.

[Veyssieres and Plant 1998] Veyssieres, M. P., & Plant, R. E. (1998).

Identification of vegetation state and transition domains in California’s hardwood

rangelands. University of California.

[Völkel et al. 2006] Völkel, M., Krötzsch, M., Vrandecic, D., Haller, H., and

Studer, R. (2006). Semantic wikipedia. In Proceedings of the 15th international

conference on World Wide Web, pages 585–594. ACM.

[Wu and Weld 2010] Wu, F. and Weld, D. S. (2010). Open Information Extraction

using Wikipedia. In Proceedings of the 48th Annual Meeting of the Association

for Computational Linguistics, pages 118–127. Association for Computational

Linguistics.

[Xavier and de Lima 2012] Xavier, C. C. and de Lima, V. L. S. (2012). A

Method for Automatically Extracting Domain Semantic Networks from

Wikipedia. In Computational Processing of the Portuguese Language, pages 93–

98. Springer.

[Yates et al. 2007] Yates, A., Cafarella, M., Banko, M., Etzioni, O., Broadhead,

M., and Soderland, S. (2007). Textrunner: open information extraction on the web.

In Proceedings of Human Language Technologies: The Annual Conference of the

North American Chapter of the Association for Computational Linguistics:

Demonstrations, pages 25–26. Association for Computational Linguistics.