37
Guia de Anotação PropBank- Br Versão 2.0 Magali Sanches Duran Junho 2014

Guia de Anotação PropBank- Brnilc.icmc.usp.br/semanticnlp/includes/projects/propbankbr/files... · deveria ocorrer canonicamente (tomando como canônica a forma SUJEITO, VERBO,

  • Upload
    ngohanh

  • View
    214

  • Download
    0

Embed Size (px)

Citation preview

Guia de Anotação

PropBank- Br Versão 2.0

Magali Sanches Duran

Junho 2014

Nota da versão 2.0

Este manual de anotação foi elaborado para dar suporte à anotação de sentenças com rótulos de papéis semânticos,

a fim de construirmos um novo corpus PropBank-Br.

O primeiro corpus anotado para o PropBank-Br foi a porção brasileira do corpus Bosque. O Bosque é um treebank do

português, ou seja, um corpus cuja anotação sintática, feita automaticamente pelo parser Palavras, foi manualmente

revista e corrigida por linguistas.

A anotação desse primeiro corpus foi feita por uma única pessoa, motivo pelo qual não foi possível controlar o nível

de concordância na tarefa.

O novo empreendimento a que nos lançamos agora contará com anotação duplo-cega, isto é, cada sentença será

anotada por dois anotadores que não se comunicam. Depois, as anotações serão confrontadas e as divergências

resolvidas por um anotador mais experiente. Esse procedimento visa identificar questões que não são claras para os

humanos e, consequentemente, deverão apresentar problemas para o futuro aprendizado de máquina que será feito

sobre o corpus anotado. Essas questões têm que ser tratadas de maneira a tornar a anotação o mais lógica possível.

Outra grande diferença no novo projeto é que não anotaremos um treebank, mas sim sentenças submetidas à análise

sintática automática pelo parser Palavras, sem nenhuma correção manual. Tentaremos fazer um controle de

qualidade das árvores sintáticas geradas, mas isso não deverá eliminar todos os problemas. A ideia é marcarmos as

sentenças que estiverem muito mal parseadas. Assim elas poderão ser excluídas do corpus de treinamento. A

vantagem é que conheceremos a fundo o desempenho real do parser que usamos e poderemos sugerir melhorias a

seus desenvolvedores

A primeira versão deste manual foi publicada sob a forma de um Relatório Técnico do NILC (NILC-TR-06/2010). Ela foi

elaborada a partir das Guidelines do PropBank do inglês, a fim de guiar a anotação do corpus Bosque com papéis

semânticos.

Esta nova versão incorpora toda a experiência acumulada durante o primeiro processo de anotação, bem como

alterações no conjunto de papéis semânticos promovidas no PropBank do inglês e divulgadas recentemente.

Sumário 1. Introdução .................................................................................................................................................................. 5

2. Anotação de ArgNs..................................................................................................................................................... 7

2.1 Quando atribuir Arg0 ........................................................................................................................................ 7

2.2 Quando atribuir Arg1 ........................................................................................................................................ 8

3. Anotação de Modificadores (ArgMs). ....................................................................................................................... 9

3.1 ArgM-tmp Tempo ............................................................................................................................................ 12

3.2 ArgM-loc Locativo............................................................................................................................................ 12

3.3 ArgM-mnr Modo ou Maneira ......................................................................................................................... 13

3.4 ArgM-cau Causa ............................................................................................................................................... 13

3.5 ArgM-prp Propósito ou Finalidade ................................................................................................................. 14

3.6 ArgM-neg Negação .......................................................................................................................................... 14

3.7 ArgM-ext Quantidade ..................................................................................................................................... 14

3.8 ArgM-dir Direção ............................................................................................................................................. 15

3.9 ArgM-rec Recíprocos ....................................................................................................................................... 15

3.10 ArgM-prd Marcadores de predicação secundária .......................................................................................... 15

3.11 ArgM-dis Marcadores Discursivos .................................................................................................................. 15

3.12 ArgM-adv - Adverbiais ..................................................................................................................................... 16

3.13 ArgM-mod, ArgM-asp, ArgM-tml, ArgM-pas: verbos auxiliares de modalidade, aspecto, tempo e diátese

(voz passiva) ................................................................................................................................................................. 17

3.14 ArgM-exp Partículas expletivas ...................................................................................................................... 19

3.15 Casos Especiais ................................................................................................................................................ 20

3.15.1 Modificadores em frases complexas ...................................................................................................... 20

3.15.2 Atribuindo rótulos de papéis semânticos em interrogações ................................................................. 21

3.15.3 Anotando a partícula “se” ...................................................................................................................... 22

4. ANOTANDO SOBRE ÁRVORES SINTÁTICAS ............................................................................................................. 24

4.1 Relação entre constituintes sintáticos e papéis semânticos ......................................................................... 24

4.1.1 Relação de 1 para 1 ..................................................................................................................................... 24

4.1.2 Relação 1 para n .......................................................................................................................................... 24

4.1.3 Relação de n para 1 ..................................................................................................................................... 26

4.2 Quando um argumento pertence ou não à estrutura argumental do verbo alvo da anotação ................... 27

4.3 Anotação de Correferência ............................................................................................................................. 29

4.4 Atribuindo “Sentence Flags”. .......................................................................................................................... 31

4.5 Anotação de Verbos na Voz Passiva ............................................................................................................... 32

4.6 Anotação de Sujeito Indeterminado pela Partícula “se” ............................................................................... 33

4.7 Anotação de Verbos no Infinitivo, Gerúndio e Particípio .............................................................................. 34

GUIA DE ANOTAÇÃO DO PROPBANK-BR1

1. Introdução

O objetivo do PropBank-Br é adicionar uma nova camada de anotação a um corpus já anotado

sintaticamente. Essa nova camada de anotação atribui um identificador do sentido do verbo, bem como etiquetas de

papéis semânticos aos argumentos do verbo. O propósito final é constituir um corpus de treinamento para um

classificador automático de papéis semânticos.

O conjunto de papéis semânticos utilizados no PropBank-Br é o mesmo usado pelo PropBank do inglês. Os

papéis semânticos podem ser divididos em dois grandes blocos: os papéis semânticos numerados (ArgNs) e os papéis

semânticos modificadores (ArgMs).

Os ArgNs (Arg0, Arg1, Arg2, Arg3, Arg4, Arg5) são previstos pela semântica dos verbos e podem ser

encontrados no repositório VERBO-BRASIL, que lista os sentidos de cada verbo num arquivo (framefile) e, para cada

sentido, um conjunto de papéis semânticos previstos (roleset). Raros são os verbos que preveem mais de três

argumentos numerados.

No VERBO-BRASIL cada sentido “traduz” os papéis numerados em palavras, tornando mais simples para o

anotador identificar cada um deles nas instâncias de anotação. Por exemplo, o conjunto de papéis semânticos do

primeiro sentido do verbo “abrir”, ou seja, “abrir.01”, prevê quatro ArgNs: o Arg0 é o “abridor” ou “Agente”, o Arg1 é

“coisa abrindo” ou “Tema”, o Arg2 é “instrumento” e o Arg3 é “beneficiário”. O VERBO-BRASIL traz exemplos

anotados para ilustrar a atribuição dos papéis. Embora previstos, os ArgNs não precisam ocorr er todos ao mesmo

tempo. Por exemplo, na sentença: “O treino do Brasil foi aberto ao público”, temos apenas Arg1 “O treino do Brasil” e

Arg3 “ao público”.

Já os ArgMs não são previstos pela semântica dos verbos, podem ocorrer com vários verbos e podem ser

suprimidos sem que o sentido do verbo fique incompleto. Correspondem, no nível sintático, aos adjuntos adverbiais e

podem ser expressos por advérbios, locuções adverbiais ou orações subordinadas adverbiais.

Assim como o PropBank, utilizamos o recurso dos ArgM para anotar outros fenômenos que afetam a

anotação semântica, mas que não são propriamente modificadores. Por exemplo, o ArgM-Dis é para anotar

1 O guia de anotação do PropBank do inglês está disponível em:

http://verbs.colorado.edu/~mpalmer/projects/ace/PBguidelines.pdf

marcadores discursivos, ou seja, elementos cujo papel é fazer a coesão entre orações e que não pertencem à

estrutura argumental dos verbos em si.

É importante saber que existe uma zona de intersecção entre ArgNs e ArMs. Por exemplo, Local é um típico

ArgM (ArgM-LOC). Para alguns verbos, porém, o Local é um argumento previsto e deve receber um rótulo de ArgN. É

o caso do verbo morar (alguém mora em algum lugar) e do verbo colocar (alguém coloca alguma coisa em algum

lugar). Mas isso está explícito nos conjuntos de papéis semânticos desses verbos no VERBO-BRASIL.

Este manual deverá ser consultado sobretudo para esclarecer dúvidas a respeito dos ArgMs, pois, não sendo

previstos pela semântica dos verbos, não são contemplados no VERBO-BRASIL, exceto eventualmente nos exemplos

de cada sentido de verbo.

O PropBank-Br adota, sempre que possível, as mesmas diretrizes do PropBank de língua inglesa. Algumas

diferenças, contudo, são inevitáveis devido às diferenças entre as línguas e entre a anotação sintática produzida pelo

parser utilizado por cada um dos projetos em suas respectivas línguas.

No caso do PropBank de língua inglesa, vale lembrar, houve grande interação entre os desenvolvedores do

PropBank e os desenvolvedores do parser (na época todos na Universidade da Pensilvânia). Isso fez acontecerem

contribuições mútuas: o parser recebeu críticas dos anotadores de papéis semânticos e aperfeiçoou-se no sentido de

contribuir para a melhoria da anotação de papéis semânticos. A principal dessas melhorias é o que eles chamam de

“traces”: por meio de uma indexação, eles criam uma marca para indicar qual o lugar em que cada constituinte

deveria ocorrer canonicamente (tomando como canônica a forma SUJEITO, VERBO, COMPLEMENTO, ADJUNTOS

ADVERBIAIS). Dessa forma, a anotação não é feita sobre o constituinte em si, mas sobre o “trace”. Para o aprendizado

de máquina isso torna tudo mais simples, pois reduz a variação na posição dos constituintes. Além disso, o parser do

inglês possui resolução de correferência e preenchimento de elipses, o que também facilita a identificação dos

constituintes que devem receber os papéis semânticos.

Embora nossa realidade seja diferente, estamos estudando formas de fazer alguns pré-processamentos para

melhorar a estrutura das sentença que receberá a anotação dos papéis semânticos. Um desses pré-processamentos é

a inserção de um constituinte artificial na posição onde há supressão de sujeito (sujeito oculto, sujeito elíptico e

sujeito indeterminado). Isso simulará um sujeito explícito, pronto para receber a atribuição do respectivo papel

semântico.

O outro pré-processamento é a resolução de correferência intra-sentencial. Para isso, nesta versão do

PropBank-Br, vamos criar manualmente um link entre o elemento correferente e o referente que ele retoma. Esses

links vão ser usados como material de treinamento visando automatizar a resolução da correferência sentencial

2. Anotação de ArgNs

Para que realizem seu sentido, os verbos “pedem” alguns argumentos. Esses argumentos correspondem, na

sintaxe, ao sujeito e aos objetos direto e indireto, salvo raras exceções. Não existe, porém uma regra simples para

atribuição dos papéis semânticos a partir dos papéis sintáticos.

A primeira tarefa do anotador ao abrir uma instância anotação é identificar, no repositório VERBO -BRASIL, o

sentido do verbo alvo de anotação. O sentido identificado deverá ter seu id inserido no campo sentido no ambiente

de anotação criado com a ferramenta SALTO (é uma wordtag criada para essa finalidade). Depois, ele deverá atribuir,

aos constituintes sintáticos, os rótulos que representam os papéis previstos no roleset do sentido identificado.

Se o anotador não encontrar no VERBO-BRASIL nenhum sentido adequado para anotar a instância, deverá

rotular a sentença com a sentence flag LATER e comunicar o fato para que seja providenciada a inserção do sentido

no repositório.

Para alguns verbos, é impossível fornecer um único conjunto de papéis semânticos que atenda a todos seus

sentidos. Por exemplo, o verbo partir nos exemplos abaixo:

Ele partiu ontem.

Ele partiu o bolo antes da hora.

Nesses exemplos, os dois sentidos do verbo partir pedem diferentes argumentos. Nesses casos, os framefiles

distinguem dois ou mais sentidos do verbo e cada um desses sentidos é chamado de frameset. Cada frameset tem seu

roleset, ou seja, seu conjunto específico de etiquetas para anotar os argumentos.

Partir.01 - cortar Arg0: aquele que corta Arg1: coisa cortada Partir.02 - ir embora Arg0: aquele que vai embora

É importante, portanto, verificar se o verbo a ser anotado tem mais de um sentido e, se tiver, decidir qual

deles é o mais próximo do sentido do verbo no contexto de anotação.

Assim, de acordo com o exemplo, um argumento anotado com Arg0 do verbo partir.02 poderá ser

interpretado semanticamente como o “aquele que vai embora” (tema do ato de ir embora) e um argumento anotado

com Arg0 do verbo partir.01 poderá ser interpretado semanticamente como “aquele que corta” (agente do ato de

cortar).

2.1 Quando atribuir Arg0

O Arg0 é atribuído a argumentos que desempenham o papel de agentes, causadores ou experienciadores

mas nunca a pacientes ou temas (que sofrem a ação do verbo ou são objeto da ação do verbo)

Pedro pescou um peixe. Arg0: Pedro REL: pescou Arg1: um peixe

Pedro pescou ontem. Arg0: Pedro REL: pescou ArgM-tmp: ontem Os carros dos filhos são frequentemente pagos por seus pais. Arg1: os carros dos filhos Argm-tmp: frequentemente REL: pagos Arg0: por seus pais

O cinema abre às duas horas. Arg1: o cinema REL: abre ArgM-tmp: às duas horas.

O gerente abre a agência às nove em ponto. Arg0: o gerente REL: abre Arg1: a agência ArgM-tmp: às nove em ponto

Os Arg0 correspondem aos chamados argumentos externos de um verbo e têm como propriedades:

envolvimento emocional com o evento ou estado

causador de um evento ou mudança de estado em outro participante

movimento em relação à posição de outro participante.

2.2 Quando atribuir Arg1

O Arg1 é atribuído a argumentos que desempenham o papel de pacientes, temas e tópicos, isto é, os

argumentos que sofrem a mudança de estado ou que são afetados pela ação do verbo ou que são objeto do sentido

do verbo. Eles podem ocorrer sintaticamente como sujeito ou como objeto.

Mesmo que ocorra alternância sintática (mudança da posição dos constituintes sintáticos), o papel semântico

não é alterado. Nos exemplos a seguir, a vidraça e a comida são sempre Arg1.

Eu quebrei a vidraça. A vidraça quebrou. A vidraça foi quebrada. Eu queimei a comida. A comida queimou. A comida foi queimada. Os Arg1 têm como propriedades:

sofrem mudança de estado

são afetados pela ação de outro participante;

são estacionários em relação ao movimento de outro participante.

Alguns verbos admitem tanto o Arg0 quanto o Arg1 na posição de sujeito. A isso se dá o nome de

“alternância”, ou seja, o papel semântico do sujeito alterna, muda. São exemplos desses verbos: abrir, fechar,

queimar e quebrar.

Outros verbos admitem a alternância do Arg0 e do Arg1 na posição de sujeito, mas para isso precisam

pronominalizar-se, marcando o movimento:

[O professor] magoou o aluno com a advertência que fez. Arg0: o professor REL: magoou Arg1: o aluno Arg2: com a advertência que fez

Quando há pronominalização, o VERBO-BRASIL prevê um identificador de sentido diferente para o verbo. O

pronome, nesses casos, deve ser anotado como ArgM-nse, pois não tem função argumental e é usado apenas para

marcar o movimento do Arg1 para a posição do sujeito. A causa, nesse caso, é anotada com Arg0.

O aluno magoou-se com a advertência feita pelo professor. Arg1: o aluno REL: magoou ArgM-nse: se Arg0: com a advertência feita pelo professor

3. Anotação de Modificadores (ArgMs). Como já foi dito na Introdução, os ArgMs são aqueles que não estão previstos na estrutura argumental dos

sentidos dos verbos.

A maioria deles não apresenta desafios para os anotadores de papéis semânticos e correspondem a adjuntos

adverbiais (ADVL) na anotação sintática. Ao contrário dos ArgNs, um ArgM pode ocorrer mais de uma vez em uma

mesma estrutura argumental. Desde que cada ArgM constitua uma unidade independente, deve ser anotado

separadamente. A figura a seguir mostra dois ArgM-tmp e a forma correta (em azul) e a incorreta (em vermelho) de

anotar.

Figura 1. Exemplo de tela de “merge” de duas anotações para a mesma instância. No círculo em vermelho a forma incorreta de anotar os dois ArgM-tmp e em azul a forma correta.

Figura 2 Anotação de dois argumentos com ArgM-tmp em uma mesma instância.

Se um ArgM constitui uma unidade independente e corresponde a um nó da árvore sintática, deve ser

anotado separadamente, mesmo que haja outro ArgM do mesmo tipo na estrutura argumental.

Os ArgMs mais frequentes são ArgM-tmp (tempo) e ArgM-loc (lugar), seguidos de ArgM-neg, ArgM-cau

(causa), ArgM-fin (finalidade) e ArgM-mnr (modo). Na tabela abaixo a área tingida contém os verdadeiros

modificadores e a área em branco contém as etiquetas de ArgM utilizadas para anotar constituintes que não recebem

tradicionalmente papéis semânticos, mas que para fins de construção de um corpus de treinamento é interessante

anotar.

Uma diferença entre o PropBank e o PropBank-Br é o tratamento dado aos auxiliares. O PropBank-Br

distingue auxiliares de tempo, modo, aspecto e diátese (voz passiva). O PropBank, por sua vez, só anota os auxiliares

de modo, deixa os auxiliares de voz passiva sem anotar e anota os auxiliares de aspecto e de tempo como verbos

comuns. Como os auxiliares são identificáveis automaticamente e têm uma função fixa, nossa estratégia é bem mais

econômica, pois evita que esses verbos tenham que ser anotados manualmente, salvo em raras exceções, quando o

parser não os tiver integrado ao VP (locução verbal) da qual fazem parte.

O PropBank e o PropBank-BR utilizam as seguintes etiquetas de modificadores:

Tabela 1. Etiquetas de Argumentos Modificadores

ArgM- PROPBANK PROPBANK-BR

ArgM-tmp Time TEMPO

ArgM-cau Cause CAUSA

ArgM-loc Locative LOCAL

ArgM-neg Negation NEGAÇÃO

ArgM-mnr Manner MODO

ArgM-prp* Purpose PROPÓSITO OU FINALIDADE

ArgM-ext Extent QUANTIDADE

ArgM-com Commitative COMPANHIA

ArgM-gol Goal OBJETIVO

ArgM-dir Directional DIREÇÃO

ArgM-adv Adverbial Advérbios que modificam toda a oração

ArgM-prd Secondary Predication PREDICAÇÃO SECUNDÁRIA

ArgM-rec Reciprocals RECIPROCIDADE

ArgM-dis Discourse MARCADOR DISCURSIVO

ArgM-mod Modals Verbo Auxiliar de Modo

ArgM-asp Verbo Auxiliar de Aspecto

ArgM-pas Verbo Auxiliar de Voz Passiva

ArgM-tml Verbo Auxiliar de Tempo

ArgM-exp Expletivos

ArgM-nse Pronome reflexivo não argumental

* a etiqueta PRP substituiu a etiqueta PNC

3.1 ArgM-tmp Tempo Modificadores de tempo informam quando uma ação acontece. São respostas às perguntas Quando? Por

quanto tempo? Desde quando? Até quando? Com que frequência? Em quanto tempo? Para quanto tempo?

Eles podem ser expressos por uma única palavra (ontem, futuramente, frequentemente), por um PP (em

novembro, de 5 a 9 de julho, desde 1933, durante a exibição do filme, na semana passada, cinco vezes por semana )

ou por uma oração completa (ao acordar, quando veio ao Brasil, enquanto dormia, sempre que tem vontade, nunca

ao se deitar, até não querer mais, assim que cheguei, tão logo cheguei, uma vez acordado).

A única preposição exclusiva de tempo é durante. A preposição mais comum é em, mas é altamente ambígua

pois também é muito usada para modificadores de lugar e de modo.

Estão incluídos nessa categoria:

Adjuntos adverbiais de tempo: ontem, antigamente, depois (mas não nunca e jamais, que devem ser

anotados como ArgM-neg),

Adjuntos adverbiais de frequência: sempre, raramente, às vezes

Adjuntos adverbiais de duração: por um ano, durante duas semanas, eternamente, para sempre

Adjuntos adverbiais de ordem: primeiramente, primeiro… segundo…, na primeira vez

Adjuntos adverbiais de repetição: de novo, novamente, uma vez

3.2 ArgM-loc Locativo Os locativos indicam o lugar onde uma ação acontece. Essa noção não se restringe a lugares físicos, mas

também a lugares abstratos. Ex:

Em seu discurso, o presidente anunciou a reforma da previdência. ArM-loc: em seu discurso Arg0: o presidente REL: anunciou Arg1: a reforma da previdência

Os locativos respondem às perguntas: Onde? De onde? Para onde? Por onde? Desde onde? Até onde?

Alguns verbos preveem um locativo como ArgN e, portanto, exigem atenção, pois os ArgNs têm precedência

sobre os ArgMs. Exemplos são os verbos de movimento e os verbos da classe de por e colocar.

Os locativos podem ser constituídos por uma única palavra (aqui, ali, lá, dentro, fora), um PP (desde o km 51

da rodovia, na fazenda, dentro da caixa, ao lado da irmã, na página 2; ou por uma oração subordinada adverbial de

lugar (onde ninguém o conhecia, no lugar combinado)

3.3 ArgM-mnr Modo ou Maneira Esses modificadores especificam como uma ação é realizada. Etiquetas de modo deveriam ser usadas sempre

que um advérbio respondesse a uma pergunta começada por Como? Essa etiqueta inclui os instrumentos, matérias

primas, modo de vestir e outros. Anteriormente, incluía companhia, mas na atual versão do PropBank companhia

recebeu um papel específico – ArgM-com.

Podem ser expressos por uma única palavra (suavemente, loucamente, intuitivamente), por um PP (de

repente, às cegas, pelo avesso, em tom de confidência, sem cessar, de bengala, com roupa de festa) ou por uma

oração (ele chegou gritando, portando uma arma, vestido de preto).

A maioria dos advérbios terminados em –mente pertencem a esta categoria de modificadores. A forma mais

comum de expressar modo por meio de uma oração é utilizar uma reduzidas de gerúndio ou de particípio.

Essa é a categoria de modificadores que está mais fortemente associada a um léxico fixo, embora extenso.

3.4 ArgM-cau Causa Esse tipo de ArgM indica a causa de uma ação. São exemplos típicos as orações introduzidas por “porque”

“em razão de” “por causa de”, “em função de”, “devido a”. São argumentos que respondem à pergunta Por quê?

Em razão da epidemia de gripe suína, as aulas foram suspensas. ArgM-cau: em razão da epidemia de gripe suína Arg1: as aulas ArgM-mod: foram => não anotar se estiver no mesmo vp do verbo principal REL suspensas Atenção às sentenças em que o ArgM-cau aparece antes do Arg1, como no exemplo a seguir:

Agora descobri porque você está tão estranha.

ArgM-tmp: agora

REL: descobri

ARGM-CAU: porque

ARG1: você está tão estranha

3.5 ArgM-prp Propósito ou Finalidade Esse tipo de argumento nunca é expresso por uma única palavra, mas sim por sintagmas preposicionadis

(PPs) ou por orações. As orações são sua forma mais comum e são introduzidas por preposições e locuções

prepositivas como: “para”, “a fim de”, “com o objetivo de”, “com o intuito de”, “com o propósito de”, normalmente

seguidas de infinitivo. Os argumentos desse tipo respondem à pergunta Para quê? Ex:

Espero voltar aqui para novas experiências. Ele comprou um guarda-chuva resistente para enfrentar tempestades. Nem todo mundo trabalha com o único propósito de ganhar dinheiro. Esse argumento mudou de nome. Anteriormente era PNC (purpose not cause) e agora, no PropBank, é PRP

(purpose). Cuidado para não confundi-lo com o modificador PRD (predicação secundária).

3.6 ArgM-neg Negação Essa etiqueta é usada para anotar elementos como não, nunca, não mais e outros marcadores de orações

negativas. A negação é uma noção importante na anotação do PropBank, então todos os marcadores que indicam

negação devem ser anotados com ArgM-NEG. Por exemplo, ao encontrar elementos como jamais, que poderia ser

anotado como TMP ou NEG, a etiqueta NEG deve ser usada.

3.7 ArgM-ext Quantidade Modificadores de quantidade ArgM-EXT indicam quanto uma ação provocou de mudança. Respondem a

pergunta Quanto? e são expressos normalmente por:

Adjuntos numéricos: andar 20 quilômetros, enxergar 100 metros à frente; comer 20 reais de

sorvete.

Quantificadores: muito, pouco, suficientemente, exageradamente;

Comparativos: mais do que, menos do que

Muitos verbos, por indicarem um movimento em uma escala, têm os quantitativos previstos na sua estrutura

argumental. Por exemplo, “engordar” prevê um ArgN para marcar quantos quilos foram engordados. Nesse caso, eles

devem ser anotados com os respectivos ArgNs descritos no VERBO-BRASIL.

Se um verbo está acompanhado de um quantitativo e não tem um quantitativo previsto em sua estrutura

argumental descrita no VERBO-BRASIL, deverá ter o argumento anotado como ArgM-ext. Ex:

Eu achei camisetas a R$20,00 Arg0: Eu REL: achei ArgM-ext: a R$20,00.

3.8 ArgM-dir Direção Modificadores de direção mostram a direção do movimento em determinado caminho. Por exemplo: de

cima, para cima, de baixo, para baixo, da esquerda, para a esquerda, da direita, para a direita, de trás, pa ra trás, da

frente, para frente, em frente, de lado, para o lado, do sul, para o sul, etc.

Esse papel semântico pode se confundir com o de local. Se não houver claramente uma direção que responda

a pergunta Em que direção? De que direção? Para qual direção?, utiliza-se o marcador de local.

Ao contrário do que ocorre no inglês, essa etiqueta não é muito utilizada no português, pois nossos verbos de

movimento embutem a direção. Por exemplo, vir de volta (come back) é voltar e ir para baixo (go down) é descer.

3.9 ArgM-rec Recíprocos Esse modificador inclui palavras e expressões que indicam reciprocidade: entre si, entre nós, juntos, um ao

outro, juntamente, ambos. Esses modificadores sempre se referem a outros argumentos anteriores e não têm um

ArgN previsto na estrutura argumental.

Eu e o Marcelo nos conhecemos no ano passado. Arg0: Eu e o Marcelo ArgM-rec: nos REL: conhecemos ArgM-tmp: no ano passado

3.10 ArgM-prd Marcadores de predicação secundária Esses marcadores são usados para indicar que um argumento de um predicado poderia carregar sua própria

estrutura argumental, ou seja, o marcador de predicação secundária é um argumento do argumento.

Os exemplos típicos são os descritivos, normalmente introduzidos por “como” e orações adjetivas que

estiverem sintaticamente separadas do NP a que se referem. Nos exemplos a seguir os ArgM-prd estão sublinhados:

Ele foi aceito no clube como membro efetivo no ano passado. Lenços umedecidos foram fornecidos como cortesia no avião. Exibida como sempre, ela desfilou seu vestido novo nas galerias do teatro. O presidente, apoiado pelo Congresso, tomou medidas duras

3.11 ArgM-dis Marcadores Discursivos Essa etiqueta de ArgM serve para anotar os marcadores discursivos. Esses elementos são usados para fazer a

coesão textual, ou seja, estruturar a lógica do discurso, relacionando as orações e as sentenças de um texto. Não

constituem modificadores típicos, mas são anotados no escopo do PropBank.

Exemplos dessa categoria são:

Comment [MD1]:

também, além disso, no entanto, mas, conforme exposto anteriormente, por outro lado, por exemplo, da mesma

forma, contudo, entretanto, todavia, porém.

Observe que, no caso de mas, ou e e, só são etiquetados como ArgM-dis no início das orações.

Estamos todos bem, porém apreensivos. =Todos nós estamos bem, porém [todos nós estamos] apreensivos. Rel: estamos Arg0: todos Arg1: bem A segunda oração da sentença não contém verbo. Trata-se de um zeugma, isto é, elipse de verbo, caso ainda

não tratado pelo Propank-Br. Se tivéssemos inclusão do verbo elíptico, a anotação seria a seguinte:

REL: estamos Arg0: todos Arg1: apreensivos ArgM-dis: porém

Também são etiquetados como ArgM-dis os constituintes sintaticamente analisados como vocativos.

Maria, pode servir o jantar. ArgM-DIS: Maria ArgM-mod: pode (não anotar se estiver no mesmo vp do verbo principal) Rel: servir Arg1: o jantar

3.12 ArgM-adv - Adverbiais Os ArgM-adv são usados para anotar elementos que modificam toda a estrutura do evento, mas não se

enquadram nas demais categorias de modificadores. Eles não modificam apenas o verbo, mas toda a oração em que o

verbo está inserido. Podem ser um simples advérbio, uma locução prepositiva ou um oração adverbial. Exemplos:

provavelmente, possivelmente, somente, felizmente, francamente, realmente.

Felizmente você voltou.

ArgM-adv: Felizmente

Arg0: Você

REL: voltou

Ao contrário do que você pode ter pensado, minha habilidade de dirigir um carro não foi afetada pelo

acidente.

ArgM-ADV: ao contrário do que você pode ter pensado

Arg1: minha habilidade de dirigir um carro

ArgM-neg: não

REL: afetada

Arg0: pelo acidente

Devido a uma ambiguidade, às vezes pode haver dificuldade quanto à melhor forma de anotar um

modificador, se como ArgM-mnr, que modifica o verbo ou ArgM-adv, que normalmente modifica toda a oração. É o

caso dos exemplos abaixo:

Incrivelmente, ela canta. ArgM-ADV: incrivelmente (paráfrase: É surpreendente que ela consiga cantar.) REL: canta Arg0: ela

Ela canta incrivelmente. Arg0: ela REL: canta ArgM-MNR: incrivelmente (paráfrase: Ela canta muito bem.)

Figura 3 Exemplo de ArgM-adv

3.13 ArgM-mod, ArgM-asp, ArgM-tml, ArgM-pas: verbos auxiliares de modalidade, aspecto, tempo e diátese (voz passiva)

Os verbos auxiliares modificam os verbos principais, acrescentando-lhes informações de modalidade,

aspecto, tempo e permitindo a construção da voz passiva. Os verbos auxiliares, portanto, nunca têm sua própria

estrutura argumental, ou seja, não devem ser anotados como evocadores e sim como modificadores.

O parser que utilizamos já reconhece esses verbos em sua última versão, anotando-os no mesmo VP que o

verbo principal. Graças a isso, não é necessário anotar manualmente esses modificadores se eles ocorrerem dentro

do mesmo VP do verbo principal, pois a tarefa é automatizável. Se, contudo, isso não ocorrer, ou seja, se o parser não

anotar o verbo auxiliar dentro do mesmo VP que o verbo principal, é preciso anotá-lo com seu respectivo papel

semântico. A tabela de verbos auxiliares e seus respectivos papéis semânticos como modificadores está disponível

neste manual e no site do VERBO-BRASIL.

Médicos costumam não ter muito tempo livre.

Arg0: médicos ArgM-MOD: costumam ArgM-NEG: não Rel: ter Arg1: muito tempo livre

O próprio desenvolvimento da técnica devia finalmente o abolir. Arg0: O próprio desenvolvimento da técnica ArgM-mod: devia ArgM-adv: finalmente Arg1: o REL: abolir

Tabela 2 VERBOS AUXILIARES E SEUS PAPÉIS SEMÂNTICOS

Predicate lema

PREP FORMA DO AUXILIADO

ArgM

acabar gerúndio ArgM-asp

acabar de infinitivo ArgM-asp

acabar por infinitivo ArgM-asp

andar gerúndio ArgM-asp

cessar de infinitivo ArgM-asp

chegar a infinitivo ArgM-asp

começar a infinitivo ArgM-asp

começar por infinitivo ArgM-asp

continuar gerúndio ArgM-asp

continuar a infinitivo ArgM-asp

continuar sem infinitivo ArgM-asp

correr a infinitivo ArgM-asp

costumar infinitivo ArgM-asp

dar de infinitivo ArgM-asp

deixar de infinitivo ArgM-asp

desatar a infinitivo ArgM-asp

dever infinitivo ArgM-mod

disparar a infinitivo ArgM-asp

estar para infinitivo ArgM-asp

estar gerúndio ArgM-asp

estar sem infinitivo ArgM-asp

estar por infinitivo ArgM-asp

estar particípio ArgM-pas

ficar gerúndio ArgM-asp

ficar sem infinitivo ArgM-asp

ficar de infinitivo ArgM-mod

haver de infinitivo ArgM-mod

haver que infinitivo ArgM-mod

haver particípio ArgM-tml

ir infinitivo ArgM-tml

ousar infinitivo ArgM-asp

parar de infinitivo ArgM-asp

passar a infinitivo ArgM-asp

permanecer gerúndio ArgM-asp

poder infinitivo ArgM-mod

recomeçar a infinitivo ArgM-asp

sair gerúndio ArgM-asp

seguir gerúndio ArgM-asp

ser particípio ArgM-pas

ter de infinitivo ArgM-mod

ter que infinitivo ArgM-mod

ter particípio ArgM-tml

terminar gerúndio ArgM-asp

tornar a infinitivo ArgM-asp

vir gerúndio ArgM-asp

vir a infinitivo ArgM-asp

viver gerúndio ArgM-asp

voltar a infinitivo ArgM-asp

3.14 ArgM-exp Partículas expletivas Essa marcação é usada para anotar anotar as partículas e expressões expletivas, ou seja, constituintes que

não trazem nenhum sentido à oração, mas contribuem para a expressividade do discurso. É uma etiqueta que existe

no Penntreebank, mas não no PropBank. Como o parser que usamos não as identif ica, resolvemos anotá-la, muito

embora não constitua um papel semântico. Exemplos:

O que é que você quer? (paráfrases: O que você quer? Você quer o quê?) Arg0: você REL: quer Arg1: o quê ArgM-EXP: é que Os expletivos deveriam ser marcados como tal no nível sintático, para que não recebessem rótulo na

anotação do PropBank, já que não têm valor semântico. Contudo, como isso não ocorre no nível sintático, criamos

essa etiqueta para identificar o que não é argumento semântico.

Outro tipo de expletivo é o que as gramáticas chamam de “partícula de realce”:

Veja só: eles estão nos chamando!

REL: veja

ArgM-EXP: só

Arg1: eles estão nos chamando

3.15 Casos Especiais As decisões de anotação em casos mais complexos merecem ser comentadas.

3.15.1 Modificadores em frases complexas

Quando uma oração tem vários verbos, é preciso certificar-se de que o ArgM refere-se ao verbo que está

sendo anotado e não a outro verbo.

Ex: Ele acordou e, por um breve instante,[Argm-tmp] não enxergou nada.

O Arg-tmp refere-se ao verbo enxergar e não ao verbo acordar.

Uma regra geral é tentar seguir a anotação sintática, sem fazer decomposições ou concatenações. Por

exemplo, se houver uma expressão de tempo como: [ontem às cinco da tarde] e não houver no Bosque um mesmo

constituinte que abrigue a expressão completa, então o modificador deve ser anotado como dois Argms: [ontem]

Argm-tmp e [às cinco da tarde] Argm-tmp.

Outra consequência da regra “siga a sintaxe” é mostrada no exemplo a seguir:

Eles foram, todos os três, escolhidos.

Nesse caso, “todos três” deve ser anotado como Argm-adv e não concatenado com o argumento “eles”:

Rel: escolhidos. Arg1: eles Argm-adv: todos três

NÃO Rel: escolhidos. Arg1: [eles] [todos três]

Da mesma forma, não se deve decompor ArgMs que são analisados como um único constituinte na árvore

sintática.

Uma situação mais complicada é quando há dois argumentos que têm o mesmo papel semântico (dois ArgM-

tmp, por exemplo). Se eles forem independentes um do outro, cada um deverá receber uma etiqueta de ArgM-tmp e

não serem juntados em uma mesma etiqueta.

Contudo, pode ocorrer de o verbo já previr um locativo em sua estrutura argumental. Por exemplo, o Arg2 do

verbo “estacionar” é um locativo:

Eu localizei o carro estacionado na rua, em frente a um prédio de apartamentos.

Arg1: o carro REL: estacionado Arg1: na rua ArgM-loc: em frente a um prédio1 o carro

Nesse caso, tanto “na rua” quanto “em frente a um prédio de apartamentos” podem ser vistos como

locativos e satisfazer o Arg2 do verbo localizar. Sempre que isso acontecer, a regra que se decidiu usar é anotar como

argumento numerado o que estiver mais próximo do verbo e como argumento modificador o outro.

3.15.2 Atribuindo rótulos de papéis semânticos em interrogações O pronome interrogativo deve receber a etiqueta do argumento desconhecido e que se procura conhecer por

meio da pergunta. As perguntas Quem e O quê e suas derivadas referem-se a ArgNs e as perguntas Onde, Quando,

Como, Por quê, Quanto e suas derivadas referem-se a ArgMs.

Do que você gosta? (Você gosta do quê?) REL: gosta Arg0: você Arg1: do quê Quem comeu o meu queijo? REL: comeu Arg0: quem Arg1: o meu queijo

Quando você chegou lá? (Você chegou lá quando?) REL: chegou Arg0: você ArgM-LOC: lá ArgM_TMP: quando

3.15.3 Anotando a partícula “se” Quando o “se” for índice de indeterminação do sujeito ou partícula apassivadora, ele deverá ser anotado

como Arg0, pois toma o lugar de um agente que foi omitido. Exemplos:

Pensou-se que não haveria mais confusão. REL: pensou Arg0: se Arg1: que não haveria mais confusão Fizeram-se várias tentativas e nenhuma deu certo. (várias tentativas foram feitas) REL: fizeram Arg0: se Arg1: várias tentativas

Quando o “se” for pronome reflexivo (substituível por “a si mesmo”) ou recíproco (substituível por “um ao

outro” “um com o outro” “um para o outro”), anotar com o papel que ele ocupa na estrutura argumental do verbo.

Exemplos:

Casaram-se no mês passado. REL: casaram Arg1: se (um com o outro) ArgM-tmp: no mês passado Eles se deram as mãos e fizeram as pazes Arg0: Eles REL: deram Arg1: as mãos Arg2: se (um para o outro) Ele se culpou por não ter chegado a tempo. Arg0: Ele Arg1: se (a si mesmo) REL: culpou Arg2: por não ter chegado a tempo

Quando o “se” não se enquadrar em nenhum dos casos acima, ele deve ter seu sentido descrito no VERBO -

BRASIL como parte de um verbo pronominal, ou seja, a forma pronominalizada do verbo terá um identificador de

sentido próprio.

Há dois casos em que tratamos um verbo como pronominal: 1) pronominalização para construção da

alternância causativa (o tema troca de posição com a causa e assume a posição de sujeito) e 2) pronominaliza ção que

faz parte do léxico e cuja motivação se perdeu ao longo da história da língua. Em ambos os casos, o pronome não

possui papel semântico. Esses casos serão anotados como ArgM-nse (“se” não argumental) para distingui-los dos

demais pronomes que ocorrem junto aos verbos.

Como esse “se” não tem valor argumental, ele deveria fazer parte do lema verbal, ou seja, pertencer ao

léxico e não à gramática. Por isso, futuramente, por meio da identificação do sentido, poderemos fazer a

concatenação do verbo com a partícula.

Exemplos:

O menino magoou-se com a bronca que levou. Arg1: o menino REL:magoou ArgM-nse: se Arg0: com a bronca que levou (causa)

O sentido, nesse caso, não é “ O menino magoou a si mesmo com a bronca que levou”, mas sim “A bronca

que o menino levou magoou-o”. A causa é “a bronca que o menino levou” e o paciente ou tema afetado é “o

menino”. Trata-se, portanto, da pronominalização para alternância causativa (troca de posição dos argumentos causa

e tema afetado).

Eu me orgulho de ter feito isso. Arg0: Eu ArgM-nse: me REL: orgulho Arg1: de ter feito isso

Nesse caso, trata-se de verbo essencialmente pronominal. O sujeito é um experienciador.

4. ANOTANDO SOBRE ÁRVORES SINTÁTICAS

4.1 Relação entre constituintes sintáticos e papéis semânticos O ideal seria que cada papel semântico correspondesse a um único constituinte sintático. Porém, quando se

anota sobre árvores sintáticas não corrigidas (fora do cenário dos treebanks), isso nem sempre ocorre. Basicamente,

há três possibilidades de relacionamento entre a anotação sintática e a semântica: 1 para 1, 1 para n e n para 1.

4.1.1 Relação de 1 para 1 A relação entre o constituinte sintático e o argumento semântico é de um para um sempre que houver um

“nó” da árvore que corresponda exatamente ao papel semântico sendo atribuído, como é mostrado na Figura 4.

Figura 4 Exemplo de um constituinte sintático para cada argumento semântico:

Ohtake diz que até o compositor e cantor baiano Caetano Veloso manifestou desejo de assistir ao show de Nusrat, na segunda-feira, em São Paulo. REL: assistir Arg1: ao show de Nusrat Argm-tmp: na segunda-feira Argm-loc: em São Paulo

4.1.2 Relação 1 para n Por várias razões, inclusive problemas de parsing, um mesmo argumento semântico pode ser composto por

dois ou mais constituintes sintáticos, contínuos ou não (relação de 1 para n). Nesses casos, a etiqueta deverá ser

atribuída a todas as partes que compõem o argumento.

Figura 5 Vários constituintes sintáticos para um semântico.

A rebeldia não é a revolução, como bem acentua Octavio Paz. Arg1: a rebeldia não é a revolução Argm-mnr: bem REL: acentua Arg0: Octavio Paz É possível, inclusive, que os constituintes sintáticos que correspondem a um argumento semântico não

ocorram em sequência, como na Figura 6

Figura 6 Dois constituintes sintáticos não contíguos para um argumento semântico.

Além de Brasília, devem atrasar o relógio os Estados de São Paulo, Rio Grande do Sul, Paraná, Minas Gerais e Santa Catarina. Arg0: [Além de Brasília] [os estados de São Paulo, Rio Grande do Sul, Paraná, Minas Gerais e Santa Catarina.] REL atrasar Arg1; o relógio

Outros exemplos típicos de dois constituintes sintáticos não contíguos para um semântico são mostrados a

seguir.

Dentre outras coisas, eles disseram, vocês precisam se preocupar com o dinheiro. REL: disseram Arg0: eles Arg1: [dentre outras coisas.] [vocês precisam se preocupar com o dinheiro] Algumas pessoas dedicam-se mais a mim do que as pessoas de minha família. REL: dedicam Arg0: algumas pessoas Arg1: se Arg2: a mim ArgM-EXT :[ mais ] + [do que as pessoas de minha família]

Quando um argumento semântico estiver representado por mais de um constituinte sintático, a etiqueta de

papel semântico deverá ser atribuída a todos eles. Em uma fase de pós-processamento, esses constituintes sintáticos

deverão ser concatenados em um único constituinte semânticos.

4.1.3 Relação de n para 1 Há casos em que dois ou mais argumentos semânticos estão contidos em um único constituinte sintático

(relação de n para 1). Nesses casos, como não é possível desmembrar os constituintes, deveremos atribuir o papel

semântico de mais alto nível à sequência toda ou o papel devido ao primeiro argumento se todos forem de um

mesmo nível, como por exemplo vários ArgMs, como mostrado na Figura.

Figura 7 Exemplo de vários argumentos semânticos contidos em um mesmo constituinte sintático

O festival itinerante , que acontecerá em Santos , Rio_de_Janeiro ( em o domingo ) , Capão_da_Canoa ( RS , dia 21 ) e Florianópolis ( dia 23 ) , dá o tom a a primeira etapa de shows de este ano , marcada por o reggae , novas e antigas bandas nacionais e atrações étnicas e/ou regionais. Arg1: que REL: acontecerá Argm-loc: em Santos , Rio_de_Janeiro ( em o domingo ) , Capão_da_Canoa ( RS , dia 21 ) e Florianópolis ( dia 23 )

No exemplo da Figura 7, temos quatro locais e quatro tempos (datas), mas não temos um constituinte

sintático para cada um deles, por isso a sequência recebeu o rótulo do papel semântico referente ao argumento que

ocorreu primeiro na sequência, que é o ArgM-loc.

Se um constituinte sintático contiver vários constituinte semânticos, o const ituinte deverá receber a etiqueta

de mais alto nível na seguinte ordem de prioridade: Arg0, Arg1, Arg2... ArgMs ou, na ausência de relação de

precedência entre os papéis semânticos (como entre os ArgMs, por exemplo) deverá prevalecer a etiqueta do

primeiro constituinte semântico contido no constituinte sintático.

4.2 Quando um argumento pertence ou não à estrutura argumental do verbo alvo da anotação

Muita atenção deve ser colocada sobre os ArgMs, pois eles devem ser anotados na estrutura argumental a

que se referem. Na Figura 8 temos um exemplo adjunto adverbial de causa que modifica um nome. Embora seja uma

causa, não é uma causa relacionada ao verbo que está sendo anotado (“abalar”), i.e. a locução prepositiva “por ter

jogado dopado” é causa da “exclusão de Maradona” e não a causa de “abalou os jogadores”. O mesmo ocorreria se

tivéssemos um adjunto adverbial de tempo ou de lugar modificando o nome “exclusão”: “A expulsão de Maradona,

no sábado passado, no jogo contra a França, abalou os jogadores”.

Figura 8. Argumento modificador que se refere a um argumento do verbo e não ao verbo

A expulsão de Maradona, por ter jogado dopado contra a Nigéria, no jogo contra a França, abalou os

jogadores”.

Arg0: [A exclusão de Maradona] [por ter jogado dopado contra a Nigéria] REL: abalou Arg1: os jogadores Na Figura 9 temos vários constituintes semânticos do nome “falta”: “do lateral Mc Allister”, “em Euler”,

“quando este ia entrar na área”. Portanto, na estrutura argumental do verbo “acordar”, esses constituintes devem ser

anotados juntamente com o constituinte a que se referem, ou seja, o Arg0 do verbo “acordar”, que é uma causa ou

causador.

Figura 9 Exemplo de argumentos de um predicado nominal que não devem ser confundidos com argumentos do verbo

O São Paulo começou o primeiro tempo apático, mas acordou aos 10 min com uma falta não marcada do lateral MacAllister em Euller , quando este ia entrar na área.

Arg0: [com uma falta não marcada do lateral MacAllister] [em Euller] [quando este ia entrar na área] Argm-tmp: aos 10 min

Os modificadores de um argumento do verbo devem ser anotados com esse argumento e não com o verbo.

Se um sintagma nominal (NP) for sujeito de mais de uma oração, ele deverá ser anotado apenas na estrutura

argumental do verbo mais próximo dele. Nos demais, por estar elíptico, não deverá ser anotado. Na Figura 10 temos

o sintagma nominal “Reis”, que é sujeito dos verbos “dizer” e “abandonará”. Nesse caso, ele só deverá receber

anotação de papel semântico na estrutura argumental do verbo “dizer” e não na estrutura argumental do verbo

“abandonar”. A elipse do sujeito na segunda oração deverá ser tratada em breve com a inserção de um co nstituinte

artificial para suportar a anotação, ficando assim: “Reis não quis dizer se Suj também abandonará Espiridião Amin.”

Desta forma, o Arg0 de “abandonará” será atribuído ao constituinte artificial Suj e poderemos fazer uma

correferência entre esse Suj e seu referente, “Reis”.

Figura 10 Exemplo de concorrência entre dois verbos que têm o mesmo sujeito

Reis não quis dizer se também abandonará Esperidião Amin. Argm-dis: também REL: abandonará Arg1; Esperidião Amin

4.3 Anotação de Correferência Quando um pronome fizer correferência a um constituinte presente na sentença, o papel semântico deverá

ser atribuído ao pronome e não ao constituinte a que ele se refere, como é o caso do Arg0 mostrado na Figura 11. Ao

contrário do que ocorre no PennTreebank, a correferência não está resolvida em nosso corpus de português e, por

isso, será anotada nesta versão do PropBank-Br para fornecer material para treinamento, conforme destacado em

vermelho na Figura 11. Se houver um “nó” para ancorar a etiqueta do referente, ele deverá ser usado; se não houver,

a etiqueta deverá ser ancorada diretamente nos tokens (Fig. 12).

Figura 11 Exemplo de anotação de correferência

No exemplo da Figura 12, o “que” é um pronome relativo que retoma o np “outros profissionais brasileiros”

(não identificado pelo parser). Nesse caso, a etiqueta “referente” que liga o “que” a “outros profissionais brasileiros”

deverá ser ancorada diretamente nos tokens. Quando tivermos resolução automática de correferência, ao

atribuirmos um rótulo ao “que”, recuperaremos o sintagma nominal a que ele se refere. Ex: que => Outros

profissionais brasileiros.

Figura 12 Exemplo de referente anotado diretamente nos tokens

Outros profissionais brasileiros, que atuam nos EUA, também participam. Arg0: que REL: atuam ArgM-loc: nos EUA

Já no exemplo da Figura 13, o ArgM-loc foi atribuído ao pronome “onde” e não a “Teatro Nacional de

Brasília”, que é o lugar ao qual “onde” se refere.

Figura 13 Anotação de correferente “onde”

« Eu estou apaixonado » , declarou o presidente Itamar_Franco , 63 , em o hall de o Teatro_Nacional de Brasília , onde assistiu anteontem o balé « Quebra_Nozes » com a pedagoga June_Drummond , 31 . ArgM-loc: onde REL: assistiu Arg1: o balé “Quebra Nozes” ArgM-Com: com a pedagoga June_Drummond , 31

Durante a anotação de papéis semânticos vamos também ligar o correferente a seu referente, como

mostrado nas Figuras 11, 12 e 13.

4.4 Atribuindo “Sentence Flags”. Se houver algum erro grave na árvore sintática ou na sentença do corpus que prejudique a anotação, a

sentença deverá receber um “flag” de WRONGSUBCORPUS (Corpus – Edit Flag – Type: Wrongsubcorpus). No campo

“parameter”, digitar “EC”, para erro de corpus ou “EP”, para erro de parsing. No campo “comentário” descrever o

erro em poucas palavras.

Um erro comum de corpus são as sentenças formadas por anúncios, como a que segue, extraída do corpus

PLN-Br:

0108301 terças a quintas, às 21h Quanto - a confirmar Elenco - adelaide Cristina, Carlos Henrique, Elisa Santana Espetáculo - o que aconteceu a Baby Neide?

Já um erro comum de árvore sintática é a falta de “nós” para ancorar as etiquetas de papéis semânticos,

como mostrado na Figura 14.

Figura 14 Exemplo de sentença que apresenta erro de parsing incontornável e que deve receber Sentence Flag Wrongsubcorpus

Nesse caso, a oração adverbial de tempo “ao retornar ao Japão” não forma um “nó” da árvore, pois a

preposição que a introduz está erroneamente vinculada ao np que constitui o Arg1.

Ao contrário do que ocorre na anotação de correferência, os papéis semânticos nunca devem ser atribuídos

diretamente aos tokens.

Se houver uma dúvida que impeça a anotação imediata, anote a sentença com “flag” LATER (Corpus – Edit

Flag – Type: Later). Deixe o campo “parameter” em branco e preencha o campo “comentário” com uma breve

descrição da dúvida.

4.5 Anotação de Verbos na Voz Passiva Na voz passiva, o Arg1 sempre ocupa a posição do sujeito e o Arg0 nem sempre é expresso.

Exemplos de anotação de verbos na voz passiva:

Voz passiva sintética (com o “se” marcando a supressão do Agente => anotar o “se” com Arg0)

Figura 15 Exemplo de voz passiva sintética

Mesmo abstraindo-se tudo o que a cidade representa como patrimônio cultural da humanidade, ainda assim ela resulta “paradisíaca”.

ArgM-adv: mesmo REL: abstraindo Arg0: se Arg1: tudo o que a cidade representa como patrimônio cultural da humanidade

Voz passiva analítica com agente expresso

Os lacres das embalagens foram rompidos pelos lojistas. Arg1: os lacres das embalagens REL: rompidos Arg0: pelos lojistas Voz passiva analítica sem agente expresso

Os lacres das embalagens foram rompidos. Arg1: os lacres das embalagens REL: rompidos Voz passiva sintética

Romperam-se os lacres das embalagens. REL: romperam Arg0: se Arg1: os lacres das embalagens

4.6 Anotação de Sujeito Indeterminado pela Partícula “se” Quando o “se” corresponder ao índice de indeterminação do sujeito, como na Figura 16, deverá ser anotado

como Arg0, pois é como se “ocupasse” o lugar do agente omitido. Para testar essa função do “se”, veja se pode ser

substituído por “a gente” ou “as pessoas”. Ex: “Isso termina por arrastá-la detestavelmente, sem que a gente chegue

a parte alguma”

Figura 16 Exemplo de Arg0 representado por um “se” com função de índice de indeterminação do sujeito

Isso termina por arrastá-la detestavelmente, sem que se chegue a parte alguma. Arg0: se (índice de indeterminação do sujeito) REL: chegue Arg4: a parte alguma

4.7 Anotação de Verbos no Infinitivo, Gerúndio e Particípio Os verbos que estiverem na forma infinita (infinitivo, gerúndio e particípio) e não fizerem parte de uma

locução verbal (verbos auxiliares mais verbo principal) muitas vezes não têm todos os argumentos previstos. Mesmo

que o sujeito lógico esteja expresso na sentença, não o anote se ele já pertencer à estrutura argume ntal de um verbo

flexionado.

Nas Figuras 17 e 18 temos um verbo que faz parte de locução verbal e na Figura 19 temos um verbo que não

faz parte de locução verbal.

Figura 17 Verbo alvo no particípio, dentro de uma locução verbal (o auxiliar é que faz a flexão)

Figura 18 Verbo alvo no infinitivo, dentro de uma locução verbal (o primeiro auxiliar é que faz a flexão)

Figura 19 Verbo alvo no infinitivo, fora de uma locução verbal

Se, contudo, o verbo estiver em uma flexão que tenha a mesma forma de um infinitivo, como na Figura 19,

que traz o verbo “achar” na terceira pessoa do singular do Futuro do Subjuntivo, ele terá o sujeito em sua estrutura

argumental. Para identificar o infinitivo pessoal é só testar se o verbo muda no plural. No caso da Figura 20, a

sentença ficaria assim: “Se as diretorias acharem por bem...”. Outro teste seria substituir por outro verbo, pois a

coincidência de formas só ocorrer em alguns verbos. Por exemplo, se fosse o verbo “fazer”: “Se a diretoria fizer...”.

Além disso, não há nenhum outro verbo à esquerda do verbo “achar” a que possa pertencer o NP “a diretoria”.

Figura 20 Forma verbal idêntica ao infinitivo do verbo: induz a erro de parsing

Mas se a diretoria achar por bem negociá-lo, tudo bem. Arg0: a diretoria Arg1: por bem negociá-lo

O particípio, quando utilizado como adjetivo, pode ocorrer sem nenhum ArgN e até mesmo sem nenhum

ArgM. As Figuras 21 e 22 são exemplos de verbos no particípio funcionando como adjetivos:

Figura 21 Exemplo de verbo no particípio com função nominal

A Unicef prevê que até o fim do século a África abrigará 10 milhões de crianças órfãs ou abandona das por causa da epidemia de Aids. REL: abandonadas ArgM-cau: por causa da epidemia de Aids

Figura 22 Exemplo de verbo no particípio com função nominal

Oswaldão, sentindo-se abandonado pelo PT e pela Cut, havia acusado Lula de usar um caminhão do sindicato nas campanhas eleitorais. REL: abandonado Arg0: [por o PT e] [ por a Cut]