23
Anotação de predicados complexos num corpus de Português Amália Mendes, Sílvia Pereira

Anotação de predicados complexos num corpus de Português · Tipologia de predicados complexos • Seguindo estas propriedades, centrámo-nos, sobretudo, em dois tipos específicos

Embed Size (px)

Citation preview

Page 1: Anotação de predicados complexos num corpus de Português · Tipologia de predicados complexos • Seguindo estas propriedades, centrámo-nos, sobretudo, em dois tipos específicos

Anotação de predicados complexos num corpus de Português

Amália Mendes, Sílvia Pereira

Page 2: Anotação de predicados complexos num corpus de Português · Tipologia de predicados complexos • Seguindo estas propriedades, centrámo-nos, sobretudo, em dois tipos específicos

Objectivo

• Construção de um novo recurso para o português, capaz de

dar conta da formação de predicados complexos:

o corpus CINTIL-PREPLEXOS

- corpus com um milhão de palavras;

- com anotação morfo-sintáctica;

- lematizado;

- revisto manualmente;

- com anotação de predicados complexos.

Page 3: Anotação de predicados complexos num corpus de Português · Tipologia de predicados complexos • Seguindo estas propriedades, centrámo-nos, sobretudo, em dois tipos específicos

A construção do corpus

• Corpus CINTIL-PREPLEXOS é uma compilação de

diferentes recursos desenvolvidos pelo CLUL:

- o corpus escrito Parole (Bacelar do Nascimento et al, 2008)

- o corpus oral C-ORAL-ROM (Bacelar do Nascimento et al,

2005)

- textos escritos do Corpus de Referência do Português

Contemporâneo – CRPC (Bacelar do Nascimento, 2000):

um corpus de grandes dimensões com 350 milhões de

palavras.

Page 4: Anotação de predicados complexos num corpus de Português · Tipologia de predicados complexos • Seguindo estas propriedades, centrámo-nos, sobretudo, em dois tipos específicos

A construção do corpus

• 1/3 do CINTIL-PREPLEXOS corresponde a gravações orais (formais e informais); 2/3 são textos escritos.

• O corpus foi previamente anotado e manualmente revisto, formandoo corpus CINTIL - construído no âmbito de um projecto em parceria entre o grupo NLX (FCUL) e o CLUL e está disponível online para consulta de concordâncias e frequências (//cintil.ul.pt).

• O tamanho do CINTIL-PREPLEXOS, a profundidade da informação linguística que disponibiliza e a variabilidade das fontes que o compõem distinguem-no dos outros recursos do português.

Page 5: Anotação de predicados complexos num corpus de Português · Tipologia de predicados complexos • Seguindo estas propriedades, centrámo-nos, sobretudo, em dois tipos específicos

A construção do corpus

• Além de informação sobre predicados complexos, a anotação inclui informação sobre:

- a classe morfo-sintáctica

- o lema e a flexão das classes abertas

- expressões multi-lexicais pertencentes à classe dos advérbios e às classes fechadas

- nomes próprios multi-lexicais

(1) pretende/PRETENDER/vpi-3s[O] reconverter/RECONVERTER/inf#nifl[O] o/O/da#ms:O] centro/CENTRO/cn#ms[B-LOC] de/DE/prep[I-LOC] Matosinhos/MATOSINHOS/pnm[I-LOC]

Page 6: Anotação de predicados complexos num corpus de Português · Tipologia de predicados complexos • Seguindo estas propriedades, centrámo-nos, sobretudo, em dois tipos específicos

Tipologia de predicados complexos

• Consideramos predicados complexos (PC) construções que partilham certas propriedades, descritas em Butt (1995):

- vários núcleos e uma estrutura argumental complexa;

- serem constituídos por mais do que um elemento, sendo que cada um deles fornece parte da informação geralmente associada ao núcleo;

- estrutura funcionalmente idêntica à de um predicado simples

Page 7: Anotação de predicados complexos num corpus de Português · Tipologia de predicados complexos • Seguindo estas propriedades, centrámo-nos, sobretudo, em dois tipos específicos

Tipologia de predicados complexos

• Seguindo estas propriedades, centrámo-nos, sobretudo, em

dois tipos específicos de predicados complexos,

envolvendo:

- dois verbos principais (fazer rir)

- um verbo leve seguido de um nome deverbal (dar um

passeio) ou de um nome que expressa uma emoção ou

sentimento, a que chamamos nome psicológico (ter medo)

Page 8: Anotação de predicados complexos num corpus de Português · Tipologia de predicados complexos • Seguindo estas propriedades, centrámo-nos, sobretudo, em dois tipos específicos

Tipologia de predicados complexos

• Construções com dois verbos principais:

Assume-se, frequentemente, que estes PC incluem pelo

menos dois verbos que se comportam como um único

constituinte quando sujeitos a fenómenos de Subida de

Clítico ou de Passiva Pronominal, i.e. Long Object

Movement (cf. Kayne, 1975, Gonçalves, 2002, 2003).

Cada um dos verbos preserva a sua estrutura argumental.

Page 9: Anotação de predicados complexos num corpus de Português · Tipologia de predicados complexos • Seguindo estas propriedades, centrámo-nos, sobretudo, em dois tipos específicos

Tipologia de predicados complexos

• Construções com um verbo leve (Jespersen, 1909/1949) e um nome deverbal (ter um desmaio, fazer uma intervenção, dar um contributo):

A expressão pode ser parafraseada pelo verbo pleno correspondente:

(ter um desmaio=desmaiar; dar um contributo=contribuir);

Tanto o verbo leve como o nome deverbal contribuem para a predicação (a estrutura argumental e a distribuição de papéis temáticos é determinada, simultaneamente, pelos dois constituintes).

Page 10: Anotação de predicados complexos num corpus de Português · Tipologia de predicados complexos • Seguindo estas propriedades, centrámo-nos, sobretudo, em dois tipos específicos

Tipologia de predicados complexos

• Foi ainda considerado um outro tipo de construção de PC,

que envolve dois verbos coordenados:

(2) O Pedro pegou e despediu-se.

No entanto, esta última construção restringe-se fortemente a

registos orais informais e revelou-se muito pouco frequente

no nosso corpus.

Page 11: Anotação de predicados complexos num corpus de Português · Tipologia de predicados complexos • Seguindo estas propriedades, centrámo-nos, sobretudo, em dois tipos específicos

Tipologia de predicados complexos

• Tendo em consideração estas tipologias de PC e partindo da observação dos dados disponíveis no corpus para analisar as suas propriedades, espera-se apresentar uma abordagem unificada da formação de PC, dando conta destas construções em português europeu, mais concretamente das suas propriedades sintáctico-lexicais e da sua interpretação.

• O novo nível de anotação, com informação sobre os tipos de PC referidos, tem em consideração uma análise baseada em dados de corpora.

Page 12: Anotação de predicados complexos num corpus de Português · Tipologia de predicados complexos • Seguindo estas propriedades, centrámo-nos, sobretudo, em dois tipos específicos

Anotação

• A anotação de PC divide-se em categorias principais, que definem as subcategorias

Categorias principais:

a) etiqueta [CV] – construções V+V

b) etiqueta [CN] – construções V+N

Estas etiquetas indicam a categoria à direita do primeiro verbo.

Page 13: Anotação de predicados complexos num corpus de Português · Tipologia de predicados complexos • Seguindo estas propriedades, centrámo-nos, sobretudo, em dois tipos específicos

Anotação

Subcategorias:

a) [CV] pode ser:

(i) [CVR]: construções de reestruturação

(ii) [CVC]: construções causativas

(iii) [CVE]: predicados de coordenação

(3) a. Não o queriam [CVR] ver.

b. Fazendo [CVC] traduzir ao rapaz “Pucelle” de Voltaire

c. Vai [CVE] um e conta ao outro

Page 14: Anotação de predicados complexos num corpus de Português · Tipologia de predicados complexos • Seguindo estas propriedades, centrámo-nos, sobretudo, em dois tipos específicos

Anotação

b) [CN] pode ser:

i) [CNB]: se o nome ocorre isolado

ii)[CN]: se é acompanhado de um determinante

(4) a.[CNB] dar contribuições

b. [CN] dar uma contribuição

Page 15: Anotação de predicados complexos num corpus de Português · Tipologia de predicados complexos • Seguindo estas propriedades, centrámo-nos, sobretudo, em dois tipos específicos

Anotação

• Posição dos elementos do PC

a) informação sobre a ordem canónica (posição 1, 2, etc.)

b) informação sobre a posição em que ocorrem no corpus (B=Beginning, I=Intermedium, E=End)

(5) não/ADV[O] o/CL#ms3[O] queriam/QUERER/V#ii-3p[O] [CVR1_B] ver/VER/INF#nifl[O] [CVR2_E]

(6) depois/LPREP1[O] de/LPREP2[O] um/UM#ms[O][CN2_B] aviso/AVISO/CN#ms[O][CN3_I] dado/DAR,DADO/PPA#ms[O][CN1_E]

Page 16: Anotação de predicados complexos num corpus de Português · Tipologia de predicados complexos • Seguindo estas propriedades, centrámo-nos, sobretudo, em dois tipos específicos

Anotação

• Situações que exigiram novas categorias e etiquetas:

a) interpretações ambíguas (etiqueta [CVR_VINF])

(7) Pretende-se cometer justiça.

O SN “justiça” pode ser interpretado como sujeito do verbo mais alto (construção de Passiva Pronominal, i.e. Long Object Movement) ou como OD do segundo verbo (sendo, neste caso, uma construção impessoal).

(8)Pretende/PRETENDER/V#pi-3s[O][CVR_VINF1_B]-se/CL#gn3[O] cometer/COMETER/INF#nifl [O][CVR_VINF2_E] (…) justiça/JUSTIÇA/CN#fs[O]

Page 17: Anotação de predicados complexos num corpus de Português · Tipologia de predicados complexos • Seguindo estas propriedades, centrámo-nos, sobretudo, em dois tipos específicos

Anotação

b) construções em que coexistem PC de reestruturação e

causativos

Exemplo de etiqueta utilizada:

(9) não/ADV[O] o/CL#ms3[O] queriam/QUERER/V#ii-3p[O]

[CVR1_B] deixar/DEIXAR/INF#nifl[O] [CVR2_E]

[CVC_VINF1_B] fugir/FUGIR/INF#nifl[O] [CVC_VINF2_E]

Page 18: Anotação de predicados complexos num corpus de Português · Tipologia de predicados complexos • Seguindo estas propriedades, centrámo-nos, sobretudo, em dois tipos específicos

Anotação

c) construções em que um verbo de reestruturação ocorre

com mais dois verbos principais (3 verbos no predicado

complexo):

(10) repetiu/REPETIR/V#ppi-3s[O] profusamente/ADV[O]

para/PREP[O] quem/REL[O] o/CL#ms3[O]

quis/QUERER/V#ppi-3s[O][CVR1_B]

ouvir/OUVIR/INF#nifl[O][CVR2_1_E] e/CJ[O]

eventualmente/ADV[O]

registar/REGISTAR/INF#nifl[O][CVR2_2_E]

Page 19: Anotação de predicados complexos num corpus de Português · Tipologia de predicados complexos • Seguindo estas propriedades, centrámo-nos, sobretudo, em dois tipos específicos

Anotação

• O processo de anotação baseou-se na extracção de concordâncias dos contextos de possíveis candidatos a estes tipos de PC.

• As construções do tipo verbo-verbo foram identificadas e anotadas tendo em conta os tipos de verbo que introduzem construções de PC causativas (querer, desejar, costumar, tentar, pretender,

tencionar, conseguir) e de reestruturação (mandar, deixar, fazer ).

• Assumindo que as construções deste tipo se comportam como um único constituinte quando sujeitas a fenómenos de Subida de Clítico e Passiva Pronominal, procurámos contextos em que ocorrem estes dois fenómenos.

Page 20: Anotação de predicados complexos num corpus de Português · Tipologia de predicados complexos • Seguindo estas propriedades, centrámo-nos, sobretudo, em dois tipos específicos

Anotação

• Em construções causativas, procurámos construções em

que o sujeito do segundo verbo ocorre como OD do verbo

mais alto (11 a-b.) ou como OI do verbo mais alto (12a),

(12b).

(11) a. Esse perfume faz espirrar a Ana.

b. Esse perfume não a faz espirrar.

(12) a. A Maria mandou comer a sopa aos meninos.

b. A Maria não lhes mandou comer a sopa.

Page 21: Anotação de predicados complexos num corpus de Português · Tipologia de predicados complexos • Seguindo estas propriedades, centrámo-nos, sobretudo, em dois tipos específicos

Anotação

• Considerando a vasta lista de possíveis candidatos a PC com verbos leves, centrámo-nos em construções com os verbos ter, dar e fazer seguidos de um nome (deverbal ou psicológico). Apesar disso, o facto de os PC poderem ser descontínuos (elementos que não fazem parte do PC podem ocorrer dentro dele) tornou o processo de pesquisa e anotação largamente complexo.

• Para as construções de predicados complexos com coordenação, procurámos estruturas introduzidas pelos verbos ir, agarrar e pegar (Vai a Maria e diz assim; O Pedro pegou e despediu-se).

Page 22: Anotação de predicados complexos num corpus de Português · Tipologia de predicados complexos • Seguindo estas propriedades, centrámo-nos, sobretudo, em dois tipos específicos

Conclusões

• O corpus CINTIL-PREPLEXOS inclui a anotação de 3 tipos de PC e vai ser disponibilizado online para pesquisa de concordâncias.

• Pretende-se, com este novo recurso, apresentar dados autênticos que dêem uma perspectiva das propriedades globais destas construções, fornecendo, igualmente, informação importante para uma perspectiva contrastiva entre línguas.

• Novos dados poderão surgir, com esta análise, para a interpretação da interface Sintaxe-Semântica.

• Acredita-se que o CINTIL-PREPLEXOS é, também, um importante contributo para futura anotação a nível sintáctico e semântico.

Page 23: Anotação de predicados complexos num corpus de Português · Tipologia de predicados complexos • Seguindo estas propriedades, centrámo-nos, sobretudo, em dois tipos específicos

Referências

• Bowern, C. (2006) Inter theorical approaches to complex verb constructions: position paper The Eleventh Biennal Rice University Linguistics Symposium.

• Butt, M. (1995) The structure of complex predicates. Stanford, Califórnia: CSLI Publications.

• Gonçalves, A. (2002). The causee in the faire-Inf construction of Portuguese. Journal of Portuguese Linguistics, 1-2.• Gonçalves, A. (2003). Defectividade funcional e predicados complexos em estruturas de Controlo do Português. In

Castro, I. & I. Duarte (orgs.). Razões e Emoção. Miscelânea de estudos em homenagem a Maria Helena Mira Mateus. Vol. I. Lisboa: Imprensa Nacional-Casa da Moeda.

• Guasti, M. T. (1993). Causative and Perception Verbs. Rosenberg & Sellier: Turim • Jespersen, O. (1909/1949) A Modern English Grammar on Historical Principles. Londres: George Allen & Unwin;

Copenhaga: Ejnar Munksgaard.

• Kayne, R. (1975). French Syntax: the Transformational Cycle. Cambridge, Mass.: The MIT Press.• Wurmbrand, S. (1997). Restructuring Infinitives. In Proceedings of ConSOLE V. Leiden: SOLE.

• Barreto, Florbela, António Branco, Eduardo Ferreira, Amália Mendes, Maria Fernanda Nascimento, Filipe Nunes and João Silva, 2006, "Open Resources and Tools for the Shallow Processing of Portuguese", Proceedings of the 5th International Conference on Language Resources and Evaluation (LREC2006), Genoa, Italy.

• Bacelar do Nascimento, M. F., P. Marrafa, L. A. S. Pereira, R. Ribeiro, R. Veloso e L. Wittmann, (1998), "LE-PAROLE -Do corpus à modelização da informação lexical num sistema-multifunção", Actas do XIII Encontro da Associação Portuguesa de Linguística, APL, Lisboa, Setembro de 1998, pp. 115-134.

• Bacelar do Nascimento, M. F., J. Bettencourt Gonçalves, R. Veloso, S. Antunes, F. Barreto e R. Amaro (2oo5) "The Portuguese Corpus", in CRESTI, Emanuela and Massimo Monegnia (eds.) C-ORAL-ROM: Integrated Reference Corpora for Spoken Romance Languages. Amsterdam/Philadelphia: John Benjamins Publishing Company, Studies in Corpus Linguistics nº15, pp. 163-207 (com DVD).

• Bacelar do Nascimento, M. F. (2000), "Corpus de Référence du Portugais Contemporain" in BILGER, M. (ed.) Corpus, Méthodologie et Applications Linguistiques, Paris, H. Champion et Presses Universitaires de Perpignan (2000), pp. 25-30.