15
ESQUELETO - ANOTAÇÃO das palavras do corpo humano Versão 6: 25 de Junho de 2014 Primeira versão: 2 de Dezembro de 2013 Cláudia Freitas Equipe do projeto: Diana Santos, Heidi Jansen, Juliana Reis (até 12/2013), Raphaela Souza (a partir de 01/2014) 1. Introdução Este documento relata as opções de anotação do campo semântico do corpo humano nos corpora do projeto AC/DC (http://www.linguateca.pt/ACDC, Costa et al., 2009, Santos, 2011). A anotação do campo semântico do corpo humano é motivada por dois principais interesses: - como se descreve a aparência física em português? - quando usamos palavras do léxico do corpo, de que mais falamos (e que não é o corpo)? Quanto ao esquema e formato de anotação, procuramos nos alinhar ao tipo de anotação semântica já em uso no AC/DC, com informação de grupos e de semas, conforme explicado no Arco-íris (documentação do campo semântico das cores (Silva e Santos, 2012)), e no Guarda-Fatos (anotação do campo semântico do vestuário (Santos, Silva e Mota, 2011)). 2. Questões técnicas A anotação do corpo começa com a criação de um léxico, onde listamos: Palavras do corpo (palavras que denotam geralmente corpo humano), independentemente da classe gramatical: http://www.linguateca.pt/acesso/corpos/corpo/corpo.txt Expressões em que comparecem palavras do corpo, estejam elas se referindo ao corpo (céu da boca; maçã do rosto) ou não (dar o braço a torcer): http://www.linguateca.pt/acesso/corpos/corpo/corpo_mwe.txt Nas expressões, indicamos quais são as palavras do corpo com um [] depois da palavra em questão: dor de cotovelo[] fazer das tripas[] coração[] Se a palavra do corpo for a primeira palavra da expressão, não fazemos nada: barriga de aluguel A seção 3 trata da anotação das palavras do corpo em expressões.

Esqueleto Documentacao V6

  • Upload
    claudia

  • View
    268

  • Download
    0

Embed Size (px)

DESCRIPTION

Esqueleto Documentacao V6

Citation preview

Page 1: Esqueleto Documentacao V6

ESQUELETO - ANOTAÇÃO das palavras do corpo humano

Versão 6: 25 de Junho de 2014

Primeira versão: 2 de Dezembro de 2013

Cláudia Freitas

Equipe do projeto: Diana Santos, Heidi Jansen, Juliana Reis (até 12/2013), Raphaela Souza (a partir

de 01/2014)

1. Introdução

Este documento relata as opções de anotação do campo semântico do corpo humano nos corpora

do projeto AC/DC (http://www.linguateca.pt/ACDC, Costa et al., 2009, Santos, 2011).

A anotação do campo semântico do corpo humano é motivada por dois principais interesses:

- como se descreve a aparência física em português?

- quando usamos palavras do léxico do corpo, de que mais falamos (e que não é o corpo)?

Quanto ao esquema e formato de anotação, procuramos nos alinhar ao tipo de anotação semântica

já em uso no AC/DC, com informação de grupos e de semas, conforme explicado no Arco-íris

(documentação do campo semântico das cores (Silva e Santos, 2012)), e no Guarda-Fatos (anotação

do campo semântico do vestuário (Santos, Silva e Mota, 2011)).

2. Questões técnicas

A anotação do corpo começa com a criação de um léxico, onde listamos: Palavras do corpo

(palavras que denotam geralmente corpo humano), independentemente da classe gramatical:

http://www.linguateca.pt/acesso/corpos/corpo/corpo.txt

Expressões em que comparecem palavras do corpo, estejam elas se referindo ao corpo (céu da boca; maçã do rosto) ou não (dar o braço a torcer): http://www.linguateca.pt/acesso/corpos/corpo/corpo_mwe.txt Nas expressões, indicamos quais são as palavras do corpo com um [] depois da palavra em questão:

dor de cotovelo[]

fazer das tripas[] coração[]

Se a palavra do corpo for a primeira palavra da expressão, não fazemos nada:

barriga de aluguel

A seção 3 trata da anotação das palavras do corpo em expressões.

Page 2: Esqueleto Documentacao V6

Palavras que só são palavras do corpo se estas forem substantivos

http://www.linguateca.pt/acesso/corpos/corpo/corpo_N.txt

Palavras que só são palavras do corpo se estas forem adjetivos

http://www.linguateca.pt/acesso/corpos/corpo/corpo_A.txt

Palavras que apenas em certos contextos farão referência ao corpo

http://www.linguateca.pt/acesso/corpos/corpo/corpo_neg.txt

Para mais questões técnicas referentes à anotação do corpo humano, veja o Ortopedista

http://www.linguateca.pt/acesso/Ortopedista.html

2.1 Delimitação: até onde vai o corpo humano?

2.1.1 Penteados:

Sem nenhuma surpresa, uma das dificuldades está na delimitação do campo semântico do corpo.

Por exemplo, nomes de “penteados” fazem parte do léxico do corpo? Embora a resposta não seja

óbvia, uma vez que é possível argumentar tanto

(i) que um penteado é uma forma de arrumar o cabelo (e não uma parte do corpo

especificamente),

quanto

(ii) que penteados fazem parte do léxico do corpo, uma vez que são parte de descrições de

atributos físicos humanos.

, considerando que uma das motivações para o Esqueleto é a descrição da aparência física,

optamos por considerar palavras de penteados como parte do léxico do corpo.

2.1.2. Processos “internos”:

Embora os processos do corpo (digestão, respiração etc) estejam tão associadas ao corpo quanto os

penteados, optamos, por enquanto, por não anotá-los.

2.1.3. Todos os corpos ou apenas o corpo humano?

Considerando a motivação para a anotação do campo semântico do corpo, estão anotadas as

palavras do corpo humano, e apenas essas, mesmo que o termo usado para o corpo humano venha

do corpo dos animais:

Page 3: Esqueleto Documentacao V6

par=FSP940218-704: Enquanto a irmã permanecia emburrada em um canto, para

mostrar sua gratidão, Lílian experimentava todos os vestidos decotados do

estoque e depois desfilava rebolando nas fuças [sema="corpo"] do inebriado

velho.

Por outro lado, nas palavras do corpo igualmente usadas para pessoas e animais, deixamos

indicado se as ocorrências estão associadas a animais ou pessoas:

par=FSP941006-806: A orelha do porco [sema="corpo:animal"], o rabo

[sema="corpo:animal"] do porco ou aquelas outras pequenas partes privadas do

porco que aparecem, de repente, escondidas no fundo da gloriosa gororoba de

nossa feijoada equivalem a um segmento da pirâmide da mídia americana que

vive um rápido processo de crescimento.

PUBLICO-19951009-085: Foi com alguma alegria que a rapariga percebeu que

tinha preferido o rabo [sema="corpo"] do seu companheiro.

2.2. Grupos do Corpo

Logo percebemos que, nas listas do corpo, podíamos criar subgrupos, ou porque determinadas

áreas do corpo continham muitos elementos, ou porque a existência de tais subgrupos facilitaria

certos tipos de busca nos corpora do AC/DC.

Atualmente, temos os seguintes grupos:

Cabelos – palavras associadas a cabelos/pelos, inclusive a falta deles: http://www.linguateca.pt/acesso/corpos/corpo/Grupo_Cabelo.txt Ossos – palavras relacionadas a ossos: http://www.linguateca.pt/acesso/corpos/corpo/Grupo_Osso.txt Sexual – palavras do corpo associadas à sexualidade: http://www.linguateca.pt/acesso/corpos/corpo/Grupo_Sexual.txt Cabeça: http://www.linguateca.pt/acesso/corpos/corpo/Grupo_Cabeca.txt Tronco: http://www.linguateca.pt/acesso/corpos/corpo/Grupo_Tronco.txt Braços: http://www.linguateca.pt/acesso/corpos/corpo/Grupo_Braco.txt Pernas: http://www.linguateca.pt/acesso/corpos/corpo/Grupo_Perna.txt Percepção: http://www.linguateca.pt/acesso/corpos/corpo/Grupo_Percepção.txt Interno: http://www.linguateca.pt/acesso/corpos/corpo/Grupo_Interno.txt A criação do grupo Interno interessa, por exemplo, para buscas de partes do corpo associadas a

descrições físicas (neste caso, interessa buscar palavras que não pertençam ao grupo Interno).

Page 4: Esqueleto Documentacao V6

Ainda com relação ao grupo Interno, o interesse também está em perceber quando uma mesma

parte do corpo é usada como parte interna ou externa. Por exemplo:

ela tinha a boca cheia de comida (interno)

ela tinha a boca cheia de baton (externo)

É possível também que uma mesma palavra pertença, simultaneamente, a mais de um grupo:

“mandíbula” pertence aos grupos Cabeça e a Osso;

“patela” pertence aos grupos Osso e Perna.

“dedo” pertence aos grupos Perna e Braço

Algumas partes do corpo estão no limite dos grupos propostos. Nesses casos, optamos por incluir

as palavras em todos os grupos possíveis.

“ombro”: grupos Tronco e Braço

“glúteo”: grupos Tronco e Perna

Tudo o que está no grupo Cabelo não se inclui no grupo Cabeça. Assim, para procurar as duas

coisas, a procura deve ser [grupo="Cabelo|Cabeça"]

2.3. Classes semânticas do corpo

Considerando que uma das motivações para o Esqueleto é investigar a distribuição do léxico do

corpo humano em outros campos semânticos, indicamos com o atributo sema quando uma palavra

é usada para fazer referência ao corpo humano ou não.

Quando a palavra é usada para fazer referência ao corpo humano, o valor do sema é corpo:

Ali, furei, comprei um tubo daquela cola que nem se pode encostar os

dedos[sema="corpo"] senão ficam logo colados

Levou um tiro na nuca[sema="corpo"], único tiro, morreu na hora.

Espirra, dói o corpo[sema="corpo"], a febre não vai embora

Quando a palavra do corpo não é usada em referência a uma parte do corpo humano, podem-se

escolher entre, até o momento, 10 diferentes valores de sema.

[sema="corpo:sentimento"]

[sema="corpo:vegetal"]

[sema="corpo:partedeobjeto"]

Page 5: Esqueleto Documentacao V6

[sema="corpo:lugar"]

[sema="corpo:doença"]

[sema="corpo:opinião"]

[sema="corpo:posicao"]

[sema="corpo:faculdade"]

[sema="corpo:animal"]

[sema="corpo:movimento"]

[sema="corpo:outros"]

Os valores de sema decorrem da exploração do corpus. Foram considerados ou (a)por ocorrerem

com bastante frequência ; (b) ocorrerem em poucos casos, mas tais casos são muitíssimo

frequentes na língua (como [sema="corpo:movimento"], que por enquanto contém apenas a

expressão “a pé”. A seguir explicamos e exemplificamos cada um deles.

sema=corpo:sentimento

notícia cai no coração de um esquerdista já com muitas dúvidas

<p>: cantam a paixão pela moça, a dor de cotovelo, mais uma ou outra

homenagem à Gonzagão.

par=fut39774: Os matches que se assistem de coração apertado e nó na

garganta.

Entendemos sentimento em um sentido amplo, e a etiqueta também é utilizada para fazer

referência a estados como calma ou nervosismo, como em esfriar/esquentar a cabeça.

sema=corpo:vegetal

Esta classe semântica indica palavras do corpo que se referem a vegetais:

Então ela plantou um pé de Jatobá

A massa fresca total das folhas, dos galhos vivos e mortos, da casca e da

madeira do tronco das nove árvores foi determinada no campo

Esfregue o pão com o outro dente de alho

sema=corpo:partedeobjeto

Page 6: Esqueleto Documentacao V6

Palavras do corpo usadas para indicar partes de objetos:

Ao invés de estar nos braços da mãe, a criança estava no pé da cama.

apoiava o cotovelo no braço da cadeira.

O carrinho tinha quatro pernas

O forro e as costas dos casacos, naquela altura eram em riscado

Arranjou um fogão de duas bocas, com forno

Há situações em que pode haver dúvida entre a classificação como partedeobjeto ou lugar, como

em “boca do rio”, “boca do caixa”, “boca do gol”. Nesses casos, como “boca” é entendido como

“entrada”, decidimos considerar lugar [sema=corpo:lugar].

Há casos em que o contexto informará se estamos diante de parte_de_objeto ou lugar, ou se

ambos, como é o caso abaixo:

Tinham aquelas armas de carregar pela boca e os «garrotes» onde se metiam

pregos e taxas

sema=corpo:lugar

Palavras do corpo usadas para fazer referência a um lugar:

Bem no coração da floresta amazônica, a cidade é realmente uma bolha.

Ele nasceu em São Pedro Alfa, ao pé de Coimbra.

O seu nome de batismo deve-se ao fato de estar localizado na boca do rio

Riachuelo.

A sua localização geográfica fez com que os nativos a batizassem de Te

Pito o Te Henua, o umbigo do mundo

sema=corpo:doença

Palavras associadas a doenças que envolvem alguma palavra do corpo.

Não vou a piscinas públicas, mas não tenho medo do pé de atleta

Ele tem pé chato

Não anotamos, portanto, “sinusite” ou “nevralgia”.

Também não anotamos, como expressão do tipo [sema=corpo:doença], formas convencionais

como dor de cabeça (que não é qualquer dor que ocorra na região da cabeça) ou dor de dente, que

nesses casos terão “cabeça” e “dente” anotados como [sema=corpo]. No Esqueleto, não

consideramos, exaustivamente, todas as expressões que podem haver na língua. Para que uma

dada combinação de palavras seja considerada uma expressão no Esqueleto (e portanto, uma

expressão do tipo sema=corpo), mas apenas aquelas que nos ajudam a investigar como o léxico do

corpo aparece na língua portuguesa.

Page 7: Esqueleto Documentacao V6

sema=corpo:opinião

Palavras ou expressões com palavras do corpo que correspondem a maneiras de indicar uma

opinião, e que não têm relação com o corpo propriamente.

Ora acontecia que, defronte da tal casa, morava um barbeiro linguarudo,

como são em geral todos os barbeiros -- e apurado isso...

Hoje em dia todo mundo é muito cabeçudo e intelectual.

O filme é um soco no estômago, pois mostra uma realidade de sofrimento e

violência que beira o surreal.

O Orçamento, ou melhor, a sua aprovação, deixou de ser uma dor de cabeça.

e o Ministro Palocci, que também dançou a noite inteira, revelou-se um

grande pé de valsa

Por outro lado, as privatizações andam mal das pernas

Vale notar que também podemos descrever a aparência física de alguém de maneira pejorativa, e

portanto indicando opinião: “ele tem um narigão”. Por enquanto, NÃO estamos tratando esses

casos. O que consideramos [sema=corpo:opinião] é o uso de palavras do corpo para indicar coisas

não-corpo. Por isso a palavra “bundão” abaixo recebe [sema=corpo:opinião]. (No Brasil, bundão (ou

bunda mole) é alguém covarde.

Chamado de «bundão» pelo mesmo Quércia, na campanha de 90, Covas agora promete

reagir em tom idêntico, o que aumenta o risco de que a disputa deste ano atinja um

nível de rés-do-chão, para dizer o menos.

Já a palavra “bundona”, abaixo, não recebe qualquer tipo de marcação, uma vez que faz referência

ao tamanho da bunda (parte do corpocovarde):

A idéia de beleza no Brasil tem a ver com cabelão ` de escova ', decotão,

bundona.

Pelos mesmos motivos, a ocorrência abaixo de orelhudo rececebe [sema=corpo:opinião]

Ou seja, além da monitora, tem sempre um orelhudo[sema=corpo:opinião] na

conversa

Mas a ocorrência abaixo não recebe nada:

Os fãs do orelhudo vulcano Spock (ausente no filme) têm de se satisfazer com

o andróide Data.

sema=corpo:posição

O sema corpo:posição refere-se à utilização de palavras do léxico do corpo para indicar a situação

espacial de algo, não necessariamente do corpo humano. Corpo:posição é atribuído sobretudo às

expressões de pé/em pé, quando dão a ideia de erguer-se; diversos casos de de cabeça no domínio

futebol, entre outros:

Page 8: Esqueleto Documentacao V6

(a) mergulhar na piscina de cabeça

(b) Coyne toca para a área e Townsend mergulha de cabeça

(c) muitos daqueles casarões ainda estavam em pé

(d) ficar de cabeça para baixo

(e) caiu de costas

(f) ficou de costas para o público

(g) suplicou de joelhos

Não atribuímos [sema=corpo:posicao] a casos como (h)-(m), ainda que também, de maneira geral,

os exemplos indiquem posições do corpo humano:

(h) Ele cruzou os braços[corpo]; sentou-se, cruzou as pernas[corpo] e

esperou

(i) Ergueu os braços[corpo]

(j) Ergueu os olhos[corpo] ao céu

(k) Ergueu a cabeça[corpo]

(l) Pôs a mão na cintura[corpo]

(m) Levantou a cabeça[corpo]

A opção pela distinção se sustenta na ideia de que, nos exemplos h-m, a posição decorre da

associação entre os verbos (cruzar, erguer; colocar; pôr etc) e as palavras do corpo. Já nos

exemplos (a)-(g), a ideia de posição é decorre da adição da palavra/expressão do corpo, e só. Esta

situação acontece em verbos como suplicar, aplaudir, mergulhar, dormir, esperar, cair, andar, em

geral com a palavra do corpo antecedida de preposição.

Dormir em pé[sema=corpo:posicao]

Os casos frequentes de combinações como

ir de mãos dadas

dar as mãos

ir de braço dado

apertar a mão

Não foram tratados como [sema=corpo:posicao], anotamos simplesmente [sema=corpo] ao lado de

cada palavra do corpo. Ainda que tais combinações correspondam a expressões não

composicionais, as palavras do corpo são interpretadas como corpo, e por isso não achamos

necessário marcar. Como mencionamos, o interesse está em estudar os sentidos do corpo, e não

necessariamente todas as expressões em que há uma palavra do corpo.

sema=corpo:faculdade

O sema=corpo:faculdade é usado para casos em que palavras do corpo referem-se aos processos

(em geral mentais/internos/cognitivos etc, mas não só) realizados pelo corpo, mas que não são

partes do corpo propriamente.

Vou cantando, acostumando o ouvido, criticando o enunciado das palavras.

e ficou imóvel, de ouvido atento, na expectativa de escutar as horas de

algum relógio da vizinhança

O artista define o filme como "uma provocação plástica para olhos e

ouvidos livres;

Page 9: Esqueleto Documentacao V6

Não adianta o cara ser um ótimo crítico se quem lê não lê com olhos

críticos

Exceto um que tem uma cabeça privilegiada e quer estudar teatro

Mas o Stanley tinha cabeça para dinheiro, o que eu nunca tive

É, basta ter uma cabeça legal, saber conversar

Cafu e Mazinho constituem um meio-de-campo bom de pulmão, dinâmico e

criativo

Posso ser mau de boca mas sou bom de olho

Ao contrário do marido, que é bom de garganta, a primeira-dama é tímida e

modesta.

Na frase abaixo temos a seguinte anotação:

Para eles, a sociedade não tem ouvidos[sema="corpo:faculdade"] nem

olhos[sema="corpo:faculdade"]; tampouco tem

coração[sema="corpo:sentimento"]

sema=corpo:animal

Palavras do corpo humano usadas para referir ao corpo de animais:

Os moradores daqui estão a ser mandados embora e estão a fazer ali museus

com ossos de galinha que têm 300 anos ou 400 anos.

Especialmente com relação a “rabo”, notamos a diferença de uso entre as variantes brasileira e

portuguesa. Em Portugal, “rabo” é parte do corpo humano; no Brasil, “rabo” é parte do corpo de

animais (como “pata” e “focinho”), e pejorativamente associado ao corpo humano, sobretudo o

feminino.

Assim, em uma anotação sobre texto da variante BR, teríamos:

o rabo do cachorro --> não anotado porque é do tipo "a pata do cavalo"

Em uma anotação sobre texto da variante PT, teríamos

o rabo[sema="corpo:animal"] do cachorro, anotado porque é do tipo "orelha de porco".

Consideramos pé de pato (nadadeiras) uma expressão do tipo corpo:outros (cf. abaixo)

sema=corpo:movimento

Page 10: Esqueleto Documentacao V6

O sema=corpo:movimento é usado para indicar palavras ou expressões que se refiram à ideia

ampla de forma de movimento:

A gente ia a pé e tomava o bonde, o da frente era 200 réis

Vou trabalhar a pé

Atravessar Hith Parque, de uma ponta a outra é mais de meia hora a pé

sema=corpo:outros

Nesses casos encontram-se as demais ocorrências de palavras ou expressões que não fazem

referência ao corpo, e que não estão se enquadram nas classificações anteriores:

considerado o pulmão da cidade

barriga de aluguel

os teus textos mostram uma veia forte do pop

Na ocasião, aproveitou para puxar a orelha dos colegas que se querem mais do que

simples diretores.

3. COMO ANOTAR

3.1. Palavras simples:

Todas as palavras do corpo são anotadas conforme a intepretação da frase, em contexto. O valor

do atributo semântico será atribuído da seguinte forma: [sema="tipo_de_sema"]

Espirra, dói o corpo[sema="corpo"], a febre não vai embora

Para eles, a sociedade não tem ouvidos[sema="corpo:faculdade"] nem

olhos[sema="corpo:faculdade"]; tampouco tem

coração[sema="corpo:sentimento"]

3.2. Expressões com várias palavras (EVP)

É muito frequente a participação de palavras do corpo em expressões: dar um passo maior que

perna, comer com os olhos, de queixo caído, de cortar o coração, a olho nu, de corpo e alma, etc

No Esqueleto, essas combinações são chamadas de EVP (e se distinguem das demais expressões já

anotadas nos corpora do AC/DC pelo parser PALAVRAS, classificadas como mwe(multiword

expression).

No arquivo .., as EVPs estão classificadas conforme o sema E a sua classe gramatical (pos):

dar um passo maior que perna sema corpo:outros pos=V

comer com os olhos sema corpo:outros pos=V

Page 11: Esqueleto Documentacao V6

de queixo caído sema corpo:sentimento pos=ADV

de cortar o coração sema corpo:sentimento pos=ADJ

a olho nu sema corpo:outros pos=ADV

de corpo e alma sema corpo:outros pos=ADV

Diferentemente da anotação feita com as cores (Silva & Santos), no Esqueleto propomos que, nas

expressões EVPs, a marcação de sema seja aconteça em dois níveis: na classificação das expressões

E na(s) palavra(s) do corpo.

Assim, em

A educadora tinha um nó na garganta e vontade de chorar

A EVP nó=na=garganta é uma EVP do tipo corpo:sentimento. Mas a palavra garganta, nessa mesma

EVP, é classificada como parte do corpo. Em

Se a criança apresenta pé chato, o uso da palmilha não fez bem

pé=chato é uma EVP do tipo corpo:doença. Mas a palavra pé, nessa mesma EVP, é classificada

como parte do corpo. E em

Quem está de cabelo em pé é o zagueiro João Carlos

Cabelo=em=pé é uma EVP do tipo corpo:sentimento, mas, nessa EVP, temos ainda em=pé como

uma EVP do tipo corpo:posicao e cabelo como parte do corpo.

A anotação é feita da seguinte forma:

nó=na=garganta[sema="corpo"] <evp sema="corpo:sentimento">

pé[sema="corpo"]=chato <evp sema="corpo:doença">

cabelo[sema="corpo"]=em=pé[sema="corpo:posicao"] <evp

sema="corpo:sentimento">

É importante lembrar que sempre a anotação levará em conta o contexto:

Os índios caíram de=joelhos[evp sema="corpo:posicao"]e o adoraram, chamando-

o de «Caramuru» que parece significar «filho do trovão» .

O sanduíche («panino») feito na hora, e de acordo com a vontade do freguês,

é para comer de joelhos[evp sema="corpo:opinião"]

Sua promessa de «colocar de=pé[evp sema="corpo:outros"] a Rússia que está de

joelhos[evp sema="corpo:outros"]», de fazê-la recuperar seu lugar de superpotência

e de devolver às Forças Armadas sua posição e prestígio, certamente contribuiu

para o seu sucesso eleitoral .

Uma palavra do corpo dentro de uma EVP tem também a informação de qual a análise da

expressão toda, refletindo assim os dois níveis em que essa palavra do corpo tinha sido classificada:

a da expressão a que pertence, e a dela mesmo dentro da expressão. Com essa forma de marcação,

Page 12: Esqueleto Documentacao V6

temos a possibilidade de facilitar a procura, em contexto, de expressões do corpo que envolvem

uma determinada palavra (por exemplo, todas as EVPs que contêm a palavra “cabeça”); ou de

buscar as palavras do corpo que participam de expressões (pode-se querer investigar a existência

de relação entre palavras do corpo e a classe semântica das EVPs em que participam, por exemplo).

3.2.1 Consequencias da anotação na forma de realizar buscas no AC/DC

Para procurar apenas palavras do corpo em EVPs do tipo corpo:outros, a expressão de busca deve

ser

[sema=".*corpo_outrosEVP.*"]

Para procurar apenas palavras que estão em EVPs com um sentido (sema) diferente do sema da

palavra em questão – Por exemplo, uma palavra do corpo classificada como corpo:outros que faz

parte de uma EVP cuja classificação não é corpo:outros

[sema=".*corpo_outros.*" & sema!=".*corpo_outrosEVP.*"]

Para encontrar palavras ou expressões que só são corpo (dentro ou fora de EVPs)

([sema="corpo" & sema!="corpo.*EVP"]|[sema=".*corpoEVP.*"])

Para encontrar palavras ou expressões que são só (por exemplo) corpo:sentimento,

[sema=".*corpo:sentimentoEVP.*"]

Para encontrar palavras de corpo que são por exemplo corpo no nível baixo e corpo:outros no nível

acima

[sema=".*corpo_.*" & sema=".*corpo:outrosEVP.*"]

ou para ver, na concordância a expressão completa

<mwe> []* [sema=".*corpo_.*" & sema=".*corpo:outrosEVP.*"] []* </mwe>

E, se esse aspecto for indiferente, a procura deve ser (para interessados em corpo:outros)

[sema=".*corpo_outros.*"]

3.3 Outros aspectos relacionados à anotação das EVPs

Page 13: Esqueleto Documentacao V6

As EVPs são codificadas também quanto aos seus lemas. O lema de “falar pelos cotovelos” é falar=por=o=cotovelo.

Frequentemente, mwes não constituem um todo 100% fixo, sendo possível a inserção de

elementos ou a variação na estrutura sintática:

Eu não lembro disso de cabeça

Eu não lembro de cabeça

De cabeça eu não lembro

Nesses casos, consideramos o lema a forma canônica “lembrar de cabeça”, mesmo que a

ocorrência na frase não seja exatamente essa.

Eu não lembro disso de cabeça evp sema=corpo:outros cabeça[sema=corpo:faculdade] [lema=lembrar de cabeça]

Eu não lembro de cabeça evp sema=corpo:outros cabeça[sema=corpo:faculdade] lema=lembrar de cabeça]

De cabeça eu não lembro evp sema=corpo:outros cabeça[sema=corpo:faculdade] [lema=lembrar de cabeça]

Outras vezes, em que, aparentemente temos a mesma EVP com uma variação apenas na

preposição, como em

Foi pedir o apoio de José Eduardo de Andrade Vieira (PTB) e saiu com as mãos

abanando.

Os humanistas, coitados, estão de mãos abanando, sem assunto

incluímos a preposição no lema, e nesses casos é como tivéssemos dois lemas distintos:

de=mão=abanar

com=o=mão=abanar

4. Pontos que decidimos não tratar por agora:

4.1. Criação de outros grupos:

Por enquanto, não estamos anotando as palavras dos seguintes grupos:

Posição: verbos que descrevem posições humanas (agachar, ajoelhar, sentar, levantar etc)

Contato: palavras que indicam contato físico: acotovelar, pontapear, abraçar, chutar..

Agressão: um subgrupo do Contato Físico

Page 14: Esqueleto Documentacao V6

Contra a existência do Grupo Agressão, há o argumento de que a criação de subgrupos pode abrir

espaço para um nível de granularidade muito alto. Uma alternativa seria considerar apenas o grupo

Contato, e adicionar um campo de polaridade, indicando se o contato é considerado positivo

(abraço, abraçar, beijar) ou negativo (chute, pontapé, cotovelada, tapa, soco...). No entanto, se

consideramos o interesse em procurar por palavras do corpo, pode não ser relevante recuperar

“tapa”, “beijo”, “chute” ou “bofetada”.

Assim, notamos que as palavras do grupo Contato/Agressão não são palavras que se referem

estritamente ao corpo humano, mas a ações que fazemos com o corpo humano, e que têm o corpo

como alvo. E, considerando as perguntas iniciais do Esqueleto (como se descreve a aparência física

e que outros usos sistemáticos as palavras do corpo podem ter) são grupos que começam a se

distanciar. Por outro lado, é muito interessante a identificação dessas palavras do "corpo como

alvo", sobretudo em termos de expressividade.

Aparência: Temos em português a produtividade do sufixo –udo associado a partes do corpo:

narigudo, peitudo, orelhudo, barrigudo, bochechudo etc. E temos também os aumentativos pouco

produtivos, como “bocarra”. Por enquanto, não estamos anotando essas palavras, embora

tenhamos criado a seguinte lista.

http://www.linguateca.pt/acesso/corpos/corpo/Grupo_Aparencia.txt

Condições: Do mesmo modo, não anotamos palavras que remetem a condições físicas especiais,

como grávida, surdo ou cegueira, embora tenhamos criado a seguinte lista:

http://www.linguateca.pt/acesso/corpos/corpo/Grupo_Condicoes.txt

Processos: Palavras que se referem a processos ou funções corporais, como respiração, digestão

também não receberam qualquer anotação, embora tenhamos criado a seguinte lista:

http://www.linguateca.pt/acesso/corpos/corpo/Grupo_Processo.txt

Produtos: Palavras que se referem a produtos de processos corporais, como cuspe, calo, espirro ou

hálito, também não receberam qualquer anotação, embora tenhamos criado a seguinte lista:

http://www.linguateca.pt/acesso/corpos/corpo/Grupo_Produto.txt

4.2. Identificação de Expressões vinculadas a agressão física, como

dar/levar um pontapé/bofetada/cotovelada/pancada

é bastante produtiva em termos dos verbos utilizados. Devemos classificá-las como EVP ou basta a

indicação no N?

Em favor da anotação apenas no N, a possibilidade de encontrar outros verbos associados aos

termos de agressão.

5. Palavras que não foram consideradas corpo:

Corpo em: corpo de bombeiros, corpo de baile, corpo docente etc

Page 15: Esqueleto Documentacao V6

Junta, membro, articulação só serão palavras de corpo quando explicitamente indicados (dor

nas juntas)

As seguintes palavras:

vulto pontapé gordura corcunda feição

6. Grafias e Acordo Ortográfico

Os textos que compõem os corpora do AC/DC foram escritos em períodos distintos. Alguns, como o

Vercial, contêm textos do século XVI. Assim, listamos ortografias de antes do Acordo também (e de

antes do século XX), e por isso pode haver uma proliferação de formas.

Referências

[Costa et al. 2009] Luís Costa, Diana Santos & Paulo Alexandre Rocha. "Estudando o português tal como é usado: o serviço AC/DC", STIL 2009, The 7th Brazilian Symposium in Information and Human Language Technology (São Carlos, Brasil, 8-11 de Setembro de 2009) [Mota 2013] Cristina Mota. "Anotação de emoções nos corpos do AC/DC". (2013). http://www.linguateca.pt/documentos/Mota2013.pdf [Santos 2011] Diana Santos. “Linguateca’s infrastructure for Portuguese and how it allows the detailed study of language varieties”. OSLa: Oslo Studies in Language 3.2 (2011), pp. 113-128. [Volume edited by J.B.Johannessen, Language variation infrastructure] [Silva & Santos em edição permanente] Rosário Silva & Diana Santos. "Arco-íris: notas sobre a anotação do campo semântico da cor em português". Primeira edição: 25 de Junho de 2009. http://www.linguateca.pt/acesso/ArcoIris.pdf [Santos et al. em edição permanente] Diana Santos, Augusto Soares da Silva & Cristina Mota. "Guarda-fatos: notas sobre a anotação do campo semântico do vestuário em português". Primeira edição: 26 de Outubro de 2009. http://www.linguateca.pt/acesso/GuardaFatos.pdf