"Diz-me com quem andas, dir-te-ei quem és”
a utilização de expressões multi-palavras como marcadores de discurso
Rui Sousa Silva [email protected]
Idiossincrasias na linguagem
Língua: exprime/reflecte interacções e relações sociais
Executar acções, definir pontos de partida, cumprir objectivos
Utiliza-se para estabelecer comunicação Falantes de uma língua: mesma “linguagem”,
utilização diferente
Circunstâncias Externas
Contexto sócio-cultural, realidade extra-textual e sociolecto
Influência sobre forma de escrever/falar Num mesmo país ou cultura: pessoas diferentes,
acesso diferente a informações e educação, com influência na forma de produção de um texto
Sociolecto (variedade linguística característica de origem/estatuto social): restrição possível de autoria
Autoria, Linguística Forense, Estilística
Disputas de autoria: Até séc. XVIII: distribuição limitada de livros Conceito Cartesiano de propriedade individual de
ideias ainda estava longe de ser aceite Discussão recente: e.g. Bíblia/Bacon,
Shakespeare, Dan Brown…
Atribuição de autoria: resolver disputas/procurar autores de textos anónimos
Le style est l’homme même (Buffon)
Idiolecto: noção de que todos os falantes de uma língua são
únicos em termos de recursos linguísticos, e, por conseguinte, pela selecção linguística individual
neste caso, LF tem que saber onde procurar marcadores distintivos de idiolecto a investigar e como avaliar e apresentar os resultados (Coulthard, 2007)
Perfis de autoria
Perfis de personalidade vs. Perfis linguísticos Intuição vs. estudos empíricos Padrões linguísticos:
Comprimento médio das frases Comprimento médio dos textos Comprimento médio das palavras Expressões multi-palavra
Perguntas de partida
Funções semânticas das MWU: o que são? De que modo são utilizadas por diferentes
autores? MWU como possuindo funções semânticas
específicas da utilização da linguagem de um autor?
Podem ser marcadores de identificação de autoria?
Análise
Corpus: “finito” textos: artigos de opinião dois autores diferentes publicados no jornal Público Data: Janeiro/Dezembro de 2007
Composição do corpus
António Barreto José Pacheco Pereira 41.955 átomos
37 textos
66.032 átomos
47 textos Tetragramas Tetragramas
Análise estatística do corpus
Análise sistemática das expressões multi-palavras (tetragramas) mais recorrentes – Corpógrafo
Classificação semântica – taxonomia de 15 classes:
especificação, explicação, exemplificação, comparação, contraste, generalização, correcção, preparação, inclusão, concessão, restrição, enumeração, propósito, negação, justificação
Resultados da análise
Comparação dos textos escritos pelos dois autores
Funções / classes semânticas mais utilizadas pelos dois autores
Definição de “semântica”
Definição de “Semântica”
ramo da linguística que se ocupa da significação das palavras e da evolução do seu sentido
componente do sentido das unidades linguísticas e da interpretação das frases e dos enunciados num determinado sistema linguístico
significado das palavras (por oposição a forma) parte da semiótica que estuda as relações dos
signos com os objectos que eles representam
Resultados da análise (cont.)
Class Number Class Numbercomparison 20 comparison 50concession 8 concession 13contrast 42 contrast 17correction 0 correction 0enumeration 24 enumeration 63exemplification 9 exemplification 11explanation 18 explanation 91generalization 18 generalization 8inclusion 16 inclusion 4justification 0 justification 10negation 0 negation 0preparation 10 preparation 8purpose 8 purpose 6restriction 0 restriction 0specification 218 specification 208Total 391 Total 489
António Barreto José Pacheco Pereira
Processo de classificação
Comparação de classes Class Total % Class Total %
comparison 20 5,12 comparison 50 10,22
concession 8 2,05 concession 13 2,66
contrast 42 10,74 contrast 17 3,48
correction 0 0,00 correction 0 0,00
enumeration 24 6,14 enumeration 63 12,88
exemplification 9 2,30 exemplification 11 2,25
explanation 18 4,60 explanation 91 18,61
generalization 18 4,60 generalization 8 1,64
inclusion 16 4,09 inclusion 4 0,82
justification 0 0,00 justification 10 2,04
negation 0 0,00 negation 0 0,00
preparation 10 2,56 preparation 8 1,64
purpose 8 2,05 purpose 6 1,23
restriction 0 0,00 restriction 0 0,00
specification 218 55,75 specification 208 42,54
391 100,00 489 100,00
noise 0 noise 1
António Barreto José Pacheco Pereira
+ claro, directo, focalizado + vago, hesitante, “ambíguo”
Validação
Dois textos, escritos pelos dois autores Publicados no mesmo jornal, Público, no início
de 2008 Demasiado pequenos para análise estatística,
mas cada texto com traços individuais Procurar expressões multi-palavras (MWU)
utilizadas frequentemente no corpus
Resultados da validação
Texto do Autor A: É por causa de Manuela Ferreira Leite, do PSD,
de Manuel Alegre, do BE, do PCP e, acima de tudo, por causa de José Sócrates, e do PS entre Alberto Martins e Vitalino Canas.
É isso que significa a credibilidade, palavra com muito mais conteúdo do que parece e que muda muito mais coisas do que se imagina.
Resultados da validação
Texto do Autor A: É por causa de Manuela Ferreira Leite, do PSD,
de Manuel Alegre, do BE, do PCP e, acima de tudo, por causa de José Sócrates, e do PS entre Alberto Martins e Vitalino Canas. (5 x)
É isso que significa a credibilidade, palavra com muito mais conteúdo do que parece e que muda muito mais coisas do que se imagina. (3 x)
Resultados da validação
Texto do Autor B: Mas a verdade é que a alegada cornucópia é
muito inferior ao necessário. Ao mesmo tempo que se ouvem declarações
messiânicas sobre as novas fontes de energia e a poupança de combustíveis, anunciam-se mais auto-estradas, pontos e viadutos.
Prepara-se o fecho definitivo da linha de comboio do Tua, assim como o do troço do Pinhão ao Pocinho, na linha do Douro.
Resultados da validação
Texto do Autor B: Mas a verdade é que a alegada cornucópia é
muito inferior ao necessário. (14 x) Ao mesmo tempo que se ouvem declarações
messiânicas sobre as novas fontes de energia e a poupança de combustíveis, anunciam-se mais auto-estradas, pontos e viadutos. (6 x)
Prepara-se o fecho definitivo da linha de comboio do Tua, assim como o do troço do Pinhão ao Pocinho, na linha do Douro. (4 x)
Resultados da validação
Autor A = José Pacheco Pereira … acima de tudo, … … o que significa a/o …
Autor B = António Barreto … a verdade é que … … ao mesmo tempo, … … , assim como o/a …
Conclusão
Diferenças semânticas? Interpretação dos dados obtidos Vários textos/autor vs. um grande texto/autor:
capacidade de fornecer mais traços? Dados e justificação de conjuntos de
marcadores de autoria / “lofoscopia linguística” Potencial das MWU
"Diz-me com quem andas, dir-te-ei quem és”
a utilização de expressões multi-palavras como marcadores de discurso
Rui Sousa Silva [email protected]