20
LEITURA, TRADUÇÃO E MEDIDAS DE COMPLEXIDADE TEXTUAL EM CONTOS DA LITERATURA PARA LEITORES COM LETRAMENTO BÁSICO Dissertação de Mestrado PPGLet/UFRGS (2013) Bianca Pasqualini Doutoranda PPGLet/UFRGS Orientadora: Profa. Dra. Maria José B. Finatto

LEITURA, TRADUÇÃO E MEDIDAS DE COMPLEXIDADE … · Avaliação das médias entre os resultados em busca de diferenças estatisticamente significativas: Student's t-test: ... Em

Embed Size (px)

Citation preview

LEITURA, TRADUÇÃO E MEDIDAS DE COMPLEXIDADE TEXTUAL EM CONTOS DA LITERATURA PARA LEITORES COM LETRAMENTO BÁSICO

Dissertação de Mestrado PPGLet/UFRGS (2013)

Bianca Pasqualini Doutoranda PPGLet/UFRGS

Orientadora: Profa. Dra. Maria José B. Finatto

2

TEXTOS-FONTE EM ING

TRADUÇÕES PTG

Traduções para o português parecem “mais difíceis” do que

seus textos-fonte.

EXEMPLO 2:

I bade Pedro to close the heavy shutters of the room (…).

Ordenei a Pedro fechar os pesados postigos do quarto (...).

EXEMPLO 1: We established ourselves in one of the smallest and least sumptuously furnished apartments. It lay in a remote turret of the building.

Acomodamo-nos num dos quartos menores e menos suntuosamente mobiliados, que ficava num remoto torreão do edifício.

• Suposição de que há traduções de literatura em inglês produzidas no Brasil que tendem a gerar textos mais complexos do que seus originais, tendo como parâmetro o leitor brasileiro médio, cuja proficiência de leitura situa-se em nível básico.

• Processamos contos literários em língua inglesa e suas traduções para o português brasileiro, e, como contraste, contos de autores brasileiros e suas traduções para o inglês. Por fim, usamos tecnologias de Linguística Computacional, como a Aprendizagem de Máquina, para o aprofundamento da análise.

• As traduções para o português produziram textos mais complexos do que seus textos-fonte em algumas das medidas analisadas, e tais traduções não são adequadas para leitores com nível de letramento básico.

• Além disso, o índice Flesch de legibilidade mostrou-se como a medida mais discriminante entre textos traduzidos do inglês para o português brasileiro e textos escritos originalmente em português.

3

RESUMO DA PESQUISA

RESUMO DA PESQUISA: hipóteses

• Traduções do inglês para o português são mais difíceis do que seus textos-fonte.

• O índice Flesch é um recurso importante para um trabalho linguístico de avaliação de complexidade textual.

4

5

MÉTRICAS COMPARÁVEIS

TEXTOS ING

COH-METRIX

COH-METRIX-

PORT

TEXTOS PT

WEKA MÉTRICAS

CARACTERÍSTICAS

Preparação

Student’s T-test: métricas significativas

Análise resultados

Pt-Ing Trads-Origs

Ing-origs/Ing-trads

Pt-trad/Pt-origs

Etapa 1

Etapa 2

Etapa 3

Etapas da pesquisa

ÍNDICE FLESCH

• Rudolf Flesch – década de 50.

• Fórmula para avaliação de complexidade textual.

• Adaptada para o PT-BR – Nilc/USP, 1996.

• Pouco conhecida entre linguistas.

6

Índice entre 75 - 100

•Muito fáceis

•Textos adequados para leitores com nível de escolaridade até a quarta série do ensino fundamental

Índice entre 50 - 75

•Fáceis

•Textos adequados a alunos com escolaridade até a oitava série do ensino fundamental

Índice entre 25 - 50

•Difíceis

•Textos adequados para alunos cursando o ensino médio ou universitário

Índice entre 0 – 25

•Muitos difíceis

•Textos adequados apenas para áreas acadêmicas específicas

O LEITOR

ESCOLARIZAÇÃO NÍVEL DE LETRAMENTO (%)

ANALFABETO RUDIMENTAR BÁSICO PLENO

NENHUMA 66 29 4 1

1ª A 4ª SÉRIE 10 43 42 6

5ª A 8ª SÉRIE 0 24 60 15

ENSINO MÉDIO 0 5 54 (57) 41 (35)

ENSINO SUPERIOR 0 1 29 (34) 70 (62)

7

Nível de letramento da população brasileira de acordo com o INAF (2009). Fonte: http://www.ipm.org.br

População entre 15 a 64 anos (%)

Analfabeto 7

Rudimentar 20

Básico 46

Pleno 27

Etapa 1: Coleta e preparação do corpus

8

GRUPO 2 14 CONTOS (PTG)

4 AUTORES

14 TRADUÇÕES (ING)

3 TRADUTORES

GRUPO 1 14 CONTOS (ING)

5 AUTORES

14 TRADUÇÕES (PTG)

7 TRADUTORES

Edgar Allan Poe (10); Nathaniel Hawthorne (01), O. Henry (01), Virginia Woolf (01) and James Joyce (1). Média: 1.800 palavras (tokens).

Machado de Assis (06), Coelho Neto (02), Humberto de Campos (03) and Lima Barreto (03). Média: 1.600 palavras (tokens).

Etapa 2: Materiais – ferramentas: Coh-Metrix

O Coh-Metrix é uma

ferramenta que calcula métricas e índices de

coesão e coerência de textos num amplo espectro

de medidas. Baseia-se em pesquisas de Linguística Computacional e Psicolinguística. A versão on-line oferece 60 métricas

para uso livre.

http://tool.cohmetrix.com/

Etapa 2: Materiais – ferramentas: Coh-Metrix-Port

• Adaptação do Coh-Metrix para o português, contando com 48 métricas.

http://www.nilc.icmc.usp.br:3000/

Ligado ao Projeto PorSimples – NILC, USP, UFSCar, UNESP, 2009

MÉTRICAS LEXICAIS MÉTRICAS SINTÁTICAS MÉTRICAS SEMÂNTICAS

Número palavras

Número sentenças

Número parágrafos

Palavras por sentenças

Sentenças por

parágrafos

Sílabas por palavras

Índice Flesch

Conectivos (todas as

métricas)

Negações

Operadores lógicos

Sintagmas nominais

Modificadores por sintagma

Pronomes por sintagma

Pronomes pessoais

Types / tokens

Palavras antes de verbos

Referência anafórica

Referência anafórica (adjacente)

Sobreposição de palavras de

conteúdo (adjacente)

Sobreposição de argumentos

Sobreposição de argumentos

(adjacente)

Sobreposição de radical de palavras

Sobreposição de radical de palavras

(adjacente)

11

Etapa 2: Métricas comparáveis

12

Avaliação das médias entre os resultados em busca de diferenças estatisticamente significativas:

Student's t-test: para cada métrica e entre as traduções

português-inglês e inglês-português (p-value<0,05)

Etapa 2: Métricas comparáveis

Comparar somente as métricas que de fato apresentam diferenças estatisticamente significativas, e deixar as outras

de lado

18 MÉTRICAS COM DIFERENÇAS SIGNIFICATIVAS

13

MÉTRICAS LEXICAIS MÉTRICAS SINTÁTICAS MÉTRICAS SEMÂNTICAS

• Sílabas por palavras • Índice Flesch

• Conectivos • Negações • Sintagmas nominais • Modificadores por

sintagma nominal • Pronomes por

sintagma nominal • Incidência de

pronomes pessoais

• Referência anafórica • Referência anafórica (adjacente) • Sobreposição de argumentos • Sobreposição de argumentos

(adjacente) • Sobreposição de palavras de

conteúdo (adjacente) • Sobreposição de radicais • Sobreposição de radicais

(adjacente)

Etapa 2: Métricas comparáveis

Etapa 3: Aprendizagem de máquina

14

SoftwareWEKA

CONJUNTO DE ALGORITMOS DE APRENDIZAGEM DE MÁQUINA

Etapa 3: Aprendizagem de máquina

• No software Weka: – Dividimos os textos em 4 grupos:

• Textos em português x textos em inglês (comparação entre as línguas) • Textos originais x textos traduzidos (comparação entre a natureza dos

textos) • Textos originais em ptg x traduções para o ptg (todos os textos em ptg) • Textos originais em ing x traduções para o ing (todos os textos em ing)

– Inserimos os valores das 18 métricas com diferenças significativas de cada texto.

– O software processou esses dados e, por fim, CLASSIFICOU os textos de cada grupo de acordo com os resultados.

15

ANÁLISE 1: MÉTRICAS DOS TEXTOS EM PORTUGUÊS X MÉTRICAS DOS TEXTOS EM INGLÊS

16

Etapa 3: Aprendizagem de máquina

Lê-se: a métrica mais distintiva entre textos em português e textos em inglês é a incidência de pronomes pessoais: quando menor ou igual a 34,08935, indica textos em ptg; quando maior, textos em inglês.

Em inglês, a repetição de pronomes pessoais é um traço característico da língua; já em português, a desinência verbal “esconde” os pronomes. Esses resultados não se referem especificamente à complexidade dos textos.

ANÁLISE 2: MÉTRICAS DOS TEXTOS ORIGINAIS X MÉTRICAS DOS TEXTOS TRADUZIDOS

17

Etapa 3: Aprendizagem de máquina

Lê-se: o índice mais distintivo entre textos originais e textos traduzidos é o índice Flesch: quando menor ou igual a 46, indica textos traduzidos, o que indica textos difíceis.

O índice Flesch é o único que classifica a complexidade de um texto por si só; por isso a importância deste resultado.

ANÁLISE 3: MÉTRICAS DOS TEXTOS ORIGINAIS EM PORTUGUÊS X MÉTRICAS DOS TEXTOS TRADUZIDOS PARA O PORTUGUÊS

18

Etapa 3: Aprendizagem de máquina

Lê-se: a métrica mais distintiva entre textos originais em ptg e textos traduzidos para o ptg é o índice Flesch: quando menor ou igual a 51,53, os textos foram classificados como traduzidos. Isso indica textos difíceis e que os textos originalmente escritos em ptg são mais fáceis.

ANÁLISE 4: MÉTRICAS DOS TEXTOS ORIGINAIS EM INGLÊS X MÉTRICAS DOS TEXTOS TRADUZIDOS PARA O INGLÊS

19

Etapa 3: Aprendizagem de máquina

Lê-se: a métrica mais distintiva entre textos originais em inglês e textos traduzidos para o inglês é a incidência de sintagmas nominais. A questão da complexidade do texto não aparece de forma clara aqui, somente aspectos puramente sintáticos/coesivos.

Exercício

• A partir da leitura realizada, na sua opinião, a avaliação da complexidade de um texto envolve que aspectos textuais e/ou linguísticos?

• Observe a tabela no slide 25: de acordo com o Inaf, 46% da população brasileira entre 15 e 64 anos tem nível de letramento básico. – Na sua opinião, levando em conta os dois estudos

descritos, em que medida o tradutor deve levar em conta o letramento dos leitores ao delinear estratégias de tradução?

20