23
Memórias do Texto: aspectos tecnológicos na construção de um corpus histórico do português I. Relatório de Atividades Maria Clara Paixão de Sousa IEL - Unicamp Primeira Parte do Relatório de Pesquisa apresentado à FAPESP Junho, 2005 04/03462-4

I. Relatório de Atividades

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: I. Relatório de Atividades

M e m ó r i a s d o T e x t o :aspectos tecnológicos na construção de um corpus histórico do português

I. Relatório de Atividades

M a r i a C l a r a P a i x ã o d e S o u s aI E L - U n i c a m p

Primeira Parte do

Relatório de Pesquisaapresentado à FAPESPJunho, 2005

0 4 / 0 3 4 6 2 - 4

Page 2: I. Relatório de Atividades

p r o j e t o m e m ó r i a s d o t e x t o – r e l a t ó r i o d e p e s q u i s a - j u n h o , 2 0 0 5

a p r e s e n t a ç ã o

Esta é parte I. Relatório de Atividades, compreendida no Relatório Anual depesquisa do projeto “Memórias do Texto: Aspectos tecnológicos na construção de um corpushistórico do português” (04/03462-4).

Esta primeira parte está organizada em duas seções:

• Na seção I, apresento um Balanço das atividades realizadas entresetembro de 2004 e maio de 2005;

• Na seção II, aponto as Perspectivas abertas para o prosseguimento dapesquisa.

O Relatório Anual é composto ainda de uma segunda parte: II. Produtos, em que seapresentam os resultados principais do trabalho técnico de preparação de textos, sob aforma de um Manual. Neste relatório de atividades, farei referência a esse manual quandorelevante.

r e l a t ó r i o d e a t i v i d a d e s a p r e s e n t a ç ã o |2|

Page 3: I. Relatório de Atividades

p r o j e t o m e m ó r i a s d o t e x t o – r e l a t ó r i o d e p e s q u i s a - j u n h o , 2 0 0 5

Índicea p r e s e n t a ç ã o....................................................................................................................2I. R e s u m o..............................................................................................................................4II. B a l a n ç o............................................................................................................................5

1. Metas e Resultados.................................................................................................................................. 52. Etapas do trabalho junto ao Corpus..................................................................................................... 6

2.1 Experimentação: Setembro/2004 – Janeiro/2005 ................................................................ 62.2 Desenvolvimento: Fevereiro/2005 .......................................................................................... 72.3 Aplicação e Gestão: Março – Maio/2005 ............................................................................... 9

3. Atividade Acadêmica............................................................................................................................ 143.1 Balanço............................................................................................................................................ 143.2 Perspectivas.................................................................................................................................... 15

4. Quadro Resumo.................................................................................................................................... 16III. P e r s p e c t i v a s.............................................................................................................17

1. Objetivos Gerais.................................................................................................................................... 172. Plano de Procedimentos....................................................................................................................... 18

2.2 Estruturação do Trabalho Técnico............................................................................................. 192.2 Estruturação da Reflexão Teórica............................................................................................... 20

3. Cronograma............................................................................................................................................ 23Final do primeiro ano de pesquisa..................................................................................................... 23Segundo ano de pesquisa.................................................................................................................... 23

r e l a t ó r i o d e a t i v i d a d e s a p r e s e n t a ç ã o |3|

Page 4: I. Relatório de Atividades

p r o j e t o m e m ó r i a s d o t e x t o – r e l a t ó r i o d e p e s q u i s a - j u n h o , 2 0 0 5

I. R e s u m o

A primeira fase do projeto Memórias do Texto foi dedicada a construir as fundações para areestruturação Corpus Histórico Anotado do Português Tycho Brahe1: a pesquisa produziu novos materiaispara compor o Corpus e concebeu uma nova proposta para seu uso. Os resultados desta etapa remetem portanto sobretudo ao plano técnico. Esta produção técnica estámapeada e estruturada na segunda parte do relatório anual (II. Produtos), centralmente no contextode um Manual para o módulo de preparação dos textos do Corpus. O objetivo da elaboração do Manual foi organizar o fluxo de operações e detalhar os procedimentosenvolvidos na preparação dos textos, conferindo, assim, um caráter de autonomia para estetrabalho, em relação ao meu projeto de pesquisa. A partir deste ponto, os procedimentos deestruturação dos novos materiais (textos e processos de acesso) poderão prosseguir a cargo de umaequipe técnica sob minha supervisão. Em vista desse resultado no plano técnico, no segundo ano de trabalho poderei levar o foco dapesquisa aos demais objetivos – a edição dos textos, e a reflexão teórica sobre os textos.

1 <http://www.ime.usp.br/~tycho/corpus>

r e l a t ó r i o d e a t i v i d a d e s I . R e s u m o |4|

Page 5: I. Relatório de Atividades

p r o j e t o m e m ó r i a s d o t e x t o – r e l a t ó r i o d e p e s q u i s a - j u n h o , 2 0 0 5

II . B a l a n ç o

1 . M e t a s e R e s u l t a d o sAs metas estabelecidas no projeto de pesquisa, para o primeiro ano de atividades, eram:

• a codificação XML inicial dos 40 textos da primeira fase (estrutura bruta e metadataparcial);

• a entrega de versões .txt editadas dos 20 textos da Fase I ainda não etiquetados para osmódulos automáticos;

• a seleção e digitação dos novos textos, e reorganização da estrutura de diretórios doCorpus.

Passados oito meses, os seguintes avanços foram obtidos: i. Em 42 textos da Fase I do Corpus, a estrutura bruta e metadata foram parcialmente

anotadas (isso inclui os 20 textos ainda não etiquetados); ii. Cinco novos textos foram selecionados e estão sendo digitados e já parcialmente

anotados; iii. A estrutura de diretórios do corpus (bem como o sítio-web do projeto) foi reorganizada; iv. Foi desenhado um novo sistema para o uso do Corpus, sob a forma de um Catálogo

Dinâmico, que poderá aproveitar as potencialidades da nova anotação e possibilitar umaconsulta ágil para os usuários finais (em fase de testes);

v. O trabalho de preparação dos textos está sendo sistematizado de modo a poder serconduzido por uma equipe com relativa autonomia nos aspectos técnicos.

Isso indica que as metas estarão cumpridas ao final do primeiro ano de trabalho (agosto de 2005). Aseguir, apresento um relato pormenorizado da seqüência das atividades realizadas para obter osresultados apontados acima.

r e l a t ó r i o d e a t i v i d a d e s I I . B a l a n ç o |5|

Page 6: I. Relatório de Atividades

p r o j e t o m e m ó r i a s d o t e x t o – r e l a t ó r i o d e p e s q u i s a - j u n h o , 2 0 0 5

2 . E t a p a s d o t r a b a l h o j u n t o a o C o r p u sAs atividades nestes nove meses podem ser divididas em três fases:

• a etapa inicial, de experimentação e aprofundamento em torno das questões propostas noprojeto de pesquisa;

• a segunda etapa, de desenvolvimento da tecnologia de texto a ser efetivamente aplicada aostextos;

• a terceira etapa, de aplicação dessa tecnologia e formação de um sistema para sua gestão porparte de um equipe técnica.

A seguir resumem-se os aspectos principais de cada etapa.

2 .1 Exper imentação : Se tembro/2004 – J ane i ro/2005Este período foi marcado por um longo processo de experimentação a partir das técnicas e dasquestões formuladas na proposta inicial do trabalho. Isso se deu em duas frentes: a adequação dostextos da Fase I à nova proposta de preparação, e o início da preparação de novos textos. O trabalhofoi realizado de modo individual, ainda sem uma equipe técnica formada; mas estes quatro mesesforam ladeados por duas reuniões de grupo importantes.

2.1.1 Oficinas com a equipe do Penn-Helsinki Parsed Corpus of Middle EnglishEm Agosto de 2004 estive reunida de modo intensivo com Anthony Kroch e BeatrizSantorini (professores da Universidade da Pensilvânia, formuladores do Penn-Helsinki ParsedCorpus of Middle English, e membros da equipe associada do Projeto Temático). Nestaoportunidade, foi possível apresentar-lhes o projeto Memórias do Texto (a ser iniciadoformalmente no mês seguinte), tomando partido de sua vasta experiência no trabalho comcorpora eletrônicos. Como resultado dessa interação, surgiram importantes sugestões paraminha concepção inicial da reestruturação do Corpus – fundamentalmente, no sentido daadequação da edição dos textos às necessidades dos módulos automáticos (anotaçãomorfológica e sintática).

2.1.2 Testes do Fluxo de Preparação dos textosCom base na concepção original do Projeto, e das idéias delineadas no artigo “Single sourceprocessing of Historic corpora for diverse uses” (Trippel e Paixão de Sousa, 2004)2, iniciei nesteperíodo uma reestruturaçaõ do fluxo de procedimentos de preparação e geração dedocumentos para o Corpus. Essa reestruturação envolveu desde a a própria concepção de umsistema em ciclos, até a reorganização da estrutura de diretórios do servidor, e a renovaçãodas páginas do sítio-web do Projeto Temático (incluindo sua tradução para o português).• Para uma visão geral do sistema de ciclos de preparação dos textos e o fluxo de

procedimentos envolvidos, cf. Manual, I.2 (em particular, o diagrama em II.2.1, e oexemplo de um texto com todas as etapas em II.2.2)

2 O artigo foi apresentado na ALLC/ACH 2004: Joint International Conference of the Association for Literary and LinguisticComputing and the Association for Computers and the Humanities, Universidade de Göteborg, Suécia, 11 a 16 de Junho de2004.

r e l a t ó r i o d e a t i v i d a d e s I I . B a l a n ç o |6|

Page 7: I. Relatório de Atividades

p r o j e t o m e m ó r i a s d o t e x t o – r e l a t ó r i o d e p e s q u i s a - j u n h o , 2 0 0 5

2.1.3 Aplicação e testes da codificação XML nos textos da Fase I do Corpus Neste período foram conduzidas as primeiras experiências de codificação dos textos.Quanto aos textos que já integram o Corpus, este trabalho envolveu fundamentalmente testesda técnica de anotação da estrutura bruta; quanto aos novos textos, o trabalho incluiutambém testes da edição da variação de grafia.

2.1.4 Preparação de dois textos novos pelo novo sistema. Os textos selecionados como 'pilotos' foram “A História da Provínica de Santa Cruz” (PeroMagalhães de Gandavo3) e os manuscritos do “Corpus das Mãos Inábeis” (cedidos pela Profa.Rita Marquilhas, da Universidade de Lisboa). O material trabalhado nessa fase serviu de base para a fase seguinte, quando, graças a umnovo encontro de grupo, foi possível solucionar algumas encruzilhadas técnicas, e formularum sistema de anotação melhor definido, como descrevo a seguir.

2 .2 Desenvo lv imento : Fevere i ro/2005 Esta nova etapa teve início em fevereiro de 2005, graças à vinda de um segundo time decolaboradores do Projeto Temático: o Prof. Dr. Daffyd Gibbon, e os pesquisadores ThorstenTrippel e Daniel Störbeck, todos do núcleo de Lingüística Computacional da Universidade deBielefeld, Alemanha.

2 .2.1 Oficina de Tecnologias de Texto – convênio CAPES-DAAD

A vinda dos colaboradores de Bielefeld teve como objetivo principal finalizar as pesquisasdo convênio CAPES-DAAD iniciado em 2001 (ainda na primeira fase do ProjetoTemático); isso foi realizado fundamentalmente durante a semana de 12 a 25 de fevereiro,com a oficina 2nd Workshop on Text Technologies, de cuja organização me encarreguei (cf.Anexo I). No entanto, Trippel e Störbeck permaneceram como visitantes da Unicamp aolongo de todo o mês de fevereiro (de 02 a 27), trabalhando comigo no desenvolvimento docorpus escrito, com ótimos resultados. O trabalho intensivo do mês de fevereiro deu-se emduas frentes: na concepção do corpus e limpeza técnica do corpus. 2.2.1.1 A limpeza técnica envolveu uma boa dose de trabalho braçal, durante o qual foipossível resolver alguns entraves da anotação, surgidos nas minhas experimentações deadaptação das técnicas antigas da Fase I aos novos moldes do XML. Com a colaboração dospesquisadores visitantes, que são expertos em computação, foi possível fazer boa parte dessalimpeza de modo automático, poupando assim o trabalho manual, que levaria muito maistempo. O resultado dessa limpeza foram os 42 textos da Fase I parcialmente anotados emXML; no atual momento, estou terminando a limpeza dos aspectos que não sustentavamsolução automática.• Para um resumo das questões envolvidas nessa adaptação, cf. Manual, I.3.4 ; para uma

exposição dos procedimentos de adaptação, cf. Manual, II.1.3 e II.2.3). 2.2.1.1 Os trabalhos ligados à concepção do Corpus envolveram discussões sobre o meuprojeto Memórias do Texto de um modo mais amplo. Fundametalmente, foi possível conferiruma vestimenta tecnológica à minha idéia da codificação global do Corpus e da

3 História da prouincia Sãcta Cruz que vulgarme[n]te chamamos Brasil / feita por Pero Magalhäes de Gandauo. EmLisboa : na officina de António Gonsaluez: vendense em casa de Ioão Lopez, 1576. - 48 f. : 1 est. ; 4º (18 cm) -Assin: A-F//8. - Anselmo 709. - Faria - BN Rio de Janeiro p. 38. - B. MUseum 150 coln 204 <http://purl.pt/121>.

r e l a t ó r i o d e a t i v i d a d e s I I . B a l a n ç o |7|

Page 8: I. Relatório de Atividades

p r o j e t o m e m ó r i a s d o t e x t o – r e l a t ó r i o d e p e s q u i s a - j u n h o , 2 0 0 5

multiplicidade de alcance de usos do material. Isto se deu graças à consultoria de T. Trippel,cuja especialidade é a concepção de tecnologias para as estruturas de metadata de corpora delíngua. Junto a ele, pude refinar meu conhecimento de XML e XLST (em especial quanto àcodificação da metadata) e aprender uma nova linguagem associada, o X-Query, umaprogramação que possibilita buscas extremamente interessantes em materiais anotados porXML. Dessa interação com Trippel surgiu a versão piloto de um Catálogo Dinâmico para oCorpus Histórico, a cujo desenvolvimento dediquei boa parte da última fase dos trabalhos (cf.2.3.2 abaixo).

2.2.2 Sessão Especial : XML annotat ion and the POS TaggerDurante a semana mais intensiva do workshop, organizei uma sessão especial sob o tema“XML annotation and the POS Tagger”, para colocar foco em uma questão essencial: aintegração entre a preparação dos textos e os módulos de anotação automática.Lembro que um dos objetivos centrais do primeiro ano de trabalho era atender àsnecessidades dos módulos de análise lingüística do Corpus, fundamentalmente buscandootimizar os processos automáticos de etiquetação morfológica e análise sintática. Esteobjetivo foi apenas potencialmente cumprido, por motivos que ultrapassam o alcance doprojeto Memórias do Texto. De fato, para confirmar a idéia de que a preparação dos textos talcomo aqui proposta pode otimizar e agilizar os módulos automáticos de análise lingüística,idealmente seria necessário levar os textos anotados segundo o novo sistema para a equiperesponsável pela anotação sintática. Entretanto, esta equipe ainda não está formada, tendohavido uma reestruturação no cronograma do Projeto Temático nesse aspecto. Deste modo,será apenas com a re-estruturação do módulo de análise lingüística automatizada que essestestes poderão ser realizados. Ainda assim, penso que os progressos neste aspecto estão bem encaminhados. Antes detudo, porque sejam quais forem as novas decisões técnicas a serem tomadas no módulo daanálise lingüística automática, a preparação dos textos em XML e o uso das transformaçõescom XLST apresentam a vantagem da flexibilidade. Ou seja, num futuro próximo, estandotodos os textos com a anotação normalizada, será muito fácil realizar alterações que semostrem eventualmente necessárias. Temos em mãos textos “limpos” de problemas decodificação, e que podem ser manipulados com bastante liberdade, permitindo um grauelevado de experimentação por parte dos módulos seguintes.Em termos preliminares, este aspecto foi discutido, na seção especial, com um cientista dacomputação ligado ao IME-USP, Fabio Kepler, que acaba de desenhar um novo etiquetadormorfológico, usando como base empírica os textos da Fase I do Corpus4. No âmbito doprojeto temático, está-se discutindo a probabilidade de passarmos a usar esta novaferramenta para a análise morfológica dos textos. Kepler esteve presente na minhaapresentação do novo sistema de preparação dos textos, e pudemos então compartilharidéias; ficamos tranqüilos quanto à compatibilidade da preparação dos textos com aferramenta de etiquetação morfológica por ele desenvolvida.

4 Trata-se de um etiquetador mais ágil que aquele que utilizamos atualmente, por trabalhar com Cadeias de alcancevariável, ao passo em que a ferramenta atual trabalha com Cadeias de grau 2. Cf. Kepler, Fábio Natanael: “UmEtiquetador Morfo-Sintático Baseado em Cadeias de Markov de Tamanho Variável” – Dissertação de Mestrado, defendida noIME-USP em 12/04/2005 (Prof. Dr. Marcelo Finger, Orientador).

r e l a t ó r i o d e a t i v i d a d e s I I . B a l a n ç o |8|

Page 9: I. Relatório de Atividades

p r o j e t o m e m ó r i a s d o t e x t o – r e l a t ó r i o d e p e s q u i s a - j u n h o , 2 0 0 5

2 .3 Ap l i cação e Ges tão : Março – Ma io/2005 Os resultados da etapa de experimentação e da etapa de desenvolvimento (cf. 2.1 e 2.2 acima)refletiram na etapa atual, dedicada à aplicação dos desenvolvimentos técnicos aos textos do Corpus, àsistematização dos trabalhos de preparação dos textos, e à sua gestão junto a uma equipe técnica emformação. Isto se deu em diversas frentes, como se detalha abaixo.

2.3.1 Sistematização e Gestão da preparação dos textosPara que os trabalhos de preparação dos textos possam decorrer da melhor maneira para oProjeto Temático, foi necessário buscar sistematizá-los de forma a poderem ser conduzidospor uma equipe técnica com relativa autonomia.Nesta fase final do primeiro ano, com as diretrizes principais já delineadas e alguns entravestécnicos solucionados, tornou-se possível formular um sistema de trabalho nesse sentido.Formou-se uma equipe técnica inicial, com a entrada de duas alunas com Bolsa deCapacitação Técnica financiada pela Fapesp (cf. 2.3.3 e 2.3.5 a seguir); temos ainda trêsoutros estudantes interessados em participar destes trabalhos, e que têm colaborado deforma constante (porém ainda sem compromisso em termos de bolsas de trabalho) nostrabalhos de digitação e anotação inicial. Além disso, tenho procurado envolver nesseprocesso outros pesquisadores ligados ao Projeto Temático, e que serão os primeiros e maisdiretos usuários dos textos anotados – ou seja: os alunos de mestrado e doutorado cujasdissertações e teses usam o Corpus como base empírica. Tenho buscado sua colaboração emdiversos sentidos: consultando-os quanto ao interesse por novos textos a serem incluídos,pedindo sua opinião sobre o sistema de anotação, etc. Desde o início deste processo, as decisões e atividades ligadas à preparação dos textosvinham sendo documentadas e compartilhadas com a equipe. A partir do final de Maio, estadocumentação foi reunida sob forma de um Manual de Preparação dos Textos, compostode duas partes:Composição do Manual:

I. Introdução :Um histórico da preparação dos textos no Corpus desde a primeira fase, e acontextualização do novo sistema; visão geral do fluxo dos trabalhos; balanço dosprogressos e metas atuais.

II. Procedimentos :Um detalhamento dos processos envolvidos em cada etapa de preparação, comdocumentação completa.

O Manual reúne todos os avanços obtidos na fase de experimentação e desenvolvimento dosistema concebido no âmbito do meu projeto de pesquisa, e pode ser considerado seuprincipal produto técnico – junto ao próprio Corpus reestruturado. Com base nele, os trabalhos estão prosseguindo e poderão se desenvolver futuramente noâmbito da equipe técnica. Este processo poderá ser considerado bem-sucedido ao se tornarpraticável um andamento sistemático dos trabalhos, com minha supervisão, mas de formaautônoma. Idealmente, esta preparação autônoma incluiria a transcrição, a anotação bruta, ea edição da variação de grafia dos textos.Nos pontos a seguir, resumem-se as principais etapas do trabalho atual de prreparação dostextos, remetendo em cada caso às seções relevantes do Manual.

r e l a t ó r i o d e a t i v i d a d e s I I . B a l a n ç o |9|

Page 10: I. Relatório de Atividades

p r o j e t o m e m ó r i a s d o t e x t o – r e l a t ó r i o d e p e s q u i s a - j u n h o , 2 0 0 5

2.3.1 Seleção e transcrição de novos materiais ; anotação XML inicialCom base no desenvolvimento das técnicas de anotação, novos textos estão sendo trazidospara o Corpus, já de início trabalhados segundo o novo sistema (a partir da experiência com otexto-piloto por mim escolhido já em 2004, de Magalhães de Gandavo). 2.3.1.1 Seleção e Transcrição: Atualmente, três textos (todos eles, crônicas históricas, doacervo virtual da Biblioteca Nacional de Lisboa) estão sendo trancritos e anotados5: • Rui de Pina: Chronica do muito alto e muito esclarecido principe Dom Diniz, sexto rey de Portugal.• Fernão Lopes: Chronica del Rey D. Ioam I de Boa Memoria e dos reys de Portugal o decimo.• Duarte Galvão: Chronica do muito alto e muito esclarecido principe D. Affonso Henriques primeiro

Rey de Portugal. Nessa vertente dos trabalhos, pude contar, neste último mês, com a colaboração da alunaMilene Ortega, que acaba de ser aceita como bolsista no programa de Capacitação Técnicajunto à Fapesp (processo 05/52324-8). Tendo já realizado um curso em linguagem XMLministrado por Thorsten Trippel na Unicamp em 2003, esta aluna possui o conhecimentofundamental para conduzir a anotação inicial dos textos ao longo da digitação; com odecorrer dos trabalhos, poderá desenvolver ainda mais esta técnica, potencialmenteampliando o escopo de sua colaboração para a fase de edição dos textos. 2.3.1.2 Anotação da Estrutura Bruta: A etapa de transcrição inclui a anotação inicial do textoem XML, a que chamamos estrutura bruta; esta anotação codifica as informações gráficas dotexto original (quebras de linha, quebras de página, divisão em seções, etc.). No Manual,detalham-se os aspectos técnicos deste procedimento. Entretanto, uma questão já não tão simplesmente técnica é a relevância de se manter asinformações gráficas de um texto, transcrevendo o original sem perder as quebras de linha, aparagrafação, a paginação, a divisão em seções, etc. Estou trabalhando a partir da premissade que a estrutura gráfica original de um texto impresso ou manuscrito é parte integrantedeste texto, e pode vir a ser relevante para sua interpretação, a depender do tipo de trabalhoa que se queira destinar este material.• Para um resumo da concepção do sistema de transcrição e anotação inicial dos novos

textos, cf. Manual, I.3.1 e I.3.2; • Para um detalhamento dos procedimentos de transcrição, cf. Manual, II.1.1• Para um detalhamento dos procedimentos de anotação da estrutura bruta, cf. Manual,

II.1.2

5 Referências completas:

PINA, Rui de, 1440?-1522? (Ferreira, 1689-1739, ed. Lit). Chronica do muito alto e muito esclarecido principe DomDiniz, sexto rey de Portugal / composta por Ruy de Pina... ; fielmente copiada do seu original por Miguel LopesFerreyra. Lisboa Occidental: Na Off. Ferreyriana, 1729. - [12], 107 p. ;31cm BN H.G. 11683//6 V

LOPES, Fernão. Chronica del Rey D. Ioam I de Boa Memoria e dos reys de Portugal o decimo / composta porFernam Lopez. Em Lisboa: Antonio Alvarez, 1644. - 2 v.;28 cm. BN H.G. 2551V. BN H.G.2552 V.

GALVAO, Duarte, 1435-1517. Chronica do muito alto e muito esclarecido principe D. Affonso Henriques primeiroRey de Portugal / composta por Duarte Galvão ; fielmente copiada do seu original, que se conserva no Archivo Realda Torre do Tombo... por Miguel Lopes Ferreira. - Lisboa Occidental : na Officina Ferreyriana, 1726. - [23], 95 [1] p.; 27 cm http://purl.pt/308

r e l a t ó r i o d e a t i v i d a d e s I I . B a l a n ç o |10|

Page 11: I. Relatório de Atividades

p r o j e t o m e m ó r i a s d o t e x t o – r e l a t ó r i o d e p e s q u i s a - j u n h o , 2 0 0 5

2.3.2 Desenvolvimento das normas de edição dos textosUm dos objetivos centrais do novo sistema de preparação dos textos é possibilitar umaedição completa, criteriosa, e plenamente recuperável de textos com grafia original. Adecisão de passarmos a fazer uso de edições originais, e de incluirmos textos manuscritos emedievais na nova fase do Corpus, traz desafios do ponto de vista técnico – principalmenteem razão das dificuldades geradas pela variação de grafia para as ferramentas de análiselingüística automática. Uma das metas do sistema de edição é minimizar ou até eliminar taisdificuldades, possibilitando assim o uso de materias originais, com ganhos na qualidadehistórica e filológica do Corpus. No Manual, explicitam-se os procedimentos técnicos da edição no novo sistema (isto é, asnormas de codificação ou anotação das intervenções realizadas nos textos); há, ainda, umesboço para a formação de Diretrizes de Edição – as quais, para além do ponto de vista técnicoda codificação, deverão tratar da consistência lingüística das intervenções. No momento,estou elaborando a edição completa do texto-piloto (a “História” de Gandavo); com otérmino dessa tarefa, será possível compor as Diretrizes. Conforme se detalha no Manual, atécnica que estou usando para anotar as intervenções no texto permite a geração de glosáriosde edição, com base nos quais poderei checar a consistência do sistema e elaborar diretrizessistemáticas.O plano para o futuro é que todos os novos textos, depois de terem sido transcritos eanotados quanto à estrutura bruta pela equipe técnica, passem pelo mesmo processo deedição de grafia. Inicialmente, isto estaria a meu cargo; com o tempo, o ideal será transferiresta tarefa para a equipe técnica, que assim poderá levar a cabo a edição de modo autônomoa partir das Diretrizes. Observo que, para além das questões técnicas delineadas no Manual, o sistema de ediçãocontrolada concebido para o trabalho no Corpus Histórico permite um mapeamento davariação de grafia inédito, nessa extensão, para textos portugueses dessa época (séculos 14 a19). Os resultados desse processo de edição podem, assim, representar em si valores deinteresse para outras pesquisas.• Para um resumo da concepção do sistema de edição dos novos textos, cf. Manual, I.3.1 e

I.3.2; • Para um detalhamento dos procedimentos, cf. Manual, II.2.1.; • Para um esboço das Diretrizes de Edição, cf. Manual, II.2.3.

2.3.3 Adaptação dos textos da Fase I ao novo sistema de preparaçãoFoi preciso normalizar a anotação de todos os textos da Fase I, estendendo a nova anotaçãoà totalidade do material, de acordo com o novo sistema de anotação da estrutura bruta eedição. Isto já está parcialmente realizado e será completado até agosto. • Para um resumo do processo de adaptação, cf. Manual, I.3.4; • Para um detalhamento dos procedimentos envolvidos na adaptação da anotação da

estrutura bruta,, cf. Manual, II.1.3;• Para um detalhamento dos procedimentos envolvidos na adaptação da anotação das

edições, cf. Manual, II.2.3 .

r e l a t ó r i o d e a t i v i d a d e s I I . B a l a n ç o |11|

Page 12: I. Relatório de Atividades

p r o j e t o m e m ó r i a s d o t e x t o – r e l a t ó r i o d e p e s q u i s a - j u n h o , 2 0 0 5

2.3.5 Desenvolvimento do Catálogo Dinâmico“Catálogo Dinâmico” é como propus chamarmos o novo sistema de classificação, organizaçãoe busca a ser aplicado ao Corpus Histórico. Esse sistema deverá aproveitar plenamente aspossibilidades trazidas pelo novo sistema de anotação e geração de documentos. Há umaversão-teste já disponível (sobretudo para uso interno), que será completada na forma deVersão Preliminar a ser lançada em Agosto de 2005.O desenvolvimento desse Catálogo está intimamente ligado ao objetivo mais denso do meuprojeto: o de refletir sobre a natureza dos textos incluídos no Corpus, sua história deprodução, as etapas de interferência sofridas por cada um sob forma de sucessivas edições eas marcas por elas deixadas (ou seja: as Memórias do Texto). A parte da anotação que importa centralmente ao Catálogo é a estruturação dos cabeçalhosdos textos – onde se codificam as informções externas, sob forma de uma “ficha bibliográfica”eletrônica. A codificação dessas informações sobre os textos no Corpus Histórico precisaatender a requerimentos especiais. De um lado, requerimentos que emanam da naturezadesses textos enquanto textos históricos – como por exemplo, condições especiais de autoriae direitos. De outro lado, há requerimentos ligados às minhas preocupações de pesquisa (queexplicito em 2.3.5.2 abaixo)O desenvolvimento do Catálogo envolve, assim, desafios técnicos e de reflexão teórica,detalhados a seguir.2.3.5.1 Desafios técnicos no desenvolvimento do Catálogo O Catálogo está sendo desenvolvido paralelamente aos processos de transcrição e anotaçãodos textos; os itens integralmente anotados vão sendo adicionados à versão teste. Parapossibilitar um registro completo das informações sobre cada texto, segui a formulaçãosugerida em consultoria com T. Trippel: uma estrutura de anotação enxuta, que segue umalógica bastante simples e pode ser re-estruturada e repensada de modo ágil e flexível. Comojá disse, essa consultoria forneceu uma vestimenta técnica à idéia trazida pela minha reflexãosobre os textos. Essa 'vestimenta técnica' envolve sobretudo a aplicação de buscas com X-Query, linguagemque eu antes desconhecia; com base na amostra deixada por T. Trippel, e por meio de umacomunicação constante via internet, estou escrevendo novos scripts que potencializam o usodo Corpus a partir do Catálogo. Esse sistema ainda precisa ser reformulado e aprofundado, oque só será possível por meio de seguidas rodadas de tentativa e erro. Nesta fase final do primeiro ano de trabalho, poderei contar com uma colaboradora nesteprocesso: a aluna Anna Carolina Garcia de Souza, que acaba de requisitar bolsa deCapacitação Técnica junto à Fapesp. Ela já está aprendendo as linguagens XML, XLST e X-Query, e com sua colaboração o desenvolvimento do Catálogo Dinâmico será agilizado. 2.3.5.2 Os desafios teóricos no desenvolvimento do Catálogo É no plano dos desafios teóricos que se pode ver como as minhas preocupações de pesquisaremetem ao desenvolvimento do Catálogo. Em particular, essa ligação se revela na idéia de se manter diversos planos ou camadas deinformações para cada texto, seguindo as diferentes etapas de edição sofridas. Essascamadas de informações são anotadas nos cabeçalhos dos textos. Desde o início, não mepareceu desejável ter uma estrutura inteiramente horizontal de informações nos cabeçalhos,tendo em vista que para algumas categorias há informações diferentes a depender da etapa

r e l a t ó r i o d e a t i v i d a d e s I I . B a l a n ç o |12|

Page 13: I. Relatório de Atividades

p r o j e t o m e m ó r i a s d o t e x t o – r e l a t ó r i o d e p e s q u i s a - j u n h o , 2 0 0 5

de edição.Um exemplo bem claro são as informações sobre direitos autorais. Para uma obra escrita noséculo XVI, os direitos do “autor original” já estão caducos – ou seja, esta obra está nodomínio público. Entretanto, se a fonte para a transcrição digital deste texto for uma ediçãorealizada por terceiros no século 20 (como é o caso de diversas obras da Fase I do Corpus), háque fazer referência aos direitos desses editores. Há ainda os direitos da própria equipe doCorpus, que incidem sobre a edição eletrônica. Todas essas informações devem estaranotadas nos textos; no entanto, nos cabeçalhos clássicos, só é possível inserir uma categoria“direitos autorais”.Após alguma discussão inicial com T. Trippel, cheguei à proposta atual, na qual as meta-informações sobre os textos são divididas em macro-categorias, a que chamei gerações(codificadas como <generation>). Cada um desses conjuntos de meta-informaçõesrepresenta uma etapa diferente de edição dos textos. Assim, a primeira geração é a obra original(sobre ela, posso ter informações mais ou menos completas, como nome do autor, título,data de publicação, gênero, etc.) - que pode ou não ser a edição que é a fonte imediata daminha transcrição. A segunda geração é a edição subseqüente (para a qual terei informaçõescomo data, editor, direitos, etc.) - a qual novamente pode ou não ser a edição que é a fonteimediata da minha transcrição. Pode haver um número indeterminado de gerações assimformadas, até chegar à última geração. A última geração é justamente a edição do Corpus; aíse incluem as informações técnicas, como o nome do digitador, o tamanho do texto, etc. Neste ponto se compreende que para além das questões técnicas relativas às camadas deedição (caso por exemplo dos direitos autorais), há questões mais teóricas, que remetem àqualidade destes textos para a pesquisa lingüística. Com base na classificação anotada nostextos, e graças às buscas possibilitadas pelo Catálogo Dinâmico, um pesquisador podeselecionar os textos de acordo com sua qualidade filológica – escolhendo, por exemplo,apenas textos transcritos a partir da “Primeira Geração”. Note-se que idealmente, os novostextos serão todos desta categoria, ou seja, seriam textos transcritos a partir da edição maisantiga (ou próxima do manuscrito original) a que se tem acesso. Assim, a estruturação do sistema de meta-informações (metadata) nos textos do Corpus e seuaproveitamento no Catálogo Dinâmico conferem uma base técnica sobre a qual alguns dosobjetivos centrais da minha pesquisa poderão se desenvolver: a produção de textoseletrônicos com qualidade filológica, disponíveis livremente para um público diverso; e areflexão sobre a natureza histórica desses textos, de modo integrado à concepção doconjunto. Entre os desafios dessa integração, estão ainda: o aprofundamento da reflexão sobre assucessivas edições que sofreram os textos do Corpus; sua contextualização histórica; suacategorização em termos de gêneros de escrita (aspecto que também está sendo codificadonos textos, mas de forma ainda muito precária). As metas quanto a esses desafios sãodetalhadas neste relatório na seção II.Perspectivas.• Para um resumo da concepção do Catálogo Diâmico, cf. Manual, I.3.3; • Para uma exposição dos procedimentos para sua construção, cf. Manual, II.4.

Mais adiante, na seção I.4, há um Quadro-Resumo onde se incluem as etapas aqui descritas e outrasatividades de cunho acadêmico, resumidas abaixo.

r e l a t ó r i o d e a t i v i d a d e s I I . B a l a n ç o |13|

Page 14: I. Relatório de Atividades

p r o j e t o m e m ó r i a s d o t e x t o – r e l a t ó r i o d e p e s q u i s a - j u n h o , 2 0 0 5

3 . A t i v i d a d e A c a d ê m i c a

3 .1 Ba lançoEm conjunto com as atividades específicas do projeto Memórias do Texto na estruturação do CorpusHistórico, conduzi também neste período atividades acadêmicas em outros planos, como pontuo aseguir.

3.1.1 Inserção Institucional da Pesquisa de Pós-doutoradoEm novembro de 2004, depositei minha tese de doutoramento (“Língua Barroca: Sintaxe eHistória do português nos 1600 ”), revista, junto ao IEL. No mesmo mês, apresentei o projetoMemórias do Texto para os colegiados do Instituto, dando início ao processo que resultou emminha inclusão como Professor Colaborador na pós-graduação agora em 2005.

3.1.2 Experiência DocenteNeste ano, pude experimentar alguma atividade docente, sob forma de um curso de férias equatro aulas avulsas a convite de professores do Instituto: • Em janeiro, ministrei o curso de Lingüística Histórica na II Escola de Verão em Lingüística

Formal da América do Sul (EVeLin 2005), a convite dos organizadores (professores ealunos de pós-graduação do IEL- Unicamp, e do Massachussets Institute of Technology - MIT,Cambridge – EUA). O curso está disponível no seguinte endereço:<http://www.ime.usp.br/~tycho/participants/psousa/evelin/index.html>

• Desde fevereiro, estou assitindo a professora Charlotte Galves no curso SeminárioAvançado em Lingüística Histórica, na pós-graduação do IEL.

• A convite da professora Maria Bernadette Abaurre, ministrei uma aula sob o tema“Lingüística de Corpus” no curso de Lingüística Histórica e Românica (graduação, turmadiurna).

• A convite da professora Patricia Prata, ministrei uma aula sob o tema “Diacronia vs.História”, no mesmo curso (graduação, turma noturna).

• A convite da professora Filomena Sandalo, ministrei duas aulas no curso de Introdução àSintaxe na pós-graduação (com os temas: “Chomsky e a Faculdade da Linguagem”;“Introdução à Teoria da Ligação”).

3.1.3 Produção CientíficaQuanto à minha produção científica nas áreas de Sintaxe e de Lingüística Histórica, nesteperíodo entre setembro de 2004 e maio de 2005 não apresento artigos científicospublicados; há, entretanto, quatro itens a sair até o final de 2005:• O artigo de autoria conjunta com Charlotte Galves “Clitic placement and the position of

subjects in the History of Europena Portuguese”, apresentado no Seventeenth Symposium onRomance Linguistics - Going Romance 2003 (novembro de 2003, Universidade de Nijimegen,Holanda, pela co-autora), foi incluido na publicação dos anais do encontro, a sair aindaneste ano6;

6 Referência completa: GALVES, C. M. C.; SOUSA, M. C. P. Clitic placement and the position of subjects in thehistory of European Portuguese. In: Seventeenth Symposium on Romance Linguistics, 2003, Nijmegen. Going

r e l a t ó r i o d e a t i v i d a d e s I I . B a l a n ç o |14|

Page 15: I. Relatório de Atividades

p r o j e t o m e m ó r i a s d o t e x t o – r e l a t ó r i o d e p e s q u i s a - j u n h o , 2 0 0 5

• O artigo “Clitic Placement in Classical Portuguese: Results from the Tycho Brahe Corpus”, escritoem colaboração com Charlotte Galves e Helena Britto (primeira versão: 2003) foiselecionado para publicação no Journal of Portuguese Lingustics, em uma edição especial sobo tema “Variation and change in the Iberian languages: the Peninsula and beyond”, a sair em 2005;

• Em março, fui convidada para colaborar com um projeto editorial coordenado porprofessores do IEL, ficando responsável pelo capítulo sobre Lingüística Histórica, que seencontra no momento em fase final de redação e deverá ser publicado também nesteano;

• O prof. Rolf Kemler, da Universidade de Leipzig, Alemanha, convidou-me a participardas “6.as Jornadas Alemãs de Lusitanística”, de 15 a 18 de Setembro de 2005, naUniversidade de Leipzig. Apresentarei, na secção "Grammatische Strukturen des europäischenPortugiesisch” ('Estruturas Gramaticais do Português Europeu'), o trabalho entitulado“New answers to old questions: Portuguese periodization revisited”, escrito em colaboração comCharlotte Galves e Cristiane Namiuti.

3.1.4 Participação em EventosAlém dos eventos internos ao Projeto Temático (oficinas de agosto e fevereiro), estive presentea dois eventos na área de tecnologia da informação, graças à instituição do Fórum Permanentede Conhecimento e Tecnologia da Informação organizado pela Coordenadoria de Relações Institucionais eInternacionais (CORI) – Unicamp. Os eventos a que compareci tiveram os seguintes temas: • “Sociedade e Tecnologia da Informação”, organizado pelo IFCH, em 09 de setembro de 2004; • “Gestão e Preservação de Documentos Digitais”, organizado pelo SIARQ, em 10 de março de

2005.

3 .2 Per spec t iva sA pequena experiência no plano da docência neste período mostrou-se muito recompensadora –tendo resultado diretamente, inclusive, no despertar do interesse de três alunas da graduação para otrabalho com o Corpus Histórico. Em vista disso, apresentei-me para ministrar o curso de Lingüística Histórica na pós-graduação doInstituto no segundo semestre de 2005. A proposta deste curso remete à elaboração do capítulosobre Lingüística Histórica que mencionei acima; esta refexão de um lado aproveita minhaexperiência no curso de verão, e de outro será aproveitada para as aulas na pós-graduação. O espírito da proposta que estou procurando desenvolver, no artigo e nos cursos, é abordar otrabalho do lingüista na área da assim chamada “Lingüística Histórica” como um trabalhofundamentalmente historiográfico. Ou seja, defendo a centralidade de se incorporar, na pesquisa daárea, uma reflexão cuidadosa sobre os textos enquanto “materiais de trabalho”, preocupando-se porexemplo com a qualidade das edições e com sua contextualização histórica – a pesquisa precisa,portanto, informar-se no campo da História e da Filologia. Deste modo, estou procurandocentralizar o foco principal das minhas atividades acadêmicas atuais nos temas históricos. É neste sentido que a atividade acadêmica que pretendo incorporar ao meu trabalho no segundoano de pesquisa pode ser especificamente pertinente para o projeto Memórias do Texto – uma vezque chega o momento de aprofundar a reflexão sobre os textos do Corpus em seu papel de fontes deinformação histórica, ou seja, em sua condição de material historiográfico (cf. II.Perspectivas).

Romance 2003. Nijmegen : University of Nijmegen, 2003. p. 39-40.

r e l a t ó r i o d e a t i v i d a d e s I I . B a l a n ç o |15|

Page 16: I. Relatório de Atividades

p r o j e t o m e m ó r i a s d o t e x t o – r e l a t ó r i o d e p e s q u i s a - j u n h o , 2 0 0 5

4 . Q u a d r o R e s u m o

2 0 0 4I. E x p e r i m e n t a ç ã oA g o s t o :• Oficinas com a equipe do Penn-Helsinki Parsed Corpus of Middle English

S e t e m b r o - D e z e m b r o :• Aplicação da codificação XML nos textos da Fase I do Corpus• Preparação de dois textos novos pelo novo sistema.

O u t r a s a t i v i d a d e s• 09 de setembro: Participação no evento: “Sociedade e Tecnologia da Informação”, parte do

Fórum Permanente de Conhecimento e Tecnologia da Informação (CORI-IFCH, Unicamp)

2 0 0 5II. D e s e n v o l v i m e n t o

F e v e r e i r o : • Oficina de Tecnologias de Texto – convênio CAPES-DAAD• Sessão Especial: “XML annotation and the POS Tagger”

O u t r a s a t i v i d a d e s• Responsável pelo curso de “Lingüística Histórica”, no EVeLin 2005.

III. A p l i c a ç ã o e G e s t ã o

M a r ç o - M a i o : • Aplicação da anotação XML (estrutura bruta)• Desenvolvimento do Catálogo Dinâmico• Seleção, digitação e anotação de novos materiais• Desenvolvimento das normas de edição dos textos• Gestão da preparação dos textos

O u t r a s a t i v i d a d e s• 10 de março: Participação no evento: “Gestão e Preservação de Documentos Digitais”, parte do

Fórum Permanente de Conhecimento e Tecnologia da Informação (CORI-SIARQ, Unicamp)• Preparação de dois artigos para publicação• Aulas a convite dos professores do Instituto

r e l a t ó r i o d e a t i v i d a d e s I I . B a l a n ç o |16|

Page 17: I. Relatório de Atividades

p r o j e t o m e m ó r i a s d o t e x t o – r e l a t ó r i o d e p e s q u i s a - j u n h o , 2 0 0 5

III. P e r s p e c t i v a s

1 . O b j e t i v o s G e r a i sLembro aqui a idéia que constitui a motivação principal desta pesquisa, conforme exposta noprojeto do trabalho:

“Um corpus histórico eletrônico pode ser concebido como um conjunto de textos escritos em épocas passadas ereunidos em torno de uma determinada concepção de língua, com o objetivo fundamental de constituir umcorpo robusto e tecnologicamente trabalhável de informações que possibilitem análises aprofundadas sobre osdiferentes estágios da língua. Os elementos que compõem este corpo de informações percorrem um longocaminho até sua transformação em arquivos computacionalmente estruturados. Neste percurso, os diferentesestágios de processamento imprimem modificações que podem constituir informações importantes para acompreensão do significado histórico e linguístico dos textos. Os rastros deixados nos documentos no caminhoentre o momento em que são escritos (à pena de ganso, em pergaminhos...) e sua instrumentaçãocomputacional constituem o que chamarei aqui de memórias do texto. Tais memórias podem ser capturadas ecodificadas tecnologicamente, e contribuir para a construção do conhecimento que buscamos no legado dessestextos”.

O início de uma reflexão teórica neste sentido será o objetivo central do segundo ano da pesquisa.Na proposta inicial, os textos do Corpus Histórico em sua nova fase, além de servirem aos propósitosde análise pelas ferramentas computacionais, podem passar a ser objetos de interesse em si mesmos,ampliando de fato os destinos do Corpus. Ao interesse linguístico-computacional intrínseco destematerial, podem agregar-se interesses de outras áreas do conhecimento, como a teoria literária e ahistória; e ao tornar os textos mais confortáveis à leitura humana, o Corpus pode se tornar alvo deinteresse para um público não-acadêmico, conferindo-lhe assim uma propriedade de preservação edifusão de documentos de grande valor histórico e cultural. Neste aspecto da pesquisa, o resultadoimediato proposto no projeto era um sistema de categorização tipológica dos textos do Corpus,como resultado de uma pesquisa que integre estudos históricos e linguísticos. Trabalharei naelaboração desta categorização na etapa que se aproxima. Essa reflexão irá repercurtir em alguns aspectos do trabalho técnico de formação do Corpus, emespecial no que se refere ao desenvolvimento do Catálogo Dinâmico (cf. 2.3.5 acima) – que poderácontar, por exemplo, com uma melhor classificação por gêneros de escrita, e uma melhorcontextualização de cada etapa de edição dos textos. Poderá ainda refletir-se no processo de seleçãode novos textos, ou na recomendação de abordagens comparativas de diferentes edições de umamesma obra. Pretendo, entretanto, conferir à reflexão histórica um escopo mais amplo, e independente daaplicação na formação do Corpus Histórico. Nesse sentido, poderei contar com a proximidade de umaequipe de pesquisa na área da teoria literária, cujo trabalho pode representar um enriquecimentopara a reflexão aqui proposta: a equipe do projeto Memória de Leitura (cf.http://www.unicamp.br/iel/memoria/) .

r e l a t ó r i o d e a t i v i d a d e s I I I . P e r s p e c t i v a s |17|

Page 18: I. Relatório de Atividades

p r o j e t o m e m ó r i a s d o t e x t o – r e l a t ó r i o d e p e s q u i s a - j u n h o , 2 0 0 5

2 . P l a n o d e P r o c e d i m e n t o s

O segundo ano será dividido em dois ciclos:

• Estruturação do trabalho técnico: Até o final de 2005, será finalizado o sistema de preparação dos textos, e poderemos lançar umaversão estruturada do Catálogo Dinâmico com acesso a todos os textos com a nova preparação. Osavanços do processo técnico de preparação dos textos assim concebido continuarão a serdocumentados no Manual.Tal como previsto já no Projeto de Pesquisa, o resultado desse trabalho técnico formará umartigo a ser submetido para publicações da área de tecnologias de texto (idealmente, emcolaboração com T. Trippel); o título provisório do artigo seria “Aspectos tecnológicos da construção deum corpus eletrônico do português”.Lembro também que, além disso, até o final do primeiro ano da pesquisa (Agosto, 2005)seránecessário finalizar algumas etapas do trabalho técnico com os textos; estas etapas estãoexplicitadas no Manual, e são repetidas a seguir. O planejamento para este ciclo está detalhado em 2.1 a seguir, sob forma de Metas Pontuais.

• Estruturação da reflexão teórica : No segundo semestre de 2006, estarei dedicada à pesquisa histórica sobre os textos. Comoresultado imediato dessa reflexão, irei elaborar o artigo também já previsto no Projeto dePesquisa, com o título provisório de “Memórias do texto: aspectos históricos na construção de um corpuseletrônico do português”. Além disso, novamente como previsto no projeto, ao final do segundo anopretendo organizar um seminário em que a comunidade de pesquisa será convidada a apresentartrabalhos fundados no material disponível. O planejamento para este ciclo está detalhado em 2.2 a seguir.

r e l a t ó r i o d e a t i v i d a d e s I I I . P e r s p e c t i v a s |18|

Page 19: I. Relatório de Atividades

p r o j e t o m e m ó r i a s d o t e x t o – r e l a t ó r i o d e p e s q u i s a - j u n h o , 2 0 0 5

2 .1 Es t ru turação do Traba lho Técn ico2.1.1 Metas para seleção e inclusão de novas obras

• Início da transcrição anotada e edição de novos materiais – em princípio:• Gomes Eanes Zurara (ca.1410-1474): Crônica do Conde D. Pedro de Meneses,

Fundação Calouste Gulbenkian.• Francisco Manuel de Melo (1608-1666): Epanaphoras de varia historia portugueza... em

cinco relaçoens de sucessos pertencentes a este reyno (1660);• Luís Caetano de Lima (1671-1757): Geografia histórica de todos os estados soberanos de

Europa (1734);• Manuel dos Santos (1672-1760): Historia sebastica (1735);• Manuscritos cedidos pelo projeto Para a História do Português Brasileiro

2.1.2 Metas para a anotação da estrutura bruta• Finalização da adaptação dos 42 textos da primeira fase (até agosto, 2005); • Finalização da transcrição anotada e da edição dos cinco textos selecionados até agora.• Desenvolvimento de um sistema de controle de versões, com aplicação de uma

numeração automática das partes do texto codificadas.

2.1.3 Metas para a edição dos textos• Verificação da consistência e correção da aplicação do novo sistema de edição aos 42

textos da Fase I, resultando em sua finalização completa (até agosto, 2005); • Finalização da edição do texto-piloto e desenvolvimento das Diretrizes de Edição.

2.1.4 Metas para o Catálogo Dinâmico• Término da versão-teste atual, ou seja: inclusão de todos os 42 textos da Fase I, com

vistas ao lançamento de uma Versão Preliminar em Setembro de 2005;• Desenvolvimento técnico, incluindo:

• concepção e aplicação de buscas mais refinadas (incluindo buscas cruzadas);• concepção e aplicação de técnicas para a geração de sub-corpora compactados

para download;• refinamento da categorização por gêneros;

• Lançamento de uma Versão Completa, com a absorção dos desenvolvimentos acima, noinício de 2006.

r e l a t ó r i o d e a t i v i d a d e s I I I . P e r s p e c t i v a s |19|

Page 20: I. Relatório de Atividades

p r o j e t o m e m ó r i a s d o t e x t o – r e l a t ó r i o d e p e s q u i s a - j u n h o , 2 0 0 5

2 .2 Es t ru turação da Ref l exão Teór ic a

2.2.1 Esboço Preliminar para o artigo “Memórias do texto: aspec tos históricos naconstrução de um corpus e letrônico do português”O artigo irá tomar como ponto de partida a contextualização dos ambientes editoriais em que sãoproduzidos os textos do Corpus Histórico, como mostra o seguinte esboço:

I. Os contextos editoriais portugueses entre os séculos 16 e 19:I.1 O contexto editorial do século 16

As oficinas: Antonio Gonçalvez e a impressão da obra de Magalhães de Gandavo (1576).I.2 O O contexto editorial do século 17

As oficinas: Antonio Alvarez e a re-edição da obra de Fernão Lopes (1644).I.3 O contexto editorial do século 18

A Officina Ferreriana e as reedições das Crônicas Históricas: de Rui de Pina, em 1729; de Duarte Galvão, em 1726.

I.4 O contexto editorial do século 19A Typographia da Academia Real das Sciencias, e a re-edição dos tomos da MonarquiaLusitana, de Bernardo de Brito (1569-1617) e António Brandão (1584-1637), em 1806.

I.5 O contexto editorial do século 20As re-edições da Imprensa Nacional – Casa da Moeda (vários autores seiscentistas esetecentistas); as re-edições da Livraria Sá da Costa (vários autores seiscentistas e setecentistas).

II. Questões para cada contexto:• O caminho dos manuscritos até as obras impressas;• A concepção de “fidelidade” (... fielmente copiada do seu original por...) • As diretrizes e objetivos das edições e re-edições;• Efeitos sobre o texto.

O levantamento bibliográfico preliminar (cf. 2.2.2 abaixo) inclui obras sobre os tópicos históricos(história da formação da norma escrita portuguesa, as reformas ortográficas, e a instituição dastipografias), e obras específicas sobre a questão dos efeitos no texto. Para desenvolver esse último aspecto, pretendo comparar algumas obras utilizadas no corpus a parirde re-edições do século 20, que se encontram agora disponíveis como fac-símiles das impressõesoriginais. Essa comparação é uma oportunidade de se iniciar um cotejo entre as duas versões(original e re-edição), que pode resultar em aspectos interessantes para a discussão sobre asMemórias do Texto.

r e l a t ó r i o d e a t i v i d a d e s I I I . P e r s p e c t i v a s |20|

Page 21: I. Relatório de Atividades

p r o j e t o m e m ó r i a s d o t e x t o – r e l a t ó r i o d e p e s q u i s a - j u n h o , 2 0 0 5

2.2.2 Levantamento Bibliográfico Preliminar- Tópicos históricos:• Santos, Antonio Ribeiro dos: Memoria para a história da typografia portugueza do seculo XVI. Lisboa, 1814.

• Noronha, Tito de: A imprensa portuguesa durante o seculo XVI. Porto: Imprensa Portuguesa, 1874.

• Viterbo, Sousa: O movimento tipográfico em Portugal no século XVI : apontamentos para a sua história . Coimbra: Imp.da Universidade, 1924 .

• Brito, Gomes de: Noticia de livreiros e impressores de Lisbôa na 2ª metade do seculo XVI. Lisboa: Imp. Libanio daSilva, 1911.

• Deslandes, Venâncio: Documentos para a história da tipografia portuguesa nos séculos XVI e XVII. Lisboa: Imp. Nac.-Casa da Moeda, 1988.

• Marquilhas, Rita: Norma gráfica setecentista. Dissertação de Mestrado, Lisboa, Universidade de Lisboa.

- Obras para cotejo:1. Manuel Bernardes (1644-1710), Nova Floresta ou Silva de vários apotegemas:• edição de época:

Nova floresta ou silva de vários apophtegmas e ditos sentenciosos espirituais e morais. - Lisboa : Of. de Valentim da CostaDeslandes, 1706-1728. - 5 v. ; 20 cm http://purl.pt/253

• edição utilizada no Corpus:Nova Floresta (preâmbulo de J. Pereira de Sampaio). Volume I. Porto, Livraria Lello & Irmão, 1949

2. Luís António Verney (1713-1792), Verdadeiro Método de Estudar:• edição de época:

Verdadeiro metodo de estudar : para ser util à Republica, e à Igreja : proporcionado ao estilo, e necesidade de Portugal. /Exposto em varias cartas, escritas polo R. P. * * * Barbadinho da Congregasam de Italia, ao R. P. * * * Doutorna Universidade de Coimbra ; Tomo primeiro [segundo]. - Valensa [Nápoles] : na oficina de Antonio Balle[Gennaro e Vincenzo Muzio], 1746. - 2 v. ; 4º (21 cm) http://purl.pt/118

• edição utilizada Corpus: Verdadeiro Método de Estudar (ed. António Salgado Filho). Lisboa, Livraria Sá da Costa - Editora, 1949.

3. Correia Garção (1724-1771), Obras Completas:• edição de época:

Obras poeticas - Lisboa : Regia Off. Typ., 1778. - 1 v. ; 20 cm http://purl.pt/243

• edição utilizada Corpus: Obras Completas (texto fixado, prefácio e notas por António José Saraiva). Lisboa, Livraria Sá da Costa, 1982

4. Almeida Garret (1799-1854), Viagens na minha terra:• edição de época:

Viagens na minha terra - [1ª ed.]. - Lisboa : Typ. Gazeta dos Tribunais, 1846. - 2 v. ; 17 cm. - (Obras de J. B. deA. Garrett ; 8, 9) http://purl.pt/55

• edição utilizada Corpus: Viagens na Minha Terra (electronic edition - CD-ROM - Biblioteca Virtual de Autores Portugueses). Lisboa,Imprensa Nacional - Biblioteca Nacional, 1998

r e l a t ó r i o d e a t i v i d a d e s I I I . P e r s p e c t i v a s |21|

Page 22: I. Relatório de Atividades

p r o j e t o m e m ó r i a s d o t e x t o – r e l a t ó r i o d e p e s q u i s a - j u n h o , 2 0 0 5

2.2.3 Organização do Seminário “Memórias do Texto”Conforme já esboçado no Projeto de Pesquisa, pretendo organizar um Seminário (com o títuloprovisório “Memórias do Texto”), aberto à comunidade acadêmica. O foco do encontro será a reflexão sobre o texto, a partir de diferentes áreas: linguísticacomputacional, linguística histórica, linguística textual, filologia, teoria literária. Um dos objetivosdessa realização será pôr à prova a multiplicidade de usos do Corpus Histórico, e fomentar as diversasperspectivas de reflexão que ele pode propiciar.Como preparação para este encontro maior, estou organizando para o início do segundo ano depesquisa uma oficina conjunta com a equipe do Projeto Memórias da Leitura, na qual poderei debateras idéias do projeto Memórias do Texto, contando com a colaboração e a experiência daquelespesquisadores. Esta sugestão foi já discutida com a Professora Márcia Abreu, coordenadora doprojeto, que me ofereceu pleno apoio. A partir da consultoria junto a esta comunidade de pesquisa ampliada, poderei delinear as bases parao Seminário, previsto para a segunda metade de 2006.

r e l a t ó r i o d e a t i v i d a d e s I I I . P e r s p e c t i v a s |22|

Page 23: I. Relatório de Atividades

p r o j e t o m e m ó r i a s d o t e x t o – r e l a t ó r i o d e p e s q u i s a - j u n h o , 2 0 0 5

3 . C r o n o g r a m a

Fina l do pr ime i ro ano de pesqu i saJunho a Agosto de 2005:

– Preparação para o lançamento da Versão Preliminar do Catálogo Dinâmico;– Oficina com a equipe do Projeto Memórias de Leitura (agosto, 2005);

Segundo ano de pesqu i saFase I:Setembro a Dezembro de 2005

– Lançamento do Catálogo Dinâmico, Versão Preliminar: setembro de 2005;– Seleção e supervisão da transcrição de novos textos (cf. 2.1.1 acima); – Desenvolvimento do sistema de preparação de textos (cf. 2.1.2 a 2.1.3 acima); – Desenvolvimento do Catálogo Dinâmico (cf. 2.1.4 acima);– Elaboração do artigo “Aspectos tecnológicos da construção de um corpus eletrônico do português”.

Fase II:Janeiro a Agosto de 2006

– Lançamento do Catálogo Dinâmico em Versão Completa;– Elaboração do artigo “Memórias do texto: aspectos históricos na construção de um corpus eletrônico

do português” (cf. 2.2.1 e 2.2.2 acima);– Organização do Seminário “Memórias do Texto” (cf. 2.2.3).

r e l a t ó r i o d e a t i v i d a d e s I I I . P e r s p e c t i v a s |23|