36
1- IDENTIFICAÇÃO DA PROPOSTA NOVA Início Março de 2013 TÍTULO: PNEUMOPATIAS OCUPACIONAIS: PADRÕES DA LINGUAGEM MÉDICA PARA LEIGOS E ESPECIALISTAS ÁREAS IMPLICADAS: Linguística de Corpus; Terminologia; Terminologia de Perspectiva Textual; Estudos do Texto e do Discurso; Processamento da Linguagem Natural. PROPONENTE/RESPONSÁVEL: Profa. Dra. Maria José Bocorny Finatto (UFRGS) Duração prevista: 36 meses. EQUIPE DE COLABORADORES DE PESQUISA: UFRGS/Instituto de Letras Prof. Dra. Maria José Bocorny Finatto (responsável e coordenadora) UFRGS/Faculdade de Medicina/Depto. de Pediatria e Puericultura Prof. Danilo Blank, médico Pediatra (consultor e colaborador) UFRGS/Instituto de Informática Profa. Dra. Aline Villavicencio (colaborador, pesquisador de Processamento da Linguagem Natural - PLN) PUCRS - Faculdade de Informática - FACIN Profa. Dra. Renata Vieira (colaborador, pesquisador de PLN) CONSULTOR/ESPECIALISTA CONVIDADO: Dr. Carlos Nunes Tietboehl Filho - Médico Pneumologista, Mestre e Doutor em Medicina Interna e do Trabalho (UFRGS), Hospital de Clínicas de Porto Alegre, Especialista em Toxicologia Aplicada (PUCRS) e Higiene Ocupacional (ITSEMAP/MAPFRE). Atual coordenador o Departamento de Pneumopatias Ocupacionais e Ambientais da Sociedade de Pneumologia e Tisiologia do Rio Grande do Sul (www.sptrs.org.br ) 2- CARACTERIZAÇÃO SINTÉTICA DA NOVA PESQUISA A SER EMPREENDIDA Introdução Esta iniciativa de pesquisa insere-se no âmbito da Linguística de Corpus, dos Estudos do Texto e de Terminologia de perspectiva textual. Visa reunir, estudar e oferecer, em um site especialmente desenvolvido, materiais textuais (corpora) e recursos computacionais (ferramentas para uso on-line) que possam contribuir para a percepção e subsidiar a descrição de padrões de uso da linguagem médica escrita brasileira na subárea das Pneumopatias Ocupacionais. Esses padrões serão observados em termos da presença de construções e de combinatórias recorrentes de diferentes tipos (fraseologias, combinatórias gramaticais, expressões terminológicas, etc.) as quais serão identificadas, quantificadas e analisadas. Os corpora relacionam-se a cenários de comunicação escrita entre especialistas e entre especialistas e leigos. A investigação visa reforçar diálogos e parcerias com colegas da área do Processamento da Linguagem Natural (PLN) em torno da composição e exploração de corpora, como também pretende criar subsídios para a descrição e sistematização da linguagem médica e das suas terminologias em português brasileiro no âmbito dos Estudos da Linguagem, especialmente em Linguística Aplicada. O recorte de conhecimento das Pneumopatias Ocupacionais e de suas principais temáticas e inter- relações integra-se aos campos da Medicina do Trabalho/Pneumologia. As informações e recursos relacionados ao tema, oriundas da nossa sistematização para fins de estudo linguístico, textual e terminológico, podem ser aproveitados para outros diferentes fins, sobretudo quando se considera âmbitos como o do programa governamental brasileiro de Atenção Integral à Saúde do Trabalhador. Nesse programa, entre outros elementos, a informação textual organizada é uma demanda de gestores, de sindicatos e de profissionais de saúde. Nesse cenário, inserem-se demandas sobre informações,

1- IDENTIFICAÇÃO DA PROPOSTA NOVA Início Março de 2013 ... · Dr. Carlos Nunes Tietboehl Filho - Médico Pneumologista, Mestre e Doutor em Medicina Interna e do Trabalho (UFRGS),

Embed Size (px)

Citation preview

Page 1: 1- IDENTIFICAÇÃO DA PROPOSTA NOVA Início Março de 2013 ... · Dr. Carlos Nunes Tietboehl Filho - Médico Pneumologista, Mestre e Doutor em Medicina Interna e do Trabalho (UFRGS),

1- IDENTIFICAÇÃO DA PROPOSTA NOVA Início Março de 2013 TÍTULO: PNEUMOPATIAS OCUPACIONAIS: PADRÕES DA LINGUAGEM MÉDICA PARA LEIGOS E ESPECIALISTAS ÁREAS IMPLICADAS: Linguística de Corpus; Terminologia; Terminologia de Perspectiva Textual; Estudos do Texto e do Discurso; Processamento da Linguagem Natural. PROPONENTE/RESPONSÁVEL: Profa. Dra. Maria José Bocorny Finatto (UFRGS) Duração prevista: 36 meses. EQUIPE DE COLABORADORES DE PESQUISA: • UFRGS/Instituto de Letras Prof. Dra. Maria José Bocorny Finatto (responsável e coordenadora) • UFRGS/Faculdade de Medicina/Depto. de Pediatria e Puericultura Prof. Danilo Blank, médico Pediatra (consultor e colaborador) • UFRGS/Instituto de Informática Profa. Dra. Aline Villavicencio (colaborador, pesquisador de Processamento da Linguagem Natural -PLN) • PUCRS - Faculdade de Informática - FACIN Profa. Dra. Renata Vieira (colaborador, pesquisador de PLN) CONSULTOR/ESPECIALISTA CONVIDADO: Dr. Carlos Nunes Tietboehl Filho - Médico Pneumologista, Mestre e Doutor em Medicina Interna e do Trabalho (UFRGS), Hospital de Clínicas de Porto Alegre, Especialista em Toxicologia Aplicada (PUCRS) e Higiene Ocupacional (ITSEMAP/MAPFRE). Atual coordenador o Departamento de Pneumopatias Ocupacionais e Ambientais da Sociedade de Pneumologia e Tisiologia do Rio Grande do Sul (www.sptrs.org.br)

2- CARACTERIZAÇÃO SINTÉTICA DA NOVA PESQUISA A SER EMPREENDIDA Introdução Esta iniciativa de pesquisa insere-se no âmbito da Linguística de Corpus, dos Estudos do Texto e de Terminologia de perspectiva textual. Visa reunir, estudar e oferecer, em um site especialmente desenvolvido, materiais textuais (corpora) e recursos computacionais (ferramentas para uso on-line) que possam contribuir para a percepção e subsidiar a descrição de padrões de uso da linguagem médica escrita brasileira na subárea das Pneumopatias Ocupacionais. Esses padrões serão observados em termos da presença de construções e de combinatórias recorrentes de diferentes tipos (fraseologias, combinatórias gramaticais, expressões terminológicas, etc.) as quais serão identificadas, quantificadas e analisadas. Os corpora relacionam-se a cenários de comunicação escrita entre especialistas e entre especialistas e leigos. A investigação visa reforçar diálogos e parcerias com colegas da área do Processamento da Linguagem Natural (PLN) em torno da composição e exploração de corpora, como também pretende criar subsídios para a descrição e sistematização da linguagem médica e das suas terminologias em português brasileiro no âmbito dos Estudos da Linguagem, especialmente em Linguística Aplicada. O recorte de conhecimento das Pneumopatias Ocupacionais e de suas principais temáticas e inter-relações integra-se aos campos da Medicina do Trabalho/Pneumologia. As informações e recursos relacionados ao tema, oriundas da nossa sistematização para fins de estudo linguístico, textual e terminológico, podem ser aproveitados para outros diferentes fins, sobretudo quando se considera âmbitos como o do programa governamental brasileiro de Atenção Integral à Saúde do Trabalhador. Nesse programa, entre outros elementos, a informação textual organizada é uma demanda de gestores, de sindicatos e de profissionais de saúde. Nesse cenário, inserem-se demandas sobre informações,

Page 2: 1- IDENTIFICAÇÃO DA PROPOSTA NOVA Início Março de 2013 ... · Dr. Carlos Nunes Tietboehl Filho - Médico Pneumologista, Mestre e Doutor em Medicina Interna e do Trabalho (UFRGS),

glossários e materiais instrucionais diversos sobre problemas respiratórios associados a alguns ambientes de trabalho e ocupações profissionais, principalmente as pneumoconioses, que são doenças advindas da inalação partículas de substâncias tóxicas de diferentes tipos (BRASIL, 1997 e 2006). Sobre corpora, corpus e córpus Corpus, palavra latina que significa literalmente “corpo, material”, cujo plural é corpora (também grafado em português como córpus, palavra invariante), grosso modo, designa acervos linguístisco-textuais em formato digital, passíveis de serem explorados com apoio informatizado. Entretanto, no âmbito da reunião de um conjunto de textos escritos que tratassem de um dado tema como, por exemplo, o tema das Pneumopatias Ocupacionais, tais corpora não devem ser confundidos com conjuntos aleatórios de dados ou de textos escritos, tomados a esmo, visto que necessitam ser criteriosamente reunidos. Parafraseando uma definição de corpus (linguístico) endossada por Berber Sardinha (2004, p. 18), pode-se dizer que esses acervos correspondem a conjuntos de dados linguísticos, relacionados ao uso oral ou escrito da língua, ou a ambos, sistematizados segundo determinados critérios, sendo “suficientemente extensos em amplitude e profundidade, de maneira que sejam representativos da totalidade do uso lingüístico ou de algum de seus âmbitos, dispostos de tal modo que possam ser processados por computador, com a finalidade de propiciar resultados vários e úteis para a descrição e análise” de uma dada língua ou modalidade de uso de língua. Assim, trata-se de reunir, de acordo com critérios e princípios previamente fixados, documentos que sirvam de base para descrever e analisar as práticas textuais relacionadas à subárea do conhecimento em foco. Quanto à descrição e à análise - foco de sua utilidade - ambas podem subsidiar diferentes produtos relacionados à sistematização e à recuperação da informação associada aos temas cobertos, incluindo produtos e repertórios que favorecem à sistematização terminológica e conceitual no campo das Pneumopatias Ocupacionais. Embora seja incontestável a abundância de dados e de textos, especialmente escritos - sobretudo em língua inglesa, a que temos acesso hoje graças à internet, é preciso considerar que um dado qualquer não é, necessariamente, sinônimo de informação qualificada. E, em meio a um cenário de excesso de dados, em que se busca filtrar uma informação desejada em meio a subsídios repetidos ou provenientes de fontes duvidosas, em que a informação em português do Brasil aparece mesclada com a informação em português de outros países lusófonos e que há quantidades significativas de material em um “inglês brasileiro”, organizar corpora, no âmbito da Ciência da Computação, embora pareça um procedimento em alguma medida paradoxal - visto que é limitante - , tem sido uma alternativa para subsidiarem-se sistemas mais inteligentes (e seletivos) de Recuperação da Informação (Information Retrieval), além de sistemas de organização de conhecimento disperso. De outro lado, muito tempo antes do advento da Computação portátil e de seus produtos quase universalmente acessíveis, no âmbito dos estudos das línguas e das literaturas, linguistas já lidavam com corpora, com acervos não digitais, materiais compilados manualmente, com falas gravadas e transcritas, materiais manuscritos e datilografados. Modernamente, também os linguistas passaram a reunir seus corpora em formato digital, de modo que a tradição e a experiência com acervos documentais combinam-se à inovação em diferentes sentidos, visto que a pesquisa com corpora e com suas abordagens “proporciona um olhar radicalmente distinto sobre a linguagem” (RAJAGOPALAN, 2007, p. 23 ss.). Ainda assim, a despeito desse diálogo ainda muito necessário entre linguistas teóricos ou aplicados, linguistas de corpus e informatas em torno da geração e utilização de corpora linguísticos, pode-se afirmar que, é em Ciência da Computação que temos tido os progressos mais percebidos em termos de produção, organização de grandes acervos e de aplicações para esses recursos (cf. atesta, por exemplo, o trabalho de FERRARESI et al., 2008). No cenário tecnológico da Computação, corpora que envolvem, por exemplo, frases originais e suas traduções têm sido, desde longa data (BROWN et al. 1991), extremamente úteis para subsidiar sistemas informatizados que lidam com a linguagem humana, tais como os sistemas de tradução automática (TA) ou sistemas de apoio à tradução humana. Hoje os sistemas mais populares de TA usam a lógica da tradução automática estatística baseada em exemplos e na recorrência de combinatórias de grupos de palavras entre duas línguas, para o que os corpora gerados ou revisados por humanos são peças fundamentais. Entretanto, mesmo sendo uma das áreas mais antigas do PLN e uma das áreas mais percebidas pelo usuário leigo que acessa a internet e obtém traduções instântaneas (de diferentes qualidades) para a suas buscas feitas, por exemplo, em português, a TA ainda apresenta vários

Page 3: 1- IDENTIFICAÇÃO DA PROPOSTA NOVA Início Março de 2013 ... · Dr. Carlos Nunes Tietboehl Filho - Médico Pneumologista, Mestre e Doutor em Medicina Interna e do Trabalho (UFRGS),

problemas, tanto metodológicos quanto epistemológicos (SPECIA, NUNES, 2004; MARTINS, 2011). Assim, o questionamento e as pesquisas são contínuos. Do muito que temos ao nosso dispor em termos de corpora - sejam produzidos por informatas ou por linguistas (entre os quais os Linguistas de Corpus são o destaque) - , ainda carecemos desses acervos em determinados idiomas - pois que a maior parte do que se oferece - principalmente se extraído automaticamente na web - em termos de informação em formato digital ainda está disponível apenas na lingua franca do inglês. Do mesmo modo, também ainda são necessários corpora apresentados em diferentes formatos, que permitam diferentes usos, e com determinadas coberturas temáticas. Portanto, persistem lacunas. Isso é o que confirmamos, por exemplo, quando, no trabalho a seguir citado, produzido em 2012, pesquisadores de Ciência da Computação registram os avanços da construção automática de corpora a partir da internet, mas também apontam algumas carências pontuais:

The Web has been widely used to create large corpora for many languages (e.g., Baroni et al., 2009, Kilgarriff et al., 2010), and corpora for specific topics (e.g., Baroni and Bernardini, 2004) and genres (e.g., Dillon, 2010). The Web has also been used to create parallel corpora (e.g., Resnik and Smith, 2003) — corpora of texts in one language and their translations into another. Crucially, these methods of corpus construction enable corpora to be created quickly and at little cost. Nevertheless, despite the impressive variety of Web corpora that have been constructed to date, there have been comparatively few efforts to create monolingual corpora representing different national or regional varieties of English. (COOK, HIRST, 2012).

Entre diferentes carências - apesar do muito alcançado - seja buscando-se textos na Web ou em outras fontes, destacamos que ainda nos ressentimos da falta de corpora de domínio em português do Brasil. Corpora de domínio são acervos textuais relacionados a diferentes áreas do conhecimento, especialmente ciências, técnicas ou tecnologias. Essa falta também é reconhecida por pesquisadores de PLN. Atestando essa lacuna, trabalhos na área de PLN têm registrado algumas carências pontuais de corpora, como nas áreas biomédicas (TAN, KALIYAPERUMAL, BENIS, 2011). E, a propósito, vemos, por exemplo, em um encontro de cientistas da computação que enfocou especificamente o tratamento computacional da linguagem nas áreas biomédicas, que “especially in the biomedical domain, is the lack of training data in the form of annotated corpora” (BATISTA-NAVARRO, ANANIADOU, 2011). Portanto, fica evidente que os corpora nessas áreas, devidamente tratados (ou anotados), são importante subsídio a se alcançar para o “treinamento” de vários tipos de ferramentas computacionais relacionadas à sistematização da informação. A partir dessa necessidade, cientistas da computação propuseram, já há alguns anos (BARONI et al., 2006), sistemas mais econômicos - e automáticos - para a busca e criação desses corpora. Mas, apesar do atual trabalho extremamente rápido de captura de dados em larga escala - especialmente quando se pensa na Web como corpus e se conta com ferramentas como o BootCat - , ainda há muito esforço humano envolvido, da sua criação ao pré-tratamento dos dados, de modo sejam utilizáveis de modo satisfatório. Outro aspecto digno de nota, nesse cenário, é que trabalhos bastante atuais de PLN (ZHENG, HE, YU, 2010) ainda colocam que os corpora de domínio, em se tornando mais disponíveis, poderiam inclusive contribuir para a melhoria da tradução automática. Do ponto de vista dos Estudos da Linguagem, no que tange à diversidade e representatividade dos corpora do português brasileiro que conseguimos reunir e oferecer para uso público (sejam os de língua oral ou escrita), obtivemos avanços notáveis nesta última década. Entretanto, há ainda também no que progredir, especialmente com acervos robustos de domínios especializados, os quais possam conter diferentes tipos de documentos e gêneros de discurso. Entre as aplicações para esses acervos, que podem ser monolíngues ou multilíngues, destaca-se o aproveitamento para fins que instrumentalizam produção e de estudo de traduções. Afinal, conforme já mostrava, dez anos atrás, Berber Sardinha (2002) “o pesquisador ou tradutor que deseje fazer incursões na exploração de corpora para a investigação da tradução enfrentará o problema da maior escassez de recursos para sua área, da necessidade de aprender a utilizar software especializados, além de necessitar executar algumas tarefas comuns da Linguística de Corpus, como a organização, formatação e exploração de corpus.” Essa escassez, conforme argumentamos mais adiante, na parte de JUSTIFICATIVA deste projeto, ainda repercute.

Page 4: 1- IDENTIFICAÇÃO DA PROPOSTA NOVA Início Março de 2013 ... · Dr. Carlos Nunes Tietboehl Filho - Médico Pneumologista, Mestre e Doutor em Medicina Interna e do Trabalho (UFRGS),

Principais objetivos Feita essa breve contextualização e considerando que a “criação de um córpus é um empreendimento não trivial e, para compensar o investimento, o ideal é que ele possa ser atualizado e reutilizado continuamente (CANDIDO JR. 2007, p. 4, grifo nosso), destacamos que os principais resultados a alcançar nesta pesquisa serão os seguintes: a) reorganização, filtragem e sistematização de um acervo textual previamente reunido em português

brasileiro da linguagem escrita associada à área de Pneumopatias Ocupacionais, utilizado para a produção de um Glossário Experimental com 160 termos (<http://www.ufrgs.br/textecc/pneumopatias/>) com 687 documentos coletados até 2011 mais 250 documentos reunidos em 2012;

b) ampliação, qualificação e catalogação do material textual acima citado por segmentos de gêneros textuais, subgêneros e por tipos de documentos;

c) tratamento informatizado dos corpora por segmentos, tratamento individual dos textos por amostragem, identificação das frases e dos sintagmas nominais e verbais por grupos recorrentes nos diferentes segmentos do corpus;

d) descrição de padrões textuais, discursivos e terminológicos por grupos de documentos/géneros (enfatizando-se a presença de construções recorrentes);

e) oferecimento público e gratuito dos corpora reunidos - no todo e em amostras segmentadas por gêneros - , estando os materiais textuais acompanhados de cabeçalho identificador, etiquetagem morfossintática e inseridos em ferramentas básicas para sua observação on-line (gerador de contextos, gerador de agrupamentos de palavras, gerador de listas de palavras);

f) geração de oportunidades, sob a forma de recursos, de ferramentas e de dados textuais organizados, para a formação e para a qualificação de estudantes de graduação e de pós-graduação interessados na pesquisa linguística sobre linguagens especializadas com apoio informatizado.

A partir dos elementos mais aplicados, pontuais ou instrumentais (itens a, b, c), o principal resultado da pesquisa será a produção um conjunto de conhecimentos associados a dados (item d) sobre padrões de uso de um tipo de linguagem médica por parte de especialistas e de especialistas para leigos no recorte temático. Outro resultado importante será o oferecimento (item e) do acervo textual reunido, no espaço do website da pesquisa, acompanhado tal acervo de recursos informatizados úteis para sua exploração on-line, indicações e resultados do seu tratamento computacional, ensaios de descrições da linguagem observada em diferentes modalidades textuais e algumas informações sobre correspondências entre as terminologias e construções recorrentes do domínio em foco em português e em inglês. O conjunto dos itens, de a a e, resulta em um ponto de localização e de obtenção de dados úteis (item f), devidamente organizados, para pesquisadores interessados em algum aspecto das práticas linguísticas na especialidade em foco. Salvaguardando-se materiais sujeitos à cobrança pecuniária de direito autoral por acesso, até o limite de exposição legalmente permitida, todo o acervo textual obtido de fonte aberta, organizado e devidamente formatado para exploração será oferecido para consulta direta, via site da pesquisa. Será possível acessar grupos inteiros de textos liberados, em formato somente texto (download em formato TXT), como também apenas visualizar segmentos previamente selecionados pelo utilizador. A visualização será limitada a um conjunto de inserções frasais de uma dada expressão de busca (em janelas de contextos), sendo possível verificar a ocorrência da expressão de busca por tipos de documentos e por subgêneros, de acordo com diferentes cenários comunicativos desenhados pela interação via texto escrito. Também serão oferecidos os recursos “listador de palavras” e “listador de agrupamentos de palavras”. Com a segmentação do corpus por tipos de documentos, pretende-se contemplar situações de uso de linguagem e de terminologias entre especialistas e especialistas (ou aprendizes de uma especialidade) e entre especialistas e leigos, com especial destaque para textos de divulgação ou popularização científica em relacionados ao jornalismo sobre temas de saúde. Em síntese: partindo-se de uma amostra significativa - pré-existente - de corpora na área de conhecimento das Pneumopatias Ocupacionais, a qual foi sendo paulatinamente reunida desde 2010 (MARCOLIN; EVERS; FINATTO; GOLDNADEL, 2010) e parcialmente atualizada em 2012

Page 5: 1- IDENTIFICAÇÃO DA PROPOSTA NOVA Início Março de 2013 ... · Dr. Carlos Nunes Tietboehl Filho - Médico Pneumologista, Mestre e Doutor em Medicina Interna e do Trabalho (UFRGS),

(FINATTO, 2012) - junto ao projeto Glossário Experimental de Pneumopatias Ocupacionais (<http://www.ufrgs.br/textecc/pneumopatias/>, pretende-se construir, organizar e oferecer um novo ponto de informação linguística e terminológica sobre e com o material textual reunido e atualizado. A idéia básica é EXPANDIR o site atual, onde se encontra o Glossário Experimental, construindo um ambiente específico para a temática no qual haja informações sobre o domínio, corpora para acesso e exploração mediante expressões de busca e um glossário experimental melhorado. Com apoio do CNPq na modalidade PQ, pretende-se revisar, refinar, incrementar e, sobretudo, expandir e dinamizar o acesso aos corpora e aos produtos e recursos a eles associados. Frisando-se que a organização desse acervo não foi uma tarefa trivial e que essa tarefa esteve e está associada a atividades de ensino e de formação junto ao curso de graduação em tradução da UFRGS, tendo envolvido diferentes turmas de alunos e professores da disciplina de Terminologia I e II entre 2010 e 2012, vemos que esta proposta de pesquisa oferece uma oportunidade de REUSO e de MELHOR APROVEITAMENTO de um material já bastante volumoso, criteriosamente reunido e já parcialmente explorado. O material reunido, na primeira etapa, tendo em vista a opção por registrar especialmente a variação terminológica, compreendeu textos de de cinco esferas enunciativas: acadêmica (artigo acadêmico, dissertação ou tese), apresentação em evento (congresso, simpósio, curso, palestra, aula), texto normativo (leis, portarias, diretivas ministeriais, etc.) e textos de sites especializados (associações relacionadas à saúde no trabalho). O conjunto inicialmente reunido nesse grupo alcançou 687 unidades de texto de diferentes formatos e perfis. O corpus constituído, composto por textos de diversas esferas de enunciação e de diversos domínios associados, é um material valioso, bem como as listas de candidatos a termo, que contêm material para a constituição de um glossário da área bem mais abrangente. Neste ano de 2012, com uma nova turma de alunos de Terminologia II, foram reunidos mais 250 textos apenas no segmento artigo científico, dos quais 27 unidades integram a última publicação dos Anais da Sociedade Brasileira de Pneumologia e Tisiologia dos anos de 2007-2008. As 160 fichas de termos pré-existentes no Glossário Experimental também foram ampliadas, atualizadas e novos itens foram acrescentados ao glossário (cerca de 40 novos termos/fichas). A partir desse acervo a ser refinado, visa-se à sistematização de dados já previamente reunidos e à geração de novos dados sobre a padronização da linguagem e das terminologias desse domínio. Além disso, vale destacar que contamos com experiência prévia com corpora de Pediatria e com corpora de diferentes domínios - incluindo corpora de jornais populares. Outro aspecto importante é que pretendemos seguir com o suporte de colegas da área médica e de colegas da área de Processamento da Linguagem Natural (PLN). Diferentes pesquisadores de PLN têm nos auxiliado a explorar corpora em seus diferentes aspectos constitutivos, proporcionando-nos um reconhecimento diferenciado para elementos tais como medidas léxico-estatísticas em inter-relação, expressões multipalavra, identificação de estruturas retóricas, inteligibilidade e simplificação textual, recuperação da informação e ontologias, além dos tradicionais pontos de interesse sobre o funcionamento matemático da linguagem para arquitetura de sistemas computacionais. Uma prévia de um exemplo de tratamento computacional apenas do corpus de artigos de 2012 sobre Pneumopatias pode ser conferido na guia HIERARQUIA E NUVEM DE CONCEITOS em http://www.ufrgs.br/textecc/pneumopatias/hierarquia.php. 3- JUSTIFICATIVA PARA A PESQUISA Propor a revisão, sistematização e o oferecimento on-line de “mais um” corpus de linguagem especializada em português brasileiro, com a novidade, vista grosso modo, apenas da temática em foco, pode parecer algo já feito, sem maiores méritos ou necessidades frente ao panorama dos recursos disponíveis hoje em português brasileiro. Entretanto, conforme já mencionado, embora já tenhamos bastantes recursos nessa área, ainda somos carentes em termos de acervos específicos e abrangentes em relação à cobertura da diversidade das práticas textuais de um dado domínio, que sejam acessáveis on-line e que tenham sido sistematizados de algum modo, para alguma finalidade específica, como o ensino de tradução, ensino de terminologias ou como ponto de síntese/encontro de informações relevantes sobre um dado tema ou tópico do conhecimento em foco. Seguindo uma tal orientação, a de oferecer corpora de domínio em português dirigidos para um dado fim, temos as iniciativas dos grupos TERMISUL (www.ufrgs.br/termisul ver BASES TEXTUAIS), TEXTQUIM (http://www.ufrgs.br/textecc/textquim/ferramentas.php ver CAIXA DE FERRAMENTAS)

Page 6: 1- IDENTIFICAÇÃO DA PROPOSTA NOVA Início Março de 2013 ... · Dr. Carlos Nunes Tietboehl Filho - Médico Pneumologista, Mestre e Doutor em Medicina Interna e do Trabalho (UFRGS),

ou o acervo CORTEC- abreviatura de Corpus Técnico-Científico - desenvolvido junto ao PROJETO COMET (http://www.fflch.usp.br/dlm/comet/. Nas bases textuais do grupo TERMISUL, temos, por exemplo, toda a legislação ambiental brasileira - 280 diplomas legais e todo um conjunto bastante extenso de textos de áreas como Cardiologia e Pediatria e Psicanálise (acessados via ferramentas de busca em http://www.ufrgs.br/termisul/ferramentas.php). Alcançamos bons avanços, sim, mas há ainda várias frentes a atacar, especialmente no que se refere ao tamanho e balanceamento dos corpora especializados amostrados e à cobertura por tipos de documentos em um dado domínio, de modo que uma dada temática ou subárea seja amplamente abordada e a abordagem devidamnte instrumentalizada para o usuário. Isto é, mesmo com iniciativas meritórias como as antes citadas, ainda carecemos de corpora específicos capazes de abranger a diversidade das práticas textuais e dos gêneros textuais discursivos de um dado domínio ou recorte temático de uma área de conhecimento. Num outro tipo de corpus, que se propõe a uma cobertura geral - da literatura ao texto científico ao textos orais transcritos - em que pese todo o enorme benefício de sua existência, mas repetindo-se - como é natural - a lacuna para cobertura ampla de domínios determinados, a proposta é oferecer amostras de diferentes tipos de texto, de diferentes gêneros. Hoje temos à disposição, via acesso na internet, grandes e ótimos corpora do português do Brasil - Lácio-Web, Banco do Português, Corpus Brasileiro, Corpus de Português, COMPARA, CetemFolha, Corpus NILC, TychoBrahe, Corpus PHPB, todos produzidos sob rigorosos critérios de representatividade, cada um com uma proposta em particular e traços em comum. Os dois últimos são direcionados para a história do português. Para fins de uma ilustração sobre a sua cobertura em domínios de especialidade, enfatizaremos aqui apenas dois, o Corpus Brasileiro (BERBER SARDINHA, MOREIRA FILHO, ALAMBERT, 2009) e o Corpus de Português (DAVIES, FERREIRA, 2006). relacionado a alguma especificidade - seja ela maior ou menor - tal como as que buscamos representar pela presença/registro dos termos pneumologia e asbestose, um tipo de pneumopatia ocupacional associada à exposição do trabalhador ao amianto/asbesto (cf. BRASIL, 2006, p.34: trata-se de uma “pneumoconiose consequente à exposição inalatória a poeiras contendo fibras de asbestos”.) O Corpus Brasileiro, por exemplo, chega a alcançar 1 bilhão de palavras e oferece cobertura vasta e variada de gêneros textuais, incluindo textos científicos ou acadêmicos. Entretanto, pelo que pudemos experimentar recentemente (com acesso em 27/7/12), parecem estar envolvidas quantidades modestas de documentos de alguns domínios do conhecimento. Em consulta recente, acesso via Sketch Engine - http://the.sketchengine.co.uk/login/), verificamos 3.803 ocorrências para um termo relativamente genérico como pneumologia e 289 ocorrências para um termo específico como asbestose, O número de documentos referenciados na busca, para o segundo termo ficou, salvo algum erro/inabilidade de busca do utilizador, concentrado em torno de 20 unidades diferentes de texto (abarcando artigos acadêmicos, tese, documento de política, Wikipédia, etc). Essa variabilidade de tipos de documentos é bastante positiva, embora o número de fontes diferentes pudesse ser maior. Por sua vez, no Corpus de Português (DAVIES, FERREIRA, 2006), que tem 57 mil de documentos do século 13 ao século 20, consultado no mesmo dia em http://www.corpusdoportugues.org/, encontramos apenas 03 ocorrências para o item pneumologia, sendo 01 ocorrência em 01 texto brasileiro e 02 em 02 textos portugueses. Para o termo asbestose, obtivemos apenas duas ocorrências e três documentos diferentes. Com essas mesmas expressões, consultamos um novíssimo corpus, o OUP CONLL FULL - um grande corpus de português - patrocinado pela Oxford University Press, ainda em fase de testes - metade brasileiro e metade lusitano - com possibilidade de oferecer comparação de ocorrências entre os dois segmentos. Tendo-o acessado, na mesma data antes citada, por http://corpdev.sketchengine.co.uk/run.cgi/first_form?corpname=34cd7428 - na sua versão teste - verificamos 3.561 ocorrências para pneumologia e 264 para asbestose. Conforme ocorreu nos outros corpora, embora o número de documentos associados ao primeiro termo de busca seja bem variado, para o segundo, asbestose, há poucos textos de jornais e concentração das ocorrências em alguns poucos textos de legislação. Para finalizar essa rápida tentativa de demonstração em prol da validade da organização de um corpus extenso e abrangente por domínio, na temática das Pneumopatias Ocupacionais, verificamos no corpus especializado CORTEC (antes citado). Nele encontramos ZERO ocorrências para ambos os termos, tendo selecionado apenas as suas duas áreas mais próximas à Medicina (Hipertensão e

Page 7: 1- IDENTIFICAÇÃO DA PROPOSTA NOVA Início Março de 2013 ... · Dr. Carlos Nunes Tietboehl Filho - Médico Pneumologista, Mestre e Doutor em Medicina Interna e do Trabalho (UFRGS),

Insuficiência Renal). Um vazio plenamente esperável dado o perfil, especificidade e a dimensão dos corpora oferecidos. Assim, ainda em defesa de uma especificidade e abrangência tipológica de fontes que entendemos ser importante pelo menos amostrar em boas condições na temática das Pneumopatias Ocupacionais, vale registrar que, no buscador Google, encontramos 219.000 ocorrências para asbestose e 2 milhões e 980 mil ocorrências para pneumologia. Aparentemente, há uma boa quantidade de informação sobre a temática específica a que queremos nos dedicar - tomando por base apenas o dado sobre ocorrências de asbestose. Essa quantidade de dados, para tornar-se informação qualificada precisaria ainda ser reconhecida, filtrada contraposta com a de outras fontes. Então, depois, poderia indicar materiais para um acervo amostral representativo, tal como ensinado, já há bastante tempo, por Biber (BIBER, 1993; BIBER,CONRAD, REPPEN, 1998). Em meio a esse quadro de oferta de informações e de dados, carecemos, em termos de acesso à informação qualificada, de acervos específicos que possam reunir os principais temas e conceitos de uma especialidade, que possam retratar as principais práticas textuais e de comunicação de um domínio ou especialidade. Entre vários domínios do conhecimento humano que se necessitaria contemplar de modo abrangente, conforme já referido, as temáticas biomédicas, entre as quais se incluem as relacionadas à promoção da saúde dos trabalhadores, têm grande importância no nosso país. Embora as informações a respeito pareçam bastante dispersas, pelo menos no cenário brasileiro, conhecimentos e noções fundamentais necessitam transitar entre médicos-pesquisadores, agentes de saúde, trabalhadores e agentes de segurança do trabalho. Nesse domínio, integra-se toda uma rede de textos e de referências de Medicina, de textos e de noções advindas de normas e de regulamentações do Ministério do Trabalho e da legislação trabalhista brasileira. Pelo imbricamento de saberes e de práticas, desenha-se a amplitude da área interdisciplinar denominada Medicina do Trabalho. Nessa ampla área, o tema das Pneumopatias Ocupacionais é um recorte de especificidade a que nos propomos e que é também inter- e transdisciplinar, visto que é “atravessado”por diferentes conhecimentos de outras áreas - médicas ou não. Um exemplo de sua riqueza conceitual e terminológica advém da inter-relação com a subárea de Diagnóstico por Imagem/Radiologia, o que se pode perceber com a terminologia presente no documento Consenso Brasileiro sobre a Terminologia dos Descritores de Tomografia Computadorizada do Tórax [http://www.jornaldepneumologia.com.br/portugues/artigo_detalhes.asp?id=122], que tem tudo a ver com o trabalho de reconhecimento das noções desse domínio específico e que nos traz, considerado um enfoque linguístico-textual, um gênero textual diferenciado para estudo - que não se enquadra exatamente na categoria “artigo”. Esse tipo de informação também é algo a contemplar no nosso trabalho, visto que será importante oferecer elementos para a caracterização dos diferentes gêneros textuais praticados nessa especialidade.

4- REFERENCIAIS TEÓRICO-METODOLÓGICOS DESTA PROPOSTA Tal como em outras nossas oportunidades de estudo, a nova investigação será feita também com apoio informatizado e à luz de referenciais teórico-metodológicos da Linguística de Corpus (STUBBS, 1995, 1996 e 2001; BERBER SARDINHA, 2004) e das perspectivas textuais dos estudos de Terminologia Textual (FINATTO, 2004 e 2007; KRIEGER & FINATTO, 2004). Serão também levados em consideração princípios dos estudos de gênero textual (SWALES, 1990) e da Linguística do Texto Especializado (HOFFMANN, 1988 a 1998a e 1998b). Essas orientações serão complementadas por alguns fundamentos oriundos dos estudos linguísticos de perspectiva enunciativa desenvolvidos por Émile Benveniste (1989), no recorte denominado Linguística da Enunciação (FLORES, TEIXEIRA, 2005), visto que está envolvida um enunciação de científica. As características linguístico-textuais com maior destaque na pesquisa com textos/corpora relacionados ao tema das Pneumopatias Ocupacionais serão: a) a reiteração de construções textuais/discursivas; b) a reiteração de terminologias e de expressões terminológicas. Essas construções, terminologias e expressões terminológicas serão apreendidas inicialmente grosso modo e abrangerão convenções textuais, fórmulas frasais ou retóricas, termos científicos em geral, termos de Medicina/Pneumologia, fraseologias terminológicas (as que incluem um termo

Page 8: 1- IDENTIFICAÇÃO DA PROPOSTA NOVA Início Março de 2013 ... · Dr. Carlos Nunes Tietboehl Filho - Médico Pneumologista, Mestre e Doutor em Medicina Interna e do Trabalho (UFRGS),

científico, denominadas combinatórias léxicas especializadas, cf. BEVILACQUA, 2004), gramaticalismos, coligações, colocações, incluindo idiomatismos e aspectos gerais de língua. As terminologias correspondem, grosso modo, àquelas expressões, compostas por uma ou mais de uma palavra, que designam noções ou conceitos em uma dada área de conhecimento (GOUADEC, 1990, p.3), de modo que, como defende Cabré e colaboradores (CABRÉ et al. 2001) um termo é um todo multifacetado, um valor ativado em um dado discurso. Por uma opção metodológica e teórica, visto que pretendemos explorar a linguagem científica e a linguagem de popularização científica - visto que há alguns materiais textuais “facilitados” sobre Pneumopatias Ocupacionais produzidos por sindicatos e agentes de saúde, dirigidos a trabalhadores de menor escolaridade, acreditamos que o próprio corpus em foco deve fornecer suas especificidades e regularidades, cabendo ao analista identificá-las. Por isso, não faremos uma seleção a priori para coleta de “candidatos” a construções recorrentes - em seus diferentes tipos - ou mesmo uma seleção prévia de TERMOS ou de expressões terminológicas, até porque, até o momento, nosso Glossário Experimental - na versão revisada de agosto de 2012 - já conta com cerca de 200 itens/expressões candidatas a termo. Assim, as construções recorrentes a buscar nos corpora - que serão o nosso ponto de partida para chegar a elementos gramaticais, discursivos e terminológicos - incluirão de grupos formados apenas por elementos gramaticais (por exemplo: COM A), combinações entre elementos gramaticais e lexicais (por exemplo: CRISE DE, CRISE DE ASMA AGUDA ou BRONQUITE OCUPACIONAL), até combinatórias entre elementos terminológicos e gramaticais (por exemplo: DERRAME PLEURAL APÓS). Os limites máximo e mínimo do objeto inicialmente sob exame, a construção recorrente - seja terminológica ou gramatical-discursiva, iniciam-se em combinatórias de no mínimo DOIS elementos contíguos1 até a extensão máxima do enunciado menor do que uma sentença. Além disso, para colocar-se um conjunto de palavras como candidato a expressão recorrente para nosso exame (o que incluirá descrição e classificação), uma dada seqüência de palavras contíguas deverá ocorrer pelo menos cinco vezes em pelo menos 50% dos textos sob estudo em um dado segmento do corpus. A partir dessa abrangência, esperamos obter um quadro propositalmente amplo de recorrências que vai da gramática ao léxico para um estudo bastante detido e detalhado. Para cotejo com esses elementos de recorrência a ser verificada, conforme já dito, contamos com um levantamento inicial da terminologia de Pneumopatias Ocupacionais, o Glossário Experimental de Pneumopatias Ocupacionais (veja em: <http://www.ufrgs.br/textecc/pneumopatias/>). Esse produto, ainda que relativamente embrionário, fruto da verificação de um conjunto de termos previamente dado em um corpus especialmente reunido, pode oferecer boas indicações sobre o funcionamento da linguagem nesse domínio e sobre a distribuição de elementos textuais, discursivos e terminológicos. Trata-se de trabalho que contemplará principalmente textos/corpora em português do Brasil, partindo de uma base de documentos já reunidos e selecionados (687 + 250 documentos em diferentes gêneros textuais e tipos de documentos), a qual será ampliada e qualificada para a nova pesquisa aqui proposta. Entretanto, dado que a produção científica de Medicina/Pneumopatias Ocupacionais é bastante atrelada a uma expressão também em inglês, o que se verifica pela presença cada vez mais acentuada de periódicos - inclusive brasileiros - que praticamente apenas publicam textos em inglês, acreditamos que a investigação precisará estender–se a algumas correspondências das reiterações nessas duas línguas. Além disso, conforme verificamos na revisão de artigos do corpus em 2012, muitos autores importantes têm publicado apenas em inglês. Fazemos essa opção metodológica para algum cotejo português-inglês também em função de prováveis influências de especificidades do inglês lingua franca sobre a feição do texto médico em português já reconhecidas por Coulthard (2005) e Possamai (2004), uma variedade de inglês já abordada por vários pesquisadores (CRYSTAL, 2003; ERLING, 2005). Em que pese o foco privilegiado sobre a produção científica brasileira, o contraste com corpora jornalísticos e com textos de divulgação da temática para leigos e para trabalhadores expostos a                                                                                                                          

1 Vale aqui observar a conceituação simplificada, mas bastante útil, de Tagnin (TAGNIN, 2011, p.87): “As colocações são combinações lexicais recorrentes, arbitrárias, em geral não idiomáticas, cujos constituintes são contextualmente restritos: Recorrentes porque co-ocorrem com uma frequência maior do que seria esperado (...). Arbitrárias porque não há razão semântica que justifique a co-ocorrência de seus componentes.”

Page 9: 1- IDENTIFICAÇÃO DA PROPOSTA NOVA Início Março de 2013 ... · Dr. Carlos Nunes Tietboehl Filho - Médico Pneumologista, Mestre e Doutor em Medicina Interna e do Trabalho (UFRGS),

pneumopatias ocupacionais também visa depreender especificidades da linguagem científica em relação à linguagem cotidiana e à linguagem científica em situação de divulgação. Trataremos descrever e estudar os itens terminológicos, elementos ou cadeias textuais e discursivas, associadas grosso modo a estruturas denominadas n-gramas, com a restrição de que sejam repetidos pelo menos 05 vezes2 em longo de pelo menos 50% dos textos que integrarem cada um dos segmentos dos corpora em português. Mais, adiante, na seção MATERIAIS, MÉTODOS E ETAPAS DA PESQUISA, apresentamos a segmentação do acervo reunido até agora, relacionado às temáticas de Pneumologia/Pneumopatias/Doenças do trabalho. As construções serão tratadas em grupos de 2, 3, quatro ou cinco elementos, até o limite de 10 elementos por cada um dos n-gramas, respeitando-se sempre o limite da sequência ser menor do que uma sentença, sendo apontadas as cadeias maiores que possam englobar outras menores. A partir do reconhecimento de construções reiteradas, sejam elas terminológicas, fraseológicas, retóricas ou gramaticais (o que abrange colocações), visto que são elementos constitutivos de coesão (plano da estruturação sintática), pretendemos descrever marcas ou propriedades da enunciação científica (plano da estruturação semântica). Assim, não se trata, apenas de verificar frequências. Esse percepção redutora, conforme Stubbs (2001, p.61) já nos alertava3, associa-se ao equívoco de se “ver” somente a frequência de ocorrências reais em uma inter-relação com o sistema da língua. Frequências, assim, tornam-se interessante quando interpretadas como algo típico ou definidor (grifo nosso), visto que a competência comunicativa dos falantes inclui conhecimento tácito de normas de comportamento. Essa descrição, conforme prevemos, revelará construções que perfazem as convencionalidades dos géneros, macro-gêneros e subgêneros textuais produzidos no âmbito de conhecimento foco e que podem, devidamente interpretadas, caracterizar um dado tipo de uso da língua. 5- ANTECEDENTES E PONTOS DE PARTIDA a) Estudos sobre textos científicos No extenso cenário de pesquisa proporcionado pelas linguagens científicas, já empreendemos algumas observações sobre as suas terminologias, tratando de repertoriá-las sob forma de glossários e de dicionários, impressos ou on-line (com destaque para o nosso Dicionário de Linguística da Enunciação de 2009) e para os dicionários sobre as temáticas legislativo-ambientais em co-autoria com colegas do grupo TERMISUL. Em paralelo à observação dos termos “técnicos”, passamos a nos ocupar também de diferentes tipos construções frasais recorrentes, em torno dos termos, especialmente as construções causais – comparando as de Química com as da Legislação Ambiental e Cardiologia. Também já tratamos sobre a escrita e a tradução de artigos científicos de Pediatria (FINATTO, POSSAMAI, 2006; FINATTO, DEL PINO, BARBOSA, CORBELLINI, 2006; FEIX et al. 2006; FINATTO, M. J. B.; AZEREDO, S. de; LIMA, E. R. H, 2007; FINATTO, EVERS, ALLE, 2009; entre outros trabalhos) em português, inglês e alemão. Além do texto de Química, o artigo científico de Medicina, em suas diferentes especialidades, tem nos interessado quer como gênero, quer como objeto de tradução ou ambiente de terminologias. A partir da nossa maior aproximação com colegas de Processamento de Linguagem Natural (PLN), temos buscado reconhecer diferentes metodologias para explorar as expressões multiplavra e também a avaliação de medidas de complexidade lexical e gramatical do texto científico (FINATTO, 2011; LOPES,VIEIRA, FINATTO, MARTINS, 2010)

                                                                                                                         

2 Apenas pós a obtenção de listas preliminares dessas construções, será possível desconsiderar ou tratar à parte aquelas que sejam inerentes à gramática da língua sob exame, tais como, por exemplo, em português, as cadeias de dois elementos do tipo artigo definido+nome. Quaisquer exclusões serão feitas apenas após a verificação do tipo de associação de palavras verificado como recorrente. O critério de frequência mínima de 05 ocorrências tem sido utilizado como ponto de referência para construções recorrentes por vários estudos (TEIXEIRA, 2008; ZILIO, 2009, LOPES et al 2009 e RAMISCH, 2009, entre outros), tanto de PLN quanto de Linguística de Corpus. 3 Evocamos aqui um segmento do pensamento original de Stubbs, grifando o que foi enfatizado: “Whereas much (Chomskyan) linguistics has been concerned with what speakers can say, corpus linguistics is also necessarily concerned with what speakers do say. But note the also. It is misleading to see only frequency of actual occurrence (...). Frequency becomes interesting when it is interpreted as typicality, and speakers’ communicative competence includes tacit knowledge of behavioural norms” (STUBBS, 2001, p.61, grifo nosso).

Page 10: 1- IDENTIFICAÇÃO DA PROPOSTA NOVA Início Março de 2013 ... · Dr. Carlos Nunes Tietboehl Filho - Médico Pneumologista, Mestre e Doutor em Medicina Interna e do Trabalho (UFRGS),

Ao longo dessa trajetória, aproveitamos reflexões produzidas pelos estudos linguísticos do texto e do discurso, estudos de Terminologia que se interessam pela ambiência dos textos técnico-científicos e princípios da Linguística de Corpus (tal como apresentada no Brasil por BERBER SARDINHA, 2004). Essa junção nos levou a defender um tipo de pesquisa de terminologias que denominamos de textual (FINATTO, 2004, 2007 e 2011), visto que sempre nos move a percepção dos acompanhamentos e combinatórias entre termos, gramática, discursos e convencionalidades vigentes nas linguagens técnico-científicas (conforme assinalava GOUADEC, 1994). Assim motivados, temos cooperado com pesquisadores de Linguística de Corpus e de PLN que se ocupam de materiais textuais científicos ou técnicos para a produção de alinhadores de textos originais e de suas traduções, para a melhoria de geradores de ontologias e de sistemas de recuperação de informação, para o desenho de ferramentas de auxílio à produção semi-automática de glossários e produção de instrumentos ou métodos capazes de detectar expressões multipalavra em corpora. Num plano geral, não é demasiado dizer que já fizemos e orientamos vários trabalhos sobre a presença, distribuição e funcionalidade, em artigos científicos (e também em textos acadêmico-didáticos), de terminologias, adjetivos, advérbios, conjunções, preposições, índices de pessoalização e de um conjunto de elementos de modalização (VILLAVICENCIO, FINATTO E POSSAMAI, 2006; LOPES et. al. 2009). Desde 2005 até 2009, tratamos com ênfase de expressões de causalidade (FINATTO, DEL PINO, BARBOSA & COBELLINI, 2006; FINATTO & SIMIONI, 2007) em Química, mais tarde, a partir de 2010, tratamos de textos de Pediatria e constituímos o site TEXTPED (http://www.ufrgs.br/textecc/textped/). Por isso, acreditamos que essa experiência com o texto científico, ainda que a ênfase atual - com a bolsa PQ-CNPq em curso até fevereiro de 2013, seja para o campo da Pediatria, pode nos subsidiar e guiar em diferentes pontos da nova pesquisa aqui proposta. Por fim, cabe ainda dizer que a nossa recente incursão à temática do jornalismo popular brasileiro, com a organização de um corpus que já se oferece on-line (http://www.ufrgs.br/textecc/porlexbras/porpopular/) também pode contribuir para a efetivação de boas comparações com o universo do texto científico agora em foco. b) Reconhecimento de terminologias em corpus Este projeto de investigação toma como base um conjunto de resultados práticos e teóricos já obtidos em um reconhecimento de terminologias em um corpus de textos em português do Brasil relacionado ao tema das Pneumopatias Ocupacionais previamente reunido entre 2010 e 2012 com apoio de estudantes e de professores da disciplina de Terminologia I e II do nosso curso de graduação em Tradução da UFRGS. Mais detalhes em www.ufrgs.br/textecc. Esse reconhecimento, numa primeira fase, envolveu a identificação e validação de termos brasileiros, em corpora, que correspondessem um conjunto previamente dado de 160 termos em francês em em inglês - acompanhado de definições em francês - , organizado e fornecido por pesquisadores do Office québécois de la langue française - http://www.oqlf.gouv.qc.ca/. Assim, a nossa terminologia brasileira, tal como já se fez em outros Léxicos da REALITER (http://www.realiter.net/spip.php?rubrique86) seria somada às de outros países que participam do VOCABULÁRIO PANLATINO DE PNEUMOPATIAS OCUPACIONAIS/PROFISSIONAIS (Vocabulaire panlatin des pneumopathies professionnelles). Esse vocabulário, hoje em vias de publicação on-line e impresso, reúne a terminologia do Brasil e de Portugal (identificada pela sigla pt - variantes do Brasil BR e de Portugal PT), Espanha (es), Canadá (CA), Itália (it) e Romênia (ro), trazendo também termos em galego (gl) e catalão (ca) e em inglês (en), conforme se vê nos exemplos de verbetes a seguir.

fr. amiantose (n. f.) [CA] /asbestose (n. f.) Pneumoconiose fibrogène évolutive grave appartenant au groupe des silicatoses et qui est liée à l'inhalation prolongée ou massive de fibres ou de poussières d'amiante [asbestose]. ca asbestosi (n. f.) es asbestosis (s. f.) gl asbestose (n. f.) it asbestosi (s. f.) pt asbestose (s. f.) - termo pt = de uso comum Brasil/Portugal ro azbestoză (s. f.)

Page 11: 1- IDENTIFICAÇÃO DA PROPOSTA NOVA Início Março de 2013 ... · Dr. Carlos Nunes Tietboehl Filho - Médico Pneumologista, Mestre e Doutor em Medicina Interna e do Trabalho (UFRGS),

en asbestosis/ amianthosis

Fonte:http://www.oqlf.gouv.qc.ca/ressources/bibliotheque/dictionnaires/panlatin_pneumopathie20130114.pdf A publicação dessa série de léxicos - que são listas simples de correspondências de termos em diferentes idiomas - sem definições ou contextos de uso ou informações sobre frequência de uso em corpus - é uma iniciativa sempre renovada da REALITER - Rede Panlatina de Terminologia (http://www.realiter.net/spip.php?rubrique33). Esse é um órgão filiado à UNESCO que congrega pessoas, instituições e organismos de países de línguas neolatinas ativos em terminologia, promovendo também a elaboração cooperativa e voluntária de glossários especializados em diferentes áreas do conhecimento. Numa segunda fase, uma vez concluído o trabalho de identificação de termos brasileiros para o Vocabulaire panlatin des pneumopathies professionnelles, decidimos iniciar, em 2011/2, também com nossos alunos, aproveitando todo o material reunido, a produção de um glossário autônomo e experimental para os termos brasileiros, no qual teríamos informações completas sobre a sua presença nos nossos textos. Afinal, a partir do trabalho da primeira fase, entendemos que poderíamos pensar em um produto completo e independente para a terminologia brasileira, voltado para usuários que fossem aprendizes de tradução, revisores de texto ou jornalistas de divulgação de temas de ciências. Aproveitaríamos a oportunidade para qualificar a formação de futuros terminológos inserindo a produção do glossário autônomo como uma nova atividade de ensino das disciplinas de Terminologia. Considerando essa nova fase, partimos então para o trabalho de criar o nosso Glossário Experimental de Pneumopatias Ocupacionais. orientados por dois professores - Maria José B. Finatto e Marcos Goldnadel - e com a consultoria de dois médicos, os alunos, de 2011/2 a 2012/1, realizam as seguintes etapas investigativas: a) familiarização com o trabalho anteriormente produzido para a REALITER/Office Quebecois; b) familiarização com os temas de Pneumologia e Doenças Ocupacionais e com teorias de Terminologia que dedicam especial atenção para os fenômenos de variação terminológica; c) caracterização do perfil de usuário do glossário em versão de acesso gratuito on-line e

Page 12: 1- IDENTIFICAÇÃO DA PROPOSTA NOVA Início Março de 2013 ... · Dr. Carlos Nunes Tietboehl Filho - Médico Pneumologista, Mestre e Doutor em Medicina Interna e do Trabalho (UFRGS),

produção de árvores de domínio iniciais para o âmbito das Pneumopatias em geral e Pneumopatias Ocupacionais; d) reconhecimento e coleta de fontes escritas adequadas para a composição de um corpus em português do Brasil sobre Pneumopatias Ocupacionais e localização de fontes equivalentes em línguas estrangeiras; e) revisão e proposição de um desenho de ficha terminológica que privilegiasse o registro de variantes terminológicas do Brasil; e) processamento do corpus e familiarização com plataformas para a gestão de projetos terminológicos (Corpógrafo e sistema E-Termos); f) identificação da terminologia mais e menos frequente em termos quantitativos e qualitativos em diferentes segmentos dos corpora reunidos; g) identificação de correspondentes para os termos em português nas suas línguas estrangeiras de formação; h) preenchimento e testagem da ficha terminólogica; i) elaboração de materiais para o usuário do glossário considerando sua disponibilização on-line. Os enfoques teóricos que guiaram o trabalho de ensino e de formação em Terminologia da disciplina, tanto no âmbito teórico quanto no âmbito prático da terminografia (que é o mais enfatizado), provêm das indicações metodológicas da Linguística de Corpus, das perspectivas textuais da Terminologia e, principalmente, da Socioterminologia (GAUDIN, 1993) visto que procuramos dar especial ênfase para a identificação e contextualização de variantes terminológicas, abrangendo também as suas combinatórias recorrentes, conforme Gouadec (1994). d) Parcerias de estudo Os enfoques iniciais desta pesquisa serão de cunho organizacional e estatístico, pois dizem respeito à re-organização e revisão de um corpus pré-existente composto por cerca de 900 documentos diferentes, dos quais temos uma versão em formato original e outra em formato TXT, somente texto, preliminarmente explorada. Nessa fase, será muito importante contar com a experiência e o apoio de pesquisadores de Linguística Computacional/Processamento da Linguagem Natural (PLN) do Instituto de Informática da UFRGS e da Faculdade de Informática (FACIN) da PUC-RS, visto que os textos deverão poder ser individualizados em meio a um todo, ao mesmo tempo em que precisarão poder ser agrupados por diferentes características. Aqui há, principalmente, a necessidade de desenvolver um sistema de etiquetagem morfossintática, cabeçalhos e de identificações eficiente que permita identificar e manipular, computacionalmente, diferentes features dos textos. Esses pesquisadores da área da Computação desenvolvem estudos sobre sistemas de exploração automatizada de corpora, sobre presença e configuração de expressões multipalavra e sobre sistemas automáticos para geração de ontologias a partir de corpora. Para seus trabalhos, as expressões recorrentes que levantaremos, sejam terminologias, fraseologias, coligações, colocações ou idiomatismos, são de muito interesse. Nossas pesquisadoras-colaboradoras são a Profa. Dra. Renata Vieira (FACIN/PUC-RS) e Profa. Dra. Aline Villavicencio (Instituto de Informática da UFRGS). A proponente desta investigação já realizou estudos e publicações em parceria com ambas as pesquisadoras citadas e colabora em suas equipes de pesquisa em projetos de PLN. O corpus gerado será compartilhado com seus grupos de estudo. Outro aspecto importante, nesse âmbito “computacional”, é que pretendemos seguir explorando os textos do nosso corpus com apoio da ferramenta COH-METRIX-Port (SCARTON, ALUÍSIO, 2010), um sistema que fornece uma série de medidas sobre a feição dos textos, processados UM a UM, com destaque para medidas que indicam a sua complexidade/inteligibilidade para determinados tipos de leitores. Esse tipo de exploração pretendemos fazer com textos curtos, artigos e textos de divulgação para leigos, para o que contamos com a parceria de pesquisadores do NILC - Núcleo Interinstitucional de Linguística Computacional da USP de São Carlos - SP, com os quais também já fizemos alguns estudos (FINATTO, SCARTON, ROCHA, ALUÍSIO, 2011; PASQUALINI, EVERS, FINATTO, 2010). Para dar suporte à parte conceitual da pesquisa na área médica, o que envolverá a categorização de textos por temas e também o estudo do papel semântico e enunciativo de determinadas construções, contamos com a colaboração do Prof. Dr. Danilo Blank, editor da revista JPED – Jornal de Pediatria e professor da Faculdade de Medicina da UFRGS junto ao Depto. de Pediatria e Puericultura. O Prof. Blank, entusiasta do estudo da linguagem médica, é também editor associado da revista Injury Prevention (BMJ Journals), membro do Departamento Científico de Segurança da Sociedade Brasileira de Pediatria e diretor de Publicações da Sociedade Brasileira de Pediatria. Além dele, contamos também com a consultoria específica em Medicina do Trabalho e Pneumopatias Ocupacionais do Dr. Carlos Nunes Tietboehl Filho - médico Pneumologista, Mestre e Doutor em Medicina Interna e do Trabalho (UFRGS), médico do Hospital de Clínicas de Porto Alegre, Especialista em Toxicologia Aplicada (PUCRS) e Higiene Ocupacional (ITSEMAP/MAPFRE). O Dr. Tietboehl atualmente coordena

Page 13: 1- IDENTIFICAÇÃO DA PROPOSTA NOVA Início Março de 2013 ... · Dr. Carlos Nunes Tietboehl Filho - Médico Pneumologista, Mestre e Doutor em Medicina Interna e do Trabalho (UFRGS),

o Departamento de Pneumopatias Ocupacionais e Ambientais da Sociedade de Pneumologia e Tisiologia do Rio Grande do Sul (www.sptrs.org.br). Esses dois profissionais já nos acompanham desde 2010, quando começamos o trabalho de identificação de termos para o Vocabulaire panlatin. 6- REVISÃO DE ALGUNS CONCEITOS BÁSICOS E CAMPOS ENVOLVIDOS NA PESQUISA a) Linguística de Corpus, estudos de Gênero Textual, Terminologia Textual e Linguística da Enunciação. Conforme já mencionado, esta pesquisa utilizará como principal referencial teórico a Linguística de Corpus (doravante LC), tal como nos foi apresentada, no Brasil, por Berber Sardinha (2004). A LC será entendida neste trabalho como um tipo de abordagem teórica e metodológica dos estudos lingüísticos que privilegia o exame da linguagem em grandes conjuntos de textos autênticos, os corpora. Nela são investigadas as realizações lingüísticas possíveis e prováveis de serem produzidas por falantes reais e não por potenciais falantes idealizados. Além disso, como a LC entende a língua como um sistema probabilístico de combinatórias, não se pode observar as palavras isoladas que conformam o vocabulário dos textos relacionados ao tema das Pneumopatias Ocupacionais. Isso não é possível porque, conforme Stubbs (2001, p. 3), o nosso conhecimento da linguagem e dos textos não se restringe a um conhecimento das palavras isoladas, mas é integrado fundamentalmente pelo conhecimento de combinatórias possíveis e pelo conhecimento cultural que essas combinatórias freqüentemente contêm. Cabe dizer ainda que a LC não deve ser definida como uma nova Lingüística, mas sim como uma nova via para a Linguística (BERBER SARDINHA, 2004, p.35), visto que se ocupa, em meio a sua concepção peculiar de língua, da organização e da “mineração” de acervos textuais em formato digital. As bases teórico-metodológicas da Linguística de Corpus devem-se aos trabalhos do britânico J.R. Firth (escritos de 1960 a 1980) que, em um enorme computador dos anos 50 já pesquisava em textos autênticos a distribuição de palavras sócio-culturalmente relevantes. Ele acreditava que o significado de uma palavra se configura no contexto de uso. Sua tão repetida citação “You shall know a word by the company it keeps” chama atenção para a imensa rede de relações sintagmáticas e paradigmáticas que envolve léxico e gramática, apontando para o fenômeno que ele chama colocação. Observa, também que as palavras que o falante escolhe utilizar em meio a um todo de opções à sua disposição exibem um padrão de associação regular. Isto é, as palavras privilegiam um tipo de combinação ou, melhor dito, elas preferem determinadas associações e ainda rejeitam outras. São essas colocações, genericamente referidas pelo autor, que queremos apreender como construções recorrentes em textos que tratem sobre Pneumopatias Ocupacionais. A LC vem dialogando mais intensamente com os estudos de Terminologia, Lexicologia e de Lexicografia, sobretudo fora do Brasil, mesmo já antes os anos 80. E, essa aproximação, em termos do que vemos hoje no cenário brasileiro, deu-se, contudo, de um modo mais intenso apenas a partir dos anos 2000, em função do maior acesso da comunidade de pesquisa aos computadores e aos softwares para estatística lexical que contemplem o português brasileiro4. Outro motivo para a ampliação do reconhecimento da LC, no cenário brasileiro, foi a ênfase para a observação extensiva dos usos da língua em situações reais de comunicação, escritas ou orais. Essa ênfase pôde ser associada a uma das vocações da LC: o processamento extensivo de grandes corpora com o fim de identificar padrões de usos “reais” de língua. A língua, sob essa ótica, é entendida como um sistema probabilístico de combinatórias, de modo que uma dada palavra se define pela sua presença e pelos tipos de vinculação com as demais palavras dessa língua. Assim, para as palavras, também vale a máxima “me diga com quem andas e te direi quem és”. b) Gênero Textual Segundo Possamai (2005, p. 21), Ciapuscio (2003, p. 31) e outros vários autores, a noção inicial de gêneros é devida a Bakhtin (1997), que os descreveu como “tipos relativamente estáveis de enunciados”. Anos depois, Swales (1990) retoma a idéia de gêneros discursivos apresentada por Bakhtin e a reformula, chamando o novo objeto de gênero, ou gênero textual. A proposta de Swales (1990)                                                                                                                          

4 Até então, a maioria das ferramentas disponíveis estava adaptada apenas para reconhecer palavras em inglês.

Page 14: 1- IDENTIFICAÇÃO DA PROPOSTA NOVA Início Março de 2013 ... · Dr. Carlos Nunes Tietboehl Filho - Médico Pneumologista, Mestre e Doutor em Medicina Interna e do Trabalho (UFRGS),

aproxima-se muito da de Bakhtin, pois, apesar daquele abordar a noção de comunidade discursiva (que este não utiliza), ambos apresentam idéias semelhantes. Como propõe Baldo (2004, p. 4-5), para “ambos, os gêneros são delimitados por objetivos comunicativos”. A evolução da Linguística Textual e a afirmação da LC no campo dos estudos linguísticos têm cada vez mais colocado o texto (ou conjuntos de textos, vistos agora como corpus/corpora) como um objeto central de estudo. Em decorrência disso, pesquisas voltadas para a identificação de características micro e macroestruturais nos e dos diferentes textos passaram as ser empreendidos para mostrar que, para além de aspectos formais mais pontuais, existem práticas discursivas, verdadeiros “modos de dizer” (ou convencionalidades) que são particulares de determinadas comunidades discursivas em determinados gêneros textuais. Esse assunto já foi extensivamente explorado por autores tais como Bakhtin (1988 e 1997), Swales (1990) e Marcuschi (2005a, 2005b e 2006), entre outros autores. Ainda assim, parece estar longe de um esgotamento, visto que as concepções transitam entre estilo, gênero de discurso e tipologias de texto. Nessa medida, nosso trabalho também considerará os gêneros ou macro-gêneros e subgêneros textuais (que são também gêneros discursivos), os quais devem exibir determinadas convenções de forma e de sentido. Não escolhemos apenas um gênero textual no âmbito das Pneumopatias como foco de estudo por três motivos principais: a) são ainda poucas as pesquisa linguísticas que mapeiam as diferentes práticas textuais por domínios,

em português, como objeto de estudo ou descrição no que tange às recorrências de tipos textuais e de construção em determinadas especialidades;

b) dados sobre sua configuração textual e lexical recorrente podem fornecer interessantes subsídios para os estudos da tradução, da sumarização ou de simplificação da linguagem e vocabulário científicos, incluindo a área de Recuperação de Informação;

c) embora bastante grande a produção e a circulação do gênero artigo científico publicado em periódico, dado que a avaliação do impacto da pesquisa na ciência é feita pela mensuração da produção de artigos em periódicos prestigiados, há todo um universo de informações em diferentes suportes, dada a interdisciplinaridade da Medicina do Trabalho e da temática em foco, especialmente com a legislação sobre a saúde do trabalhador.

Embora uma série de outros autores possam ser mencionados, nossa proposta de pesquisa aqui apresentada tratará de gênero textual apenas à luz das orientações de Swales (1990). Em função dessa escolha, não faremos distinção entre gênero discursivo e gênero textual. Swales (op.cit) propõe uma visão bastante prática e estrutural de gênero, pois está interessado no que o seu estudo pode auxiliar no ensino de gêneros aos alunos universitários que precisam conhecer as diferentes formas de expressão lingüística. A sua definição aberta de gênero textual (SWALES, 1990, p. 45-58) resume-se a cinco características: 1 – “Gênero é uma classe de eventos comunicativos”. Swales (1990, p.45) entende por evento comunicativo um evento “in which language (and/or paralanguage) plays both a significant and an indispensable role”. Esse posicionamento deixa claro que um gênero está vinculado decisivamente ao emprego da linguagem. 2 – “A principal característica que transforma um conjunto de eventos comunicativos em gênero é um conjunto compartilhado de objetivos comunicativos”. Swales (1990, p. 46) defende que "genres are communicative vehicles for the achievement of goals”. Mesmo compreendendo que a identificação de objetivos comunicativos pode ser difícil em alguns gêneros e que outros possuem mais de um objetivo, Swales propõe que esse fator seja mais relevante do que as similaridades de forma ou qualquer outro critério. 3 – “Exemplares de gêneros variam em sua prototipicidade”. Gêneros, para Swales, funcionam como categorias radiais. Alguns textos possuem características que deixam claro seu pertencimento a um determinado gênero, enquanto outros estão mais marginalmente ligados a ele. O que une vários textos sob um mesmo gênero são traços que se sobrepõem e que perpassam os diferentes exemplares. As características de um gênero dificilmente poderiam ser listadas,

Page 15: 1- IDENTIFICAÇÃO DA PROPOSTA NOVA Início Março de 2013 ... · Dr. Carlos Nunes Tietboehl Filho - Médico Pneumologista, Mestre e Doutor em Medicina Interna e do Trabalho (UFRGS),

elas devem ser entendidas como uma série de inter- relações mais maleáveis. Existem, assim, membros típicos de uma categoria e membros marginais. 4 – “A lógica por trás de um gênero estabelece restrições às possíveis contribuições em termos de conteúdo, posicionamento e forma”. Segundo Swales (1990, p.52) “established members of discourse communities employ genres to realize communicatively the goals of their communities”. Membros da comunidade discursiva reconhecem os objetivos, enquanto membros iniciantes somente reconhecem parcialmente esses objetivos e aqueles que não são membros podem ou não os reconhecerem. O reconhecimento do gênero dá conta das restrições aplicáveis. Swales chama atenção para o fato de que essas restrições não são estáveis: elas evoluem e podem até mesmo serem modificadas, “mas eles continuam a exercer influência mesmo assim” (Swales, 1990, p.53). 5 – “A nomenclatura empregada para determinados gêneros por uma comunidade discursiva é uma importante fonte de informação” Swales salienta que as comunidades discursivas dão nomes aos gêneros que são reconhecidos por apresentarem uma retórica recorrente, de forma que essas nomenclaturas distinguem gêneros já marcados e reconhecidos pelas próprias comunidades discursivas. Isso se apresenta como uma importante fonte para o reconhecimento de gêneros. Existem, porém, gêneros que não são denominados, algo que não os desprovê da característica de serem gêneros. Assume, também, que “além do objetivo, exemplares de um gênero exibem vários padrões de similaridade em termos de estrutura, estilo, conteúdo e audiência pretendida” (Swales, 1990, p.58). c) Terminologia Textual e Linguística do Texto Especializado Ao citar Terminologia Textual, não podemos deixar de esclarecer o que estamos entendendo sob esse título, visto que trataremos de termos relacionados a Pneumopatias Ocupacionais, mas vamos além deles. O esclarecimento é necessário porque, não bastasse o nome da área de estudos de Terminologia já apresentar algumas controvérsias5, o título Terminologia Textual já foi utilizado para descrever outros tipos de enfoques diferentes do que temos em vista para esta pesquisa. Condamines (2005), por exemplo, propõe que, no que entende por Terminologia Textual, os corpora sejam utilizados para auxiliar o terminólogo na busca por termos (grifo nosso). Krieger (2008, p. 6), embora adote um ponto de partida baseado na semiótica greimasiana e deixe claro que, para ela, o termo “Terminologia Textual está relacionado à integração de componentes de textualidade e da discursividade no aparato teórico-metodológico da Terminologia”, também entende que seu objeto primeiro é o termo técnico-científico” (grifo nosso). Diferente dessas autoras, o que estamos entendendo por Terminologia Textual é mais abrangente. Isso porque não tomaremos os termos, as terminologias de Pneumopatias Ocupacionais ou as terminologias a elas conexas, como itens exclusivos ou privilegiados de investigação nos textos - de diferentes perfis - dessa Especialidade em Medicina, ainda que a terminologia seja naturalmente algo destacado. Trata-se, assim, por uma ultrapassagem em direção ao texto-discurso, de uma opção diferente da tradição da pesquisa deTerminologia que mais se desenvolveu no Brasil e no exterior até hoje. Afinal, os estudos terminológicos e as teorias de Terminologia, começando por Wüster, com a Teoria Geral da Terminologia (1974), passando pela Teoria Comunicativa da Terminologia de Cabré (2001), pela Socioterminologia (1993) e pela Teoria Sociocognitiva de Temmermann (2000), apresentam-se acentuadamente, ou mesmo totalmente, vinculados ao estudo dos termos, ainda que destaquem seus aspectos discursivos (textuais). Cada autor, seja mais antigo ou mais atual, apresenta uma perspectiva diferente, embora suas bases de pesquisa sempre tenham sido associada àquelas unidades que denotam conceitos especializados, os termos. Nos anos 80, porém, começaram a se desenvolverem estudos, quer se autodenominassem terminológicos ou não, que já compreendiam a importância do texto especializado como uma ambiência

                                                                                                                         

5 O termo Terminologia permite fazer referência tanto à área de estudos como ao conjunto de termos de uma área. Além disso, a área de estudos pode ser entendida como eminentemente normativa ou descritiva, dependendo da abordagem que se toma como ponto de partida.

Page 16: 1- IDENTIFICAÇÃO DA PROPOSTA NOVA Início Março de 2013 ... · Dr. Carlos Nunes Tietboehl Filho - Médico Pneumologista, Mestre e Doutor em Medicina Interna e do Trabalho (UFRGS),

muito importante. Leitchik (2004), em uma coletânea de artigos russos sobre Terminologia do período de 1992 a 2002, apresentou uma proposta de trabalho que denominou de Teoria Terminológica do Texto (Terminological Text Theory), a qual já vinha desenvolvendo desde 1981 (cf. Leitchik, 2004, p. 373). A proposta de Leitchik ainda também está vinculada ao conceito de termo e de sua centralidade para o estudo terminológico. Todavia, reconhece que o objeto de estudos da sua Teoria Terminológica do Texto compreende vários textos, nos quais termos estão contidos6 (cf. Leitchik, 2002, p. 371, grifos nossos). Os estudos de textos que contêm termos se desenvolveram principalmente no mundo germânico, onde o estudo da Fachsprache7 (Finatto, 2004, p. 347), principalmente apoiada nos estudos e propostas de Hartwig Kalverkämper (1983) e Lothar Hoffmann (1988a), aborda o texto especializado como elemento central do estudo das linguagens especializadas. Esses autores não se referem aos seus estudos pelo título Terminologia Textual, mas sim como Linguística de Linguagens Especializadas ou Linguística do Texto Especializado. Uma explicação para isso é que, na época, o paradigma da Terminologia era representado pela proposta normativa de Eugen Wüster, da qual divergiam por trabalharem de modo descritivo. Contribui para essa explicação o fato de que o próprio Hoffmann (1988a) não dizia estar fazendo estudos terminológicos, mas sim estudos na área da Fachsprachenforschung [pesquisa de linguagens especializadas], que ele diferenciava do Terminologiearbeit [trabalho terminológico], entendido como a área que se encarregava do estudo dos termos a partir de uma perspectiva normativa. O que surpreende positivamente nos trabalhos de Hoffmann e Kalverkämper, e que repercute sobre o nosso modus operandi de pesquisa, é a proposta de se estudarem também elementos que não dependem diretamente do termo. Eles entendem que, do ponto de vista linguístico, não há como algo que se pretende como língua ou linguagem ser apenas composto pelo léxico e, apesar de não se oporem frontalmente à teoria de Wüster no que tange à diferenciação entre termos/palavras/conceitos, percebe-se que a sua posição não era favorável ao sentido “terminocêntrico”:

O trabalho terminológico é geralmente compreendido como uma parte da linguística de linguagens especializadas, mas na verdade ele se ocupa apenas de um núcleo das linguagens especializadas – se ocupa da terminologia. Esse trabalho se situa num lugar bastante específico, sobretudo porque, em grande parte, nele não estão envolvidos linguistas, mas apenas engenheiros e técnicos. Essa situação ainda deverá se prolongar enquanto não haja condições favoráveis para a linguística de linguagens especializadas nessas instituições. (Hoffmann, 1988b, p. 87, tradução nossa).

Sua proposta, então, é que os termos sejam somente um dos aspectos - entre vários - estudados nas linguagens especializadas. Hoffmann, assim, se apega à Linguística de Linguagens Especializadas, à qual Kalverkämper (1983, p. 125) define como uma “teoria terminológica com uma série de problemáticas adicionais”8, ou seja, como algo que abrange mais do que o léxico, considerado freqüentemente como o “Hauptträger der Fachsprachlichkeit” [principal portador da especialização lingüística] (cf. Kalverkämper, 1983, p. 125). Assim, o paradigma proposto tem como objeto central de estudo o texto especializado e não mais a unidade terminológica. É a esse paradigma, de uma teroria terminológica com uma série de problemas adicionais - muitos deles trazidos pela opção do trabalho com corpus e pela adoção dos princípios da Linguística de Corpus, a que nos filiamos também na pesquisa aqui proposta.

                                                                                                                         

6 Essa oposição do estudo de termos em textos e de textos com termos foi por nós abordada em 2004 e retomada em 2011 (FINATTO, 2004; 2011) em um artigo que apresenta uma introdução histórica para o que está sendo aqui colocado e em outro que revisa diferentes perspectivas textuais. 7 Esse termo, em alemão, permite a tradução tanto por língua de especialidade quanto por linguagem de especialidade, ou, ainda, por linguagem especializada. Acreditamos que, dependendo do contexto, pode-se fazer referência ou à língua de especialidade ou à linguagem especializada. Para melhor uma distinção teórica entre língua de especialidade e linguagem especializada, vale a leitura de Zilio (2009), principalmente do capítulo 1. 8 No original: “Terminologielehre mit einem zusätzlichen Fächer von Problemstellungen”

Page 17: 1- IDENTIFICAÇÃO DA PROPOSTA NOVA Início Março de 2013 ... · Dr. Carlos Nunes Tietboehl Filho - Médico Pneumologista, Mestre e Doutor em Medicina Interna e do Trabalho (UFRGS),

Hoffmann (1998a, p. 416) aponta que “o específico das linguagens especializadas se expressa mais visivelmente em seu vocabulário”9, porém, fica claro que essa especificidade não está somente no vocabulário. Isso representa uma grande ampliação dos estudos relacionados às linguagens especializadas, uma ampliação bastante coerente e importante, já que, se observarmos atentamente, um estudo somente sobre termos não esgota os questionamentos restantes acerca de uma linguagem especializada. Apresenta-se então a Fachtextlinguistik10 (cf. Kalverkämper, 1983). Esse termo, em alemão, pode ser interpretado de duas maneiras: de um lado, temos a Fach-Textlinguistik, que, buscando responder o que é uma especialidade, se ocuparia mais especificamente da pragmática, “pois o questionamento sobre a especialidade ou especialidades integra as ações humanas”11 (Kalverkämper, 1983, p. 128); por outro lado, temos a Fachtext-Linguistik, vista como algo semelhante a uma Linguística de Gêneros Textuais e que se ocupa dos textos em funcionamento. É essa segunda interpretação que nos interessa aqui de forma mais específica. Seu objetivo é descrever o funcionamento do texto (no nosso caso o texto-corpus), seja seu funcionamento interno ou externo, de forma que traz para a análise também os participantes da comunicação. Apontar como funciona o gênero textual e como ele se distingue de outros gêneros textuais faz parte de um estudo do texto especializado. Para isso, são importantes métodos empíricos de análise que busquem identificar os pontos que o fazem especializado e o distinguem dos demais. Com texto como foco, deixa de fazer sentido que se continue estudando somente os termos, de forma que se passa a englobar “os modos de dizer peculiares de cada área de conhecimento” (FINATTO, 2004, p. 348). Sabemos que ainda persistem problemas em relação ao nome Terminologia Textual, já que o termo Terminologia, aponta, morfologicamente, para estudo do termo. Por essa mesma perspectiva, fica também estranho entender que algo terminológico não possa ser, ao mesmo tempo, textual. Essa discussão, naturalmente, extrapola os limites deste projeto de pesquisa. O que deve ficar claro é que a proposição dessa “nossa” Terminologia Textual, muito identificada com uma Linguística do Texto Especializado, ainda é algo bastante recente no Brasil e merece discussão. Será, entretanto, esse o entendimento e a referência para a pesquisa de construções recorrentes no nosso corpus de Pneumopatias Ocupacionais. d) Léxico, Palavra e Linguística da Enunciação As concepções de palavra e de léxico que guiarão esta pesquisa procuram fazer uma integração entre uma visão estatística de ocorrência, associada à concepção de palavra gráfica, e uma visão enunciativa de palavra. A junção pode parecer estranha, mas, acreditamos, pode render bons resultados á medida que redimensiona a noção de uso. Afinal, cada ocorrência de uma dada palavra ao longo de um corpus corresponde a um uso. E, se cada uso corresponde a um sentido, tem-se então uma infinidade de sentidos-usos. Entretanto, sabemos que a LC preconiza que se observam os diferentes usos para que então se possa descrever seus padrões e combinatórias, homogeneidades e heterogeneidades, o que nos dará uma ideia de uma “prosódia semântica” de uma dada palavra ou construção em meio às suas diferentes apresentações de uso. Conforme Biderman (1999, p.87) vocábulo e palavra são termos imprecisos. E, para minimizar as imprecisões, a autora propunha uma distinção entre lexema e lema. O primeiro é uma unidade virtual e abstrata que compõe o léxico; o segundo é registro do lexema, de acordo com uma forma de referência, que é indicado em um dicionário. Biderman (op.cit.) também nos apresentava o termo lexia, o qual entendia como manifestação discursiva dos lexemas. Assim, as lexias são a face concreta dos lexemas, o seu uso da fala e escrita. As lexias, conforme a autora, podem ser simples, complexas ou compostas, dependendo do tipo de juntura ou não que apresentem. Um exemplo de lexia simples seria pai, para lexia complexa teríamos como exemplo cesta básica. À lexia composta correspondem as seqüências unidas

                                                                                                                         

9 No original: “die Spezifik der Fachsprachen äußert sich besonders deutlich in ihren Wortschätzen” 10 Fachtextlinguistik, em alemão, se não tiver nenhum sinal gráfico que aponte qual a divisão que se deve fazer na palavra, pode ser interpretada de duas formas. A primeira forma Fach-Textlinguistik, seria uma Linguística Textual Especializada; já a segunda forma possível, Fachtext-Linguistik, seria uma Linguística do Texto Especializado. A diferença entre as duas formas é mais aprofundada em Kalverkämper (1983). Neste projeto, elas são abordadas somente para apontar as diferenças mais básicas. 11 No original: “denn die Frage nach dem Fach oder den Fächern zielt auf das menschliche Handeln”.

Page 18: 1- IDENTIFICAÇÃO DA PROPOSTA NOVA Início Março de 2013 ... · Dr. Carlos Nunes Tietboehl Filho - Médico Pneumologista, Mestre e Doutor em Medicina Interna e do Trabalho (UFRGS),

por hífen como pai-de-santo. Em que pesem tais distinções, na nossa pesquisa, o termo palavra corresponderá, muito singelamente, à concepção de palavra gráfica, entendida como um conjunto de caracteres entre dois espaços em branco. Além disso, acreditamos o fator de frequência de uso é uma parte essencial e caracterizadora das palavras. Consideraremos, assim, as frequências das palavras - e das estruturas sintagmáticas - no nosso corpus de estudo e em outros corpora do português brasileiro. Conforme Biderman (1998, p.162 ss.), que pioneiramente acompanhou referenciais da LC em seus trabalhos de Lexicologia e Lexicografia, a língua pode ser vista como um sistema probabilístico de combinatórias e de usos mais ou menos frequentes, salientando-se que a frequência deve ser tomada como uma característica típica da palavra. Segundo Benveniste (1989), o signo torna-se palavra pela enunciação. Isso porque, conforme explica, há dois sistemas na linguagem: o semiótico, das formas, cuja unidade é o signo, e o semântico, do uso, do discurso, cuja unidade é a palavra. O sujeito toma os signos, do sistema semiótico, e os significa, dando-lhes um sentido, tornando-os palavras da frase (estando, portanto, no nível semântico), de acordo com a instância desse discurso. Ao mesmo tempo em que constitui a própria instância do discurso, o sujeito constitui a si mesmo como “eu” – “o ato individual de apropriação da língua introduz aquele que fala em sua fala” (BENVENISTE, 1989, p.84) –, constitui também um “tu” – elemento sem o qual não há linguagem. Vale destacar que a separação dos níveis semiótico e semântico somente pode ser feita para fins didáticos. Além disso, tais níveis não podem ser identificados com as noções de língua e fala de Saussure. Embora a teoria benvenistiana seja intrinsecamente relacionada à teoria saussuriana, Benveniste vai além do que propunha Saussure, uma vez que a noção de nível semântico engloba o uso da língua pelo sujeito. É aqui, portanto, que se coloca a questão lexical na teoria benvenistiana, a partir da noção de palavra. Uma palavra para Benveniste não é, portanto, apenas um elemento físico de uma frase, mas uma ocorrência cuja referenciação – interna à própria enunciação e sem relação com o mundo físico – determina seu sentido, dependendo do eu-tu-ele-aqui-agora que decorre da apropriação da língua pelo sujeito. O léxico ou o vocabulário12, as palavras que, enfim, compõem uma língua, estão em toda parte e, ao mesmo tempo, associam-se a diferentes dimensões da linguagem. E, respeitando o acima citado sobre a distinção entre o que tange à semiótica e o que tange ao discurso-uso, teríamos uma perspectiva de vocabulário que é conformada pelo plano da “palavra-signo” e pelo plano da “palavra-em-uso”. Apenas desse viés enunciativo e de tantos outros que se quisesse evocar, já vemos que é possível perceber e tratar as palavras que perfazem uma língua sob diferentes ângulos, pela ótica da fonologia, morfologia, sintaxe, semântica e também pela macro-perspectiva do texto, do discurso e da sua enunciação. Por isso, não é demasiado imaginar que o léxico, elemento que será aqui destacado, exerça a função de um grande intermediador entre os diferentes planos da língua, planos que os diferentes pontos de vista de descrição e de investigação da linguagem podem instaurar. Conforme já mencionado várias vezes, os métodos de observação que adotaremos para a organização e estudo do nosso acervo são oriundos da Linguística de Corpus (LC). A LC é uma perspectiva diferenciada dos estudos da linguagem, bastante marcada pela observação, o mais extensiva possível, dos usos da língua e pelo apoio de recursos informatizados aplicados a acervos textuais em formato digital. Esses acervos, os corpora, são especialmente organizados para a pesquisa linguística e devem permitir demonstrar padrões e especificidades dos usos da língua em diferentes situações. A partir disso, nossa intenção é tentar descobrir que padrões de uso de associações palavras estariam postos nos diferentes tipos de texto que tratam do tema das Pneumopatias Ocupacionais em português, fazendo alguns contrapontos com materiais textuais, sejam de Pediatria ou de linguagem jornalística. Neste trabalho, conforme a LC, entenderemos a noção de riqueza lexical como uma medida estatística, como uma relação que se estabelece entre o número de palavras que perfaz um texto e o número de palavras repetidas e diferentes nele encontradas. Trata-se, assim, apenas de uma relação entre o número total de ocorrências (tokens) e o número de formas diferentes (types). Quanto maior for o número de types, maior será a riqueza e a variedade do vocabulário. Quanto menor o percentual13, mais

                                                                                                                         

12 Não diferenciaremos aqui os termos léxico e vocabulário. Essa distinção, entretanto, é útil em alguns momentos e no cenário de algumas oposições. 13 Esse percentual é a razão type/token (forma/ocorrência).

Page 19: 1- IDENTIFICAÇÃO DA PROPOSTA NOVA Início Março de 2013 ... · Dr. Carlos Nunes Tietboehl Filho - Médico Pneumologista, Mestre e Doutor em Medicina Interna e do Trabalho (UFRGS),

repetitivo é o universo de vocabulário. Outro elemento importante a considerar no universo da riqueza lexical, assim entendida, ainda que restrito ao número de palavras e à sua variedade, é o número de palavras cuja ocorrência é única em um corpus. Essas palavras são denominadas hapax legomena ou hápax. Interessará, enfim, também observar que palavras ocorrem apenas uma vez ao longo de um dado texto para que se componha um retrato mais abrangente de seu universo vocabular. Bastante longe de considerar a língua apenas sob um ponto de vista estatístico, uma visão enunciativa – à medida que considera que cada evento enunciativo é único, irrepetível e auto-referenciado linguisticamente – vai analisar caso a caso, ocorrência a ocorrência, sem perder de vista que qualquer nível da língua – como o fonológico, o morfológico e o sintático, por exemplo –, bem como quaisquer de seus aspectos, estão sempre subordinados ao sentido. Dessa maneira, uma abordagem apenas quantitativa não poderia ser um ponto de partida em um estudo enunciativo, posto que o importante nessa perspectiva é a singularidade do processo de enunciação. A visão enunciativa complementa, portanto a observação estatística à medida que nos permite ponderar, em diferentes condições, sobre as ocorrências, sejam elas tokens ou types, e oferece um leitura peculiar para o que observamos na linhas de concordância que espelham os contextos de uso de uma dada palavra. Há, entretanto, que se considerar que os pontos singulares inegavelmente desvelados pelas abordagens estatísticas, ao revelarem ilhas de singularidades em meio a padrões, podem sinalizar ricos filões de exploração para a análise em moldes benvenistianos. Não é demais supor que um enfoque começa onde o outro oferece, em tese, um ponto-cego. Para a LC, estão as palavras e as suas companhias, as suas reiterações, as suas diversidades, enquanto que, para a Enunciação, estão as pessoas e suas escolhas de significação, o homem na língua, os efeitos de sentido e os seus modos de dizer em meio às diferentes possibilidades que a escrita sobre o tema das Pneumopatias Ocupacionais oferece. b) Construções recorrentes, fraseologias e colocações - em brevíssima revisão14 O objeto escolhido para estudo no nosso corpus está longe de receber uma compreensão homogênea no âmbito dos Estudos da Linguagem, há um sem-número de concepções e de categorizações para fraseologias, frasemas, colocações, coligações, expressões fixas ou construções recorrentes em geral. Essas construções relativamente fixas e recorrentes, apesar de, aparentemente, só terem alcançado uma maior destaque nas pesquisa linguísticas das últimas décadas, já figuravam entre as preocupações do Curso de Lingüística Geral (CLG), que tentava, no início do século passado, estabelecer um novo paradigma linguístico. O assunto das combinatórias entre signos é abordado na segunda parte do CLG, sob os temas relações sintagmáticas, no capítulo V (SAUSSURE, 2006 [1916]:143-147), e solidariedades sintagmáticas (CLG, 2006:148-155), no capítulo VI. Essas relações são intermediadas pela unidade denominada sintagma, que abrange desde a palavra e suas relações internas (raiz, sufixo, prefixo etc.) até os grupos de palavras, chegando a frases inteiras (SAUSSURE, 2006, p.144-145). O sintagma é descrito no CLG como as relações estabelecidas entre as unidades no discurso, por isso a sua amplitude (desde palavra até frase). Porém, o próprio CLG nos chama atenção para uma importante consideração: “a frase é o tipo por excelência de sintagma" (op.cit.p, 144). Essa afirmação faz com que se aborde uma outra questão importante, a que se refere à dicotomia língua/fala: “Mas se ela [a frase] pertence à fala e não à língua [...]; não se segue que o sintagma pertence à fala? Se é própria da fala, tal como concebida por Saussure, a liberdade das combinações; cumpre, pois, perguntar se todos os sintagmas são igualmente livres” (op.cit.). A resposta dada a esse questionamento é o que nos permite falar hoje em colocações, coligações, frases feitas, enfim, em fraseologias ou em construções recorrentes. Muito mais recente é o estudo de Tagnin (2005) sobre as sintagmatizações. Em O jeito que a gente diz, a autora nos mostra um panorama geral da fraseologia da linguagem cotidiana, buscando reconhecer seus tipos. Esse trabalho pode ser entendido como uma tentativa de mapear um continuum de construções já citado por Bally em 1909, antes do CLG. Tagnin propõe a subdivisão das fraseologias de acordo com seu nível de convencionalidade, que é entendido como caráter principal da fraseologia. A delimitação se dá em três grandes subgrupos: pragmático, semântico e sintático. Cada um desses subgrupos divide-se ainda em duas ou três categorias.

                                                                                                                         

14 Uma extensa revisão do assunto vemos em Zilio 2009. Nesta seção e na seguinte, socorremo-nos de várias passagens de seu trabalho.

Page 20: 1- IDENTIFICAÇÃO DA PROPOSTA NOVA Início Março de 2013 ... · Dr. Carlos Nunes Tietboehl Filho - Médico Pneumologista, Mestre e Doutor em Medicina Interna e do Trabalho (UFRGS),

O nível sintático divide-se de acordo com a gramaticalidade, a ordem e a combinabilidade; o nível semântico divide-se de acordo com o significado da forma e o significado da imagem; e o nível pragmático divide-se de acordo com a situação e a expressão (TAGNIN, 2005, p.20). Em cada um desses subgrupos encontram-se, então, os diferentes tipos de fraseologias, como veremos a seguir. Na categoria da combinabilidade, temos as coligações e as colocações (TAGNIN, 2005, p.30). Ambos os grupos se definem por apresentarem, em geral, uma base e um colocado, sendo que a base tem maior conteúdo semântico e escolhe o colocado. No caso das coligações, o colocado é sempre uma palavra gramatical e a base é uma palavra lexical. Para as colocações, tanto a base quanto o colocado são palavras lexicais. É interessante observar que a autora enquadra os coletivos (p.ex. uma ninhada de pintinhos, um bando de gansos etc.) e aquilo que ela chama de expressões especificadoras de unidade (p.ex. uma barra de chocolate, uma salva de palmas etc.) entre as colocações. Em seguida, temos a categoria caracterizada pela ordenação dos elementos, no qual são enquadrados os binômios. Os binômios, como a própria autora menciona, “podem ser considerados um tipo especial de colocação” (TAGNIN, 2005, p.50). Eles se caracterizam por serem formados por duas palavras de mesma classe gramatical ligadas por uma conjunção ou preposição (p.ex. da cabeça aos pés, ir e vir etc.). O que esses binômios têm de especial em relação às colocações é que a ordem dos elementos, se alterada, muda o sentido da expressão. Sob o quesito gramaticalidade, encontram-se as expressões que têm uma estrutura agramatical consagrada. São expressões agramaticais aceitas na língua (p.ex. de vez em quando, tanto faz etc.). Essas estruturas não podem ser analisadas gramaticalmente a não ser que tomadas como uma unidade. Ainda no nível sintático, porém não enquadradas propriamente em uma das categorias mencionadas, há as expressões convencionais, que são expressões um pouco mais longas do que as colocações ou coligações, mas que não chegam a ser compreendidas como expressões idiomáticas devido à sua transparência semântica (p.ex. próprio para consumo, estar aberto para discussão etc.). Passando para o nível semântico, temos as expressões idiomáticas. As expressões são subdivididas segundo o significado da forma lingüística e da imagem.Na categoria da forma, temos expressões em que a forma é convencionalizada de tal maneira que seus constituintes não permitem decomposição semântica, devendo ser entendidos como uma unidade (p.ex. pagar o pato, curto e grosso etc.). Na categoria da imagem, temos expressões imagísticas, constituídas diferentemente de acordo com a língua e a cultura, que nos remetem a um significado diferente do que se diz (p.ex. altos e baixos, no fundo do poço etc.). Essas expressões possuem um alto teor metafórico. Ainda nesse grupo, temos os símiles, que se configuram diferentemente nas diferentes línguas, de forma que não são previsíveis (p.ex. esperto como uma raposa, bêbado como um gambá etc.). Chegando ao nível pragmático, temos os marcadores conversacionais e as fórmulas situacionais. Os marcadores conversacionais são aquelas expressões verbais obrigatórias em determinadas situações de conversa, de forma que se não forem utilizadas pode-se incorrer em um reconhecimento de falta de educação (p.ex. Poderia repetir, por favor?, Tudo bem, mas... etc.). As fórmulas situacionais são expressões obrigatórias ou opcionais que abrangem uma enorme gama de possibilidades. A autora considera que fórmulas situacionais são tanto expressões usadas para indicar distanciamento (p.ex. Parece que...) ou polidez (p.ex. Será que eu poderia...?), quanto provérbios (p.ex. Tal pai, tal filho), frases feitas (p.ex. Falando do diabo...), citações (p.ex. A sorte está lançada) e fórmulas de rotina (p.ex. Bom dia). O grande mérito da obra de Tagnin, além de apresentar vários exemplos em inglês e em português, é a classificação empregada, além de uma minuciosa descrição das várias possibilidades de compreensão do que vem a ser uma fraseologia de uma forma organizada, coerente e didática. Dessa forma, mesmo que se possa questionar seu modo de classificação, cremos que o panorama apresentado contribui para uma melhor compreensão do fenômeno. Uma outra referência no tema das fraseologias é Hausmann (1989), autor que trabalhou principalmente com o que denominou Kollokation15. Sua definição de colocação é bastante simples, o que dificulta bastante seu reconhecimento, já que deixa grande parte das decisões sobre o que seria ou não uma colocação nos ombros do pesquisador. Importa dizer, porém, que Hausmann estava preocupado

                                                                                                                         

15 Optamos por usar aqui Kollokation, representando a tradição lexicográfica alemã, para diferenciar claramente de collocation, que representa a tradição lexicográfica inglesa Essas denominações, por mais que sejam parecidas, representam, em muitos casos, verdadeiros falsos amigos.

Page 21: 1- IDENTIFICAÇÃO DA PROPOSTA NOVA Início Março de 2013 ... · Dr. Carlos Nunes Tietboehl Filho - Médico Pneumologista, Mestre e Doutor em Medicina Interna e do Trabalho (UFRGS),

com organização de um dicionário de colocações, e não com a sua extração de um corpus. Mesmo assim, a importância de seu trabalho não pode ser negada, já que influenciou vários trabalhos posteriores e ainda é alvo de revisões. Para Hausmann (1989), uma colocação é a junção de dois lexemas que formem uma das seguintes estruturas: a) “substantivo + adjetivo (epíteto) b) substantivo + verbo c) verbo + substantivo (objeto) d) verbo + advérbio e) adjetivo + advérbio f) substantivo + (prep.) + substantivo”(Hausmann, 1989, p.1010). Além de conformar uma dessas estruturas, uma colocação deve atender ao critério de ser uma unidade, “não da fala, mas da língua” (Hausmann, 1989, p.1010), fazendo referência clara à dicotomia saussuriana. Para uma sistematização em um dicionário, o autor propôs que as colocações fossem separadas em base + colocativo, sendo que ela deveria sempre figurar no dicionário no verbete da base. O que diferencia uma colocação de uma combinação livre, segundo Hausmann, é a sua possibilidade restrita de combinação e ela se distingue das expressões fixas justamente por não haver uma fixação total entre os membros e por ser transparente, ou seja, as unidades que conformam a colocação mantêm seu significado individual. A divisão, porém, entre combinações livres e colocações, como o próprio autor comenta, é bastante complicada. Hausmann (1989) entendia que somente pertencem à colocação as palavras pertencentes às categorias plenas (ou lexicais), ignorando a importância das vazias (ou gramaticais). Elementos gramaticais, entretanto, do nosso ponto de vista, são também importantes para caracterizar uma colocação, já que em muitos casos, como aponta Heid (2005), existe uma preferência gramatical que acompanha as colocações e essa preferência é uma informação essencial para quem deseja escrever um texto que seja aceito pela comunidade leitora. Ressalte-se, novamente, porém, que a preocupação de Hausmann era com a dificuldade existente para os lexicógrafos em apresentar as colocações nos dicionários. Sinclair (1990), por sua vez, lidava com collocations de um modo muito diferente do que Hausmann. Seu ponto de partida é o seu diferencial; é o trabalho com corpora. Sinclair nos apresenta dois princípios: o princípio da livre escolha, segundo o qual “a cada momento em que uma unidade é completada (uma palavra ou sintagma ou oração), um grande leque de opções se abre e a única restrição é a gramaticalidade” (SINCLAIR, 1990, p. 109); e o princípio idiomático, segundo o qual “um usuário da língua tem à sua disposição um grande número de sintagmas pré-construídos que constituem escolhas únicas, mesmo que possam parecer analisáveis em segmentos”. Sinclair acreditava que o princípio que rege a linguagem é o princípio idiomático, de forma que a cada palavra empregada no discurso, o número de possibilidades de seqüência fica mais restrito. A partir dessa crença, propõe o estudo de colocações, que segundo ele, ocorrem quando, “em algumas ocasiões, palavras parecem ser escolhidas em pares ou grupos, e eles não são necessariamente adjacentes” (SINCLAIR, 1990, p.115). Essa idéia de que não é preciso que as palavras estejam adjacentes é o que faz com que se refute a necessidade de relação sintática entre elas. As colocações são divididas por Sinclair em downward collocations, upward collocations e neutral collocations. No primeiro caso, o nódulo (palavra de busca) tem uma freqüência maior que o colocado no corpus analisado, já no segundo caso, a situação se inverte e o colocado16 tem maior freqüência que o nódulo. No terceiro caso, as ocorrências, tanto da base, quanto do colocado são próximas (Sinclair estabelece 15% de ocorrências para mais ou para menos, em relação ao nódulo, como critério para considerar as freqüências próximas).

                                                                                                                         

16 Não se deve confundir a separação proposta por Sinclair em nódulo + colocado com a separação proposta por Hausmann em base + colocativo. Apesar das denominações serem muito próximas, o nódulo a que se refere Sinclair é somente a palavra utilizada para se buscar os contextos, é a palavra sob investigação, não tem implicações quanto à classe gramatical, como é o proposto por Hausmann.

Page 22: 1- IDENTIFICAÇÃO DA PROPOSTA NOVA Início Março de 2013 ... · Dr. Carlos Nunes Tietboehl Filho - Médico Pneumologista, Mestre e Doutor em Medicina Interna e do Trabalho (UFRGS),

Segundo Sinclair, a busca das colocações em um corpus pode ser realizada num contexto de 4 palavras para cada lado da palavra de busca. Esse intervalo permitiria buscar os colocados mais significativos e diminuir a presença de ruído. Também, ao abordar a extração de colocações a partir de corpora, Heid (2005) menciona dois métodos diferentes. O primeiro, creditado a Halliday, é parecido com o método apresentado acima, proposto por Sinclair (1990). De acordo com ele, as colocações se buscam a partir de um intervalo x de palavras em sequência. Um intervalo de duas palavras, por exemplo, buscaria todos os pares que ocorrem no texto, um intervalo de cinco palavras, buscaria todas as seqüências de cinco palavras; esse método também é chamado de busca por n-grama. O segundo método, creditado a Evert (2004), é chamado de abordagem relacional, pois destaca relações gramaticais ao invés de somente abordar diretamente o léxico. A partir desse método, um corpus etiquetado pode ser investigado através de pesquisas por combinações gramaticais, como, por exemplo, verbo + subst. Esse método também permite a verificação de preferências gramaticais, ou seja, permite averiguar se determinado substantivo ocorre mais frequentemente com ou sem artigo, no singular ou plural etc. c) Estudos sobre a fraseologia em linguagens científicas Embora nosso estudo faça a exploração de um acervo de textos especializados sem levar em conta um papel central ou diferenciado para as construções recorrentes que contenham termos, acreditamos que vale aqui uma breve revisão de estudos que seguem a via oposta para que reconheçamos seus parâmetros. Kjær (1990), por exemplo, produziu um estudo bastante crítico que visava esclarecer o termo fraseologia no âmbito dos estudos terminológicos. Segundo ela, há três distinções que devemos perceber: 1 – o termo fraseologia pode denotar tanto a teoria da fraseologia quanto as unidades fraseológicas; 2 – fraseologia, no âmbito da da Terminologia, denota o ambiente em que se insere um termo, já no âmbito da Lexicologia, denota combinações de palavras que formam unidades lexicais ou que têm o caráter de expressões fixas por outros motivos que não sua lexicalização; 3 – existe uma distinção entre fraseologia de língua comum e fraseologia de língua de especialidade, sendo que os estudos terminológicos têm se focalizado na segunda, enquanto os estudos lexicológicos têm se focalizado principalmente na primeira (Kjær, 1990, p. 4-5). Para esclarecer a questão, Kjær propõe a seguinte terminologia:

“Fraseologia terminológica denotando a teoria fraseológica no sentido terminológico. Léxico-fraseologia denotando a teoria fraseológica nas combinações lexicológicas de palavras na língua para fins gerais. Fraseologia de línguas para fins específicos denotando o inventário de combinações fraseológicas de palavras em línguas para fins específicos”17. (Kjær, 1990, p. 5-6)

Após essa proposta, a autora examina definições e critérios existentes para a delimitação de fraseologias. Já, para Pavel (2003, p. 106), uma referência dos estudos de Terminologia no Canadá, uma fraseologia especializada é “a combinatória sintagmática das unidades terminológicas decorrentes de uma estrutura conceitual coerente”. Entenda-se aqui que a combinação não é entre termos, mas sim de termos, com função nuclear, com co-ocorrentes usuais ou privilegiados. O estudo de Pavel mostrou-se bastante inovador, não tanto pela parte da constituição das fraseologias especializadas, mas ao mostrar critérios para a sua seleção. Chama atenção, por exemplo, para o fato de que somente a frequência não é um critério aceitável. Outros critérios, como comutabilidade e combinabilidade tornam o seu estudo altamente produtivo e merecedor de atenção. Outra contribuição digna de registro é a de L’Homme (2000), também do Canadá. A autora trata de specialized lexical combinations, o que corresponde, basicamente, às colocações propostas por Hausmann lapidadas a partir de um ponto de vista da Terminologia. Dessa forma, as combinações binárias se dão sempre entre um termo e outro lexema. As combinações que interessariam à Terminologia, desse ponto de vista, seriam, portanto: “subst. (termo) + verbo subst. (termo) + adjetivo subst. (termo) + subst.” (L’Homme, 2000, p. 94)

                                                                                                                         

17 No original: “Term phraseology denoting phraseology theory in the terminological sense. (...) Lexico-phraseology denoting phraseology theory in the lexicological word combinations in the language for general purposes. (...) LSP phraseology denoting the inventory of phraseological word combinations in language for specific purposes”.

Page 23: 1- IDENTIFICAÇÃO DA PROPOSTA NOVA Início Março de 2013 ... · Dr. Carlos Nunes Tietboehl Filho - Médico Pneumologista, Mestre e Doutor em Medicina Interna e do Trabalho (UFRGS),

O trabalho desenvolvido por Gouadec (1994), estudioso francês da tradução de textos especializados, diferencia-se em relação aos que foram mencionados até aqui. Pensando diretamente no trabalho dos tradutores, propõe uma visão de fraseologia especializada que extrapola as fronteiras da frase, podendo atingir até parágrafos inteiros. A inovação de Gouadec começa a ser notada já a partir da denominação e da definição apresentada para as fraseologias especializadas. Ele as chama de entidades fraseológicas e as define como cadeias de caracteres significativos. Essas cadeias tornam-se notáveis ou significativas ( para o tradutor) por apresentarem quatro características: especialização; repetição; risco de manipulação; e vantagem no seu domínio por parte do tradutor. A partir dos exemplos apresentados, Gouadec distingue entre termos, híbridos término-fraseológicos e fraseologias. Dentro das fraseologias, há uma divisão de acordo com as matrizes presentes em cada um deles. Matrizes aglomeradas em torno de um termo são ditas entidades fraseológicas com pivô terminológico; já as que independem do termo para sua existência são chamadas entidades fraseológicas de variáveis terminológicas. Além disso, Gouadec não vê muita importância em se discutir qual é a separação precisa entre termos e fraseologias, já que isso dependerá muito da perspectiva adotada e não faz uma grande diferença para quem está trabalhando com o texto. A proposta apresentada por Gouadec destaca-se em relação às outras por ser totalmente voltada às necessidades de tradutores e de pessoas que trabalham com textos especializados, o que se pode perceber perfeitamente pela inclusão de fatores como risco e vantagem entre as características das cadeias de caracteres. Porém, os critérios apresentados e a delimitação das construções parecem residir muito na intuição do pesquisador. Marco (1998) também já discorria sobre colocações encontradas a partir de adjetivos não-técnicos em textos especializados de Medicina, razão pela qual a incluímos aqui. Em trabalho de 2000, a mesma autora lembrava Gouadec (1994) ao abordar matrizes fraseológicas. A diferença deste segundo trabalho da autora em relação à proposta de Gouadec é que em vez de trabalhar com matrizes baseadas em palavras lexicais, Marco (2000) apresentava matrizes formadas por palavras gramaticais, que chamou de collocational frameworks. Um dos pressupostos fundamentais do trabalho de Marco (1998, p. 43) é que “o significado de uma palavra não é fixo, mas depende das outras palavras com a qual ela se associa”. Esse pressuposto muito tem a ver com o que se observa hoje em Linguística de Corpus (cf., entre outros, STUBBS, 2001; BERBER SARDINHA, 2004), mas já se podia depreender tal compreensão através do pensamento saussuriano. Um segundo artigo de Marco já traz uma visão bastante diferente. Seu ponto de investigação passa de colocações lexicais de adjetivos (MARCO, 1998) para matrizes colocacionais baseadas em palavras gramaticais (MARCO, 2000), o que encontramos como um princípio muito interessante. O corpus de estudo da autora no trabalho do ano 2000 manteve-se composto por artigos da área da Medicina escritos em inglês. As matrizes colocacionais apresentadas por Marco são formadas por intervalos de palavras como the...of ou a...of, podendo ser representadas pela fórmula X (modificador)YX, em que a variável é representada por Y (correspondendo a palavras lexicais) e as constantes por X (correspondendo a palavras gramaticais). Esse tipo de estudo chama mais atenção ainda para a importância de se analisar as fraseologias tendo em vista todo o conjunto de palavras envolvido (incluindo aqueles que denotariam somente uma função gramatical) e não somente baseado em estruturas binárias organizadas segundo o envolvimento das palavras lexicais. O estudo de Marco (2000) apresenta uma contribuição muito importante, mostrando o papel das palavras gramaticais, que frequentemente são excluídas dos estudos fraseológicos. No Brasil, uma referência importante do estudo da fraseologia terminológica é o trabalho de Bevilacqua (2004), nossa colega junto ao grupo TERMISUL. A autora trabalhou com textos da área do meio ambiente, mais especificamente no que se referia à energia solar e apresentou uma proposta que se distingue das apresentadas principalmente por abordar a estrutura subjacente das fraseologias especializadas, ou Unidades Fraseológicas Especializadas eventivas (UFE eventivas). Para Bevilacqua (2004, p.32), as UFE eventivas são derivadas de uma estrutura subjacente formada por dois elementos: um núcleo eventivo e um núcleo terminológico. Na superfície, o núcleo eventivo pode se revelar através de verbos, substantivos deverbais ou adjetivos participiais e o núcleo terminológico é representado, como já explícito no nome, por um termo. Assim, na UFE eventiva generar calor, generar representa o núcleo eventivo e calor, o núcleo terminológico. Revisando outros autores, Bevilacqua (2004, p. 29-33) apresenta, inicialmente, oito critérios de reconhecimento de fraseologias especializadas: caráter sintagmático, estabilidade semântica, estabilidade

Page 24: 1- IDENTIFICAÇÃO DA PROPOSTA NOVA Início Março de 2013 ... · Dr. Carlos Nunes Tietboehl Filho - Médico Pneumologista, Mestre e Doutor em Medicina Interna e do Trabalho (UFRGS),

sintática, grau de fixação, inclusão de uma unidade terminológica, semicomposicionalidade ou composicionalidade, uso em âmbito específico e frequência relevante. Desses oito, a autora toma como relevantes cinco deles, os quais são consensuais entre os autores: presença de unidades terminológicas, estabilidade sintática, estabilidade semântica, frequência relevante e seu uso em um âmbito especializado. Bevilacqua (2004) relata que o critério de presença de uma unidade terminológica, apesar de necessário, ainda não é suficiente para distinguir uma UFE de outros sintagmas livres, de forma que há necessidade de se recorrer também a critérios de estabilidade sintática e semântica como parâmetros iniciais, sustentados por parâmetros como frequência e, naturalmente, pelo seu uso em um âmbito especializado. Sendo esses critérios ainda não suficientes, por ainda encontrarem-se sintagmas não relacionados diretamente ao âmbito específico do estudo, Bevilacqua (2004, p. 59) propõe uma divisão em unidades fraseológicas especializadas eventivas e unidades sintagmáticas discursivas especializadas (grifos nossos), que são as unidades fraseológicas especializadas recorrentes no discurso especializado que não se reportam a um conhecimento específico da área estudada. Por apresentar o grau de estabilidade semântica acima do critério de freqüência, Bevilacqua (2004, p. 61) propõe que uma fraseologia especializada pode estar representada através de um hapax legomenon. Nesse ponto, não há uma indicação se se está falando em um hapax legomenon aparente na superfície ou na estrutura subjacente. Essa crítica, porém, não tira de forma alguma o mérito do estudo desenvolvido, que apresenta um método novo de classificação fraseológica a partir dos tipos de verbos e a partir da pertinência à área. Esses trabalhos aqui citados, embora atestem a produtividade do estudo de construções recorrentes centradas em termos, mostram que há um outro e vasto território a explorar, o que integraria as dimensões das fraseologias terminológicas e as discursivas (ou textuais), englobando-se também o papel das unidades gramaticais e das lexicais. A discussão justamente legitima a nossa opção por uma não separação a priori do que venha a ser encontrado nos nossos textos sobre Pneumopatias Ocupacionais. d) Posicionamento teórico-metodológico da nossa pesquisa18 Primeiramente, podemos dizer, sem sombra de dúvida, que a Fraseologia e o campo das construções recorrentes são uma área de estudos muito ampla, abrangendo, como nos apresentou Bally, ainda em 1909, estruturas que vão, segundo o grau de fixação, desde unidades completamente fixas e indecomponíveis até àquelas que estão muito próximas às associações livres. Os fraseologismos se estendem em um continuum de fixação; assim, torna-se penoso separá-los por categorias. O grau de fixação pode apresentar-se tanto no nível sintático quanto no semântico, ou mesmo em ambos, já que, como defende Bevilacqua (2004), um acaba por influenciar no outro. É também o grau de fixação que inclui em seu domínio a presença de determinadas configurações gramaticais, como a preferência por determinadas preposições em detrimento de outras, o uso ou não de artigos definidos ou indefinidos etc. Examinado a fundo, pode parecer que o grau de fixação em si não seja muito importante para determinar se uma associação é fraseológica ou não, porém, a presença de alguma fixação, ou seja, de alguma força convencional, como chamaria Tagnin (2005), que faça com que duas ou mais palavras apareçam frequentemente juntas, parece ser imprescindível. Assim, apesar de ser difícil, senão improdutivo, tentar determinar precisamente qual o grau de fixação das associações estudadas, parece claro que, se nada indica certa fixação, o estudo de uma determinada associação se torna inútil do ponto de vista fraseológico. Temos, então, um critério altamente determinante para o estudo de fraseologias, porém, ao mesmo tempo, altamente indeterminável, se pensarmos em precisá-lo de acordo com categorias, e não como propôs Bally (1951), através de um continuum. Se aliarmos a esse critério um critério de extensão das construções, então temos um problema que parece não poder ser resolvido, exceto pela decisão do próprio linguista/pesquisador. Muitos autores trabalham com o que se chamam colocações, ou seja, de forma bastante ampla e desconsiderando implicações gramaticais, partindo da associação de pelo menos duas palavras. Esse critério de limitação a dois lexemas foi determinado pelos lingüistas que propuseram os estudos, mas não há motivos que impeçam, em alguns casos, que uma colocação seja considerada uma                                                                                                                          

18 Esse posicionamento também repete várias passagens do trabalho de Zilio 2009.

Page 25: 1- IDENTIFICAÇÃO DA PROPOSTA NOVA Início Março de 2013 ... · Dr. Carlos Nunes Tietboehl Filho - Médico Pneumologista, Mestre e Doutor em Medicina Interna e do Trabalho (UFRGS),

expressão idiomática do tipo bloco único ou expressão fixa, que, aliás, muitas vezes têm somente dois lexemas envolvidos (p.ex. pagar o pato (cf. TAGNIN, 2005)). Tomemos, por exemplo, a colocação fumante inveterado, proposta por Hausmann (1989), como uma colocação do tipo subst. + adj. Se pensarmos que não há outro adjetivo utilizado tão freqüentemente para se referir a alguém que fuma demais, vemos que o resultado dessa associação é uma fixação do mais alto grau, de forma que não devemos separar essas duas palavras se quisermos expressar essa idéia, assim, essa colocação poderia ser também qualificada como expressão fixa. Sabemos que muitas das colocações apresentam possibilidades de comutação de alguns elementos e que são, em geral, mais flexíveis que expressões idiomáticas, porém, temos alguns elementos difíceis de enquadrar e que são facilmente confundíveis. Parece-nos que o critério de extensão seja outro fator sem importância na delimitação de uma fraseologia, mesmo que tenha sido empregado de forma bastante ampla no estudo fraseológico, tanto de língua comum quanto de linguagens especializadas. Não há motivos para crermos que uma construção recorrente deva ser delimitada por um determinado número de palavras, a não ser que se trate de uma opção metodológica. Outro critério utilizado muitas vezes é a indecomponibilidade semântica, que ocorre quando uma expressão não encontra seu sentido através da soma dos significados das palavras envolvidas. Observando novamente os exemplos supracitados (pagar o pato e fumante inveterado), apesar de não haver nenhum contexto mostrando que pagar o pato não se refere ao ato de comprar um pato, cremos que seja de conhecimento geral que se usa essa expressão em sentido não-literal. Enquanto fumante inveterado se compreende que a palavra fumante está designando alguém que fuma. Tem-se, então, que será preciso distinguir tipos de construções também por sua indecomponibilidade semântica. Esse critério parece bastante útil para se tratar de fraseologias da língua comum, apesar de que, em alguns momentos, vai esbarrar no continuum fraseológico, de forma a tornar sua funcionalidade limitada para certas fraseologias cuja indecomponibilidade semântica não é tão clara. Quando se trata de linguagens técnico-científicas, porém, servirá para, em alguns casos, diferenciar o que é um termo e o que é uma fraseologia. Essa diferenciação será tratada na nossa pesquisa, em uma fase de tipificação de construções, mas não em seu ponto de partida. Muitos autores propõem uma separação estrita entre fraseologias e termos, de forma que, ou se é uma coisa ou outra (BEVILACQUA, 2004; BLAIS, 1993; L’HOMME, 2000; entre outros). Porém, todos reconhecem que é muito difícil fazer essa distinção, principalmente, quando se trata de casos como a união entre um substantivo deverbal e um substantivo ou entre um adjetivo e um substantivo. Outros autores, como Gouadec (1994), por tratarem de questões vinculadas diretamente à tradução, pregam que tal distinção não é necessária, visto que ao usuário tradutor não interessa saber se tal associação é fraseológica ou terminológica; interessa somente saber como utilizá-la. O próprio Gouadec (1994), reconhece, porém, a existência de híbridos termino-fraseológicos. Outro critério mencionado por muitos, que nos parece ser importante, porém muito questionado quanto à sua real utilidade, é o critério de freqüência. Para o processamento automático ou semi-automático de corpora, tal critério mostra-se fundamental, sendo, muitas vezes, o principal critério empregado como definidor do que é uma fraseologia, como faz, por exemplo, Sinclair (1990). Bevilacqua (2004) e Pavel (2003) chamam a atenção para o fato de que um critério de ocorrência muito alto pode levar o lingüista a deixar de fora fraseologias importantes, porém neológicas. Bevilacqua (2004), aliás, defende a existência de fraseologias mesmo em hapax legomena e utilizou, inicialmente, um critério de no mínimo duas ocorrências por ter notado que as ocorrências fraseológicas não são muito frequentes se olharmos somente para sua expressão superficial, decidindo, posteriormente, juntar as ocorrências superficiais a partir de uma estrutura subjacente. A utilização de um critério de freqüência muito baixa, porém, pode acarretar em outros problemas, como a geração de muito ruído. Cremos, também, que se a frequência for utilizada como único critério, serão encontradas muitas associações que não são pertinentes a uma área de conhecimento específica, mas sim a um determinado autor/redator. É muito provável que um autor utilize uma mesma expressão mais de uma vez em um mesmo artigo, de forma que o que o linguista vai encontrar possa ser somente a expressão de um indivíduo e não de uma área especializada. Para evitar tal tipo de problema, vamos utilizar também o critério de distribuição, proposto por Roberts (1994), o qual já foi adotado por Zilio (2007 e 2009). Por meio desse critério, além de apresentar uma determinada frequência, a unidade estudada deve aparecer em um determinado número de textos de diferentes autores.

Page 26: 1- IDENTIFICAÇÃO DA PROPOSTA NOVA Início Março de 2013 ... · Dr. Carlos Nunes Tietboehl Filho - Médico Pneumologista, Mestre e Doutor em Medicina Interna e do Trabalho (UFRGS),

Chegamos, por fim, ao critério presente em quase todos os trabalhos fraseológicos de textos de áreas técnico-científicas, exceto nos que trabalham com matrizes colocacionais: a presença de um ou mais termos. Esse critério, muito pertinente a um estudo enquadrado nos estudos terminológicos stricto sensu, não se faz mais tão óbvio e necessário, mas sim reducionista, em um estudo enquadrado na Linguística do Texto Especializado ou mesmo da Linguística de Corpus. Tal diferença se dá por não termos mais como objetivo uma descrição do léxico especializado e de suas associações, mas sim das associações mais comuns existentes em textos especializados, independentemente de seu valor terminológico. Esse ponto de vista gera, porém, um outro problema: o ponto de partida do estudo fraseológico não é mais fixo; são vários os pontos. Uma opção é olhar para as listas de palavras organizadas por frequência e estabelecer um critério de frequência com o qual trabalhar. Percebe-se, portanto, que, assim como Heid (2005), que apresenta a frequência como critério determinante para o reconhecimento de elementos gramaticais nas fraseologias, acreditamos na frequência também como determinante de elementos periféricos das fraseologias. Gostaríamos de, nesse momento, trazer outro critério que, vinculado ao de frequência, cremos ser importante para pesquisas sobre construções recorrentes de diferentes tipos. Talvez não devêssemos nem chamá-lo de critério, já que nos parece ser mais uma espécie de teste para a averiguação de uma fraseologia ou construção. Trata-se da comutabilidade. Apresentado também por Pavel (2003), tal critério compreende a averiguação de quantos elementos sinonímicos podem associar-se ao elemento que está sob exame. Um alto grau de comutabilidade tenderia a mostrar que determinada associação não seria fraseológica, já que ela não apresenta convencionalidade, sendo reconhecida como uma associação livre. Existem casos, porém, conforme Zilio (2007 e 2009), em que há a possibilidade de comutação entre vários elementos, mas um deles se destacará pela freqüência com que é empregado. Podemos ver isso a partir dos seguintes situações considerando-se um corpus hipotético de 45 artigos de Cardiologia: - utilização de respirador artificial (4 ocorrências em 2 artigos); - emprego de respirador artificial (5 ocorrências em 3 artigos); - uso de respirador artificial (39 ocorrências em 27 artigos). Se considerarmos que todas as três formas foram empregadas, vemos que uma ocorre muito mais do que as outras. A freqüência com que esse tipo de associação ocorrer nos levará a crer que há, sim, uma convencionalidade na linguagem da Cardiologia e que essa convenção ou não foi respeitada em alguns poucos artigos ou, simplesmente, foi necessário o emprego de outra forma em alguns pontos, para não se deixar muito repetitivo o texto. Esse exemplo mostra que o teste de comutabilidade é uma boa forma de averiguar construções recorrentes do tipo verbal, porém, ele não pode ser suficiente para desclassificar uma associação como não sendo fraseológica sem que se leve em conta a existência de um número elevado de possibilidades de comutação e um equilíbrio entre elas. Sua utilidade está também em mostrar quais as variações possíveis para uma determinada construção para os casos em que há necessidade de se empregar outra forma que não a mais freqüente. Propomos que sejam reconhecidas como construções recorrentes aquelas combinações de palavras, presentes em textos sobre Pneumopatias Ocupacionais e formadas por mais de um elemento, que apresentem grau de fixação maior do que cinco, indicando certa convencionalidade ao longo do corpus, independentemente de sua feição lexical ou gramatical. A essa definição, extremamente ampla, requerá que se juntem alguns parâmetros restritivos. Para a determinação de que o grau de fixação é maior que cinco, propomos o uso de critérios de frequência, comutação e distribuição no corpus. A distribuição de uma construção ao longo de muitos textos ou a sua concentração entre poucos documentos também é algo muito importante a ser considerado. E nesse ponto, entra em cena a importância do processamento texto a texto, expediente que tem sido bastante utilizado em trabalhos de PLN. Esses parâmetros permitem, como se pode ver, o estudo de desde associações entre duas palavras (sejam elas lexicais ou gramaticais) até expressões formulaicas. Essa amplitude é exatamente o que almejamos. É importante também dizer que esperamos como pouco prováveis no nosso acervo expressões tais como “Onde Judas perdeu as botas”. Mas, como apontam Ciapuscio, Kuguel & Otañi (2005:99) “una visión empíricamente adecuada debe reconocer las dificultades de establecer ‘cortes de navaja’ entre lo especializado e lo general y tender, en todo caso, a visiones en términos de continuum”. As frequências das fraseologias serão estabelecidas também de acordo com as formas lematizadas dos co-ocorrentes. Essa decisão encontra fundamento em Stubbs (2001, p. 25-29), que apresenta a

Page 27: 1- IDENTIFICAÇÃO DA PROPOSTA NOVA Início Março de 2013 ... · Dr. Carlos Nunes Tietboehl Filho - Médico Pneumologista, Mestre e Doutor em Medicina Interna e do Trabalho (UFRGS),

separação entre formas de palavras (wordforms) e lemas (lemmas). Esse tipo de opção também representa um custo metodológico que é o custo da etiquetagem morfossintática dos textos. Entendemos também, que uma construção recorrente engloba um número reduzido elementos, não chegando, necessariamente, a conformar uma oração completa. Quanto à ênfase à frequência, que visa reconhecer uma padronização, cabe dizer que, “embora muitos traços linguísticos sejam possíveis teoricamente, não ocorrem com a mesma frequência” (BERBER SARDINHA, 2004, p. 30-31). Essa diferença de frequência, porém, não é aleatória, ela é sistemática, de forma que se pode dizer que a linguagem é padronizada. E essa padronização "se evidencia pela recorrência, isto é, uma colocação, coligação ou estrutura que se repete significativamente mostra sinais de ser, na verdade, um padrão lexical ou léxico- gramatical” (op.cit). 7- MATERIAIS, MÉTODOS E ETAPAS DE PESQUISA A metodologia básica do estudo que envolve organizar um corpus pre-existente e nele investigar sobre sobre construções recorrentes compreende observações estatísticas por textos individuais e também por grupos de texto. Como recursos informatizados para essas observações, contamos com algumas ferramenats on-line geradas pelos grupos TEXTQUIM (www.ufrgs.br/textecc) e TERMISUL (www.ufrgs.br/termisul), mas também utilizamos os softwares Wordsmith Tools, versão 3.0. (SCOTT, 1998), ANTCONC (Laurence Anthony's AntConc) e ferramentas geradas pelo Projeto PorSimples, tal como o COH-METRIX e FACILITA/SIMPLIFICA (acesso em http://www2.nilc.icmc.usp.br/wiki/index.php/Tools). Em linhas gerais, nosso corpus - que hoje reúne cerca de 900 documentos - está assim segmentado: a) 150 documentos na categoria NORMATIVOS - manuais, glossários, legislação - decretos, portarias, leis, normas e diretrizes diversas. Entre esses, serve como exemplo o documento: CASTILHOS, Zuleica Carmen, NEUMANN, Reiner, BEZERRA, Olívia. Exposição Ocupacional e Ambiental a Poeiras de Rochas e Minerais Industriais. Centro de Tecnologia Mineral - Ministério da Ciência e Tecnologia. Rio de Janeiro. Dezembro de 2008. http://www.cetem.gov.br/publicacao/CTs/CT2008-195-00.pdf b) 150 textos na categoria ACADÊMICO - teses e dissertações, trabalhos de conclusão de curso. Entre esses, serve como exemplo o documento: ALVES, Luiz Carlos Corrêa. UM OLHAR SOBRE O PERFIL FUNCIONAL RESPIRATÓRIO DE TRABALHADORES DA INDÚSTRIA NAVAL DO RIO DE JANEIRO AVALIADOS EM AMBULATÓRIO DE REFERÊNCIA EM SAÚDE DO TRABALHADOR. Fundação Osvaldo Cruz. Rio de Janeiro, 2000. http://teses.icict.fiocruz.br/pdf/alveslccm.pdf c) 300 textos na categoria ARTIGOS - artigos de revistas científicas relacionados ao tema das pneumopatias e textos assemelhados Entre esses, serve como exemplo o documento: BAGATIN, Ericson; JARDIM, José Roberto Brito; STIRBULOV, Roberto. Doença pulmonar obstrutiva crônica ocupacional. J. bras. pneumol., São Paulo, 2010 . Available from <http://www.scielo.br/scielo.php?script=sci_arttext&pid=S1806-37132006000800007&lng=en&nrm=iso>. access on 23 May 2010. doi: 10.1590/S1806-37132006000800007. d) 200 textos na categoria - textos de sites institucionais ou de associações que promovem informação em saúde no trabalho para leigos e técnicos FETICOM - FEDERAÇÃO DOS TRABALHADORES NAS INDÚSTRIAS DA CONSTRUÇÃO E DO MOBILIÁRIO DO ESTADO DE SÃO PAULO-SP Entre esses, serve como exemplo o documento:

Page 28: 1- IDENTIFICAÇÃO DA PROPOSTA NOVA Início Março de 2013 ... · Dr. Carlos Nunes Tietboehl Filho - Médico Pneumologista, Mestre e Doutor em Medicina Interna e do Trabalho (UFRGS),

Jornal da Feticom, Julho de 2007 http://www.feticom.com.br/jornal-feticom/JORNAL-JUNHO.pdf e) 100 textos na categoria APRESENTAÇÕES DE TRABALHOS ( slides de trabalhos em eventos e aulas, material instrucional em geral) Entre esses, serve como exemplo o documento: ARAÚJO, Alberto José de. Médico. I Curso de Aperfeiçoamento em Medicina Interna - FM -UFRJ - Pneumopatias Ocupacionais, de Alberto Araújo. Pneumologia - Programa de Medicina Ocupacional - 2001- Slides em PPT http://search.4shared.com/postDownload/c52KB4If/84_pneumopatias-ocupacionais-a.html O nosso corpus de estudo, uma vez revisado e categorizado, também será cotejado com outros corpora de Medicina, especialmente de Pediatria, dado seu acesso facilitado pela pesquisa TEXTPED, especialmente pelo viés da medida da riqueza lexical também chamada de types/tokens ratio. Como prevemos precisar em que medida determinadas construções recorrentes podem ser mais ou menos típicas dos diferentes gêneros textuais em foco, planejamos alguns contrastes com diferentes tipos de acervos textuais. Além desses cotejos, prevemos a obtenção de comparações com corpora de referência do português do Brasil, especialmente com o Corpus Brasileiro da PUC-SP, corpus NILC e corpus Lácio Web, incluindo um material oriundo de um jornal popular, o Diário Gaúcho, de Porto Alegre, oferecido pelo projeto PorPopular (http://www.ufrgs.br/textecc/porlexbras/porpopular/). As comparações incidirão em frequências de palavras isoladas, riqueza lexical, types/tokens ratio e também em chunks/lexical bundles de palavras mais ou menos recorrentes. Assim, considerando os resultados esperados já citados na seção de Objetivos: a) reorganização, filtragem e sistematização de um acervo textual previamente reunido em português

brasileiro da linguagem escrita associada à área de Pneumopatias Ocupacionais, utilizado para a produção de um Glossário Experimental com 160 termos (<http://www.ufrgs.br/textecc/pneumopatias/>) com 687 documentos coletados até 2011 mais 250 documentos reunidos em 2012;

b) ampliação, qualificação e catalogação do material textual acima citado por segmentos de gêneros textuais, subgêneros e por tipos de documentos;

c) tratamento informatizado dos corpora por segmentos, tratamento individual dos textos por amostragem, identificação das frases e dos sintagmas nominais e verbais por grupos recorrentes nos diferentes segmentos do corpus;

d) descrição de padrões textuais, discursivos e terminológicos por grupos de documentos/géneros (enfatizando-se a presença de construções recorrentes – em seus diferentes tipos);

e) oferecimento público e gratuito dos corpora reunidos - no todo e em amostras segmentadas por gêneros - , estando os materiais textuais acompanhados de cabeçalho identificador, etiquetagem morfossintática e inseridos em ferramentas básicas para sua observação on-line (gerador de contextos, gerador de agrupamentos de palavras, gerador de listas de palavras);

f) geração de oportunidades, sob a forma de recursos, de ferramentas e de dados textuais organizados, para a formação e para a qualificação de estudantes de graduação e de pós-graduação interessados na pesquisa linguística sobre linguagens especializadas com apoio informatizado.

Estão previstas as seguintes etapas e tarefas na realização da nossa pesquisa: Etapas gerais: 1) revisão da literatura sobre: a) organização de corpora de domínio; b) construções recorrentes (de

vários tipos) e seu tratamento estatístico em PLN e em LC a partir de corpora oriundos de textos de áreas biomédicas;

2) ) revisão da literatura sobre padrões da linguagem de Medicina em português e em outras línguas com vistas a colher de dados sobre diferentes gêneros textuais praticados no Brasil e em outros países, considerando também um gênero internacional em inglês como lingua franca; 3) revisão dos corpora já reunidos; 4) planejamento da nova estrutura do site de Pneumopatias Ocupacionais - futuro PNEUMOTEXT;

Page 29: 1- IDENTIFICAÇÃO DA PROPOSTA NOVA Início Março de 2013 ... · Dr. Carlos Nunes Tietboehl Filho - Médico Pneumologista, Mestre e Doutor em Medicina Interna e do Trabalho (UFRGS),

5) segmentação dos corpora por tipos de documentos e por gêneros e observações iniciais sobre recorrências;

6) identificação dos textos e dos grupos de textos; 7) produção de cabeçalhos e de levantamentos básicos - número de palavras e número de palavras

diferentes por documento e grupos de documentos. Etapas específicas: 8) registro e sistematização das características textuais dos documentos que compõem o corpus de estudo

em português; 9) implementação em formato teste da nova estrutura do site Pneumopatias Ocupacionais; 10) organização do corpus para oferecimento on-line; 11) revisão de ferramentas para exploração on-line do corpus reunido; 12) geração de listas de palavras mais recorrentes em português nos diferentes segmentos do corpus; 13) observações de padrões de riqueza lexical por grupos de documentos e pelo corpus no seu todo; 14) geração de listas grupos de palavras mais recorrente por grupos de documentos e pelo corpus no

seu todo; 15) tratamento estatístico dos dados obtidos; 16) exame de contextos; 17) classificação das diferentes construções recorrentes por seus tipos e funções nos textos; 18) geração de dados estatísticos gerais sobre as palavras utilizadas, incluindo a observação de número

de palavras de número de formas diferentes de palavras (tokens e types), observação de tamanho de palavras por caracteres e de tamanho de sentenças por número de palavras (estas últimas feitas com apoio do software Wordsmith tools v.3.0);

19) observação de medidas de complexidade textual, com amostras por grupos de textos, com o uso de ferramentas do Projeto PorSimples;

20) observação contrastiva com dados de corpora de referência e do jornal popular; 21) geração de caracterizações sobre o vocabulário mais recorrente e vocabulário peculiar sobre o tema

das Pneumopatias Ocupacionais; 22) produção de arquivos sobre o corpus de para publicação on-line; 23) compartilhamento de informações e do corpus reunido com os pesquisadores - colaboradores e seus

orientandos; 24) publicação on-line de dados da pesquisa; 25) apresentação de trabalhos em eventos e publicações de artigos em parceria com pesquisadores

médicos e as colegas da área de PLN. 8- PRODUTOS DA PESQUISA Os produtos mais imediatos da pesquisa, já ao final do seu primeiro ano, serão: a) um site específico, gerado a partir da base www.ufrgs.br/textecc com com diferentes corpora para

acesso livre, podendo os mesmos serem explorados mediante expressões de busca; b) glossário ampliado e revisado, base para um hiperdicionário a partir de hierarquias e nuvens de

conceitos gerados a partir dos corpora revisados, além de material informativo sobre os diferentes tipos de texto produzidos na temática em foco.

Ao final de 36 meses, espera-se obter: • caracterização do corpus disponível on-line mediante suas informações estatísticas básicas (listas de

freqüência de palavras e de construções recorrentes, relação entre número de formas diferentes e número de palavras por cada grupo de documentos);

• descrições da configuração do vocabulário manifestado em segmentos do corpus reunido; listagens contextualizadas de itens e de expressões mais recorrentes por segmentos do corpus;

• estudos contrastivos com vocabulários de outros corpora; • estudos-piloto sobre vocabulário recorrente em português com vistas à produção de dicionários ou

outros recursos para tradutores e revisores ;

Page 30: 1- IDENTIFICAÇÃO DA PROPOSTA NOVA Início Março de 2013 ... · Dr. Carlos Nunes Tietboehl Filho - Médico Pneumologista, Mestre e Doutor em Medicina Interna e do Trabalho (UFRGS),

• trabalhos para apresentação em eventos científicos das áreas de Linguística/Letras, de Linguística de Corpus e de Linguística Computacional/PLN;

• revisão final e testagem com usuários dos recursos oferecidos on-line no site sobre Pneumopatias Ocupacionais.

Estão previstos, assim, como produtos continuados da pesquisa ao longo de seus 36 meses, estudos-piloto sobre determinados tipos de palavras em construções, publicação de artigos e apresentação de trabalhos em eventos pelo diferentes pesquisadores-colaboradores e pela pesquisadora responsável. Nesses eventos, serão divulgados dados da exploração, do material já disponível para consulta em suas diferentes etapas. A idéia da produção do conhecimento sobre esses corpora do segue a lógica da produção de dados partindo da ótica da LC, os quais são oferecidos para as diferentes explorações dos pesquisadores-colaboradores. Como produtos continuados desta investigação, prevemos também a formação em Iniciação Científica de estudantes de graduação e o aproveitamento do corpus reunido e de suas descrições por parte de orientandos de mestrado e de doutorado dos pesquisadores-colaboradores envolvidos. 9- CRONOGRAMA RESUMIDO Nos TRÊS anos da pesquisa, estão previstas a seguintes tarefas comuns ( tarefas 24 e 25): • publicação on-line de dados da pesquisa; • apresentação de trabalhos em eventos e publicações de artigos em parceria com pesquisadores médicos

e as colegas da área de PLN. Para cada ano, as atividades previstas são as seguintes: Ano 1 Etapas gerais - tarefas 01 a 07: 1) revisão da literatura sobre: a) organização de corpora de domínio; b) construções recorrentes (de

vários tipos) e seu tratamento estatístico em PLN e em LC a partir de corpora oriundos de textos de áreas biomédicas;

2) revisão da literatura sobre padrões da linguagem de Medicina em português e emoutras línguas com vistas a colher de dados sobre diferentes gêneros textuais praticados no Brasil e em outros países, considerando também um gênero internacional em inglês como lingua franca;

3) revisão dos corpora já reunidos; 4) planejamento da nova estrutura do site de Pneumopatias Ocupacionais - futuro PNEUMOTEXT; 5) segmentação dos corpora por documentos e por gêneros e observações iniciais sobre recorrências; 6) identificação dos textos e dos grupos de textos; 7) produção de cabeçalhos e de levantamentos básicos - número de palavras e número de palavras

diferentes por documento e grupos de documentos. Ano 2 Etapas específicas - tarefas 08 a 17: 8) registro e sistematização das características textuais dos documentos que compõem o corpus de estudo

em português; 9) implementação em formato teste da nova estrutura do site Pneumopatias Ocupacionais; 10) organização do corpus para oferecimento on-line; 11) revisão de ferramentas para exploração on-line do corpus reunido; 12) geração de listas de palavras mais recorrentes em português nos diferentes segmentos do corpus; 13) observações de padrões de riqueza lexical por grupos de documentos e pelo corpus no seu todo; 14) geração de listas grupos de palavras mais recorrente por grupos de documentos e pelo corpus no

seu todo; 15) tratamento estatístico dos dados obtidos; 16) exame de contextos; 17) classificação das diferentes construções recorrentes por seus tipos e funções nos textos; Ano 3 Etapas específicas- tarefas 18 a 23:

Page 31: 1- IDENTIFICAÇÃO DA PROPOSTA NOVA Início Março de 2013 ... · Dr. Carlos Nunes Tietboehl Filho - Médico Pneumologista, Mestre e Doutor em Medicina Interna e do Trabalho (UFRGS),

18) geração de dados estatísticos gerais sobre as palavras utilizadas, incluindo a observação de número de palavras de número de formas diferentes de palavras (tokens e types), observação de tamanho de palavras por caracteres e de tamanho de sentenças por número de palavras (estas últimas feitas com apoio do software Wordsmith tools v.3.0);

19) observação de medidas de complexidade textual, com amostras por grupos de textos, com o uso de ferramentas do Projeto PorSimples;

20) observação contrastiva com dados de corpora de referência e do jornal popular; 21) geração de caracterizações sobre o vocabulário mais recorrente e vocabulário peculiar sobre o tema

das Pneumopatias Ocupacionais; 22) produção de arquivos sobre o corpus de para publicação on-line; 23) compartilhamento de informações e do corpus reunido com os pesquisadores- colaboradores e seus

orientandos; 10- BIBLIOGRAFIA CITADA BAKHTIN, M. (1988) Marxismo e filosofia da linguagem. São Paulo: Hucitec, 4a Ed. Traduzido por Michel Lahud e Yara Frateschi Vieira a partir da edição francesa. BAKHTIN, M. (1997) Estética da criação verbal. São Paulo: Martins Fontes, 2a ed. 1a ed. Em russo: 1979. Traduzido do francês por Maria Ermantina Galvão G. Pereira. BALDO, Alessandra. Gêneros discursivos ou tipologias textuais? Revista Virtual de Estudos da Linguagem – ReVEL, ano 2, n. 2, março. 2004. ISSN 1678-8931. Disponível em: www.revel.inf.br. BALLY, C. (1951) Traité de stylistique française. Paris: Klincksieck, 3a ed. [1a ed., 1909]. BATISTA-NAVARRO, Riza Theresa; ANANIADOU, Sophia. Building a coreference-annotated corpus from the domain of biochemistry. Proceedings of the 2011 Workshop on Biomedical Natural Language Processing, ACL-HLT 2011, pages 83–91, Portland, Oregon, USA, June 23-24, 2011. Association for Computational Linguistics. BARONI, A. KILGARRIFF, J. POMIKALEK and P. RYCHLY. (2006). WebBootCaT: Instant domain-specific corpora to support human translators. Proceedings of EAMT-2006 Poster Session. 247-252. BEVILACQUA, C.R. (2004) Unidades Fraseológicas Especializadas Eventivas: descripción y reglas de formación en el ámbito de la energía solar. Barcelona: IULA/UPF. Tese de doutorado. BLAIS, E. (1993) Le phraséologisme. Une hypothèse de travail. In: Terminologie Nouvelles, n° 10. Hull: Rint, p. 50-56. BERBER SARDINHA, Tony ; MOREIRA FILHO, J. L. ; ALAMBERT, E. . The Brazilian Corpus: A one-billion word online resource. 2009. (Apresentação de Trabalho/Comunicação). BERBER SARDINHA, Tony (2002). Corpora eletrônicos na pesquisa em tradução. Cadernos de Tradução (UFSC), Florianópolis, Santa Catarina, v. 9, n.1, p. 15-60, 2002. BERBER SARDINHA, Tony. (2004) Lingüística de Corpus. Barueri: Manole. BENVENISTE, Émile. Problemas de lingüística geral II. Campinas: Pontes, Editora da UNICAMP,1989. BEVILACQUA, C.R. (2004). Unidades Fraseológicas Especializadas Eventivas: descripción y reglas de formación en el ámbito de la energía solar .Barcelona: Instituto Universitário de Lingüística Aplicada, Universidade Pompeu Fabra. [Tese de Doutorado]. BIBER, Douglas. (2003). Representativeness in Corpus Design. Literary and Linguistic Computing, Vol. 8, No. 4, 1993, p. 243- 257.

BIBER, D.; CONRAD, S.; REPPEN, R. Corpus Linguistics: Investigating language structure and use. Cambridge: Cambridge University Press, 1998.

Page 32: 1- IDENTIFICAÇÃO DA PROPOSTA NOVA Início Março de 2013 ... · Dr. Carlos Nunes Tietboehl Filho - Médico Pneumologista, Mestre e Doutor em Medicina Interna e do Trabalho (UFRGS),

BIDERMAN, M. T. Conceito lingüístico de palavra. In: BASILIO, M. (org) Palavra.Rio de Janeiro: Grypho, 1999. vol.1, p.81-97. BIDERMAN, M. T. A face quantitativa da linguagem: um dicionário de freqüências do português. Alfa, São Paulo, v.42 (esp.), p.161-181, 1998. BRASIL (1997). Brasil. Ministério da Saúde. Fundaçäo Nacional de Saúde. Manual de normas para o controle das pneumoconioses / Manual of Rules to Control the Pneumoconiosis. Brasília; Fundaçäo Nacional de Saúde; 1997. 36 p. BRASIL. (2006) Ministério da Saúde. Secretaria de Atenção à Saúde. Departamento de Ações Programáticas Estratégicas.Pneumoconioses / Ministério da Saúde, Secretaria de Atenção à Saúde, Departamento de Ações Programáticas Estratégicas. – Brasília : Editora do Ministério da Saúde, 2006. 76 p. : il. – (Série A. Normas e Manuais Técnicos) (Saúde do Trabalhador ; 6. Protocolos de Complexidade Diferenciada) BROWN, P., Della Pietra, S., Della Pietra, V. and Mercer, R. (1991) “Word sense disambiguation using statistical methods”, In: Proceedings of the 29th Annual Meeting of the Association for Computational Linguistics, Berkeley, p. 264-270. CABRÉ, M.T.; FREIXA, J. LORENTE, M.;TEBÉ, C. (2001). La Terminologia hoy: replanteamiento o diversificación. Organon. Porto Alegre: 2001, v.12, n.26. CANDIDO JR., Arnaldo. Criação de um Ambiente para o Processamento de Córpus de Português Histórico.Monografia apresentada ao Instituto de Ciências Matemáticas e de Computação - ICMC-USP, mestrado. 2007. disponível em http://www.letras.etc.br/ebralc/quali-arnaldo.pdf CIAPUSCIO, Guiomar E. Tipos textuales. Buenos Aires: Universidade de Buenos Aires, 1994. CIAPUSCIO, Guiomar E. Textos especializados y terminología. Barcelon: UPF/IULA, 2003. CIAPUSCIO, G. E.; KUGUEL, I.; OTAÑI, I. (2005) El conocimento especializado: el texto de especialidad y los criterios para su tipologización. In: CABRÉ, M.T.; BACH, C. (orgs.). Coneixement, llenguatge i discurs especialitzat. Barcelona: Institut Universitari de Lingüística Aplicada, Universitat Pompeu Fabra i Documenta Universitária, p. 95-110. CONDAMINES, Anne. (2005) Linguistique de corpus et terminologie. In: Langages, 157, p. 36-47. Disponível em: http://w3.univtlse2.fr:8880/erss/index.jsp?perso=acondami&subURL=Langagesdef.pdf. Acessado em 10/06/2009. COULTHARD, R. J. (2005) The application of Corpus Methodology to Translation: the JPED parallel corpus and the Pediatrics comparable corpus. (Dissertação de mestrado do PGET- Estudos de Tradução da UFSC, Universidade Federal de Santa Catarina,disponível em www.ufsc.br. ) COOK, Paul; HIRST, Graeme. (2012). Do Web Corpora from Top-Level Domains Represent National Varieties of English? Actes des 11es Journées internationales d'Analyse statistique des Données Textuelles/ Proceedings of the 11th International Conference on Textual Data Statistical Analysis. June, 2012, Liege, Belgium, 281-293. CRYSTAL, D. English as a Global Language. Cambridge: CUP, 2003 DAVIES, Mark; FERREIRA, Michael (2006) Corpus do Português: 45 million words, 1300s-1900s. Available online at http://www.corpusdoportugues.org.

ERLING, E. J. The many names of English. English Today 81, v. 21, 40-44, 2005. EVERT, S. (2004) The mathematics of word occurrences. Stuttgart: IMS, AIMS. FEIX, Gustavo; ZANETTE, Adriano; SILVA, Maria C. Alencar; FINATTO, M.J.B. Catálogo de Construções Recorrentes como ferramenta de aprendizagem para artigos técnicos de Pediatria. V SIGET, Simpósio Internacional de Gêneros Textuais, Livro de Resumos, Caxias do Sul- RS: EDUCS, 2009, p.337-338.

Page 33: 1- IDENTIFICAÇÃO DA PROPOSTA NOVA Início Março de 2013 ... · Dr. Carlos Nunes Tietboehl Filho - Médico Pneumologista, Mestre e Doutor em Medicina Interna e do Trabalho (UFRGS),

FERRARESI, Adriano; ZANCHETTA, Eros; BARONI, Marco; and BERNARDINI, Silvia (2008). Introducing and evaluating ukWaC, a very large Web-derived corpus of English. Proceedings of the 4th Web as Corpus Workshop: Can we Beat Google?, pages 47–54. Marrakech, Morocco. FINATTO, M.J.B. (2004) Termos, textos e textos com termos: novos enfoques dos estudos terminológicos de perspectiva lingüística. In: ISQUERDO, A.N.; KRIEGER,M.G. (Orgs.). As ciências do léxico: lexicologia, lexicografia, terminologia, volume II. Campo Grande: Ed. UFMS. FINATTO, M.J.B. (2007) Exploração terminológica com apoio informatizado: diálogos entre terminologia e lingüística de corpus. In: LORENTE, M.; ESTOPÀ, R.; FREIXA, J.; TEBÉ, J.M. i C. (ed.) Estudis de lingüística i de lingüística aplicada en honor de M. Teresa Cabré Castellví. Sèrie monografies, 11, v. II. Barcelona: IULA/UPF, p. 221-230. FINATTO, M. J. B. (2011) Estudos sobre linguagens e textos científicos e técnicos: o que é uma Terminologia Textual?. In: Elisa Battisti; Gisela Colllischonn. (Orgs.) Língua e Linguagem: perspectivas de investigação. 1ed. Pelotas - RS: EDUCAT, 2011, v. 01, p. 153-172. FINATTO, M. J. B. ; DEL PINO, J. C. ; BARBOSA, R. G. ; CORBELLINI, E. R. B. O vocabulário além da terminologia: expressões de causalidade em textos de Química. Matraga (Rio de Janeiro), v. 19, p. 85-105, 2006. FINATTO, M. J. B.; SIMIONI, S. A causalidade no texto de Química: efeitos da tradução sobre a estrutura coesiva. Calidoscópio (UNISINOS), v. 5, p. 177-184, 2007. FINATTO, M. J. B.; POSSAMAI, V. (2006) Ultrapassando termos e dicionários: a pesquisa terminológica como elemento de diálogos transdisciplinares.. In: X Simposio da Riterm, 2006, Montevidéu. Terminologia, conocimientos, sociedad y poder. Montevidéu : Riterm/Intendência de Montevidéu, 2008. FINATTO, M. J. B. ; AZEREDO, S. DE ; LIMA, E. R. H. . Expressões anunciadoras de paráfrase como característica de gêneros textuais: do manual didático de química à legislação ambiental brasileira. In: 4o Simpósio Internacional de Estudos de Gêneros Textuais, 2007, Tubarão - SC. 4o Simpósio Internacional de Estudos de Gêneros Textuais - Anais. Tubarão - SC: Universidade do Sul de Santa Catarina, 2007. p. 1472-1482. FINATTO, M. J. B.; EVERS, A.; ALLE, C. M. O. Do Uso de Expressões de Causalidade como um Elemento Caracterizador do Gênero Textual Artigo Científico. In: V SIGET - Simpósio Internacional de Gêneros Textuais, 2009, Caxias do Sul - RS. Anais do V SIGET. Caxias do Sul - RS: Editora da UCS, 2009. v. 01. p. 01-22. FINATTO, M. J. B. ; SCARTON, C. E. ; ROCHA, A. ; ALUISIO, S. M. (2011). Características do jornalismo popular: avaliação da inteligibilidade e auxílio à descrição do gênero. In: VIII Simpósio Brasileiro de Tecnologia da Informação e da Linguagem Humana, 2011, Cuiabá - MT. Anais do STIL 2011. Cuiabá : Sociedade Brasileira de Computação, 2011. v. 01. p. 30-39.

FLORES, Valdir do Nascimento; TEIXEIRA, Marlene. Introdução à Lingüística daEnunciação. São Paulo: Contexto, 2005. GAUDIN, F. 1993. Pour une socioterminologie: Des problèmes pratiques aux pratiques institutionnelles. Rouen : Publications de l’Université de Rouen. GOUADEC, D. (1990) Terminolgie: constitution des données. Paris: AFNOR, 1990. GOUADEC, D. (1994) Nature et traitement des entités phraséologiques. In: Terminologie et phraséologie. Acteurs et aménageurs. Actes du deuxième Université d'Automne em Terminologie. Paris: La Maison du Dictionnaire, p. 164-193. HAUSMANN , F.J. (1989) Le Dictionnaire de Collocations. In: HAUSMANN, F.J.; REICHMANN, O.; WIEGAND, H.E. u. a. (Orgs.): Wörterbücher, Dictionaries, Dictionnaires. Ein internationales Handbuch zur Lexikographie. Berlin, New York: Walter de Gruyter, p. 1010-1018. HEID, U. (2005) Corpusbasierte Gewinnung von Daten zur Interaktion von Lexik und Grammatik: Kollokationen – Distribution – Valenz. In: LENZ, F.; SCHIERHOLZ, S.J. (Orgs.). Corpuslinguistik in Lexik und Grammatik. Tübingen: Stauffenburg Verlag, p. 97-122.

Page 34: 1- IDENTIFICAÇÃO DA PROPOSTA NOVA Início Março de 2013 ... · Dr. Carlos Nunes Tietboehl Filho - Médico Pneumologista, Mestre e Doutor em Medicina Interna e do Trabalho (UFRGS),

HOFFMANN, L. (1988) Grundbegriffe der Fachsprachenlinguistik. In: Germanistisches Jahrbuch für Nordeuropa. 7. Folge. Deutsche Fachsprachen in Forschung und Lehre. Helsinki, Estocolmo: p. 9-16. HOFFMANN, L. (1998a) Syntaktische und morphologische Eigenschaften von Fachsprachen. In: HOFFMANN, L. et al. (Orgs.) Fachsprachen: ein internationales Handbuch zur Fachsprachenforschung und Terminologiewissenschaft. Walter de Gruyter, p. 416-427. HOFFMANN, L. (1998b) Anwendungsmöglichkeiten und bisherige Anwendung von statistischen Methoden in der Fachsprachenforschung. In: HOFFMANN, Lothar; KÄLVERKÄMPER, Hartwig; WIEGAND, Herbert Ernst (Orgs.). Fachsprachen. Ein internationales Handbuch zur Fachsprachenforschung und Terminologiewissenschaft. Berlin, New York: Walter de Gruyter, p. 241- 249. KALVERKÄMPER, H. (1983) Textuelle Fachsprachen-Linguistik als Aufgabe. In: Zeitschrift für Literaturwissenschaft und Linguistik, v. 51/52, n° 13, p. 124-166. KRIEGER, Maria da Graça; FINATTO, Maria José Bocorny. Introdução à terminologia: teoria e prática. São Paulo: Contexto, 2004. KRIEGER, M.G. (2008) Porque Lexicografia e Terminologia: relações textuais? In: FINGER,I. & COLLISCHONN, G. (Orgs.) Anais do 8° Encontro do Círculo de Estudos Lingüísticos do Sul - CELSUL, Porto Alegre, de 29 a 31 de outubro de 2008. Pelotas: EDUCAT. KJÆR, A. L. (1990) Phraseology research – State-of-the-art: Methods of describing word combinations in language for specific purposes. In: DRASKAU, Jennifer (Org.). Journal of the International Institute for Terminology Research – ITTF – Terminology Science and Research. Vol. 1, n° 1-2. KOMAROVA, A.I. (2004) LSP: a functional-stylistic study. In: SHELOV, S.D.; LEICHIK, V.M. (eds.) Russian Terminology Science (1992-2002). Viena: Termnet, p. 236-247. KRIEGER, M.G. (2008) Por que Lexicografia e Terminologia: relações textuais? In: FINGER, I. & COLLISCHONN, G. (Orgs.) Anais do 8° Encontro do Círculo de Estudos Lingüísticos do Sul - CELSUL, Porto Alegre, de 29 a 31 de outubro de 2008. Pelotas: EDUCAT. LEITCHIK, V.M. (2002) Elements of Terminological Text Theory. In: SHELOV, S.D.; LEITCHIK, V.M. (eds.) Russian Terminology Science (1992-2002). Viena: Termnet Publisher. Editado com a colaboração de H. Picht e C. Galinski. L’HOMME, M.-C. (2000) Understanding specialized lexical combinations. In: Terminology. International Journal of theoretical and applied issues in specialized communication. Amsterdã: John Benjamins, vol. 6, n° 1, p. 89-110. LOPES, Lucelene; VIEIRA, Renata; FINATTO, M. J. B. ; MARTINS, Daniel; ZANETTE, Adriano; RIBEIRO JR, Luiz Carlos. Extração automática de termos compostos para construção de ontologias: um experimento na área da saúde. Revista Eletrônica em Comunicação, Informação e Inovação em Saúde, v. 3, p. 76-88, 2009. MARCO, M.J.L. (1998) Phraseological patterns in medical discourse. In: The ESPecialist, vol. 19, n° 1. São Paulo: p. 41-56. Disponível em: http://www2.lael.pucsp.br/especialist/191marco.ps.pdf. MARCO, M.J.L. (2000) Collocational frameworks in medical research papers: a genre-based study. In: English for Specific Purposes, v. 19, n° 1, p. 63-86. MARCOLIN, P. ; EVERS, A. ; FINATTO, M. J. B. ; GOLDNADEL, M. Pneumopatologias: formação em Terminologia em curso de Tradução no Brasil. In: Actas do XII Simposio Iberoamericano de Terminologia. RITerm 2010, 2012, Buenos Aires. XII Simposio Iberoamericano de Terminologia. RITerm 2010. Buenos Aires: Editorial Colegios de Traductores Públicos de la Ciudad de Buenos Aires, 2012. p. 254-278. MARCUSCHI, Luiz Antônio.(2005a) “Gêneros textuais: definição e funcionalidade”. In: Gêneros textuais & ensino. DIONISIO, Angela Paiva; et al. (Orgs.). 4a ed. rev. e ampl. Rio de Janeiro: Lucerna, 2005. p. 19-36. MARCUSCHI, Luiz Antônio. (2005b) O Léxico: Lista, Rede ou Cognição Social? (2005). Texto inédito, reformulado a partir da versão apresentada no V CICLO DE SEMINÁRIOS EM PSICOLOGIA COGNITIVA

Page 35: 1- IDENTIFICAÇÃO DA PROPOSTA NOVA Início Março de 2013 ... · Dr. Carlos Nunes Tietboehl Filho - Médico Pneumologista, Mestre e Doutor em Medicina Interna e do Trabalho (UFRGS),

COGNIÇÃO E LINGUAGEM, da Universidade Federal de Pernambuco, Pós-Graduação em Psicologia Cognitiva, Recife, de 2 a 4 de dezembro de 2003. MARCUSCHI, Luiz Antônio (2006). “Gêneros textuais: configuração, dinamicidade e circulação”. In: Gêneros textuais – reflexões e ensino. KARWOSKI, Acir Mário; et al. (Orgs.). 2a ed. rev. e ampl. Rio de Janeiro: Lucerna, 2006. p. 23-36. MARTINS, Ronaldo (2011). O pecado original da Linguística Computacional.Alfa, São Paulo, 55 (1): 287-307, 2011 PASQUALINI, B.; EVERS, A. FINATTO, M. J. B. (2010) Medidas de Complexidade Textual entre Traduções Brasileiras e Originais de Literatura Inglesa: um Estudo- Piloto Baseado em Corpus. Anais do IX Encontro de Linguística de Corpus, Porto Alegre-RS, PUC-RS, 2010. PAVEL, S. (2003) A fraseologia na língua de especialidade. Metodologia de registro nos vocabulários terminológicos. In: Faulstich, E.; Abreu, S. (Orgs.) Lingüística aplicada à Terminologia e à Lexicologia. Porto Alegre: UFRGS/NEC, p. 99-131. Artigo publicado originalmente em 1993, traduzido do francês por Germana H.P. de Sousa. PICHT, H. (1990) LSP PPhraseology from the terminological point of view. In: DRASKAU, 223Jennifer (Org.). Journal of the International Institute for Terminology Research –ITTF – Terminology Science and Research. Vol. 1, n° 1-2. POSSAMAI, Viviane. (2004) Marcadores textuais do artigo científico em comparação português e inglês: um estudo sob a perspectiva da tradução. Porto Alegre: UFRGS, 2004. Dissertação de Mestrado. PPG-LETRAS/UFRGS. POSSAMAI, V. ; FINATTO, M. J. B. (2007). Matrizes fraseológicas em artigos de Medicina: um estudo com vistas ao desenvolvimento de ferramenta automática de apoio à tradução. In: Workshop em Tecnologia da Informação e da Linguagem Humana TIL 2007, 2007, Rio de Janeiro. XXVII Congresso da SBC. Rio de Janeiro : Sociedade Brasileira de Computação, 2007. v. 1. p. 1749-1752. POSSAMAI, V.; LEIPNITZ, L. (2007) Os estudos de gênero e a tradução: uma relação proveitosa demonstrada por meio da abordagem da tradução de artigos científicos. In: Anais do 4° Simpósio Internacional de Estudos de Gêneros Textuais, Universidade do Sul de Santa Catarina, Tubarão, SC, Brasil – de 15 a 18 de agosto de 2007, p. 2016-2027. Disponível em: http://www3.unisul.br/paginas/ensino/pos/linguagem/cd/index1.htm. Acessado em: 27/07/2009. RAJAGOPALAN, K. (2008) “A Linguística de Corpus no tempo e no espaço: visão reflexiva”, In: Um percurso para pesquisas com base em corpus. Org. por Marcia Regina Gerber e Vera Vasilévski. Editora da UFSC, Florianóplis – SC.p. 23-44 RAMISCH, Carlos Eduardo. Multi-word terminology extraction for domain-specific documents. 2009. Trabalho de Conclusão de Curso (Graduação em Bacharelado em Ciência da Computação) - Universidade Federal do Rio Grande do Sul, 2009. ROBERTS, R.P. (1994) Identifying the Phraseology of Languages for Special Purposes (LSPs). In: Alfa. Actes de langue française et linguistique, v. 7/8, p. 61-74. SAUSSURE, F. de. (2006) Curso de Lingüística Geral / Ferdinand de Saussure. Organizadopor Charles Bally, Albert Sechehaye, com a colaboração de Albert Riedlinger. São Paulo: Cultrix, 27a ed. Tradução de Antônio Chelini, José Paulo Paes, Izidoro Blikstein. SCARTON, C. E.; ALUÍSIO, S. (2010) Análise da Inteligibilidade de textos via ferramentas de Processamento de Língua Natural: adaptando as métricas do Coh- Metrix para o Português. Linguamática (Revista para o Processamento Automático das Línguas Ibéricas), v. 2, p. 45-61. SCHEEREN, F.; ZILIO, L.; FINATTO, Maria José . ARTIGOS CIENTÍFICOS DE CARDIOLOGIA: CONTRASTE DE MACRO E MICROESTRUTURAS PARA CARACTERIZAÇÃO DE TIPO TEXTUAL. In: V SIGET Simpósio Internacional de Estudos de Gêneros Textuais, 2009, Caxias do Sul - RS. Anais do V SIGET. Caxias do Sul - RS: Editora da UCS, 2009. v. 01. p. 01-20.

Page 36: 1- IDENTIFICAÇÃO DA PROPOSTA NOVA Início Março de 2013 ... · Dr. Carlos Nunes Tietboehl Filho - Médico Pneumologista, Mestre e Doutor em Medicina Interna e do Trabalho (UFRGS),

SINCLAIR, J.M. (1990) Corpus, Concordance, Collocation. Oxford: Oxford University Press, 1991. SPECIA, L.; NUNES, M.G.V. (2004). Um Modelo para a Desambiguação Lexical de Sentido na Tradução . Workshop de Teses e Dissertações em Inteligência Artificial - XVII SBIA (WTDIA-2004). São Luis, Brazil. STUBBS, M. (2001). Words in use: introductory examples. In: Words and phrases. Corpus studies of lexical semantics. Oxford: Blackwell, 2001. p. 3-23. STUBBS, M. (1995) Collocations and semantic profiles: On the cause of the trouble with quantitative studies. In: Functions of language, vol. 2, n. 1. Amsterdã: John Benjamins. STUBBS, M. (1996) Text and corpus analysis: Computer-assisted studies of language and culture. Oxford: Blackwell. STUBBS, M. (2001) Words and Phrases: Corpus studies of lexical semantics. Oxford: Blackwell. SWALES, J.M. (1990) Genre analysis: English in academic and research settings. Cambridge: Cambridge University Press. SWALES, J.M. Genre analysis: English in academic and research settings. Cambridge: Cambridge University Press, 1990. TAN, He; KALIYAPERUMAL, Rajaram; BENIS, Nirupama. (2011). Building frame-based corpus on the basis of ontological domain knowledge. Proceedings of the 2011 Workshop on Biomedical Natural Language Processing, ACL-HLT 2011, pages 74–82, Portland, Oregon, USA, June 23-24, 2011.Association for Computational Linguistics TAGNIN, S.E.O. (2005) O jeito que a gente diz: Expressões convencionais e idiomáticas. São Paulo: Disal. TAGNIN, S.E. O. (2011). Como os lexicógrafos poderiam descrever satisfatoriamente as colocações? In: XATARA, C.; BEVILACQUA, C.; HUMBLÉ, P.R.M. (orgs). Dicionários na Teoria e na prática. São Paulo: Parábola, 2011. TAGNIN, S. E.O.; VALE, O.A. (orgs.) Avanços da Linguística de Corpus no Brasil. São Paulo: Humanitas, 2008. VILLAVICENCIO, A.; FINATTO, M. J. B.; POSSAMAI, V. (2006). Padrões da Preposição “de” entre Sintagmas Nominais em Linguagem Cotidiana e Linguagens Técnico-Científicas. (Publicado e disponível no site do evento: V Encontro de Corpora [http://www.nilc.icmc.usp.br/vencontro/vencontro.htm]) ZILIO, L. (2007) Contraste Alemão-Português de Fraseologias Especializadas em Textos de Cardiologia. In: Anais do VI Encontro de Lingüística de Corpus. Publicado em: http://www.nilc.icmc.usp.br/viencontro/anais.htm. ZILIO, L. (2009) Colocações especializadas e Komposita: um estudo contrastivo alemão-português na área de cardiologia. Porto Alegre: UFRGS. Dissertação de Mestrado. PPG-LETRAS/UFRGS. ZHENG , Zhongguang ; HE, Zhongjun ; MENG, Yao; YU, Hão. Domain adaptation for statistical machine translation in development corpus selection. Proceedings of IUCS, 2010. Universal Communication Symposium (IUCS), 2010 4th International. Beijing, China, 18-19 Oct. 2010, p.2-7.