78
Linguística de Corpus e ferramentas computacionais para análise do léxico Profa. Dra. Liliane Barreiros (DLA-UEFS)

Linguística de Corpus e ferramentas computacionais para

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Linguística de Corpus e ferramentas computacionais para

Linguística de Corpus e ferramentas computacionais para análise do léxico

Profa. Dra. Liliane Barreiros

(DLA-UEFS)

Page 2: Linguística de Corpus e ferramentas computacionais para

Linguística computacional e Linguística de Corpus

Page 3: Linguística de Corpus e ferramentas computacionais para

Linguística ComputacionalA Linguística Computacional é a parte da ciência

linguística que se preocupa com o tratamento computacional

da linguagem. Pode ser entendida como “a área de

conhecimento que explora as relações entre a linguística e a

informática, tornando possível a construção de sistemas com

capacidade de reconhecer e produzir informação apresentada

em linguagem natural” (VIEIRA; LIMA, 2001).

Page 4: Linguística de Corpus e ferramentas computacionais para

A Linguística Computacional pode ser didaticamente dividida em duas subáreas:

Linguística de Corpus; e

Processamento de Linguagem Natural (PLN).

Essa divisão nem sempre é nítida, uma vez que hámuitos trabalhos que envolvem as duas áreas.

Page 5: Linguística de Corpus e ferramentas computacionais para

Linguística de CorpusA Linguística de Corpus preocupa-se basicamente com o

trabalho a partir de corpora eletrônicos que contenham

amostras de linguagem natural. Essas amostras podem ser de

diferentes fontes. Por isso, podemos encontrar os mais

variados bancos de corpora eletrônicos: há corpora de

linguagem falada, corpora de linguagem escrita literária,

corpora com textos de jornal, corpora compostos

exclusivamente por falas de crianças em estágio de

desenvolvimento linguístico etc.

Page 6: Linguística de Corpus e ferramentas computacionais para

Linguística de CorpusOs trabalhos envolvendo corpora linguísticos nem

sempre têm como objetivo produzir algum software ou

aplicativo. Normalmente, eles estão voltados para o estudo de

determinados fenômenos linguísticos e sua ocorrência em

grandes amostras de uma determinada língua (ou de uma

variedade, dialeto ou modalidade dela).

Page 7: Linguística de Corpus e ferramentas computacionais para

Processamento de Linguagem Natural (PLN)

A área de Processamento de Linguagem Natural, por

outro lado, preocupa-se diretamente com o estudo da

linguagem voltado para a construção de softwares, aplicativos

e sistemas computacionais específicos, como tradutores

automáticos, reconhecedores automáticos de voz, geradores

automáticos de resumos etc.

Page 8: Linguística de Corpus e ferramentas computacionais para

Processamento de Linguagem Natural (PLN)

Cabe à área de PLN justamente a construção de

programas capazes de interpretar e/ou gerar informações em

linguagem natural. Além disso, de acordo com Vieira (2002, p.

20), “para o processamento da língua natural, vários

subsistemas são necessários para dar conta dos diferentes

aspectos da língua: sons, palavras, sentenças e discurso nos

níveis estruturais, de significado e de uso”.

Page 9: Linguística de Corpus e ferramentas computacionais para

Áreas de conhecimento Linguística

Computacional

Lexicologia Lexicografia

Terminologia Terminografia

Tradução

Análise do Discurso

Sociolinguística Psicolinguística

Linguística Histórica

Estilística

Ensino de Línguas

Sintaxe Semântica Pragmática

A Linguística Computacional

envolve as diferentes áreas

de pesquisa

tradicionalmente conhecidas

em Linguística Teórica e

Aplicada. Todo esse

conhecimento é utilizado

para tentar processar, ou

seja, “compreender e

produzir” as línguas naturais

em corpora linguísticos.

Page 10: Linguística de Corpus e ferramentas computacionais para

CORPUS

O que é?

Para que serve?

Como organizar?

Page 11: Linguística de Corpus e ferramentas computacionais para

Diferentes tipos de corpus/corpora

Page 12: Linguística de Corpus e ferramentas computacionais para

Para a linguística, um corpus é...

“Conjunto finito de dados linguísticos tomados como ponto de

partida da descrição linguística ou como meio de verificação

de hipóteses sobre a língua a estudar, e que poderão

eventualmente conduzir à elaboração de um modelo

explicativo dessa língua. Segundo a investigação pretendida,

trata-se de uma coleção de documentos, quer orais

(registrados e/ou transcritos), quer escritos, quer orais e

escritos. As dimensões do corpus e o conjunto de enunciados

característicos do fenômeno a estudar variam com o objetivo

do investigador” (XAVIER; MATEUS, 1992, p.116).

Page 13: Linguística de Corpus e ferramentas computacionais para

O corpus para a Linguística de Corpus

Conjunto de dados linguísticos

(orais ou escritos) sistematizados segundo

determinados critérios, representativos

do uso linguístico, dispostos de tal modo

que possam ser processados por

computador (BERBER SARDINHA, 2004).

Page 14: Linguística de Corpus e ferramentas computacionais para

Uso de corpus/corpora em língua portuguesa

Page 15: Linguística de Corpus e ferramentas computacionais para

Vocabulário Portuguez e Latino

Elaborado pelo Pe. Rafael Bluteau

Publicado entre 1712-1728

10 volumes (caráter enciclopédico)

Abonações com indicação da referência

1º Utilizou um corpus de uso linguístico - cerca de 406

obras de autores dos séculos XV a XVII.

Bluteau em seu Prólogo ao leitor :

“[...] não temos outra prova da propriedade das

palavras, que o uso delas, e deste uso não há

evidência mais certa, e permanente, que a que

nos fica nas obras dos Autores, ou manuscritos

ou impressos”.

Page 16: Linguística de Corpus e ferramentas computacionais para

Dicionário da Língua Portuguesa, de1789

Elaborado por Antonio de Moraes Silva

Baseou-se em 203 autores dos séculos XV aXVIII

1º Dicionário de língua que registrou ovocabulário mais usual na língua escrita e oralda época, indicando os diferentes níveis delinguagem e a área de conhecimento

• 2ª edição (1813) – considerada como um

modelo básico da Lexicografia Portuguesa

• Estrutura do verbete do dicionário (entrada,

classe gramatical, definição com exemplos

tirados de autores, com indicação da

referência: obra, capítulo, tomo, página etc.)

Page 17: Linguística de Corpus e ferramentas computacionais para

Quando começouo uso de ferramentas

computacionais para análise da língua

portuguesa?

Page 18: Linguística de Corpus e ferramentas computacionais para

Roberto Busa (1949)No âmbito das ciências humanas, o

primeiro pesquisador a utilizar recursos da

informática foi o padre italiano Roberto

Busa. Em 1949, ele realizou um trabalho

monumental com a obra de Santo Tomás

de Aquino que somente foi possível com o

auxílio dos primeiros computadores. Até

então, as máquinas recém inventadas

pela International Business

Machines (IBM) não tinham nenhuma

aplicação no campo das humanidades.

Page 19: Linguística de Corpus e ferramentas computacionais para

Em 1960...Pesquisadores do Brasil, Estados Unidos e França;

Linhas de interesse:

1) fins literários e/ou estilísticos;

2) fins linguísticos e

3) Informáticos.

Geralmente, eram voltadas para o ensino

da língua.CDC 6600, lançado em 1964.

O primeiro corpus linguístico eletrônico foi lançado em 1964, o corpus Brown, que

continha uma quantidade invejável de dados para a época: 1 milhão de palavras.

Page 20: Linguística de Corpus e ferramentas computacionais para

Em 1980... Popularização dos computadores pessoais

Desenvolvimento da Linguística de Corpus > Linguística Computacional

Tratamento computacional dos dados linguísticos

Teoria Método LC

Page 21: Linguística de Corpus e ferramentas computacionais para

Criação de

softwares para o estudo de

fenômenos linguísticos e a sua ocorrência, a partir da constituição de grandes bancos de dados eletrônicos.

Engenheiros da

computação

Linguistas

Page 22: Linguística de Corpus e ferramentas computacionais para

As pesquisas passam a priorizar a descrição da língua e a

análise de grande quantidade de dados torna-se mais

confiável.

Confronto da teoria com os dados empíricos da língua.

Page 23: Linguística de Corpus e ferramentas computacionais para

Os benefícios:

Permite coletar, selecionar, registrar, analisar, aperfeiçoar,

recuperar os dados e gerar documentos publicáveis com

baixo custo;

Velocidade na execução das atividades;

Ampla capacidade de armazenamento de dados;

Favorece o progresso das pesquisas linguísticas de

diversas áreas, atrelando produtividade, com qualidade e

acessibilidade.

Page 24: Linguística de Corpus e ferramentas computacionais para

Linguística de corpus serve para...

Explorar estatisticamente elementos lexicais

Observar combinatórias de palavras

Caracterizar gêneros textuais

Identificar perfis de práticas textuais

Localizar padrões de uso (leitura vertical)

Compreender sentidos (leitura horizontal)

Page 25: Linguística de Corpus e ferramentas computacionais para

Ao revelar uma quantidade surpreendente de

evidências linguísticas provindas de corpora

eletrônicos, a Linguística de Corpus questiona os

paradigmas estabelecidos dos estudos linguísticos

e mostra novos caminhos para o linguista, o

tradutor, o lexicógrafo, e muitos outros profissionais

(BERBER SARDINHA, 2004).

Page 26: Linguística de Corpus e ferramentas computacionais para

COMO UTILIZARAS FERRAMENTAS COMPUTACIONAIS

PARA ANÁLISE LINGUÍSTICA?

Page 27: Linguística de Corpus e ferramentas computacionais para

1º Passo – definir o corpus

Page 28: Linguística de Corpus e ferramentas computacionais para

O formato eletrônico do corpus (pode ser

manipulado de forma mais rápida e enriquecido com

informações extras); e

A disponibilização para outras pesquisas (reutilização

do corpus).

Page 29: Linguística de Corpus e ferramentas computacionais para

Pré-requisitos para a formação de um corpus eletrônico:

Origem – textos em linguagem natural(não devem ser produzidos para a análise)

Autenticidade – textos escritos por falantes nativos

Conteúdo – deve corresponder às características desejadas

Representatividade – deve ter uma extensão representativa

Page 30: Linguística de Corpus e ferramentas computacionais para

Representatividade do corpus

(BERBER SARDINHA, 2004).

Conclusão: Tamanho não é documento!

Finalidadedo trabalho

Objetivosda

pesquisa

Perguntas/

Respostas

Page 31: Linguística de Corpus e ferramentas computacionais para

Tipos de CORPUS/CORPORA

Modo

Falado

Escrito

Tempo

Sincrônico:

um período

Diacrônico:

vários períodos

Contemporâneo:

tempo corrente

Histórico:

Um período de tempo passado

Conteúdo

Especializado

Regional ou Dialetal

Monolíngue

Multilíngue

Autoria

Aprendiz

Falante nativo

Tradutor

Finalidade

De estudo

De referência

Corpus

paralelo

Page 32: Linguística de Corpus e ferramentas computacionais para

O que é um corpus de referência?

Também conhecido como corpus de controle, funciona como

termo de comparação para a análise;

Sua função é fornecer uma norma com a qual se fará a

comparação das frequências do corpus de estudo;

As palavras com frequências significativas no corpus de

estudo são consideradas chave.

Page 33: Linguística de Corpus e ferramentas computacionais para

Características de um corpus de referência

Não deve conter o corpus de estudo;

Um corpus de um gênero específico, igual ao do corpus deestudo, tende a filtrar os elementos comuns;

Um corpus de referência geral, incluindo vários gêneros,não excluirá as palavras genéricas (relativas a um gênero);

Tamanho mínimo necessário para resultados significativos(mínimo de 2 a 5 vezes o corpus de estudo).

Page 34: Linguística de Corpus e ferramentas computacionais para

2º passo – compilação do corpus

Compilação – consiste noarmazenamento em arquivosde todos os textos relevantespara a pesquisa.

Page 35: Linguística de Corpus e ferramentas computacionais para

3º passo – conversão DO corpus

Conversão – converter osarquivos em formato .doc,.html ou .pdf para o formatode extensão .txt (= bloco denotas).

Page 36: Linguística de Corpus e ferramentas computacionais para

COMO CONVERTER:

Disponível em: <http://www.laurenceanthony.net/software/antfileconverter/>.

Page 37: Linguística de Corpus e ferramentas computacionais para

1

Page 38: Linguística de Corpus e ferramentas computacionais para

2

Page 39: Linguística de Corpus e ferramentas computacionais para

3

Page 40: Linguística de Corpus e ferramentas computacionais para
Page 41: Linguística de Corpus e ferramentas computacionais para

AntFileConverter Salva o arquivo em .txt direto na pasta de origem, otimizando ainserção dos mesmos no programa de análise.

Page 42: Linguística de Corpus e ferramentas computacionais para

4º passo – limpeza e formatação do corpus

Limpeza – excluir tabelas, gráficos, fórmulas, cálculos, imagens e

legendas, números de página, referências, ou seja, toda a informação

que não esteja no corpo do texto.

Formatação – formatar cada texto no modo desejado para a pesquisa.

Page 43: Linguística de Corpus e ferramentas computacionais para

Arquivo pronto! Próximo passo,

analisar!

Page 44: Linguística de Corpus e ferramentas computacionais para

Como usar o AntConc

Foi desenvolvido pelo pesquisador Laurence Anthony daFaculdade de Ciências e Engenharia da Universidade deWaseda no Japão.

É executável em versões para o Windows, Linux eMacintocsh. Seu arquivo tem aproximadamente

4Mb, por isso é considerado leve e

dispensa a necessidade de instalação.

1ª versão publicada em 22 dezembro de

2014

Page 45: Linguística de Corpus e ferramentas computacionais para

Disponível em: <http://www.laurenceanthony.net/software/antconc/>.

Page 46: Linguística de Corpus e ferramentas computacionais para

Versão atualizada em 23 de abril de 2018

Page 47: Linguística de Corpus e ferramentas computacionais para
Page 48: Linguística de Corpus e ferramentas computacionais para

O que o AntConc permite fazer: Listas de palavras (Word List);

Listas de concordâncias (Concordance);

Listas de palavras-chaves (KeyWord); e

Gerar gráficos com os dados analisados.

É possível descobrir como umapalavra ocorre, o quanto ocorre,em que contextos e quais aacompanha;

Encontrar padrões e variáveis deuso na escrita; e

Levantamento terminológico.

Os usos semânticos e gramaticais atestam o que está ocorrendo de fato na língua.

Page 49: Linguística de Corpus e ferramentas computacionais para

Funcionalidade do AntConc

Page 50: Linguística de Corpus e ferramentas computacionais para

1º - Carregar os arquivos que serão analisados

Fechar

Limpar

Salvar

Restaurar

Page 51: Linguística de Corpus e ferramentas computacionais para

2º - Antes de ativar qualquer função de análise, é preciso configurar a língua

Page 52: Linguística de Corpus e ferramentas computacionais para

Marcar a opção (tratar todos

os dados como minúsculas)

nas categorias Clusters/N-

Grams, Collocates, Word

List e Keyword List, para

evitar exaustividade nos

resultados, gerando duas

entradas.

3º - Configurar Tool Preferences > Treat all data as lowercase

Page 53: Linguística de Corpus e ferramentas computacionais para

Menu principal

Concordance: mostra os resultados da pesquisa em um formato KeyWord In Context

39 ocorrências

Eulálio Motta

assinou como Liota

no período de

1931, 1932 e 1933,

nos jornais Mundo

Novo e O Lidador.

Page 54: Linguística de Corpus e ferramentas computacionais para

Concordance Plot: é uma ferramenta de plotografia de concordância

Ao clicar em cada linha do

gráfico, o usuário é remetido

ao contexto da ocorrência.

Page 55: Linguística de Corpus e ferramentas computacionais para

Após correção no arquivo do

computador, o programa corrigiu

automaticamente o seu arquivo,

consequentemente alterou os

dados.

Page 56: Linguística de Corpus e ferramentas computacionais para

File View: mostra o texto bruto de arquivos individuais

Page 57: Linguística de Corpus e ferramentas computacionais para

Clusters/N-Grams: gera uma lista

com o resultado da pesquisa,

conforme a ordem escolhida

(alfabética, de frequência, de

probabilidade ou de terminações).

Page 58: Linguística de Corpus e ferramentas computacionais para

Search Term: opções de filtros

Outras opções:

• Busca por ‘sequência de caracteres’ desativando a opção Words;

• Busca ‘sensível a maiúsculas e minúsculas’, ativando a opção Case;

• Busca por expressões regulares cheias (com caracteres) ativando a opção Regex.

Busca

padrão

Page 59: Linguística de Corpus e ferramentas computacionais para

Collocates: pesquisa padrões não sequenciais na língua e gera listas das palavras

próximas ao termo pesquisado, chamadas de colocados

Média estatística, que mede o nível de relação

entre o termo pesquisado e o colocado.

Mantém o tamanho mínimo e

máximo do intervaloBase da

colocação

Page 60: Linguística de Corpus e ferramentas computacionais para

Visualizando os Resultados

Page 61: Linguística de Corpus e ferramentas computacionais para

Word List:Lista de palavras por

ordem de frequência

Page 62: Linguística de Corpus e ferramentas computacionais para

Word List:Lista de palavras

por ordem

alfabética

Page 63: Linguística de Corpus e ferramentas computacionais para

Keyword List:gera uma lista de palavras-

chave, comparando a frequência

das palavras do arquivo em

análise com a frequência das

palavras do corpus de referência

Keyness > Chavicidade

Permite identificar palavras

características no corpus de

estudo como parte de um

gênero ou de uma variedade

linguística.

Page 64: Linguística de Corpus e ferramentas computacionais para

FINALIDADE DA LISTA DE PALAVRAS-CHAVE (análise da chavicidade)

Identificar os campos semânticos que apontem para atemática do corpus de estudo;

Descrever a organização interna dos textos;

Localizar marcas indicativas de posicionamento ideológico ea possibilidade de traçar um perfil lexical de um autor(BERBER SARDINHA, 2009).

Page 65: Linguística de Corpus e ferramentas computacionais para

1º passo para gerar uma Keyword list

Definir um corpus de referência

Opção: Novo Diccionário da Língua Portuguesa, de Cândido de

Figueiredo (1913), disponível online no formato PDF > conversão em

TXT.

Page 66: Linguística de Corpus e ferramentas computacionais para

12

3

4

56

7

8

9

Como inserir um

corpus de referência

Configuração padrão (log de probabilidade)

Limite para exibição do nº de palavras-chave

‘Palavras-chave negativas’ – são as palavras do arquivo

em análise com uma frequência baixa em comparação

com a frequência no corpus de referência

Page 67: Linguística de Corpus e ferramentas computacionais para
Page 68: Linguística de Corpus e ferramentas computacionais para
Page 69: Linguística de Corpus e ferramentas computacionais para
Page 70: Linguística de Corpus e ferramentas computacionais para
Page 71: Linguística de Corpus e ferramentas computacionais para
Page 72: Linguística de Corpus e ferramentas computacionais para
Page 73: Linguística de Corpus e ferramentas computacionais para
Page 74: Linguística de Corpus e ferramentas computacionais para

Clone Results: cópia dos resultados

O botão Clone Results permite criar uma cópia dos resultados para que possam

ser comparados, em janelas independentes. Essa função é importante, quando se

tem interesse em confrontar o conjunto dos dados obtidos.

Page 75: Linguística de Corpus e ferramentas computacionais para

Clone results

Page 76: Linguística de Corpus e ferramentas computacionais para

Reiniciando a análise

Limpa

r

Page 77: Linguística de Corpus e ferramentas computacionais para

Mais informações sobre o AntConc No site da ferramenta, tem um canal de suporte para o

usuário com manual, tutoriais em vídeo e grupos de discussão

traduzidos do japonês para o inglês.

Page 78: Linguística de Corpus e ferramentas computacionais para

Referências básicasBARBOSA, Maria Aparecida. Dicionário, vocabulário, glossário: concepções. In: ALVES,Ieda Maria. (Org.). A constituição da normalização terminológica no Brasil. 2. ed. SãoPaulo: FFLCH/CITRAT, 2001, p. 23-45.

BARREIROS, Liliane L. S. O uso de ferramentas computacionais na elaboração doVocabulário de Eulálio Motta: AntConc e FLEx. A Cor das Letras. Feira de Santana:UEFS, v. 18, n. 2, p. 216-241, maio-ago. 2017.

BERBER SARDINHA, T. Linguística de Corpus. Barueri, SP: Manole, 2004.

BIDERMAN, Maria Tereza C. Teoria lingüística: teoria lexical e lingüísticacomputacional. 2 ed. São Paulo: Martins Fontes, 2001.

HAENSCH, Günther. Tipología de las obras lexicográficas. In: HAENSCH, G. et al. Lalexicografia: de la linguística teórica a la lexicografia práctica. Madrid: Gredos, 1982, p.95-187.

OTHERO, Gabriel de A.; MENUZZI, Sérgio de M. Linguística computacional: teoria eprática. São Paulo: Parábola, 2005.