61
Linguística Computacional: Encontros e desencontros InPLA 2011 25 de junho, 2011 b f ӕ

Linguística de Corpus e Linguística Computacional: Encontros e desencontros InPLA 2011 25 de junho, 2011 e a b f ũ õ ſ ӕ ſ

Embed Size (px)

Citation preview

Page 1: Linguística de Corpus e Linguística Computacional: Encontros e desencontros InPLA 2011 25 de junho, 2011 e a b f ũ õ ſ ӕ ſ

Linguística de Corpus e Linguística Computacional: Encontros e desencontros

InPLA 2011

25 de junho, 2011 b

f

ӕ

Page 2: Linguística de Corpus e Linguística Computacional: Encontros e desencontros InPLA 2011 25 de junho, 2011 e a b f ũ õ ſ ӕ ſ

A Anotação semi-automática de divergências de grafia como fundamento para o processamento automático

de textos antigos:

Uma experiência na Brasiliana DigitalMaria Clara Paixão de Sousa

Universidade de São Paulo

Faculdade de Filosofia, Letras e Ciências Humanas Brasiliana Digital

NUMEC - Núcleo de Matemática, Estatísica e Complexidade

Page 3: Linguística de Corpus e Linguística Computacional: Encontros e desencontros InPLA 2011 25 de junho, 2011 e a b f ũ õ ſ ӕ ſ

Nesta comunicação apresentarei uma experiência de aplicação de técnicas da linguística de corpus ao processo de formação de uma biblioteca digital.

Utilizando a ferramenta E-Dictor, concebida como auxiliar da anotação de grafias divergentes para fins de etiquetagem morfossintática automática num corpus histórico, procuramos transformar um conjunto de seis textos portugueses escritos entre 1600-1700 em material processável por outras ferramentas de busca e anotação automática.

Para isso, adotamos a técnica originalmente utilizada na anotação de divergência de grafias como um tratamento para o problema dos resultados sofríveis do reconhecimento automático de caracteres naqueles textos.

Na comunicação, mostrarei os desafios enfrentados ao longo dessa experiência, seus resultados iniciais, e os caminhos que se abrem a partir disso no sentido do aperfeiçoamento de processos de tratamento automático de textos mais antigos, tanto no que remete ao reconhecimento de caracteres quanto no que tange a indexação para buscas.

Page 4: Linguística de Corpus e Linguística Computacional: Encontros e desencontros InPLA 2011 25 de junho, 2011 e a b f ũ õ ſ ӕ ſ

Um Desafio

Page 5: Linguística de Corpus e Linguística Computacional: Encontros e desencontros InPLA 2011 25 de junho, 2011 e a b f ũ õ ſ ӕ ſ

Um Desafio

Construir uma biblioteca digital com textos acessíveis a programas de buscas

www.brasiliana.usp.br

Page 6: Linguística de Corpus e Linguística Computacional: Encontros e desencontros InPLA 2011 25 de junho, 2011 e a b f ũ õ ſ ӕ ſ

Condição material dos nossos textos mais antigos

Um Desafio

Page 7: Linguística de Corpus e Linguística Computacional: Encontros e desencontros InPLA 2011 25 de junho, 2011 e a b f ũ õ ſ ӕ ſ

Condição material dos nossos textos mais antigos

Um Desafio

Page 8: Linguística de Corpus e Linguística Computacional: Encontros e desencontros InPLA 2011 25 de junho, 2011 e a b f ũ õ ſ ӕ ſ

Condição material dos nossos textos mais antigos

Um Desafio

Page 9: Linguística de Corpus e Linguística Computacional: Encontros e desencontros InPLA 2011 25 de junho, 2011 e a b f ũ õ ſ ӕ ſ

Condição material dos nossos textos mais antigos

Um Desafio

Page 10: Linguística de Corpus e Linguística Computacional: Encontros e desencontros InPLA 2011 25 de junho, 2011 e a b f ũ õ ſ ӕ ſ

Um Desafio

Page 11: Linguística de Corpus e Linguística Computacional: Encontros e desencontros InPLA 2011 25 de junho, 2011 e a b f ũ õ ſ ӕ ſ

Resultado da aplicação de programa de OCR

Um Desafio

Ofirm aexperknctt tptedom Phdippe I U Rey de Caííella por força epodeir de armas- àc-cupou antigamente a Coroa de Portugal3 e polo covftgmte prittou ao. Serenifjma ep^étQ po~ dercfo-Rey Dotn loao* (4ntesl)iiqú^de l$aroanç4)do indubitauel dereito desfiafie-ceffào ejuííiça para aditpa Coroa de "Portugal com) legitimo e pro-ximo berdeko da Serenifsima Senhora,, dona Catharina: fmuitos annos continuas per/èuerarap os fifeefmes.de ditto Rey^Ca$fL (a em auiolentà occupaçaó da ditta Coroade Portugal quebramando os concertos epafâos d'amiffade , de confiança edo Comercio que os Senhora Reysda Coroa de Portugglcomos outros P/mcepes Ena-çots d'Europaftntamente fempre refpeitaraó prmando.aosbopsfub-ditos euaffkllos da, mefma coroa defeu dereito de fias leys ecoftumes: talem dijjò carngandoos injufíamete de intoleraueis mokjlias eoutras diuerfis efpecias de tirannia3juntas aexcefstuos tr'èutos3os quaes os Reys de Caííella juntamente como patrimônio da Coroa Real de poKtugalconfomiraôedeftmiraó comguerras efcufadas-.coni as quaes coufasfendo os dittos boòs Subditos euaffkllos daquella Coroa eííi-mulados epromcados dejuíío furor ^vencido o fofrimento 3 com grande animo3 oufaâa eadvertenàa facodiraò aquelle intolerauel e injuflo lugo d El Rey de Caííella reftituindofe afsimefmos a fia liberdade} efinalmente por applaufo comun eUegraô eacclamaraó * deraòomenagem, ejuramentode fidelidade ao ãtto Rey Dom Io-ao* IV , Ofmmtopoderofos Senhores Qrdeés Geraes fenúndo juxtamente por fua parte 3 etendo be' conhecido aintolerauel tiranya edurifsimos encargos do ditto Rey de Caííella efia deteflauel determinação para alcançar a Monanhia detanto tempo emtoda Europa

Page 12: Linguística de Corpus e Linguística Computacional: Encontros e desencontros InPLA 2011 25 de junho, 2011 e a b f ũ õ ſ ӕ ſ

MOſtrou aexperiencia quedom Phelippe I I, Rey de Castella por força epoder de armas oc-cupou antigamente a Coroa de Portugal, e polo conſeguinte priuou ao Sereniſsimo emuito po-deroſo Rey Dom Ioaõ (antes Duque de Bargança)doindubitaueldereito de ſua fuc-aſſaó ejustiça para aditta Coroa de Portugal como legitimo e proximo herdeiro da Sereniſsima Senhora dona Catharina: emuitos annos continuos perſeueraraó os fucceſsoresde ditto Rey de Castel- la em auiolenta occupaçaõ da ditta Coroade Portugal quebrantando os concertos epactos d’amiſſade, de confiança edo Comercio que os Senhores Reys da Coroa de Portugal com os outros Princepes Ena-çoés d’Europa ſantamenteſempre reſpeitaraó priuando aos boósſub- ditos euaſſallos da meſma coroa deſeu dereito de ſuas leys ecoftumes: ealem diſſo carregandoos injuſtamete de intoleraueis moleſtias eoutras diuerſas eſpecias de tirannia,juntas aexceſsiuos tributos, os quaes os Reys de Castella juntamente como patrimonio da Coroa Real de Portugal conſomiraó edeftruiraó comguerras eſcuſadas:com as quaes couſas ſendo os dittos boós Subditos euaſſallos daquella Coroa esti--mulados eprouocados dejusto furor vencido o ſofrimento , com grande animo, ouſadia eadvertencia ſacodiraó aquelle intolerauel e injuſto Iugo d’ El Rey de Castella reftituindoſe afsimeſmos a fua liberdade, efinalmente por applauſo comun ellegeraó eacclamaraó , deraó omenagem, ejuramentó defidelidade ao ditto Rey Dom Ioaó IV , Oſmnitopoderoſos Senhores Ordeés Geraes ſentindo juxtamente por ſua parte, etendo be' conhecido aintolerauel tiranya eduriſsimos encargos do ditto Rey de Castella efua deteſlauel determinaçaó para alcançar a Monarchia detanto tempo emtoda Europa

Resultado da correção do output de OCR

Um Desafio

Page 13: Linguística de Corpus e Linguística Computacional: Encontros e desencontros InPLA 2011 25 de junho, 2011 e a b f ũ õ ſ ӕ ſ

Mostrou a experiência que dom Felipe II, Rei de Castela por força e poder de armas, ocupou antigamente a Coroa de Portugal, e pelo conseguinte privou ao Sereníssimo e muito poderoso Rei Dom João (antes Duque de Bragança) do indubitável direito de sua sucessão e justiça para a dita Coroa de Portugal como legiíimo e próximo herdeiro da Sereníssima Senhora dona Cataarina: e muitos anos contínuos perseveraram os succesores de dito Rei de Castela em a violenta ocupação da dita Coroa de Portugal quebrantando os concertos e pactos de amizade, de confiança e do Comércio que os Senhores Reis da Coroa de Portugal com os outros Príncipes e Nações da Europa santamente sempre respeitaram privando aos bons súditos e vassalos da mesma coroa de seu direito de suas leis e costumes: e além disso carregando-os injustamente de intoleráveis moléstias e outras diversas espécies de tirania,juntas a excessivos tributos, os quais os Reis de Castela juntamente com o patrimônio da Coroa Real de Portugal consumiram e destruíram com guerras escusadas: com as quais coisas sendo os ditos bons Súditos e vassalos daquela Coroa estimulados e provocados de justo furor vencido o sofrimento, com grande ânimo, ousadia e advertência sacodiram aquele intolerável e injusto Jugo d’ El Rei de Castela restituindo-se a si mesmos a sua liberdade, e finalmente por aplauso comum elegeram e aclamaram, deram homenagem, e juramento de fidelidade ao dito Rei Dom JoãoIV , os muito poderosos senhores Ordens Gerais sentindo justamente por sua parte, e tendo bem conhecido a intolerável tirania e duríssimos encargos do dito Rei de Castela e sua detestável determinação para alcançar a Monarquia de tanto tempo em toda Europa

Texto efetivamente legível

Um Desafio

Page 14: Linguística de Corpus e Linguística Computacional: Encontros e desencontros InPLA 2011 25 de junho, 2011 e a b f ũ õ ſ ӕ ſ

Mostrou a experiência que dom Felipe II, Rei de Castela por força e poder de armas, ocupou antigamente a Coroa de Portugal, e pelo conseguinte privou ao Sereníssimo e muito poderoso Rei Dom João (antes Duque de Bragança) do indubitável direito de sua sucessão e justiça para a dita Coroa de Portugal como legiíimo e próximo herdeiro da Sereníssima Senhora dona Cataarina: e muitos anos contínuos perseveraram os succesores de dito Rei de Castela em a violenta ocupação da dita Coroa de Portugal quebrantando os concertos e pactos de amizade, de confiança e do Comércio que os Senhores Reis da Coroa de Portugal com os outros Príncipes e Nações da Europa santamente sempre respeitaram privando aos bons súditos e vassalos da mesma coroa de seu direito de suas leis e costumes: e além disso carregando-os injustamente de intoleráveis moléstias e outras diversas espécies de tirania,juntas a excessivos tributos, os quais os Reis de Castela juntamente com o patrimônio da Coroa Real de Portugal consumiram e destruíram com guerras escusadas: com as quais coisas sendo os ditos bons Súditos e vassalos daquela Coroa estimulados e provocados de justo furor vencido o sofrimento, com grande ânimo, ousadia e advertência sacodiram aquele intolerável e injusto Jugo d’ El Rei de Castela restituindo-se a si mesmos a sua liberdade, e finalmente por aplauso comum elegeram e aclamaram, deram homenagem, e juramento de fidelidade ao dito Rei Dom JoãoIV , os muito poderosos senhores Ordens Gerais sentindo justamente por sua parte, e tendo bem conhecido a intolerável tirania e duríssimos encargos do dito Rei de Castela e sua detestável determinação para alcançar a Monarquia de tanto tempo em toda Europa

Condição material dos nossos textos mais antigosUm Desafio

Page 15: Linguística de Corpus e Linguística Computacional: Encontros e desencontros InPLA 2011 25 de junho, 2011 e a b f ũ õ ſ ӕ ſ

Estratégias

Page 16: Linguística de Corpus e Linguística Computacional: Encontros e desencontros InPLA 2011 25 de junho, 2011 e a b f ũ õ ſ ӕ ſ

Estratégias

1. Correção de OCRAbbyy 10.0

Page 17: Linguística de Corpus e Linguística Computacional: Encontros e desencontros InPLA 2011 25 de junho, 2011 e a b f ũ õ ſ ӕ ſ

- Ferramenta “treinável”: - Resultados transferíveis para o total do acervo - Resultados transferíveis para outros projetos e acervos

Vantagens previstas: Estratégias

Estratégias

1. Correção de OCRAbbyy 10.0

Page 18: Linguística de Corpus e Linguística Computacional: Encontros e desencontros InPLA 2011 25 de junho, 2011 e a b f ũ õ ſ ӕ ſ

- Ferramenta “treinável”: - Resultados transferíveis para o total do acervo - Resultados transferíveis para outros projetos e acervos

Vantagens previstas: Estratégias1. Correção de OCR

Abbyy 10.0

Desvantagens previstas: - Software proprietário: - Impossibilidade de trabalho no código-fonte - Imprevisibilidade de continuidade do programa - Transferibilidade comprometida pelo alto preço

- Resultado só pode ser parcial: - Necessidade de novo tratamento para variação de grafia

Estratégias

1. Correção de OCRAbbyy 10.0

Page 19: Linguística de Corpus e Linguística Computacional: Encontros e desencontros InPLA 2011 25 de junho, 2011 e a b f ũ õ ſ ӕ ſ

2. Correção de OCR e Edição filológica (Edictor*)

Estratégias

1. Correção de OCRAbbyy 10.0

* Paixão de Sousa, Kepler e Faria (2010)

Page 20: Linguística de Corpus e Linguística Computacional: Encontros e desencontros InPLA 2011 25 de junho, 2011 e a b f ũ õ ſ ӕ ſ

Estratégias

Vantagens previstas: - Software livre: - Possibilidade de trabalho no código-fonte - Previsão de continuidade do programa - Transferibilidade garantida

- Ferramenta completa: - O resultado combina correção do reconhecimento e edição de variação de grafia

2. Correção de OCR e Edição filológica (EDictor)

1. Correção de OCRAbbyy 10.0

Page 21: Linguística de Corpus e Linguística Computacional: Encontros e desencontros InPLA 2011 25 de junho, 2011 e a b f ũ õ ſ ӕ ſ

Estratégias

Vantagens previstas: - Software livre: - Possibilidade de trabalho no código-fonte - Previsão de continuidade do programa - Transferibilidade garantida

- Ferramenta completa: - O resultado combina correção do reconhecimento e edição de variação de grafia

- Ferramenta não-“treinável”: - Resultados não transferíveis para o total do acervo - Resultados não transferíveis para outros projetos e acervos

Desvantagens previstas:

2. Correção de OCR e Edição filológica (EDictor)

1. Correção de OCRAbbyy 10.0

Page 22: Linguística de Corpus e Linguística Computacional: Encontros e desencontros InPLA 2011 25 de junho, 2011 e a b f ũ õ ſ ӕ ſ

Resultados

Page 23: Linguística de Corpus e Linguística Computacional: Encontros e desencontros InPLA 2011 25 de junho, 2011 e a b f ũ õ ſ ӕ ſ

-Financiamento: Pró-reitoria De Graduação - USP Programa Ensinar com Pesquisa

-Tempo de pesquisa: 12 meses -Pesquisadores envolvidos: 7 (

Bruna Baldini de Miranda Bruna Baldini de Miranda Fabiana Ferraz Fabiana Ferraz Fabio Kepler Fabio Kepler Jáderson Porto Jáderson Porto Márcia Ap. Santos MendesMárcia Ap. Santos MendesMaria Clara Paixão de Sousa (coord.)Maria Clara Paixão de Sousa (coord.)Mariane Cristine de Almeida Mariane Cristine de Almeida

Resultados:Números

Page 24: Linguística de Corpus e Linguística Computacional: Encontros e desencontros InPLA 2011 25 de junho, 2011 e a b f ũ õ ſ ӕ ſ

-Financiamento: Pró-reitoria De Graduação - USP Programa Ensinar com Pesquisa

-Tempo de pesquisa: 12 meses -Pesquisadores envolvidos: 7

-Textos corrigidos: 6-Total de palavras processadas: 39.000- Total de tokens de variação: 11.500

Resultados:Números

Page 25: Linguística de Corpus e Linguística Computacional: Encontros e desencontros InPLA 2011 25 de junho, 2011 e a b f ũ õ ſ ӕ ſ

Resultados:Números

Cf. relatório de pesquisa: http://lampiao.brasiliana.usp.br/lingua/node/92

Page 26: Linguística de Corpus e Linguística Computacional: Encontros e desencontros InPLA 2011 25 de junho, 2011 e a b f ũ õ ſ ӕ ſ

Resultados:Esquema Geral

Versões Disponíveis Para Cada Texto:

- Texto com OCR corrigido (equivalente a uma edição paleográfica)

- Edição Semi-diplomática

- Edição Modernizada

- Glossário de correções de OCR

- Glossário de edições

- Versão com Etiquetação Morfossintática

Page 27: Linguística de Corpus e Linguística Computacional: Encontros e desencontros InPLA 2011 25 de junho, 2011 e a b f ũ õ ſ ӕ ſ

Versões Disponíveis Para Cada Texto

- Texto com OCR corrigido (equivalente a uma edição paleográfica) XML, Html, TXTXML, Html, TXT

- Edição Semi-diplomática XML, Html, TXTXML, Html, TXT

- Edição Modernizada XML, Html, TXTXML, Html, TXT

- Glossário de correções de OCR XML, Html, TXT, CSVXML, Html, TXT, CSV - Glossário de edições XML, Html, TXT, CSVXML, Html, TXT, CSV

- Versão com Etiquetação Morfossintática XML, TXTXML, TXT

Resultados:Esquema Geral

Page 28: Linguística de Corpus e Linguística Computacional: Encontros e desencontros InPLA 2011 25 de junho, 2011 e a b f ũ õ ſ ӕ ſ

Resultados:Exemplos

- Documento submetido ao OCR

Page 29: Linguística de Corpus e Linguística Computacional: Encontros e desencontros InPLA 2011 25 de junho, 2011 e a b f ũ õ ſ ӕ ſ

-Resultado do OCR (treinado para o Português Clássico)

Treſlado do Latin na lin- goa Portugeza .

Trattado das " Tregoas efuspenſaó de todo o acto de hoſti / idadoebemaſſi de navegação , Comércio ejuntamente Soccorro , ſei- io , comefado eaccabado emHayadeHollandeaxìj . de Junho 164 ĩ . por tempo de des annos entre o Senhor Triſtaõ de Mcndoça Furtado , do Confelho e Embaixador do Serenijfimo epoderqfijſtmo Dom Ioao'

I V deſte nome Rey do Portugal e dosAlgarvos , Eos Senhores Depu- tados dos Muito poderoſos Senhores EJtados Geraés das Provincias Vnìdas dos Pai % es Baìxos .

Em a HAYA ,

Em caza da Viuva e Erdeiros de Ilebrandt Iacobſon van Wbuw , Impri-

midor Ordinario dos Muy altos e poderoſos Snnores EJlados Ge- nerais

, Anno 1 642 . Curn Privilegio .Resultados:Exemplos

Page 30: Linguística de Corpus e Linguística Computacional: Encontros e desencontros InPLA 2011 25 de junho, 2011 e a b f ũ õ ſ ӕ ſ

Treſlado do Latin na lin- goa Portugeza .

Trattado das " Tregoas efuspenſaó de todo o acto de hoſti / idadoebemaſſi de navegação , Comércio ejuntamente

Soccorro , ſei- io , comefado eaccabado emHayadeHollandeaxìj . de Junho 164 ĩ . por

tempo de des annos entre o Senhor Triſtaõ de Mcndoça Furtado , do Confelho e Embaixador do Serenijfimo epoderqfijſtmo Dom Ioao'

I V deſte nome Rey do Portugal e dosAlgarvos , Eos Senhores Depu- tados dos Muito poderoſos Senhores EJtados Geraés das Provincias

Vnìdas dos Pai % es Baìxos .

Em a HAYA ,

Em caza da Viuva e Erdeiros de Ilebrandt Iacobſon van Wbuw , Impri-

midor Ordinario dos Muy altos e poderoſos Snnores EJlados Ge- nerais

, Anno 1 642 . Curn Privilegio .

Resultados:Exemplos

Taxa média de acerto inicial:59%

Taxa média de acerto após treinamento:

86%

Page 31: Linguística de Corpus e Linguística Computacional: Encontros e desencontros InPLA 2011 25 de junho, 2011 e a b f ũ õ ſ ӕ ſ

-Texto com OCR corrigido no E-Dictor

Treſlado do Latin na lin- goa Portugeza .

Trattado das Tregoas e ſuspenſaó de todo o acto de hoſtilidade e bem aſſi de navegaçaó , Comercio ejuntamente Soccorro , fei-to ,começado eaccabado em Haya de Hollande a xÿ . de Iunho 1641 . por tempo de des annos entre o Senhor Triſtaõ de Mendoça Furtado , do Conſelho e Embaixador do Sereniſſimo e poderoſiſſimo Dom Ioao'

I V deſte nome Rey de Portugal e dosAlgarvos , Eos Senhores Depu- tados dos Muito poderoſos Senhores Eſtados Geraés das Provincias Vnidas dos Paizes Baixos .

Em a HAYA .

Em caza da Viuva e Erdeiros de Ilebrandt Iacobſon van Wouw , Impri-

midor Ordinario dos Muy altos e poderoſos Snnores Eſtados Ge- nerais

, Anno 1 642 . Cum Privilegio .Resultados:Exemplos

Page 32: Linguística de Corpus e Linguística Computacional: Encontros e desencontros InPLA 2011 25 de junho, 2011 e a b f ũ õ ſ ӕ ſ

- Edição Modernizada

Tratado das tréguas e suspensão de todo o ato de hostilidade e bem assim de navegação , comércio e juntamente socorro , feito,

começado e acabado em Haya de Hollande a XII . de Junho 1641 . por tempo de dez anos entre o senhor Tristão de Mendoça Furtado ,

do conselho e embaixador do sereníssimo e poderosíssimo Dom João

IV deste nome rei de Portugal e dos Algarvos , e os senhores deputados dos muito poderosos senhores estados gerais das províncias

vindas dos países baixos .

.

Resultados:Exemplos

Treslado do latim na língua portuguesa .

Em a HAYA .

Em casa da viúva e herdeiros de Ilebrandt Iacobſon van Wouw , imprimidor

ordinário dos mui altos e poderosos senhores estados generais,

Ano 1642 . Com privilégio

Page 33: Linguística de Corpus e Linguística Computacional: Encontros e desencontros InPLA 2011 25 de junho, 2011 e a b f ũ õ ſ ӕ ſ

- Glossário de edições XML, Html, TXT, CSVXML, Html, TXT, CSV

Resultados:Exemplos

Page 34: Linguística de Corpus e Linguística Computacional: Encontros e desencontros InPLA 2011 25 de junho, 2011 e a b f ũ õ ſ ӕ ſ

- Glossário de edições XML, Html, TXT, CSVXML, Html, TXT, CSV

Resultados:Exemplos

fubditos,,, ſubditos,,,subditos,,súditos

fubditos,,, ſubditos,,,subditos,,súditos

fubditos,,, ſubditos,,,subditos,,súditos

fubditos,,, ſubditos,,,subditos,,súditos

fubditos,,, ſubditos,,,subditos,,súditos

fubditos,,, ſubditos,,,subditos,,súditos

fubditos,,, ſubditos,,,subditos,,súditos

fubditos,,, ſubditos,,,subditos,,súditos

fubditos,,, ſubditos,,,subditos,,súditos

Page 35: Linguística de Corpus e Linguística Computacional: Encontros e desencontros InPLA 2011 25 de junho, 2011 e a b f ũ õ ſ ӕ ſ

- Anotação XMLXML

<w id="s_6#86"> <o> amiſjade</o> <e t="ocr">amiſſade</e> <e t="gra">amissade</e> <e t="mod">amizade </e> <m v="N"/> </w>

Resultados:Exemplos

Page 36: Linguística de Corpus e Linguística Computacional: Encontros e desencontros InPLA 2011 25 de junho, 2011 e a b f ũ õ ſ ӕ ſ

<w id="s_6#86"> <o> amiſjade</o> <e t="ocr">amiſſade</e> <e t="gra">amissade</e> <e t="mod">amizade </e> <m v="N"/> </w>

Estes dados poderiam ser utilizados como base para o desenvolvimento de programas de reconhecimento capazes de tratar textos escritos em português clássico.

Resultados:Produtos

1 Banco de erros de reconhecimento

Resultados:Produtos

Page 37: Linguística de Corpus e Linguística Computacional: Encontros e desencontros InPLA 2011 25 de junho, 2011 e a b f ũ õ ſ ӕ ſ

Estes dados poderiam ser utilizados como base para um programa de buscas no acervo de textos antigos.

2Banco de grafias em variação

Resultados:Produtos

<w id="s_6#86"> <o> amiſjade</o> <e t="ocr">amiſſade</e> <e t="gra">amissade</e> <e t="mod">amizade </e> <m v="N"/> </w>

Page 38: Linguística de Corpus e Linguística Computacional: Encontros e desencontros InPLA 2011 25 de junho, 2011 e a b f ũ õ ſ ӕ ſ

<w id="s_3#1" t="honor"><o>MARQVEZ</o><e t="mod">MARQUÊS</e><m v="NPR"/></w><w id="s_3#2" t="dep"><o>DE</o><m v="P"/></w><w id="s_3#3" t="antropo" name="Montalvão (Marquês de)"><o>MONTALVAM</o><e t="mod">MONTALVÃO</e><m v="NPR"/><comment>Jorge de Mascarenhas, Marquês de Montalvão. Fidalgo e administrador colonial português. Foi governador de Mazagão (1615-1619), de Tânger (1622-1624) e do Algarve. No contexto da Dinastia Filipina, tendo caído em desgraça o conde da Torre (sucedido por uma Junta Governativa tríplice), Mascarenhas foi nomeado por Filipe IV de Espanha como 1º vice-rei do Brasil (1640).</comment></w>

Banco de entidades nomeadas3

Resultados:Produtos

Page 39: Linguística de Corpus e Linguística Computacional: Encontros e desencontros InPLA 2011 25 de junho, 2011 e a b f ũ õ ſ ӕ ſ

Banco de entidades nomeadas3

Resultados:Produtos

Page 40: Linguística de Corpus e Linguística Computacional: Encontros e desencontros InPLA 2011 25 de junho, 2011 e a b f ũ õ ſ ӕ ſ

Banco de entidades nomeadas3

Resultados:Produtos

Page 41: Linguística de Corpus e Linguística Computacional: Encontros e desencontros InPLA 2011 25 de junho, 2011 e a b f ũ õ ſ ӕ ſ

Resultados:AplicaçõesPossíveis

Aplicações no acervo1

Resultados:Aplicações Possíveis

Page 42: Linguística de Corpus e Linguística Computacional: Encontros e desencontros InPLA 2011 25 de junho, 2011 e a b f ũ õ ſ ӕ ſ

Aplicações no acervo 1

Resultados:Aplicações Possíveis

Page 43: Linguística de Corpus e Linguística Computacional: Encontros e desencontros InPLA 2011 25 de junho, 2011 e a b f ũ õ ſ ӕ ſ

Aplicações no estudo linguístico2

Resultados:Aplicações Possíveis

Page 44: Linguística de Corpus e Linguística Computacional: Encontros e desencontros InPLA 2011 25 de junho, 2011 e a b f ũ õ ſ ӕ ſ

Novos Desafios

Page 45: Linguística de Corpus e Linguística Computacional: Encontros e desencontros InPLA 2011 25 de junho, 2011 e a b f ũ õ ſ ӕ ſ

O banco de palavras formado pela nossa anotação XML combina correção de reconhecimento automático, variação de grafia e classe de palavras.

Estes dados poderiam ser utilizados como base para o desenvolvimento de programas de reconhecimento automático capazes de tratar textos escritos em português clássico.

Novos Desafios

Page 46: Linguística de Corpus e Linguística Computacional: Encontros e desencontros InPLA 2011 25 de junho, 2011 e a b f ũ õ ſ ӕ ſ

O banco de palavras formado pela nossa anotação XML combina correção de reconhecimento automático, variação de grafia e classe de palavras.

Estes dados poderiam ser utilizados como base para o desenvolvimento de programas de reconhecimento automático capazes de tratar textos escritos em português clássico.

Novos Desafios

Quem precisa de programas de reconhecimento automático capazes de tratar textos escritos em português clássico?

Page 47: Linguística de Corpus e Linguística Computacional: Encontros e desencontros InPLA 2011 25 de junho, 2011 e a b f ũ õ ſ ӕ ſ

Novos Desafios

Quem precisa de programas de reconhecimento automático capazes de tratar textos escritos em português com ampla variação de grafias?

Page 48: Linguística de Corpus e Linguística Computacional: Encontros e desencontros InPLA 2011 25 de junho, 2011 e a b f ũ õ ſ ӕ ſ

Novos Desafios

As pesquisas em linguística de corpus dedicadas às fases antigas da língua portuguesa precisam unir-se às pesquisas em linguística de corpus dedicadas a língua atual - em especial, à língua escrita sujeita à ampla variação de grafia (a língua não-padrão).

Page 49: Linguística de Corpus e Linguística Computacional: Encontros e desencontros InPLA 2011 25 de junho, 2011 e a b f ũ õ ſ ӕ ſ

mas... e os Encontros e

Desencontros ?

Page 50: Linguística de Corpus e Linguística Computacional: Encontros e desencontros InPLA 2011 25 de junho, 2011 e a b f ũ õ ſ ӕ ſ

Novos Desafios

<w id="s_6#86"> <o> amiſjade</o> <e t="ocr">amiſſade</e> <e t="gra">amissade</e> <e t="mod">amizade </e> <m v="N"/> </w>

Itens gerados automaticamente pelas ferramentas (OCR, EDictor)

Page 51: Linguística de Corpus e Linguística Computacional: Encontros e desencontros InPLA 2011 25 de junho, 2011 e a b f ũ õ ſ ӕ ſ

Novos Desafios

<w id="s_6#86"> <o> amiſjade</o> <e t="ocr">amiſſade</e> <e t="gra">amissade</e> <e t="mod">amizade </e> <m v="N"/> </w>

Itens gerados automaticamente pelas ferramentas (OCR, EDictor)

Itens anotados semi-automaticamente pelos editores com auxílio do EDictor

Page 52: Linguística de Corpus e Linguística Computacional: Encontros e desencontros InPLA 2011 25 de junho, 2011 e a b f ũ õ ſ ӕ ſ

Novos Desafios

<w id="s_6#86"> <o> amiſjade</o> <e t="ocr">amiſſade</e> <e t="gra">amissade</e> <e t="mod">amizade </e> <m v="N"/> </w>

Itens gerados automaticamente pelas ferramentas (OCR, EDictor)

Itens anotados semi-automaticamente pelos editores com auxílio do EDictor

Itens acrescentados manualmente pelos editores

Page 53: Linguística de Corpus e Linguística Computacional: Encontros e desencontros InPLA 2011 25 de junho, 2011 e a b f ũ õ ſ ӕ ſ

Novos Desafios

<w id="s_6#86"> <o> amiſjade</o> <e t="ocr">amiſſade</e> <e t="gra">amissade</e> <e t="mod">amizade </e> <m v="N"/> </w>

Plano: Geração automática das alterações

Page 54: Linguística de Corpus e Linguística Computacional: Encontros e desencontros InPLA 2011 25 de junho, 2011 e a b f ũ õ ſ ӕ ſ

Novos Desafios

<w id="s_6#86"> <o> amiſjade</o> <e t="ocr">amiſſade</e> <e t="gra">amissade</e> <e t="mod">amizade </e> <m v="N"/> </w>

Plano: Geração automática das alterações

EDictor

Page 55: Linguística de Corpus e Linguística Computacional: Encontros e desencontros InPLA 2011 25 de junho, 2011 e a b f ũ õ ſ ӕ ſ

Novos Desafios

<w id="s_6#86"> <o> amiſjade</o> <e t="ocr">amiſſade</e> <e t="gra">amissade</e> <e t="mod">amizade </e> <m v="N"/> </w>

Plano: Geração automática das alterações

EDictor

OCR treinado?

Page 56: Linguística de Corpus e Linguística Computacional: Encontros e desencontros InPLA 2011 25 de junho, 2011 e a b f ũ õ ſ ӕ ſ

Novos Desafios

<w id="s_6#86"> <o> amiſjade</o> <e t="ocr">amiſſade</e> <e t="gra">amissade</e> <e t="mod">amizade </e> <m v="N"/> </w>

Esse trabalho envolveria o desenvolvimento de ferramentas baseadas em reconhecimento de padrões, estudos probabilísiticos, ...

Page 57: Linguística de Corpus e Linguística Computacional: Encontros e desencontros InPLA 2011 25 de junho, 2011 e a b f ũ õ ſ ӕ ſ

Novos Desafios

<w id="s_6#86"> <o> amiſjade</o> <e t="ocr">amiſſade</e> <e t="gra">amissade</e> <e t="mod">amizade </e> <m v="N"/> </w>

Esse trabalho envolveria a linguística computacional

Page 58: Linguística de Corpus e Linguística Computacional: Encontros e desencontros InPLA 2011 25 de junho, 2011 e a b f ũ õ ſ ӕ ſ

Novos Desafios

<w id="s_6#86"> <o> amiſjade</o> <e t="ocr">amiſſade</e> <e t="gra">amissade</e> <e t="mod">amizade </e> <m v="N"/> </w>

Esse trabalho envolveria a linguística computacional,a linguística de corpus,a linguística histórica, e a filologia

Page 59: Linguística de Corpus e Linguística Computacional: Encontros e desencontros InPLA 2011 25 de junho, 2011 e a b f ũ õ ſ ӕ ſ

eS

a

b

d

f

ǣ

ẽĩ ũ

õ δ

ſʦӕ

ſ

Obrigada!

Page 60: Linguística de Corpus e Linguística Computacional: Encontros e desencontros InPLA 2011 25 de junho, 2011 e a b f ũ õ ſ ӕ ſ

eS

a

b

d

f

ǣ

ẽĩ ũ

õ δ

ſʦӕ

ſ

Obrigada!

[email protected]://

www.brasiliana.usp.brhttps://github.com/edictor

Page 61: Linguística de Corpus e Linguística Computacional: Encontros e desencontros InPLA 2011 25 de junho, 2011 e a b f ũ õ ſ ӕ ſ

Linguística de Corpus e Linguística Computacional: Encontros e desencontros

InPLA 2011

A Anotação semi-automática de divergências de grafia

como fundamento para o processamento automático de textos antigos:

Uma experiência na Brasiliana DigitalMaria Clara Paixão de Sousa

Universidade de São Paulo

Faculdade de Filosofia, Letras e Ciências Humanas Brasiliana Digital

NUMEC - Núcleo de Matemática, Estatísica e Complexidade