149
INVESTIGAÇÃO DE PROCESSO DE CONVERSÃO AUTOMÁTICA DE TEXTOS ESTRUTURADOS PARA HIPERDOCUMENTOS ALESSANDRA DORANTE Dissertação apresentada ao Instituto de Física de São Carlos, da Universidade de São Paulo, para obtenção do título de Mestre em Ciências – “Física Aplicada sub‐área Física Computacional” PROF.DRLVARO GARCIA NETO Orientador São Carlos 1997

INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

  • Upload
    phamdan

  • View
    216

  • Download
    0

Embed Size (px)

Citation preview

Page 1: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

INVESTIGAÇÃODEPROCESSO

DECONVERSÃOAUTOMÁTICADE

TEXTOSESTRUTURADOSPARA

HIPERDOCUMENTOS

ALESSANDRADORANTE

DissertaçãoapresentadaaoInstitutodeFísicade

SãoCarlos,daUniversidadedeSãoPaulo,

paraobtençãodotítulodeMestreemCiências–

“FísicaAplicadasub‐áreaFísicaComputacional”

PROF.DR.ÁLVAROGARCIANETOOrientador

SãoCarlos1997

Page 2: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

Dorante,AlessandraInvestigaçãodeProcessodeConversãoAutomáticadeTextos

EstruturadosparaHiperdocumentos/AlessandraDorante–SãoCarlos,1997.

142p.

Dissertação(Mestrado)–InstitutodeFísicadeSãoCarlos,1997.

Orientador:Prof.Dr.ÁlvaroGarciaNeto

1.Hipertexto;2.Conversãoautomática.I.Título

Page 3: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

UNIVERSIDADEDE SAO PAULO

Av. Dr. Carlos Botelho, 1465CEP 13560-250 - Sao Carlos - SPBrasil

Fane (016) 274-3444_ _ Fax (016) 272-2218

MEMBROS DA COMISSAO JULGADORA DA DISSERTACAO DE MESTRADO DEALESSANDRA DORANTE APRESENTADA AO INSTITUTO DE FISICA DE SAO CARLOS,DA UNIVERSIDADE DE SAO PAULO, EM 28 DE NOVEMBRO DE 1997.

COMISSAO JULGADORA:/

~

'i ~ '\i _A.,~_\ _-'I' '--'--/ _____________:______ :, ~__"_J _

Prof. Dr. AIV~/ Garcia ~e~/I~SC~-~SP

---------~:-:!-_---~--------------

b I, ! /

_________S'~_=:;:---- ~_:.'::'::_':.2~~':::_<t.:_L _Profa. Ora. Sandra' Maria AIu1sia/ICMSC-USP

Page 4: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

“Navegarépreciso,vivernãoépreciso”

Page 5: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

aoÁlvaro,poracreditaremmim.

Page 6: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

AGRADEÇODECORAÇÃO

AoHomero

AMamy

AoGrupodeRedeseHipermídia

AoPeter

AoMaikon

AClaudinha

AWladerez

eatodosmeusamigos.

Page 7: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

i

ÍNDICE

LISTADEFIGURAS v

LISTADETABELAS vi

LISTADEQUADROS viii

LISTADEALGORITMOS ix

RESUMO x

ABSTRACT xi

1 INTRODUÇÃO 1

1.1 CONTEXTUALIZAÇÃO 2

1.1.1 OQUEÉACONVERSÃOAUTOMÁTICA 3

1.2 APRESENTAÇÃODOPROJETO 6

Page 8: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

ii

1.3 PROBLEMASCARACTERÍSTICOSDAÁREA 8

1.4 SOLUÇÃOPROPOSTA 11

1.4.1 OBJETIVOS 15

1.5 ABORDAGEMEMCAPÍTULOS 16

2 ACONVERSÃOAUTOMÁTICA 18

2.1 PRINCÍPIOSDEHIPERTEXTO 19

2.1.1 CONCEITODEHIPERTEXTO 20

2.1.2 HIPERTEXTOS“MANUAIS” 21

2.1.3 OATODENAVEGAR 22

2.1.4 AINTERAÇÃOCOMAINFORMAÇÃO 23

2.1.5 DIFERENTESPONTOSDEVISTAEMUMHIPERTEXTO:VISÕES 24

2.1.6 DEFINIÇÕESBÁSICAS 24

2.1.7 OSNÓSDEUMHIPERTEXTO 25

2.1.8 OSLINKSDEUMHIPERTEXTO 26

2.2 PORQUÊCONVERTER:PAPELXHIPERTEXTO 27

2.2.1 DIFICULDADESCOMOTEXTOIMPRESSO 27

2.2.2 VANTAGENSDOFORMATOHIPERTEXTO 28

2.3 COMOCONVERTER:CONVERSÃOMANUALXAUTOMÁTICA 29

2.3.1 CONVERSÃOMANUAL 29

2.3.2 CONVERSÃOAUTOMÁTICA 30

2.4 ASETAPASDACONVERSÃOAUTOMÁTICA 31

2.4.1 SELEÇÃODEDOCUMENTOS 31

2.4.2 AQUISIÇÃODEDADOS 322.4.2.1 Método1–CópiaouDigitação 332.4.2.2 Método2–Digitalização 332.4.2.3 Método3–TextonoFormatoDigital 35

2.4.3 PREPARAÇÃODOTEXTO 372.4.3.1 VerificaçãoOrtográfica 372.4.3.2 Verificação“Inteligente” 382.4.3.3 VerificaçãoVisual 38

2.4.4 APLICAÇÃODACONVERSÃOAUTOMÁTICA 38

2.4.5 CODIFICAÇÃOEMLINGUAGEMESPECÍFICA 40

2.5 TRABALHOSRELACIONADOS 41

Page 9: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

iii

3 OPROCESSODECONVERSÃOAUTOMÁTICA 44

3.1 TEXTOSESTRUTURADOS 45

3.2 DESCRIÇÃOGERALDOPROCESSO 48

3.3 FORMATODEENTRADADOPROCESSODECONVERSÃO 49

3.4 SEGMENTAÇÃO 53

3.4.1 PREPARAÇÃODOSDOCUMENTOSSTDNORM 53

3.4.2 ANÁLISEDEPARÁGRAFOS 54

3.5 HIERARQUIZAÇÃO 57

3.6 INFERÊNCIADELINKS 59

3.6.1 EXTRAÇÃODASCITAÇÕES 60

3.6.2 ENDEREÇAMENTODASCITAÇÕES 633.6.2.1 FormaNormalparaEndereçamentodeSegmentos 64

3.6.3 ESTABELECIMENTODELINKS 663.6.3.1 EstruturadePares 673.6.3.2 GeraçãodoEndereçonaFormaNormal 68

3.7 CONSTRUÇÃODOHIPERTEXTO 70

4 NORMAS:ANATUREZADAINFORMAÇÃOESEUSUSOS 71

4.1 CONCEITODENORMA 72

4.1.1 TIPOSDENORMAS 72

4.1.2 CARACTERÍSTICASDENORMAS 73

4.1.3 PRINCÍPIOSPARAOTRATAMENTODASNEJBS 75

4.2 ESTRUTURAÇÃOESEGMENTAÇÃODEUMANORMA 76

4.3 DEFINIÇÃOFORMALDASNEJBS 80

4.3.1 FUNDAMENTAÇÃOTEÓRICAPARAADEFINIÇÃOFORMAL 80

4.3.2 APLICAÇÃOPARAOCONJUNTODASNEJBS 84

4.4 REGRASDEPRODUÇÃOPARAASNEJBS 85

4.4.1 REGRASDEPRODUÇÃOPARAOPORTUGUÊSDOBRASIL 85

4.4.2 REGRASDEPRODUÇÃOPARAOCONJUNTODASNEJBS 87

4.4.3 REGRASDEVALIDAÇÃO 89

4.5 REGRASDEPRODUÇÃOPARAASCITAÇÕES 90

4.6 MODELODEDADOSPARANEJBS 93

4.6.1 MODELOENTIDADERELACIONAMENTOESTENDIDO 94

4.6.2 ESQUEMACONCEITUALDOMODELODEDADOSPARANEJBS 94

Page 10: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

iv

4.6.3 CITAÇÕESNOMODELODEDADOSPARANEJBS 98

5 AFERRAMENTAWEBIFYLAW 100

5.1 IMPLEMENTAÇÃO 101

5.1.1 LINGUAGEMDEPROGRAMAÇÃO 102

5.1.2 MÓDULOSEBIBLIOTECAS 103

5.2 AGERAÇÃODEHIPERDOCUMENTOS 104

5.3 USODAFERRAMENTAWEBIFYLAW 108

5.4 RESULTADOS 108

5.4.1 RESULTADOSDAEXTRAÇÃODASCITAÇÕES 109

5.4.2 RESULTADOSDAGERAÇÃODELINKS 111

5.4.3 SITE:PROJETOWEBIFYLAW 116

6 CONCLUSÃO 117

6.1 CONTRIBUIÇÕESDOTRABALHO 118

6.2 SUGESTÕESPARATRABALHOFUTURO 119

REFERÊNCIASBIBLIOGRÁFICAS 122

APÊNDICE

Page 11: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

v

LISTADEFIGURAS

Figura1Macro‐etapasdaConversãoAutomática 4

Figura2VerificaçãodeDocumentoscomoumainterface 12

Figura3Estruturahierárquicaemárvore 45

Figura4Exemplodeumaestruturahierárquicadenível4 47

Figura5IdentificaçãodoiníciodedocumentosemumdocumentoSTDNORM 55

Figura6Afunçãodaextraçãodascitações 60

Figura7ComposiçãodeumaNEJB 95

Figura8ModelodeDadosparaNEJBs 97

Figura9Esquemaconceitualparaarepresentaçãodecitações 99

Page 12: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

vi

LISTADETABELAS

Tabela1PadrãoSTDNORM:formatodeentradadedadosnoprocessodeconversão 50

Tabela2AlgumascategoriaspresentesnascitaçõesemNEJBs 61

Tabela3Exemplodeformalizaçãodetiposdecitação 62

Tabela4Exemplosdeendereçosnaformanormaldeendereçamento 65

Tabela5Regrasparaadefiniçãodetextobrasileiro,baseadonalínguaportuguesa 86

Tabela6Regrasparaadefiniçãoformaldenormasestatutáriasjurídicasbrasileiras 89

Tabela7RegrasdeProduçãoparaasCitaçõesemNEJBs 92

Tabela8ConstruçõesutilizadasnomodeloEntidadeRelacionamentoEstendido 94

Tabela9Exemplosdecitaçõescompostas 98

Tabela10Opçõesdeconfiguração 102

Tabela11Siglasparaostiposdenormas 105

Page 13: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

vii

Tabela12Resultadosdaextraçãodascitaçõesporsegmento 109

Tabela13Casosdeextraçãodecitaçãonãocoincidentes 109

Page 14: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

viii

LISTADEQUADROS

Quadro1DocumentodeacordocomopadrãoSTDNORM 52

Quadro2ExemplosdaestruturadeparesaplicadaàsNEJBs 67

Quadro3Exemplodehiperdocumentogeradoautomaticamente 106

Quadro4Exemplodeumtrechodehiperdocumentocomíndiceinterno 107

Quadro5CódigofontegeradoautomaticamenteemlinguagemHTML 107

Quadro6Estatísticasdaextraçãodecitaçõesportipodecitação 110

Page 15: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

ix

LISTADEALGORITMOS

Algoritmo1PreparaçãodedocumentopadrãoSTDNORM 54

Algoritmo2EtapadeSegmentaçãonoprocessodeconversão 56

Algoritmo3Ahierarquizaçãodesegmentosnoprocessodeconversãoautomática 58

Algoritmo4Geraçãodehierarquia 58

Algoritmo5Atribuiçãodaordemdosegmento 59

Algoritmo6Atribuiçãodosegmentopai 59

Algoritmo7Extraçãodascitaçõesnaetapadeinferênciadelinks 62

Algoritmo8Processodegeraçãodelinks 66

Algoritmo9Análiseeestabelecimentodelinks 66

Page 16: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

x

RESUMO

Estadissertaçãoinvestigaoprocessodeconversãoautomáticadetextosestruturadospara

hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo

automático.Fazumlevantamentodetalhadodasetapasenvolvidasnestaconversão.Como

resultadodapesquisapropõeumprocessodeconversãobaseadoemdefiniçõesformaisda

estrutura dos documentos e das citações. O domínio de aplicação do processo de

conversãoéoconjuntodenormasestatutáriasjurídicasbrasileiras.Outroresultadodeste

trabalhoéaferramentaWebifyLawque implementaoprocessodeconversãoautomática

paraoconjuntodasnormasestatutáriasjurídicasbrasileiras.Osresultadosdaaplicaçãoda

WebifyLaw na Constituição Federal, no Código Civil e no Código de Processo Civil e em

outras42normassãoapresentadosediscutidos.

Page 17: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

xi

ABSTRACT

Thiswork iscentered intheresearchoftheautomaticconversionofstructuredtexts into

hyperdocuments. Itpresentsananalysis concerning theadvantagesanddisadvantagesof

suchautomaticprocess. Italsodetailsthestepsinvolvedinthisconversion.Asoneofthe

resultsitproposesanautomaticconversionprocess,whichisbasedondocumentstructure

andcitations’formaldefinitions.TheapplicationdomainissetasBrazilianstatutorynorms.

Another contribution from this work is a tool calledWebifyLaw which implements the

automaticconversionprocessforthechosendomain.ThetoolwasappliedtotheBrazilian

Constitution, the Civil Code among other 43 norms. The results obtained in using this

applicationarealsopresentedanddiscussed.

Page 18: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

1

INVESTIGAÇÃODEPROCESSO

DECONVERSÃOAUTOMÁTICADE

TEXTOSESTRUTURADOSPARA

HIPERDOCUMENTOS

1 INTRODUÇÃO

Este projeto investiga mecanismos para aproveitamento automatizado de material

impressocomofontedeinformaçãoparaacriaçãoautomáticadehipertextos.Estaéuma

áreadebastanterelevânciadevidoàgrandequantidadedematerialimpressojáexistente,

uma significativa parte do qual é melhor lido na forma de hipertexto. A ênfase dessa

dissertaçãoénoprocessodeconversãoautomáticadetextoparahipertexto.

O processo de conversão é de difícil tratamento computacional, e apresenta dois

problemas principais: o primeiro é o reconhecimento da formatação e estruturação dos

documentos, identificando seus módulos. Outro problema é o tratamento das relações

entredocumentos,decomoutilizarainformaçãocontidanascitações.Estasdesempenham

Page 19: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

2

importantepapelnaconstruçãoderelacionamentosentreostextos,quevãoresultarem

linksparaoshipertextos.

As dificuldades na criação de um processo automatizado se devem, principalmente, à

multiplicidadedeformatosutilizadosnacomposiçãodedocumentosedecitações,exigindo

umaflexibilidadenainterpretação.Umaparteconsideráveldainformaçãodecertostextos

encontra‐seemformanão‐verbal,incluindoaformataçãodetítuloseaformadascitações

internas.

O domínio de aplicação para teste do processo escolhido foram as normas estatutárias

jurídicas brasileiras – NEJBs. Esse domínio foi escolhido porque possui várias vantagens:

temsuadivulgação,emgrandeparte,aindavoltadaparaamídia impressae temsurgido

grandeinteressedesdeaúltimadécada,nacolocaçãodessesdocumentosemmeiodigital

([27], [28]). Além disso possui uma estrutura e formatação mais formal do que outros

textos. Esta iniciativa de conversão foi feita para suprir duas necessidades básicas:

alimentarbancosdedadoseparaseremdisponibilizadosnaformadehipertexto.

1.1 Contextualização

Atecnologiadehipertextocausouforte impactonomodode interaçãoemanipulaçãoda

informação.Ainformaçãomaisdinâmica,adivulgaçãomaiságil,aatualizaçãodematerial

mais eficiente, a facilidade de navegação são algumas entre as muitas vantagens do

hipertexto. Os benefícios da utilização de hipertexto já estão comprovados pela

popularidade alcançada em diversos domínios de aplicação, como por exemplo helps

interativoseobrasdereferência.

AnteriormentedivulgadaatravésdeCD‐ROMsoumesmopormeiodosdiscosflexíveis,com

o advento daWWW na Internet, a informação também passou a ser divulgada on‐line.

Hoje, a tecnologiaWeb está cada vez mais presente no cotidiano das pessoas. Há uma

Page 20: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

3

verdadeira explosão no crescimento de web sites. Desde aproximadamente janeiro de

1993,ocrescimentotemsidoexponencial.Deacordocomestatísticas,onúmerodeweb

sitesdobraa,aproximadamente,cada6meses([30],[18]).Juntamentecomoaumentodo

númerodewebsites,aumentoutambémaproduçãodehipertextos.

DeacordocomAllan[2],conformeaWebeoutroshipertextoscrescemesetornammais

dinâmicos, é cada vez menos provável que a informação seja processada somente com

meiosmanuais.

Apesar de a criação de hipertextos simples não mais exigir uma grande especialização,

quando se trata de informação altamente interrelacionada ou em grande volume, essa

especialização ainda é necessária. Num processo não‐automatizado de criação de

hipertextos, os projetos são abordados individualmente, e a cada hiperdocumento a ser

produzido todo o processo é repetido [33]. Assim, os benefícios da utilização dessa

tecnologia podem ser prejudicados pelo alto custo de criação e manutenção derivados

destemododeprodução.Alémdessesaspectos,existeumgrandevolumede informação

queaindaseencontraarmazenadanamídiatradicional:livrosedocumentosimpressosque

precisamserconvertidosparahipertexto.

Taléaáreadeatuaçãodaconversãoautomáticadetextoparahipertexto,cujoobjetivoé

minimizar as dificuldades inerentes aos fatores mencionados acima. Para otimizar a

geraçãodehipertextos,aconversãoautomáticabuscaautomatizarastarefasrepetitivase

mecânicas,tornandoviávelaproduçãodehipertextosdequalidadeemummenorintervalo

detempo.

1.1.1 OQueéaConversãoAutomática

Aconversãoautomáticadetextoparahipertextoéumprocessodegeraçãodeestruturas

hipertextuais a partir do texto na sua forma linear. Apesar das evoluções tecnológicas

Page 21: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

4

alcançadas,oprocessodeconversãonãoégeralmenteumprocessoautomatizado,ainda

necessitando da participação humana para confirmar certas inferências geradas

automaticamente.

Todaageraçãodeumhipertextoapartirdeumtexto jáexistentepodesergeneralizada

emcincomacro‐etapas[36],ilustradasnaFigura1:

Figura1Macro‐etapasdaConversãoAutomática

SeleçãodeDocumentos:Definiçãodoconjuntodedocumentosqueserãoconvertidosem

hiperdocumentos.

AquisiçãodeDados:Transformaçãodosdocumentosselecionadosemdadosdigitais.

AplicaçãodaConversãoAutomática:Segmentaçãoda informaçãoemmódulosecriação

dehiper‐elosoulinks.

CodificaçãoemLinguagemEspecífica:Transformaçãodainformaçãoemumalinguagem

comsuporteahipertextos.

Disponibilização:Integraçãoaumservidorconectado.

Desdeomomentodaescolhadotextoatéomomentonoqualohipertextoestáprontoe

disponível para interação com o usuário, todo este processo é objeto da conversão

automática. As duas primeiras etapas, seleção de documentos e a aquisição de dados,

Page 22: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

5

funcionamcomoprocessosexternosque fazemo tratamentoda informaçãocolocando‐a

noformatodeentradadoprocessodeconversão.

Assim,aanálisedessasetapaspreliminareséimportanteparaidentificarcaracterísticasdo

processo como um todo e para que o processo de conversão possa atuar com sucesso

sobreainformaçãodesejada.

Depois da aplicação da conversão automática, o resultado é então codificado em uma

linguagemespecífica.EstalinguagempodeserHTML,SGML,HyperCardouqualqueroutra

linguagemquedê suporteparamecanismosde relações entre segmentosde informação

emgeral.

Apósa codificação,a informaçãodeveserdisponibilizadaparauso.Atualmenteosmeios

mais comuns para isto são a publicação em CD‐ROMs ou a disponibilização on‐line na

WWWdaInternet.

O processo de conversão automática engloba as duas penúltimas etapas: aplica a

conversão automática e codifica os resultados em uma linguagem específica. A última

etapa,adisponibilização,nãoéautomatizadaporesseprocessodeconversão.

Técnicasdediversasáreas,alémdaáreadosconhecimentosespecíficosemhipertexto,são

necessárias para a efetivação de todo o processo: Banco de Dados, Indexação e

Recuperação de Informação, entre outras, para que se possa chegar a um resultado

satisfatório.Autilizaçãodetécnicasmaisespecíficas,deáreascomoaInteligênciaArtificial

e Sistemas Especialistas, é uma prática que pode vir a melhorar o desempenho dos

processos de conversão,mas está fora do âmbito deste trabalho. Conhecimentos dessas

áreas são utilizados em sistemas para “aprender” a identificar links entre documentos a

partir de textos marcados por um leitor [6]. Esses sistemas “aprendizes” supõem a

intervençãohumananamaioriadoscasosparaconfirmarinferências.

Page 23: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

6

1.2 ApresentaçãodoProjeto

Trabalhandocomaconversãoautomáticadetextoparahipertextoedefinindoodomínio

deaplicaçãocomooconjuntodasnormasestatutárias jurídicasbrasileiras,oalvoprático

doprojetoconsisteemestabelecerumprocessoautomáticoedesenvolverumaferramenta

– WebifyLaw – através da qual um conjunto de normas possa ser automaticamente

convertidoparaumhipertexto.Oalvoprincipaldaconversãoégerarinformaçãonaforma

dedocumentosHTMLparaquepossaserfacilmentedisponibilizadanaWWWdaInternet.

Apesar do grandenúmerode aplicativos visando a conversãodehipertextos surgidonos

últimosanos, estes sãonormalmentebaseadosemalgum tipodemarcaçãoexistenteno

texto [2].Estamarcaçãopodeserbasicamentededois tipos:descritivaouprocedimental

[40].

Amarcaçãodescritiva fazusodecódigosembutidosno texto,ouetiquetasdemarcação,

para descrever ou comentar elementos de documentos. Exemplos de linguagem de

marcaçãodescritivasãoLatex,SGMLeHTML.AaplicaçãoLatex2html[13]éumexemplode

interpretaçãodasetiquetasdemarcaçãoLatex,econversãoparaetiquetasHTML.

A marcação procedimental, de acordo com Tittel [40], é “uma forma de descrever

conteúdos e layouts de documento que destaca o modo de apresentação, em vez de

elementos estruturais incorporados nos documentos”. Este tipo de marcação é muito

comumnosdocumentosprovenientesdeprocessadoresdemarcasproprietárias, comoo

MicrosoftWord,porexemplo.

Nesses casos de marcação, os aplicativos funcionam como simples conversores de

formatos. Interpretam as marcações existentes nos textos e se alguma formatação ou

estruturação estiver presente neste formato, esta é convertida para o hipertexto. Caso

contrário,otextoémantidocomsuaestruturaoriginallinearizada,eficadescaracterizado

Page 24: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

7

como hipertexto. Deixam a desejar, portanto, quando se trata de estabelecer uma

segmentaçãoparaodocumentoederealizarainferênciade links,aspectosfundamentais

deumhipertexto.

Asnormasestatutáriasjurídicassãonormalmenteapresentadasparaconsultacomoblocos

detextomonolíticoscondensadosemvolumesdeacordocomaordemcronológicadesua

publicação, como por exemplo, faz o LEX. Este suporte restringe algumas ações, como a

busca por palavras‐chave, e dificulta outras, no caso de se desejar consultar as citações

presentesnanorma,porexemplo.

O processo de conversão aqui proposto parte da informação em seu formato original –

textoemblocomonolítico, seqüencial,e semformatação– identificaelementoseatribui

seuverdadeirosignificadosintático:cabeçalho,seções,subseções,parágrafos,itenseassim

pordiante,comosegmentoscomponentesdeumanorma.

Uma vez identificados de acordo com categorias estabelecidas e armazenados

devidamente, os elementos têm suas relações exploradas através da inferência de links.

Posteriormentesão“reagrupados”,masdestavez,emestruturadehipertexto.

Emfacedadefiniçãododomíniodeaplicaçãoalgumasrestriçõesficamassimestabelecidas

emderivaçãodesta,eforamimportantesnodesenvolvimentodaferramentaWebifyLaw:

• A línguaparaosdocumentos fonteéoPortuguêsdoBrasil.Aplicam‐se,destemodo,

todasas restriçõesda línguanaconsideraçãodecaracteres,vocábuloseabreviaturas

permitidos.Exceçõesaestaregradevemsertratadascomotal.

• Outras normas, que não as estatutárias jurídicas brasileiras não se encaixam neste

contextoeassimnãosãoalvodaferramentaWebifyLawimplementadanestetrabalho.

A conversãoautomáticade informaçãodeoutrosdomíniospode ser feita atravésda

Page 25: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

8

aplicação do processo de conversão automática proposto no Capítulo 3, adaptando

cadaumadassuasetapas.

• O tipo de informação a ser processada pela ferramenta é a informação textual, que

corresponde ao texto das normas acima definidas. Assim, o trabalho proposto se

concentra principalmente em técnicas demanipulação destas informações para criar

hipertextos.

• Informação não textual é tratada como um componente externo ao propósito do

trabalhoeporconseqüênciaétambémumcomponenteexternoaoprocessoproposto.

Esseformatodeinformaçãonãogerahiper‐elos.

1.3 ProblemasCaracterísticosdaÁrea

Partindodainformaçãoemseuestadooriginal:seqüencialesemformatação,paraqueseja

possívelchegaraoresultadodesejado,osproblemasdacriaçãodehipertextosdevemser

detalhados.Estaseçãodescreveosproblemasqueenvolvemoalcancedoobjetivofinal.A

seçãoseguinteapresentaaspropostasdesoluçãoparacadaumdeles.

Problema1:AAquisiçãodeDados–Qualdeveserométodoparaaaquisiçãodedadoseo

formatodeentradadosdados?

Da etapa de aquisição de dados resultam os documentos digitalizados, que servirão de

entrada para o processo de conversão para os documentos hipertexto. É uma etapa

importante pois sem dados de qualidade não é possível criar hipertextos de qualidade.

Questõesrelevantesnessaetapasão:quaisostiposdesuportepossíveisparaainformação

de entrada; quais são osmétodos de aquisição de dados; e qual o tempo envolvido em

cada um deles. Por exemplo, para um determinado documento pode‐se ter uma versão

impressa de qualidade e uma versão digital. A princípio, o uso da versão digital pode

pareceróbvio.Masestadecisãodependedadisponibilidadedeconversoresdesteformato

Page 26: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

9

digitalparao formatoaceitopeloprocessodeconversão.Casocontrário,ométodomais

adequadoparaaaquisiçãodedadospassaaseradigitalizaçãodaversãoimpressa.

Oformatodeentradadosdadoséoutroaspectoimportante.Oresultadodoprocessode

aquisiçãodedadosestáintimamenterelacionadocomosdocumentosdeentrada.Quanto

menor a necessidade de outros processos entre estes,menor o esforço na realização da

tarefa. Para tal, deve‐se procurar utilizar a saída do processo de aquisição diretamente

comoentradadoprocessodeconversão.Istorepresentamenoresforço,noentantoéum

casorarodeocorrer.

Problema 2: A Segmentação de Dados – Como estabelecer uma segmentação para a

informaçãoqueatribuaosignificadosintáticodeseuselementos,talcomoéfeitoquando

executamosaleituradeumdocumento?

Durantealeituradeumtexto,nossocérebrovaiidentificandoeestruturandosuaspartes.

Pelanossacapacidadedeabstraçãoépossívelidentificarotítulodeumaseção,oassunto

principal de um parágrafo, os itens subordinados ao mesmo, e assim por diante. Como

funcionaessemecanismoqueocorreautomaticamentesemaaçãovoluntária?Aresposta

a esta pergunta é fonte de inspiração para tentar identificar elementos do documento e

segmentá‐locorretamente.

Asoluçãoparaesteproblemapartedainvestigaçãodequaissãooselementossignificativos

do conjunto de documentos emquestão, e como tais elementos podem ser distinguidos

unsdosoutros.

Page 27: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

10

Problema 3: O Armazenamento de Dados – Como fazer o armazenamento dos dados?

Qual é a base para a definição de uma base de dados para segmentos de informação

interrelacionados?

Éumproblemarelacionadomaisdiretamentecomatecnologiadainformaçãodoquecom

atecnologiadehipertexto.Noentanto,asoluçãoparaesseproblemadevebuscaradaptar

atecnologiaparaascaracterísticasdeumhipertexto.

Umdospontoséqueaestruturadesuportedoarmazenamentodosdadosdevepermitir

acessorápidoaositensmaisrequisitadosdeumanorma.Assoluçõesdevemserbuscadas

naáreadebancodedados,porjátratartaisproblemas.Oarmazenamentodedadosalém

de representar as construções convencionais como a hierarquia entre elementos de um

documento,deveserprojetadoparasuportartambémasoutrasrelaçõesnelespresentes.

Exemplificando,nocasodasNEJBs,deveseroferecidoumsuporteparaestasrelações,que

seriamascitações.

Problema 4: A Inferência de Links – Quais são os tipos de links que devem ser

estabelecidosnoconjuntodas informações?Comoos links sãodeterminadosapartirdos

segmentosdodocumento?

A inferênciade linkséumassuntosubjetivo.Muitos linkspodemsercriados.Noentanto,

não é boa prática estabelecer todos os links possíveis1. E sim, determinar quais são

essenciais e representam verdadeiramente uma relação entre dois segmentos de uma

norma. Cabe assim, propor limites para que a subjetividade inerente à criação de links

possa ser revertida em casos objetivos e determinados. Uma vez feito isto, o problema

consisteem:como identificartaisrelaçõesnotexto,umavezquesuacomposiçãoparece

livre?

1Istovaicontraosprincípiosdecomposiçãodeumbomhipertexto,gerandoumdocumentoconfuso.

Page 28: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

11

Problema5:AConstruçãodoHipertexto–Comoohipertextodeveserconstruído?Quais

recursosdevemseracrescentadosparaaapresentaçãoparaousuário?

Esta é a etapa alvo deste trabalho, construir o hipertexto. Os problemas anteriores

trataram de explorar como segmentar adequadamente a informação e descobrir as

relações nela presentes. Nesta etapa, a perspectiva se inverte. O objetivo é colocar os

segmentos juntos novamentemas, desta vez, no formato de hipertexto. A problemática

aquienvolvidaécomocoordenartodasasinformaçõeslevantadasnaconstruçãodenovos

documentos.

1.4 SoluçãoProposta

Uma vez que foram apresentados os problemas, nesta seção as soluções propostas são

discutidas.

SoluçãoPropostaparaoProblema1:AAquisiçãodeDados

A informaçãodeentradaparaoprocessode conversãoestá restrita apraticamentedois

suportes.Oprimeiroéodocumentoimpresso,omaiscomum.Outrocasoéodocumento

digital, já armazenado digitalmente, normalmente de acordo com algum formato de

processadordetexto.Cabedeterminarquaissãoosdiversosmétodosparaaaquisiçãode

acordocomcadasuporteecomsuascondiçõesparticularese,estabelecerumformatode

entradaúnicoparatodososdocumentosnoprocesso.

Da aquisição, a informação deve ainda, passar por uma verificação numa etapa

intermediáriapara ser validadaeaí ser colocadano formatodeentrada.Considerandoa

verificaçãodedocumentoscomoumainterface,conformeilustraaFigura2,aodeterminar

umformatodeentradapróximodoformatodesaídadaaquisiçãodedados,diminui‐seo

trabalhodestaetapa.

Page 29: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

12

Figura2VerificaçãodeDocumentoscomoumainterface

SoluçãoPropostaparaoProblema2:ASegmentaçãodeDados

Asegmentaçãodeumanormaestáintimamenterelacionadacomaidentificaçãodosseus

elementos significativos.Os futuros segmentos sãoos elementos significativos separados

em blocos. Assim, para resolver estas questões, a solução proposta é tentar estabelecer

umadefiniçãoformaldaestruturadodocumentoemquestão.Estadefiniçãoformalpassa

a ser responsável por colocar todos os documentos de um conjunto em uma situação

uniforme,fazendocomquesejapossívelaplicarummesmométododesegmentaçãopara

todoseles.Assim,oprimeiropassonasoluçãodoproblemadasegmentaçãoéestabelecer

umaúnicadefiniçãodaestruturadosdocumentosalvoquepossa ser seguidaduranteas

fasessubseqüentes.

Uma vez que esta estrutura estiver determinada, o passo seguinte é determinar um

métodoparaa segmentação,a soluçãoparaa segundapartedoproblema.Apropostaé

partir para a realização de análises léxica e sintática baseadas nesta definição formal de

normas. A aplicação destas análises vai produzir os segmentos do documento,

representando elementos significativos (identificados como, por exemplo: capítulos,

seções, e parágrafos). A partir daí, a preocupação passa a ser o armazenamento dos

segmentos,opróximoproblema.

Page 30: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

13

SoluçãoPropostaparaoProblema3:OArmazenamentodeDados

Asoluçãoparaoarmazenamentodedadosédefinirummodelodedadosespecíficoparao

domíniodeaplicação.Assim,omodelodedadosassumeafunção‐chavedeuniformizaro

armazenamento dos segmentos de normas identificados em etapas precedentes. Outras

funções do modelo surgem da consideração das formas básicas de utilização dos

segmentos:

• Na recuperação de elementos citados: Considerando que no conteúdo dos

documentos, os segmentos são freqüentemente citados – um tipo de relação

explícita que tem como suporte as relações estruturais2. Na sua forma, a

referenciação através de uma citação é variável3. Além disto, a citação pode ser

feita a documentos externos, ou a segmentos do próprio documento. Tal

referenciação, ou o estabelecimento de um link, implica na identificação e

recuperaçãodosegmentocitado.

• Enarecuperaçãodeelementosespecíficos,ourecuperaçãodeconteúdo:Alémde

citações, documentos podem ser referenciados através dos assuntos nele

abordados. Trata‐se de um caso de relação implícita4, a qual também deve ser

representadanomodelodedados.

Omodelodedadosdeveserprojetadoparapermitirtaisutilizações.Emambososcasos,a

recuperaçãoéderesponsabilidadedomodelodedados.Épossibilitadaatravésdasoutras

etapas:adesegmentação5edainferênciadelinks6.

Na definição domodelo de dados, a fonte de informação principal é a definição formal,

partedasoluçãoanterior. Istoporquenadefiniçãoformaléqueestãodefinidostodosos

2AdescriçãodetiposderelaçãoéabordadanoCapítulo2,página39.3AcitaçãoéabordadaespecificamentenaSoluçãoPropostaparaoProblema4.4Idemànota2.5SoluçãopropostaparaoProblema2.6SoluçãopropostaparaoProblema4.

Page 31: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

14

elementossignificativosdosdocumentos,comexceçãodascitações.Domodelodefine‐se

uma base de dados7 na qual as diversas operações possam ser executadas sobre os

segmentosacontento.

SoluçãoPropostaparaoProblema4:AInferênciadeLinks

Uma observação analítica dos documentos permite identificar os três tipos básicos de

relaçõesentreelementos:asreferênciasdehierarquia,decitaçõesedeassunto.Cadauma

destasexigemétodosespecíficospara sua identificação.As referênciasdehierarquia são

abordadasprincipalmenteduranteaconstruçãodohipertexto8.Asreferênciasrelacionadas

ao assunto são dependentes da indexação do texto do segmento. As de citações são a

preocupaçãoprincipalnestaetapa.

Uma citação semprepossui um segmento emissorouhospedeiro – aqueleque contéma

citação–,eumreceptor–aquelequeécitado.Ousodacitaçãoindicaváriassituações,as

diferentesrelaçõesentreossegmentosrelacionados9:adependência,acomplementação,

o esclarecimento, ou até a negação. Para poder estabelecer links representando estas

citações,énecessáriaumaanálisequeasreconheçanotexto.Aanáliseédificultadapela

característicadecomposiçãolivredacitação.Apropostanestecasoconsisteemexaminar

umaamostradedocumentos,fazendoaanálisedecorpuseextrairexemplosmaiscomuns

de citação. Com base nesta amostragem tenta‐se estabelecer uma forma normal e um

métodoparaaextraçãoautomáticadecitações.Ascitaçõesquecaíremdentrodestaforma

normal são reconhecidas pelo processo. Outras formas devem ser tratadas como uma

exceção,necessitandodaintervençãodousuário.

7Abasededados,depoisdedefinida,podeserimplementadautilizandooaplicativodeSGBDquesepreferir.8Paraareferênciamaispróxima,vejaaSoluçãoPropostaparaoProblema5.9Amelhorcomprovaçãoparaestaafirmaçãoaindaéaleituracríticadostextosdenormas.

Page 32: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

15

SoluçãoPropostaparaoProblema5:AConstruçãodoHipertexto

Aconstruçãodohipertextoéumaetapaquepermeiatodoodesenrolardestetrabalho.Éo

objetivo final de todas as outras propostas permitir que se chegue a esta etapa com as

informaçõesnecessárias.Considerandoisto,apropostaéconstruirohipertextocombase

nossegmentosidentificadosedevidamentearmazenados.Atravésdeconsultasnabasede

dados são recuperados os segmentos de uma mesma norma e as informações sobre a

hierarquia e outras relações. São criados diversos documentos no formato de saída

escolhido,cadaumcontendoumhipertextoisolado.Paraousuárioseráapresentadauma

espéciede índiceno iníciopara representaraestrutura internadodocumentoepermitir

acessorápidoaopontodesejado,alémdosoutroslinkspresentesnocorpodaquele.

A complicaçãomaior está em coordenar todas as informações e produzir um hipertexto

representando fielmente a estruturadodocumentooriginal.Na soluçãodesteproblema,

deve ser especificado um método que promova o encaixe perfeito das informações já

levantadas:ossegmentoseasrelaçõesentreeles.

Com relação à manutenção do sistema, a base é a comparação das mudanças a serem

feitascomoestadoatualdosistema.Nainserçãodenovoshipertextosaoconjuntodevem

serconsideradasquaisasreferênciasqueestesfazemaoutroshipertextosjápresentesno

conjunto.Nestecaso,estasreferênciasdevemserestabelecidas.

1.4.1 Objetivos

Osobjetivosprincipaisdestetrabalhoseconcentramem:

1. Especificarmétodos para a aquisição de dados para cada suporte de acordo com as

condiçõesparticulares.

Page 33: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

16

2. Apresentar diretivas para a realização da etapa de verificação dos dados, antes que

estesatinjamoformatodeentrada.

3. Especificar um formato para entrada de dados, e apresentar diretivas de como

alcançá‐lopartindodaaquisiçãodosdados.

4. Estabelecerumadefiniçãoformalparaaestruturaçãodenormasestatutáriasjurídicas

brasileiras.

5. Definir e implementar um método para a segmentação de normas com base na

especificaçãoformal.

6. Especificar um modelo de dados, utilizando o modelo entidade‐relacionamento

estendidocomorepresentaçãoformal.

7. Definirumaformanormalparaoreconhecimentoearepresentaçãodecitações.

8. Definirformalmenteummétodoparaaextraçãoautomáticadecitaçõescombasena

formanormalparacitaçõeseespecificá‐loemtermosdeumalgoritmoquepossibilite

suaimplementação.

9. Especificare implementarummétodoparaaconstruçãodedocumentoshipertextoa

partir domodelo de dados, que apresente documentos em HTML como formato de

saída.Índicesporcategoriaeporordemcronológicatambémdevemserapresentados

comoresultadodaaplicaçãodométodo.

1.5 AbordagememCapítulos

Esta seção descreve a estrutura desta dissertação. O Capítulo 2 investiga o tema

“ConversãoAutomática”.Discuteoutrossistemasdesenvolvidosqueforamutilizadoscomo

embasamento teórico para o desenvolvimento do projeto proposto. Também explora as

vantagens e desvantagens da utilização de um processo para a conversão automática, e

Page 34: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

17

apresenta diretivas de como executar uma conversão de texto para hipertexto

generalizada.

OprocessodeconversãoédiscutidonoCapítulo3.Essecapítuloapresentaumadefinição

detalhada do processo de modo generalizado, sem aludir a um domínio específico de

aplicação.

AsnormasestatutáriasjurídicasbrasileirassãorevistasnoCapítulo4,definindoanatureza

dainformação,comoécriada,estruturada,eseususosatuais.Apartirdaí,forma‐seabase

para levantamento de questões pertinentes à estruturação de normas em geral. Como

soluçãosãoapresentadasduasformalizações:umadefiniçãoformaldaestruturaçãoeum

modelodedadosparaoarmazenamentodeNEJBs.

O Capítulo 5 aborda o desenvolvimento, a implementação e o uso da ferramenta

WebifyLawqueempregaosconceitosdiscutidosnosCapítulos3e4,passandoportodosos

passosdaconversãoautomática.

Finalmente, o Capítulo 6 apresenta as conclusões, as contribuições do trabalho e as

sugestõesparatrabalhosfuturos.

Page 35: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

18

2 ACONVERSÃOAUTOMÁTICA

Ograndedesenvolvimentoalcançadonosanos80pelosprocessadoresde textomostrou

queo texto na sua formaeletrônica pode sermanipulado e visualizadodeumamaneira

muitomaisflexíveldoqueotextonasuaformaimpressa[25].Osprocessadoresdetexto

conquistaramespaço revolucionandooprocessodeeditoraçãoda informaçãoatravésda

exibiçãodosresultadosdiretamentenatela,simulandoousodopapelnocomputador.

O armazenamento e consumo de textos em forma eletrônica permite remeter rápida e

eficientemente o leitor de uma parte para outra do documento. Esta capacidade de

navegação, que liberta o leitor das restrições impostas pelo formato físico da

encadernação,éumadasbasesdomecanismodehipertexto.

Page 36: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

19

Seguindo a analogia, como hipertexto, pode‐se explorar uma simulação do ato físico de

seguir referências de uma citação para outra. Domínios específicos caracterizados

fortemente como obras de referência e de grande volume de informação só têm a se

beneficiar desta tecnologia. Mesmo assim, ainda hoje, grande parte do material de

referência ainda é consultado na forma impressa, talvez porque as dificuldades de

disponibilizarestematerialnoformatodigitalsejamgrandes.

Essecapítulointroduzatecnologiabásicaemhipertexto,queéoresultadofinalealvodo

processodeconversão.Tambémfazumaanálisedosprocessosdeconversãoautomática,

explorando as razões que justificam o interesse nessa conversão e investigando as

dificuldadesinerentesaoprocesso.

2.1 PrincípiosdeHipertexto

Antes mesmo de o termo hipertexto ser utilizado pela primeira vez10, os princípios

relacionadosaelejátinhamsidodefinidosporVannevarBushem1945,noseuartigo“As

we may think” [8]. Bush defendia a utilização de meios de manipular a informação

inspirados namente humana, nos processosmentais. Omeio atual de apresentação ou

manipulaçãodainformaçãoaindanosremeteàlinearidadeimpostapelaculturaimpressa

[26]. A mente humana por sua vez opera por associações, relacionando as diversas

informaçõesqueacumulamosduranteoperíododevida.Asinformaçõesquenossamente

manipula provém da interação com o mundo experimentado por nós: interações com

(grupos de) indivíduos, interações com artefatos; consistindo‐se de fontes naturalmente

multimídia,ricasemimagens,sons,figuraseoutroselementosdelinguagem.Nósestamos

continuamente transformando, gerando esse universo, produzido pela comunicação, na

qual somosatores; nãopodemosescolher ficar fora, esseuniversonos invade. Aoouvir

10OtermohipertextofoiinstituídoporTedNelsonem1965.

Page 37: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

20

uma palavra, é ativada em nossa mente uma rede de infinitas conexões com outras

palavras e também com sons, odores, imagens remotas e imaginárias, sensações e

lembranças.

Longedetentarserumaduplicaçãodamentehumana,ohipertextotemnamentehumana

asuafontedeinspiração,materializaçãodepartedaidealizaçãodeBush.

2.1.1 ConceitodeHipertexto

Hiper.[dogr.Hypér.]pref.=‘posiçãosuperior’;‘além’;‘excesso’.

Texto.[dolat.Textu,‘tecido’.]s.m.1.Conjuntodepalavras,defrasesescritas11.

O termohipertexto surgiu,emcontraste como texto tradicional, comoum tipode texto

queexcede,superaouvaialémdotextotradicional.Umtextotradicionaléseqüencial,uma

característica que define o modo de construção e manipulação do texto. Há uma única

seqüênciadefinindoaordemdeleitura:umapáginaapósaoutra.

A imposição de uma ordem também está presente no processo de escrita. Mesmo

raramenteutilizandoumraciocíniolinear,oautoréobrigadoalinearizarotextoparaasua

publicação.

O hipertexto é essencialmente não seqüencial, não existe seqüência única de escrita ou

leitura [31].Analogiasa “hipertextosmanuais” serão feitasadiante,masohipertexto, tal

como o concebemos hoje, depende do computador para sua existência. O hipertexto só

pôde ser concretizado quando no cenário da informática conseguiu‐se colocar em um

mesmoambiente,demodointegrado,diversascaracterísticas:

• evoluçãodohardwarecomaumentodacapacidadedeprocessamentoedeutilização

dememória,diminuiçãodocustodeequipamentos;

• representaçãodainformaçãoporinterfacesgráficasutilizandoícones;

Page 38: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

21

• abstração dos comandos em ações executadas com o uso de menus e ícones,

eliminandoanecessidadedeconhecimentodecomandos;

• utilização do mouse como dispositivo indicador, permitindo agir de forma ‘mais’

intuitiva;

• evoluçãonocampodascomunicações,permitindoalargautilizaçãodasredes;

• evolução da estruturação da informação permitindo bancos de dados distribuídos e

acessoconcorrentedainformação.

Encontrarumaúnicadefiniçãoparaaconcepçãodoqueseriaumhipertextoéumatarefa

difícil. Conforme esta tecnologia é utilizada em maior escala, suas possibilidades são

expandidas,eassimohipertextoé redefinido.Tambémnãoencontraremossistemasque

incorporem todas as características que serão abordadas aqui. As características são

incorporadasounãoaossistemasatendendoapropósitosespecíficos.

2.1.2 Hipertextos“Manuais”

De algum modo todos nós já tivemos contato com o princípio que rege o hipertexto.

Simplificandoo conceitodehipertexto,oquepode ser chamadode “hipertextomanual”

nos rodeia de alguma forma: cartões e livros de referência comomanuais, dicionários e

enciclopédias[10].Atravésdestetipodemanipulaçãodainformaçãojápodemosidentificar

algumascaracterísticas:

• ainformaçãoestáestruturadaemblocosseparados;

• existesempreumaordemdeapresentaçãoadotada,normalmentealfabética;

• a consulta é feita em um pequeno número de blocos dentro do todo; os blocos

possuemreferênciasaoutrosblocosrelacionados;

11DefiniçõesdadaspeloDicionárioAurélio[15].

Page 39: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

22

• oleitorprocuraporoutrositensdeacordocomseuinteresseounecessidade.

Dentrodeumtextoseqüencial,tambémexistemoutrasestruturas,comoíndices,sumários,

notasderodapé,ereferênciasbibliográficasquepossibilitamacessoàinformaçãodemodo

não‐seqüencial.

Quandoutilizamosumlivro,esquecemosqueestetipode“dispositivológico”nemsempre

existiu. Mencionando “algumas interfaces da escrita”, Lévy [26] nota que estamos “tão

habituados comesta interface que nemnotamosmais que existe”. Mas quando do seu

surgimentonasubstituiçãodomanuscrito,pessoasprovavelmentetambémpassarampor

umafasedaadaptação.Nósnosencontramoshojeemumafasedetransiçãosemelhante.

A interfacemais comum fornecidapelo computador ainda se restringe à tela, o quenão

permite a interação do modo que estamos habituados a realizar com livros ou jornais.

Meios de manipulação específicos devem ser desenvolvidos para esta interface [45]. E

outrasinterfacesirãosurgir,emudarnossomododeinteragir,vereviveromundo.

2.1.3 OAtodeNavegar

Emumhipertexto,ousuárioélivreparacaminharpelainformaçãodisponível,atravésdos

linksestabelecidos,ouestabelecendonovos.Estecaminhoépercorridoconformeocurso

ouinteressedeterminadopelo“comandante”queéoleitordohipertexto.

A navegação possível em um hipertexto abre novas possibilidades de exploração da

informação.Oqueantes,emumlivrotambémerapossívelatravésdoatodesimplesmente

folhearpáginasoulendotrechosdeparágrafos,nohipertextoassumeumnovocaráter.A

velocidadeemqueainformaçãoétrazidadiantedatelaéqueaproximaacomparaçãocom

a navegação. Técnicas de busca se encarregam de selecionar informação de interesse,

quando a navegação é direcionada. Já o ato de navegar curiosamente pelo hipertexto,

comoofolheardeumjornaléexpressadopelaaçãodebrowsing.

Page 40: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

23

Devido à vastidãode informaçãodisponível emalgunshipertextos, os diversos caminhos

possíveis,eofatodesomenteumaseçãodestecaminhoserexibidaporvez,achancedese

tornar“perdidonohiperespaço”aumentaconsideravelmente.Nanavegaçãonohipertexto,

mecanismosparaaorientaçãosãofundamentais.Permitemaoleitormaior‘segurança’na

navegação. Os mecanismos de orientação no hipertexto como a gravação do caminho

percorrido–backtracking–,paraconsultaposterior,evisualizaçãodaáreasendovisitada

pormapas,facilitamalocalizaçãoesituamoleitor.

2.1.4 AInteraçãocomaInformação

Imaginandoumhipertexto,deacordocomo idealizadoporVannevarBusheTedNelson,

como algo passível de representação física, teríamos um espaço comparável a uma

megabiblioteca[26].Umespaçoondefossepossívelarmazenarumagamadeinformações

abrangendo todo o universo de conhecimento. Interagindo neste espaço, pessoas

“navegam” fazendo consultas, anotações, inserindo comentários em textos, imagens,

filmes.Estaéumarepresentaçãoimagináriadainteraçãoemum‘hipertextofísico’nasua

totalidade.

Com a informação impressa, realizamos outras formas de interação. Os sublinhados e

destaques,entreoutros, freqüentementefeitosnasbordaseentrelinhasdeumlivroeas

anotações paralelas auxiliam no entendimento, traduzem a forma de raciocínio e até

explicitampartedosprocessoscognitivosdurantealeitura.Estesregistrosutilizadosmuitas

vezes para ‘reavivar amemória’ representammodos de interagir com a informação. No

hipertexto, tais registros também são possíveis, e se estendem quando possibilitam o

estabelecimentode linkspessoais,relacionandonovasinformações,acrescentandodados;

criandoerecriandooespaçohipertextual.

Page 41: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

24

2.1.5 DiferentesPontosdeVistaemumHipertexto:Visões

As visões são estabelecidas em um hipertexto para que a mesma informação possa ser

consultadademaneirasdiferentesporgruposdiferentesdeleitores.

Assim,considerandoumhipertextoeducacional,ainformaçãoéconsultadaporeducadores

eporalunos.Utilizando‐sedoconceitodevisão,oeducadortempermissão,porexemplo,

paraeditaroconteúdodainformação,visualizarasanotaçõesdetodososalunoseincluir

correções [19]. Os alunos possuem limitações com relação à edição da informação

existente, mas podem ser autorizados a estabelecer links próprios, inserir novas

informações, comentários e até talvez examinar anotações e soluções de outros (após a

datadaentrega,porexemplo).

Paraoatendimentodegruposcomdiferentesníveisdeconhecimento,pode‐seestabelecer

visõesdeterminandoníveiscomointrodutório,normalouavançado.Astarefaspropostas,

ouacomplexidadedoassuntoparacadagruposãodeterminadasdeacordocomavisão.

Umúnicoassuntoemumhipertextopodeassumirdiferentesfunçõescomousodasvisões.

No caso de um manual, podem ser estabelecidas visões para: treinamento completo,

manutençãode rotina, soluçãodeproblemasurgentes – troubleshooting, ou até guia do

proprietário[36].

2.1.6 DefiniçõesBásicas

Umhipertextoéestruturadopeladivisãodainformaçãoempedaçosinterligadosentresi.

Os“pedaços”de informaçãosãoobjetosbásicosdeumsistemahipertexto.Nãopossuem

tamanho pré‐determinado; a intenção é que estes armazenem idéias concisas. A

nomenclaturaparaestespedaçosdeinformaçãodiferedeacordocomametáforaadotada

pelosistemadeautoriaemquestão:nós,molduras,cartões,componentes,segmentos.Nós

Page 42: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

25

esegmentossãoutilizadosdemodogeneralizado,representandocartõesoumoldurasde

acordo com o hipertexto. Componente é utilizado, em especial peloModelo de Dexter

[20],massereferindoaqualquercomponentedohipertexto,sendoumnóoulink.

Umnópodepossuirrelaçõescomváriosnós.Os linksrepresentamumaligaçãoentrenós

possuindo algum relacionamento lógico entre si: associação, explicação, especificação,

especialização, classificação, generalização, exemplificação, numeração; não existindo um

númerofixodelinksemumnó.

Um link possui uma locação de ativação definida e uma locação destino. O ponto de

ativação é a âncora do link. A âncora consiste de uma região do nó, podendo ser: uma

palavra destacada, um botão da interface, ou qualquer ícone. O destino de um link é

normalmenteumoutronó.

Oconjuntodenóselinksdeterminamarededenósdohipertexto.Aestruturadaredede

nós é a base do hipertexto, estabelece a semântica e determina as possibilidades de

navegaçãodohipertexto.

2.1.7 OsNósdeumHipertexto

A metáfora adotada para a definição do nó influencia no modo de manipulação —

armazenamento e acesso — do hipertexto. Para que esta influência seja entendida é

necessáriooconceitodegranularidadedenós.Agranularidadedeumnócorrespondeao

seu“tamanho”.Masjáquenãopodemosfalardeinformaçãogrande,otamanhodonóé

tratado em termos do refinamento. Assim, um hipertexto com granularidade fina possui

nós pequenos e por isso em maior volume. Do mesmo modo, a granularidade grossa

implicaemumpequenonúmerodegrandesnós.

Page 43: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

26

Oscartõesnormalmentearmazenampequenaquantidadedeinformaçãotextualegráfica,

correspondendo à granularidade fina. A informação é dividida em nós menores,

aumentandoaquantidadedenósdohipertexto.

Considerando ametáfora demoldura, amesma informação pode ser dividida emblocos

maiores,poisnãohálimitaçãosobreoqueapresentaremumatela;agranularidadegrossa

é adotada. No entanto esta divisão da informação deve considerar a capacidade de

absorçãodainformaçãopeloleitor.Muitainformaçãoexibidadeumasóvezpodecausaro

queéchamadodeoverheadcognitivo[4].

Poroutro ladoagranularidademuitofinacomgrandequantidadedepequenosnóspode

gerarproblemasnamanutençãodarededenós.Oidealéadotarumaopçãobalanceada.

2.1.8 OsLinksdeumHipertexto

Umadasgrandespotencialidadesdohipertextoépermitiroestabelecimentoderelações

entre documentos diferentes e situados remotamente emmáquinas diferentes. Os links

implementadosemumhipertextosediferembasicamentepelolocalparaonde“apontam”.

Links intra‐documentos são links possuindo sua locação destino localmente, no mesmo

documento/hipertexto.Representamreferênciasapartescorrelatasdodocumento.

Linksentredocumentosapontamparaumalocaçãodestinoquenãonecessariamenteestá

presente localmente,podendoestaremalgumpontodeumarededecomunicaçãoentre

outros computadores. Exigem uma estrutura de suporte para este tipo de ligação. Links

entre documentos são muito utilizados na WWW. Esse tipo de link implica em uma

compatibilidade no formato de arquivos ou um suporte a diversos tipos. O sistema de

responsável pelo browsing do hipertexto deve ser capaz de entender os formatos dos

documentosarmazenadosremotamenteparapoderapresentá‐losaoleitor.

Page 44: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

27

2.2 PorquêConverter:PapelxHipertexto

Háváriasrazõesque incentivamaconversãodedocumentosdoformato impressoparao

hipertexto. Essa seção analisa as dificuldadesdeutilizaçãodo texto impresso, analisando

emseguidaasvantagensdohipertexto.

2.2.1 DificuldadescomoTextoImpresso

O texto impresso tem algumas vantagens sobre o texto eletrônico. Determinadas

categorias de texto ainda são melhor lidas quando impressas, como por exemplo os

romances.OutropontoéqueaslimitaçõeseletrônicasdosCRTsoumonitoresfazemcom

quea leituraextensivaemumateladecomputadoraindasejaumpoucodesconfortável,

mesmoporqueoambienteemtornodeumcomputadornormalmentenãoestápreparado

para “convidar”ousuárioapermanecergrande tempo.Hágrandesavanços tecnológicos

nessaárea: aminiaturizaçãodosatuaisnotebooks, a evoluçãoda tecnologiadas telasde

cristallíquidocommatrizativaeoaumentodacapacidadederesistênciadosmecanismos

dearmazenamentoatravésdeDVDs.Essesavançospermitempreverumamaiorfacilidade,

no futuro, para a leitura ergonômica diretamente no computador. A tecnologia atual,

entretanto,aindanãopermiteissonamaioriadoscasos.

Asdificuldadescomotextoimpressoforamirrelevantesdurantemuitotempopelafaltade

alternativas,masaslimitaçõesdotextoimpressoquedevemserconsideradassão[11]:

1. Hádificuldadeem realizarprocuraentregrandes volumesdematerial impresso.Após

seguirumcertonúmerodereferênciascruzadas,seoleitornãoestiveranotandotudo

seconfundefacilmente;

2. Atabeladeconteúdoeoíndicesãoferramentasquefacilitamaprocuradetópicos,mas

onúmerodereferênciascruzadasémínimo;

Page 45: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

28

3. Oíndiceimpressoélimitadopelotamanhoepelocritériodeseleçãodosautoresenem

sempre é direcionado para a informação relevante para o leitor. Dependendo do

domíniodeaplicação,coletâneassãolargamenteutilizadas.Masmesmoassim,editoras

esperamumcertointervaloparaapublicaçãodenovasedições;

4. A razão mais tocante, a informação não pode ser atualizada periodicamente. Em

determinados âmbitos de aplicação este é um fator crítico, senão essencial. Alguns

destes casos são: legislação,manuais de procedimentos de operação/instrução; estes

exigemqueainformaçãosendoconsultadaestejasempreatualizada.

2.2.2 VantagensdoFormatoHipertexto

Apesar de não ser mais necessário comprová‐las, é válido mencionar as vantagens do

formatohipertexto([32],[11]):

• O formato hipertexto suporta boas características de navegação: dinamismo na

seqüênciadas referências cruzadas eprocuraporpalavras‐chave.Mesmona ausência

depáginasdeíndices,existemváriosmecanismosdebuscadisponíveisnaWWW,além

do mecanismo básico oferecido pelos browsers. Alguns exemplos são: Yahoo12,

Altavista13,Cadê?14entremuitosoutros.

• O suporte digital do hipertexto fornece mecanismos para uma maior diversidade da

mídia utilizada na divulgação da informação. Além de texto, fotografia e imagens

gráficas,omeioeletrônicopodeforneceráudioevídeo.

• Amaioriadosusuáriosprocuranosdicionários,enciclopédiasemanuaisdetreinamento

informação para completar uma tarefamaior e é de grande utilidade poder gravar o

resultadodeumapesquisaparausofuturoematividadessimilares[3].

12Endereço:http://www.yahoo.com.13Endereço:http://www.altavista.digital.com.14Endereço:http://www.cade.com.br.

Page 46: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

29

2.3 ComoConverter:ConversãoManualxAutomática

2.3.1 ConversãoManual

A primeira solução na conversão de texto para hipertexto seria fazer a conversão

manualmenteutilizandoumdosváriossoftwaresdeautoriadehipertextojádisponíveis15.

Algunsaspectossãointrínsecosaestetipodeconversãoesãoexaminadosaseguir[36]:

Interpretaçãoindividual:decisãosobreoquedeveconstituirumlink,ondeumlinkdeve

apontareoqueconstituiumnódohipertexto,estãosujeitasàinterpretaçãoepolítica

individualdoeditor.Issopodeserdesejávelouaceitávelemalgunscasosespecíficos,

mas não se aplica no geral. Informações importantes sobre outros aspectos podem

ficarsemrelaçõesestabelecidasporpassaremdespercebidospeloeditor,dificultando

oacessodoleitorediminuindoaqualidadedohipertexto.

ProcessoRepetitivo:oprocessodeconversãoéumatarefarepetitivaconsistindodetrês

passos:

1. determinaçãodainformaçãoquevaiconstituirumnó;

2. verificaçãoderelaçõesentreonóemquestãoeoutrosnósjáexistentes

3. estabelecimentodelinks,alterandoarededenós.

Considerandoumgrandevolumede informação,aconversãose tornamaissujeitaa

erroshumanos,principalmentecomrelaçãoàmanipulaçãodarededenós.

Aspecto Temporal: o processo de conversão pode se tornar um processo de longa

duração especialmente na conversão de textos extensos, inviabilizando a

disponibilizaçãodainformaçãorapidamente.

15AlgunsexemplossãooFrontPage®daMicrosoft,oHTMLEd®daW3InterneteoHotDog®daSausageSoftware.

Page 47: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

30

Atualização da Informação: na inserção de novos dados toda a rede de nós deve ser

reconsiderada.Considerandoquea informaçãopodealcançar grande volumeeuma

rede de nós altamente interconectada, aumenta a dificuldade de atualização da

informaçãocontidanohipertextodemodocoerenteeamanteraintegridadedarede.

Essesaspectossãomenoscríticosquandoovolumedeinformaçãoépequeno.Noentanto,

no caso de um grande volume de informação que é atualizada periodicamente e com

grandenúmeroderelações,aconversãomanualsetornapraticamenteinviável.Naprática,

normalmente a maior parte das obras de consulta e referência pertence à segunda

categoria,degrandevolumedeinformação.

2.3.2 ConversãoAutomática

Aconversãoautomáticaapresentavantagenssobreaconversãomanualnamedidaemque

procurarminimizaroefeitodosaspectosmencionadosnaseçãoanterior:

• Executando as tarefas repetitivas automaticamente, principalmente a

segmentaçãodainformação;

• Estabelecendooslinksdeacordocomcritériosbemestabelecidos;

• Fornecendomeiosparaaatualizaçãodainformação;

• Executandoessastarefasnomenorintervalodetempopossível.

Considerando os problemas apresentados com a conversão manual, as vantagens da

conversãoautomáticaeacrescentedemandadedocumentosquenecessitamconversão,

vemapergunta:Porqueéquenãoexistemmuitossistemasdeconversãodehipertexto?A

primeira razão:elessãodifíceisde implementar,eoutra: são limitadosnoseuescopode

aplicação[13].Estetrabalhovemtentarreverterestasafirmações,propondoumprocesso

deconversãovoltadoparaageraçãodedocumentosparaaWWW.

Page 48: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

31

2.4 AsEtapasdaConversãoAutomática

AsetapasenvolvidasnaconversãoautomáticajáforammencionadasnoCapítulo1eaqui

passamporumabreveanáliseantesdeoprocessodeconversãoeasetapassubseqüentes

seremabordadosdetalhadamentenoCapítulo3.

2.4.1 SeleçãodeDocumentos

Natentativadeestabelecerdiretivasparaaseleçãodetextosquemelhorseadeqüemao

processodeconversãoautomática,algumascaracterísticasdotextodevemserobservadas.

Nemtodosostiposdetextosseprestamigualmenteàconversãoautomática[16].Muitos

textos são escritos e concebidos para teremuma conotação linearmesmona leitura, no

sentido de que o próprio texto tem seu significado alterado se for transformado em

hipertexto.

Os melhores candidatos para a conversão automática são documentos que possuem

informação com grande volume de referências cruzadas, com uma estrutura complexa,

hierárquicaebemdefinida.Noentanto,mesmoquenãoemtãograndevolumecomouma

enciclopédia,amaioriadosdocumentosquesãoconsultados“aospoucos”ou“empassos”

seaplicamàconversãoautomática.Deacordocomalgumasregraschamadasde“Golden

RulesofHypertext”[38],umtextoéadequadoàconversãoautomáticase:

• Otextopossuigrandevolumedeinformaçãoorganizadaemfragmentos16;

• Osfragmentosserelacionamentresi17;

• Oleitoraqualquermomentonecessitasomentedepartepequenadainformação.

16Estesfragmentossãopartesdotextoquepossuemcertacoesãosemântica,exploramumdeterminadoassuntoepodemserconsultadosdemodoindependentedoresto.Porserumadefiniçãomuitoabstrata,estáintimamenteligadaaocontextonoqualainformaçãoéapresentada.Assim,umfragmentopodetantoser,numaenciclopédiaumadefiniçãodeumiteme,numlivroumcapítulo.17 Esta relação entre fragmentos pode ser tanto explícita – quando ocorre a citação literal de outro fragmento, quantoimplícitacaracterizadapelaafinidadedeassuntoentrefragmentos.

Page 49: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

32

Durante o processo de seleção de texto estas características podem ser mais bem

explicitadasatravésdatentativaderesponderàsquestõespropostasporRiner[36]:

Ousodotextotendeaumhipertexto?

Existeumaestruturaimplícitaouexplícitanodocumento?

Otextotemumatabeladeconteúdoouestapodeserextraída?

Otextopossuiumíndice,glossário,etc.?

Otextopossuimuitasreferênciascruzadasinternaouexternamente?

Existemunidadesdefiníveisquepossamserrelacionadasumascomasoutras?

Édifícil afirmarque textosmaisbemadaptadosaestas condições resultamemmelhores

hipertextos, principalmente porque não há ummeio de se julgar se um hipertexto está

correto ou não. No entanto, pode‐se afirmar que textos com essas características irão

melhorseadequaraumprocessodeconversãoautomática.Umtextocaracteristicamente

monolíticoeseqüencialdificilmentevaidesfrutardasvantagensdetalprocesso.

Concluindo, a seleção de textos é uma etapa que depende totalmente da tomada de

decisãohumanaarbitrária.Casoestejainteressadoemempregarmecanismosdeconversão

automática,oeditordeveprivilegiartextoscujascaracterísticasseprestamàconversão.

2.4.2 AquisiçãodeDados

Apesardenãoserobjetivodestetrabalhoexploraremdetalhescomosedáoprocessode

aquisiçãodedados,éumapreocupaçãoestabelecerpadrõesparaaqualidadedosdadose

para o formato de entrada destes no processo proposto. Assim, algumas diretivas para

guiarestaetapasãosugeridas.Nesseescopo,osdadosaseremadquiridosestãorestritosa

texto.Assimaquisiçãodedadoseaquisiçãodetextosãoutilizadoscomosinônimos.

Page 50: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

33

Aaquisiçãodetextopodeserfeitadeacordocomdiversosmétodos,variandoconformeas

condiçõesfísicasdosdocumentos,adisponibilidadedosmesmoseoacessoadispositivos

adequados.

Oenfoquedestaetapaestáemtrêsmétodosdistintosdeaquisiçãodetexto,cadaumdeles

baseadoemumtipodesuporte:manuscrito,impressooujánoformatodigital.

2.4.2.1 Método1–CópiaouDigitação

Métodoqueexigeadedicaçãointegraldepessoasduranteoprocesso.Trata‐sedométodo

mais demorado e mais trabalhoso. Tem a vantagem de eliminar alguns dos problemas

particulares dos métodos de digitalização descritos na seção seguinte. As desvantagens

destemétodosãobasicamenteduas:

1. Não elimina a necessidade de correção ortográfica para garantir a qualidade do

documentodeentrada.Errosdedigitaçãopodemocorreredevemsercorrigidos.

2. Ainda há necessidade de um processo de aquisição dos componentes considerados

“externos” ao texto, normalmente presentes nos anexos: figuras, tabelas, gráficos e

outrossimilares,quenãopodemserdigitados.

Estemétododeveseradotadoemcasosque,devidoàpresençadealgumfatorcrítico,a

utilização dos outros dois métodos descritos se tornar inadequada. Qualidade pobre do

texto impresso, texto impresso emmeio não adequado ao dispositivo de scanning, ou a

ausênciadestedispositivo,sãoalgunsdessesfatores.

2.4.2.2 Método2–Digitalização

Métodoqueexploraacriaçãodeumaimagemdigitaldotextoparadepoisserconvertida

em texto passível de ser lido e editado em um processador de textos, em uma etapa

Page 51: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

34

subseqüente.Otextoimpressopassapordiversasetapasantesdeatingiropadrãoparaa

entrada[33],[36]:

1. Scanning: Apesar de ter evoluído consideravelmente, o processo de digitalização de

páginas impressasdetextoaindaéumprocessoquedemandatempoededicação.No

entanto,podeserumaopçãomaisrazoáveldoqueadigitaçãodotextoimpresso.

A evolução alcançada nos scanners permite que a presença humana seja dispensada

quandoodispositivopossuiorecursodealimentaçãoautomática,porexemplo.Mesmo

semaalimentaçãoautomática,oavanço tecnológicodosdispositivos resultouemum

considerável aumento de velocidade na varredura e no armazenamento das páginas.

Estaaindaéamelhoropçãoquandoafontedeinformaçãoéodocumentoimpresso.

2. OCR – Reconhecimento Óptico de Caracteres: Influenciamuito na qualidade do texto

que será utilizado nas etapas subseqüentes. Quanto melhor (mais acurado) for o

processodeOCR,menoraquantidadedeerrosnasetapasfuturase,porconseqüência,

menoroesforçoemcorrigi‐los.

DificuldadesaindasãoencontradaspeloOCRemreconhecertextoquandooscaracteres

são acentuados, estão muito próximos uns aos outros ou ainda na presença de

caracteres especiais. Para tentar solucionar alguns dos erros do OCR existem

abordagensdiferentesparacadatipodeproblema.

Paraa correçãodeerrosno reconhecimentodepalavras,averificaçãomais comumé

atravésdousodecorretoresortográficos,realizadanaetapasubseqüenteàpreparação

dotexto.Outrascorreçõespodemserfeitasatravésdediversasverificações.Emalguns

casos pode‐se utilizar de um recurso semi‐automático, abordado na Seção 2.4.3.2.

Outroscasosrequeremaleituracomparativadotexto,umatarefaexaustiva,abordada

naSeção2.4.3.3,página38.

Page 52: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

35

Uma situação crítica ocorre, às vezes, quando o reconhecimento gera palavras que

apesardesintaticamentecorretas,sãodiferentesdasoriginalmenteutilizadasnotexto.

Este problema específico se não for detectado pode gerar confusões, devido à

possibilidade de mudança da semântica do texto. Outras características inerentes ao

texto impresso não reconhecidas pelo OCR devem ter tratamento especial e são

tratadasnopassoseguinte.

3. Preparação do texto: deve ser responsável por eliminar a inclusão de caracteres de

formataçãopelossoftwaresOCReautilizaçãodahifenização.

Oprimeirocasocaracteriza‐seprincipalmentepelainclusãodemarcasdeparágrafo“¶”

ao final de linhas [36] sem corresponder ao final do parágrafo propriamente dito. O

segundocaso,ahifenização, correspondeà separaçãode sílabas comumenteutilizada

nostextosimpressos.

Acorreçãonestescasospodeserexecutadamanualmenteutilizandoumprocessadorde

texto em um processo repetitivo de procura e troca de caracteres. Um outromeio é

através da aplicação de filtros, consistindo de processos automáticos para tal

tratamento.

2.4.2.3 Método3–TextonoFormatoDigital

Estemétododeaquisiçãoevitaanecessidadedeaquisiçãodainformação.Entretanto,este

sóépossíveldeserexecutadoquandootextojáestádisponíveldigitalmente,devidoauma

aquisiçãoanterior.

Apossibilidadedeainformaçãoserdisponibilizadajánoformatodigitaledeacordocomo

formato de entrada do processo de conversão seria a situação ideal para a aquisição de

dados. Elimina a necessidade da realização dos métodos anteriormente mencionados,

reduzindo assim, a duração desta etapa ao longo do tempo. Em contrapartida, exige do

Page 53: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

36

profissionaloudaequipetrabalhandocoma informação,apesquisadaexistênciaounão

destesdocumentosnoformatodigital.Etambémdadisponibilidadedestes,principalmente

devidoaosdireitosautoraisedereproduçãodomaterial.

Apesar da vantagem temporal em relação aos outros métodos de aquisição de texto, o

textodigitalizadopodetambémapresentaralgumasdificuldades,dependendodoformato

no qual o texto está armazenado [33]. Exige muitas vezes, um filtro conversor para o

formatodeentradadoprocessodeconversão.

Oprocessode conversão ideal deveria eliminar anecessidadedaaplicaçãode tais filtros

aceitando diversos formatos de arquivo como entrada. No entanto, para isto seria

necessáriaaincorporaçãodediversosdessesconversoresdeformatosderepresentaçãode

texto.Fatosemelhanteocorreatualmentecomdiversospacotesdesoftware,emespecial

comosprocessadoresdetexto.Comosurgimentodeumamultiplicidadedeformatosde

representação, os processadores de texto passaram a incorporar tais conversores. A

inconveniência desta abordagem é que há uma multiplicidade de formatos para serem

incorporadosqueexigemtrabalhoextraeacabampor“engordar”osoftware.

Em virtude disso, no processo de conversão, tais conversores serão mantidos externos.

Assim,nocasodotextoeletrônicoestararmazenadoemumformatonãoreconhecidopelo

processodeconversão,énecessáriaaaplicaçãodeumdestesconversores.

Concluindo, para que o processo de conversão possa ser executado com sucesso é

necessário que a fasede aquisiçãodedados, principalmentenas etapasqueenvolvema

produçãodearquivosobtenharesultadosdealtaqualidade.Dificuldadesnestaetapasão

inevitáveis, independentemente do método selecionado. O processo de conversão será

beneficiadocommelhoriadastecnologiasenvolvidasnestaetapa.

Page 54: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

37

2.4.3 PreparaçãodoTexto

A preparação do texto é um dos passos abordados na Seção 2.4.2.2. Aqui este tópico é

analisadomaisprofundamentedevidoàsuagrande influêncianaqualidadedosdadosde

entrada.

Apreparaçãodotextoéresponsávelportransformarotextodeentradanotextovalidado,

formatoadequadoparaaentradanasetapasdesegmentaçãoesubseqüentes.Consistede

váriasverificações,eexigeaparticipaçãodeumapessoanacoordenaçãodasetapasena

tomadadedecisão,jáquenemtodasasetapasprecisamsernecessariamenteexecutadas.

Adecisão,nestecaso,ficanadependênciadaqualidadedotextodeentrada.

2.4.3.1 VerificaçãoOrtográfica

Executadacomoauxíliodeumprocessadorde textos,omaior requisitoéapresençade

verificadoresdeortografiaparaa línguaportuguesadoBrasil.Entreosqueatendematal

quesito,estãooMicrosoftWordeoRedatordaItautec/Philco[42].Opapeldaverificação

ortográficaé corrigir errosprovenientesdaaquisiçãode texto. Éde importânciaespecial

quandoaaquisiçãoéfeitapordigitaçãodotexto.Nestecaso,averificaçãoortográficapode

atuaremparaleloàdigitaçãodo texto,marcandopalavras incorretase,emcertos casos,

corrigindo‐asdemodoautomático.

Vale mencionar que a presença de um verificador gramatical também pode auxiliar a

manteraqualidadedotexto.Talcaracterísticavemsendoincorporadaàsúltimasversões

dosprocessadoresdetexto.Umexemploéotrabalhopioneirodedesenvolvimentodeum

corretor gramatical para a língua portuguesa que está presente no Redator da

Itautec/Philco que emprega tecnologia desenvolvida no Departamento de Física e

Informática(DFI)enoInstitutodeCiênciasMatemáticasdeSãoCarlos(ICMSC)daUSP[42].

Page 55: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

38

2.4.3.2 Verificação“Inteligente”

Algunserroscomunsdaaquisiçãodetexto,normalmentedecorrentesdadigitalização,nem

sempresãodetectadosatravésdaverificaçãoortográficapornãosetrataremdeerrosde

grafia de palavras. São erros ocorridos devido à incapacidade de reconhecer certos

símbolos. No entanto, por serem erros recorrentes podem ser corrigidos através da

observação e correção automática. Esta correção automática pode ser feita utilizando o

recursodeprocuraetrocadequalquereditordetextos.Emalgunsexemplosobservados

duranteaaquisiçãodenormas,apartirdaaplicaçãodométododedigitalização,ocorrea

trocadeseqüênciasdecaracterescomo18:

Apresençade“920”ou“92O”emde“§2º”;de“Art.lo”emde“Art.1º”;de“Art.

11”nolugarde“Art.11”;ede“~”nolugarde“§”.

2.4.3.3 VerificaçãoVisual

Averificaçãovisualéoúltimorecursoparaaverificaçãodotexto.Emse tratandodeum

grande conjunto de textos, e de volume crescente, nem sempre esta é possível. A

vantagem é que o texto não precisa ser lido com atenção. Às vezes, através de uma

observação crítica da diagramação do texto é possível identificar falhas que passaram

despercebidas nas verificações anteriores. Em casos extremos, a releitura do texto,

acompanhadadaedição,deveserfeitaparaqueotextoatinjaaqualidadedesejada.

2.4.4 AplicaçãodaConversãoAutomática

A aplicação da conversão automática é a etapa na qual o processo de conversão entra

finalmente em ação. Antes da realização desta etapa o texto ainda semantém como foi

concebido, em seu formato seqüencial, como um bloco monolítico. Ao se aplicar a

18Osexemplossãosomenteilustrativos,enãotêmnenhumarelaçãocomafreqüênciadeerrosnotexto.

Page 56: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

39

conversão automática, o resultado será o documento segmentado, com as ligações

estabelecidas,jácomoumhipertexto.

Paraqueotextopossaserconvertidoautomaticamenteemhipertextoénecessárioqueo

processo de conversão identifique elementos básicos e explore as relações entre estes.

Algumasdessasrelaçõespodemseridentificadastendocomobaseaocorrênciadepalavras

chaves,aestruturaçãoimplícitadodocumentoeaformataçãodeparágrafos.Relaçõesque

devemserexploradassão:

• Relações Estruturais:Umavez identificadas, permitemverificar a estruturaçãodo

documento, sua hierarquia implícita. Por exemplo, em um documento com uma

estruturahierárquica,otextopodeestardivididoempartes,aspartesemseções,e

as seçõesemsub‐seções.As relaçõesestruturaismantêmas característicasdesta

estrutura também no hipertexto, fornecendo hiper‐elos entre os segmentos ou

nós.Estescasossãocaracterizadospelasrelaçõesentreatabeladeconteúdoeas

seções,eentreestaseseussubcomponentescomoparágrafoseitens.

• Relações Explícitas: Podem ser identificadas como relações inter‐textuais, ou

relações internas, caracterizadas por relações entre o texto e as referências

bibliográficasecitaçõesfeitasaoutraspartesdotexto,comoporexemplo,afrase

“vejaaseçãoX”;

• Relações Implícitas: Normalmente caracterizadas por relações determinadas de

acordocomoassuntodoqualo texto trata.Por se tratardeumaáreaquedeve

explorarosignificadodasexpressõesenvolvidas,édastrês,otipoderelaçãomais

complexodeserexplorado.

Page 57: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

40

Estaetapaconsistebasicamentededuasetapasquefazem:asegmentaçãododocumento

eoutraquerealizaaassociaçãoentresegmentosouainferênciadelinks19.

Asegmentaçãododocumentoé feitaatravésda identificaçãodeelementossignificativos

dodocumento.Tipicamenteostextospossuemvárioselementoscomoparágrafos,seções,

subseções,capítulos,índices,listasetabelas.Desseselementos,osestruturaissãoaqueles

queformamaestruturabásicadotextoedefinemrelaçõesdepertinênciaentreosoutros

elementos. O reconhecimento destes elementos é de fundamental importância para a

realizaçãodaconversãoautomática.Suarealizaçãoestáfortementevinculadaàutilização

dasanálisesléxicaesintática.

Jáaetapadeinferênciade linksexigetécnicasespecíficas,voltadasparacadadomíniode

aplicação,analisandoaformacomoéestruturadaacitação.

2.4.5 CodificaçãoemLinguagemEspecífica

Esta etapa utiliza os resultados da aplicação da conversão automática para gerar uma

versão do hipertexto que possa ser utilizada pelos usuários finais. Para o processo de

conversão esta etapa realiza tarefa análoga aos exportadores para diferentes formatos

freqüentementepresentesempacotesdesoftware.Resumidamente,atarefadaetapade

codificação é interpretar a informação no formato interno ao processo de conversão e

gerarumasaídacodificadadeacordocomasregrasdalinguagemescolhida.

19Asassociaçõesserãoreferidasaolongodestetextocomolinks,utilizandoassim,apalavraoriginaleminglês.

Page 58: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

41

2.5 TrabalhosRelacionados

Trêstrabalhosnaáreadeconversãoautomáticaemespecialpossuemestreitarelaçãocom

oprocessoaquiproposto.

OsistemaJustus[44]éumsistemaderecuperaçãodeinformaçãodehipertexto20quetem

enfoque para o uso de documentos legais em uma base de dados para hipertexto.

Complementa um sistema de hipertexto usado largamente na Inglaterra, chamado Lexis,

emváriosaspectos: forneceuma interfacegráficade fácil utilizaçãopelosusuáriosalvos,

que sãona suamaioria advogadose implementadiversasnovas relações entreosdados

nãoexploradasnosistemaLexispermitindoacessomaisfácilaosdados.Foiimplementado

utilizandoosistemadehipertextoGuidetendocomobaseoshiperdocumentosdosistema

Lexis.

OsistemaLexisarmazenaotextocompletodedocumentosconsideradosprimários:casose

estatutos. A recuperação da informação neste sistema é através do uso de pesquisa

booleanaportermos‐chaveemcamposespecíficos,sendoportanto,limitada.

Wilson[44]sugerequerelaçõesexplícitasnormalmentepossuemalgumtipode“marcador

semântico”,palavras‐chavequeajudamna identificaçãodestase confirmaanecessidade

deumprocessodeestabelecimentoautomáticodestas relações.Para tal, trabalhacomo

reconhecimentodepadrões.Quandopossuemomesmosignificadoumpadrãoémapeado

paraonóadequado.Trata‐sedeummecanismodisponívelnosistemaGuidechamadode

aliasing.

Um aspecto importante do sistema Justus é que as relações descobertas são marcadas

como “links potencialmente ativos”. Este conceito de “potencialmente ativo” foi criado

porquenão sepodegarantirqueodocumentoounó referidopelo linkestápresentena

20Traduçãodooriginal:hypertextinformationretrievalsystem.

Page 59: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

42

basededadosdehiperdocumentos.Atravésdesteconceitoépossíveldefinirqueaçõeso

sistema deve tomar no caso de links potencialmente ativos não resultarem em links

efetivos,evitandoafrustraçãodousuárioaotentarsegui‐lo.

Bernstein propõe um sistema “aprendiz” que descobre links entre hipertextos [6] com

enfoque aos links de conteúdo – links que exploram as relações implícitas. O trabalho é

voltadoparatextosqueserãointencionalmentelidosenãoconsultados.Enfocahipertextos

queabordamumúnicoassunto,incluindomonografiaselivrostexto.O“aprendiz”procura

extrair links quenão sãodescobertosviamétodos tradicionaisdeanálise léxica,masnão

trata os links derivados de relações estruturais. O aprendiz é um sistema definido por

Bernsteincomo“umassistentecomputacionaltrabalhandosobreasupervisãoimediatade

um especialista em sistemas hipertexto, ao invés de um agente autônomo trabalhando

independentemente”.

James Allan [2] trabalha com processos automáticos para tentar determinar o tipo de

relações entre dois documentos ou trechos de um documento. Este trabalho lida com

coleçõesarbitráriasdedocumentoseautomaticamentedetectalinkssemaintervençãodo

usuário.Paraestabeleceroslinkséfeitaumaanálisedasimilaridadeentredocumentosou

trechos de documentos. Esta análise é baseada em um modelo chamado vector space

model [37]. Consultas e documentos são representados em termos de vetores, que são

pares de conceitos e pesos não‐negativos. A conversão para estes vetores permite a

comparação e a determinação de um nível de similaridade entre os documentos

comparados. Existe um nível mínimo para que os documentos sejam considerados

relacionados e, então, o link pode ser automaticamente estabelecido entre as partes.

Utilizadaáreadeanálisedediscursoparadeterminarquetiposde linkssãoúteisemum

hipertexto. Este trabalho é particularmente importante para determinar as chamadas

relações implícitasentrecoleçõesdedocumentos.Estabelece relaçõesentredocumentos

Page 60: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

43

baseadas em suas afinidades por assunto. Trata‐se de um trabalho que vem a

complementaraatuaçãodesteprojeto.

Page 61: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

44

3 OPROCESSODECONVERSÃOAUTOMÁTICA

Este capítulo explora o processo de conversão, que abrange as etapas de aplicação da

conversãoautomáticaecodificaçãoemlinguagemespecífica,conformeoespecificadono

Capítulo1.

Uma descrição geral do processo é apresentada na Seção 3.2. As fases de aquisição de

texto e de preparação do texto foram abordadas no Capítulo 2 e são consideradas as

preliminaresdoprocessodeconversão.Otextovalidadoresultantedestas fasesdeveser

colocadonoformatodeentradadoprocessodeconversãoparaquepossaserprocessado.

EsseformatoédiscutidonaSeção3.3.

Oprocessodeconversão,contribuiçãodesse trabalho, foidesenvolvidoparaseraplicado

emtextoscomestruturaçãohierárquica.EstesestãodefinidosnaSeção3.1aseguir.

Page 62: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

45

3.1 TextosEstruturados

Oprocessode conversãoproposto se aplica a textos estruturados.A estrutura de textos

adotadae interpretadanesteprocessodeconversãoéaestruturahierárquicaemárvore,

conforme ilustra a Figura 3. Esta estrutura foi escolhida por ser muito comum em

documentostécnicos,normasemanuaisdeinstruçãoemgeral.Assim,odocumentopara

serconvertidoporesteprocessodeconversão,devepossuirestruturainternahierárquica

emárvore.

Figura3Estruturahierárquicaemárvore

Aestruturahierárquicaemárvoreconsideraquetododocumentopossuiumcabeçalhoou

títuloquemarcaseuinício.Ocabeçalhoéosegmentoinicial,tambémchamadoderaizdo

documento,éonível0.Éapartirdelequesegmentosdeoutrosníveissãoestruturados.

Outrasrestriçõesestruturaisaplicáveisatodosossegmentosdodocumentosão:

• umsegmentopossuisomenteumsegmentopai;

• umsegmentodenívelisópodecontersegmentosdenívelhierárquicomaiorquei.

Deacordocomoconjuntodedocumentosoutrasrestriçõespodemseraplicadas.

Page 63: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

46

Oníveldehierarquiamáximonédeterminadodeacordocomcadatipodedocumentoede

acordocomoníveldegranularidadedesegmentaçãoquesedesejaatingir.Porexemplo,

emumconjuntodedocumentosnoqualagranularidadeatingeoníveldeblocosdetexto,

onívelmáximopodeserestabelecidocomon=4,onde:

Nível0 TítuloouCabeçalho

Nível1 Capítulo

Nível2 Seção

Nível3 Sub‐Seção

Nível4 BlocosdeTexto

AestruturahierárquicaparaesteexemploéilustradanaFigura4.

A escolha do nível de granularidademáximo tem implicações diretas na composição dos

níveis antecedentes. Continuando com o exemplo acima, e definindo a granularidade ao

nível de palavras, os níveis superiores também seriam segmentados em palavras e

definidoscomoumacomposiçãodestas.

Page 64: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

47

Figura4Exemplodeumaestruturahierárquicadenível4

Devido a essas implicações é adequado procurar um nível de granularidade que evite a

segmentaçãoexcessivadodocumentoequenãogeresegmentosdegranularidademuito

grande.Segmentosmuitopequenoscorremoriscodeserinsignificantesdopontodevista

sintáticoesemântico,esegmentosmuitograndes limitamoacessoaestruturasmenores

internas.Agranularidadeadotadanasegmentaçãotambéminfluencianoreconhecimento

eestabelecimentodasrelaçõesexplícitasdodocumento.

Considerandoessasafirmações,oprocessodeconversãopropostoadotaagranularidade

no nível de parágrafos de texto. Isto porque parágrafos de texto normalmente contêm

sentenças sintaticamente corretas dentro da língua portuguesa e correspondem ao

segmento mínimo citável namaioria dos documentos estruturados. Ou seja, as citações

entre documentos normalmente citam segmentos do nível de parágrafos ou superior.

Dificilmenteseencontramcitaçõesmaisespecíficasquecheguemasereferir,porexemplo,

umconjuntodetermosoupalavrasisoladasdotexto.

Page 65: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

48

3.2 DescriçãoGeraldoProcesso

Partindo do documento no formato de entrada, o processo de conversão consiste em

realizar uma etapa para a segmentação do documento, seguida de uma etapa para a

hierarquizaçãodossegmentos.

Nasegmentaçãoodocumentodeixadeserumblocodetextomonolíticoepassaaserum

conjuntodesegmentos.Essaetapafoielaboradaparasebasearemumadefiniçãoformal

dainformação.Apartirdestadefiniçãoformalsãoconstruídasregrasespecíficasdeanálise

dotextoqueaplicadasàinformaçãoidentificamosdiversossegmentos.

Nahierarquizaçãosãoexploradasasrelaçõesestruturaisentreossegmentos,recompondo

a estrutura na forma de relacionamentos entre os dados. Nessa etapa, um modelo de

dados para a informação deve ser utilizado para determinar a estrutura das tabelas e

fornecerarmazenamentoadequadodosdados.

Apósestasduasetapas,inicia‐seainferênciadelinks,queexploraasrelaçõesexplícitasou

ascitações presentesnos segmentos.A inferênciade links consistede três sub‐etapas: a

extraçãodascitações,a identificaçãoouendereçamentodascitaçõeseoestabelecimento

dos links, etapas a serem exploradas em detalhe nas Seções 3.6.1, 3.6.2 e 3.6.3. Para

realizarestastarefas,ainferênciade linksutilizaumadefiniçãoformaldascitaçõesparao

tipo de informação sendo convertida. A definição formal para as citações é utilizada na

criaçãodasregrasparaextraçãoeestabelecimentodelinks.

A etapa final do processo de conversão, a construção do hipertexto, é realizada fazendo

consultas aos dados gerados pelas etapas anteriores. Nesta etapa são explorados os

relacionamentos estruturais identificados durante a segmentação e hierarquização e

armazenadonobancodedados.

Page 66: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

49

3.3 FormatodeEntradadoProcessodeConversão

Paraqueoprocessode conversãopossaprocessar osdocumentos e convertê‐los deum

modo confiável é necessário que todos os documentos estejamnummesmo formato de

entrada. No processo de conversão proposto neste trabalho o formato de entrada é

chamadodepadrãoSTDNORM.

O padrão STDNORM foi definido para incluir informações complementares aos dados a

serem submetidos ao processo de conversão. Esses dados complementares são

importantespararealizarestatísticaseparafornecerinformaçõesparaumbancodedados.

Informam ao processo de conversão por exemplo, a língua, o tipo e a organização

responsável.

Estaseoutras informações são fornecidasatravésdeuma sériedeetiquetasque têmos

seus valores preenchidos de acordo com dados do documento sendo submetido para a

conversão.

AlgumasregrasforamestabelecidasparaopadrãoSTDNORM,eestãoespecificadasabaixo:

• Suporte:otextoestádigitalizado,eoconjuntodecaracteressegueoespecificadopela

ISO8859‐1[23],tambémconhecidacomoISO‐Latin.

• Cabeçalho: O texto deve ser submetido para processamento antecedido por um

cabeçalhopadrão.AsetiquetasdocabeçalhoestãoespecificadasnaTabela1.Dentre

asetiquetasapresentadasaseguir,asexigidasemtododocumentosubmetidoparao

processodeconversãoestãomarcadascomum× naúltimacoluna.Outrasetiquetas

sãoopcionais.

Page 67: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

50

Etiqueta Definição Escopo de Valores BEGIN:STDNORM Marca o início do arquivo de dados. – × NAME: Nome do documento atribuído por quem o

submete. Qualquer seqüência de caracteres.

VER: Versão dos documentos incluídos no formato X.X

De 1.0 a 9.9

VER;LOG: Observações sobre a versão do documento. Qualquer seqüência de caracteres.

VER;DATE: Data da geração da versão do documento. Qualquer data válida LANG: Língua padrão do documento com etiquetas

definidas pela RFC nº 1766 [34]. Para o processo de conversão este valor é fixo para o português do Brasil.

pt-BR ×

INCLUDE;DATE: Data da entrada do documento para processamento, gerada automaticamente pelo processo.

Qualquer data válida.

INCLUDE;RESP; VCARD/INLINE: Pessoa responsável pela submissão do documento. Esta etiqueta possui um modificador que especifica o tipo do valor: INCLUDE;RESP;VCARD ou INCLUDE;RESP;INLINE.

VCARD: cartão de visitas eletrônico especificado pelo padrão versão 2.1 [41] INLINE: nome do responsável por extenso

INCLUDE;SOURCE: Endereço na internet do documento fonte, caso este esteja disponível para download.

Qualquer endereço http ou ftp.

TYPE: Tipo do texto do documento. Somente esses 2 formatos são aceitos.

TXT: texto sem quebras de linha, formato Text-only. ETEXT: texto no padrão Gutenberg, "wrapped" com uma marca de parágrafo ao final de linhas e 2 marcas no final dos parágrafos.

×

ORG;FED;EST;MUN;INST: Organização responsável pela custódia dos documentos. A etiqueta deve ser composta por, no mínimo o modificador FED. Outros modificadores são acrescentados conforme o caso. Para uma instituição não-governamental estadual a etiqueta é: ORG;FED;EST;INST.

FED: sigla no formato INT, para o Brasil, sempre: BR; EST: sigla de um dos estados brasileiros; MUN: nome do município INST[-nomeExt]: sigla da instituição, com opcional para extenso.

×

STDNORM: 1.0 Versão do formato de entrada padrão utilizado no documento, por enquanto, este valor é sempre 1.0.

1.0

START: Marca o início do texto dos documentos. – × <texto do documento> – × END:STDNORM Marca fim do texto dos documentos e fim do

cabeçalho. – ×

Tabela1PadrãoSTDNORM:formatodeentradadedadosnoprocessodeconversão

• MúltiplosTextos:Váriostextosdediversosdocumentospodemsersubmetidostendo

um único cabeçalho. A única restrição conceitual é que todos os documentos

submetidosdevem“seguir”osdadoscontidosnasetiquetasdocabeçalhopadrão.Por

exemplo, esta restrição implica que ao submeter documentos onde a etiqueta

ORG;FED;INSTtemvalorBR;IBAMA,todosostextosincluídosentreasetiquetasSTART

eENDdevemserdecustódiadoIBAMA.

Page 68: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

51

• Grafia das etiquetas: As etiquetas são sempre escritas em letras maiúsculas. A

terminaçãodas etiquetas é feita como caracter dedois pontos “:”. Este serve como

separador entre etiqueta/valor. As exceções desta regra são as etiquetas de início e

fim, respectivamenteBEGIN:STDNORM eEND:STDNORM, inspiradas nas etiquetas do

padrãovCard[41].Ocaracterpontoevírgula“;”éumseparadorentreetiquetaeseus

modificadores.

• Ordem das etiquetas: O padrão STDNORM é iniciado pela etiqueta inicial

BEGIN:STDNORM e termina com a etiqueta final END:STDNORM. A etiqueta START que

marcaoiníciodotextododocumentosendosubmetidoésempreapenúltimaetiqueta

dopadrão,sendoseguidasomentepelotextoepelaetiquetafinal.Asdemaisetiquetas

dopadrãonãopossuemrestriçõesdeordenação,podemapareceremordemaleatória.

As etiquetas apresentadas naTabela 1 acima foramdescritas na ordemque seguem

estasrestriçõesepodeserutilizadacomosugestãodeordenação.

A etiqueta INCLUDE;RESP; com o modificador VCARD (INCLUDE;RESP;VCARD) da

especificação do padrão STDNORM possibilita que um vCard seja incluído quando

referenciando dados pessoais. Esta característica foi incluída visando adaptação às

tendênciasemtrocadeinformação.

OQuadro1aseguirmostraumexemplodeumdocumentoparaentradanoprocessode

conversãoseguindoopadrãoSTDNORM.

Page 69: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

52

BEGIN:STDNORM NAME: Decretos Federais LANG: pt-BR TYPE: ETEXT VER: 1.0 VER;DATE: 11/08/1997 INCLUDE;RESP;INLINE: Alessandra INCLUDE;DATE: 12/08/1997 ORG;FED: BR STDNORM: 1.0 OBS: Texto não passou por correção ortográfica. START: DECRETO N° 66, de 18 DE MARÇO DE 1991 Promulga a Convenção Para a Conservação das Focas Antárticas, concluída em Londres, a 1° de Junho de 1972. O Presidente da República, usando da atribuição que lhe confere o Artigo 84, inciso 4°, da Constituição e Considerando que a Convenção Para a Conservação das Focas Antárticas foi adotada em Londres, a 1° de Junho de 1972, sob a égide dos princípios estabelecidos no Tratado Sobre a Antártica, concluído em Washington, a 1° de dezembro de 1959; Considerando que o Congresso Nacional aprovou a Convenção, por meio do Decreto Legislativo 37, de 26 de Outubro de 1990; Considerando que a Carta de Adesão à Convenção ora promulgada, foi depositada em 11 de fevereiro de 1991; Considerando que a Convenção Para Conservação das Focas Antárticas entrará em vigor, para o Brasil, em 13 de Março de 1991, na forma de seu Artigo 13, Inciso 2; DECRETA: Artigo 1° - A Convenção para a Conservação das Forças Antárticas, apensa por cópia ao presente Decreto, será executada e cumprida tão inteiramente como nela se contém. Artigo 2° - Este Decreto entra em vigor na data de sua publicação. Brasília, 18 de Março de 1991; 170° da Independência e 103° da República. FERNANDO COLLOR Francisco Rezek. END:STDNORM

Quadro1DocumentodeacordocomopadrãoSTDNORM

O padrão STDNORM é uma contribuição deste trabalho que visa facilitar a troca de

informaçõesquandodasubmissãodedocumentosparaoprocessodeconversão.Pretende

também possibilitar contribuições remotas para uma base de documentos quando o

processo for implementado on‐line e com acesso remoto, via a WWW da Internet, por

exemplo.

Page 70: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

53

3.4 Segmentação

A segmentação de um documento tem estreita ligação com a estruturação hierárquica

vinculada ao tipo de documento. É baseada em uma definição formal da estrutura do

documento para definir as regras de reconhecimento dos diversos tipos de segmentos.

Nessa etapa estas regras são aplicadas diretamente na fase de Análise de Parágrafos,

descritanaSeção3.4.2.

3.4.1 PreparaçãodosDocumentosSTDNORM

A fase de preparação dos documentos de entrada para o processo de conversão faz a

leitura dos dados a serem processados, a partir de um arquivo com dados no formato

STDNORM.Estapreparaçãoconsistedaaplicaçãodefiltrosdeacordocomotipodotexto

determinadopelaetiquetaTYPE.

No caso do tipo do documento ser TXT é aplicado um filtro específico para este tipo de

dado, o filtroTXT. Este filtro faz a leitura seqüencial de parágrafos do texto, aplicando o

seguintetratamentoaotexto:

• Eliminalinhasembranco

• Eliminaespaçosemarcasdetabulaçãodoinícioedofimdosparágrafos.

OsegundotipodedocumentoaceitopelopadrãoSTDNORMéchamadoaquidetextono

formatoETEXT,comoumareferênciaaoProjetoGutemberg21.Nesteformato,aslinhasdo

texto estão separadas pela presença de uma quebra de linha, e os parágrafos por duas

quebrasdelinha.Osdocumentosnesseformatopassamporumfiltroespecífico,chamado

filtroETEXT. Este filtro atua de modo similar ao filtroTXT e adicionalmente junta linhas

separadasporquebrasemumúnicoparágrafo.NasintaxedalinguagemCouPerl,elimina

21DuasreferênciassobreoProjetoGutembergsão:http://promo.net/pg/history.htmlehttp://www.etext.org/about.html.

Page 71: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

54

aocorrênciadocaracterdefimdelinha(“\n”)dofinaldaslinhas,emantémsomenteum

caracterdefimdelinha,nofinaldoparágrafo.

Oalgoritmoparaessafasedaconversãoautomáticaéapresentadoaseguir.

sub preparacaoDoc ($arqEntrada) { @docEntrada = Leitura_padrao_STDNORM ($arqEntrada); for $documento (@docEntrada) { $tipo_do_documento = $documento{TYPE}; if ($tipo_do_documento eq "ETEXT") { $documento{TEXTO} = &filtroETEXT($documento{TEXTO}); } elsif ($tipo_do_documento eq "TXT") { # aplica o filtro TXT: só separa os parágrafos $documento{TEXTO} = &filtroTXT($documento{TEXTO}); } else { # este formato ainda não está tratado pelo sistema, ignorar print "Documento foi ignorado: formato não tratado pelo sistema"; } } return @docEntrada; }

Algoritmo1PreparaçãodedocumentopadrãoSTDNORM22

Comoresultadodapreparaçãodosdocumentosestáainformaçãoseparadaemparágrafos

prontaparaumaanáliseidentificandootipodecadaumdeles.

Noprocessodeconversãopropostoofatodeosegmentoseraunidadetextualparágrafo

facilitanestaprimeirasegmentação.Apartirdaaplicaçãodosfiltrosnestapreparaçãojáse

temainformaçãosegmentada,apesardeaindanãotipificada.

3.4.2 AnálisedeParágrafos

Énestafasequeadescriçãoformaldaestruturadodocumentopassaaseressencial.Estaé

utilizada na identificação do tipo do documento sendo convertido e na análise do

segmento.

Adefiniçãoformalparaaestruturaçãododocumentodeveconterpelomenosumaregra

inicial para identificar o cabeçalhoquemarcao iníciododocumentodentrodo conjunto

sendo analisado. Por exemplo, submetendo‐se um documento no padrão STDNORM,

Page 72: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

55

contendoostextosdetrêsmanuaisdeoperação,estaregradeiníciododocumentofaza

identificaçãodo segmentoquemarcao iníciode cadadocumento, ou a raiz de cadaum

deles,conformeilustraaFigura5.

Figura5IdentificaçãodoiníciodedocumentosemumdocumentoSTDNORM

Opasso seguinteéa identificaçãodo tipododocumento.A tipificaçãodedocumentosé

inerenteaoconjuntoaoqualodocumentopertence.Porexemplo,dentrodoconjuntode

normasestatutáriasjurídicasosdocumentospodemsertipificadosemcategoriascomoLei,

Decreto e Portaria. A identificação do tipo do documento é feita quando é detectado o

iníciodeumnovodocumento.

Assimaetapadasegmentaçãoconsistedosseguintespassos:

1. FazerapreparaçãododocumentonopadrãoSTDNORM

2. Definiroreconhecimentodoiníciodedocumentosdentrodeumblocodetexto,a

partirdaregrainicialdadefiniçãoformaldaestruturadodocumento.

3. Determinarotipodecadadocumentoidentificadonopassoanterior,seoconjunto

dedocumentostivertipificação.

4. Analisarossegmentoscomponentesdodocumento.

OAlgoritmo2aseguirapresentaasegmentaçãodemodoestruturado.

22OsalgoritmosapresentadosnestecapítuloestãoescritosempseudocódigocomasintaxeutilizadanalinguagemPerl[43].

Page 73: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

56

sub segmentacao ($arqSTDNORMS, $arqLog) { @docsSTDNORM = &preparacaoDoc($arqSTDNORMS); foreach $documento (@docsSTDNORM) { next if ($documento{TYPE} ne "TXT" or $documento{TYPE} ne "ETEXT"); # ignora outros tipos de documentos # análise de parágrafos foreach $paragrafo ($documento) { if ( &InicioDeDocumento($paragrafo) ){ # o parágrafo inicia um novo documento @dadosNovoDocumento = &identificaTipoDocumento ($paragrafo); &storeDados (@dadosNovoDocumento, @dadosSegmentados); } else { # o parágrafo é um segmento dentro do documento atual @dadosSegmento = &analisaSegmento ($paragrafo); &storeDados (@dadosSegmentos, @dadosSegmentados); } } } return @dadosSegmentados; }

Algoritmo2EtapadeSegmentaçãonoprocessodeconversão

Aanálisedesegmentoséumasub‐etapadasegmentaçãoparticularmenteimportantepara

documentos que possuem diversos tipos de segmentos. Baseada na definição formal da

estrutura,estaetapaéocernedasegmentação.Utilizaasregrasdadefiniçãoformalpara

construirinstruçõesdeidentificaçãodecadaumdostiposdesegmentos.

Por exemplo, parao conjuntodenormasestatutárias jurídicasbrasileiras alguns tiposde

segmentossão livro,capítulo,artigo, incisoealínea.Meiosdeidentificarestessegmentos

sãodeterminadospelasregrasdadefiniçãoformalesãobaseadosnapresençadeetiquetas

oudepalavrasquesãoconsideradascomochavequandoutilizadasemcontextoadequado.

Exemplificando,novamenteparaoconjuntodenormasestatutárias jurídicas,osegmento

artigoé identificadopelapresençadapalavra“Artigo”seguidadeumnumeralarábicoou

ordinal. Esta seqüência de vocábulos é a etiqueta para o segmento artigo. Quando esta

etiqueta é reconhecida no início de um parágrafo o segmento é reconhecido como tipo

artigo.

Alguns tipos de segmentos podem estar vinculados a uma análise mais elaborada do

contexto no qual estão inseridos. Esta análise é então retomada na hierarquização para

eliminarambigüidades.Noconjuntodenormasestatutáriasjurídicas,casosparticularessão

Page 74: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

57

ossegmentosdotipoapelido,disposiçãoinicialeescoponormativo.Estessegmentosnão

possuemumaetiquetapadrãoedevemseridentificadosatravésdaanálisedeconteúdoe

do contexto. A análise de contexto é feita pela aplicação da regra que determina, por

exemplo,queumapelidoésempreantecedidopelocabeçalhodeumanorma.Nestaetapa

essestiposdesegmentossãomarcadoscomoparágrafosgenéricos.

Oresultadodaetapadesegmentaçãosãoossegmentoscomostipos identificados.Estes

dados devem ser armazenados de acordo comummodelo de dados para o conjunto de

documentossobreoqualaconversãoestásendoaplicada.

Não é propósito deste processo de conversão apresentar restrições com relação à

ferramenta utilizada na implementação. No entanto, sugere‐se que seja utilizada uma

linguagem de programação que dê suporte ao uso de expressões regulares. Estas são

particularmenteúteisnasanálisesexecutadasduranteoprocesso.Entreaslinguagensque

suportamestacaracterísticaestãoPerl[43]eawk[9].

3.5 Hierarquização

Os segmentos gerados na etapa de segmentação possuem seus tipos identificados, mas

estãotodosnummesmonível.Aetapadehierarquizaçãoatribuiníveisparacadatipode

segmento refletindo a estrutura hierárquica do documento. Depois desta atribuição de

níveisépossívelidentificar,paracadasegmento,seusegmentopai,easuaordemdentro

deumconjuntodesegmentosdomesmotipo.

Paraarealizaçãodestaetapaénecessárioquetodosossegmentostenhamseustiposbem

definidos.Paraisto,segmentosquenãoforamidentificadosnaetapaanteriorpassampor

umasegundaanálise,chamadadeverificaçãodetipo,antesdaetapadeatribuiçãodenível

edageraçãodahierarquia.OAlgoritmo3apresentaahierarquizaçãoesuasetapas.

Page 75: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

58

sub hierarquizacao (@dadosSegmentados) { @dadosSegmentados = &verificaTipo (@dadosSegmentados); @dadosSegmentados = &atribuiNivel (@dadosSegmentados); @dadosHierarquizados = &geraHierarquia (@dadosSegmentados); return @dadosHierarquizados; }

Algoritmo3Ahierarquizaçãodesegmentosnoprocessodeconversãoautomática

Aetapadeatribuiçãodenívelutilizaumaescaladeníveisparaostiposdesegmentos.Esta

escala pode ser abstraída a partir da definição formal da estrutura do documento. No

exemploexibidonaFigura4,aescaladeníveisestábemdefinidadeacordocomostipos

desegmentos.

Apósaatribuiçãodenível,ageraçãodehierarquiaéfeitaincluindojuntocomosdadosde

cada segmento duas informações novas: a ordem do segmento dentro do conjunto de

segmentosdemesmoníveleopaidosegmento.Estasinformações,quandoarmazenadas

nobancodedados,funcionamcomoummapeamentodasrelaçõesentreossegmentos.

sub geraHierarquia (@dadosSegmentados) { # A Hierarquia entre os segmentos é determinada através de 2 dados: # a ordem dos segmentos dentro de um grupo de segmentos de um mesmo nível # e o pai do segmento foreach $segmento (@dadosSegmentados) { $segmento{ORDEM} = &achaOrdem ($segmento); } for $segmento (@dadosSegmentados) { $segmento{PAI} = &achaPai($segmento); } }

Algoritmo4Geraçãodehierarquia

Aodeterminaraordemdosegmentodentrodocontextoondeeleapareceépossívelsaber,

por exemplo, qual o n‐ésimo capítulo de um documento. Ou, por exemplo, qual é o 3º

artigodeumadeterminadanorma.

Page 76: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

59

sub achaOrdem ($segmento) { # Acha a ordem do segmento dentro de um grupo de segmentos do mesmo tipo. # Esta ordem deve ser determina a partir da comparação do nível do segmento atual # com o nível dos segmentos que o antecedem. if ($segmento{NIVEL} == 0) { # é início de um novo documento return 0; # a ordem é reiniciada } # enquanto o nível do segmento atual for maior que o nível do segmento anterior # continua procurando segmentos anteriores while ($segmento{NIVEL} > $segmentoAnterior{NIVEL} ) { $segmentoAnterior--; } if ($segmento{NIVEL} < $segmentoAnterior{NIVEL}) { return 1; # segmento atual é o primeiro da lista } if ($segmento{NIVEL} == $segmentoAnterior{NIVEL}) { # segmento atual e o segmento anterior são do mesmo nível, continua a ordem anterior return $segmentoAnterior{ORDEM}+1; # acrescenta 1 na ordem } }

Algoritmo5Atribuiçãodaordemdosegmento

Éatravésdaidentificaçãodopaidosegmentoqueahierarquizaçãoéfinalmenterealizada.

sub achaPai ($segmento) { # Acha o segmento pai do segmento atual. # O pai do segmento é o primeiro segmento que o antecede # e que possui nível hierárquico maior que o nível do segmento if ( $segmento{NIVEL}==0 ) { # É início de um documento, ele é o seu próprio pai return $segmento; } while ($segmento{NIVEL} > $segmentoAnterior{NIVEL}) { # O nível do segmento é maior que o do anterior $segmentoAnterior--; # procura nos segmentos anteriores } if ($segmento{NIVEL} < $segmentoAnterior{NIVEL}) { # Se o segmento anterior é de nível maior, return $segmentoAnterior; # ele é o pai do segmento. } if ($segmento{NIVEL} == $segmentoAnterior{NIVEL}) # Se os segmentos são de mesmo nível, return $segmentoAnterior{PAI}; # eles tem o mesmo pai } }

Algoritmo6Atribuiçãodosegmentopai

3.6 InferênciadeLinks

Diferentemente das etapas de segmentação e hierarquização, a inferência de links não

trabalhacomossegmentos,mascomoconteúdodestes.Estaetapaéamais importante

para alcançar o objetivo final que é a geração do hipertexto. Sem esta etapa, os

documentos estariam segmentados, mas as relações não‐estruturais, ficariam sem

exploração.

Page 77: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

60

Para que os links possam ser estabelecidos automaticamente algumas etapas devem ser

seguidas.Oprimeiropassoéfazeraextraçãodacitação,isolando‐adotextodosegmento.

Emseguidaénecessárioanalisaracitaçãoextraídaeidentificarosegmentosendocitado.

Uma vez identificado o segmento, é necessário verificar se o documento ao qual este

segmentopertencefoiconvertidoeseosegmentoestápresentenabasededados.Devido

aestanecessidadedeconsultardadosdesegmentospertencentesaváriosdocumentos,a

etapa de inferência de links é executada somente após a segmentação de todos os

documentosdesejados,econsultaosdadosdiretamentedabasededados.

3.6.1 ExtraçãodasCitações

Esta etapa é responsável por identificar as relações explícitas entre segmentos de um

mesmo documento ou de documentos diferentes. Conforme descrito no Capítulo 1, as

relaçõesexplícitassãocaracterizadasporreferenciaremoelementocitadodiretamente.

A função da etapa de extração de citações é delimitar a citação dentro do texto do

segmento, para que esta possa ser analisada nas fases subseqüentes. Para exemplificar,

algumas citaçõespresentesnaConstituição Federal estãomarcadasnaFigura6 a seguir,

ilustrandoafunçãodafasedeextraçãodascitações.

Figura6Afunçãodaextraçãodascitações

Page 78: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

61

A extração das citações é baseada em um conjunto de tipos de citação que deve ser

determinadoparacadaconjuntodedocumentossobreoqualsedesejaaplicaraconversão

automática. Este conjunto de tipos de citação é determinado através da análise das

citações presentes nos documentos do conjunto e da definição de categorias para as

palavrassignificativaspresentesnascitações.

Aspalavras significativaspossuemestreita ligação como conjuntodedocumentos sendo

analisado.Devidoàdiversidadenagrafiadepalavraseaousodeabreviações,categoriasde

palavras são utilizadas para o reconhecimento das citações. Uma vez determinadas as

categorias, estas são expressas em tokens. Exemplificando, para as normas estatutárias

jurídicasbrasileiras,algumascategoriaseseustokenssãoapresentadasnaTabela223.

CATEGORIA GRAFIAS SINGULAR PLURAL TOKENcap.;capítulo ⊗ capS

CAPÍTULOcaps.;capítulos ⊗ capPart.;artigo ⊗ artS

ARTIGOarts.;artigos ⊗ artPParágrafo;par.;§ ⊗ parS

PARÁGRAFOParágrafos;pars.;§§ ⊗ parPInciso;item;número;nº ⊗ numS

INCISOIncisos;itens;nos,números ⊗ numP

Tabela2AlgumascategoriaspresentesnascitaçõesemNEJBs

Os tokens sãodeterminadosdeacordocomascategoriasesubstituemasocorrênciasde

palavras de acordo com a grafia estipulada. Para o processo de conversão proposto são

geradosdiferentestokensparaascategoriasquandoaparecemnosingulareplural.

Aoutilizaromecanismodetokens,consegue‐seumaabstraçãona identificaçãodostipos

dascitações.Assimépossívelescreverumtipodecitaçãoutilizandoumaabstração,sema

preocupaçãocomumagrafiaparticulardapalavra.Porexemplo,alguns tiposdecitações

paraasNEJBs,comumaformalizaçãosimplesusandotokens:

Formalização Tipodecitaçãoabrangida

23Ostokensutilizadosnestatabelasãosomenteilustrativos.

Page 79: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

62

artSnumero,parSnumero artigo5º,§1ºnumS/parPnumerodesteartS incisoIIdesteartigo

§2ºdesteartigo

Tabela3Exemplodeformalizaçãodetiposdecitação

Naprática,os tiposde segmentosdevemserdefinidos formalmenteporumconjuntode

regrasdetalhadas.Noprocessodeconversãoproposto,asregrasparaostiposdecitação

sãodefinidasutilizando recursosdaáreadegramáticaspara linguagens formais [21]que

permitem generalizações. Esta formalização é abordada em detalhes noCapítulo 4, que

apresentaadefiniçãoformaldostiposdecitaçãoparaoconjuntodasNEJBs.

Definindooconjuntoderegras formaisparaos tiposdecitação,aextraçãodecitaçõesé

feita utilizandodiversas técnicasda áreade compiladores. Emumprimeiropassoé feito

um parse do texto do segmento trocando as ocorrências de palavras significativas por

tokens.Emseguida,é feitaumaanálise léxicadaseqüênciapresentenotexto (geradano

passoanterior)verificandoseestacorrespondeaalgumadas regras formais.Verificadaa

correspondência, significa que o texto possui uma citação de acordo com as regras

estipuladas. A citação reconhecida é então marcada para que possa ser analisada na

próximafasedainferênciadelinks.Asmarcasutilizadasnoprocessodeconversãoseguem

aestruturadeetiquetasHTMLesão:<cit>parao iníciodacitação,e</cit>marcandoo

fim. A fase seguinte vai procurar por estasmarcações quando for analisar as citações.O

Algoritmo7aseguirapresentaafasedeextraçãodascitaçõesdemodoestruturado.

sub extraiCitacao ( $segmento ) { @TiposCitacao = &InicializaTiposDeCitacao; foreach $tipoCitacao (@TiposCitacao) { # para cada tipo de citação existente $segmento{TOKENS} = &parseTokens($segmento); # faz a substituição por tokens # se encontrou, marca a citação com <cit>..</cit> $segmento{CIT} = &analiseLexica($segmento{TOKENS}, $tipoCitacao); } return $segmento{CIT}; # retorna o segmento com a citação marcada/extraída }

Algoritmo7Extraçãodascitaçõesnaetapadeinferênciadelinks

Page 80: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

63

Como resultado desta fase de extração das citações, o texto dos segmentos é marcado

quandopossuicitaçõesconformedefinidaspelasregrasdetiposdecitação.

3.6.2 EndereçamentodasCitações

Do ponto de vista semântico, a citação é um “endereço”, e assim sendo designa onde

encontrardeterminadoobjeto.Nãosetratadeumendereçofísicoabsoluto,comoousode

termos como “linha” ou “página” designando posição física dentro da obra original. A

citaçãoéumendereçocomdoissignificados:

• Comoendereçorelativoquefazreferênciaaposiçõesdadaspelaestruturaçãodotexto,

taiscomo“item”,“parágrafo”,etc.

• Como um “endereço classificatório”, estabelecendo onde o item se localiza entre os

demais.

Nessetrabalhopropomosfazerumatraduçãodo“endereço”presentenacitaçãodemodo

informalparaumaformanormaldeendereçamento.Nestatraduçãooconceitodenívelde

segmentos émuito importante, porqueuma citação apesar de referenciar segmentosde

váriosníveis,éestruturadasemanticamenteparaindicarosegmentoaoqualserefereem

últimainstância,osegmentodemenornívelnahierarquia.Porexemplo,acitação“artigo

20,parágrafoúnico,daLein°4.771/65”extraídadoDecretonº1.282,serefereemúltima

instância ao parágrafo único, e menciona informações de outros segmentos para

possibilitaralocalizaçãodomesmo.

Assim,umacitaçãopodesereferiramaisdeumsegmentoenestecasoéconsideradauma

citaçãocomposta.Otratamentoparaascitaçõescompostasédividi‐laemváriascitações

unívocas.Aqui,quandosemencionacitação,éumareferênciadiretaàcitaçãounívoca,que

citasempreumúnicosegmento.

Page 81: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

64

Idealmente, qualquer citação feita a um segmento de nível k pode ser traduzida, com

equivalênciadopontodevistasemântico,paraumendereçonanotaçãopropostanaseção

seguinte.

3.6.2.1 FormaNormalparaEndereçamentodeSegmentos

Aformanormalaquipropostaprocurarefletirahierarquiadeumsegmentodentrodeum

textoestruturado.ConsiderandoqueonívelKéoníveldosegmento,oseuendereçona

formanormalédefinidopeloconjuntodetuplas:

{CN,IDN;CN‐1,IDN‐1;…;CK+1,IDK+1;CK,IDK}

Onde:

• CKrepresentaotipoouacategoriadosegmentodenívelK;

• IDKéoidentificadordosegmentodenívelK;

• CK+1representaotipodosegmentoquehospedaCK;

• IDK+1éoidentificadordosegmentodenívelK+1;

• eassimsucessivamente

O limite superior é CN e designa o universo do conjunto em questão. Por exemplo,

“universo das normas brasileiras”, ou algomenos abrangente, por exemplo, “normas do

CONAMA”ouaindaconsiderandoumdocumento,Nserianível0naestruturahierárquica.

Aplicandoaformanormalparaascitações,umacitaçãoiniciaemCK,poisoseusignificado

remete a um módulo de granularidade k. Se fosse exigido, por exemplo, que a forma

normal iniciasse sempre por um valor fixo, diga‐se C1, a referência seria sempre feita a

detalhes, aomódulomínimo (módulos de granularidadeK=1), sem a possibilidade de se

referiraumsegmentodemaiornívelnahierarquia(módulosdegranularidadeK>1),oque

nãorepresentafielmenteasemânticadacitação.

Page 82: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

65

A escolha dos valores para os limites inferior e superior (K e N) é que determina a

hierarquia implícita na citação. Entretanto, esta estrutura hierárquica adotada (as

correspondências para os valores de CK) e a escolha do limite superior da estrutura

hierárquica(ovalorparaCN)sãodecisõesquedevemsertomadasapriori.Aescolhadeve

ser direcionada para refletir a hierarquia existente no tipo de documento em questão e

assim, garantir a preservação da semântica da citação. Por exemplo, com relação ao

conjunto de NEJBs, poderia adotar‐se: K=4 para alíneas, K=3 para itens, K=2 para

parágrafos,K=1paraartigos,eassimpordiante.

As regras para a forma normal de endereçamento – valores para CN e CK – devem ser

selecionadasdemodoamelhorcumprirasconvençõesderedaçãooucomaestruturação

doconjuntodedocumentosemquestão.

NaaplicaçãodiretadaformanormaldeendereçamentoaTabela4mostraalgunsexemplos

deendereçamentodesegmentosedetraduçãodecitaçõesparaasNEJBs.

Hospedeiro Forma Normal Citação24 Forma Normal Escopo Normativo do Decreto nº 3.079

{D,3079;EN} “O PRESIDENTE DA REPÚBLICA, usando da atribuição que lhe confere o Artigo 74, Letra "a" da Constituição,”

{CF;T,4;C,1;S,9;A,74;AL,1}

Inciso VI, artigo 1º do Decreto nº 3.079

{D,3079;A,1; IR,6}

“Certidão dos documentos referidos na Letra "b", I.”

{D,3079;A,1;IR,1;AL,2}

Artigo 3º, §2º, do Decreto nº 1.752

{D,1752;C,3; A,3;P,2}

“Os especialistas referidos no inciso I serão indicados pelo …”

{D,1752;C,3;A,3;IR,1}

Tabela4Exemplosdeendereçosnaformanormaldeendereçamento

A forma normal de endereçamento é utilizada para gerar o endereço de cada segmento

reconhecido,independentementedeestesercitadoounão.Esteendereçoéútiltambém

na base de dados, funcionando como um campo de identificação‐chave único para cada

segmento.

24Acitaçãoestáemnegrito.Asvizinhançasforammantidasparaexemplificação.

Page 83: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

66

3.6.3 EstabelecimentodeLinks

A etapa de estabelecimento de links vai utilizar os resultados da etapa de extração das

citações juntamente comoconceitodeendereçamentode segmentospara identificaros

segmentoscitadoseestabelecerolink.Estaetapapodeserestruturadaconformemostrao

Algoritmo8aseguir.

sub geraLinks { foreach $segmento ( @dados ) { # para cada segmento foreach $citacao ( &extraiCitacao($segmento) ) { $segmento{CIT} = &analisaLink($segmento, $citacao); $segmento{TEXTO} = &substituiTokens($segmento); # substitui os tokens pelo texto original } } }

Algoritmo8Processodegeraçãodelinks

Afasemaisimportantenestaetapaéaanálisedelinks.Partindodasmarcaçõesfeitaspela

extraçãode links, a fasedeanálisede links vaidecomporacitaçãoemumaestruturade

pares,abordadanaSeção3.6.3.1.Apartirdestaestrutura,estaetapageraoendereçoda

citaçãona formanormal,abordadonaSeção3.6.3.2.Emseuúltimopasso,pesquisapelo

segmentonabasededadoseestabeleceolink.OAlgoritmo9apresentaaanálisedelinks

estruturada.

sub analisaLink ( $segmento, $citacao ) { # Analisa a citacao, e se encontrou o segmento citado estabelece o link. # Caso contrário, estabelece link com uma mensagem. @pares = &compoePar($citacao); @enderecoCitacao = &FormaNormalEndereco(@pares); # gera endereco na Forma Normal &comparaFormaNormal (@enderecoSegmento, @enderecoCitacao); if ( &FindNorma(@enderecoCitacao) ) { # se o segmento citado está no banco de dados print "Estabelece LINK com o segmento citado"; # estabelece o link return &estabeleceLink($segmento, $citacao); } else { print "Estabelece link com mensagem"; $mensagem = "O segmento citado não está no Banco de Dados"; return &estabeleceLink($segmento, $mensagem); } }

Algoritmo9Análiseeestabelecimentodelinks

Page 84: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

67

Casoo segmentoprocuradonãoestejapresentenabasededados, o linké estabelecido

comumamensagempadrão.

3.6.3.1 EstruturadePares

Aestruturadepares éumaestrutura intermediária entre a citaçãoe a formanormal de

endereçamento.Écompostaporparesformadospelotipodosegmentoeseuidentificador

quandopresente.Cadaníveldesegmentomencionadonacitaçãopossuiseupar.

Aestruturadeparessuportacasosnosquaisoidentificadorestáausenteouédeterminado

pela presença de algummodificador. No caso dasNEJBs, osmodificadoresmais comuns

são:deste(a),neste(a),este(a),anterior,único.Modificadorescomoestesserãoanalisados

na traduçãoparaoendereçona formanormale convertidospara identificadores.Alguns

exemplosparaaestruturadeparesestãonoquadroabaixo.

Hospedeiro: {D,1282;EN,2} 1.1 Citação: “Artigo 84, Inciso IV, da Constituição” Pares: [nivel 0] TIPO: Constituição ID: ausente [nivel 8] TIPO: Artigo ID: 84 [nivel 9] TIPO: Inciso ID: IV 1.2 Citação: “Lei n° 4.771, de 15 setembro de 1965” Par: [nivel 0]: TIPO: Lei ID: 4771 Hospedeiro: {L,3017;PT,2;L,4;T,3;C,8;A,1704} 2.1 Citação: “art. 1.679” Pares: [nivel 8] TIPO: Artigo ID: 1679 Hospedeiro: {D,1752;C,3;A,3;P,5} 3.1 Citação: “inciso IV deste artigo” Pares: [nivel 8] TIPO: Artigo ID: modificado-deste [nivel 9] TIPO: Inciso ID: IV Hospedeiro: {D,1282;C,2;A,8;P,2} 4.1 Citação: “parágrafo anterior” Pares: [nivel 9] TIPO: Parágrafo ID: modificado-anterior

Quadro2ExemplosdaestruturadeparesaplicadaàsNEJBs

Aestruturaemparesrespeitaonívelhierárquicodecadapartedacitaçãoeordena‐osde

modoa identificar facilmenteomenornívelnahierarquia (quecorrespondeaoelemento

citado). Esta estruturação é o primeiro passo na interpretação da composição livre das

citaçõesparaumformatoestruturado.

Page 85: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

68

3.6.3.2 GeraçãodoEndereçonaFormaNormal

Conforme mostram os exemplos anteriores, a estrutura de pares incorpora somente os

segmentosexplicitamentepresentesna citação.A traduçãodaestruturadeparesparao

endereçonaformanormaltratadetrêscasosemespecial,abordadosaseguir.

Caso 1 – A citação refere‐se a um documento externo: Quando ocorre esta situação

sempreexisteonível0naestruturadepares,eosdadosdestenívelsãodiferentesdonível

0dohospedeiro.Nestecaso,aestruturadeparesnemsemprerefletetodaahierarquiade

níveisdodocumentocitado.

Por exemplo, a estrutura depares para citação 1.1 noQuadro2 acima contém somente

trêsníveis,correspondendoaosníveismencionados.Colocandoestaestruturadiretamente

naformanormal, tem‐se: {CF;A,84;IR,4}.Noentanto,oendereçonaformanormalparao

segmentomencionadoé{CF;T,4;C,2;S,2;A,84;IR,4}.

Paraatraduçãoparaaformanormalénecessárioprocurarosegmentonabasededados,a

partirdosdadosdisponíveis.Noexemploacima,seriafeitaumapesquisaporumsegmento

dotipo“A”deartigoecomidentificaçãoiguala84.Aoencontrarestesegmentoosdados

faltantesnaformanormalsãocompletadosgerandooendereçocorreto.

Caso 2 – A citação faz referência a um segmento domesmo documento: Nestes casos,

normalmente a referência ao nível 0 está ausente ou, estando presente, refere‐se ao

mesmo documento do hospedeiro. Isto ocorre porque a citação utiliza de seu contexto

abreviando o número de níveis citados. Esta noção de contexto é particularmente

importante.

Ocontextodacitaçãoéderivadodoendereçodosegmentonoqualacitaçãoseencontra.

Assim,onível0dacitaçãoéderivadodiretamentedosegmentoqueahospeda.Acitação

2.1 mostra esta situação. O endereço da citação traduzido diretamente para a forma

Page 86: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

69

normal gera: {A,1674}. O contexto derivado do hospedeiro complementa o endereço

gerando:{L,3017;A,1674}.Oendereçoaindaprecisasercompletadocomosoutrosníveise

procede‐se do mesmomodo que o passo anterior. O artigo 1674 é procurado entre os

segmentos da Lei nº 3.017 e o endereço completo passa a ser:

{L,3017;PT,2;L,4;T,3;C,7;A,1679}.

Caso3–Acitaçãopossuimodificadores:Estecasoéumavariaçãodoanterior.Ocontexto

da citação também é referenciado, mas aparece modificado pela presença dos

modificadoresmencionados.Nestecaso,atraduçãoparaaformanormalexigeumcálculo

adicional sobre os dados do contexto para determinar os identificadores da citação. As

citações3.1e4.1mostramestasituação.

Nacitação3.1ocontextoé{D,1752;C,3;A,3},omodificador“deste”noníveldeartigofaz

com que todo o endereço até o nível de artigo seja herdado pela citação e, assim, o

endereçonaformanormalparaacitaçãopassaaser:{D,1752;C,3;A,3;IR,6}.

Nacitação4.1,ocontextoé{D,1282;C,2;A,8;P,2},omodificador“anterior”nonível9força

uma comparação com o mesmo nível do contexto {P,2}, resultando em {P,1} para o

anterior. A partir da aplicação da intersecção o endereço da citação passa a ser:

{D,1282;C,2;A,8;P,1}.

Oendereçodacitaçãonaformanormaléutilizadocomomecanismodebuscadosegmento

na base de dados. Uma vez encontrado, o link é estabelecido e as informações sobre o

segmentoreferenciadosãoarmazenadasnabasededadosdeacordocomomodeloparao

tipododocumento.

Page 87: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

70

3.7 ConstruçãodoHipertexto

Para a construção do hipertexto são realizadas repetidas consultas nos dados para

recuperar segmentos e seus segmentos filhos. Uma vez recuperados, os dados são

codificadosemuma linguagemespecífica.A restriçãoéquea linguagemescolhida tenha

suporteparaoestabelecimentodelinksentreossegmentos.

Aescolhada linguagemparaacodificaçãodosdados tambémestávinculadaaomeiode

divulgação que se deseja utilizar. Para a divulgação de dados na WWW da Internet é

adequadoqueosdados sejamcodificadosemHTML. JáparaadistribuiçãoemCD‐ROMs

outras alternativas podem ser consideradas. A base de dados resultante do processo de

conversão pode ser utilizada para fornecer diversos tipos de consultas: por assunto, por

ordemcronológicaouportipodedocumento.

Page 88: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

71

4 NORMAS:ANATUREZADAINFORMAÇÃOESEUSUSOS

O conceito de norma abrange um amplo conjunto de idéias. Este capítulo investiga as

normasestatutárias jurídicasbrasileiras,quesãoodomíniodeaplicaçãodo trabalho,em

suas diversas características: a natureza intrínseca a sua composição, seus usos atuais e

tendênciasparaestabelecerdefiniçõesprecisassobreasquaisatuar.Assim,estecapítulo

estádedicadoa:

• Estabelecerumaconceituaçãosobreestedomíniodeaplicação.

• Investigaraestruturaçãoesegmentaçãodeumanorma.

• Apresentar uma definição formal de normas e um modelo de dados para

normas,comoresultadodasinvestigações.

Page 89: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

72

Essa investigação é necessária porque o conjunto que compõe as normas estatutárias

jurídicasbrasileiraséodomíniodeaplicaçãodaferramentaWebifyLawdesenvolvidanesse

trabalho.

4.1 ConceitodeNorma

Normaé“aquiloqueseestabelececomobaseoumedidaparaarealização

ou a avaliação de alguma coisa; princípio, preceito, regra, lei; Modelo,

padrão”25.

4.1.1 TiposdeNormas

Normas estatutárias jurídicas são um conjunto resultante da interseção de outros dois

conjuntos:odenormasestatutáriaseodenormas jurídicas.Normas jurídicas,noâmbito

destetrabalho,sãoresultantesdedecisõesdopoderLegislativoesãonormascujaagência

formuladora26 é o Estado, ou uma subdivisão deste. Além disto, uma norma jurídica

estabelece,implícitaouexplicitamenteumcontrato27entremembrosdacomunidade.

As normas que não estabelecem um contrato são consideradas normas não‐jurídicas.

Encaixam‐senestadefiniçãoasnormasformuladasporcomissõesnão‐governamentais,de

organizaçõespúblicasouprivadas,comoporexemploasnormastécnicasdeorganizações

comoaABNTnoBrasileaISOnomeiointernacional.

25DicionárioAurélio[15].26Aagênciaformuladoraéumaorganização,oupartedeuma,responsávelpeloregistrodosinteressesconsensuaisdeumadadacomunidade,grupo,organizaçãoouconsórciodeorganizaçõesqueadotaanorma.Étambémresponsávelpormanteracustódiadosdocumentosoriginaisdanorma.27Umcontratoéalegitimaçãodeumacordoentrepartes.Numanormajurídica,ocontratoéconhecidocomocontratosocial,ecorrespondeàsregrasquedevemsercumpridasparaaintegraçãonacomunidade.QuandotalcomunidadeenglobatodososmembrosdoEstado,estacomunidadecorrespondeàsociedade.Destemodo,aconstituiçãodeumanaçãoestabeleceasregras–direitosedeveres–dosmembrosdacomunidade,formadaportodososcidadãos.

Page 90: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

73

Normas estatutárias são documentos previstos e determinados por um estatuto. Sua

funçãoé regulamentaro funcionamentodacomunidade regidapor talestatuto.Algumas

propriedadesgerais,queasdistinguemdasnormasnão‐estatutáriassão:

1. Odocumentoégeradocomafinalidadeprincipalderegistrarumanorma.

2. Possuiumaúnicaagênciaformuladoraqueaformulaeatualiza.

3. Sãodocumentos livres de acréscimos não‐relativos à norma.Odocumentona

íntegra consiste no texto da norma. Mesmo quando possui apêndices, estes

tambémsãopartesconstituintesdanorma.

Por fim, as normas estatutárias jurídicas – NEJs, pela aplicação da interseção, são

documentos pertencentes a um estatuto e, com valor de tal, formulados através de

agênciasestataisquedefinemregrasparaosmembrosdoEstadoousubdivisãodeste,de

acordo coma agência formuladora.Assim, umanorma formuladapor ummunicípio tem

comoagênciaformuladoraosórgãosLegislativoouExecutivodomunicípio.Eporprincípio,

se aplica aos membros de tal comunidade, que correspondem aos cidadãos do mesmo

município.

4.1.2 CaracterísticasdeNormas

AoprocurarestabelecercaracterísticasdasNEJBsfoifeitaumapesquisapormeta‐normas28

quedefinissema composiçãoe estruturaçãodenormasdeste conjunto.Noentanto, foi

verificado que essas meta‐normas nunca foram formalizadas. Buscava‐se uma norma

semelhante à NBR 6822 – “Preparo e Apresentação de Normas Brasileiras” – norma da

ABNTquedefineacomposiçãodenormastécnicas.Talnorma,mesmoapresentandocertas

definiçõeserestriçõesparticularesàsnormastécnicas,apresentaumarcabouçoaplicávela

normas gerais. Entretanto, na falta dessa formalização, as características particulares de

Page 91: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

74

textos de normas foram estabelecidas a partir da consulta e observação dos textos de

normasedapesquisaemliteraturaespecializada.

Sobre a redação de normas, duas colocações extraídas da NBR 6822 são de grande

importância:

“Aredaçãodanormatemestilopróprio,lingüisticamentecorreto,sempreocupaçõesliteráriasetantoquantopossíveluniforme.Aqualidadeessencial

éaclarezadotexto,paraevitarinterpretaçõesdiferentes.”

[NBR6822,PrincípiosGerais,seção5.1.1]

“Asprescriçõesdeumanormadevemserredigidasdemaneiraimpessoalesemapreciaçõessubjetivas,…”

[NBR6822,Prescrições,seção5.2.1]

Destas afirmações podemos extrair características básicas para as normas estatutárias

jurídicas:

• Corretude Lingüística: O texto de uma norma passa por verificações lingüísticas e

revisõesantesdeseraprovadoepublicado.

• Uniformidade: Garante que todas as normas seguem as mesmas diretivas e

apresentam‐se uniformes com relação a forma e estilo. Apesar da ausência de

meta‐normas, a uniformidade é garantida pela forte influência que a tradição

representanaredaçãodenormasjurídicas.Estatradiçãofazcomqueaoescreverum

texto de normas procure‐se seguir amesma estruturação hierárquica utilizada nos

textosmaisantigos.

• Clareza: Visando atingir esta característica as frases do texto de uma norma são

preferencialmenteconstruídasemordemdiretaesãocurtas“parafacilitaroperfeito

entendimento”. São empregadas palavras de uso corrente, sentido preciso e

não‐ambíguo geralmente pertencente a um conjunto de vocábulos restrito. Essa

característicagarantequecadapalavrapossuisomenteumúnicosignificadodentro

28Tambémconhecidasnesteâmbitocomonormasdeformatação.

Page 92: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

75

deumanorma.Quandoestaregranãoécumprida,háreferênciaexplícitaaestefato

noprópriotextodanorma29.

• Colocações Diretas: Esta característica reforça a clareza do texto, e facilita o

tratamentoautomatizadoporprocessamentodalinguagemnatural–PLN.

4.1.3 PrincípiosparaoTratamentodasNEJBs

Ascaracterísticasmencionadasna seçãoanteriorpermitem identificar trêsprincípiosque

indicam que o tratamento automatizado de normas é possível. Esses princípios são

discutidosaseguir.

Oconteúdodeumanormaésuficienteparaoentendimentoeinterpretaçãodamesma.

Outrasnormasquepodemestarcitadasduranteotextodeumanorma,assimsãocoma

intençãode fornecer informaçõesextras,cujaausêncianãocomprometeoentendimento

damesma.DeacordocomaNBR6822,omesmopodeseraplicadoàsnotas:

“Asnotasderodapésãodecaráterinformativo,sendoutilizadasparaprestaresclarecimentos,justificativas,deduções,demonstrações,explicações,chamar

atençãoparaalgumaparticularidade,fazerreferênciaaumaprescriçãodeoutraseçãooudeoutranorma,comtalconteúdoqueasuaeliminaçãonãotornea

normaincompleta.”

[NBR6822,Notas,seção4.3.5.1].

Normassãoredigidasemumalinguagemquediferedalinguagemnaturalporterumníveldeambigüidademenorecontrolado.

Umadasjustificativasparaistoéquealinguagemutilizadanaredaçãodenormastemum

estilo próprio, em oposição ao estilo livre ou a ausência de estilo que rege a linguagem

natural. O tratamento automatizado de normas jurídicas é, portanto, um problema de

complexidade computacional e lingüística muito menor que o tratamento de linguagem

natural.

29Porexemplo,noCódigodasÁguas,otermo‘corrente’éutilizadoemreferênciaacorrentesdeáguaeesteéosignificadoúnico,emboraovocábuloemsipossaassumiroutrossignificadosemdiferentescontextos.

Page 93: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

76

Uma norma jurídica está inserida em um contexto de normas maior com relaçõesparticularesentresi.

Este contextomaior é referidona teoriadoDireito comoordenamento jurídico [Bobbio].

Umanormajurídicaapesardeterconteúdosuficienteparaoseuentendimento,nãoexiste

isoladamente. A análise das relações entre normas é importante para um entendimento

maiordatotalidadedesuaaçãodentrododomíniodoDireito.DeacordocomBobbio[7]:

“apalavra‘direito’,entreseusváriossentidos,temtambémode‘ordenamentojurídico’,porexemplonasexpressões‘Direitoromano’,‘Direitocanônico’”

[7],p.19

Outrascaracterísticasdenormassãoprovenientesdasuaestruturaçãoeserãoabordadas

napróximaseção.

4.2 EstruturaçãoeSegmentaçãodeumaNorma

Aprincipaljustificativaparaointeressenotratamentoautomatizadodenorma,entretanto,

não são as características apresentadas na Seção 4.1.3. O atrativo principal decorre da

constataçãodequehipertextossãoumaformanaturaleeficienteparaarepresentaçãoe

uso de normas. Essa constatação advém do fato que normas são textos altamente

estruturados. A exploração dessa estrutura permite a construção automatizada de

hipertexto.

Há quatro elementos básicos na estruturação de normas: sub‐divisão do texto, estrutura

hierárquica,correlaçãoentreasestruturassemânticaseexplícita,esegmentação.

O texto de uma norma pode ser sub‐dividido e apresenta uma segmentação internainerenteàsuacomposição.

Com relação a sua estruturação geral, os textos de normas “são em geral modulares,

explicitamentesegmentados” .DeacordocomaNBR6822,talpropriedadeé intrínsecaa

qualquer norma, e independentemente do seu tipo apresentam a estruturação geral a

seguir:

Page 94: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

77

“Independentementedoseutipo,umanormacompreende,nasuaapresentaçãomaiscompleta,de:

a) identificação;b) elementospreliminares;c) textosubdivididoemcapítulos;d) elementoscomplementares.”

[NBR6822,EstruturadasNormas,seção4]

Estacitaçãovemreforçaroutroaspectonaestruturaçãodenormasqueéasegmentação

interna,particularmenteatravésdoitemc.Emboraaexperimentaçãomostrequediversas

normas empregam divisão em outras variantes além de simplesmente capítulos30, tal

constatação não torna seu propósito falso, mas em contrapartida, vem reforçá‐lo. Por

exemplo, no conjunto de normas estatutárias jurídicas é comum a presença de seções

comoparte,livro,títuloecapítulo.

Aestruturatípicadeumanormaestatutáriajurídicaéaestruturahierárquica.

Asubdivisãodotextomencionadaacimanãodefineumaestruturaespecífica,quepoderia

ter a forma de um grafo sem restrições ou assumir uma estruturamais formal, como a

estrutura na forma de árvore. A observação de textos de normas permite notar que os

mesmos são normalmente segmentados de modo a manter uma estrutura interna

hierárquica,conformedefineaNBR6822:

“Otextocontémasprescriçõesdanormaeapresenta‐sesubdividoemseçõeseeventualmente,alíneasesubalíneas,incluindotambém,figuras,tabelas,notase

anexos.”

[NBR6822,EstruturadoTexto,seção4.3]

Na composição de normas, para tentar atingir as características de significado claro e

não‐ambígüo, cada elemento explora um assunto único. Quando há necessidade de

mencionar outro assunto, outro elemento é criado com esta função. De acordo com as

relaçõesentreosassuntos,esteselementospassamaoupertenceraumamesmaclasse,

ouumpassaaestarsubordinadoaooutro.Porexemplo,oartigo1ºdoCódigodasÁguas,

Decretonº24.4643,diz:

30 No conjunto de NEJBs , notou‐se também a presença de seções nomeadas como “livro”, “titulo” e “seção”, além dotradicional“capítulo”.

Page 95: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

78

“Aságuaspúblicaspodemserdeusocomumoudomiciliares.”

Estaafirmaçãonecessitadaespecificaçãodoquesãoconsideradaságuasdeusocomum.

Tal informação trata de um assunto derivado deste, e que por ter importância relativa,

passa a ser apresentada no próximo artigo, que vai especificar todos os tipos de águas

comuns.

Em outros casos, a informação complementar pode ser convertida em parágrafos para

aqueleartigooumesmoalíneas.Analogamente,estadivisãoocorretambémparaasseções

esuassub‐seçõesquandooassuntoémaisabrangente.

Porexemplo,ocódigocivilnaParteEspecial,LivroI,oTítuloIédedicadoaocasamentoe

assim intitulado: “Do Casamento”. Com relação a este assunto os vários tópicos estão

divididos em capítulos, nomeando‐os: “Das Formalidades Preliminares”, “Dos

Impedimentos”, “DaOposição dos Impedimentos”, “Da Celebração do Casamento”, “Das

ProvasdoCasamento”,“DoCasamentoNuloeAnulável”,e“DisposiçõesPenais”.Emoutros

casos,adivisãocontinuaaexistirnoscapítulosemseçõesesub‐seções.

Atravésdesteexemplo,ficaclaroqueaestruturaimplícitanotextodeumanormaéuma

estruturaquepartindodeumageneralidaderamifica‐seemváriostópicossobreoassunto

principal,naformadeumaestruturahierárquica.

Normas possuem uma relação direta entre a sua estrutura semântica e sua estruturaexplícita. Tal relação é proporcional à clareza semântica e à não‐ambigüidade de seuselementos.

Adotando‐se a posturadequeumanormapossui umaestruturahierárquica, e que cada

elementotratasomentedeumúnicoassunto,pode‐seconsideraro textodeumanorma

como composto por elementos hierarquizados com significados semânticos distintos.

Através de um mapeamento, é possível identificar uma estrutura que representa a

segmentação semântica do texto. Indo além, este mapeamento corresponde à

segmentação explícita do texto, a suas divisões entre seções, artigos, parágrafos, itens e

Page 96: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

79

alíneas. Através do exemplo anterior, verifica‐se que a segmentação por assunto

correspondeàsegmentaçãohierárquica.

Otextodeumanormaestatutáriajurídicapodeserorganizadoemsegmentos.

A segmentação do texto de uma norma é um caso particular da modularização. Na

segmentação, é aplicado um único critério de modularização sobre todos os módulos

obtendo elementos com ummesmo nível de granularidade, chamados de segmentos. A

segmentação proposta considera a frase como o elemento mínimo de uma norma,

definindo‐ocomoumsegmentodeumanorma.Estadefiniçãoodeterminatambém,como

sendo o elemento mínimo citável31. Tendo como base a estrutura explícita da norma é

possívelsepará‐laemdiversossegmentos,comacertezadequeestespossuemsignificado

semânticoecoesãointerna.

Uma vez queumanormapossui umaestruturação explícita (essencial para a geraçãodo

hipertexto) e que sua segmentação pode realmente ser realizada do ponto de vista

semântico(semdanosparaseusignificado),pararealizartalsegmentaçãoesteprojetovai

seapoiaremumadefiniçãoformaldestaestrutura.Apartirdessadefinição,elementosde

umanormapodemser comparados comoselementosdadefiniçãoe identificados como

segmentos.Comadefiniçãodesegmentos,queéumapropostaoriginaldessetrabalho,é

possível realizar um tratamento formal das NEJBs. A Seção 4.3 a seguir detalha esse

tratamento.

31 O elementomínimo citável é uma definição importante para a identificação das citações presentes nos segmentos denormas, pois corresponde ao menor elemento que pode ser referenciado por uma citação. Essa definição impede, porexemplo,queumalinhaoupalavrasejamreferenciadasemumacitação.

Page 97: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

80

4.3 DefiniçãoFormaldasNEJBs

Para suprir a ausência demeta‐normas para a composição e verificação do conjunto de

NEJBs foi estabelecida esta definição formal através da análise de diversos documentos

pertencentesaesteconjunto.

Adefiniçãoformalpropostautilizadoisrecursosparaespecificaraestruturaçãoexplícitae

asintáticadoconjuntodeNEJBs:

• UmaespecificaçãoderegrasdeproduçãoparaoconjuntodeNEJBs,apresentada

naSeção4.4.

• Umconjuntode regras de validação especificado através dedescrições informais

emlinguagemnaturalexplicitandoalgumasrestriçõesenvolvendoasemânticados

elementos,apresentadasnaSeção4.4.3.

4.3.1 FundamentaçãoTeóricaparaaDefiniçãoFormal

Gramáticas,especificações finitaspara linguagens, resultaramdoestudoparaestabelecer

meios de fornecer descrições estruturais das sentenças. Este estudo foi iniciado por

lingüístaseinicialmentevoltadoparaaslinguagensnaturais[21].Oconceitodegramáticaé

baseadonasseguintesdefinições:

• Símbolosnão‐terminais:Umsímboloquerepresentaumaconstruçãogramaticalque

pode ser expressa através de regras em termos de construções menores [12].

Originalmenterepresentadosentreossímbolos“<”e“>”,aquiestesforamabolidos

parafacilitaraleitura.

• Símbolos terminais: Palavras que pertencem à sentença final. Na definição aqui

adotada estão sempre representados entre aspas duplas “”, tendo seu significado

Page 98: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

81

literal.Otextoéindiferenteparaletrasmaiúsculaseminúsculas32,amenosqueseja

explicitamentemencionadoocontrário.

• ProduçõesouRegrasdeprodução:Sãorelacionamentosexistentesentrevariáveise

símbolosterminais,indicandomeiosdederivarosdiversoscomponentes.

• Símboloinicial:Éosímboloquedáinícioàsregrasdeprodução.Nadefiniçãoformal

paraNEJBsestesímboloéNorma,especificadanaregra1,naSeção4.4.

UmagramáticaéformalmentedefinidacomoumatuplaG(VN,VT,P,S)onde:

• VNrepresentaoconjuntodossímbolosnão‐terminaisouvariáveis;

• VTrepresentaoconjuntodesímbolosterminais;

• Prepresentaasproduçõesouregrasdeprodução;

• Srepresentaosímboloinicial.

Asrestriçõesparaestesconjuntossão:

• OsconjuntosVNeVTnãopossuemelementosemcomum,assim:VN∩VT=∅;

• OconjuntoresultantedauniãodeVNeVTédenotadoporV,assimVN∪VT=V;

• OconjuntodeproduçõesPpossuiregrasdaforma:αβ.Ondeαéumsímbolode

V+eβéumsímbolodeV*.

• OsímboloSésempreumsímbolodeVN.

Aplicando‐se as regras definidas emG, teremos uma linguagem gerada por G, denotada

L(G). Assim, uma seqüência de símbolos pertence a L(G) se a seqüência possui somente

termosterminaisepodeserderivadaapartirdosímboloinicialS[21].

32Noinglês,otextoécaseinsensitive.

Page 99: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

82

Entre os vários tipos de gramática, asGramáticas Livre de Contextooudo Tipo 2 são de

relevânciaparaestetrabalho.NestasgramáticastodaregradeproduçãoemPobedeceàs

seguintesrestrições:

α β ;ondeα éumaúnicavariáveleβ équalquerseqüênciadecaracteres,com

exceçãodaseqüênciavazia∈ .

Aβ ;ficasendoaregradeproduçãodasgramáticaslivredecontexto

Onome livrede contexto derivadestaúltima regradeproduçãoquepermitequeA seja

substituídaporβ independentementedocontextonoqualAaparece.

A forma normal de Chomsky para gramáticas livre de contexto determina que qualquer

linguagemlivredecontextopodesergeradaporumagramáticanaqualtodasasproduções

sãodaforma[21]:

ABCouAa;ondeA,BeCsãovariáveiseaéumtermoterminal.

OconjuntodasregrasdeproduçãoparaasNEJBsseguemestasdefinições.Noentanto,a

notação adotada aqui é a notaçãoBNF estendida, similar à utilizada na RFC nº 822 [35].

AlgumasconstruçõesdaBNFestendidafacilitamoentendimentodasregrasdeproduçãoe

são de grande relevância para este trabalho. Estas são reproduzidas a seguir com

acréscimosparaadequaçãoàsNEJBs.

RegradeComposiçãoderegrasdeprodução:

nomedefinição

Esta regra determina que toda ocorrência de nome é substituída pelos elementos

especificadosemdefinição,ondenomeéumúnicosímbolonão‐terminaledefiniçãopode

serumcompostodesímbolosnão‐terminaiseterminais.Estadefiniçãoestádeacordocom

asespecificaçõesdasregrasdeproduçãoparaumagramáticalivredecontexto[21].

Umexemploderegrasdeproduçãonesteformato:

Page 100: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

83

DataAbrevDia”/”Mes”/”Ano

Dia0‐31

Mes1‐12

Ano1900‐1997

RegradeAlternativa:

regra1/regra2

Abarra“/”representaum“oulógico”,assim“primeiro”/“segundo”especificaquetanto

primeiroquantosegundosãoaceitos.

RegradeAgrupamento:

(regra3regra4)

Elementosemparêntesessãotratadoscomoumaseqüência,comopartesdeummesmo

grupo.Porexemplo:

(“ab”(“c”/”d”)“ef”) permiteasseqüências:“abcef”e“abdef”

RegradeRepetição:

<n>*<m>regra5

onde:

<n>éopcionalerepresentaonúmeromínimodeocorrênciasderegra5.

<m>tambéméopcional,representaonúmeromáximodeocorrênciasderegra5.

Naausênciade<n>e<m>,aregrapermite0ouinfinitasocorrênciasderegra5,permitindo

qualquernúmerodeiterações.

Porexemplo: 1*(“abc”) permiteseqüências:“abc”,“abcabc”,…

2*3(“abc”) permiteseqüências:“abcabc”e“abcabcabc”.

RegraOpcional:

[regra6]

Esta regra determina que o conteúdo entre chaves é opcional, podendo ocorrer ou não.

Trata‐sedeumarepresentaçãode:*1regra6,nomínimozeroenomáximo1ocorrência.

Page 101: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

84

RegradeRepetiçãoEspecífica:

nregra7

Estaregraespecificaumnúmeroexatoderepetiçõesdaregra.Porexemplo:

2(“ab”)3(“c”) permitesomenteaseqüência:“ababccc”.

RegraComentário:

;comentário

Permitequecomentáriossejamcolocadossempreàdireitadeumaregradeprodução.Por

exemplo:

StartItem1/Item2 ;regrainicialdasproduções

4.3.2 AplicaçãoparaoConjuntodasNEJBs

AdefiniçãodeumagramáticaparaoconjuntodasNEJBsexigealgumasdefiniçõesrelação

aoalfabetoutilizadopelagramática.Oalfabetoouvocabulárioéoconjuntodevocábulos

definidospela línguaportuguesa.Esteconjunto,apesardepossuirumgrandenúmerode

elementos,éfinito.

As siglas e abreviaturas devem ser controladas de algum modo. Uma sugestão seria a

criaçãodeumbancodedadosoficial comagrafiacorretaeosignificadoadotado.Outra

solução seria a adoção de umaoumais definições comoumpadrão a ser seguido. Seria

necessária uma custódia de um órgão (governamental ou não) que se responsabilizasse

pelamanutençãoe atualizaçãodesta informação.Hoje, temos conhecimentodediversas

agências nacionais como: CONAMA, IBAMA, entre outras. A existência de um banco de

dadosoficialajudarianaidentificaçãodestasagências,deseusresponsáveiseinclusivedos

seusperíodosdeexistência.

Ossímbolosnão‐terminaisparaagramáticadeNEJBséumconjuntoextensoeestálistado

noglossárioqueencontra‐senoApêndiceA.

Page 102: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

85

4.4 RegrasdeProduçãoparaasNEJBs

Comoumprimeiropassonoestabelecimentodadefiniçãoformalfoidefinidoumconjunto

deregrasqueseaplicamaqualquertextoescritoemportuguêsdoBrasil.NaSeção4.4.2

sãoapresentadasasregrasdeproduçãoparaoconjuntodasNEJBs.

4.4.1 RegrasdeProduçãoparaoPortuguêsdoBrasil

As regras apresentadas na Tabela 5 definem o conjunto de caracteres válidos quando

compondoouanalisandoumtextoemportuguês.Asregrasforambaseadasnovocabulário

definidonoFormulárioOrtográficoaprovadopelaAcademiaBrasileiradeLetrasem1943e

regulamentadopelaLeinº5.765.Acréscimosforamfeitosparaincluir:

• caracteresespeciaisutilizadosnoâmbitodasNEJBs,porexemploosímbolo“§”;

• termosespecíficosdoprocessamentodetexto,comoporexemploocarriagereturn

eolinefeed.

De acordo com a definição aqui adotada, equações, gráficos, tabelas e similares serão

tratados como elementos externos ao texto da norma, e assim sendo, não serão

processadosouverificadosdentrodoescopodestetrabalho.

REGRASDEPRODUÇÃO COMENTÁRIOS

Ctl <caracteresdecontroleASCII,maisoDEL>

Cr <“retornodecarro”doASCII,carriagereturn>

Lf <novalinhadoASCII,linefeed>

CarEsp <espaçodoASCII,space>

Tab <tabhorizontaldoASCII,horizontal‐tab>

Crlf CtlLf

Esp 1*(CarEsp/Tab) ;espaçogenericamente

EspLn EspCrlf ;Espcomnovalinha

Pt “.” ;caracterpontofinal

2p “:” ;caracterdoispontos

Vg “,” ;caractervírgula

Pv “;” ;caracterponto‐e‐vírgula

Hf “‐”/“–”

Br “\”/“/” ;todasasbarras

Figura,tabela, <externos> ;elementosforadoescopo

Page 103: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

86

REGRASDEPRODUÇÃO COMENTÁRIOSequação,... destasregrassão

consideradosexternos

LminOrd “a”/“b”/“c”/“d”/“e”/“f”/“g”/“h”/“i”/“j”/“l”/“m”/“n”/“o”/“p”/“q”/“r”/“s”/“t”/“u”/“v”/“x”/“z”

;letraminúsculabrasileiraordinária,23letras.

LminEsp “ç”/“ü”/“à”/“ã”/“õ”

LminAcent “á”/“é”/“í”/“ó”/“ú”/“â”/“ê”/“î”/“ô”/“û”

LetraMin LminOrd/LminEsp/LminAcent

LmaiOrd “A”/“B”/“C”/“D”/“E”/“F”/“G”/“H”/“I”/“J”/“L”/“M”/“N”/“O”/“P”/“Q”/“R”/“S”/“T”/“U”/“V”/“X”/“Z”

;23letrasdoalfabeto,nãoconsideraacentuação.

LmaiEsp “Ç”/“Ü”/“À”/“Ô/“Õ”

LmaiAcent “Á”/“É”/“Í”/“Ó”/“Ú”/“”/“Ê”/“Ô”/“Ô/“Õ”

LetraMai LmaiOrd/LmaiEsp/LmaiAcent ;qualquerletramaiúscula

LetraEsp LminEsp/LmaiEsp ;qualquerletraespecial

LetraOrd LminOrd/LmaiOrd ;qualquerletraordinária

LetraAcent LminAcent/LmaiAcent ;qualquerletraacentuada

Letra LetraMai/LetraMin/LetraAcent ;qualquerletra

Separador “‐” ;hífen‐ASCII30

PontFinal “.”/“!”/“?”/“:”/“...” ;pontuaçãodefinaldefrase

PontGen “,”/“;”/“–”/PontFinal ;pontuaçãogenérica

PontItem “*”/“§”

Delimit <“>/“[“/“]”/“(“/“)”/“’” ;delimitadoresdetexto

DigArab “0”/“1”/“2”/“3”/“4”/“5”/“6”/“7”/“8”/“9”

DigRom “M”/“D”/“C”/“L”/“X”/“V”/“I” ;dígitosromanos

Número NumArab/NumRom/NumOrd

NumInt (NumInt[pt]3DigArab)/1*3DigArab

NumArab NumInt/NumFrac

NumRom [*M][CM/0*1CD/0*1D3*C][XC/0*1XL/0*1L3*X][IX/0*1IV/0*1V3*I]

NumOrd NumInt(“º“/“°”)

NumFrac NumInt“,”1*2DigArab ;noformato1.123,45

NomeOrd 1*(Letra[Separador/Esp]) ;nomescomcertosignificado

NomeEsp Sigla/1*(Letra[Separador/Esp]) ;nomecomsignificadoespecial

Nome NomeOrd/NomeEsp ;glossariadosounão

Abrev 1*Letra[pt]

Porcent NumArab[Esp]“%”[EspDescr] ;porcentagem

Sigla 1*(Letra/Número) ;qualquerSigla

Cifra Sigla“$”[Esp]NumArab

Palav 1*(Letra[Separador])

Vocab Palav/Nome/Número ;qualquervocábulo

Descr “(“1*Vocab“)” ;descriçãoentreparênteses

Expr (<”>/“’”)1*Vocab(<”>/“’”) ;expressãoentreaspas

Frase 1*(Vocab/Descr/Expr[esp])[PontGen]

ParagGen 1*FraseEspLn

Tabela5Regrasparaadefiniçãodetextobrasileiro,baseadonalínguaportuguesa

Page 104: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

87

4.4.2 RegrasdeProduçãoparaoconjuntodasNEJBs

AsregrasdeproduçãoparaoconjuntodasNEJBssãoapresentadasnaTabela6aseguir.A

notaçãoadotadafoiaBNFqueéumanotaçãoquepermitegerarregrasqueestabelecema

sintática de cada elemento pertencente a um conjunto e além disso, permite definir

restriçõessobreahierarquiaentreesseselementos.

As regras de produção, parte da definição de uma gramática, foram descritas para o

conjuntodasNEJBscomaintençãodeservircomo:

• guianacriaçãoeescritadenovasnormas;

• baseparaaconstruçãodeumprocessodeanálisedasnormaspertencentesaoconjunto

dasNEJBs.

Apreocupaçãoconcentra‐senoaspectoestrutural,hierárquicoemorfológicodasnormas.

Osignificadodoselementosnãopodeserrepresentadoatravésdestadefiniçãoformal.

REGRASDEPRODUÇÃO COMENTÁRIOS

1. Norma (CabeçalhoCorpo) ;regrainicial

2. Vocab Palav/Nome/Número/Termo ;redefiniçãodaregraanterior

3. AbrevN “Nº”/“N.º”/“N.”/“N.°”/“N°.”/“N°” ;variaçõesdenº.

4. PrepDE “de” ;preposiçãoDE

5. DataExt DiaEspPrepDEEspMêsEspPrepDEEspAno ;dataporextenso

6. Dia 1*2DigArab<numeralarábicode1a31> ;nomínimo1DigArab

7. Mês “Janeiro”/“Fevereiro”/“Março”/“Abril”/“Maio”/“Junho”/“Julho”/“Agosto”/“Setembro”/“Outubro”/“Novembro”/“Dezembro”

;semdistinçãoentremaiúsculaseminúsculas

8. Ano 1DigArab[pt]3DigArab ;porex.:1.996ou1987

9. Única “Único”/“Única” ;ex.“CapítuloÚnico”

10. Cabeçalho NormaLabel[Apelido][DispInic][EscopoN] ;normasjurídicas

11. NormaLabel (TipoJurEspAbrevN[Esp]NormaID[Esp][hf/vg][Esp]PrepDEEspDataExtEspLn)/TipoConst

;verdadeiroparatodoscasosobservados.

12. TipoJur “Lei”/“LeiDelegada”/“Decreto”/“Decreto‐Lei”/“EmendaConstitucional”/“MedidaProvisória”/TipoConstGen/TipoJurEsp

;indiferenteparamaiúsculasouminúsculas.

13. TipoJurEsp ((“Portaria”/“Instrução”[“Normativa”])/“Resolução”/“OrdemdeServiço”)Instituição

;tipojurquerequerumainstituiçãoapósdescrição

14. TipoJurGen <quaisqueroutrostiposdenormasjurídicas> ;paraexpansãofutura

15. TipoConst “ConstituiçãodaRepúblicaFederativadoBrasil” ;nãorequernumeração.

16. TipoConstGen <quaisqueroutrostiposdenormasconstitucionais> ;paraexpansãofutura

17. Apelido Descr/FraseEspLn ;qualquertexto

Page 105: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

88

REGRASDEPRODUÇÃO COMENTÁRIOS

18. DispInic Descr/(Frase[pt])EspLn ;disposiçõesiniciais

19. EscopoN Respons[EspLn]Frase[2p]EspLn ;textoereturn

20. Corpo 1*(Seção/Artigo)

21. Seção Livro/Título/Capítulo/SecaoC/SubSec

22. Livro “Livro”SeçãoLabel1*Título ;requernomínimo1Título

23. Título “Título”SeçãoLabel1*(Capítulo/OutraSec/Artigo) ;casocomumrequerCapítulo

24. Capítulo “Capítulo”SeçãoLabel1*(OutraSec/Artigo) ;casocomumpossuirArtigo

25. OutraSec (SeçãoC/SeçãoS)

26. SeçãoC “Seção”SeçãoLabel1*(SubSec/Artigo) ;seçãocomum

27. SubSec “Sub‐Seção”SeçãoLabel1*Artigo ;sub‐seção

28. SeçãoS [“Seção”]SeçãoLabel1*Artigo ;ocorreSeçãosemLabel

29. Componente 1*(Artigo/Parágrafo/ItensNum/ItensLetra/ItensCom/Anexo/DispFin)

30. Artigo ArtigoLabelCaput[Parags/ItensNum/ItensLetra/ItensCom/*Anexo]

31. Caput Frase[pt/2p]EspLn

32. Parags Parag*(EspLnParag)

33. ItensLetra ItemLetra*(pvEspLnItemLetra)pt

34. ItensNum ItemNum*(pvEspLnItemNum)pt

35. ItensCom ItemCom*(pvEspLnItemCom)pt

36. Anexo AnexoLabel<conteúdoexterno> ;referênciaaoarquivo

37. Parag ParagLabelParagGen[ItensNum/ItensLetra/ItensCom/*Anexo]

38. ItemNum ItemNumLabelParagGen[ItensLetra/ItensCom/*Anexo]

39. ItemLetra ItemLetraLabelParagGen[ItensCom/*Anexo]

40. ItemCom ItemComLabelParagGen*Anexo ;itemcomum

41. DispFin [NomeOrdvgDataExt[pv]ParagGen[pt]]*(NomeOrd[EspLn])

;disposiçõesfinais:dataenomes

42. SeçãoLabel [[Esp]SeçãoID[EspLn][hf]]SecTitEspLn

43. ParagLabel ((“§”[Esp]ParagID[“.”][“º”/”°”])/ParagUn)[Esp][hf][Esp]

;§X.ºouparágrafoúnico

44. ArtigoLabel (“Art.”EspArtigoID[.][“º”/”°”][Esp][hf][Esp]) ;apartirdeID10semº.

45. ItemLetraLabel ItemLetraID(“)”/pt) ;porexemplo:a)oua.

46. ItemNumLabel ItemNumID[Esp][hf][Esp]

47. ItemComLabel [1*DigArab] ;podeservazio

48. AnexoLabel [<ahref=>]“Anexo”[AnexoID][</a>] ;HTMLreference

49. NormaID [*3DigArab[pt]]3DigArab ;formato999.999

50. SeçãoID NumRom/Único ;umnúmeroromano

51. ArtigoID 1*DigArab/NumInt ;nomínimo1DigArab

52. ParagID 1*DigArab/NumInt ;semmáximo

53. ItemLetraID LetraMinOrd ;sóumaletra

54. ItemNumID 1*DigArab/NumInt/NumRom

55. AnexoID NumInt/NumRom

56. SecTit Frase ;títulodaseção

57. ParagUn “ParágrafoÚnico” ;diversasgrafias

58. Instituição Palavra*(br/hf/EspPalavra) ;nomínimo1palavra

Page 106: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

89

REGRASDEPRODUÇÃO COMENTÁRIOS

59. Respons 1*(Frase/Instituição)[PontFinalEspLn] ;identificadoporpalavras‐chave

Tabela6Regrasparaadefiniçãoformaldenormasestatutáriasjurídicasbrasileiras33

A partir da definição formal dasNEJBs, esta passa a ser adotada como um mecanismo

formalizador e padronizador das normas deste conjunto. A ferramenta WebifyLaw,

discutidanoCapítulo5,adotaestadefiniçãocomobaseparaasuaimplementação.

Assim,alémdarestriçãoconceitualapresentadanaSeção4.1.1,normassãoconsideradas

parte do conjunto deNEJBs para o escopo deste projeto, se adicionalmente seguem as

regrasqueforamapresentadasnestaseçãoequeserãoapresentadasnaseçãoseguinte.

4.4.3 RegrasdeValidação

As regras de produção apresentadas na seção anterior especificam detalhes da

estruturaçãodecadacomponentedeumanorma.Noentanto,paraqueumanormapossa

servalidada,énecessárioquealgunselementostenhamseusconteúdosverificados.Estes

elementos correspondem àqueles que não possuem uma etiqueta padrão que é o caso

específicodeapelido,disposiçõesiniciaiseescoponormativo.

Estas regras de validação foram levantadas através da análise exaustiva de normas. O

conjunto de regras aqui apresentado tem a intenção de servir como um guia para estas

restrições.Trata‐sedeumconjuntoabertoparaquenovasocorrênciasobservadaspossam

seracrescentadas.Paraoescopodestetrabalhoasregrasdevalidaçãosãoasseguintes:

• Nacategoriadeapelidodefinidapelaregra17,afrasedeveseriniciadapelaspalavras:

“lei”ou“código”paraserreconhecidacomooapelidodanorma.Porexemplo:

- “LeidaIntrodução”

- “CódigoFlorestal”

33 Apesar de não fazer parte da especificação da notação utilizada, as regras foram numeradas para facilitar a futurareferênciaàsmesmas.

Page 107: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

90

- “CódigoCivil”

• Para a categoria de disposições preliminares definida pela regra 18, o conjunto de

palavrasqueiniciamafraseécompostopor:

Acrescenta Cria Estabelece Limita RestabeleceAdota Dá Estatui Mantém RetificaAltera Declara Estende Modifica RevogaAprova Decreta Exclui Permite SimplificaAssegura Define Expede Promulga SuspendeAtribui Determina Extingue Reajusta TornaAutoriza Disciplina Faculta Reconhece TransfereBaixa Dispensa Fixa Regula VedaConcede Dispõe Institui RegulamentaConsolida Eleva Isenta Releva

• Oescoponormativodefinidopelaregra19éidentificadopelaocorrênciadasseguintes

seqüênciasdepalavrasnoiníciodafrase:

Aministra OconselhoApresidenta OdiretorConsiderando OministroDecreta: OpresidenteFaçosaber Ovice‐presidenteHavendo Resolve:Ochefe

Um segmento de uma norma só pode ser identificado como um dos três tipos de

segmentosacimamencionados–apelido,disposiçõespreliminareseescoponormativo–se

asrestriçõesapresentadasforemseguidas.

4.5 RegrasdeProduçãoparaasCitações

Asregrasdeproduçãoparaascitações têmumescopodiferentedas regrasdeprodução

paraNEJBspoisanalisamoconteúdodeumsegmentodenorma.Essasregrasdevemser

aplicadassomenteaossegmentosidentificadoscomodisposiçõesiniciais,escoponormativo

e componente, de acordo comas regras 18, 19 e 29 daTabela 6, respectivamente. Isto

porquesomenteestessegmentospossuemumtextoquepodeconterumacitação.

Page 108: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

91

REGRASDEPRODUÇÃO COMENTÁRIOS

1. ag0 <agênciasnacionais,estaduais…> ;ex:CONAMA,IBGE,IBAMA,IBDF.

2. ag1 “Federal”/“Estadual” ;classedeagência

3. na NumInt<númeroarábicointeiro> ;mapeamentoparaaregranaTabela5.

4. nr NumRom<númeroromano> ;idemàregra3.

5. dm Mês<mêsnocalendáriogregoriano> ;idemàregra3.

6. lt LminOrd ;idemàregra3.

7. apelido “Cód”(“igo”/”.”)”Civil”/“Cód”(“igo”/”.”)“Florestal”/“Leid”(“e”/”a”)“Introdução”/“Cód”(“igo”/”.”)“deProcessoCivil”/“Cód”(“igo”/”.”)“Comercial”

;apelidosdasnormasregistrados(somenteosmaisutilizados).

8. ss0 “Constituição”[“Federal”] ;classe“ss”:substantivonosingular

9. ss1 Apelido/”Decreto”[‐]”Lei”/”Lei”[‐]”Delegada”/”Lei”/”DecretoLegislativo”/”Decreto”[ag1]/”Resolução”[[d(a/o)]ag0]/”Instrução”[”Normativa”]([““/”/”/(“d“(“a“/“o“)““)]ag0)/”Portaria”[”Normativa”]([““/”/”/(“d“(“a“/“o“))]ag0)/OrdemdeServiço([““/”/”/(“d“(“a“/“o“)““)]ag0)/MedidaProvisória

10. ss2 “Cap“(“ítulo“/“.“)/“Seção“/“Título“/“Livro“/“Parte“/“Disposições“

11. ss3 ”Artigo”[“único”]/”Art.”[“único”]

12. ss4 “Parágrafo”/”Par.”/”§”/”Item”/”Inciso”

13. ss5 “Alínea“/“Letra“

14. sp1 “Leis”/”Decretos”/”Portarias”

15. sp2 “Cap”(“ítulos”/”s.”)

;classe“sp”:substantivonoplural

16. sp3 “Art”(“igos”/”s.”) ;art.ouartigos

17. sp4 “Parágrafos“/“§§“/“Itens“/“Incisos“

18. sp5 “Alíneas”/“Letras”

19. sx “Anexo”

20. citação “Presente“ss1

21. citação [ss4““na/nr[“,”][“d(a/o)”]]ss3““na[,]““(“d“/“n“)(“e“/“a“/“o“)ss1(““/”/”)na”,de“na“de“dm“de“na

;iníciodasregrasdecitação

22. citação [ss4““(na/nr)[,][“d“(“a“/“o“)]]ss3““na[,]““(“d“/“n“)(“e“/“a“/“o“)““ss1(““/”/”)na“,de“dmdena

23. citação [ss4““(na/nr)[,][“d“(“a“/“o“)]]ss3na[,]““(“d“/“n“)(“e“/“a“/“o“)““ss1(““/”/”)na“,de“na

24. citação [ss4““(na/nr)[,][“d“(“a“/“o“)]]ss3na[,](“d“/“n“)(“e“/“a“/“o“)ss1(/”/”)na

25. citação [ss4““(na/nr)[,][“d“(“a“/“o“)“”]]ss3na[,](“d“/“n“)(“e“/“a“/“o“)“”(ss0/ss1)

26. citação ss4““(na/nr)[,][“d“(“a“/“o“)““]ss3““na

27. citação ss4““(na/nr)[“deste“ss3]

28. citação ss4[,]“d“(“a“/“o“)““ss3““na[,](“d“/“n“)(“a“/“o“)““ss1(/”/”)na“,de“na“de“dm“de“na

29. citação ss4[,]“d“(“a“/“o“)““ss3““na[,]““(“d“/“n“)(“a“/“o“)ss1(““/”/”)na“,de“dm“de“na

30. citação ss4[,]“d“(“a“/“o“)““ss3““na[,]““(“d“/“n“)(“a“/“o“)ss1(““/”/”)na[“,dena“]

31. citação ss4[,]“d“(“a“/“o“)““ss3““na[,](“d“/“n“)(“a“/“o“)““ss0/ss1

32. citação ss4“”(na/nr)[,]“d“(“a“/“o“)““ss3““na

33. citação ss4““(na/nr)[,][“d“(“a“/“o“)]““ss3“anterior“

34. citação ss4““(na/nr)[“deste“ss3]

35. citação [ss4na“,d“(“a“/“o“)““]ss3““na[,]““(n/d)est(e/a)““ss1[(“”/”/”)na[,]“de“na“de“dm“de“na]

36. citação [ss4““(na/nr)[,]“d“(“a“/“o“)]ss3““na[,]““(n/d)est(e/a)““ss1(““

Page 109: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

92

REGRASDEPRODUÇÃO COMENTÁRIOSna[,]“de“na“de“dm“de“na)

37. citação ss1(““/”/”)na[,][“de“na]“de“dm“de“na[“eseu“sx““nr]

38. citação ss1(““/”/”)na[[,][“de“dm]“de“na]

39. citação sp3““na*(“,“na)“e“na[,]“d“(“a“/“o“)““ss1(““/”/”)na[[,][dena]dedmdena]

40. citação sp3““na*(,na)ena[,]d(a/o)ss1(/”/”)na

41. citação sp3““na*(,na)ena[,](“d“/“n“)“est“(“e“/“a“)““ss1

42. citação ss5““lt“,“[ss4““]nr

43. citação ss3““na,sp5lt*(,lt)eltd[oa]ss1na[,denadedmdena]

44. citação sp5““lt*(,lt)eltdoss3nadass1(/”/”)na[,denadedmdena]

45. citação sp5““lt“a“lt“do“ss3na

46. citação sp5““lt“a“lt“do“ss4“anterior“

47. citação sp5““lt*(“,“lt)“e“lt“do“ss4“anterior“

48. citação ss3““na[,]“domesmo“ss1

49. citação ss3““na[,]““ss5““lt“d“(“a“/“o“)““(ss0/ss1)[(““/”/”)na]

50. citação ss3““na“e“sp4

51. citação ss3““na,““nr

52. citação ss3““na“,“ss4““nr“,d“(“a“/“o“)ss1[(““/”/”)na[“,de“na“de“dm“de“na]]

53. citação ss3““na“,“ss4““(na/nr)[“,d“(“a“/“o“)““(ss0/ss1)]

54. citação ss3na[“;“/“,“]ss4único[,](ss5lt,)?d(a/o)ss1(/”/”)na,denadedmdena

55. citação ss3““na[“;“/“,“]““ss4“único[[,][ss5lt,]“d“(“a“/“o“)““ss1(““/”/”)na]

56. citação ss4“anterior,“sp5lt“a“lt

57. citação (ss3/ss4)“anterior“

58. citação ss4““na[,]“domesmo“ss3

59. citação sp4““na(,na)*“e“na“do“ss3““na(“n“/“d“)“est“(“a/e“)““ss1

60. citação sp4““na(,na)*“e“na“do“ss3““na“d“(“o“/“a“)““ss[01][(“”/”/”)na[“,de“na“de“dm“de“na]]

61. citação ss3““na[,]““sp4““(na/nr)*(“,“(na/nr))“e“(na/nr)[[,]“da“ss0]

62. citação sp4““n(a/r)*(“,“n(a/r))*“e“(na/nr)“dest“(“e“/“a“)““(ss3/ss4)

63. citação sp4““(na/nr)*(,na/nr)“e“(na/nr)d(a/o)s?ss2[doss1(na[,denadedmdena])]

64. citação sp4““(na/nr)*(“,“na/nr)“e“(na/nr)[“do“(ss3/ss4)“na“[“d“(“o“/“a“)““(ss0/ss1)]]

65. citação sp4““nr“a“nr“dest“(“e“/“a“)(ss3/ss4)

66. citação sp4““nr“a“nr[“do“(ss3/ss4)na[d[oa](ss0/ss1)]]

67. citação sp4“anteriores“

68. citação ss2/ss3““na

69. citação ss2““(na/nr)““(“n“/“d“)“est“(“e“/“a“)““(ss1/ss2)

70. citação [\“][Cc]aput[\“]“deste“ss3

71. citação [\“][Cc]aput[\“][“do“ss3““na]

72. citação sx““nr[“d“(“a“/“o“)““ss1(““/”/”)na[“,de“na]]

73. citação sx“aeste“ss1

74. citação [“n“/“d“](“e“/“E“)“st“(“e“/“a“)(ss1/ss2/ss3/ss4)

75. citação “referid”(“o“/“a“)““(ss1/ss2/ss3/ss4)

76. citação sp1““1*(na[,][“de“na“de“dm“de“na])[,]“e“na[“,de“na“de“dm“de“na]

77. citação sp1““na[[,]“de“na“de“dm“de“na][,]ena[,denadedmdena]

Tabela7RegrasdeProduçãoparaasCitaçõesemNEJBs

Page 110: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

93

Os casos analisados para a composição das regras de produção para citações foram

escolhidosaleatoriamentedentreasocorrênciasdecitaçõesnostextosdasnormas.Nãoé

intenção propor um conjunto fechado para tais regras. A composição das citações ainda

assumeuma forma livreeonúmerodecasosdecitaçõesémuitogrande.Opropósitoé

queesteconjuntoderegrassemantenhaabertoparaainserçãodenovoscasosconforme

estessãoreconhecidos.

4.6 ModelodeDadosparaNEJBs

Omodelo de dados paraNEJBs foi definido para trabalhar em conjunto com a definição

formal apresentada na seção anterior. A definição formal especifica como identificar

segmentosdeumanormaeomodelodedadoséoresponsávelpeloarmazenamentodos

segmentos demodo a ser compatível com a definição formal. Omodelo de Dados para

NEJBsfoiespecificadoparaatingirosseguintesobjetivos:

• ServirdemodeloparaasaplicaçõesenvolvendoNEJBs;

• Servircomosuporteparaaaplicaçãodadefiniçãoformalespecificadanaseção

anterior,fornecendoamodelagemparaarmazenarossegmentosidentificados;

• Criar um modelo de alto‐nível estabelecendo as entidades relevantes para o

conjuntodeNEJBsedeterminandoosprincipaisrelacionamentosentreelas;

• Permitir a uniformização do armazenamento de normas pertencentes ao

conjuntoNEJBs,facilitandoointercâmbiodedados;

• Permitirarecuperaçãodeelementoscitadosoudeelementosespecíficos;

Page 111: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

94

4.6.1 ModeloEntidadeRelacionamentoEstendido

Para a representação do modelo de dados para NEJBs foi utilizado o modelo

Entidade‐Relacionamento Estendido34 – mE‐Rx [14], largamente aplicado em SGBDs. O

mE‐Rx é um modelo conceitual que representa as informações em alto nível sem a

preocupação de implementação. Possui uma simbologia particular onde as principais

construçõessão:

CONSTRUÇÕES DEFINIÇÃO REPRESENTAÇÃO

ENTIDADE“Éumacoisadomundorealcomexistênciaindependente”[Elmasri,p.40].

ATRIBUTOS

Sãopropriedadesdasentidadesoudosrelacionamentos.

Podemsermapeadoscomo:1. atributos,2. atributos‐chave;ou3. multivalorados,

Apresentamumavariaçãonarepresentação,conformeexibidoaolado.

1.

2.

3.

RELACIONAMENTOS

Relacionamentossãocriadosparamapearasdiversasinteraçõesentreentidades.

Comrelaçãoaograu:grau2sãobinários,grau3ternárioseassimpordiante.

Suacardinalidadepodeser:1:1,1:noum:n

oquedeterminarelacionamentosde1para1,1paramuitosemuitosparamuitosrespectivamente.

Tabela8ConstruçõesutilizadasnomodeloEntidadeRelacionamentoEstendido35

4.6.2 EsquemaConceitualdoModelodeDadosparaNEJBs

O modelo de dados para NEJBs apresentado a seguir na Figura 8, está centralizado na

entidadeNormaEstatutáriaJurídica,ouabreviandoNEJ.Estaentidaderepresentademodo

generalizadoumanormacompletaedemodoespecializadoumsegmentodenorma.

34DooriginalEERModel–EnhancedEntity‐RelationshipModel[Elmasri].35Extraídode[Elmasri]p.57.

Page 112: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

95

Deacordocomomodelo,aNEJBécompostadauniãode2outrasentidades:cabeçalhoe

corpo, como mostra em detalhe, a Figura 7. Na prática, uma norma será composta de

somenteumcabeçalhoediversosoutroselementosqueirãocomporocorpo.

Figura7ComposiçãodeumaNEJB

Aestruturaçãohierárquicadocorpodeumanormaestárepresentadanorelacionamento

possuiqueatravésdeseuatributoordemdeterminaaordementreosdiversossegmentos

quepossuemomesmopai.

Tendo o enfoque na generalização, aNEJ possui uma classificação em diversos tipos de

normas. A entidadeOutras foi representada para permitir a expansão futura no caso de

surgiremoutrostiposdenormas.

Partindoparaoenfoquenaespecialização,aentidadecorpo,seguindoadefiniçãoformal,é

classificadaemseção,componenteouanexo,cadaumdestesrepresentadosnasentidades

respectivas.

Nomodelodedados tambémestáprevistoocontrolesobreaemissãodasnormaspelos

órgãos formuladores de normas através da entidade Órgão Formulador e do

relacionamentoemite.

Page 113: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

96

Váriasentidadesnãoforamdetalhadaspropositadamenteparanãoimporrestriçõesneste

modelo. Omodelo de dados deve ser detalhado de acordo com cada aplicação e então

mapeadoparatabelasdedadosdeacordocomoSGBDescolhido.

Page 114: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

97

Figura8ModelodeDadosparaNEJBs

Page 115: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

98

4.6.3 CitaçõesnoModelodeDadosparaNEJBs

Nestemodelo,ascitaçõesestãorepresentadascomorelacionamentosentreossegmentos

deumanorma.Inicialmentedefinidocomoumrelacionamentomuitosparamuitos(m:n),

estefoidetalhadonaFigura9pararefletiraseguintesituação:

• Umsegmentodenormacomumentecontémumaoumaiscitaçõescompostas.

Algunsexemplosdecitaçãocompostaencontram‐senaTabela9abaixo:

CITAÇÃOCOMPOSTA CITAÇÕESUNÍVOCAS

“noscasosdosarts.106e107”1. Leinº3017,Artigo1062. Leinº3017,Artigo107

“nocasodoart.219,I,IIeIII”1. Leinº3.017,Artigo219,itemI2. Leinº3.017,Artigo219,itemII3. Leinº3.017,Artigo219,itemIII

“dispostonosarts.148a150”1. Leinº5.869,Artigo1482. Leinº5.869,Artigo1493. Leinº5.869,Artigo150

Tabela9Exemplosdecitaçõescompostas

• As citações compostas devem ser separadas em várias citações unívocas

referenciandoumúnicosegmentodeumanorma,paraqueosrelacionamentos

possamserarmazenadosemumbancodedados.

Page 116: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

99

Figura9Esquemaconceitualparaarepresentaçãodecitações

Aosepararcitaçõescompostasemdiversascitaçõesunívocaspode‐se identificartodosos

segmentos que uma dada citação referencia, estabelecendo as relações entre estes no

modelodedados.Orelacionamentoécitadaporpermite,porexemplo,dadoumsegmento

de norma, que se recupere todos os segmentos que fazem referência a ele. Este é um

relacionamento importante no conjunto de normas principalmente para poder levantar

normasqueforammodificadasourevogadaspornormasmaisnovas.

Page 117: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

100

5 AFERRAMENTAWEBIFYLAW

A ferramentaWebifyLaw implementa o processo de conversão proposto no Capítulo 3,

aplicado ao conjunto de NEJBs definido no Capítulo 4. Do conjunto de NEJBs foram

selecionadas45normasparatestedentreasquaisencontram‐seaConstituiçãoFederalde

1988,oCódigoCivileoCódigodeProcessoCivil.

A ferramenta WebifyLaw, como resultado, gera automaticamente hiperdocumentos

codificados na linguagem HTML para serem disponibilizados facilmente na WWW da

Internet.Os hiperdocumentos são gerados a partir de documentos no padrão STDNORM

definidonaSeção3.3.Adicionalmente,aferramentaWebifyLawautomaticamenteproduz

dois índices para os hiperdocumentos gerados: um índice por categoria e um índice

cronológico.

Page 118: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

101

Para o armazenamento de dados, a ferramentaWebifyLaw utiliza o modelo de dados

propostonaSeção4.6esimulaastabelasemarquivosdotipotexto.

5.1 Implementação

A ferramentaWebifyLaw foi implementada para comprovar que a conversão automática

pode ser efetivamente executada através do processo de conversão proposto neste

trabalho.Suaimplementaçãonãoprevêumainterfacegráficacomousuário.Aferramenta

foiimplementadaemmóduloscomváriasfunçõesquedevemserexecutadasdiretamente

apartirdalinhadecomando.

OpçõesdeconfiguraçãosãopassadasparaaferramentaWebifyLawatravésdainclusãode

um arquivo na linha de comando. A implementação prevê o uso de um arquivo de

configuração padrão, chamado default.cfg, e neste caso dispensa a inclusão na linha de

comando.Oarquivodeconfiguraçãodeterminaodiretórioraizeváriosdiretóriosauxiliares

onde a ferramenta WebifyLaw procura por informação ou armazena os resultados do

processamento. A Tabela 10 abaixo mostra as etiquetas padrão a serem utilizadas no

arquivodeconfiguração.

DEFINIÇÃO ETIQUETA DIRETÓRIO36Diretórioraiz,apartirdoqualsãocriadososoutrosdiretórios

DirRaiz d:\WebifyLaw\

Diretórioparaoshiperdocumentosgeradosautomaticamente.

DirHTxt hipertxt\

Diretórioparaastabelasdedados DirBD bdados\Diretóriodetrabalho,paraarmazenamentodearquivostemporários,seassimfornecessário.

DirTrab system\

Diretórioparaoutrasopçõesdeconfiguração DirCfg config\Diretórioparaoscomponentesexternosàsnormas. DirCExt compext\Diretórioparaalocalizaçãodosíndicesgeradosautomaticamente.

DirIndex index\

36Osdiretóriosaquiapresentadossãosomenteilustrativos.

Page 119: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

102

DEFINIÇÃO ETIQUETA DIRETÓRIO36Diretórioparaasmensagensgeradasduranteaexecuçãodosmódulos.

DirMsg log\

Tabela10Opçõesdeconfiguração

O arquivo de configuração deve ser escrito mantendo‐se uma etiqueta em cada linha e

utilizandoocaracterdoispontos–“:”,paraaseparaçãoentreetiquetaevalor.

A ferramentaWebifyLaw, por possuir características de processamento em batchmode,

gera um arquivo com mensagens das ações executadas durante o processamento. Este

arquivo possui a extensão .log e é nomeado de acordo com a data da execução da

ferramenta.

5.1.1 LinguagemdeProgramação

ParaaimplementaçãodaferramentaWebifyLawfoiescolhidaalinguagemdeprogramação

Perl[43]pelasrazõesmencionadasabaixo:

• Facilidade de manipulação de textos, permite analisar e converter grande

volumedeinformaçãorapidamente.

• Suporteaousodeexpressõesregulares.

• Portabilidade.

• FacilidadedecriaçãodeprogramasparaaWeb.

• Distribuiçãogratuitaatravésdelicençaartística.

A ferramenta foi desenvolvida utilizando o compilador/interpretador Perl paraWindows

95® na sua versão 5.004_02. O código desenvolvido totalizou 2.674 linhas sem

comentários.

Page 120: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

103

5.1.2 MóduloseBibliotecas

A ferramenta WebifyLaw é composta por três módulos: webifySegm, webifyLink e

webifyIndex que implementam, respectivamente, a segmentação e hierarquização, a

inferênciadelinkseageraçãodehiperdocumentoseageraçãodeíndices.

Asfunçõesestãodivididasentreseisbibliotecasdiferentes:

• libConfig: Biblioteca de configuração, inclui entre suas funções a leitura do

arquivo de configuração e mecanismos para determinar os caminhos para a

localizaçãodosarquivosdeentradaediretóriosdesaída.Fazaconfiguraçãode

variáveisglobaisutilizadasportodososmódulos.

• libStdIO: Biblioteca de funções de entrada e saída. Possui funções

implementandodiversosmecanismosdeimportareexportarainformação.Em

particular, implementa a função de leitura do padrão STDNORM, os filtros

filtroTXTe filtroETEXT,eas funçõesquesimulam importaçãoeexportaçãode

umabasededados.

• libNormas:Implementafunçõesparaasegmentaçãodenormaseidentificação

e análise de tipos de normas e segmentos. Inclui também funções para a

hierarquizaçãodesegmentos.

• libLink:Bibliotecade inferênciade links. Implementafunçõesparaaextração,

análise e estabelecimento de links entre os segmentos. Incorpora as funções

para o parse de tokens e análise léxica da citação, além das funções para

endereçamentonaformanormaldeendereçamentodesegmentos.

• libHTML:Bibliotecadegeraçãodehiperdocumentos.Implementafunçõespara

a geraçãode códigoem linguagemHTMLna criaçãodehiperdocumentos.As

Page 121: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

104

funções nesta biblioteca geram automaticamente páginas HTML com

codificaçãodiferentedeacordocomotipodosegmento.

• libIndex: Biblioteca da criaçãode índices. Contém funções para a geraçãode

índicesporcategoriaecronológicoempáginascodificadasemHTML.

5.2 AGeraçãodeHiperdocumentos

Como resultados do processo de conversão, a ferramenta WebifyLaw gera

automaticamente a informação para o banco de dados e hiperdocumentos a partir dos

dadosdossegmentos.Osdadosdas45normasselecionadasparatesteresultaramemum

totalde10.660segmentos.

Nesta implementação, cada hiperdocumento gerado contém o texto completo de uma

norma.Assim, cadanormaéarmazenadaemumúnicoarquivoHTML.Estaéumaopção

particular desta implementação. Outra opção seria gerar um hiperdocumento para cada

seçãodeumanorma,porexemplo.

Para cadanormaarmazenadanobancodedados, a geraçãodehiperdocumentos realiza

consultaspararecuperartodosossegmentosquecompõemaquelanorma.Ossegmentos

são,então,codificados.OhiperdocumentoresultanteéarmazenadoemumarquivoHTML

denomenclaturacontrolada.

A etiqueta de nome do arquivo é resultante da combinação do tipo da norma e do seu

identificador.Otipodanormaérepresentadopornomáximoduasletrasdeacordocoma

Tabela11aseguir.

Page 122: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

105

SIGLA TIPODANORMACF Constituição

FederalD DecretoDL Decreto‐LeiL LeiLD LeiDelegadaLM LeiMunicipalR ResoluçãoRN Resolução

NormativaP PortariaPN PortariaNormativaIN Instrução

Normativa

Tabela11Siglasparaostiposdenormas

O número identificador da norma segue a sigla sem a inclusão de espaços. Exemplos de

algumasetiquetasgeradassão:D1207.html,DL719.html,L3017.html,D1752.html.

No caso de a norma possuir uma instituição associada, a etiqueta compõe‐se,

adicionalmente,dasiglada instituiçãoededoisdígitos identificandooanodanorma,no

seguinteformato:

siglaTipoDaNorma_siglaInstituiçãoNúmeroIdentificador‐Ano

Exemplos de etiquetas para este caso são: R_CONAMA10-94.html, P_IBAMA29-96.html,

P_IBDF17-88.html.

Oshiperdocumentos foramcodificadosdemodocoerentecomseusignificadoestrutural,

utilizandoosrecursosdalinguagemHTMLparadiferenciarosdiversostiposdesegmentos.

OQuadro3aseguirmostraumexemplodeumhiperdocumentogeradoautomaticamente

pelaferramentaWebifyLaw.

Page 123: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

106

DECRETONº1.207,DE1ºDEAGOSTODE1994.

Acrescentaincisoaoartigo14doDecretonº96.036,de12demaiode1988.

OPRESIDENTEDAREPÚBLICA,nousodaatribuçãoquelheconfereoartigo84,incisoIV,daConstituição,etendoemvistaodispostonaLeinº7.646,de18dedezembrode1987,DECRETA:

Artigo1º‐Ficaacrescidoaoartigo14doDecretonº96.036,de12demaiode1988,oincisoIV,comaseguinteredação:

“Art.14.......................................................................................................................................................................................................IV‐reconhecíveiscomoexclusivaouprincipalmentedestinadosàutilizaçãoemunidadesdigitaisdeprocessamentodaPosição8471.91.0100,daNomenclaturaBrasileiradeMercadorias‐NBM(microcomputadoreseestaçõesdetrabalho).”

Artigo2º‐EsteDecretoentraemvigornadatadesuapublicação.

ITAMARFRANCOJoséIsraelVargas_______________________________________________________________________________________

Informaçõesgeradasautomaticamenteem2deOutubrode1997emantidaspor:AlessandraDorante

Quadro3Exemplodehiperdocumentogeradoautomaticamente

NoshiperdocumentosgeradospelaferramentaWebifyLawfoimantidoumúnicoestilode

formataçãocoerenteparacadatipodesegmento.Estacaracterísticafacilitaaidentificação

visual dos tipos de segmentos. Exemplificando, os cabeçalhos de seções utilizam as

construções próprias para headings da linguagem HTML (<H1>..</H1>, <H2>…</H2>, e

assim sucessivamente), as etiquetas dos artigos são sempre grafadas utilizando o estilo

strong da linguagem HTML (<strong>…</strong>). Segmentos como escopo normativo,

disposiçõesiniciaisefinaissãosempregrafadosutilizandooestiloenfático(<em>…</em>).

Nos hiperdocumentos que possuem seções internas, a ferramentaWebifyLaw inclui um

índice interno para facilitar a navegação, como mostra o Quadro 4. Para possibilitar a

referenciação pelas citações cada segmento do documento tem seu endereço gerado na

formanormaldeendereçamentode segmentosapresentadanaSeção3.6.2.O resultado

doendereçamentoéutilizadonageraçãodasetiquetasparaâncorasemlinguagemHTML–

etiquetas<a name=”…”>…</a>.

Page 124: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

107

PORTARIAIBAMAN°29,DE26DEABRILDE1996_______________________________________________________________________________________

Índice

CapítuloI‐DAREPOSIÇÃOFLORESTALOBRIGATÓRIA,DOPLANOINTEGRADOFLORESTALEDAASSOCIAÇÃOFLORESTAL

SeçãoI‐DAREPOSIÇÃOFLORESTALSeçãoII‐DOPLANOINTEGRADOFLORESTAL‐PIFSeçãoIII‐DAASSOCIAÇÃOFLORESTAL

CapítuloII‐DASVISTORIASELAUDOS

CapítuloIII‐DASPENALIDADES

CapítuloIV‐DASDISPOSIÇÕESGERAISETRANSITÓRIAS

_______________________________________________________________________________________

Quadro4Exemplodeumtrechodehiperdocumentocomíndiceinterno

OQuadro5mostraocódigofonteemlinguagemHTMLcomendereçamentodesegmentos

paraodocumentoapresentadonoQuadro3.

<html><head><title>DECRETO Nº 1.207, DE 1º DE AGOSTO DE 1994.</title></head><body> <h1>DECRETO Nº 1.207, DE 1º DE AGOSTO DE 1994.</h1> <hr> <p><em><a name="DI1"> Acrescenta inciso ao <a href="msg.html">artigo 14 do Decreto nº 96.036, de 12 de maio de 1988</a>. </a></em> <p><strong><a name="EN2"> O PRESIDENTE DA REPÚBLICA, no uso da atribuição que lhe confere o <a href="CF.html#T4C2S2A84IR6">artigo 84, incisos IV, da Constituição</a>, e tendo em vista o disposto na <a href="msg.html">Lei nº 7.646, de 18 de dezembro de 1987</a>,</a></strong> <p><strong><a name="EN3"> DECRETA: </a></strong> <p><strong><a name="A1">Artigo 1º</a></strong> - Fica acrescido ao <a href="msg.html">artigo 14 do Decreto nº 96.036, de 12 de maio de 1988</a>, o <a href="#A1IR4">inciso IV</a>, com a seguinte redação: <br><em><a name="A1CM1"> "Art. 14. ............................................................................................ .......................................................................................................... </a></em> <br><em><a name="A1CM2"> IV - reconhecíveis como exclusiva ou principalmente destinados à utilização em unidades digitais de processamento da Posição 8471.91.0100, da Nomenclatura Brasileira de Mercadorias - NBM (microcomputadores e estações de trabalho)." </a></em> <p><strong><a name="A2">Artigo 2º</a></strong> <a href="D1207.html">Este Decreto</a> entra em vigor na data de sua publicação. <p><em><a name="A2DF1">ITAMAR FRANCO</a></em> <p><em><a name="A2DF2">José Israel Vargas</a></em> <hr> <font size=-1>Informações geradas automaticamente em 26 de Outubro de 1997 e mantidas por: <blockquote><author><a href="mailto:[email protected]">Alessandra Dorante</a></author> </blockquote> </font> </body></html>

Quadro5CódigofontegeradoautomaticamenteemlinguagemHTML

Page 125: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

108

5.3 UsodaFerramentaWebifyLaw

O processo de conversão automática é realizado com o uso da ferramentaWebifyLaw

seguindoospassosabaixo:

1. ParacadadocumentonopadrãoSTDNORMexecutaromódulowebifySegm,utilizando

aseguintelinhadecomando:

$> perl webifySegm.pl doc1STDNORM default.cfg

2. Executarainferênciadelinkssobreosdadosprocessadosnopassoanterioreageração

doshiperdocumentos,comaseguintelinhadecomando:

$> perl webifyLink.pl default.cfg

3. Gerarosíndices:

$> perl webifyIndex.pl default.cfg

Apósaexecuçãodestestrêspassosquefazemaconversãoautomáticaénecessáriofazera

disponibilizaçãodosresultados.Estapodeserfeitasimplesmenteatravésdomecanismode

cópia.Odiretórioescolhidocomodiretórioraizdosistemadevesercopiadoparaumweb

site.Os links foramgeradoscomendereçamento relativoparaevitara invalidaçãocoma

eventualmudançadalocalizaçãofísicadaspáginas.

5.4 Resultados

Osresultadosdaaplicaçãodoprocessodeconversãoautomática,utilizandoaferramenta

WebifyLaw, estãoorganizadosem trêsSeções:5.4.1,5.4.2 e5.4.3, que respectivamente,

analisam os resultados da extração das citações, da geração de links e apresentam os

resultadosdaconversãoemumsitenaWWW.

Page 126: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

109

Finalmente,aSeção6.2abordasugestõesparatrabalhosfuturos.

5.4.1 ResultadosdaExtraçãodasCitações

Oresultadodaextraçãodascitaçõesémuitoimportanteparaoprocessodeinferênciade

links.Somentecitaçõesextraídassãopassíveisdeseremconvertidasemlinks.Paraavaliaro

resultado da extração das citações é necessário ter uma fonte de comparação. Para a

ferramentaWebifyLaw a avaliação da extração de links foi feita através da comparação

entrecitaçõesmarcadasmanualmenteecitaçõesextraídasautomaticamente.Noconjunto

de45normasforamprocessados1.565segmentosmarcados.Oresultadodaextraçãoestá

naTabela12:

Segmentoscomcitaçõescorretas: Iguaisàmarcaçãomanual 1.295 82.5%Segmentoscomcitaçõesextras: Nãomarcadasmanualmente 87 5.5%

Segmentoscomcitaçõesnãocoincidentes: Diferentesdamarcaçãomanual 183 12% 1.565

Tabela12Resultadosdaextraçãodascitaçõesporsegmento37

Nos183segmentosemqueamarcaçãonãocoincidiucomamarcação,existemdiferentes

casos,quesãoagrupadosem:

Citaçãonãoreconhecida CorrespondemanovoscasosaseremincorporadosnadefiniçãoformaldecitaçõeseinterpretadospelaferramentaWebifyLaw.

Usodeapelidodenorma Acitaçãoutilizaoapelidoparafazerreferênciaànorma.OusodeapelidosnãoésuportadopelaferramentaWebifyLawnestaversão.

Erronagrafiasintática Errosdegrafiasintáticanacitação,comoporexemploousotrocadodepluralesingularougrafiaincorretadepalavrasquedesempenhamfunçãochavenoreconhecimento.Aocorrênciadessescasospodeserfacilmenteeliminadapelousodecorretoresortográficos.

Marcaçãomanualnãocoincidente

Amarcaçãomanualnãofoiexecutadacorretamente:ouincorporaelementosquenãofazempartedacitação,ounãoabrangeacitaçãocompleta.Emamboscasosprovocaerronacomparação.

Tabela13Casosdeextraçãodecitaçãonãocoincidentes

Page 127: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

110

Nesses 1.565 segmentos foram marcadas manualmente 1.428 citações, e foram

reconhecidas automaticamente 1.703 citações, numa diferença de 275 citações

“descobertas”pelaferramentaWebifyLaw.

Paraaextraçãodascitaçõesforamanalisados75tiposdiferentesdecitações,baseadosna

definiçãoformaldascitaçõesparaasNEJBs,apresentadanaSeção4.5.Atravésdaanálise

apresentadanoQuadro6,ficaclaroqueamaioriadascitaçõesvariapoucocomrelaçãoao

seutipo,concentrando‐senosdoistiposbásicosseguintes:

Tipo70:citaçõessãodotipo“artigo1º”,“artigo186”, queseguemaformageral

deartigoseguidodeidentificador.

Tipo 71: reconhece citações do tipo: “neste decreto”, “desta Constituição”, “este

artigo”,“nestaseção”,“desteparágrafo”.

Quadro6Estatísticasdaextraçãodecitaçõesportipodecitação

37Considere‐sequecadasegmentopodecontermaisdeumacitação.

Page 128: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

111

5.4.2 ResultadosdaGeraçãodeLinks

Ageraçãoautomáticade links baseia‐senasmarcações feitaspela extraçãodas citações.

Analisa o conteúdo das citações entre asmarcações<cit>…</cit>. Como resultado desta

análise gera o endereço do segmento citado na forma normal de endereçamento de

segmentosapresentadanaSeção3.6.2.

Antes de gerar as âncoras em linguagem HTML referenciando o segmento, este é

procuradoentreossegmentospresentesnabasededados.Seosegmentoéencontradoa

etiquetaHTMLéestabelecidafazendoreferênciaaoendereçodosegmento.Casocontrário

aâncoraéestabelecidadirecionadaparaumarquivopadrãocontendoumamensagem.

Nocasodaexistênciadecitaçõescompostas,olinkfoigeradoparasomenteumsegmento,

queéosegmentodemenornívelnahierarquia,conformemostramosexemplosdecasoa

seguir.

Os resultados da geração dos links são analisados a partir dos casos encontrados no

conjuntodeNEJBsselecionados.Osexemplosdecasosabaixoprocuramrelataravariedade

de casos e sua complexidade. Para cada caso é sempre apresentado primeiro o texto

original conforme figurado na norma, seguido do trecho gerado automaticamente pela

ferramentaWebifyLaw,emlinguagemHTML.

Caso1–CitaçãocomReferênciasExplícitas

Neste caso, todos os segmentos da citação possuem menção explícita ao seu tipo e

identificação. É o caso que apresentoumaior volume de citações. Os exemplos a seguir

mostramalgumasdasvariaçõespossíveisdentrodessecaso.

Page 129: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

112

“ V. improbidade administrativa, nos termos do art. 37, § 4º.” 38

Nesteexemploa citaçãonãomencionaoutranorma.A citação refere‐seaumsegmento

quepertenceàmesmanormadosegmentohospedeiro.Nestescasos,acitaçãoéchamada

“interna”. Apesar de ser uma citação interna, para identificar o segmento citado é

necessário“resolveroendereço”.Istodeveserfeitoparatodosostiposdecitação.Apartir

do “endereço abreviado” mencionado na citação é gerado o endereço completo do

segmentocitado.Aetiquetahrefabaixomostraoendereçocompleto.

“<li><a name="T2C4A15IR5"> improbidade administrativa, nos termos do <a href="#T3C7S1A37P4">art. 37, § 4º</a>.</a>”

“Artigo 270 - Este Código regula o processo de conhecimento (Livro I), de execução (Livro II), cautelar (Livro III) e os procedimentos especiais (Livro IV).”39

Este exemplo é similar à citação anterior, com a diferença que este trecho apresenta

diversas citações referenciando segmentos classificados como seções. No caso em

particular fazem referência à seção do tipo livro. Casos similares incluem referências a

títulosecapítulos.

“<strong><a name="L1T7C1A270">Artigo 270</a></strong> - <a href="L5869.html">Este Código</a> regula o processo de conhecimento (<a href="#L1">Livro I</a>), de execução (<a href="#L2">Livro II</a>), cautelar (<a href="#L3">Livro III</a>) e os procedimentos especiais (<a href="#L4">Livro IV</a>).”

“Artigo 1º - O inciso VI do art. 2º do Decreto nº 1.791, de 15 de janeiro de 1996, passa a …”40

Umavariaçãodacitaçãocomreferênciasexplícitasmencionandoumanorma“externa”.A

citação possui uma referência explícita a uma norma diferente da norma do segmento

hospedeiro.

“<strong><a name="A1">Artigo 1º</a></strong> - O <a href="D1791.html#A2IR6">inciso VI do art. 2º do Decreto nº 1.791, de 15 de janeiro de 1996</a>, passa a …”

38Artigo15,incisoVdaConstituição.39Leinº5.869,artigo270.40Decretonº1.965,artigo1º.

Page 130: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

113

Caso2–CitaçãoComposta

A citação composta referencia mais de um segmento de menor nível na hierarquia da

citação.Aâncorageradaparaestetipodecitaçãorefere‐sesomenteaoprimeiroelemento

dalista.EstaéumaopçãodaimplementaçãoadotadanaferramentaWebifyLaw.Osoutros

elementos da lista podem ser obtidos pela proximidade com o elemento citado, sendo

exibidosparaousuárionamesmapágina.Oscasosdecitaçõescompostassãoabordados

nosexemplosabaixo.

“Artigo 10 - Ficam revogadas as disposições em contrário especialmente as alíneas "n" e "o" do artigo 2º da Resolução/CONAMA/004/85.”41

Oprimeirocasodecitaçãocompostaéacitaçãodemúltiplossegmentosquepertencema

ummesmo e único tipo. É chamada de citação do tipo lista. A lista contém um número

variáveldeelementos,semumlimitefixo.Oselementossãoseparadosporvírgulaquando

sãomaisdoquedois.

“<strong><a name="A10">Artigo 10</a></strong> - Ficam revogadas as dos posições em contrário especialmente as <a href="R_CONAMA4-85.html#A2AL13">alíneas "n" e "o" do artigo 2º da Resolução/CONAMA/004/85</a>.”

“Artigo 207 - É nulo e de nenhum efeito, quanto aos contraentes e aos filhos, o casamento contraído com infração de qualquer dos ns. I a VIII do art. 183.”42

Nestecasodecitaçãocomposta,ossegmentossãoapresentadosnaformadeumintervalo,

caracterizadopelapresençadoslimitesinferioresuperior.

“<strong><a name="PT2L1T1C6A207">Artigo 207</a></strong> - É nulo e de nenhum efeito, quanto aos contraentes e aos filhos, o casamento contraído com infração de qualquer dos <a href="#PT2L1T1C2A183IR1">ns. I a VIII do art. 183</a>.”

Caso3–CitaçãocomReferênciadeContexto

Nacitaçãocomreferênciadecontexto,oendereçodaâncoraédeterminadocombaseno

endereçodosegmentohospedeiro,utilizandoassimocontextoemqueacitaçãoaparece

paradeterminarseuendereço.Estetipodecitaçãoéchamadadecitaçãomodificadapela

41Artigo10,daResoluçãoCONAMAnº10,de1993.42Artigo207daLeinº3.017.

Page 131: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

114

presençadeumvocábulo,chamadodemodificador.Omodificadoreocontextodacitação

sãoelementos‐chavenaidentificaçãodosegmentocitado.

“§3º A indicação de que trata o parágrafo anterior será feita no prazo de trinta dias…”43

Neste exemplo, é usado o modificador “anterior”. Outras variações deste modificador

podem ser “antecedente” e “precedente”.Na citação acima, o segmentomodificadoé o

segmentocitado.Seuendereçoédeterminadosubtraindo‐seumdonívelcorrespondente

doendereçodohospedeiro.

“<a name="C3A3P3">§3º</a> A indicação de que trata o <a href="#C3A3P2">parágrafo anterior</a> será feita no prazo de trinta dias …”.

“§5º O representante de que trata o inciso IV deste artigo será indicado pelo Ministro …”44

Omodificadornestacitaçãoéomodificadordesegmentoatual.Algumasvariaçõesdeste

tipo de modificador são: “deste“, “desta“, “neste“, “nesta“, “este”, “esta”, “esse”. Na

geraçãodoendereçodacitação,onívelmodificadoécopiadodosegmentohospedeiro.

“<a name="C3A3P5">§5º</a> O representante de que trata o <a href="#C3A3IR4">inciso IV deste artigo</a> será indicado pelo Ministro…”

“I. a afirmação do autor, ou a certidão do oficial, quanto às circunstâncias previstas nos nºs. I e II do artigo antecedente;”45

Estacitaçãoapresentaumasegundavariaçãodousodomodificadortipoanterior,naqual

osegmentomodificadonãoéosegmentocitadoemúltimainstância.

<li><a name="L1T5C4S3A232IR1">a afirmação do autor, ou a certidão do oficial, quanto às circunstâncias previstas nos <a href="#L1T5C4S3A231IR1">nºs. I e II do artigo antecedente</a>;</a>

Caso4–VáriosCasosdeCitação

Os diversos casos identificados anteriormente aparecem, muitas vezes, combinados em

umamesmacitação.Algunsdestescasossãoapresentadosaseguir.

43Artigo3º,§3º,Decretonº1.752.44Artigo3º,§5º,Decretonº1.752.45Artigo232,incisoIdaLeinº5.869.

Page 132: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

115

“O VICE-PRESIDENTE DA REPÚBLICA, no exercício do cargo de Presidente da República, usando das atribuições que lhe confere o art. 84, incisos IV e VI, da Constituição, e tendo…”46

Esteéumcasoqueapresentacitaçãocompostacomreferênciaànormaexterna.

“O VICE-PRESIDENTE DA REPÚBLICA, no exercício do cargo de Presidente da República, usando das atribuições que lhe confere o <a href="CF.html#T4C2S2A84IR4">art. 84, incisos IV e VI, da Constituição</a>, e tendo…”

“§4º Nas causas de pequeno valor, … , atendidas as normas das alíneas "a", "b", e "c" do parágrafo anterior.”47

Nesteexemplo,acitaçãoéumacombinaçãodeumacitaçãocompostaedeumareferência

decontexto.

“<a name="L1T2C2S3A20P4">§4º</a> Nas causas de pequeno valor, … , atendidas as normas das <a href="#L1T2C2S3A20P3">alíneas "a", "b", e "c" do parágrafo anterior</a>.”

“§3º Os partidos políticos reger-se-ão pelo disposto, no que lhes for aplicável, nos arts. 17 a 22 deste Código e …”48

Estavariaçãoéumacombinaçãodousodomodificadorcomumalistadesegmentos.

“<a name="PT1L1T1C2S1A16P3">§3º</a> Os partidos políticos reger-se-ão pelo disposto, no que lhes for aplicável, nos <a href="#PT1L1T1C2S1A17">arts. 17 a 22 deste Código</a> e …”

Existemalgunscasoscomcertacomplexidadequeparaageraçãoautomáticaénecessário

adaptar o mecanismo de extração e estabelecimento de links. Estes casos não foram

tratadosaquipor representaremumapequenaporcentagemdo totaldas citações, como

mostraoQuadro6.Noentanto,otratamentodessescasosénecessárioparasealcançar

umacompletudenoreconhecimentodecitações.Algunsdessescasossão:

“estabelecido no art. 5º deste Decreto, conforme seu enquadramento nas condições especificadas no referido artigo, entre a documentação …”49

Acitaçãoacimaemnegritoéumcasodecitaçãoqueparainterpretaçãoénecessáriofazer

referênciaaoutracitação,normalmenteacitaçãoantecedente(apresentadaemitálico).A

identificaçãodestacitaçãosóépossívelcomoauxíliodainterpretaçãodaantecedente.

46Decretonº1.752.47Artigo20,§4ºdaLeinº5.869.48Leinº3.017,artigo16,§3º.49Artigo1º,Decretonº1.070.

Page 133: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

116

“…ou de pacto antenupcial (arts. 178, Par. 9°, I, c, 274, 289, I, e 311)”50 “… contado o prazo do dia em tiverem ciência do casamento (arts. 180, III, 183, XI, 209 e 213).”51

As citações acima são complexas na sua estruturação. Apresentam identificadores de

segmentos de diversos níveis, sem a referência explícita dos tipos. Por exemplo os

segmentos I e c aparecem sem a identificação do tipo, que seria inciso e alínea

respectivamente.Estacaracterísticadificultasuaanáliseeidentificaçãoautomática.

Estes casos mais complexos para serem identificados corretamente necessitam de um

tratamentoespecial.

Osexemplosacimacaracterizamcomfidelidadeoestadoatualdatecnologiaempregadana

ferramentaWebifyLaw.

5.4.3 Site:ProjetoWebifyLaw

Os resultados da utilização da ferramentaWebifyLaw na conversão automática deNEJBs

podeservistosem:http://www.ifqsc.sc.usp.br/hpp/alessandra/webify/webify_result.html.

Aspáginasgeradasautomaticamentecontêmuma referência textualexplícita incluindoa

datadageração.

50Leinº3.017,Artigo233,incisoII.51Artigo178,§4º,incisoIIdaLeinº3.017.

Page 134: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

117

6 CONCLUSÃO

Oprocessodeconversãopropostoneste trabalhoprovousereficientee confiávelparaa

conversãoautomáticadetextosestruturados.Alémdageraçãodoshiperdocumentos,uma

característica importante do processo é a geração automática de informação para

alimentarbancosdedados.Assim,oprincipal resultadodoprocessodeconversãosãoos

segmentos da informação. Outras ferramentas podem a vir utilizá‐los na geração de

diversos“produtos”,alémdoshiperdocumentos,comoporexemploconsultasdinâmicasa

segmentos isolados, selecionando aqueles que tratam de um determinado assunto, ou

cumprem um requisito específico; ou mesmo a inserção de anotações ou comentários

esclarecedoressobreainformação.

Page 135: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

118

Definindo‐se o conjunto de documentos alvo, asmaiores dificuldades concentram‐se em

estabelecerasdefiniçõesformaisdaestruturaçãodosdocumentosedascitações.

No caso das citações, amaior dificuldade é gerar um conjunto de regras que identifique

todosospossíveiscasosdecitações.

À parte de alguns casos de citação, o processo de conversão proposto neste trabalho

mostrouqueaconversãoautomáticadetextosestruturadospodeserimplementadacomo

um processo que pouco requer da interferência do usuário com alta confiabilidade nos

resultados.

6.1 ContribuiçõesdoTrabalho

Ascontribuiçõesdestetrabalhopodemserseparadasnasáreasdeconversãoautomáticae

hipertexto, e na área de tratamento de documentos legais. Na área de conversão

automáticaehipertextoasprincipaiscontribuiçõesforam:

1. Especificação do formato para entrada de dados, o padrão STDNORM, visando

uniformizar a trocade informaçõesepermitir contribuiçõesexternasdedocumentos

aoprocessodeconversãodeautomática.

2. Aplicaçãoda teoria deGramáticas e Linguagens Formais no estabelecimento de uma

definição formal de textos estruturados, permitindo que futuras definições formais

sejamfeitasconformerealizadonestetrabalho.

3. Definição de um método para a segmentação de textos estruturados com base na

especificação formal. Contribuição importante para a geração de informação para

basesdedadoseparaconstituirhiperdocumentosautomaticamente.

4. Especificaçãodaformanormalparaoreconhecimentoearepresentaçãodecitações.

Contribuição muito importante para permitir que as relações explícitas entre

Page 136: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

119

documentossejamreconhecidasautomaticamenteerepresentadasdemodouniforme

dentrodeumconjuntodehiperdocumentos.

5. Definiçãodométodopara a extraçãoe estabelecimento automáticode citações com

basenaformanormalparacitações,permitindoquerelaçõesexplícitaspresentesnos

documentossejaconvertidaemrelaçõesentresegmentosnabasededadoselinksnos

hiperdocumentos.

6. Umprocessodeconversãoautomáticadetextosestruturadosparahiperdocumentos,

através da utilização de técnicas, principalmente das áreas de Compiladores,

GramáticaseLinguagensFormais,semanecessidadedeinterferênciadousuáriooudo

usodeProcessamentodeLinguagemNatural.

Naáreadeanálisededocumentoslegais,asprincipaiscontribuiçõesforam:

1. Definiçãoformalparaaestruturaçãodenormasestatutárias jurídicasbrasileiras,uma

adaptação da teoria de Gramáticas e Linguagens Formais para o domínio de

documentoslegais.

2. Especificação um modelo de dados para normas estatutárias jurídicas brasileiras

utilizandoomodeloentidade‐relacionamentoestendidocomorepresentaçãoformal.O

modelo de dados proposto pode ser utilizado como base na estruturação de outros

aplicativosdentrododomíniolegal.

6.2 SugestõesparaTrabalhoFuturo

AferramentaWebifyLaw foiconcebidacomoummecanismodetesteparaoprocessode

conversão.Asugestãoparatrabalhofuturoéacriaçãodeumsistemadeconversão,tendo

a ferramentaWebifyLaw como núcleo de desenvolvimento. Neste sistema de conversão

algumascaracterísticasdesejáveissão:

Page 137: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

120

• Interfacegráfica:Aexecuçãodosmódulosda ferramentaWebifyLaw via linhade

comandoéumasolução simplesmas,émaispropíciaaerrose forçaousuárioa

conhecer os parâmetros adequados. A implementação de uma interface gráfica

com mecanismos de ajuda viria a possibilitar que usuários leigos utilizassem o

sistema.

• Interação com o usuário confirmando inferências de links: A ferramenta

WebifyLaw faz a inferência dos links entre os segmentos de normas de modo

automático.Ousuárionãoéconsultadoduranteoprocesso.Noentanto,emalguns

casosseriabenéficaaconfirmaçãohumana,principalmentecasoscomplicadosde

citaçõesquenãosãoreconhecidospelaferramenta.

• Base de dados mais robusta: A ferramentaWebifyLaw simula a base de dados

utilizando arquivos texto, o que prejudica no desempenho da conversão,

principalmentequandoovolumededadoségrande.Asoluçãoparaesteproblema

érealizaroarmazenamentodedadosutilizandoumSGBD.AlinguagemPerlpossui

mecanismosdeinterfaceamentocombasesdedadosnopadrãoSQL,quefacilitam

naexecuçãodestatarefa.

• Mecanismodebuscaporassunto:Aprocuraporassuntoéummecanismomuito

utilizado. Apesar de este não estar presente na implementação da ferramenta, a

pesquisapodeserfeitautilizandoumadasferramentasdepesquisadisponíveisna

Internet (Altavista, Yahoo!, e similares). No entanto, as normas, em particular,

exigem ummecanismo de buscamais elaborado, com suporte para sinônimos e

antônimos. Esta é uma questão vinculada aos sistemas de informação, e é

largamenteabordadaemsistemasparaaconstruçãodethesaurus.Aincorporação

da construção de um thesaurus no sistema de conversão permitiria a realização

destatarefa.

Page 138: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

121

• Hiperdocumentos dinâmicos: Os hiperdocumentos são gerados estaticamente a

partir dos dados na base de dados. Isto implica que a cada alteraçãona base de

dadososhiperdocumentosdevemsergeradosnovamenteedisponibilizadospara

uso.Esta limitaçãopodesereliminada incorporandofunçõesparafazerageração

dinâmicadoshiperdocumentosapartirdasconsultasremotasfeitaspelosusuários

viaWeb.

• ExecuçãoremotadosistemaviasitenaWeb:A incorporaçãodestacaracterística

vai permitir que a conversão automática seja executada independentemente da

localizaçãodosdadosedosprogramasfonte.Possibilitatambém,oatendimentoa

umgrandenúmerodeusuáriossemnecessidadedadistribuiçãodosistema.

Outrasugestãoéaaplicaçãodoprocessodeconversãopropostoemoutrosconjuntosde

textosestruturados.

Page 139: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

122

REFERÊNCIASBIBLIOGRÁFICAS

[1] Aho,AlfredV.;Sethi,Ravi;Ullman,JeffreyD.;Compilers–Principles,Techniquesand

Tools.Addison‐WesleyPublishing,March1986.ISBN0‐201‐10088‐6.

[2] Allan,James;AutomaticHypertextConstruction.PhDThesis,CornellUniversity,

January1995.

[3] Balasubramaniam,V.;“StateofArtReviewonHypermediaIssuesandApplications”.

Disponívelem:http://www.csi.uottawa.ca/~duchier/misc/hypertext_review/

[4] Begoray,JohnA.;“Anintroductiontohypermediaissues,systemsandapplication

areas”.InternationalJournalofMan–MachineStudies.Vol.33,1990,pp.121‐147.

[5] Berners‐Lee,T.;Fielding,R.T.;Nielsen,H.Frystyk;“HypertextTransferProtocol–

HTTP/1.0”.Seção2.1“AugmentedBNF”,March12,1995.HTTPWorkingGroup,

INTERNET‐DRAFT.Disponívelem:

http://infturing.informatik.uni‐halle.de/www/http/HTTP1.0‐ID_10.html,download

em08deoutubrode1997.

Page 140: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

123

[6] Bernstein,Mark.“AnApprenticeThatDiscoversHypertextLinks”.Hypertext:Concepts,

SystemsandApplications–ProceedingsoftheEuropeanConferenceonHypertext,

INRIA,France,November1990.Rizk,A.;Streitz,N.;André,J.(eds.);Cambridge

UniversityPress,NewYork,1990,pp.212‐223.ISBN0‐521‐40517‐3.

[7] Bobbio,Norberto;TeoriadoOrdenamentoJurídico.Edunb–EditoradaUniversidade

deBrasília.Brasília–DF,1994.ISBN85‐230‐0276‐6.

[8] Bush,Vannevar;“Aswemaythink”.AtlanticMonthly.July1945,pp.101‐108.

[9] Coffin,S.;UNIXSystemVRelease4:TheCompleteReference.McGraw‐Hill,Sydney,

p.292‐309.

[10] Conklin,Jeff;“Hypertext:AnIntroductionandSurvey”.IEEEComputer.

September1987,pp.17‐41.

[11] Cooke,Peter;“AnEncyclopediaPublisher'sPerspective”.InteractiveMultimedia,Apple

ComputerInc.,MicrosoftPress,1988.

[12] Donnelly,Charles;Stallman,Richard;“GlossaryforTheYACC‐compatibleParser

Generator”.November1995,BisonVersion1.25.Disponívelem

http://w4.lns.cornell.edu/public/COMP/info/bison/bison_14.html,downloadem08

deoutubrode1997.

[13] Drakos,Nikos;“FromTexttoHypertext:APost‐HocRationalizationofLaTeX2HTML”.

Disponívelem:http://cbl.leeds.ac.uk/nikos/doc/www94/www94.html.

[14] Elmasri,R.;Navathe,S.B.;FundamentalsofDatabaseSystems.Benjamin/Cummings

PublishingCo.Inc.,California1987.ISBN0‐8053‐0145‐3.

[15] Ferreira,AurélioBuarquedeHolanda;NovoDicionáriodaLínguaPortuguesa.Ed.Nova

Fronteira,RiodeJaneiro,1975.

[16] Furuta,Richard;Plaisant,Catherine;Shneiderman,Ben;“ASpectrumofAutomatic

HypertextConstructions”.Hypermedia.TaylorGraham,1989,v.01,n.02,

pp.179‐195.

[17] Goffinet,Luc;Noirhomme‐Fraiture,Monique;“AutomaticHypertextLinkGeneration

basedonSimilarityMeasuresbetweenDocuments”.Disponívelem

http://www.info.fundp.ac.be/~lgo/Hypertext/semantic_links.html.

Page 141: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

124

[18] Gray,Matthew;“InternetStatisticsGrowthandUsageoftheWebandtheInternet”.

MIT,disponívelem:http://www.mit.edu/people/mkgray/net/index.html,visitado

em20deoutubrode1997.

[19] Halasz,FrankG.;“ReflectionsonNoteCards:SevenIssuesfortheNextGenerationof

HypermediaSystems”.CommunicationsoftheACM.July1988.

[20] Halasz,FrankG.;Schwartz,Mayer;“TheDexterHypertextReferenceModel”.

CommunicationsoftheACM.February1994,vol.37,n.02,pp.30‐39.

[21] Hopcroft,JohnE.;Ullman,JeffreyD.;FormalLanguagesandtheirRelationto

Automata.Addison‐WesleyPublishingCo.Massachussets,1969.

ISBN0‐201‐02893‐9.

[22] Horton,WilliamK.“WhatShouldandShouldNotGoOnline”.Designing&Writing

OnlineDocumentation.JohnWiley&Sons,NewYork,1990,pp.15‐30.

[23] ISO8859‐1,InformationProcessing–8‐Bitsingle‐bytecodedgraphiccharactersets–

Part1:LatinAlphabetNo.1.InternationalOrganizationforStandardization,

February,1987.

[24] Joyce,Michael;“NotesTowardanUnwrittenNon–LinearElectronicText,‘TheEndsof

PrintCulture’(aworkinprogress)”.PostmodernCulture.Vol.2(1),

September1991.

[25] Kahn,Paul;“LinkingTogetherBooks:ExperimentsinAdaptingPublishedMaterialinto

IntermediaDocuments”.Hypermedia.TaylorGraham,1989,v.01,n.02,

pp.111‐145.

[26] Lévy,Pierre;AsTecnologiasdaInteligência.Editora34LiteraturaS/CLtda.

RiodeJaneiro,1993.ISBN85‐85940‐15‐2.

[27] Martin,PeterW.;“DigitalLaw:SomeSpeculationsontheFutureofLegalInformation

Technology”.Maio,1995.Disponívelem:

http://www.law.cornell.edu/papers/fut95fnl.html,downloadem01deNovembro

de1996.

[28] Martin,PeterW.;“Pre‐DigitalLaw:HowPriorInformationTechnologiesHaveShaped

AccesstoandTheNatureofLaw”.Junho,1995.Disponívelem:

http://www.droit.umontreal.ca/CRDP/Conferences/DAC/MARTIN/MARTIN.html,

downloadem01deNovembrode1996.

Page 142: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

125

[29] Naur,Peter(ed.);"RevisedReportontheAlgorithmicLanguageALGOL60."

CommunicationsoftheACM,Vol.3No.5,pp.299‐314,May1960.

[30] NetworkWizards;“InternetDomainSurvey”.Disponívelem

http://www.nw.com/zone/WWW/report.html,visitadoem20deoutubrode1997.

[31] Nielsen,Jacob;HypertextandHypermedia.AcademicPressInc.,1990.

ISBN0‐12‐518410‐7.

[32] Raymond,DarrellR.;TompaFrankWM.;“HypertextandtheOxfordEnglish

Dictionary”.CommunicationsoftheACM.July1988,vol.31,n.7,pp.871‐879.

[33] Rearick,ThomasC.;“AutomatingtheConversionofTextIntoHypertext”.

Hypertext/HypermediaHandbook.Berk,Emily;Devlin,Joseph;eds.Armadillo

Associates,Inc.NewYork,1991,pp.113‐142.

[34] RFCnº1766(RequestforComment),TagsfortheIdentificationofLanguages.

Disponívelem:http://ds.internic.net/rfc/rfc1766.txt.

[35] RFCnº822(RequestforComment),StandardforARPAInternetTextMessages.

Disponívelem:http://ds.internic.net/rfc/rfc822.txt.

[36] Riner,Robert;“AutomatedConversion”.Hypertext/HypermediaHandbook.Berk,

Emily;Devlin,Joseph;eds.ArmadilloAssociates,Inc.1991,pp.95‐111.

[37] Salton,Gerard;Allan,James;Buckley,Chris;“AutomaticStructuringandRetrievalof

LargeTextFiles”.CommunicationsoftheACM.February1994,vol.37,n.2,

pp.97‐108.

[38] Shneiderman,Ben;“ReflectionsonAuthoring,Editing,andManagingHypertext”.

TheSocietyofText.Barrett,Edward.ed.TheMITPress,1991,pp.115‐131.

[39] Tapper,C.;“Citationsasatoolforsearchinglawbycomputer”.InNiblett,B.(ed.);

ComputerScienceandLaw.1980.

[40] Tittel,Ed;Gaither,Mark;Hassinger,Sebastian;Erwin,Mike;WorldWideWebcom

HTML&CGI:BíbliadoProgramador.BerkeleyBrasilEditora,1996.

ISBN85‐7251‐417‐1.

[41] vCard:TheElectronicBusinessCard.AversitConsortiumSpecification.Version2.1,©

1996,InternetMailConsortium.Disponívelem:http://www.imc.org/pdi.

Page 143: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

126

[42] VolpeNunes,M.G.;Hasegawa,R.;et.all;“DesenvolvimentodeumRevisorGramatical

paraoPortuguêsContemporâneo”.RelatóriodoConvênioICMSC/USP‐

ITAUTEC/PHILCO.VersãoJulhode1995.Documentodecirculaçãorestrita.

[43] Wall,Larry;Christiansen,Tom;Schwartz,RandalL.;ProgrammingPerl.O’Reilly

Associates,Inc,1996.ISBN1‐56592‐149‐6.

[44] Wilson,Eve;“LinksandStructuresinHypertextsDatabasesforLaw”.Hypertext:

Concepts,SystemsandApplications–ProceedingsoftheEuropeanConferenceon

Hypertext,INRIA,France,November1990.Rizk,A.;Streitz,N.;André,J.(eds.);

CambridgeUniversityPress,NewYork,1990,pp.195‐223.ISBN0‐521‐40517‐3.

[45] Yankelovich,Nicole;NormanMeyrowitz;vanDam,Andries;“ReadingandWritingthe

ElectronicBook”.HypermediaandLiteraryStudies.Delany,Paul;Landow,GeorgeP.

(eds.);MITPress,Massachusetts,1991;pp53‐79.

[46] Yankelovich,Nicole;SmithKarenE.;Garrett,L.NancyandMeyrowitz,Norman;“Issues

inDesigningaHypermediaDocumentSystem”.InteractiveMultimedia.Editors

SueannAmbronandKristinaHooper,MicrosoftPress,1988.

Page 144: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

APENDICE

Page 145: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

Ap endice A GLossARIO PARA AS REGRAS DE PRODUC;Ao

PARA0 CONJUNTO DASNEjBs

DEFlNI<;Ao

Uma entidade com identificac;;ao unica dentro do conjunto denormas estatutarias jurfdicas brasileiras, denominada somente normapor comodidade, composta necessariamente por um cabec;;alhoseguido de um corpo.

Diversos tipos de abreviac;;ao para "numero" observados nas normas.

Diversos tipos de grafia para a preposic;ao "de" observados nasnormas.

AbrevN

PrepDE

Formato para data por extenso, indicando a data daaprovac;;ao/divulgac;;ao da norma.

Page 146: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

lERMO

Dia

MesAno

DEFINI<;:AO

Um dia de acordo com 0 calendario gregoriano, variando de 1 a 31.

Um mes do calendario gregoriano.

Formato especificando a representa<:;ao de um ana do calendariogregoriano.

Diversos tipos de grafia para a indica<:;ao de uma se<:;aoou paragrafounico.

NormaLabel

TipoJur

Se~aoLivro

Parte componente de uma norma que faz a identifica<:;ao da normaunicamente dentro do seu contexto, no caso 0 sistema de normas aque pertence e ao conjunto que engloba normas brasileiras em geral.Esta defini<:;ao de cabe<:;alho especifica a formata<:;ao atraves daidentifica<:;ao de seus sub-termos componentes, como a identifica<:;aodo tipo TipoJur, do seu numero NormalD e da sua data depublica<:;ao DataExt.

Parte do cabe~alho que consiste somente da identifica<:;ao da norma.

Estabelece determinados tipos de norma estatutarias jurfdicasbrasileiras.

Tipos de normas estatutarias jurfdicas considerados "especiais" porpossuirem uma institui<:;ao a eles associada.

Quaisquer outros tipos de normas estatutarias jurfdicas brasileiras quevenham a surgir, e que sejam nao-estatutarias saG especificamenteidentificadas nestas regras.

Tipos de normas estatutarias jurfdicas brasileiras especificamentepresentes na Constitui<:;ao Federal.

Quaisquer outros tipos de normas presentes na Constitui<:;ao Federal,que nao estao explicitamente identificadas na regra TipoConst.

Nome que se da em alternativa ao identificador oficial e comumentedado a uma norma para identificar, de modo geral em um escopoamplo, 0 assunto a que esta se refere. Por exemplo, 0 c6digo dasaguas, c6digo {forestal.

Paragrafo que segue a identifica<:;ao formal da norma e quenormalmente resume 0 assunto tratado. Tambem conhecidas comodisposi<;:6es preliminares.

Paragrafo que antecede 0 corpo da norma e que normalmenteespecifica quais as autoridades envolvidas na aprova<:;ao da norma, asautoridades envolvidas na execu<:;ao da norma e as leis que permitemtais atribui<:;6es.

Parte de uma norma que incorpora todo seu conteudo, podendo seruma ser;ao ou um componente.

Qualquer se<:;aode uma norma.

Um tipo de se<:;aode uma norma com caracteristicas especfficascomo a de possuir tftulos como subse<:;6es.

Um tipo de se<:;aode uma norma, normalmente caracterizado por setratar de um modo de organizar capftulos em temas generalizados.

Page 147: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

TERMO

Capitulo

OutraSec

LivLabel

TitLabel

Cap Label

SecLabel

DEFINI<;:AO

Um tipo de se<:;aode uma norma.

Um outro tipo de se<:;a.oque nao se encaixa em nenhum dos tiposespecificados e tem como caracterfstica possuir a palavra "Se<:;ao"como identificadora do seu infcio ou possuir somente 0 tftulo dase<:;aosem nenhuma palavra-chave identificadora.

Qualquer componente de uma norma que nao seja uma sec;ao,identificada como uma unidade com significado semanticoestabelecido.

Artigo de uma norma que segue uma numera<:;ao constante a partirsempre do numero 1, independente da existencia de qualquer tipode sec;ao.

Texto inicial de um artigo, correspondente ao primeiro paragrafo domesmo. Normalmente terminado par ponto no caso de final de fraseou por dois pontos (":") no caso do artigo possuir itens subordinados.

Conjunto de paragrafos pertencente a um outro componente denorma, como por exemplo um artigo.

Conjunto de itens numerados por letras minusculas do alfabeto,tambem conhecidos no meio jurfdico como a/fneas.

Conjunto de itens numerados par numeros romanos ou arabicos quenormalmente estao subordinados a um outro componente, como porexemplo um artigo.

Conjunto de itens que possuem um simbolo, normal mente 0

asterisco ("*") ou 0 hffen ("-"), como elemento para itemizac;ao, aoinves de utilizar letras ou numeros como os itens anteriores.

Componente de uma norma, correspondente a tabelas, graficos,equa<:;6es e similares.

Um paragrafo de uma norma, identificado unicamente dentro docomponente de 0 contem (artigo ou corpo de norma).

Um item numerico pertencente a c1assedos ItensNum, que pode seridentificado unicamente dentro do conjunto.

Um item identificado por letras minusculas do alfabeto,correspondente a alfnea, que pode ser identificado unicamentedentro do conjunto dos ItensLetra ao qual pertence.

Um item unico dentro de um conjunto de ItensCom, identificadopela ordem de apresenta<:;ao.

Disposi<:;6es finais de uma norma, que normalmente contem 0 local edata de sua publica<:;ao e os nomes das pessoas responsaveis por ela.

Um r6tulo que define a identifica<:;ao de uma sec;a.odo tipo Livro.

Um r6tulo que define a identificac.;ao de uma sec;:aodo tipo Tftulo.

Um r6tulo que define a identificac.;a.o de uma se<:;a.odo tipo Capftulo.

Um r6tulo que define a identifica<:;a.o de uma se<:;a.osem tipifica<:;aoespecffica.

Page 148: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

TERMO

Paraglabel

Artigolabel

Item letralabel

ItemNumlabel

Anexolabel

NormalD

Se~aolDArtigolD

ParaglD

ItemletralD

Tipoliv

TipoTit

TipoCap

TipoAnexo

Cita~ao

CitArtigo

SecTit

ParagUn

DEFlNI<;:;\O

Um r6tulo que identifica 0 infcio de um paragrafo.

Um r6tulo que identifica 0 inicio de um artigo.

Um r6tulo com formata<;:ao especifica que identifica um item letra.

Um r6tulo com formata<;:ao especifica que identifica um itemnumero.

Um r6tulo com formata<;:ao especifica que identifica um itemcomum.

Um r6tulo gue identifica 0 infcio de um anexo.

Identifica<;:ao numerica de uma norma.

Identifica<;:ao numerica de uma se<;:ao.

Identifica<;:ao numerica de um artigo.

Identifica<;:ao de um paragrafo.

Letra minuscula do alfabeto que identifica um item dentro de umconjunto.

Numero, normalmente em algarismos arabicos que identifica umitem dentro de um conjunto.

Palavras-chave que identificam 0 infcio de uma se<;:aodo tipoOutraSec.Palavras-chave que identificam 0 inicio de uma se<;:aodo tipo Livro.

Palavras-chave que identificam 0 inicio de uma se<;:aodo tipo Titulo.Palavras-chave que identificam 0 inicio de uma se<;:aodo tipoCapitulo.Palavras-chave gue identificam 0 inicio de um Anexo.

Uma cita<;:ao qualquer presente em uma norma, fundamental para aidentifica<;:ao de rela<;:6esentre diversas normas.

A cita<;:ao especifica de um outro c6digo ou sistema de normasdentro de uma norma. Esta cita<;:ao pode ser composta pelo nome doc6digo, identifica<;:ao da norma citada dentro do c6digo, do artigo,paragrafo, alinea e assim por diante.

Cita<;:ao de uma norma pertencente ao mesmo sistema de normas danorma que a cita. Pode possuir referencia a todos os componentesacima citados (artigo, paragrafo, alinea, etc.)

Cita<;:ao de unicamente um paragrafo dentro da mesma norma que 0

referencia.

Cita<;:ao de um artigo da mesma norma que 0 referencia.

Parte da identifica<;:ao de uma se<;:aoque representa seu titulo.

Diversos tipos de grafia para as palavras "paragrafo unico'! queidentificam um paragrafo de um determinado artigo dentro de umanorma.

Page 149: INVESTIGAÇÃO DE ROCESSO - teses.usp.br · hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo automático. Faz um levantamento detalhado das etapas

Institui~ao Instituic;:ao vinculada ao estabelecimento de uma determinadanorma. Em se tratando de normas juridicas estatutarias brasileiras, talinstituic;:ao esta restrita a representar instituic;:6es governamentaiscomo 0 CONAMA, IBAMA, DIREN entre outras.

Respons Conjunto de termos que especifica 0 "responsavel" pela norma. Poderepresentar uma instituic;:ao, ou um cargo. Alguns exemplos SaG: "0Presidente da Republica", "0 Chefe de Coverno Provis6rio daRepublica", "0 Conselho Nacional do Meio Ambiente - CONAMA","0 Diretor de Recursos Naturais Renovaveis", "0 Presidente doInstituto". E identificado, principalmente, atraves do uso destaspalavras-chave.

Abrev Quaisquer abreviaC;:6es utilizadas na lingua portuguesa, como porexemplo: etc., ex., V.S.a., limo., Sr., Sra" Prof., Prof.a, Prof.a

. Trata-sede um conjunto limitado, especificando quais SaGas abreviac;:6esvalidas.

Tabela A Clossario dos termos definidos na Tabela 6.

IFSC-USp SEnv':";'7) PE fliBtlOTECA •; ;.\ F I) q t.; II C 1. 0