Anotação Estrutural de Documentos e sua Semâ jcr/XML/publicacoes/teses/phd-jcr/tese-douto... ·

  • View
    217

  • Download
    0

Embed Size (px)

Text of Anotação Estrutural de Documentos e sua Semâ jcr/XML/publicacoes/teses/phd-jcr/tese-douto... ·

  • Anotao Estrutural deDocumentos e sua Semntica

    Especificao da Sintaxe, Semnticae Estilo para Documentos

    Jos Carlos Leite RamalhoDepartamento de Informtica - Escola de Engenharia -

    Universidade do Minho

    Superviso: Pedro Rangel Henriques

  • Anotao Estrutural de Documentos e sua Semntica: Especificao daSintaxe, Semntica e Estilo para Documentospor Jos Carlos Leite Ramalho e Superviso: Pedro Rangel Henriques

    Este documento descreve o trabalho realizado no mbito da tese de doutoramento do autor.

    O trabalho teve duas grandes linhas orientadoras. A estruturao de documentos, como amaneira de os tornar mais "ricos"e mais "vivos". E, a semntica dos documentos, desde aaparncia visual at interpretao (significado) do seu contedo. No fim, estas duas linhasacabaram por convergir na elaborao dum novo modelo de processamento documental.

    Ao longo da dissertao, ir ser apresentada uma comparao de modelos de processamentodocumental, ou publicao electrnica; referir-se- o processamento dos documentosnormais, que so apenas textos, e dos documentos anotados, que tm uma estrutura lgica eum contedo. Esta anlise ser ilustrada com alguns casos prticos que se desenvolveram aolongo deste trabalho.

    As vantagens dos documentos estruturados sero apresentadas e os passos para aimplementao de um sistema de produo de documentos estruturados sero descritos.

    A seguir, apresentar-se- o conjunto de necessidades e requisitos actuais que se podemcolocar a um sistema destes e analisar-se- aquilo que se designou por "semntica dosdocumentos". As necessidades identificadas esto relacionadas com o problema da qualidadede contedos na publicao electrnica. A qualidade em publicaes electrnicas pode seranalisada segundo vrios parmetros, desde o aspecto visual, o lingustico e literrio, correco da informao (significado, semntica). A tecnologia existente permite de algumaforma automatizar e normalizar todos estes aspectos, excepto o ltimo. Foi nodesenvolvimento de uma soluo para este problema que se centrou esta dissertao: comoadicionar semntica esttica (condies contextuais ou invariantes) aos documentos; e comoprocessar esta semntica esttica dum modo integrado com a tecnologia existente.

    So apresentadas duas vias para a soluo da especificao e processamento da semnticaesttica, a primeira segue uma aproximao via modelos abstractos, a outra, uma aproximaovia gramticas de atributos.

    No fim, uma das solues ser escolhida e integrada num sistema (S4) que sugere um novomodelo de processamento para documentos estruturados e que explora alguns paradigmasnovos neste contexto (adoptam-se para os documentos metodologias utilizadas nas linguagensde programao como consequncia duma hiptese levantada pelo autor, da existncia dum

  • paralelismo entre o processamento de documentos e o processamento das linguagens deprogramao), que vo desde a anlise da informao at ao seu tratamento.

    A dissertao inclui a apresentao dos passos seguidos na produo do seu prprio texto,uma vez que se adoptaram as solues defendidas e nela apresentadas.

    Este documento foi submetido, pelo autor, Escola de Engenharia da Universidade do Minho para obteno do grau

    de Doutor. Os direitos de cpia do documento encontram-se reservados, portanto, instituio e autor do mesmo.

  • Dedicatria minha famlia, a Carmen, o David, e o pequeno Leonardo, que toleraram asminhas ausncias e a minha obcesso durante um largo perodo de tempo.

  • ndiceAgradecimentos......................................................................................................14

    1. Introduo ..........................................................................................................15

    1.1. A Tese .......................................................................................................171.2. Estrutura da Dissertao ...........................................................................18

    2. Notaes e Formalismos utilizados...................................................................21

    2.1. CAMILA: uma pequena introduo .........................................................212.2. Gramticas de Atributos ...........................................................................25

    2.2.1. Clculo de Atributos ......................................................................272.2.2. Synthesizer Generator (SGen) .......................................................28

    3. Documentao Estruturada ..............................................................................31

    3.1. Anotao ...................................................................................................323.1.1. Anotao Procedimental ................................................................333.1.2. Anotao Descritiva .......................................................................353.1.3. Linguagens de Anotao................................................................363.1.4. Formatao e/ou Estrutura? ...........................................................37

    3.1.4.1. Anotao orientada ao formato...........................................373.1.4.2. Anotao orientada estrutura............................................383.1.4.3. Anotao orientada ao contedo.........................................393.1.4.4. Uma anotao equilibrada...................................................39

    3.2. Documentos e Linguagens de Anotao...................................................403.2.1. Evoluo ........................................................................................413.2.2. O Sentido Ecumnico do HTML ...................................................42

    4. SGML - ISO8879 ...............................................................................................44

    4.1. Documentos SGML ..................................................................................444.2. Arquitectura de um sistema SGML ..........................................................47

    4.2.1. Textos SGML.................................................................................484.2.2. Um ou mais DTDs .........................................................................494.2.3. Um parser.......................................................................................494.2.4. Um sistema de processamento .......................................................50

    4.3. Componentes dum Documento SGML.....................................................514.3.1. Prlogo...........................................................................................514.3.2. DTD ...............................................................................................53

    4.3.2.1. Elementos............................................................................55

    5

  • 4.3.2.1.1. lgebra do Contedo ...............................................564.3.2.1.1.1. Operadores de Conexo ................................564.3.2.1.1.2. Operadores de Ocorrncia.............................57

    4.3.2.1.2. Excepes ................................................................584.3.2.2. Atributos .............................................................................604.3.2.3. Entidades.............................................................................63

    4.3.2.3.1. Conceitos..................................................................644.3.2.3.2. Entidades Gerais ......................................................664.3.2.3.3. Entidades caracter ....................................................674.3.2.3.4. Entidades externas ...................................................684.3.2.3.5. Entidades paramtricas ............................................71

    4.3.2.4. Instrues de Processamento ..............................................714.3.3. Instncia .........................................................................................72

    5. O Ciclo de Desenvolvimento dos Documentos SGML....................................74

    5.1. Anlise Documental..................................................................................745.1.1. Determinao da rea de aplicao................................................765.1.2. Definio de uma estratgia para o DTD.......................................775.1.3. Identificao dos utilizadores.........................................................775.1.4. O nome do DTD.............................................................................775.1.5. Os elementos lgicos do DTD .......................................................785.1.6. Elemento ou atributo? ....................................................................795.1.7. Determinao da estrutura hierrquica ..........................................815.1.8. Diagramas de Estrutura..................................................................82

    5.2. Edio de Documentos SGML .................................................................885.3. Validao...................................................................................................895.4. Estilo e especificao da Forma................................................................935.5. Formatao e Transformao....................................................................935.6. Armazenamento ........................................................................................95

    6. Documentos e Semntica...................................................................................99

    6.1. Documentos e Programas .......................................................................1006.2. Semntica Dinmica: o DSSSL ..............................................................101

    6.2.1. Componentes funcionais de especificao...................................1036.2.2. Modelo Conceptual.........................................................