117
UNIVERSIDADE DO VALE DO ITAJAÍ CENTRO DE CIÊNCIAS TECNOLÓGICAS DA TERRA E DO MAR CURSO DE CIÊNCIA DA COMPUTAÇÃO SISTEMA ELETRÔNICO DE DOCUMENTOS INSTITUCIONAIS DA UNIVALI Área de Sistema de Informação por Jediael de Lima Patrício Luis Carlos Martins, Esp. Orientador Itajaí (SC), junho de 2005 Create PDF with GO2PDF for free, if you wish to remove this line, click here to buy Virtual PDF Printer

Área de Sistema de Informação por Jediael de Lima Patrício ...siaibib01.univali.br/pdf/Jediael Patricio.pdf · versões e mecanismos de divulgação de forma agrupada. Do ponto

Embed Size (px)

Citation preview

UNIVERSIDADE DO VALE DO ITAJACENTRO DE CINCIAS TECNOLGICAS DA TERRA E DO MAR

CURSO DE CINCIA DA COMPUTAO

SISTEMA ELETRNICO DE DOCUMENTOSINSTITUCIONAIS DA UNIVALI

rea de Sistema de Informao

por

Jediael de Lima Patrcio

Luis Carlos Martins, Esp.Orientador

Itaja (SC), junho de 2005

Create PDF with GO2PDF for free, if you wish to remove this line, click here to buy Virtual PDF Printer

http://www.go2pdf.com

i

UNIVERSIDADE DO VALE DO ITAJACENTRO DE CINCIAS TECNOLGICAS DA TERRA E DO MAR

CURSO DE CINCIA DA COMPUTAO

SISTEMA ELETRNICO DE DOCUMENTOSINSTITUCIONAIS DA UNIVALI

rea de sistema de informao

por

Jediael de Lima Patrcio

Relatrio apresentado Banca Examinadora doTrabalho de Concluso do Curso de Cincia daComputao para anlise e aprovao.Orientador: Luis Carlos Martins, Esp.

Itaja (SC), junho de 2005

Create PDF with GO2PDF for free, if you wish to remove this line, click here to buy Virtual PDF Printer

http://www.go2pdf.com

SUMRIO

LISTA DE ABREVIATURAS ............................................................... ivLISTA DE FIGURAS.............................................................................. vLISTA DE TABELAS ............................................................................ viRESUMO................................................................................................ viiABSTRACT ..........................................................................................viii1. INTRODUO ................................................................................... 91.1. OBJETIVOS................................................................................................... 121.1.1. Objetivo Geral.............................................................................................. 121.1.2. Objetivos Especficos ................................................................................... 121.2. METODOLOGIA .......................................................................................... 131.3. ESTRUTURA DO TRABALHO ................................................................... 162. FUNDAMENTAO TERICA .................................................... 172.1. DEFINIO................................................................................................... 172.2. DEFINIO DE DOCUMENTOS ............................................................... 182.2.1. Organizao de documentos........................................................................ 192.2.2. Processo de digitalizao ............................................................................. 202.2.3. Recuperao de documentos ....................................................................... 212.3. TECNOLOGIAS DO GED............................................................................ 222.3.1. Solues empresariais .................................................................................. 242.4. BANCO DE DADOS PARA GED................................................................. 272.4.1. Introduo .................................................................................................... 272.4.2. Banco de Dados Objeto-Relacional............................................................. 282.4.3. Banco de Dados ditos Textuais.................................................................... 302.5. INDEXAO AUTOMTICA..................................................................... 322.5.1. Identificao de Palavras............................................................................. 332.5.2. Remoo de Stop-Words ............................................................................. 342.5.3. Word Stemming ........................................................................................... 352.5.4. Word Phrase Formation.............................................................................. 362.6. NDICES......................................................................................................... 382.6.1. ndices Invertidos......................................................................................... 392.6.2. ndices para a Prxima Palavra.................................................................. 402.7. LOBS (LARGE OBJECT)............................................................................. 422.7.1. Tipos de dados.............................................................................................. 422.7.2. Blob (Binary Large Object)......................................................................... 432.7.3. Tabelas Blob................................................................................................. 432.8. ORACLE TEXT............................................................................................. 452.8.1. ndices Oracle Text ...................................................................................... 46

Create PDF with GO2PDF for free, if you wish to remove this line, click here to buy Virtual PDF Printer

http://www.go2pdf.com

iii

2.8.2. Recuperar Informao ................................................................................ 513. DESENVOLVIMENTO.................................................................... 573.1. INTRODUO .............................................................................................. 573.2. LEVANTAMENTO DE REQUISITOS........................................................ 573.3. MODELAGEM DE PROCESSOS................................................................ 583.3.2. Diagrama de Atividades .............................................................................. 623.4. DIAGRAMA DE CLASSE ............................................................................ 663.5. MODELAGEM DE DADOS ......................................................................... 673.5.1. Dicionrio de Dados ..................................................................................... 693.6. IMPLEMENTAO ..................................................................................... 723.6.1. Oracle Text................................................................................................... 723.6.2. Sistema.......................................................................................................... 783.7. VALIDAO E PLANEJAMENTO PARA IMPLANTAO ................. 874. CONCLUSO ................................................................................... 89REFERNCIAS BIBLIOGRFICAS ................................................. 91GLOSSRIO.......................................................................................... 95APNDICE A Modelagem................................................................. 96APNDICE B ARTIGO................................................................... 107ANEXOS C........................................................................................... 117

Create PDF with GO2PDF for free, if you wish to remove this line, click here to buy Virtual PDF Printer

http://www.go2pdf.com

LISTA DE ABREVIATURAS

ACID Propriedades de Atomicidade, Consistncia, Isolamento e DurabilidadeADF Automatic Document FeederAPI Application Program InterfaceBLOB Binary Large ObjectB+ Abreviao utilizada para rvore BCTTMAR Centro de Cincias Tecnolgicas da Terra e do MarDDE Dynamic Data ExchangeDI Document ImagingDLL Dynamic Link LibraryDM Document ManagementGED Gerenciamento Eletrnico de DocumentosHTML Linguagem de Marcaco HypertextoICR Reconhecimento Inteligente de caracteres manuscritosISO International Organization for standardizationOCR Optical Character RecognitionPDF Adobe Reader DownloadRF Requisito FuncionalSGBD Sistema Gerenciador Banco de DadosSGBDOO Sistema Gerenciador Banco de Dados Orientado ObjetoSGBDOR Sistema Gerenciador Banco de Dados Objeto RelacionalSGBDR Sistema Gerenciador Banco de Dados RelacionalSQL Structured Query LanguageTCC Trabalho de Concluso de CursoTI Tecnologia da informaoTIFF Tagged Image File FormatUNIVALI Universidade do Vale do ItajaXML eXtended Markup Language

Create PDF with GO2PDF for free, if you wish to remove this line, click here to buy Virtual PDF Printer

http://www.go2pdf.com

LISTA DE FIGURAS

Figura 1. Viso geral de uma interao com GED..........................................................................11Figura 2. Funo Similariedade .....................................................................................................31Figura 3. Estrutura de uma Lista Invertida .....................................................................................33Figura 4. Identificao de termos vlidos.......................................................................................34Figura 5.Identificao de Stop-Words ............................................................................................35Figura 6.Etapas do processo de indexao automtica ...................................................................37Figura 7. ndice invertido .............................................................................................................40Figura 8. ndice para a prxima palavra .........................................................................................41Figura 9. Comando SQL para criao da tabela .............................................................................43Figura 10. Comando SQL para popular a tabela.............................................................................44Figura 11. Comando SQL para criao dos ndices na tabela .........................................................47Figura 12. Estrutura de ndice para atualizao da tabela ...............................................................47Figura 13. Estrutura de ndice para Configurao ..........................................................................48Figura 14. Configurao de palavras para a Stoplist. ......................................................................51Figura 15. Configurao de termos e frases para a Stoplist.............................................................51Figura 16. Configurao de termos e frases para a Stoplist.............................................................51Figura 17. Configurao de termos e frases para a Stoplist.............................................................51Figura 18. Comando de recuperao de Informao com comando constains ................................52Figura 19. Exemplo com uso de operador. .....................................................................................53Figura 20. Comando de criao de uma enciclopdia definida como Case-insensitive....................54Figura 21. Comando de criao de frase para incorporar ao Thesaurus. .........................................54Figura 22. Comando de criao do relacionamento entre as frases. ................................................55Figura 23. Comando de recuperao utilizando sinnimos.............................................................55Figura 24. Comando de seleo com score. ...................................................................................55Figura 25. Organizao dos Use-Cases..........................................................................................59Figura 26. Diagramas de casos de uso do sistema: viso do administrador.....................................60Figura 27. Diagramas de atividade: consulta de documentos..........................................................64Figura 28. Diagramas de atividade: cadastro de documentos..........................................................65Figura 29. Diagrama de Classe ......................................................................................................66

Create PDF with GO2PDF for free, if you wish to remove this line, click here to buy Virtual PDF Printer

http://www.go2pdf.com

LISTA DE TABELAS

Tabela 1. Aplicaes da Tecnologia da Informao .......................................................................18Tabela 2 . Solues em produtos GED...........................................................................................26Tabela 3. Fornecedores e seus produtos .........................................................................................30Tabela 4. Lista de operadores do grupo1........................................................................................52Tabela 5. Lista de operadores do grupo2........................................................................................53Tabela 6. - Descrio das Tabelas de Dados utilizadas no Sistema.................................................69Tabela 7. Dicionrio de dados da tabela TBL_DOCUMENTO......................................................69Tabela 8. Dicionrio de dados da tabela TBL_CATEGORIAS ......................................................70Tabela 9. Dicionrio de dados da tabela TBL_MENU_USUA.......................................................70Tabela 10. Dicionrio de dados da tabela TBL_MENU .................................................................70Tabela 11. Dicionrio de dados da tabela TBL_LOGS_ACESSO..................................................70Tabela 12. Dicionrio de dados da tabela TBL_CONSELHOS......................................................70Tabela 13. Dicionrio de dados da tabela TBL_VINCULAO ...................................................70Tabela 14. Dicionrio de dados da tabela TBL_TIP_VINCULO....................................................71Tabela 15. Dicionrio de dados da tabela TBL_PESSOA ..............................................................71Tabela 16. Dicionrio de dados da tabela TBL_DOC_ARMAZENA.............................................71Tabela 17. Dicionrio de dados da tabela TBL_RES_DOCUMENTO ...........................................71Tabela 18. Dicionrio de dados da tabela TBL_PRI_CATEGORIA...............................................71Tabela 19. Dicionrio de dados da tabela TBL_USUARIOS .........................................................72Tabela 20. Dicionrio de dados da tabela TBL_CATE_USUA ......................................................72Tabela 21. Resultado da seleo utilizando SCORE.......................................................................78

Create PDF with GO2PDF for free, if you wish to remove this line, click here to buy Virtual PDF Printer

http://www.go2pdf.com

RESUMO

PATRICIO, Jediael de Lima. Sistema Eletrnico de Documentos Institucionais da UNIVALI.Itaja, 2005. 113 f. Trabalho de Concluso de Curso (Graduao em Cincia da Computao)Centro de Cincias Tecnolgicas da Terra e do Mar, Universidade do Vale do Itaja, Itaja, 2005.

Este Trabalho de Concluso de Curso de Cincia da Computao, teve como objetivo odesenvolvimento de uma aplicao, com caractersticas de um sistema de informao paraarmazenamento e recuperao de documentos institucionais da Universidade do Vale do Itaja UNIVALI. O sistema foi requisitado pela Secretaria dos Conselhos Superiores da Universidadepara suprir a carncia de uma aplicao que possibilitasse aos gestores efetuarem consultas nalegislao institucional de maneira mais eficiente, auxiliando-o no processo decisrio. Com basenas caractersticas de uma aplicao de Gerenciamento Eletrnico de Documentos (GED), o sistemafoi construdo para funcionar no ambiente Web, tendo sido implementado na linguagem deprogramao PHP, suportado pelo Sistema Gerenciador de Banco de Dados (SGBD) Oracle 9.i.com o pacote Oracle Text, o qual rene algumas funcionalidades para tratamento de documentostextuais. De acordo com a proposta do projeto, pretende-se disponibilizar o GED no ambiente daintranet da UNIVALI, to logo encerre a validao e os testes de funcionalidade.

Palavras-chave: Sistema de informao. Gerenciamento Eletrnico de Documentos. Oracle Text.

Create PDF with GO2PDF for free, if you wish to remove this line, click here to buy Virtual PDF Printer

http://www.go2pdf.com

ABSTRACT

This Work of Conclusion of Course of Computer science, had as objective the development of anapplication, with characteristics of a system of information for storage and institucional documentrecovery of the University of the Valley of Itaja - UNIVALI. The system was requested by theSecretariat of the Superior Advice of the University to supply the lack of an application that madepossible the managers to effect consultations in the institucional legislation in more efficient way,assisting it in the power to decide process. On the basis of the characteristics of an application ofElectronic Management of Documentos (GED), the system was constructed to function in the Webenvironment, having been implemented in the programming language PHP, supported for theGerenciador System of Bank of Dados (SGBD) Oracle 9.i. with the package Oracle Text, whichcongregates some functionalities for literal document treatment. In accordance with the proposalof the project, is intended to disponibilizar the GED in the environment of the Intranet of theUNIVALI, so soon it locks up the validation and the tests of functionality.

Keywords: System of information. Electronic Document management. Oracle Text

Create PDF with GO2PDF for free, if you wish to remove this line, click here to buy Virtual PDF Printer

http://www.go2pdf.com

1. INTRODUO

A Universidade do Vale do Itaja, assim como as demais Instituies de Ensino Superior,

possuem seus prprios documentos internos, que so documentos produzidos dentro da sua

estrutura organizacional, abrangendo a Reitoria, Pr-Reitorias e Conselhos Superiores, cuja

finalidade estabelecer diretrizes e procedimentos para a gesto institucional.

Esses documentos so elaborados, revisados e, aps um parecer de deferimento, passam a

compor a normatizao da universidade, podendo revogar legislaes anteriores. Entre os

documentos institucionais os principais so: estatutos, regimentos, resolues, determinaes,

portarias, instrues normativas, pareceres e editais.

Atualmente, a UNIVALI no dispe de um sistema de Gerenciamento Eletrnico de

Documentos (GED), ou seja, tecnologia para captar, armazenar, recuperar e gerenciar informaes,

o que dificulta o processo de divulgao e restringe o controle de verses dos diversos documentos

produzidos, resultando, por vezes, em tomadas de deciso com base em documentos ultrapassados

ou incompletos.

Alguns documentos possuem vigncia, com incio e fim determinados, outros permanecem

vigentes at que sejam revogados. Outra caracterstica comum nas resolues, determinaes e

instrues normativas haver vinculao com outros documentos, o que requer maior controle de

verses e mecanismos de divulgao de forma agrupada.

Do ponto de vista da utilizao dos documentos, a maior dificuldade dos gestores saber

identificar quais os documentos relacionados e vigentes com as necessidades de tomada de deciso.

Como exemplo, se um coordenador precisar informar ao acadmico sobre as normas e

procedimentos para solicitao de trancamento de matrcula, ser necessrio primeiro identificar os

documentos vigentes que tratam do assunto, o que requer um tempo considervel tanto na

recuperao quanto na checagem da validade desses documentos.

Considerando que os documentos institucionais so uns dos principais instrumentos para

apoiar a tomada de deciso, durante o trabalho de concluso de curso desenvolveu-se um sistema de

informao com caractersticas de GED, o qual possibilita a indexao, armazenamento e

recuperao dos documentos institucionais.

Create PDF with GO2PDF for free, if you wish to remove this line, click here to buy Virtual PDF Printer

http://www.go2pdf.com

10

Segundo Laudon e Laudon (1999), os sistemas de informao essencialmente transformam a

informao em uma forma utilizvel para a coordenao de fluxo de trabalho de uma organizao,

ajudando o gerente a uma tomada de deciso.

Um sistema de informao pode ser definido como um conjunto de componentes inter-relacionados trabalhando juntos para coletar, armazenar, processar e distribuir informaocom a finalidade de facilitar o planejamento, o controle, a coordenao, a anlise e oprocesso decisrio em organizaes LAUDON E LAUDON (1999).

O trabalho proposto objetivou construir uma ferramenta para auxiliar na organizao dos

documentos institucionais de forma eletrnica, propiciando agilidade na recuperao das

informaes e auxiliando as tomadas de deciso por parte dos gestores, bem como facilitando a

divulgao aos demais integrantes da Universidade (professores, funcionrios tcnico-

administrativos, acadmicos), conforme a rea de atuao e escopo dos documentos.

A inteno inicial foi disponibilizar o acesso ao sistema eletrnico de documentos a partir da

Intranet da UNIVALI, aproveitando a autenticao dos usurios para habilitar as funcionalidades

previstas para cada categoria (gestores, professores, funcionrios etc). Entretanto, por se tratar de

um projeto acadmico, desenvolvido como trabalho de concluso de curso e utilizando recursos

ainda no avaliados pelo Departamento de Tecnologia da Informao da UNIVALI como, o pacote

Oracle Text, optou-se por desenvolver a aplicao sem a integrao com o cadastro de pessoas da

Intranet da Universidade at que haja uma aprovao da aplicao para torn-la corporativa.

No GED a recuperao dos documentos realizada a partir de termos ou de palavras-chave.

O sistema permite disponibilizar a vinculao entre os documentos, identificando as verses

vigentes e revogadas. Para tanto, foi utilizado um sistema gerenciador de banco de dados que

manipule tipos de dados textuais e conceitos de GED.

Em uma anlise da tecnologia da informao, o GED contribui para a organizao da grande

quantidade de documentos gerados pelos conselhos superiores. A manipulao de documentos faz

parte da realidade institucional e cada documento uma fonte no estruturada de informao que

pode ser perdida quando no bem organizada. De acordo com Carvalho (2000), o GED permite

uma recuperao mais eficiente, melhor segurana e controle de verso dos documentos. Muitas das

caractersticas do GED, como catalogao e indexao, foram herdadas dos tradicionais sistemas de

recuperao da informao que so amplamente estudados no campo da Cincia da Informao.

Create PDF with GO2PDF for free, if you wish to remove this line, click here to buy Virtual PDF Printer

http://www.go2pdf.com

11

Zotto (2002) define GED como uma tecnologia da computao que visa captar, armazenar,

recuperar e gerenciar informaes de forma eletrnica. Os documentos originais (em papel) so

convertidos para os formatos de imagens eletrnicos, indexados (gerao ndices de pesquisa) e

arquivados em equipamentos com capacidade alta de armazenamento.

Oliveira Filho (2004) relata que o grande diferencial da soluo de GED sem dvida o

recurso de busca textual. Os documentos importados no sistema passam por um processo de

catalogao, tratamento de texto e armazenamento, referenciando o diretrio do sistema operacional

onde os documentos esto disponveis para as consultas.

Rocha et al. (2002) descreve que as informaes so armazenadas em um banco de dados

que manipule textos e imagens, onde podem ser armazenado e recuperado, por ferramentas que

trabalham com indexao de documentos. O banco que manipula o chamado Banco de Dados

Textual, que uma coleo de documentos que pode tambm ser visto como um largo conjunto de

registros, em que cada registro contm apenas uma lista de palavras de tamanho arbitrrio. Este

largo registro pode ser comparado ao campo BLOB (Binary Large Object), criado para

armazenamento de qualquer tipo de informao.

Pode-se citar como tecnologias de GED, Document Imaging (DI), Document management

(DM), Workflow entre outras. Para compreender o sistema proposto, a Figura 1 ilustra uma possvel

interao com o GED.

Figura 1. Viso geral de uma interao com GED.

GED e Servidor Banco de Dados

WEB

Usurios quearmazenam documentos

Usurios que Consultamdocumentos

Create PDF with GO2PDF for free, if you wish to remove this line, click here to buy Virtual PDF Printer

http://www.go2pdf.com

12

A implementao dessa aplicao GED para a Intranet foi desenvolvida com uma

linguagem de programao voltada para WEB, o PHP, utilizando como banco de dados, ORACLE

9i, que possa realizar armazenamento das informaes textuais. A UML (Unified Modeling

Language) foi utilizada para a modelagem e documentao da aplicao.

1.1. OBJETIVOS

1.1.1. Objetivo Geral

O objetivo geral deste Trabalho de Concluso de Curso foi o desenvolvimento de um

sistema de informao para armazenamento e recuperao de documentos institucionais da

Universidade do Vale do Itaja.

1.1.2. Objetivos Especficos

Os objetivos especficos desse trabalho foram os seguintes:

Pesquisa dos conceitos e tecnologias de indexao, armazenamento e recuperao

em Banco de Dados;

Pesquisa de tecnologias e produtos de GED no dito Banco de Dados Textuais;

Realizao do levantamento de requisitos do GED institucional;

Definio da arquitetura do sistema (tecnologias/ferramentas);

Elaborao da modelagem do sistema;

Implementao e testes da aplicao;

Validao da aplicao;

Implantao da aplicao para um conjunto de documentos em um SGDB que

manipule documentos (formatos PDF e DOC);

Teste e avaliao da utilizao por parte dos usurios; e

Documentao do desenvolvimento do projeto.

Create PDF with GO2PDF for free, if you wish to remove this line, click here to buy Virtual PDF Printer

http://www.go2pdf.com

13

1.2. METODOLOGIA

Foram necessrias cinco etapas para a execuo deste projeto de pesquisa e cumprimento

dos objetivos especficos apresentados anteriormente. As etapas (1) estudo (2) modelagem foram

realizadas durante a disciplina Trabalho de Concluso de Curso I (TCC I) do 9 perodo do curso,

enquanto as demais foram realizadas na disciplina TCC II do 10 perodo do curso, ou seja, etapas

(3) desenvolvimento (4) validao (5) documentao.

Etapa 1: Estudo

Essa etapa visou definir exatamente o tema deste projeto e adquirir o conhecimento

necessrio sobre as solues e tecnologias existentes com o objetivo de desenvolver a aplicao,

incluindo as seguintes atividades:

Pesquisa dos conceitos e tecnologias de indexao, armazenamento e recuperao

no ditos bancos de dados textuais: a pesquisa foi realizada atravs da Internet, por

sites de procura como o Google, Yahoo e Lycos. A pesquisa foi iniciada com a busca

de artigos cientficos que referenciassem a tecnologia de indexao, armazenamento

e recuperao. A pesquisa se estendeu a outros sites, em portugus e ingls, que

tratavam do assunto. Tambm foi realizada uma pesquisa em livros especializados

em indexao de documentos;

Pesquisa de tecnologias e produtos de GED no ditos bancos de dados textuais: a

pesquisa de tecnologias e solues em GED ocorreu por meio por sites de procura

como Google, Yahoo e Lycos. A anlise das informaes encontradas certificou a

procedncia das mesmas, sua quantidade, relevncia, caractersticas desejveis e

limitaes relacionadas aplicao desejada;

Realizao do levantamento de requisitos do GED institucional: a pesquisa se

realizou juntamente com os setores geradores de documentos institucionais, por

exemplo, Secretria dos Conselhos Superiores. Foram realizadas entrevistas para

obter detalhes que definissem os requisitos para o GED, sendo uma atividade

imprescindvel para a construo do sistema proposto; e

Definio da arquitetura do sistema (tecnologias/ferramentas): a definio da

arquitetura utilizada foi elaborada a partir das pesquisas de tecnologias de Sistemas

Create PDF with GO2PDF for free, if you wish to remove this line, click here to buy Virtual PDF Printer

http://www.go2pdf.com

14

Gerenciadores de Banco de Dados (SGBD) em ambientes de programao Web

(opo foi o PHP em funo da estrutura da Intranet da Univali), bem como a

utilizao do campo BLOB que se adequou aos requisitos definidos. Os principais

critrios para a definio do SGBD foram o formato e o tempo de recuperao dos

documentos textuais em um banco de dados, com a utilizao do pagote Oracle Text,

que possui mecanismos de indexao e armazenamento de documentos.

Etapa 2 : Modelagem

Esta etapa visou elaborar a modelagem de processos e de dados do sistema proposto, levando

em considerao o funcionamento desejado da aplicao GED no SGBD selecionado, incluindo a

seguinte atividade:

Elaborao da modelagem do sistema: foram realizados a anlise e o projeto do

sistema proposto, compreendendo os requisitos, especificaes do sistema GED.

Foram utilizados os seguintes artefatos da UML: Casos de Uso, Diagrama de

Atividades, Diagrama de Classes e Projeto de Banco de Dados.

Etapa 3 : Desenvolvimento

Esta etapa visou transformar o modelo de dados e de processos da etapa de modelagem

numa aplicao GED suportada por um banco de dados, incluindo a seguinte atividade:

Implementao e teste da aplicao: com base na modelagem, a implementao da

aplicao foi feita usando a linguagem de programao PHP e o SGBD Oracle,

contemplando os testes de implementao e parte da validao dos requisitos funcionais

e no funcionais.

Etapa 4 : Validao e Implantao

Nesta etapa est sendo realizada uma experimentao do GED com o objetivo de validar os

requisitos definidos, eliminando erros existentes em sua modelagem ou desenvolvimento, incluindo

as seguintes atividades:

Validar a aplicao: os testes de validao sero realizados por alguns gestores (dois

coordenadores de curso e um diretor de centro) e funcionrios tcnico-administrativos (

uma secretria dos conselhos superiores);

Create PDF with GO2PDF for free, if you wish to remove this line, click here to buy Virtual PDF Printer

http://www.go2pdf.com

15

Implantao da aplicao para um conjunto de documentos institucionais: a implantao

da aplicao ser feita aps a aprovao do Departamento de Tecnologia da Informao,

uma vez que o GED ser instalado num dos servidores corporativos da Universidade.

Pretende-se restringir a implantao para um conjunto de documentos, testando o

processo de indexao, armazenamento e recuperao eletrnica dos mesmos; e

Avaliar a utilizao por parte dos usurios: os testes para avaliar a implementao sero

realizados inicialmente pela Coordenao do Curso de Cincia da Computao, tanto

como gestor como membro de colegiado, analisando a utilidade e funcionalidade da

aplicao para auxiliar no processo decisrio.

Etapa 5 : Documentao

Esta etapa visou deixar registrado todo o processo pertinente aplicao GED, permitindo

que outros pesquisadores reproduzam a nova soluo, incluindo as seguintes atividades:

Documentao da proposta (TCC I): a redao do TCC I foi realizada ao longo do

primeiro semestre 2004, atravs das produes textuais que so os indicadores fsicos

das atividades j planejadas. Procurou-se ter um texto final conciso, claro, bem

apresentado e com boa cadncia. O objetivo do TCC I foi definir bem o tema/problema

de pesquisa, justificar sua importncia e abrangncia, fornecer o referencial terico e

apresentar a soluo proposta; e

Documentao da aplicao pronta (TCC II): a redao do TCC II foi realizada ao longo

do segundo semestre de 2004 e primeiro semestre de 2005, atravs das produes

textuais que so os resultados das atividades realizadas. Seguindo a redao do TCC I o

texto final procurou estar conciso, claro, bem apresentado e com boa cadncia. O

objetivo do TCC II foi documentar o desenvolvimento da soluo proposta, de forma

que possa ser reproduzida por outros pesquisadores, alm de apresentar a verificao e

validao do projeto e, bem como os resultados alcanados e as concluses.

Create PDF with GO2PDF for free, if you wish to remove this line, click here to buy Virtual PDF Printer

http://www.go2pdf.com

16

1.3. ESTRUTURA DO TRABALHO

Este trabalho est estruturado em 4 captulos descritos a seguir:

Neste captulo, Introduo, foram expostos o problema a ser resolvido, os objetivos

pretendidos e, a metodologia adotada para cumprimento dos objetivos estabelecidos.

O segundo captulo apresenta a fundamentao terica necessria para o desenvolvimento

do trabalho, abordando especialmente os assuntos GED e SGBD quanto aos mecanismos de

indexao e recuperao de documentos.

O terceiro captulo apresenta o desenvolvimento do trabalho, para qual seguiu-se as etapas

de construo e validao do sistema de informao, com caractersticas de um GED, a partir da

definio do escopo da aplicao e das especificaes dos processos apresentados no TCC I.

O quarto captulo apresenta as concluses sobre o sistema implementado.

Create PDF with GO2PDF for free, if you wish to remove this line, click here to buy Virtual PDF Printer

http://www.go2pdf.com

17

2. FUNDAMENTAO TERICA

2.1. DEFINIO

Um sistema de gerenciamento de documentos um sistema de informao capaz de

armazenar, recuperar e manter a integridade de documentos, entre outras funcionalidades. Diversas

razes explicam a atual efervescncia do mercado de gerncia de documentos. A principal delas a

percepo da vital importncia que os documentos possuem como repositrio do conhecimento das

organizaes, uma vez que a maior parte de suas informaes vitais esto contidas em documentos

no-estruturados. (SADIQ, 1997, apud MACEDO, 2003).

GED (Gerenciamento Eletrnico de Documentos) nada mais do que a transformao do

documento papel em documento eletrnico, agregando a ele elementos que possibilitem a sua

recuperao de uma forma rpida, segura e eficaz (MONACO, 1999).

Mas a viso de um GED pode ter uma outra definio, pois com a evoluo das tecnologias

e dos sistemas de informao, houve a necessidade de integrao total entre processos e o GED est

genericamente embutido nas ferramentas de tomada de deciso alm de ter multiplicado-se para

auxiliar em diversas reas como gerenciamento de documentos tcnicos, gerenciamento de

documentos de normas de qualidade International Organization for Standardization (ISO),

Reconhecimento Inteligente de Caracteres Manuscritos (ICR), anlise e vetorizao de mapas,

controle do fluxo de processos, gerenciamento de relatrios, entre outras (CENADEM, 2002).

O GED uma tecnologia da computao que visa captar, armazenar, recuperar e gerenciar

informaes de forma eletrnica. Os documentos originais (em papel) so convertidos para os

formatos de imagens eletrnicas, indexados (gerao de ndices de pesquisa) e arquivados em

equipamentos com capacidade alta de armazenamento. Esta converso feita utilizando-se

equipamento denominado escaner (scanner) que faz a varredura do documento, transformando-o

em uma informao digital que ser reconhecida pelo computador (ZOTTO, 2002).

Segundo Pacini (2002) GED converte informaes que podem ser voz, texto e imagens para

a forma digital. Funciona com software e hardware especficos e usa as mdias eletrnicas, em

geral, para armazenamento. Um sistema de GED usa a tecnologia da informao para captar,

armazenar, localizar e gerenciar verses digitais das informaes. O GED implementa

categorizao de documentos, tabelas de temporalidade, aes de disposio e controla nveis de

Create PDF with GO2PDF for free, if you wish to remove this line, click here to buy Virtual PDF Printer

http://www.go2pdf.com

18

segurana. Como uma espcie de leque em constante abertura, muitas tecnologias j fazem parte do

GED com o propsito de melhor e mais eficientemente administrar toda a documentao gerada e

recebida. A Tabela 1, lista os vrios recursos encontrados em Tecnologia da Informao (TI), onde

o GED j faz parte como um recurso embutido aos demais.

Tabela 1. Aplicaes da Tecnologia da Informao

Revista Kmword publicao internacional na

rea de gesto doconhecimento

Delphi Computing Group

CENADEM CentroNacional de

desenvolvimento doGerenciamento da

InformaoCorreio eletrnico Redes (LANs e WANs) InternetInternet Internet IntranetIntranet Intranet ExtranetExtranet Extranet Group WareBanco de Dados Data Warehousing WorkflowRelacionais Data Mining Data WarehouseGerenciamento eletrnico deDocumentos Workflow Data Mining

Captura de dados(OCR/ICR/Barcode)

Process Visualization WhiteBoard

Gerenciamento eletrnico deDocumentos

Data Warehousing Simulao COLDWorkflowCall CenterERP Planej. Rec.Empresariais

Fonte: THIVES JR (2000).

2.2. DEFINIO DE DOCUMENTOS

Os documentos envolvidos no sistema GED so referenciados como Gerenciamento de

Documentos ou Gesto de documentos, como relata Bax e Bax (2002) em seu artigo, pois a

diferena entre gesto de documentos que o GED manipula essa gama de informao de forma

eletrnica. Sem esquecer que no apenas documentos eletrnicos so manipulados pelo GED, mas

tambm documentos em papel que so processados de forma eletrnica. Segundo Santos et al.

(2003), Gesto de Documentos assegura a produo, administrao, manuteno e destinao dos

documentos, refletindo as informaes registradas em seu contexto

Os autores do Jornal mundo da imagem relatam que documento eletrnico diferente de

um documento que foi produzido em suporte papel e mais tarde digitalizado para dentro de um

Create PDF with GO2PDF for free, if you wish to remove this line, click here to buy Virtual PDF Printer

http://www.go2pdf.com

19

Sistema de GED. O prprio conceito de GED esclarece: Um Sistema de Gerenciamento Eletrnico

de Documentos usa tecnologia da computao para captar, armazenar, localizar e gerenciar verses

eletrnicas dos documentos em papel. (MUNDO DA IMAGEM, 1997, apud FLORES, 2004).

Conforme Koch (1998, apud BAX e BAX, 2002) o GED dividido em dois grupos de

solues: os de Gerenciamento de Imagens de Documentos (DI Document Imaging), e os de

Gerenciamento de Documentos (DM Document Management). O ciclo de vida das informaes

define por qual grupo ser gerenciado.

A primeira tecnologia de GED que surgiu enfatizava basicamente a digitalizao de

documentos de origem papel, gerando-se imagens digitais dos documentos. Os documentos no

formato imagem so, em mdia, dez vezes maiores que os textuais, e no podem ser processados

por sistemas tpicos de processamento de dados.

Com o avano da tecnologia e a disseminao dos microcomputadores na ltima dcada

fizeram com que boa parte da gerao dos documentos passasse a ser feita pelos sistemas digitais.

Num ambiente de escritrio, isso significa a gerao de documentos em processadores de texto,

planilhas eletrnicas e todas as demais ferramentas dessa natureza. A quantidade de documentos

digitais geradas cresce vertiginosamente, exigindo ferramentas para controle de localizao,

atualizao, verses e mesmo de temporalidade de guarda dos documentos. Dentro dessa

necessidade ou ciclo que o DM utilizado. (CENADEM, 2005).

O Gerenciamento de Documentos, foco do projeto de TCC, ponto fundamental, visto que

todo o sistema de informao est envolvido com documentos gerados pela Instituio. Na sua

grande maioria documentos, no formato PDF e DOC, que sero agregados ao sistema pelos usurios

geradores dos documentos.

2.2.1. Organizao de documentos

A gerao de documentos em qualquer instituio ou organizao em grande quantidade e

de certa forma mal estruturada. Existe a cincia que estude os Documentos, Segundo Arquivo

Nacional (1993, apud FLORES, 2004), o estudo de arquivos que so conjunto de documentos

produzidos e/ou recebidos por rgos pblicos, instituies de carter pblico, entidades privadas,

pessoas fsicas em decorrncia do exerccio de suas atividades, conhecida como Arquivologia.

Para Richter (1997, apud FLORES, 2004) a Arquivologia estuda os documentos, e a informao

Create PDF with GO2PDF for free, if you wish to remove this line, click here to buy Virtual PDF Printer

http://www.go2pdf.com

20

contida nos documentos, desde sua criao, organizao e utilizao da informao, preocupando-se

com a preservao do patrimnio documental que estuda os arquivos com o fim de identificar sua

essncia e histria, propondo medidas para cumprir sua misso que a custdia dos documentos e a

recuperao das informaes neles contidas.

Um Sistema de GED contempla organizaes baseadas na informao, com arquiteturas

estruturais dinmicas com o intuito de democratizar a informao no ambiente institucional. A

utilizao da organizao da Arquivologia importante para definir parmetros na estrutura dos

sistemas de informao (GED), sabendo que a realidade Institucional ainda est bastante distante da

desejada, e possivelmente tende-se a trabalhar com sistemas hbridos, diferentes tipos de mdia,

ainda por algum tempo.

Flores (2004) relaciona vrias reas de interesse da Cincia da computao com o estudo da

Arquivologia como Compiladores, Sistemas Operacionais, Gerenciadores de Bancos de Dados,

Engenharia de Software, Sistemas Especialistas e Inteligncia Artificial. Alguns parmetros do

sistema de informao so definidos pelas funes da Arquivologia, e tratam entre outras coisas do

perodo de manipulao dos documentos, que so fundamentais para o funcionamento eficaz do

sistema de informao.

Segundo Santos et al. (2003), descreve que gerenciar documentos de forma eletrnica uma

soluo que traz resultados significativos para a Instituio como reduo de espao fsico, alta

velocidade e preciso na localizao de documentos, controle documental, maior agilidade nas

transaes entre organizaes, minimizao de perda e extravio de documentos entre outros.

2.2.2. Processo de digitalizao

Os gerenciadores de documentos eletrnicos possuem caractersticas semelhantes no seu

processo de digitalizao de documentos, que podem ser no formato DOC, .XLS alm de PDF. Para

os documentos em formato de papel ou mesmo meio magnticos, existem mtodos que fazem esse

processo, conhecidos como escaneamento, converso e importao de documentos. Conforme Bax

e Bax (2002), a converso do documento de papel ou microfilme bastante similar utilizao de

uma copiadora: os documentos em papel podem ser "escaneados" e aqueles em microfilme podem

ser salvos em formato de imagem.

Create PDF with GO2PDF for free, if you wish to remove this line, click here to buy Virtual PDF Printer

http://www.go2pdf.com

21

O escaneamento dos documentos realizado atravs de um Scanner que captura as imagens

e armazena no sistema. A escolha do Scanner depende da necessidade da Instituio como

quantidade, volume de documentos e investimento pretendido. Um bom sistema de captura de

imagens tem a capacidade de utilizar uma grande variedade de scanners, o sistema tambm deve ter

um sistema automtico de alimentao (Automatic Document Feeder ADF), para possibilitar que

uma quantidade de papel possa ser colocada em uma bandeja e copiada automaticamente.

A maioria das Instituies tem necessidades de copiar documentos de tamanho padro no

formato A4 (21,0 x 29,7 cm), para outros formatos so necessrios scanners maiores. A velocidade

do scanner outra caracterstica que deve ser considerada. Scanners para a captura de imagens

manuseiam entre 10-200 pginas por minuto.

Segundo Bax e Bax (2002) a converso de documentos o processo de transformao dos

documentos eletrnicos em imagens permanentes para serem armazenados no GED. H aplicaes

no ambiente Windows, tais como Microsoft Word, Excel ou Autodesk AutoCAD, que podem

imprimir arquivos gerando imagens inalterveis. A partir destas imagens possvel armazenar em

arquivos no formato TIFF (Tagged Image File Format). Este processo de converso tambm gera

um arquivo de texto completo, retendo o formato visual e o layout original do documento. A

utilizao da converso eletrnica de documentos permite substituir o processo de escaneamento, e

economizando papel e recursos de impresso alm de produzir uma imagem de melhor qualidade.

O ltimo mtodo citado para a digitalizao de documentos a importao de arquivos, que

traz para dentro do GED arquivos eletrnicos, como por exemplo, documentos do Office (da

Microsoft), grficos, udio ou vdeos. Bax e Bax (2002) citam que os arquivos podem ser movidos,

arrastados e soltos, para dentro do sistema de imagens, mas so verses modificveis e

permanecem em seu formato original, por isso esse tipo de importao o mais usado em sistemas

GED. Esses arquivos podem ser visualizados em seu formato original ou ser usado atravs de um

visualizador embutido no prprio gerenciador.

2.2.3. Recuperao de documentos

Segundo Mnaco (1999), os programas de recuperao tm funo bsica de localizar os

documentos que foram previamente inseridos no sistema com uma coisa em comum, pesquisa

campos pr-indexados em uma base de dados, que foi alimentada nas etapas de digitalizao

(indexao) e armazenamento. Ainda de acordo com o autor:

Create PDF with GO2PDF for free, if you wish to remove this line, click here to buy Virtual PDF Printer

http://www.go2pdf.com

22

A qualidade do processo de recuperao de documentos est diretamente ligada ao sistemade indexao utilizado. O sistema deve interagir com os usurios atravs de ferramentassimples e intuitivas, sem a necessidade de uso de cdigos, smbolos ou operadorescomplicados e difceis de memorizar. Isso importante, pois possibilita a localizao dequalquer documento da coleo com base apenas no que o usurio sabe no momento sobreo documento.

H modos de recuperao de documentos que podem significar realizao de pesquisa por

campos ou mesmo em uma navegao em um diretrio. Dependendo da informao que o usurio

possuir sobre o documento, pode ser apenas uma palavra ou uma frase, a pesquisa em texto (full-

text) possibilitar a recuperao de arquivos relevantes.

O interessante neste tipo de sistema ter uma recuperao intuitiva e amigvel. Para

usurios que j esto familiarizados com o contedo de um documento possam pesquisar esta

informao para encontrar exatamente o que precisam. Alguns sistemas permitem apenas busca por

palavras-chave indexadas, mas que nem sempre so interessantes a partir do momento que a pessoa

que faz a pesquisa no a mesma que indexa as palavras chaves. Um sistema para ser realmente

til deve permitir a pesquisa baseada na indexao completa do texto (full-text indexing).

Segundo Bax e Bax (2002), utilizar o nome do documento ou a rvore de diretrios pode ser

simples e intuitivo, como tambm no pode ser o melhor ou mais rpido, pois algumas vezes a

pessoa pode saber qual documento procura, mas no sabe onde est localizado e nem como foi

nomeado. Em um sistema completo os usurios tm a possibilidade de criar moldes (ou templates)

de formulrios de busca com campos definidos pelo usurio. Pesquisar por campos indexados

permite que o usurio possa passar por vrios registros rapidamente a procura do que lhe interessa.

Para maximizar a efetividade das buscas um sistema completo deve ser capaz de combinar

pesquisa por campos com pesquisa em texto.

2.3. TECNOLOGIAS DO GED

Segundo Cenadem (2005), essas tecnologias foram sendo agregadas ao GED na medida em

que, com o passar do tempo, surgiu nas empresas uma necessidade mais completa para o

gerenciamento de documentos. um conjunto de tecnologias que permite o gerenciamento de

documentos de forma digital. Tais documentos podem ser das mais variadas origens e mdias, como

papel, microfilme, som, imagem e mesmo arquivos j criados na forma digital. GED formado

pelas seguintes tecnologias:

Create PDF with GO2PDF for free, if you wish to remove this line, click here to buy Virtual PDF Printer

http://www.go2pdf.com

23

Gerenciamento de Documentos (Document Management): Zotto (2002) menciona que as

solues so voltadas ao gerenciamento do ciclo de vida de um documento, desde a sua

criao, reviso at sua expirao. Os produtos enquadrados nesta diviso no gerenciam

obrigatoriamente imagens, mas tambm arquivos oriundos de editores de texto, planilhas

e outras formas de gerao de arquivos eletrnicos. Bax e Bax (2002), relatam que num

processo semelhante a tecnologia de imagens, os documentos eletrnicos so indexados

e arquivados em dispositivos de alta capacidade, e utilizando-se de sistemas de busca,

so recuperados e mostrados na sua forma original;

Gerenciamento de Imagens (Document Imaging): j os produtos do gerenciamento de

Imagens ou processamento de Imagens so voltados para armazenamento de imagens

captadas atravs de scanners e indexadas em uma base de imagens. Geralmente

disponibiliza uma interface para o usurio na forma de pastas/sub-pastas onde esto

armazenadas e indexadas as imagens dos documentos (formato de exibio semelhante

ao Explorer do Windows);

Integrao com sistemas de processamento de dados (Imaging enable): segundo Mnaco

(1999), normalmente em uma soluo hbrida misturando imagem e documento

eletrnico, uma boa sada para organizaes que queiram melhorar bastante a gerncia

das suas informaes. So solues de gerenciamento de imagens que disponibilizam

bibliotecas de sub-rotinas que podem ser integrados a sistemas de informao via

recursos como Application Program Interface (API), Dynamic Link Library (DLL) e

Dynamic Data Exchange (DDE). Estes sistemas passariam a utilizar funes de acesso e

recuperao de imagem aliando a uma pesquisa em uma base de dados. Permite mostrar

dados e imagens em uma mesma tela;

Gerenciamento de Documentao Tcnica (Engineering Document Management): so

produtos voltados para o gerenciamento de documentao tcnica, envolvendo arquivos

gerados eletronicamente em softwares CAD, at documentos em papel em formato A0.

Permite a transformao de documentos (plantas A0 - imagem raster) em imagem tipo

CAD (imagem vector);

Reconhecimento tico de Caracteres (OCR Optical Character Recognition): so

ferramentas utilizadas para reconhecimento de caracteres a partir de uma imagem digital

(na forma datilografada ou impressa). O caracter reconhecido transformado em dado

eletrnico, podendo ser manipulado por sistemas de informao, editores de textos ou

Create PDF with GO2PDF for free, if you wish to remove this line, click here to buy Virtual PDF Printer

http://www.go2pdf.com

24

planilhas, por exemplo. Existe ainda uma variao desta ferramenta quanto ao que se

refere ao reconhecimento da escrita. Estes softwares so chamados ICR (Intelligent

Character Recognition). Geralmente so ferramentas dotadas de uma concepo de

reconhecimento de caracteres cursivos levando-se em conta aspectos como inclinao,

presso sobre o papel, etc;

Recuperao de Textos Total (Full Text Retrieval): estas ferramentas so integradas a

outras ferramentas, como OCR. Atravs desta ferramenta possvel recuperar

documentos a partir de qualquer palavra de seu contedo. Os documentos capturados

pelo scanner (digitalizados) so submetidos a um processo de reconhecimento (OCR) e

indexados numa base dados integradas com imagens dos documentos;

Sada de Computador para Disco Laser (COLD): so produtos voltados ao

gerenciamento de relatrios emitidos por sistemas de informao, geralmente residentes

em grandes computadores. Os relatrios so armazenados na forma de dado eletrnico,

permitindo a recuperao por palavras do seu contedo, partes do relatrio ou mesmo

ndices previamente indicados na gerao dos relatrios. O resultado apresentado em

diversas formas: tela do computador, FAX, impressora e outros. No momento da

exibio pode ser acoplado a uma mscara de layout (formulrio com logotipos,

assinatura), permitindo ao usurio a visualizao e impresso do resultado real de como

seria se fosse impresso (ex: contracheques, notas fiscais, faturas de telefones, etc); e

Gerenciamento de Fluxo de Trabalho (Workflow): so solues que gerenciam as

estruturas dos processos de fluxo de trabalho de uma organizao. Permite desenhar, por

exemplo, o caminho que um documento deve seguir desde sua etapa de criao at sua

aprovao, definindo critrios como segurana, visualizao, limites de liberao, para

cada documento pertencente ao processo. Pode ser dividido em Workflow de produo

onde composto por diversos mdulos que so desenvolvidas de acordo com as tarefas,

sendo controlados e monitorados por um sistema central.

2.3.1. Solues empresariais

Mundo da Imagem (2003), cita como uma tendncia utilizao de produtos de Web

Content Management, ou seja, produtos customizveis que a empresa adapta a sua realidade, sendo

que muitas dessas solues j trazem de forma nativa, ferramentas para gerenciamento de

Create PDF with GO2PDF for free, if you wish to remove this line, click here to buy Virtual PDF Printer

http://www.go2pdf.com

25

documentos, como DI, DM e Workflow.

As solues para GED tm caminhado para uma nova realidade, desenvolvimento de

software que suporte a plataforma livre. O Linux representa essa tecnologia de plataforma livre,

sendo um sistema operacional livre e confivel. Tanto que grandes empresas como Oracle tm

atestado que o Linux uma retaguarda confivel e slida. (CENADEM 2005).

O tema de GED livre abordado de uma forma futurstica, necessitando de um

amadurecimento, pois a adoo para software livre ainda no uma realidade em grande parte da

empresas. Segundo CENADEM (2005), o software livre representa maior disseminao das

tecnologias em todos os sentidos. No GED isso representa uma maior utilizao das caractersticas

de gerenciamento, pois sua implementao tornaria mais acessvel s empresas brasileiras, que em

vez de pagar por solues multinacionais, optaria pelos livres.

O software de GED em plataforma livre permita a instituies mais liberdade na definio

da sua base de computadores, sejam servidores ou clientes. Algumas solues de produtos em GED

que suportam plataformas livres podem ser observadas na Tabela 2.

Segundo Jesus (2003), muitas solues baseadas em GED so voltadas principalmente

localizao de documentos com maior agilidade pela integrao de documentos em papel ou em

meio eletrnico com os sistemas de informao das organizaes. So exemplos potenciais da

aplicao do GED:

Gerenciamento e busca otimizada de documentos pblicos (legislao, ofcios,

decretos, portarias etc.);

Gerenciamento de documentos contbeis e fiscais;

Gerenciamento de documentos de recursos humanos e de fundos de penses;

Gerenciamento, com suporte a reviso e controle de verso, para documentos de

normalizao e certificao de qualidade (ISO); e

Gerenciamento de documentos tcnicos e suas caractersticas como documentos de

AutoCad, CadMap e CorelDraw.

Create PDF with GO2PDF for free, if you wish to remove this line, click here to buy Virtual PDF Printer

http://www.go2pdf.com

26

Tabela 2 . Solues em produtos GED

Nome Produto Fabriante/Pas origem Ambiente suportado Nvel de customizaoArchidoc Siav Italia Windows NT e linux Produto pronto (out of the box)

BR/Search Padro IX - BrasilWindows NT, Unix(IBM, HP,SUN) e

LinuxFerramenta de desenvolvimento

Dellaplus Dellacenter - Brasil Windows NT e Linux Ferramenta de desenvolvimentoProduto customizvel

Flypaper Image Technology BrasilWindows NT,

Unix(SUN) e Linux Produto customizvel

FullBase WTB Tecnologia daInformao- Brasil

Windows NT, Unix(IBM, HP,SUN),Linux, FreeBDS e

BeOS

Ferramenta de desenvolvimentoProduto pronto e tambmcustomizvel

Galileo Siav Italia Windows NT e Linux Produto customizvel

GDS Gerenciadorde Documentos

Satech

Six TechDesenvolvimento de

Sistemas de informtica Brasil

Windows NT, Unix(IBM, HP,SUN) e

Linux Produto customizvel

IBM ContentManager IBM EUA

Windows NT, Unix(IBM, HP,SUN),

Linux, zSeries(IBMAS/400) e zSeries

(IBM OS/390)

Ferramenta de desenvolvimento,produto pronto e tambmcustomizvel

Isodoc (commodulo intranet) SoftExpert Brasil

Windows NT e Linux Produto customizvel

OnBase Hyland/Onbase EUAWindows NT, Unix(IBM, HP,SUN) e

Linux

Ferramenta de desenvolvimento,customizavel

SiteScapeEnterprise Form SiteSpace inc. EUA

Windows NT, Unix(IBM, HP,SUN) eLinux, Tru64 Unix

Ferramenta de desenvolvimento,produto customizvel

Staffware Staffware InglaterraWindows NT, Unix

(IBM, HP,SUN) eLinux

Produto customizvel

Webdesk Datasul-BrasilWindows NT, Unix

(IBM, HP,SUN) eLinux

Produto customizvel

Fonte: Adaptado de CENADEM (2005)

Create PDF with GO2PDF for free, if you wish to remove this line, click here to buy Virtual PDF Printer

http://www.go2pdf.com

27

2.4. BANCO DE DADOS PARA GED

2.4.1. Introduo

Segundo Fanderuff (2000), um Banco de Dados baseado em uma percepo do mundo

real, que consiste em uma coleo de objetos bsicos, chamados de tabelas, e em relacionamento

entre estes objetos. Os sistemas de informao em gerenciamento eletrnico de documentos so

responsveis em armazenar e posteriormente recuperar as informaes armazenadas em uma base

de dados. Estas informaes so documentos digitalizados ou documentos eletrnicos, ou seja,

informaes textuais. Em funo do avano da informtica, existem pesquisas voltadas na rea de

armazenamento de informaes textuais, a fim de que seja possvel uma melhor localizao das

informaes que se encontram em banco de dados atravs da Internet ou em Intranets.

Conforme Siberschatz (1996, apud FRANCO, 2001) comenta que, em 1990, a comunidade

internacional de pesquisas em Bancos de Dados publicou um relatrio reconhecendo que as novas

aplicaes de Bancos de Dados deveriam armazenar algo mais do que registros numricos e

caracteres; deveriam prever tambm formas no tradicionais de dados como textos, vdeos, imagens

grficas, palestras, etc, j que estas so as formas naturais da informao em nossa realidade.

Ainda conforme o autor estes dados no-estruturados necessitam de mecanismos

computacionais diferentes dos tradicionalmente usados, para que possam ser coletados,

armazenados, manipulados e consultados, diferentemente dos dados estruturados (convencionais)

que so tratados por meios tradicionais, pelo fato de existir linguagens formais tais com o SQL.

Segundo Wives (1997), a necessidade de modos de armazenamento e pesquisa de

informaes no so facilmente transformadas em tabelas, porque possuem registros e campos, e

por este fato so objetos de estudo da comunidade cientfica desde a dcada de 60. Porm mesmo

com toda essa dificuldade, estes dados so amplamente encontrados e manipulados nas pginas da

Web e em programas multimdia, pelos chamados motores de busca, como Altavista, Yahoo,

Google entre outros.

Destaca-se ento a realidade de um banco de dados voltado para as informaes textuais

(documentos no formato texto) e que pode ento ser chamado de Banco de Dados Textual. Esta

preocupao em manipular e armazenar informaes em forma de tabelas, com a criao de campos

que suportassem os dados, fez com que os bancos convencionais migrassem para um novo conceito

de SGBD.

Create PDF with GO2PDF for free, if you wish to remove this line, click here to buy Virtual PDF Printer

http://www.go2pdf.com

28

Silva (1999), descreve que o surgimento dos SGBDs objeto-relacional, trouxe uma nova

viso, pois mais representativo em semnticas e construes de modelagens do que os SGBDs

relacionais, ou seja, convencionais. Esse novo tipo de SGBD pode ento atender as necessidades

que a comunidade tanto questiona, como: projetos de engenharia, imagens, bancos de dados

cientficos, sistemas de informao geogrficas, multimdia, entre outros. Estas aplicaes possuem

requisitos e caractersticas que diferem do processamento de negcios tradicional, incluindo

estruturas para objetos, novos tipos de dados para armazenar imagens e grandes itens textuais e a

necessidade de definir novas operaes especficas das aplicaes.

Segundo Silva (1999), os novos tipos de campos criados para essa nova gama de aplicaes,

so descritos pela evoluo dos vrios tipos de mdias, extenses que os fabricantes desenvolvem a

cada nova aplicao. Para solucionar o tratamento de dados no convencionais que se estabeleceu

um padro, adotado pela maioria SGBDs, denominado campo BLOB (Binary Large Object). Este

campo, de formato binrio, descrito mais adiante neste trabalho.

2.4.2. Banco de Dados Objeto-Relacional

Conforme Silva (1999), o modelo objeto-relacional tem sido baseado na idia de estender o

modelo relacional, fornecendo um sistema de tipos mais rico atravs da incluso de caractersticas

de orientao a objetos e adicionando construes s linguagens de consultas relacionais, tal como

SQL, para manipular os novos tipos de dados adicionados. Tais extenses tentam preservar os

fundamentos relacionais, enquanto estendem o poder de modelagem dos dados. Entretanto, ainda

no se pode afirmar que existe um modelo objeto-relacional aceito como padro. Os SGBDs

baseados neste modelo sofrem o mesmo problema que os SGBDs orientados a objetos, pois h

muitas diferenas nos produtos disponveis no mercado.

Vieira Jr. et al. (2000), tambm ressalta que, nos ltimos anos, a tecnologia de banco de

dados relacionais no vem conseguindo atender s exigncias das aplicaes comerciais, que

requerem recursos no disponveis nos Sistema Gerenciador de Banco de Dados Relacional

(SGDBRs). Entre os requerimentos desses novos aplicativos esto os objetos complexos (textos,

imagens). Os sistemas orientados a objeto surgiram visando suprir as limitaes dos sistemas

relacionais, porm o princpio relacional ainda tem maior consolidao e est presente na maior

parte do mercado.

Create PDF with GO2PDF for free, if you wish to remove this line, click here to buy Virtual PDF Printer

http://www.go2pdf.com

29

Ainda segundo o autor, ressalta que estes modelos agregam uma srie de novas facilidades

caractersticas dos sistemas orientados a objetos, mantendo todas as funes bsicas dos sistemas

relacionais. Eles so relacionais porque suportam SQL e so orientados a objeto porque suportam

dados complexos.

H necessidade de manipular dados multimdia, dados geogrficos, imagens e outros, tm

implicado na perda de desempenho e complexidade nos sistemas, pois os SGBDs deixam apenas

disponvel o uso de objetos binrios (BLOBs) para serem tratados da maneira que o usurio desejar,

uma vez que a estrutura de armazenamento de tais dados completamente invisvel para o SGBD

que no consegue acess-los de maneira satisfatria.

Mas segundo o autor, os sistemas objetos-relacionais passaram a disponibilizar a criao de

novos tipos de dados, ou seja, padronizando para o SGBD a maneira de armazenar estes dados

internamente.

Porm, apenas definir novos tipos de dados no o bastante, necessrio uma maneira

otimizada de acessar os dados, sendo de fundamental importncia para o sucesso da tecnologia dos

SGBDs. Esta maneira de acessar os dados denomina-se Mtodo de Acesso.

Assim Vieira Jr. et al. (2000), define mtodo de Acesso como modo de manipular dados,

tendo a capacidade de ler e escrever diretamente na origem do dado. Alm disso, ndices tambm se

enquadram nessa categoria de mtodos de acesso, uma vez que podem prover meios rpidos ou

alternativos de obter os dados junto base. Um mtodo de acesso bastante conhecido e utilizado

rvore B-tree*.

H duas caractersticas que podem ser abordadas ainda em se tratando de sistema objeto-

relacional. Em uma abordagem os dados estendidos devem estar realmente dentro do SGBD tendo a

possibilidade de adoo de certas propriedades, como controle de transaes. Em uma outra

abordagem adotase em no manter o dado estendido dentro do SGBD, utilizando mecanismo de

camada de software, como o CORBA que quando necessrio tem acesso aos dados (ibidem).

Esses mtodos de acesso sero descritos mais adiante neste trabalho, onde os mecanismos

para acessar os dados em uma tabela sero vistos. Na Tabela 3, esto descritos os produtos e seus

fornecedores que a partir das novas verses de SGBDs, suportam mtodos de acesso em seus

produtos, comparando com o Sistema Gerenciador de Banco de Dados Relacionais (SGBDR), o

Create PDF with GO2PDF for free, if you wish to remove this line, click here to buy Virtual PDF Printer

http://www.go2pdf.com

30

Sistema Gerenciador de Banco de Dados Objeto Relacional (SGBDRO) e o Sistema Gerenciador de

Banco de Dados Orientado a Objeto (SGBDOO).

Tabela 3. Fornecedores e seus produtos

Fornecedor SGBDR SGBDRO SGBDOOOracle Oracle 7x Oracle 8xSybase System 10/11

Informix Dynamic Server Universal ServerIBM DB/2 Universal Database

UniSQL UniSQLComputer Associates OpenIngres Jasmine

Gemstone GemstoneO2 O2

Object design Object StoreObjectivity Objectivity/DB

Fonte: VIEIRA JR. (2000)

2.4.3. Banco de Dados ditos Textuais

Rocha (2002), define Banco de Dados Textual (que manipule dados textuais) como sendo

grandes volumes de dados textuais, ou seja, um largo conjunto de registros em que cada registro

contm apenas uma lista de palavras de tamanho arbitrrio, (que podem ser encontradas em

programas multimdia e nas pginas WWW da Internet) que devem ser armazenados, recuperados e

atualizados. Mas que so difcil de organizar em tabelas, ou seja, em um banco de dados relacional

(convencional) como visto anteriormente.

J Wives (1997), relata que em um Banco de Dados Textual, ou Sistema de Recuperao de

Informao como so tratadas por ele, as informaes no esto distribudas em uma forma tabular,

pois no h campos, capazes de identificar os atributos especficos de determinados registros, ou

seja, no armazenadas em tabelas. Estas informaes esto distribudas em uma seqncia de

caracteres no existindo atributos para classific-las. A busca de informaes textuais diferente da

tradicional, pois no possuem a maturidade de um banco de dados tradicional em relao a alguns

aspectos, como exemplo, o controle de concorrncia.

Conforme Salton (1983, apud WIVES, 1997), os Bancos de Dados tradicionais preocupam-

se com o armazenamento, manuteno e a recuperao de informaes disponveis explicitamente

no sistema. Por exemplo, para se buscar informaes sobre determinada pessoa em um banco de

Create PDF with GO2PDF for free, if you wish to remove this line, click here to buy Virtual PDF Printer

http://www.go2pdf.com

31

dado tradicional, basta percorrer a tabela que possui o atributo nome e localizar o registro que

possui o nome da pessoa desejado. Mais em um banco de dados dito textual, a localizao no seria

por registro, j que os dados no esto dispostos em uma forma tabular. A busca seria realizada

comparando cada palavra do documento com o da pesquisa, isso se torna invivel na medida que se

tem muitos dados para pesquisar. O melhor modo para uma pesquisa em banco de dado dita textual

adotar que h nos textos um assunto em comum, utilizado para a busca de palavras chaves ou

termos que o documento possua.

Decorrente disso, um banco de dados dito textual tem como base a seguinte teoria, proposta

por Salton (1983, apud WIVES, 1997): perguntas so submetidas pelo usurio, perguntas estas

baseadas em palavras que identificam a idia desejada por este usurio. Os documentos so

identificados pelos termos que eles contm, portanto, a localizao de um documento desejado pelo

usurio d-se a partir da identificao da similaridade entre o(s) termo(s) fornecido(s) pelo usurio e

os termos que identificam os documentos contidos na base de dados. A Figura 2 representa esta

teoria na forma de esquema:

Figura 2. Funo SimilariedadeFonte: WIVES (1997)

Esta funo Similaridade busca identificar uma relao entre os termos da consulta e os

termos dos documentos. Todavia os conceitos atribudos a Banco de Dados Tradicionais devem ser

estendidos a esse tipo de documento textual. Segundo DeFazio (1995, apud WIVES, 1997), os

estudos na rea de integrao indicam que um SGBD deve:

Suportar armazenamento, indexao, recuperao e modificao de documentos;

Semnticas de transao que possuam as propriedades ACID (Propriedades de

Atomicidade, Consistncia, Isolamento e Durabilidade); e

Extenses de linguagem de consulta que permitam a seleo de documentos relevantes

(em forma de ranking).

PERGUNTAS FUNO DESIMILARIDADE DOC.

Create PDF with GO2PDF for free, if you wish to remove this line, click here to buy Virtual PDF Printer

http://www.go2pdf.com

32

Estas caractersticas apresentadas no podem ser realizadas pelos bancos de dados ou

SGBDs relacionais para os documentos textuais, sendo necessrio mecanismos que faam essa

integrao. Porm, a evoluo das tecnologias de informao tende ao desenvolvimento de SGBDs

Objeto-relacional que possuam campos de tamanho varivel como VARCHAR() (texto tamanho

varivel) e o BLOB que proporcionam uma maior flexibilidade para armazenamento de

informaes textuais, visto que pode armazenar at gigabytes de texto, imagens e vdeos.

Wives (1997), relata que para tornar possvel o acesso a esses documentos, preciso utilizar

uma estrutura auxiliar, o ndice, isso porque fica invivel pesquisar todos os textos toda vez que for

requisitado uma consulta. A indexao faz o mapeamento dos documentos para que sejam

pesquisados pela funo de similaridade.

2.5. INDEXAO AUTOMTICA

A indexao automtica uma das mais simples (tambm pode ser chamada de FullText,

pois analisa todo o documento). Segundo Jesus (2003), na Indexao Automtica (full text) existem

ferramentas como Microsoft SQL Server, que a partir de verses mais atuais trazem um recurso

chamado Full-Text Search, que permite a criao de um ndice externo ao banco que pode ser

utilizado para pesquisa em campos de texto longo.

De acordo com Jesus (2003), ndices Full-Text podem ser utilizados para diferentes

propsitos e devem estar sempre atualizados, assim sempre que o dado de uma coluna associada ao

ndice for modificado o ndice Full-Text tambm deve ser atualizado. Indexao automtica

constitui-se de vrias etapas. Ao final das etapas, os termos resultantes so adicionados a um

arquivo de ndice cuja estrutura geralmente baseada em Arquivos Invertidos (ou Listas

Invertidas).

Segundo Salton (1983, apud WIVES, 1997), outros tipos de arquivos podem ser utilizados,

mas a experincia mostra que este tipo de estrutura uma das mais eficientes para a indexao de

documentos. Yates e Frakes (1992) descrevem que um ndice uma estrutura de dados crtica

porque reserva rapidamente grandes volumes de dados, sendo uma das estruturas mais utilizadas. A

Figura 3 apresenta um exemplo da estrutura de uma lista invertida.

Create PDF with GO2PDF for free, if you wish to remove this line, click here to buy Virtual PDF Printer

http://www.go2pdf.com

33

Figura 3. Estrutura de uma Lista Invertida

Fonte: WIVES (1997)

Basicamente, a estrutura permite que um nico termo aponte para vrios documentos. As

principais etapas encontradas neste mtodo so:

identificao de palavras;

remoo de stopwords;

word stemming ; e

identificao de termos compostos.

2.5.1. Identificao de Palavras

Realiza a identificao de palavras nos documentos que sero indexados. Analisam-se as

seqncias de caracteres do documento. Salton (1983, apud WIVES, 1997), aconselha fazer um

Dictionary lookup, ou seja, um dicionrio para comparar as seqncias de caracteres retiradas do

texto, com a finalidade de validar estas palavras, realmente saber se existem. O processo de

validao torna-se bastante til, a partir do momento que o documento apresenta muitos caracteres

invlidos ou palavras com erros gramaticais. Quando h seqncias de caracteres invlidas, elas

devem ser eliminadas e as palavras com erros corrigidas. Pode-se aplicar ainda um processo de

filtragem naqueles arquivos que possuem formatos de texto especficos, a fim de eliminar as

Arquivo de Documentos

Identificador Contedo

: :

A12 .....

A13 .......

: ......

G43 ......

: :

U01 .......

: :

Arquivo de ndice (lista invertida)

Termo Apontadores

: :

diretor A12 G43

figura A13 A30 U01

informao A13 G35

informtica Z21

: :

recuperao A13

: :

Create PDF with GO2PDF for free, if you wish to remove this line, click here to buy Virtual PDF Printer

http://www.go2pdf.com

34

seqncias de controle e/ou formatao de texto.

Outra funo do dicionrio auxiliar a identificao de termos especficos, quando se deseja

utilizar palavras pr-definidas no ndice, evitando que palavras desconhecidas sejam identificadas

como ndice (ou seja, evita a utilizao de um vocabulrio descontrolado). Um Analisador Lxico

que identifique seqncias de caracteres e monte palavras pode ser utilizado.

Yates e Frakes (1992), relatam o uso da identificao de palavras como um dos processos da

indexao de documentos. Na Figura 4, a seguir apresenta o trecho de um documento com

seqncias de caracteres. Estas seqncias marcadas so seqncias invlidas, e no devem passar

pela fase de identificao de palavras. J as demais seqncias podem ser identificadas como

termos vlidos. Os termos sublinhados so termos identificados como incorretos pelo dicionrio, e

devem ser corrigidos. Os caracteres de pontuao so desprezados.

Figura 4. Identificao de termos vlidosFonte: WIVES (1997)

2.5.2. Remoo de Stop-Words

Wives (1997), descreve que a remoo de Stop-words seleciona em um documento as

palavras que no podem ser adicionados h estrutura de ndice. As palavras que aparecem em todos

os documentos ou na maioria deles so um exemplo. Yates e Frakes (1992), relatam que pode ser

realizado atravs da eliminao das stop-words (tais como artigos e conetivos). Isso porque utilizar

uma dessas palavras como ndice no capaz de selecionar documentos relacionados a um assunto

especfico. Preposio um exemplo deste tipo de palavra, pois um termo que serve para fazer o

encadeamento de idias e palavras, portanto, so termos para uma compreenso em uma literatura, e

no ao contedo dos documentos. A grande maioria das palavras que aparecem em documentos no

deve ser indexada, pois sua utilizao compromete a preciso e a eficincia do sistema.

... ' > ' - * Na maioria das vezes os documentos retornados pelasferramentas de ' >' recuperao de informacoes ' > ' envolvem um contextomais amplo, fazendo com que o usuario tenha que garimpar, ou seja, especificarou filtrar estes documentos (0 que demanda tempo e conhecimento ) a fim deobter a informao que ele realmente necessita ' * ' .....

Create PDF with GO2PDF for free, if you wish to remove this line, click here to buy Virtual PDF Printer

http://www.go2pdf.com

35

H sistemas j implementados, e foi construda uma estrutura (uma lista) contendo todas as

palavras que no devem ser indexadas. A esta estrutura foi atribudo o nome de "stop-list", e as

palavras presentes nesta lista so conhecidas como Stop-words. O processo de obteno das

stopwords pode ser manual, onde o projetista do sistema avalia quais palavras devem ou no ser

indexadas (o que varia de lngua para lngua, ou at mesmo entre sistemas). H ainda a

possibilidade de se montar esta lista automaticamente, verificando-se quais so as palavras com

maior freqncia (que aparecem em mais documentos), e selecionando-as como stop-words.

Ento, aps uma palavra ser reconhecida no processo de indexao, sua presena na Stop-list

verificada. Caso exista na lista de palavras negativas, ela no adicionada ao ndice. Na Figura 5,

apresenta o documento resultante da etapa anterior, aps ser validado por uma stop-list. Neste caso

a lista de Stop-words contm artigos, preposies, conjunes e algumas seqncias de caracteres

que no devem ser adicionadas ao ndice por possurem freqncia elevada.

Figura 5.Identificao de Stop-WordsFonte: WIVES (1997)

Apenas com estas etapas j possvel criar-se ndices que localizem documentos a partir da

comparao direta entre os termos da consulta do usurio e os termos presentes nos documentos.

Mas um mtodo ainda ineficiente, e algumas tcnicas adicionais podem ser utilizadas a fim de

melhor-lo. Riloff (1995, apud WIVES, 1997) menciona que h autores que citam as tcnicas a

seguir como desnecessria.

2.5.3. Word Stemming

Yates e Frakes (1999), descrevem stemming como aquele que reduz palavras distintas a sua

raiz gramatical comum. Segundo Wives (1997), a identificao de radicais (agrupamento de

palavras similares), a fim de melhorar a eficincia e solucionar o problema do vocabulrio. uma

tcnica que procura reduzir a varincia morfolgica de um termo e, portanto, depende muito da

linguagem utilizada nos documentos (tcnicas elaboradas para uma lngua no podem ser utilizadas

...... Na maioria das vezes os documentos retornados pelas ferramentas derecuperao de informaes evolvem um contexto mais amplo, fazendo comque o usurio tenha que garimpar ou seja especificar ou filtrar estesdocumentos que demanda tempo e conhecimento a fim de obter a informaoque ele realmente necessita .....

Create PDF with GO2PDF for free, if you wish to remove this line, click here to buy Virtual PDF Printer

http://www.go2pdf.com

36

em outra). A tcnica consiste em identificar os radicais das palavras, e adicion-las no arquivo de

ndice desta forma. Uma maneira de identificar os radicais das palavras remover seus sufixos e

prefixos.

Outro exemplo a eliminao dos plurais das palavras. Assim, todas as palavras que

possuem o mesmo radical, e, portanto com significados similares (mas categorias diferentes de

linguagem: adjetivo, verbo, advrbio...) so reconhecidas pelo mesmo identificador (as palavras so

armazenadas de uma s forma o radical), facilitando a consulta. A desvantagem deste mtodo

que ele pode acabar utilizando palavras muito abrangentes, no recuperando documentos

especficos (de termos especficos).

2.5.4. Word Phrase Formation

Segundo Yates e Frakes (1992), a formao de frases ou termos a identificao de grupos

de substantivo (que elimina adjetivos, advrbios, e verbos). A formao de frases termos agrupa as

palavras adjacentes para formar novos termos, buscando solucionar o problema dos termos

abrangentes, pois as idias esto agrupadas em contextos, e palavras compostas geralmente

categorizam melhor o assunto, ou seja, formao de palavras especficas. A utilizao de palavras

mais especficas consegue fazer com que o sistema recupere documentos de forma mais precisa,

justamente pelo fato destas palavras aparecerem em um nmero menor de documentos.

O conceito de frase-termo, no pode ser interpretado como utilizao das duas palavras de

forma independente. Ou seja, caso o usurio no tenha de alguma forma especificado que as duas

palavras devem aparecer juntas, ou o sistema no possua alguma tcnica que unifique as duas

palavras, a consulta pode se tornar ainda mais abrangente. Isso significa que seriam retornados tanto

documentos que tratam de um assunto quanto documentos que tratam do outro assunto. De certa

forma no interessante armazenar estas frase-termo, pois este processo exige tempo e conforme

Salton (1983, apud WIVES, 1997) no aumenta a eficincia do sistema. Entretanto, o que pode ser

feito armazenar as distncias entre as palavras de um documento e deixar que a tcnica de

consulta avalie se as palavras se enquadram com adjacentes. A Figura 6 resume o processo total de

Indexao, onde os documentos so indexados pela ferramenta, e ao final gerado um arquivo de

ndice que mostra os arquivos procurados.

Create PDF with GO2PDF for free, if you wish to remove this line, click here to buy Virtual PDF Printer

http://www.go2pdf.com

37

Figura 6.Etapas do processo de indexao automticaFonte: WIVES (1997)

H ainda outras tcnicas de localizao e mtodos, chamados de ferramentas de auxlio que

podem ser ou no incorporados s ferramentas de recuperao de informao abaixo so citadas

algumas:

Thesaurus: segundo Salton (1986), Thesaurus uma estrutura hierrquica de

palavras, ou seja, um grupo ou classe de palavras que so identificadas por termos-

chaves, em uma determinada rea de interesse. O thesaurus usado para processar

trs finalidades principais, uma distinguir os termos que so permitidos como

identificadores das classes, identificao de sinnimos e a definio de termos mais

especficos em grupos com vocbulo mais especficos;

Relevance Feedback: segundo Salton (1986) a Relevance Feedback uma tcnica

desenvolvida para realizar pesquisas mais detalhadas, facilitando a recuperao de

informaes. Esta tcnica define que o usurio depois de uma pesquisa preliminar,

identifique quais os documentos tem uma maior relevncia para sua pesquisa, atravs

desta resposta o sistema pode realizar novas iteraes que obtenha melhores

respostas;

Term Weighting: segundo Salton (1986) a relao de relevncia que um

determinado documento tem para uma pesquisa. As tcnicas usadas para conseguir

as porcentagens de relevncia em uma busca de documentos so vrias, mas podem

DocumentosIdentificador Palavras

Remoo de Stopwords

Steeming

Formao de Frases- Termo

Arquivo de ndice

Termo Composto

Termo SimplesApontadores

Create PDF with GO2PDF for free, if you wish to remove this line, click here to buy Virtual PDF Printer

http://www.go2pdf.com

38

citar a freqncia de termos em um documento. Que consiste em identificar a

quantidade de vezes que uma palavra aparece em um documento e o nmero de

documentos que esta palavra aparece, podendo assim calcular a porcentagem de

relevncia dos documentos; e

Expresses Booleanas: segundo Salton (1986) as expresses booleanas so

operadores conhecidos: AND (e), OR (ou) e NOT (no/negao). Estes termos so

utilizados para localizar os documentos na estrutura de ndices. Um exemplo que

representa a utilizao dos operadores quando o usurio quer restringir uma busca

ou especificar, e tem que de uma maneira identificar ao sistema que um termo

aparece no mesmo documento, ou identificar o termo que no podem aparecer juntos

no documento como, por exemplo, computador and programa.

2.6. NDICES

ndices so estruturas de dados que so criados para permitir a rpida localizao dos

registros dentro de uma tabela. Assim, como o ndice de um livro ajuda o leitor a encontrar

informaes sobre determinado assunto mais rapidamente, um ndice sobre uma tabela prov uma

forma rpida de acessar os dados da mesma (JESUS, 2003).

A indexao o meio pelo qual a funo de Similaridade vai comparar os termos da

consulta com os termos presentes nos documentos, e aps localizar os documentos relacionados

com o assunto desejado pelo usurio. Os ndices permitem a indexao de documentos, tambm

chamada full-text, atravs da criao de catlogos executando consultas requisitadas pelo SGBD.

Os tipos de consultas suportadas podem ser busca por palavras, frases e por proximidade de

palavras. Os ndices Full-Text em sua pesquisa so menos precisos do que as usualmente feitas em

ndices do prprio banco, nos quais o resultado da pesquisa um conjunto de linhas onde cada linha

tem a palavra ou frase pesquisada exatamente da mesma forma como foi escrita.

Jesus (2003), frisa que ao utilizar-se o ndice Full-Text o resultado da pesquisa pode trazer a

forma no plural ou singular de um substantivo pesquisado, as vrias formas que um verbo

pesquisado pode aparecer no texto, as palavras de uma frase juntas ou separadas classificadas por

proximidade, ou pode haver at diferenas entre letras maisculas e minsculas no texto procurado

e no encontrado. Qualquer operao de modificao nos registros envolvidos deve ser atualizada

Create PDF with GO2PDF for free, if you wish to remove this line, click here to buy Virtual PDF Printer

http://www.go2pdf.com

39

nos ndices, por esse motivo que o ndice intervem na performance das operaes.

2.6.1. ndices Invertidos

Ziviani (2003), considera um conjunto de documentos, onde cada documento atribudo,

um conjunto de palavras-chave ou atributos. Um arquivo invertido constitudo de uma lista

ordenada (ou ndice) de palavras-chave (atributos), onde cada palavra-chave tem uma lista de

apontadores para os documentos que contm aquela palavra-chave. Este o tipo de ndice utilizado

pela maioria dos sistemas para recuperao em arquivos constitudos de texto.

Os arquivos invertidos so usados na implementao de ndices lexicogrficos, de ndices

ordenados. A busca por frases acontece nesses arquivos invertidos, porque possuem um apontador

para cada documento onde a palavra aparece, juntamente com a posio da palavra no documento.

A busca nesse ndice torna-se mais eficiente, porm adiciona a dimenso do ndice.

A utilizao de arquivo invertido aumenta a eficincia de pesquisa em vrias ordens de

magnitude, caracterstica importante para aplicaes que utilizam grandes arquivos constitudos de

texto. Baseado nas pesquisas de Harman (1992, apud ROCHA, 2002), o custo para se ter essa

eficincia a necessidade de armazenar uma estrutura de dados que pode ocupar entre 2% e 100%

do tamanho do texto original, dependendo da quantidade de informao armazenada no ndice, mais

a necessidade de atualizao do ndice toda vez que o arquivo de documentos sofre alguma

alterao.

Diversas tcnicas de otimizao podem ser empregadas na consulta de frases com arquivos

invertidos, algumas delas foram vistas neste trabalho como remoo de palavras mais freqentes,

remoo de artigos, remoo de preposies etc., tornando o ndice menor e agilizando a pesquisa.

A Figura 7 mostra um exemplo de um arquivo invertido, a referncia para os documentos e

as posies onde os termos ocorrem no documento.

A pesquisa por frase feita da seguinte forma em ndices invertidos:

(i) o termo pesquisado, aps com o resultado gera uma lista temporria de documentos e

posies com o termo que foi pesquisado.

(ii) Com a lista temporria para pesquisar o prximo termo, retira-se dela todos os

documentos cujo termo pesquisado no ocorre na posio adequada, sendo assim na posio

Create PDF with GO2PDF for free, if you wish to remove this line, click here to buy Virtual PDF Printer

http://www.go2pdf.com

40

subseqente ao termo anteriormente pesquisado.

(iii) Repetindo-se a pesquisa para os prximos termos at que todos tenham sido

pesquisados, ou ainda se a lista esteja vazia indicando que o termo no foi encontrado.

Figura 7. ndice invertidoFonte: JESUS (2003)

2.6.2. ndices para a Prxim