Upload
dangliem
View
218
Download
0
Embed Size (px)
Citation preview
UNIVERSIDADE DO VALE DO ITAJACENTRO DE CINCIAS TECNOLGICAS DA TERRA E DO MAR
CURSO DE CINCIA DA COMPUTAO
SISTEMA ELETRNICO DE DOCUMENTOSINSTITUCIONAIS DA UNIVALI
rea de Sistema de Informao
por
Jediael de Lima Patrcio
Luis Carlos Martins, Esp.Orientador
Itaja (SC), junho de 2005
Create PDF with GO2PDF for free, if you wish to remove this line, click here to buy Virtual PDF Printer
http://www.go2pdf.com
i
UNIVERSIDADE DO VALE DO ITAJACENTRO DE CINCIAS TECNOLGICAS DA TERRA E DO MAR
CURSO DE CINCIA DA COMPUTAO
SISTEMA ELETRNICO DE DOCUMENTOSINSTITUCIONAIS DA UNIVALI
rea de sistema de informao
por
Jediael de Lima Patrcio
Relatrio apresentado Banca Examinadora doTrabalho de Concluso do Curso de Cincia daComputao para anlise e aprovao.Orientador: Luis Carlos Martins, Esp.
Itaja (SC), junho de 2005
Create PDF with GO2PDF for free, if you wish to remove this line, click here to buy Virtual PDF Printer
http://www.go2pdf.com
SUMRIO
LISTA DE ABREVIATURAS ............................................................... ivLISTA DE FIGURAS.............................................................................. vLISTA DE TABELAS ............................................................................ viRESUMO................................................................................................ viiABSTRACT ..........................................................................................viii1. INTRODUO ................................................................................... 91.1. OBJETIVOS................................................................................................... 121.1.1. Objetivo Geral.............................................................................................. 121.1.2. Objetivos Especficos ................................................................................... 121.2. METODOLOGIA .......................................................................................... 131.3. ESTRUTURA DO TRABALHO ................................................................... 162. FUNDAMENTAO TERICA .................................................... 172.1. DEFINIO................................................................................................... 172.2. DEFINIO DE DOCUMENTOS ............................................................... 182.2.1. Organizao de documentos........................................................................ 192.2.2. Processo de digitalizao ............................................................................. 202.2.3. Recuperao de documentos ....................................................................... 212.3. TECNOLOGIAS DO GED............................................................................ 222.3.1. Solues empresariais .................................................................................. 242.4. BANCO DE DADOS PARA GED................................................................. 272.4.1. Introduo .................................................................................................... 272.4.2. Banco de Dados Objeto-Relacional............................................................. 282.4.3. Banco de Dados ditos Textuais.................................................................... 302.5. INDEXAO AUTOMTICA..................................................................... 322.5.1. Identificao de Palavras............................................................................. 332.5.2. Remoo de Stop-Words ............................................................................. 342.5.3. Word Stemming ........................................................................................... 352.5.4. Word Phrase Formation.............................................................................. 362.6. NDICES......................................................................................................... 382.6.1. ndices Invertidos......................................................................................... 392.6.2. ndices para a Prxima Palavra.................................................................. 402.7. LOBS (LARGE OBJECT)............................................................................. 422.7.1. Tipos de dados.............................................................................................. 422.7.2. Blob (Binary Large Object)......................................................................... 432.7.3. Tabelas Blob................................................................................................. 432.8. ORACLE TEXT............................................................................................. 452.8.1. ndices Oracle Text ...................................................................................... 46
Create PDF with GO2PDF for free, if you wish to remove this line, click here to buy Virtual PDF Printer
http://www.go2pdf.com
iii
2.8.2. Recuperar Informao ................................................................................ 513. DESENVOLVIMENTO.................................................................... 573.1. INTRODUO .............................................................................................. 573.2. LEVANTAMENTO DE REQUISITOS........................................................ 573.3. MODELAGEM DE PROCESSOS................................................................ 583.3.2. Diagrama de Atividades .............................................................................. 623.4. DIAGRAMA DE CLASSE ............................................................................ 663.5. MODELAGEM DE DADOS ......................................................................... 673.5.1. Dicionrio de Dados ..................................................................................... 693.6. IMPLEMENTAO ..................................................................................... 723.6.1. Oracle Text................................................................................................... 723.6.2. Sistema.......................................................................................................... 783.7. VALIDAO E PLANEJAMENTO PARA IMPLANTAO ................. 874. CONCLUSO ................................................................................... 89REFERNCIAS BIBLIOGRFICAS ................................................. 91GLOSSRIO.......................................................................................... 95APNDICE A Modelagem................................................................. 96APNDICE B ARTIGO................................................................... 107ANEXOS C........................................................................................... 117
Create PDF with GO2PDF for free, if you wish to remove this line, click here to buy Virtual PDF Printer
http://www.go2pdf.com
LISTA DE ABREVIATURAS
ACID Propriedades de Atomicidade, Consistncia, Isolamento e DurabilidadeADF Automatic Document FeederAPI Application Program InterfaceBLOB Binary Large ObjectB+ Abreviao utilizada para rvore BCTTMAR Centro de Cincias Tecnolgicas da Terra e do MarDDE Dynamic Data ExchangeDI Document ImagingDLL Dynamic Link LibraryDM Document ManagementGED Gerenciamento Eletrnico de DocumentosHTML Linguagem de Marcaco HypertextoICR Reconhecimento Inteligente de caracteres manuscritosISO International Organization for standardizationOCR Optical Character RecognitionPDF Adobe Reader DownloadRF Requisito FuncionalSGBD Sistema Gerenciador Banco de DadosSGBDOO Sistema Gerenciador Banco de Dados Orientado ObjetoSGBDOR Sistema Gerenciador Banco de Dados Objeto RelacionalSGBDR Sistema Gerenciador Banco de Dados RelacionalSQL Structured Query LanguageTCC Trabalho de Concluso de CursoTI Tecnologia da informaoTIFF Tagged Image File FormatUNIVALI Universidade do Vale do ItajaXML eXtended Markup Language
Create PDF with GO2PDF for free, if you wish to remove this line, click here to buy Virtual PDF Printer
http://www.go2pdf.com
LISTA DE FIGURAS
Figura 1. Viso geral de uma interao com GED..........................................................................11Figura 2. Funo Similariedade .....................................................................................................31Figura 3. Estrutura de uma Lista Invertida .....................................................................................33Figura 4. Identificao de termos vlidos.......................................................................................34Figura 5.Identificao de Stop-Words ............................................................................................35Figura 6.Etapas do processo de indexao automtica ...................................................................37Figura 7. ndice invertido .............................................................................................................40Figura 8. ndice para a prxima palavra .........................................................................................41Figura 9. Comando SQL para criao da tabela .............................................................................43Figura 10. Comando SQL para popular a tabela.............................................................................44Figura 11. Comando SQL para criao dos ndices na tabela .........................................................47Figura 12. Estrutura de ndice para atualizao da tabela ...............................................................47Figura 13. Estrutura de ndice para Configurao ..........................................................................48Figura 14. Configurao de palavras para a Stoplist. ......................................................................51Figura 15. Configurao de termos e frases para a Stoplist.............................................................51Figura 16. Configurao de termos e frases para a Stoplist.............................................................51Figura 17. Configurao de termos e frases para a Stoplist.............................................................51Figura 18. Comando de recuperao de Informao com comando constains ................................52Figura 19. Exemplo com uso de operador. .....................................................................................53Figura 20. Comando de criao de uma enciclopdia definida como Case-insensitive....................54Figura 21. Comando de criao de frase para incorporar ao Thesaurus. .........................................54Figura 22. Comando de criao do relacionamento entre as frases. ................................................55Figura 23. Comando de recuperao utilizando sinnimos.............................................................55Figura 24. Comando de seleo com score. ...................................................................................55Figura 25. Organizao dos Use-Cases..........................................................................................59Figura 26. Diagramas de casos de uso do sistema: viso do administrador.....................................60Figura 27. Diagramas de atividade: consulta de documentos..........................................................64Figura 28. Diagramas de atividade: cadastro de documentos..........................................................65Figura 29. Diagrama de Classe ......................................................................................................66
Create PDF with GO2PDF for free, if you wish to remove this line, click here to buy Virtual PDF Printer
http://www.go2pdf.com
LISTA DE TABELAS
Tabela 1. Aplicaes da Tecnologia da Informao .......................................................................18Tabela 2 . Solues em produtos GED...........................................................................................26Tabela 3. Fornecedores e seus produtos .........................................................................................30Tabela 4. Lista de operadores do grupo1........................................................................................52Tabela 5. Lista de operadores do grupo2........................................................................................53Tabela 6. - Descrio das Tabelas de Dados utilizadas no Sistema.................................................69Tabela 7. Dicionrio de dados da tabela TBL_DOCUMENTO......................................................69Tabela 8. Dicionrio de dados da tabela TBL_CATEGORIAS ......................................................70Tabela 9. Dicionrio de dados da tabela TBL_MENU_USUA.......................................................70Tabela 10. Dicionrio de dados da tabela TBL_MENU .................................................................70Tabela 11. Dicionrio de dados da tabela TBL_LOGS_ACESSO..................................................70Tabela 12. Dicionrio de dados da tabela TBL_CONSELHOS......................................................70Tabela 13. Dicionrio de dados da tabela TBL_VINCULAO ...................................................70Tabela 14. Dicionrio de dados da tabela TBL_TIP_VINCULO....................................................71Tabela 15. Dicionrio de dados da tabela TBL_PESSOA ..............................................................71Tabela 16. Dicionrio de dados da tabela TBL_DOC_ARMAZENA.............................................71Tabela 17. Dicionrio de dados da tabela TBL_RES_DOCUMENTO ...........................................71Tabela 18. Dicionrio de dados da tabela TBL_PRI_CATEGORIA...............................................71Tabela 19. Dicionrio de dados da tabela TBL_USUARIOS .........................................................72Tabela 20. Dicionrio de dados da tabela TBL_CATE_USUA ......................................................72Tabela 21. Resultado da seleo utilizando SCORE.......................................................................78
Create PDF with GO2PDF for free, if you wish to remove this line, click here to buy Virtual PDF Printer
http://www.go2pdf.com
RESUMO
PATRICIO, Jediael de Lima. Sistema Eletrnico de Documentos Institucionais da UNIVALI.Itaja, 2005. 113 f. Trabalho de Concluso de Curso (Graduao em Cincia da Computao)Centro de Cincias Tecnolgicas da Terra e do Mar, Universidade do Vale do Itaja, Itaja, 2005.
Este Trabalho de Concluso de Curso de Cincia da Computao, teve como objetivo odesenvolvimento de uma aplicao, com caractersticas de um sistema de informao paraarmazenamento e recuperao de documentos institucionais da Universidade do Vale do Itaja UNIVALI. O sistema foi requisitado pela Secretaria dos Conselhos Superiores da Universidadepara suprir a carncia de uma aplicao que possibilitasse aos gestores efetuarem consultas nalegislao institucional de maneira mais eficiente, auxiliando-o no processo decisrio. Com basenas caractersticas de uma aplicao de Gerenciamento Eletrnico de Documentos (GED), o sistemafoi construdo para funcionar no ambiente Web, tendo sido implementado na linguagem deprogramao PHP, suportado pelo Sistema Gerenciador de Banco de Dados (SGBD) Oracle 9.i.com o pacote Oracle Text, o qual rene algumas funcionalidades para tratamento de documentostextuais. De acordo com a proposta do projeto, pretende-se disponibilizar o GED no ambiente daintranet da UNIVALI, to logo encerre a validao e os testes de funcionalidade.
Palavras-chave: Sistema de informao. Gerenciamento Eletrnico de Documentos. Oracle Text.
Create PDF with GO2PDF for free, if you wish to remove this line, click here to buy Virtual PDF Printer
http://www.go2pdf.com
ABSTRACT
This Work of Conclusion of Course of Computer science, had as objective the development of anapplication, with characteristics of a system of information for storage and institucional documentrecovery of the University of the Valley of Itaja - UNIVALI. The system was requested by theSecretariat of the Superior Advice of the University to supply the lack of an application that madepossible the managers to effect consultations in the institucional legislation in more efficient way,assisting it in the power to decide process. On the basis of the characteristics of an application ofElectronic Management of Documentos (GED), the system was constructed to function in the Webenvironment, having been implemented in the programming language PHP, supported for theGerenciador System of Bank of Dados (SGBD) Oracle 9.i. with the package Oracle Text, whichcongregates some functionalities for literal document treatment. In accordance with the proposalof the project, is intended to disponibilizar the GED in the environment of the Intranet of theUNIVALI, so soon it locks up the validation and the tests of functionality.
Keywords: System of information. Electronic Document management. Oracle Text
Create PDF with GO2PDF for free, if you wish to remove this line, click here to buy Virtual PDF Printer
http://www.go2pdf.com
1. INTRODUO
A Universidade do Vale do Itaja, assim como as demais Instituies de Ensino Superior,
possuem seus prprios documentos internos, que so documentos produzidos dentro da sua
estrutura organizacional, abrangendo a Reitoria, Pr-Reitorias e Conselhos Superiores, cuja
finalidade estabelecer diretrizes e procedimentos para a gesto institucional.
Esses documentos so elaborados, revisados e, aps um parecer de deferimento, passam a
compor a normatizao da universidade, podendo revogar legislaes anteriores. Entre os
documentos institucionais os principais so: estatutos, regimentos, resolues, determinaes,
portarias, instrues normativas, pareceres e editais.
Atualmente, a UNIVALI no dispe de um sistema de Gerenciamento Eletrnico de
Documentos (GED), ou seja, tecnologia para captar, armazenar, recuperar e gerenciar informaes,
o que dificulta o processo de divulgao e restringe o controle de verses dos diversos documentos
produzidos, resultando, por vezes, em tomadas de deciso com base em documentos ultrapassados
ou incompletos.
Alguns documentos possuem vigncia, com incio e fim determinados, outros permanecem
vigentes at que sejam revogados. Outra caracterstica comum nas resolues, determinaes e
instrues normativas haver vinculao com outros documentos, o que requer maior controle de
verses e mecanismos de divulgao de forma agrupada.
Do ponto de vista da utilizao dos documentos, a maior dificuldade dos gestores saber
identificar quais os documentos relacionados e vigentes com as necessidades de tomada de deciso.
Como exemplo, se um coordenador precisar informar ao acadmico sobre as normas e
procedimentos para solicitao de trancamento de matrcula, ser necessrio primeiro identificar os
documentos vigentes que tratam do assunto, o que requer um tempo considervel tanto na
recuperao quanto na checagem da validade desses documentos.
Considerando que os documentos institucionais so uns dos principais instrumentos para
apoiar a tomada de deciso, durante o trabalho de concluso de curso desenvolveu-se um sistema de
informao com caractersticas de GED, o qual possibilita a indexao, armazenamento e
recuperao dos documentos institucionais.
Create PDF with GO2PDF for free, if you wish to remove this line, click here to buy Virtual PDF Printer
http://www.go2pdf.com
10
Segundo Laudon e Laudon (1999), os sistemas de informao essencialmente transformam a
informao em uma forma utilizvel para a coordenao de fluxo de trabalho de uma organizao,
ajudando o gerente a uma tomada de deciso.
Um sistema de informao pode ser definido como um conjunto de componentes inter-relacionados trabalhando juntos para coletar, armazenar, processar e distribuir informaocom a finalidade de facilitar o planejamento, o controle, a coordenao, a anlise e oprocesso decisrio em organizaes LAUDON E LAUDON (1999).
O trabalho proposto objetivou construir uma ferramenta para auxiliar na organizao dos
documentos institucionais de forma eletrnica, propiciando agilidade na recuperao das
informaes e auxiliando as tomadas de deciso por parte dos gestores, bem como facilitando a
divulgao aos demais integrantes da Universidade (professores, funcionrios tcnico-
administrativos, acadmicos), conforme a rea de atuao e escopo dos documentos.
A inteno inicial foi disponibilizar o acesso ao sistema eletrnico de documentos a partir da
Intranet da UNIVALI, aproveitando a autenticao dos usurios para habilitar as funcionalidades
previstas para cada categoria (gestores, professores, funcionrios etc). Entretanto, por se tratar de
um projeto acadmico, desenvolvido como trabalho de concluso de curso e utilizando recursos
ainda no avaliados pelo Departamento de Tecnologia da Informao da UNIVALI como, o pacote
Oracle Text, optou-se por desenvolver a aplicao sem a integrao com o cadastro de pessoas da
Intranet da Universidade at que haja uma aprovao da aplicao para torn-la corporativa.
No GED a recuperao dos documentos realizada a partir de termos ou de palavras-chave.
O sistema permite disponibilizar a vinculao entre os documentos, identificando as verses
vigentes e revogadas. Para tanto, foi utilizado um sistema gerenciador de banco de dados que
manipule tipos de dados textuais e conceitos de GED.
Em uma anlise da tecnologia da informao, o GED contribui para a organizao da grande
quantidade de documentos gerados pelos conselhos superiores. A manipulao de documentos faz
parte da realidade institucional e cada documento uma fonte no estruturada de informao que
pode ser perdida quando no bem organizada. De acordo com Carvalho (2000), o GED permite
uma recuperao mais eficiente, melhor segurana e controle de verso dos documentos. Muitas das
caractersticas do GED, como catalogao e indexao, foram herdadas dos tradicionais sistemas de
recuperao da informao que so amplamente estudados no campo da Cincia da Informao.
Create PDF with GO2PDF for free, if you wish to remove this line, click here to buy Virtual PDF Printer
http://www.go2pdf.com
11
Zotto (2002) define GED como uma tecnologia da computao que visa captar, armazenar,
recuperar e gerenciar informaes de forma eletrnica. Os documentos originais (em papel) so
convertidos para os formatos de imagens eletrnicos, indexados (gerao ndices de pesquisa) e
arquivados em equipamentos com capacidade alta de armazenamento.
Oliveira Filho (2004) relata que o grande diferencial da soluo de GED sem dvida o
recurso de busca textual. Os documentos importados no sistema passam por um processo de
catalogao, tratamento de texto e armazenamento, referenciando o diretrio do sistema operacional
onde os documentos esto disponveis para as consultas.
Rocha et al. (2002) descreve que as informaes so armazenadas em um banco de dados
que manipule textos e imagens, onde podem ser armazenado e recuperado, por ferramentas que
trabalham com indexao de documentos. O banco que manipula o chamado Banco de Dados
Textual, que uma coleo de documentos que pode tambm ser visto como um largo conjunto de
registros, em que cada registro contm apenas uma lista de palavras de tamanho arbitrrio. Este
largo registro pode ser comparado ao campo BLOB (Binary Large Object), criado para
armazenamento de qualquer tipo de informao.
Pode-se citar como tecnologias de GED, Document Imaging (DI), Document management
(DM), Workflow entre outras. Para compreender o sistema proposto, a Figura 1 ilustra uma possvel
interao com o GED.
Figura 1. Viso geral de uma interao com GED.
GED e Servidor Banco de Dados
WEB
Usurios quearmazenam documentos
Usurios que Consultamdocumentos
Create PDF with GO2PDF for free, if you wish to remove this line, click here to buy Virtual PDF Printer
http://www.go2pdf.com
12
A implementao dessa aplicao GED para a Intranet foi desenvolvida com uma
linguagem de programao voltada para WEB, o PHP, utilizando como banco de dados, ORACLE
9i, que possa realizar armazenamento das informaes textuais. A UML (Unified Modeling
Language) foi utilizada para a modelagem e documentao da aplicao.
1.1. OBJETIVOS
1.1.1. Objetivo Geral
O objetivo geral deste Trabalho de Concluso de Curso foi o desenvolvimento de um
sistema de informao para armazenamento e recuperao de documentos institucionais da
Universidade do Vale do Itaja.
1.1.2. Objetivos Especficos
Os objetivos especficos desse trabalho foram os seguintes:
Pesquisa dos conceitos e tecnologias de indexao, armazenamento e recuperao
em Banco de Dados;
Pesquisa de tecnologias e produtos de GED no dito Banco de Dados Textuais;
Realizao do levantamento de requisitos do GED institucional;
Definio da arquitetura do sistema (tecnologias/ferramentas);
Elaborao da modelagem do sistema;
Implementao e testes da aplicao;
Validao da aplicao;
Implantao da aplicao para um conjunto de documentos em um SGDB que
manipule documentos (formatos PDF e DOC);
Teste e avaliao da utilizao por parte dos usurios; e
Documentao do desenvolvimento do projeto.
Create PDF with GO2PDF for free, if you wish to remove this line, click here to buy Virtual PDF Printer
http://www.go2pdf.com
13
1.2. METODOLOGIA
Foram necessrias cinco etapas para a execuo deste projeto de pesquisa e cumprimento
dos objetivos especficos apresentados anteriormente. As etapas (1) estudo (2) modelagem foram
realizadas durante a disciplina Trabalho de Concluso de Curso I (TCC I) do 9 perodo do curso,
enquanto as demais foram realizadas na disciplina TCC II do 10 perodo do curso, ou seja, etapas
(3) desenvolvimento (4) validao (5) documentao.
Etapa 1: Estudo
Essa etapa visou definir exatamente o tema deste projeto e adquirir o conhecimento
necessrio sobre as solues e tecnologias existentes com o objetivo de desenvolver a aplicao,
incluindo as seguintes atividades:
Pesquisa dos conceitos e tecnologias de indexao, armazenamento e recuperao
no ditos bancos de dados textuais: a pesquisa foi realizada atravs da Internet, por
sites de procura como o Google, Yahoo e Lycos. A pesquisa foi iniciada com a busca
de artigos cientficos que referenciassem a tecnologia de indexao, armazenamento
e recuperao. A pesquisa se estendeu a outros sites, em portugus e ingls, que
tratavam do assunto. Tambm foi realizada uma pesquisa em livros especializados
em indexao de documentos;
Pesquisa de tecnologias e produtos de GED no ditos bancos de dados textuais: a
pesquisa de tecnologias e solues em GED ocorreu por meio por sites de procura
como Google, Yahoo e Lycos. A anlise das informaes encontradas certificou a
procedncia das mesmas, sua quantidade, relevncia, caractersticas desejveis e
limitaes relacionadas aplicao desejada;
Realizao do levantamento de requisitos do GED institucional: a pesquisa se
realizou juntamente com os setores geradores de documentos institucionais, por
exemplo, Secretria dos Conselhos Superiores. Foram realizadas entrevistas para
obter detalhes que definissem os requisitos para o GED, sendo uma atividade
imprescindvel para a construo do sistema proposto; e
Definio da arquitetura do sistema (tecnologias/ferramentas): a definio da
arquitetura utilizada foi elaborada a partir das pesquisas de tecnologias de Sistemas
Create PDF with GO2PDF for free, if you wish to remove this line, click here to buy Virtual PDF Printer
http://www.go2pdf.com
14
Gerenciadores de Banco de Dados (SGBD) em ambientes de programao Web
(opo foi o PHP em funo da estrutura da Intranet da Univali), bem como a
utilizao do campo BLOB que se adequou aos requisitos definidos. Os principais
critrios para a definio do SGBD foram o formato e o tempo de recuperao dos
documentos textuais em um banco de dados, com a utilizao do pagote Oracle Text,
que possui mecanismos de indexao e armazenamento de documentos.
Etapa 2 : Modelagem
Esta etapa visou elaborar a modelagem de processos e de dados do sistema proposto, levando
em considerao o funcionamento desejado da aplicao GED no SGBD selecionado, incluindo a
seguinte atividade:
Elaborao da modelagem do sistema: foram realizados a anlise e o projeto do
sistema proposto, compreendendo os requisitos, especificaes do sistema GED.
Foram utilizados os seguintes artefatos da UML: Casos de Uso, Diagrama de
Atividades, Diagrama de Classes e Projeto de Banco de Dados.
Etapa 3 : Desenvolvimento
Esta etapa visou transformar o modelo de dados e de processos da etapa de modelagem
numa aplicao GED suportada por um banco de dados, incluindo a seguinte atividade:
Implementao e teste da aplicao: com base na modelagem, a implementao da
aplicao foi feita usando a linguagem de programao PHP e o SGBD Oracle,
contemplando os testes de implementao e parte da validao dos requisitos funcionais
e no funcionais.
Etapa 4 : Validao e Implantao
Nesta etapa est sendo realizada uma experimentao do GED com o objetivo de validar os
requisitos definidos, eliminando erros existentes em sua modelagem ou desenvolvimento, incluindo
as seguintes atividades:
Validar a aplicao: os testes de validao sero realizados por alguns gestores (dois
coordenadores de curso e um diretor de centro) e funcionrios tcnico-administrativos (
uma secretria dos conselhos superiores);
Create PDF with GO2PDF for free, if you wish to remove this line, click here to buy Virtual PDF Printer
http://www.go2pdf.com
15
Implantao da aplicao para um conjunto de documentos institucionais: a implantao
da aplicao ser feita aps a aprovao do Departamento de Tecnologia da Informao,
uma vez que o GED ser instalado num dos servidores corporativos da Universidade.
Pretende-se restringir a implantao para um conjunto de documentos, testando o
processo de indexao, armazenamento e recuperao eletrnica dos mesmos; e
Avaliar a utilizao por parte dos usurios: os testes para avaliar a implementao sero
realizados inicialmente pela Coordenao do Curso de Cincia da Computao, tanto
como gestor como membro de colegiado, analisando a utilidade e funcionalidade da
aplicao para auxiliar no processo decisrio.
Etapa 5 : Documentao
Esta etapa visou deixar registrado todo o processo pertinente aplicao GED, permitindo
que outros pesquisadores reproduzam a nova soluo, incluindo as seguintes atividades:
Documentao da proposta (TCC I): a redao do TCC I foi realizada ao longo do
primeiro semestre 2004, atravs das produes textuais que so os indicadores fsicos
das atividades j planejadas. Procurou-se ter um texto final conciso, claro, bem
apresentado e com boa cadncia. O objetivo do TCC I foi definir bem o tema/problema
de pesquisa, justificar sua importncia e abrangncia, fornecer o referencial terico e
apresentar a soluo proposta; e
Documentao da aplicao pronta (TCC II): a redao do TCC II foi realizada ao longo
do segundo semestre de 2004 e primeiro semestre de 2005, atravs das produes
textuais que so os resultados das atividades realizadas. Seguindo a redao do TCC I o
texto final procurou estar conciso, claro, bem apresentado e com boa cadncia. O
objetivo do TCC II foi documentar o desenvolvimento da soluo proposta, de forma
que possa ser reproduzida por outros pesquisadores, alm de apresentar a verificao e
validao do projeto e, bem como os resultados alcanados e as concluses.
Create PDF with GO2PDF for free, if you wish to remove this line, click here to buy Virtual PDF Printer
http://www.go2pdf.com
16
1.3. ESTRUTURA DO TRABALHO
Este trabalho est estruturado em 4 captulos descritos a seguir:
Neste captulo, Introduo, foram expostos o problema a ser resolvido, os objetivos
pretendidos e, a metodologia adotada para cumprimento dos objetivos estabelecidos.
O segundo captulo apresenta a fundamentao terica necessria para o desenvolvimento
do trabalho, abordando especialmente os assuntos GED e SGBD quanto aos mecanismos de
indexao e recuperao de documentos.
O terceiro captulo apresenta o desenvolvimento do trabalho, para qual seguiu-se as etapas
de construo e validao do sistema de informao, com caractersticas de um GED, a partir da
definio do escopo da aplicao e das especificaes dos processos apresentados no TCC I.
O quarto captulo apresenta as concluses sobre o sistema implementado.
Create PDF with GO2PDF for free, if you wish to remove this line, click here to buy Virtual PDF Printer
http://www.go2pdf.com
17
2. FUNDAMENTAO TERICA
2.1. DEFINIO
Um sistema de gerenciamento de documentos um sistema de informao capaz de
armazenar, recuperar e manter a integridade de documentos, entre outras funcionalidades. Diversas
razes explicam a atual efervescncia do mercado de gerncia de documentos. A principal delas a
percepo da vital importncia que os documentos possuem como repositrio do conhecimento das
organizaes, uma vez que a maior parte de suas informaes vitais esto contidas em documentos
no-estruturados. (SADIQ, 1997, apud MACEDO, 2003).
GED (Gerenciamento Eletrnico de Documentos) nada mais do que a transformao do
documento papel em documento eletrnico, agregando a ele elementos que possibilitem a sua
recuperao de uma forma rpida, segura e eficaz (MONACO, 1999).
Mas a viso de um GED pode ter uma outra definio, pois com a evoluo das tecnologias
e dos sistemas de informao, houve a necessidade de integrao total entre processos e o GED est
genericamente embutido nas ferramentas de tomada de deciso alm de ter multiplicado-se para
auxiliar em diversas reas como gerenciamento de documentos tcnicos, gerenciamento de
documentos de normas de qualidade International Organization for Standardization (ISO),
Reconhecimento Inteligente de Caracteres Manuscritos (ICR), anlise e vetorizao de mapas,
controle do fluxo de processos, gerenciamento de relatrios, entre outras (CENADEM, 2002).
O GED uma tecnologia da computao que visa captar, armazenar, recuperar e gerenciar
informaes de forma eletrnica. Os documentos originais (em papel) so convertidos para os
formatos de imagens eletrnicas, indexados (gerao de ndices de pesquisa) e arquivados em
equipamentos com capacidade alta de armazenamento. Esta converso feita utilizando-se
equipamento denominado escaner (scanner) que faz a varredura do documento, transformando-o
em uma informao digital que ser reconhecida pelo computador (ZOTTO, 2002).
Segundo Pacini (2002) GED converte informaes que podem ser voz, texto e imagens para
a forma digital. Funciona com software e hardware especficos e usa as mdias eletrnicas, em
geral, para armazenamento. Um sistema de GED usa a tecnologia da informao para captar,
armazenar, localizar e gerenciar verses digitais das informaes. O GED implementa
categorizao de documentos, tabelas de temporalidade, aes de disposio e controla nveis de
Create PDF with GO2PDF for free, if you wish to remove this line, click here to buy Virtual PDF Printer
http://www.go2pdf.com
18
segurana. Como uma espcie de leque em constante abertura, muitas tecnologias j fazem parte do
GED com o propsito de melhor e mais eficientemente administrar toda a documentao gerada e
recebida. A Tabela 1, lista os vrios recursos encontrados em Tecnologia da Informao (TI), onde
o GED j faz parte como um recurso embutido aos demais.
Tabela 1. Aplicaes da Tecnologia da Informao
Revista Kmword publicao internacional na
rea de gesto doconhecimento
Delphi Computing Group
CENADEM CentroNacional de
desenvolvimento doGerenciamento da
InformaoCorreio eletrnico Redes (LANs e WANs) InternetInternet Internet IntranetIntranet Intranet ExtranetExtranet Extranet Group WareBanco de Dados Data Warehousing WorkflowRelacionais Data Mining Data WarehouseGerenciamento eletrnico deDocumentos Workflow Data Mining
Captura de dados(OCR/ICR/Barcode)
Process Visualization WhiteBoard
Gerenciamento eletrnico deDocumentos
Data Warehousing Simulao COLDWorkflowCall CenterERP Planej. Rec.Empresariais
Fonte: THIVES JR (2000).
2.2. DEFINIO DE DOCUMENTOS
Os documentos envolvidos no sistema GED so referenciados como Gerenciamento de
Documentos ou Gesto de documentos, como relata Bax e Bax (2002) em seu artigo, pois a
diferena entre gesto de documentos que o GED manipula essa gama de informao de forma
eletrnica. Sem esquecer que no apenas documentos eletrnicos so manipulados pelo GED, mas
tambm documentos em papel que so processados de forma eletrnica. Segundo Santos et al.
(2003), Gesto de Documentos assegura a produo, administrao, manuteno e destinao dos
documentos, refletindo as informaes registradas em seu contexto
Os autores do Jornal mundo da imagem relatam que documento eletrnico diferente de
um documento que foi produzido em suporte papel e mais tarde digitalizado para dentro de um
Create PDF with GO2PDF for free, if you wish to remove this line, click here to buy Virtual PDF Printer
http://www.go2pdf.com
19
Sistema de GED. O prprio conceito de GED esclarece: Um Sistema de Gerenciamento Eletrnico
de Documentos usa tecnologia da computao para captar, armazenar, localizar e gerenciar verses
eletrnicas dos documentos em papel. (MUNDO DA IMAGEM, 1997, apud FLORES, 2004).
Conforme Koch (1998, apud BAX e BAX, 2002) o GED dividido em dois grupos de
solues: os de Gerenciamento de Imagens de Documentos (DI Document Imaging), e os de
Gerenciamento de Documentos (DM Document Management). O ciclo de vida das informaes
define por qual grupo ser gerenciado.
A primeira tecnologia de GED que surgiu enfatizava basicamente a digitalizao de
documentos de origem papel, gerando-se imagens digitais dos documentos. Os documentos no
formato imagem so, em mdia, dez vezes maiores que os textuais, e no podem ser processados
por sistemas tpicos de processamento de dados.
Com o avano da tecnologia e a disseminao dos microcomputadores na ltima dcada
fizeram com que boa parte da gerao dos documentos passasse a ser feita pelos sistemas digitais.
Num ambiente de escritrio, isso significa a gerao de documentos em processadores de texto,
planilhas eletrnicas e todas as demais ferramentas dessa natureza. A quantidade de documentos
digitais geradas cresce vertiginosamente, exigindo ferramentas para controle de localizao,
atualizao, verses e mesmo de temporalidade de guarda dos documentos. Dentro dessa
necessidade ou ciclo que o DM utilizado. (CENADEM, 2005).
O Gerenciamento de Documentos, foco do projeto de TCC, ponto fundamental, visto que
todo o sistema de informao est envolvido com documentos gerados pela Instituio. Na sua
grande maioria documentos, no formato PDF e DOC, que sero agregados ao sistema pelos usurios
geradores dos documentos.
2.2.1. Organizao de documentos
A gerao de documentos em qualquer instituio ou organizao em grande quantidade e
de certa forma mal estruturada. Existe a cincia que estude os Documentos, Segundo Arquivo
Nacional (1993, apud FLORES, 2004), o estudo de arquivos que so conjunto de documentos
produzidos e/ou recebidos por rgos pblicos, instituies de carter pblico, entidades privadas,
pessoas fsicas em decorrncia do exerccio de suas atividades, conhecida como Arquivologia.
Para Richter (1997, apud FLORES, 2004) a Arquivologia estuda os documentos, e a informao
Create PDF with GO2PDF for free, if you wish to remove this line, click here to buy Virtual PDF Printer
http://www.go2pdf.com
20
contida nos documentos, desde sua criao, organizao e utilizao da informao, preocupando-se
com a preservao do patrimnio documental que estuda os arquivos com o fim de identificar sua
essncia e histria, propondo medidas para cumprir sua misso que a custdia dos documentos e a
recuperao das informaes neles contidas.
Um Sistema de GED contempla organizaes baseadas na informao, com arquiteturas
estruturais dinmicas com o intuito de democratizar a informao no ambiente institucional. A
utilizao da organizao da Arquivologia importante para definir parmetros na estrutura dos
sistemas de informao (GED), sabendo que a realidade Institucional ainda est bastante distante da
desejada, e possivelmente tende-se a trabalhar com sistemas hbridos, diferentes tipos de mdia,
ainda por algum tempo.
Flores (2004) relaciona vrias reas de interesse da Cincia da computao com o estudo da
Arquivologia como Compiladores, Sistemas Operacionais, Gerenciadores de Bancos de Dados,
Engenharia de Software, Sistemas Especialistas e Inteligncia Artificial. Alguns parmetros do
sistema de informao so definidos pelas funes da Arquivologia, e tratam entre outras coisas do
perodo de manipulao dos documentos, que so fundamentais para o funcionamento eficaz do
sistema de informao.
Segundo Santos et al. (2003), descreve que gerenciar documentos de forma eletrnica uma
soluo que traz resultados significativos para a Instituio como reduo de espao fsico, alta
velocidade e preciso na localizao de documentos, controle documental, maior agilidade nas
transaes entre organizaes, minimizao de perda e extravio de documentos entre outros.
2.2.2. Processo de digitalizao
Os gerenciadores de documentos eletrnicos possuem caractersticas semelhantes no seu
processo de digitalizao de documentos, que podem ser no formato DOC, .XLS alm de PDF. Para
os documentos em formato de papel ou mesmo meio magnticos, existem mtodos que fazem esse
processo, conhecidos como escaneamento, converso e importao de documentos. Conforme Bax
e Bax (2002), a converso do documento de papel ou microfilme bastante similar utilizao de
uma copiadora: os documentos em papel podem ser "escaneados" e aqueles em microfilme podem
ser salvos em formato de imagem.
Create PDF with GO2PDF for free, if you wish to remove this line, click here to buy Virtual PDF Printer
http://www.go2pdf.com
21
O escaneamento dos documentos realizado atravs de um Scanner que captura as imagens
e armazena no sistema. A escolha do Scanner depende da necessidade da Instituio como
quantidade, volume de documentos e investimento pretendido. Um bom sistema de captura de
imagens tem a capacidade de utilizar uma grande variedade de scanners, o sistema tambm deve ter
um sistema automtico de alimentao (Automatic Document Feeder ADF), para possibilitar que
uma quantidade de papel possa ser colocada em uma bandeja e copiada automaticamente.
A maioria das Instituies tem necessidades de copiar documentos de tamanho padro no
formato A4 (21,0 x 29,7 cm), para outros formatos so necessrios scanners maiores. A velocidade
do scanner outra caracterstica que deve ser considerada. Scanners para a captura de imagens
manuseiam entre 10-200 pginas por minuto.
Segundo Bax e Bax (2002) a converso de documentos o processo de transformao dos
documentos eletrnicos em imagens permanentes para serem armazenados no GED. H aplicaes
no ambiente Windows, tais como Microsoft Word, Excel ou Autodesk AutoCAD, que podem
imprimir arquivos gerando imagens inalterveis. A partir destas imagens possvel armazenar em
arquivos no formato TIFF (Tagged Image File Format). Este processo de converso tambm gera
um arquivo de texto completo, retendo o formato visual e o layout original do documento. A
utilizao da converso eletrnica de documentos permite substituir o processo de escaneamento, e
economizando papel e recursos de impresso alm de produzir uma imagem de melhor qualidade.
O ltimo mtodo citado para a digitalizao de documentos a importao de arquivos, que
traz para dentro do GED arquivos eletrnicos, como por exemplo, documentos do Office (da
Microsoft), grficos, udio ou vdeos. Bax e Bax (2002) citam que os arquivos podem ser movidos,
arrastados e soltos, para dentro do sistema de imagens, mas so verses modificveis e
permanecem em seu formato original, por isso esse tipo de importao o mais usado em sistemas
GED. Esses arquivos podem ser visualizados em seu formato original ou ser usado atravs de um
visualizador embutido no prprio gerenciador.
2.2.3. Recuperao de documentos
Segundo Mnaco (1999), os programas de recuperao tm funo bsica de localizar os
documentos que foram previamente inseridos no sistema com uma coisa em comum, pesquisa
campos pr-indexados em uma base de dados, que foi alimentada nas etapas de digitalizao
(indexao) e armazenamento. Ainda de acordo com o autor:
Create PDF with GO2PDF for free, if you wish to remove this line, click here to buy Virtual PDF Printer
http://www.go2pdf.com
22
A qualidade do processo de recuperao de documentos est diretamente ligada ao sistemade indexao utilizado. O sistema deve interagir com os usurios atravs de ferramentassimples e intuitivas, sem a necessidade de uso de cdigos, smbolos ou operadorescomplicados e difceis de memorizar. Isso importante, pois possibilita a localizao dequalquer documento da coleo com base apenas no que o usurio sabe no momento sobreo documento.
H modos de recuperao de documentos que podem significar realizao de pesquisa por
campos ou mesmo em uma navegao em um diretrio. Dependendo da informao que o usurio
possuir sobre o documento, pode ser apenas uma palavra ou uma frase, a pesquisa em texto (full-
text) possibilitar a recuperao de arquivos relevantes.
O interessante neste tipo de sistema ter uma recuperao intuitiva e amigvel. Para
usurios que j esto familiarizados com o contedo de um documento possam pesquisar esta
informao para encontrar exatamente o que precisam. Alguns sistemas permitem apenas busca por
palavras-chave indexadas, mas que nem sempre so interessantes a partir do momento que a pessoa
que faz a pesquisa no a mesma que indexa as palavras chaves. Um sistema para ser realmente
til deve permitir a pesquisa baseada na indexao completa do texto (full-text indexing).
Segundo Bax e Bax (2002), utilizar o nome do documento ou a rvore de diretrios pode ser
simples e intuitivo, como tambm no pode ser o melhor ou mais rpido, pois algumas vezes a
pessoa pode saber qual documento procura, mas no sabe onde est localizado e nem como foi
nomeado. Em um sistema completo os usurios tm a possibilidade de criar moldes (ou templates)
de formulrios de busca com campos definidos pelo usurio. Pesquisar por campos indexados
permite que o usurio possa passar por vrios registros rapidamente a procura do que lhe interessa.
Para maximizar a efetividade das buscas um sistema completo deve ser capaz de combinar
pesquisa por campos com pesquisa em texto.
2.3. TECNOLOGIAS DO GED
Segundo Cenadem (2005), essas tecnologias foram sendo agregadas ao GED na medida em
que, com o passar do tempo, surgiu nas empresas uma necessidade mais completa para o
gerenciamento de documentos. um conjunto de tecnologias que permite o gerenciamento de
documentos de forma digital. Tais documentos podem ser das mais variadas origens e mdias, como
papel, microfilme, som, imagem e mesmo arquivos j criados na forma digital. GED formado
pelas seguintes tecnologias:
Create PDF with GO2PDF for free, if you wish to remove this line, click here to buy Virtual PDF Printer
http://www.go2pdf.com
23
Gerenciamento de Documentos (Document Management): Zotto (2002) menciona que as
solues so voltadas ao gerenciamento do ciclo de vida de um documento, desde a sua
criao, reviso at sua expirao. Os produtos enquadrados nesta diviso no gerenciam
obrigatoriamente imagens, mas tambm arquivos oriundos de editores de texto, planilhas
e outras formas de gerao de arquivos eletrnicos. Bax e Bax (2002), relatam que num
processo semelhante a tecnologia de imagens, os documentos eletrnicos so indexados
e arquivados em dispositivos de alta capacidade, e utilizando-se de sistemas de busca,
so recuperados e mostrados na sua forma original;
Gerenciamento de Imagens (Document Imaging): j os produtos do gerenciamento de
Imagens ou processamento de Imagens so voltados para armazenamento de imagens
captadas atravs de scanners e indexadas em uma base de imagens. Geralmente
disponibiliza uma interface para o usurio na forma de pastas/sub-pastas onde esto
armazenadas e indexadas as imagens dos documentos (formato de exibio semelhante
ao Explorer do Windows);
Integrao com sistemas de processamento de dados (Imaging enable): segundo Mnaco
(1999), normalmente em uma soluo hbrida misturando imagem e documento
eletrnico, uma boa sada para organizaes que queiram melhorar bastante a gerncia
das suas informaes. So solues de gerenciamento de imagens que disponibilizam
bibliotecas de sub-rotinas que podem ser integrados a sistemas de informao via
recursos como Application Program Interface (API), Dynamic Link Library (DLL) e
Dynamic Data Exchange (DDE). Estes sistemas passariam a utilizar funes de acesso e
recuperao de imagem aliando a uma pesquisa em uma base de dados. Permite mostrar
dados e imagens em uma mesma tela;
Gerenciamento de Documentao Tcnica (Engineering Document Management): so
produtos voltados para o gerenciamento de documentao tcnica, envolvendo arquivos
gerados eletronicamente em softwares CAD, at documentos em papel em formato A0.
Permite a transformao de documentos (plantas A0 - imagem raster) em imagem tipo
CAD (imagem vector);
Reconhecimento tico de Caracteres (OCR Optical Character Recognition): so
ferramentas utilizadas para reconhecimento de caracteres a partir de uma imagem digital
(na forma datilografada ou impressa). O caracter reconhecido transformado em dado
eletrnico, podendo ser manipulado por sistemas de informao, editores de textos ou
Create PDF with GO2PDF for free, if you wish to remove this line, click here to buy Virtual PDF Printer
http://www.go2pdf.com
24
planilhas, por exemplo. Existe ainda uma variao desta ferramenta quanto ao que se
refere ao reconhecimento da escrita. Estes softwares so chamados ICR (Intelligent
Character Recognition). Geralmente so ferramentas dotadas de uma concepo de
reconhecimento de caracteres cursivos levando-se em conta aspectos como inclinao,
presso sobre o papel, etc;
Recuperao de Textos Total (Full Text Retrieval): estas ferramentas so integradas a
outras ferramentas, como OCR. Atravs desta ferramenta possvel recuperar
documentos a partir de qualquer palavra de seu contedo. Os documentos capturados
pelo scanner (digitalizados) so submetidos a um processo de reconhecimento (OCR) e
indexados numa base dados integradas com imagens dos documentos;
Sada de Computador para Disco Laser (COLD): so produtos voltados ao
gerenciamento de relatrios emitidos por sistemas de informao, geralmente residentes
em grandes computadores. Os relatrios so armazenados na forma de dado eletrnico,
permitindo a recuperao por palavras do seu contedo, partes do relatrio ou mesmo
ndices previamente indicados na gerao dos relatrios. O resultado apresentado em
diversas formas: tela do computador, FAX, impressora e outros. No momento da
exibio pode ser acoplado a uma mscara de layout (formulrio com logotipos,
assinatura), permitindo ao usurio a visualizao e impresso do resultado real de como
seria se fosse impresso (ex: contracheques, notas fiscais, faturas de telefones, etc); e
Gerenciamento de Fluxo de Trabalho (Workflow): so solues que gerenciam as
estruturas dos processos de fluxo de trabalho de uma organizao. Permite desenhar, por
exemplo, o caminho que um documento deve seguir desde sua etapa de criao at sua
aprovao, definindo critrios como segurana, visualizao, limites de liberao, para
cada documento pertencente ao processo. Pode ser dividido em Workflow de produo
onde composto por diversos mdulos que so desenvolvidas de acordo com as tarefas,
sendo controlados e monitorados por um sistema central.
2.3.1. Solues empresariais
Mundo da Imagem (2003), cita como uma tendncia utilizao de produtos de Web
Content Management, ou seja, produtos customizveis que a empresa adapta a sua realidade, sendo
que muitas dessas solues j trazem de forma nativa, ferramentas para gerenciamento de
Create PDF with GO2PDF for free, if you wish to remove this line, click here to buy Virtual PDF Printer
http://www.go2pdf.com
25
documentos, como DI, DM e Workflow.
As solues para GED tm caminhado para uma nova realidade, desenvolvimento de
software que suporte a plataforma livre. O Linux representa essa tecnologia de plataforma livre,
sendo um sistema operacional livre e confivel. Tanto que grandes empresas como Oracle tm
atestado que o Linux uma retaguarda confivel e slida. (CENADEM 2005).
O tema de GED livre abordado de uma forma futurstica, necessitando de um
amadurecimento, pois a adoo para software livre ainda no uma realidade em grande parte da
empresas. Segundo CENADEM (2005), o software livre representa maior disseminao das
tecnologias em todos os sentidos. No GED isso representa uma maior utilizao das caractersticas
de gerenciamento, pois sua implementao tornaria mais acessvel s empresas brasileiras, que em
vez de pagar por solues multinacionais, optaria pelos livres.
O software de GED em plataforma livre permita a instituies mais liberdade na definio
da sua base de computadores, sejam servidores ou clientes. Algumas solues de produtos em GED
que suportam plataformas livres podem ser observadas na Tabela 2.
Segundo Jesus (2003), muitas solues baseadas em GED so voltadas principalmente
localizao de documentos com maior agilidade pela integrao de documentos em papel ou em
meio eletrnico com os sistemas de informao das organizaes. So exemplos potenciais da
aplicao do GED:
Gerenciamento e busca otimizada de documentos pblicos (legislao, ofcios,
decretos, portarias etc.);
Gerenciamento de documentos contbeis e fiscais;
Gerenciamento de documentos de recursos humanos e de fundos de penses;
Gerenciamento, com suporte a reviso e controle de verso, para documentos de
normalizao e certificao de qualidade (ISO); e
Gerenciamento de documentos tcnicos e suas caractersticas como documentos de
AutoCad, CadMap e CorelDraw.
Create PDF with GO2PDF for free, if you wish to remove this line, click here to buy Virtual PDF Printer
http://www.go2pdf.com
26
Tabela 2 . Solues em produtos GED
Nome Produto Fabriante/Pas origem Ambiente suportado Nvel de customizaoArchidoc Siav Italia Windows NT e linux Produto pronto (out of the box)
BR/Search Padro IX - BrasilWindows NT, Unix(IBM, HP,SUN) e
LinuxFerramenta de desenvolvimento
Dellaplus Dellacenter - Brasil Windows NT e Linux Ferramenta de desenvolvimentoProduto customizvel
Flypaper Image Technology BrasilWindows NT,
Unix(SUN) e Linux Produto customizvel
FullBase WTB Tecnologia daInformao- Brasil
Windows NT, Unix(IBM, HP,SUN),Linux, FreeBDS e
BeOS
Ferramenta de desenvolvimentoProduto pronto e tambmcustomizvel
Galileo Siav Italia Windows NT e Linux Produto customizvel
GDS Gerenciadorde Documentos
Satech
Six TechDesenvolvimento de
Sistemas de informtica Brasil
Windows NT, Unix(IBM, HP,SUN) e
Linux Produto customizvel
IBM ContentManager IBM EUA
Windows NT, Unix(IBM, HP,SUN),
Linux, zSeries(IBMAS/400) e zSeries
(IBM OS/390)
Ferramenta de desenvolvimento,produto pronto e tambmcustomizvel
Isodoc (commodulo intranet) SoftExpert Brasil
Windows NT e Linux Produto customizvel
OnBase Hyland/Onbase EUAWindows NT, Unix(IBM, HP,SUN) e
Linux
Ferramenta de desenvolvimento,customizavel
SiteScapeEnterprise Form SiteSpace inc. EUA
Windows NT, Unix(IBM, HP,SUN) eLinux, Tru64 Unix
Ferramenta de desenvolvimento,produto customizvel
Staffware Staffware InglaterraWindows NT, Unix
(IBM, HP,SUN) eLinux
Produto customizvel
Webdesk Datasul-BrasilWindows NT, Unix
(IBM, HP,SUN) eLinux
Produto customizvel
Fonte: Adaptado de CENADEM (2005)
Create PDF with GO2PDF for free, if you wish to remove this line, click here to buy Virtual PDF Printer
http://www.go2pdf.com
27
2.4. BANCO DE DADOS PARA GED
2.4.1. Introduo
Segundo Fanderuff (2000), um Banco de Dados baseado em uma percepo do mundo
real, que consiste em uma coleo de objetos bsicos, chamados de tabelas, e em relacionamento
entre estes objetos. Os sistemas de informao em gerenciamento eletrnico de documentos so
responsveis em armazenar e posteriormente recuperar as informaes armazenadas em uma base
de dados. Estas informaes so documentos digitalizados ou documentos eletrnicos, ou seja,
informaes textuais. Em funo do avano da informtica, existem pesquisas voltadas na rea de
armazenamento de informaes textuais, a fim de que seja possvel uma melhor localizao das
informaes que se encontram em banco de dados atravs da Internet ou em Intranets.
Conforme Siberschatz (1996, apud FRANCO, 2001) comenta que, em 1990, a comunidade
internacional de pesquisas em Bancos de Dados publicou um relatrio reconhecendo que as novas
aplicaes de Bancos de Dados deveriam armazenar algo mais do que registros numricos e
caracteres; deveriam prever tambm formas no tradicionais de dados como textos, vdeos, imagens
grficas, palestras, etc, j que estas so as formas naturais da informao em nossa realidade.
Ainda conforme o autor estes dados no-estruturados necessitam de mecanismos
computacionais diferentes dos tradicionalmente usados, para que possam ser coletados,
armazenados, manipulados e consultados, diferentemente dos dados estruturados (convencionais)
que so tratados por meios tradicionais, pelo fato de existir linguagens formais tais com o SQL.
Segundo Wives (1997), a necessidade de modos de armazenamento e pesquisa de
informaes no so facilmente transformadas em tabelas, porque possuem registros e campos, e
por este fato so objetos de estudo da comunidade cientfica desde a dcada de 60. Porm mesmo
com toda essa dificuldade, estes dados so amplamente encontrados e manipulados nas pginas da
Web e em programas multimdia, pelos chamados motores de busca, como Altavista, Yahoo,
Google entre outros.
Destaca-se ento a realidade de um banco de dados voltado para as informaes textuais
(documentos no formato texto) e que pode ento ser chamado de Banco de Dados Textual. Esta
preocupao em manipular e armazenar informaes em forma de tabelas, com a criao de campos
que suportassem os dados, fez com que os bancos convencionais migrassem para um novo conceito
de SGBD.
Create PDF with GO2PDF for free, if you wish to remove this line, click here to buy Virtual PDF Printer
http://www.go2pdf.com
28
Silva (1999), descreve que o surgimento dos SGBDs objeto-relacional, trouxe uma nova
viso, pois mais representativo em semnticas e construes de modelagens do que os SGBDs
relacionais, ou seja, convencionais. Esse novo tipo de SGBD pode ento atender as necessidades
que a comunidade tanto questiona, como: projetos de engenharia, imagens, bancos de dados
cientficos, sistemas de informao geogrficas, multimdia, entre outros. Estas aplicaes possuem
requisitos e caractersticas que diferem do processamento de negcios tradicional, incluindo
estruturas para objetos, novos tipos de dados para armazenar imagens e grandes itens textuais e a
necessidade de definir novas operaes especficas das aplicaes.
Segundo Silva (1999), os novos tipos de campos criados para essa nova gama de aplicaes,
so descritos pela evoluo dos vrios tipos de mdias, extenses que os fabricantes desenvolvem a
cada nova aplicao. Para solucionar o tratamento de dados no convencionais que se estabeleceu
um padro, adotado pela maioria SGBDs, denominado campo BLOB (Binary Large Object). Este
campo, de formato binrio, descrito mais adiante neste trabalho.
2.4.2. Banco de Dados Objeto-Relacional
Conforme Silva (1999), o modelo objeto-relacional tem sido baseado na idia de estender o
modelo relacional, fornecendo um sistema de tipos mais rico atravs da incluso de caractersticas
de orientao a objetos e adicionando construes s linguagens de consultas relacionais, tal como
SQL, para manipular os novos tipos de dados adicionados. Tais extenses tentam preservar os
fundamentos relacionais, enquanto estendem o poder de modelagem dos dados. Entretanto, ainda
no se pode afirmar que existe um modelo objeto-relacional aceito como padro. Os SGBDs
baseados neste modelo sofrem o mesmo problema que os SGBDs orientados a objetos, pois h
muitas diferenas nos produtos disponveis no mercado.
Vieira Jr. et al. (2000), tambm ressalta que, nos ltimos anos, a tecnologia de banco de
dados relacionais no vem conseguindo atender s exigncias das aplicaes comerciais, que
requerem recursos no disponveis nos Sistema Gerenciador de Banco de Dados Relacional
(SGDBRs). Entre os requerimentos desses novos aplicativos esto os objetos complexos (textos,
imagens). Os sistemas orientados a objeto surgiram visando suprir as limitaes dos sistemas
relacionais, porm o princpio relacional ainda tem maior consolidao e est presente na maior
parte do mercado.
Create PDF with GO2PDF for free, if you wish to remove this line, click here to buy Virtual PDF Printer
http://www.go2pdf.com
29
Ainda segundo o autor, ressalta que estes modelos agregam uma srie de novas facilidades
caractersticas dos sistemas orientados a objetos, mantendo todas as funes bsicas dos sistemas
relacionais. Eles so relacionais porque suportam SQL e so orientados a objeto porque suportam
dados complexos.
H necessidade de manipular dados multimdia, dados geogrficos, imagens e outros, tm
implicado na perda de desempenho e complexidade nos sistemas, pois os SGBDs deixam apenas
disponvel o uso de objetos binrios (BLOBs) para serem tratados da maneira que o usurio desejar,
uma vez que a estrutura de armazenamento de tais dados completamente invisvel para o SGBD
que no consegue acess-los de maneira satisfatria.
Mas segundo o autor, os sistemas objetos-relacionais passaram a disponibilizar a criao de
novos tipos de dados, ou seja, padronizando para o SGBD a maneira de armazenar estes dados
internamente.
Porm, apenas definir novos tipos de dados no o bastante, necessrio uma maneira
otimizada de acessar os dados, sendo de fundamental importncia para o sucesso da tecnologia dos
SGBDs. Esta maneira de acessar os dados denomina-se Mtodo de Acesso.
Assim Vieira Jr. et al. (2000), define mtodo de Acesso como modo de manipular dados,
tendo a capacidade de ler e escrever diretamente na origem do dado. Alm disso, ndices tambm se
enquadram nessa categoria de mtodos de acesso, uma vez que podem prover meios rpidos ou
alternativos de obter os dados junto base. Um mtodo de acesso bastante conhecido e utilizado
rvore B-tree*.
H duas caractersticas que podem ser abordadas ainda em se tratando de sistema objeto-
relacional. Em uma abordagem os dados estendidos devem estar realmente dentro do SGBD tendo a
possibilidade de adoo de certas propriedades, como controle de transaes. Em uma outra
abordagem adotase em no manter o dado estendido dentro do SGBD, utilizando mecanismo de
camada de software, como o CORBA que quando necessrio tem acesso aos dados (ibidem).
Esses mtodos de acesso sero descritos mais adiante neste trabalho, onde os mecanismos
para acessar os dados em uma tabela sero vistos. Na Tabela 3, esto descritos os produtos e seus
fornecedores que a partir das novas verses de SGBDs, suportam mtodos de acesso em seus
produtos, comparando com o Sistema Gerenciador de Banco de Dados Relacionais (SGBDR), o
Create PDF with GO2PDF for free, if you wish to remove this line, click here to buy Virtual PDF Printer
http://www.go2pdf.com
30
Sistema Gerenciador de Banco de Dados Objeto Relacional (SGBDRO) e o Sistema Gerenciador de
Banco de Dados Orientado a Objeto (SGBDOO).
Tabela 3. Fornecedores e seus produtos
Fornecedor SGBDR SGBDRO SGBDOOOracle Oracle 7x Oracle 8xSybase System 10/11
Informix Dynamic Server Universal ServerIBM DB/2 Universal Database
UniSQL UniSQLComputer Associates OpenIngres Jasmine
Gemstone GemstoneO2 O2
Object design Object StoreObjectivity Objectivity/DB
Fonte: VIEIRA JR. (2000)
2.4.3. Banco de Dados ditos Textuais
Rocha (2002), define Banco de Dados Textual (que manipule dados textuais) como sendo
grandes volumes de dados textuais, ou seja, um largo conjunto de registros em que cada registro
contm apenas uma lista de palavras de tamanho arbitrrio, (que podem ser encontradas em
programas multimdia e nas pginas WWW da Internet) que devem ser armazenados, recuperados e
atualizados. Mas que so difcil de organizar em tabelas, ou seja, em um banco de dados relacional
(convencional) como visto anteriormente.
J Wives (1997), relata que em um Banco de Dados Textual, ou Sistema de Recuperao de
Informao como so tratadas por ele, as informaes no esto distribudas em uma forma tabular,
pois no h campos, capazes de identificar os atributos especficos de determinados registros, ou
seja, no armazenadas em tabelas. Estas informaes esto distribudas em uma seqncia de
caracteres no existindo atributos para classific-las. A busca de informaes textuais diferente da
tradicional, pois no possuem a maturidade de um banco de dados tradicional em relao a alguns
aspectos, como exemplo, o controle de concorrncia.
Conforme Salton (1983, apud WIVES, 1997), os Bancos de Dados tradicionais preocupam-
se com o armazenamento, manuteno e a recuperao de informaes disponveis explicitamente
no sistema. Por exemplo, para se buscar informaes sobre determinada pessoa em um banco de
Create PDF with GO2PDF for free, if you wish to remove this line, click here to buy Virtual PDF Printer
http://www.go2pdf.com
31
dado tradicional, basta percorrer a tabela que possui o atributo nome e localizar o registro que
possui o nome da pessoa desejado. Mais em um banco de dados dito textual, a localizao no seria
por registro, j que os dados no esto dispostos em uma forma tabular. A busca seria realizada
comparando cada palavra do documento com o da pesquisa, isso se torna invivel na medida que se
tem muitos dados para pesquisar. O melhor modo para uma pesquisa em banco de dado dita textual
adotar que h nos textos um assunto em comum, utilizado para a busca de palavras chaves ou
termos que o documento possua.
Decorrente disso, um banco de dados dito textual tem como base a seguinte teoria, proposta
por Salton (1983, apud WIVES, 1997): perguntas so submetidas pelo usurio, perguntas estas
baseadas em palavras que identificam a idia desejada por este usurio. Os documentos so
identificados pelos termos que eles contm, portanto, a localizao de um documento desejado pelo
usurio d-se a partir da identificao da similaridade entre o(s) termo(s) fornecido(s) pelo usurio e
os termos que identificam os documentos contidos na base de dados. A Figura 2 representa esta
teoria na forma de esquema:
Figura 2. Funo SimilariedadeFonte: WIVES (1997)
Esta funo Similaridade busca identificar uma relao entre os termos da consulta e os
termos dos documentos. Todavia os conceitos atribudos a Banco de Dados Tradicionais devem ser
estendidos a esse tipo de documento textual. Segundo DeFazio (1995, apud WIVES, 1997), os
estudos na rea de integrao indicam que um SGBD deve:
Suportar armazenamento, indexao, recuperao e modificao de documentos;
Semnticas de transao que possuam as propriedades ACID (Propriedades de
Atomicidade, Consistncia, Isolamento e Durabilidade); e
Extenses de linguagem de consulta que permitam a seleo de documentos relevantes
(em forma de ranking).
PERGUNTAS FUNO DESIMILARIDADE DOC.
Create PDF with GO2PDF for free, if you wish to remove this line, click here to buy Virtual PDF Printer
http://www.go2pdf.com
32
Estas caractersticas apresentadas no podem ser realizadas pelos bancos de dados ou
SGBDs relacionais para os documentos textuais, sendo necessrio mecanismos que faam essa
integrao. Porm, a evoluo das tecnologias de informao tende ao desenvolvimento de SGBDs
Objeto-relacional que possuam campos de tamanho varivel como VARCHAR() (texto tamanho
varivel) e o BLOB que proporcionam uma maior flexibilidade para armazenamento de
informaes textuais, visto que pode armazenar at gigabytes de texto, imagens e vdeos.
Wives (1997), relata que para tornar possvel o acesso a esses documentos, preciso utilizar
uma estrutura auxiliar, o ndice, isso porque fica invivel pesquisar todos os textos toda vez que for
requisitado uma consulta. A indexao faz o mapeamento dos documentos para que sejam
pesquisados pela funo de similaridade.
2.5. INDEXAO AUTOMTICA
A indexao automtica uma das mais simples (tambm pode ser chamada de FullText,
pois analisa todo o documento). Segundo Jesus (2003), na Indexao Automtica (full text) existem
ferramentas como Microsoft SQL Server, que a partir de verses mais atuais trazem um recurso
chamado Full-Text Search, que permite a criao de um ndice externo ao banco que pode ser
utilizado para pesquisa em campos de texto longo.
De acordo com Jesus (2003), ndices Full-Text podem ser utilizados para diferentes
propsitos e devem estar sempre atualizados, assim sempre que o dado de uma coluna associada ao
ndice for modificado o ndice Full-Text tambm deve ser atualizado. Indexao automtica
constitui-se de vrias etapas. Ao final das etapas, os termos resultantes so adicionados a um
arquivo de ndice cuja estrutura geralmente baseada em Arquivos Invertidos (ou Listas
Invertidas).
Segundo Salton (1983, apud WIVES, 1997), outros tipos de arquivos podem ser utilizados,
mas a experincia mostra que este tipo de estrutura uma das mais eficientes para a indexao de
documentos. Yates e Frakes (1992) descrevem que um ndice uma estrutura de dados crtica
porque reserva rapidamente grandes volumes de dados, sendo uma das estruturas mais utilizadas. A
Figura 3 apresenta um exemplo da estrutura de uma lista invertida.
Create PDF with GO2PDF for free, if you wish to remove this line, click here to buy Virtual PDF Printer
http://www.go2pdf.com
33
Figura 3. Estrutura de uma Lista Invertida
Fonte: WIVES (1997)
Basicamente, a estrutura permite que um nico termo aponte para vrios documentos. As
principais etapas encontradas neste mtodo so:
identificao de palavras;
remoo de stopwords;
word stemming ; e
identificao de termos compostos.
2.5.1. Identificao de Palavras
Realiza a identificao de palavras nos documentos que sero indexados. Analisam-se as
seqncias de caracteres do documento. Salton (1983, apud WIVES, 1997), aconselha fazer um
Dictionary lookup, ou seja, um dicionrio para comparar as seqncias de caracteres retiradas do
texto, com a finalidade de validar estas palavras, realmente saber se existem. O processo de
validao torna-se bastante til, a partir do momento que o documento apresenta muitos caracteres
invlidos ou palavras com erros gramaticais. Quando h seqncias de caracteres invlidas, elas
devem ser eliminadas e as palavras com erros corrigidas. Pode-se aplicar ainda um processo de
filtragem naqueles arquivos que possuem formatos de texto especficos, a fim de eliminar as
Arquivo de Documentos
Identificador Contedo
: :
A12 .....
A13 .......
: ......
G43 ......
: :
U01 .......
: :
Arquivo de ndice (lista invertida)
Termo Apontadores
: :
diretor A12 G43
figura A13 A30 U01
informao A13 G35
informtica Z21
: :
recuperao A13
: :
Create PDF with GO2PDF for free, if you wish to remove this line, click here to buy Virtual PDF Printer
http://www.go2pdf.com
34
seqncias de controle e/ou formatao de texto.
Outra funo do dicionrio auxiliar a identificao de termos especficos, quando se deseja
utilizar palavras pr-definidas no ndice, evitando que palavras desconhecidas sejam identificadas
como ndice (ou seja, evita a utilizao de um vocabulrio descontrolado). Um Analisador Lxico
que identifique seqncias de caracteres e monte palavras pode ser utilizado.
Yates e Frakes (1992), relatam o uso da identificao de palavras como um dos processos da
indexao de documentos. Na Figura 4, a seguir apresenta o trecho de um documento com
seqncias de caracteres. Estas seqncias marcadas so seqncias invlidas, e no devem passar
pela fase de identificao de palavras. J as demais seqncias podem ser identificadas como
termos vlidos. Os termos sublinhados so termos identificados como incorretos pelo dicionrio, e
devem ser corrigidos. Os caracteres de pontuao so desprezados.
Figura 4. Identificao de termos vlidosFonte: WIVES (1997)
2.5.2. Remoo de Stop-Words
Wives (1997), descreve que a remoo de Stop-words seleciona em um documento as
palavras que no podem ser adicionados h estrutura de ndice. As palavras que aparecem em todos
os documentos ou na maioria deles so um exemplo. Yates e Frakes (1992), relatam que pode ser
realizado atravs da eliminao das stop-words (tais como artigos e conetivos). Isso porque utilizar
uma dessas palavras como ndice no capaz de selecionar documentos relacionados a um assunto
especfico. Preposio um exemplo deste tipo de palavra, pois um termo que serve para fazer o
encadeamento de idias e palavras, portanto, so termos para uma compreenso em uma literatura, e
no ao contedo dos documentos. A grande maioria das palavras que aparecem em documentos no
deve ser indexada, pois sua utilizao compromete a preciso e a eficincia do sistema.
... ' > ' - * Na maioria das vezes os documentos retornados pelasferramentas de ' >' recuperao de informacoes ' > ' envolvem um contextomais amplo, fazendo com que o usuario tenha que garimpar, ou seja, especificarou filtrar estes documentos (0 que demanda tempo e conhecimento ) a fim deobter a informao que ele realmente necessita ' * ' .....
Create PDF with GO2PDF for free, if you wish to remove this line, click here to buy Virtual PDF Printer
http://www.go2pdf.com
35
H sistemas j implementados, e foi construda uma estrutura (uma lista) contendo todas as
palavras que no devem ser indexadas. A esta estrutura foi atribudo o nome de "stop-list", e as
palavras presentes nesta lista so conhecidas como Stop-words. O processo de obteno das
stopwords pode ser manual, onde o projetista do sistema avalia quais palavras devem ou no ser
indexadas (o que varia de lngua para lngua, ou at mesmo entre sistemas). H ainda a
possibilidade de se montar esta lista automaticamente, verificando-se quais so as palavras com
maior freqncia (que aparecem em mais documentos), e selecionando-as como stop-words.
Ento, aps uma palavra ser reconhecida no processo de indexao, sua presena na Stop-list
verificada. Caso exista na lista de palavras negativas, ela no adicionada ao ndice. Na Figura 5,
apresenta o documento resultante da etapa anterior, aps ser validado por uma stop-list. Neste caso
a lista de Stop-words contm artigos, preposies, conjunes e algumas seqncias de caracteres
que no devem ser adicionadas ao ndice por possurem freqncia elevada.
Figura 5.Identificao de Stop-WordsFonte: WIVES (1997)
Apenas com estas etapas j possvel criar-se ndices que localizem documentos a partir da
comparao direta entre os termos da consulta do usurio e os termos presentes nos documentos.
Mas um mtodo ainda ineficiente, e algumas tcnicas adicionais podem ser utilizadas a fim de
melhor-lo. Riloff (1995, apud WIVES, 1997) menciona que h autores que citam as tcnicas a
seguir como desnecessria.
2.5.3. Word Stemming
Yates e Frakes (1999), descrevem stemming como aquele que reduz palavras distintas a sua
raiz gramatical comum. Segundo Wives (1997), a identificao de radicais (agrupamento de
palavras similares), a fim de melhorar a eficincia e solucionar o problema do vocabulrio. uma
tcnica que procura reduzir a varincia morfolgica de um termo e, portanto, depende muito da
linguagem utilizada nos documentos (tcnicas elaboradas para uma lngua no podem ser utilizadas
...... Na maioria das vezes os documentos retornados pelas ferramentas derecuperao de informaes evolvem um contexto mais amplo, fazendo comque o usurio tenha que garimpar ou seja especificar ou filtrar estesdocumentos que demanda tempo e conhecimento a fim de obter a informaoque ele realmente necessita .....
Create PDF with GO2PDF for free, if you wish to remove this line, click here to buy Virtual PDF Printer
http://www.go2pdf.com
36
em outra). A tcnica consiste em identificar os radicais das palavras, e adicion-las no arquivo de
ndice desta forma. Uma maneira de identificar os radicais das palavras remover seus sufixos e
prefixos.
Outro exemplo a eliminao dos plurais das palavras. Assim, todas as palavras que
possuem o mesmo radical, e, portanto com significados similares (mas categorias diferentes de
linguagem: adjetivo, verbo, advrbio...) so reconhecidas pelo mesmo identificador (as palavras so
armazenadas de uma s forma o radical), facilitando a consulta. A desvantagem deste mtodo
que ele pode acabar utilizando palavras muito abrangentes, no recuperando documentos
especficos (de termos especficos).
2.5.4. Word Phrase Formation
Segundo Yates e Frakes (1992), a formao de frases ou termos a identificao de grupos
de substantivo (que elimina adjetivos, advrbios, e verbos). A formao de frases termos agrupa as
palavras adjacentes para formar novos termos, buscando solucionar o problema dos termos
abrangentes, pois as idias esto agrupadas em contextos, e palavras compostas geralmente
categorizam melhor o assunto, ou seja, formao de palavras especficas. A utilizao de palavras
mais especficas consegue fazer com que o sistema recupere documentos de forma mais precisa,
justamente pelo fato destas palavras aparecerem em um nmero menor de documentos.
O conceito de frase-termo, no pode ser interpretado como utilizao das duas palavras de
forma independente. Ou seja, caso o usurio no tenha de alguma forma especificado que as duas
palavras devem aparecer juntas, ou o sistema no possua alguma tcnica que unifique as duas
palavras, a consulta pode se tornar ainda mais abrangente. Isso significa que seriam retornados tanto
documentos que tratam de um assunto quanto documentos que tratam do outro assunto. De certa
forma no interessante armazenar estas frase-termo, pois este processo exige tempo e conforme
Salton (1983, apud WIVES, 1997) no aumenta a eficincia do sistema. Entretanto, o que pode ser
feito armazenar as distncias entre as palavras de um documento e deixar que a tcnica de
consulta avalie se as palavras se enquadram com adjacentes. A Figura 6 resume o processo total de
Indexao, onde os documentos so indexados pela ferramenta, e ao final gerado um arquivo de
ndice que mostra os arquivos procurados.
Create PDF with GO2PDF for free, if you wish to remove this line, click here to buy Virtual PDF Printer
http://www.go2pdf.com
37
Figura 6.Etapas do processo de indexao automticaFonte: WIVES (1997)
H ainda outras tcnicas de localizao e mtodos, chamados de ferramentas de auxlio que
podem ser ou no incorporados s ferramentas de recuperao de informao abaixo so citadas
algumas:
Thesaurus: segundo Salton (1986), Thesaurus uma estrutura hierrquica de
palavras, ou seja, um grupo ou classe de palavras que so identificadas por termos-
chaves, em uma determinada rea de interesse. O thesaurus usado para processar
trs finalidades principais, uma distinguir os termos que so permitidos como
identificadores das classes, identificao de sinnimos e a definio de termos mais
especficos em grupos com vocbulo mais especficos;
Relevance Feedback: segundo Salton (1986) a Relevance Feedback uma tcnica
desenvolvida para realizar pesquisas mais detalhadas, facilitando a recuperao de
informaes. Esta tcnica define que o usurio depois de uma pesquisa preliminar,
identifique quais os documentos tem uma maior relevncia para sua pesquisa, atravs
desta resposta o sistema pode realizar novas iteraes que obtenha melhores
respostas;
Term Weighting: segundo Salton (1986) a relao de relevncia que um
determinado documento tem para uma pesquisa. As tcnicas usadas para conseguir
as porcentagens de relevncia em uma busca de documentos so vrias, mas podem
DocumentosIdentificador Palavras
Remoo de Stopwords
Steeming
Formao de Frases- Termo
Arquivo de ndice
Termo Composto
Termo SimplesApontadores
Create PDF with GO2PDF for free, if you wish to remove this line, click here to buy Virtual PDF Printer
http://www.go2pdf.com
38
citar a freqncia de termos em um documento. Que consiste em identificar a
quantidade de vezes que uma palavra aparece em um documento e o nmero de
documentos que esta palavra aparece, podendo assim calcular a porcentagem de
relevncia dos documentos; e
Expresses Booleanas: segundo Salton (1986) as expresses booleanas so
operadores conhecidos: AND (e), OR (ou) e NOT (no/negao). Estes termos so
utilizados para localizar os documentos na estrutura de ndices. Um exemplo que
representa a utilizao dos operadores quando o usurio quer restringir uma busca
ou especificar, e tem que de uma maneira identificar ao sistema que um termo
aparece no mesmo documento, ou identificar o termo que no podem aparecer juntos
no documento como, por exemplo, computador and programa.
2.6. NDICES
ndices so estruturas de dados que so criados para permitir a rpida localizao dos
registros dentro de uma tabela. Assim, como o ndice de um livro ajuda o leitor a encontrar
informaes sobre determinado assunto mais rapidamente, um ndice sobre uma tabela prov uma
forma rpida de acessar os dados da mesma (JESUS, 2003).
A indexao o meio pelo qual a funo de Similaridade vai comparar os termos da
consulta com os termos presentes nos documentos, e aps localizar os documentos relacionados
com o assunto desejado pelo usurio. Os ndices permitem a indexao de documentos, tambm
chamada full-text, atravs da criao de catlogos executando consultas requisitadas pelo SGBD.
Os tipos de consultas suportadas podem ser busca por palavras, frases e por proximidade de
palavras. Os ndices Full-Text em sua pesquisa so menos precisos do que as usualmente feitas em
ndices do prprio banco, nos quais o resultado da pesquisa um conjunto de linhas onde cada linha
tem a palavra ou frase pesquisada exatamente da mesma forma como foi escrita.
Jesus (2003), frisa que ao utilizar-se o ndice Full-Text o resultado da pesquisa pode trazer a
forma no plural ou singular de um substantivo pesquisado, as vrias formas que um verbo
pesquisado pode aparecer no texto, as palavras de uma frase juntas ou separadas classificadas por
proximidade, ou pode haver at diferenas entre letras maisculas e minsculas no texto procurado
e no encontrado. Qualquer operao de modificao nos registros envolvidos deve ser atualizada
Create PDF with GO2PDF for free, if you wish to remove this line, click here to buy Virtual PDF Printer
http://www.go2pdf.com
39
nos ndices, por esse motivo que o ndice intervem na performance das operaes.
2.6.1. ndices Invertidos
Ziviani (2003), considera um conjunto de documentos, onde cada documento atribudo,
um conjunto de palavras-chave ou atributos. Um arquivo invertido constitudo de uma lista
ordenada (ou ndice) de palavras-chave (atributos), onde cada palavra-chave tem uma lista de
apontadores para os documentos que contm aquela palavra-chave. Este o tipo de ndice utilizado
pela maioria dos sistemas para recuperao em arquivos constitudos de texto.
Os arquivos invertidos so usados na implementao de ndices lexicogrficos, de ndices
ordenados. A busca por frases acontece nesses arquivos invertidos, porque possuem um apontador
para cada documento onde a palavra aparece, juntamente com a posio da palavra no documento.
A busca nesse ndice torna-se mais eficiente, porm adiciona a dimenso do ndice.
A utilizao de arquivo invertido aumenta a eficincia de pesquisa em vrias ordens de
magnitude, caracterstica importante para aplicaes que utilizam grandes arquivos constitudos de
texto. Baseado nas pesquisas de Harman (1992, apud ROCHA, 2002), o custo para se ter essa
eficincia a necessidade de armazenar uma estrutura de dados que pode ocupar entre 2% e 100%
do tamanho do texto original, dependendo da quantidade de informao armazenada no ndice, mais
a necessidade de atualizao do ndice toda vez que o arquivo de documentos sofre alguma
alterao.
Diversas tcnicas de otimizao podem ser empregadas na consulta de frases com arquivos
invertidos, algumas delas foram vistas neste trabalho como remoo de palavras mais freqentes,
remoo de artigos, remoo de preposies etc., tornando o ndice menor e agilizando a pesquisa.
A Figura 7 mostra um exemplo de um arquivo invertido, a referncia para os documentos e
as posies onde os termos ocorrem no documento.
A pesquisa por frase feita da seguinte forma em ndices invertidos:
(i) o termo pesquisado, aps com o resultado gera uma lista temporria de documentos e
posies com o termo que foi pesquisado.
(ii) Com a lista temporria para pesquisar o prximo termo, retira-se dela todos os
documentos cujo termo pesquisado no ocorre na posio adequada, sendo assim na posio
Create PDF with GO2PDF for free, if you wish to remove this line, click here to buy Virtual PDF Printer
http://www.go2pdf.com
40
subseqente ao termo anteriormente pesquisado.
(iii) Repetindo-se a pesquisa para os prximos termos at que todos tenham sido
pesquisados, ou ainda se a lista esteja vazia indicando que o termo no foi encontrado.
Figura 7. ndice invertidoFonte: JESUS (2003)
2.6.2. ndices para a Prxim