Upload
others
View
2
Download
0
Embed Size (px)
Citation preview
Universidade Federal de Santa Catarina Centro Tecnoloacutegico
Programa de Poacutes-Graduaccedilatildeo em Ciecircncia da Computaccedilatildeo
Claacuteudia Maksud Mechereffe
ESTRUTURA SINTR+ UM MODELO DE SUPORTE AO USUAacuteRIO NA RECUPERACcedilAtildeO DE INFORMACcedilOtildeES
Dissertaccedilatildeo de Mestrado
Florianoacutepolis 2005
Claacuteudia Maksud Mechereffe
ESTRUTURA SINTR+ UM MODELO DE SUPORTE AO USUAacuteRIO NA RECUPERACcedilAtildeO DE INFORMACcedilOtildeES
Dissertaccedilatildeo submetida agrave Universidade Federal de Santa Catarina como parte dos requisitos para a obtenccedilatildeo do grau de Mestre em Ciecircncia da Computaccedilatildeo Profordf Edla Maria Faust Ramos Drordf
Florianoacutepolis 2005
Claacuteudia Maksud Mechereffe
ESTRUTURA SINTR+ UM MODELO DE SUPORTE AO USUAacuteRIO NA RECUPERACcedilAtildeO DE INFORMACcedilOtildeES
Esta Dissertaccedilatildeo foi julgada adequada para a obtenccedilatildeo do tiacutetulo de Mestre em Ciecircncia da Computaccedilatildeo e aprovada em sua forma final pelo Programa de Poacutes-Graduaccedilatildeo em Ciecircncia da Computaccedilatildeo
_____________________________ Prof Raul Sidnei Wazlawick Dr
Coordenador do PGCC Banca Examinadora
_____________________________ Profordf Edla Maria Faust Ramos Drordf
Orientadora PGCC
_______________________________________ Prof Heronides Mauriacutelio de Melo Moura Ph D
____________________________ Profordf Maria Marta Leite Drordf
_____________________________________ Prof Raul Sidnei Wazlawick Dr
A alma eacute uma borboleta Haacute na vida um momento em que uma voz nos diz que chegou o momento de uma grande metamorfose eacute preciso
abandonar o que sempre fomos para nos tornarmos uma outra coisa
Rubem Alves
iv
AGRADECIMENTOS
O momento de agradecimento permite lembrar com gratidatildeo de todas as pessoas que
conviveram comigo e que foram importantes nesta etapa de construccedilatildeo de conhecimento
Agradeccedilo agrave Universidade Federal de Santa Catarina ao Programa de Poacutes-Graduaccedilatildeo
em Ciecircncia da Computaccedilatildeo e a todos os professores que oportunizaram o aprendizado
alcanccedilado
Em nome destes professores e pelo seu profissionalismo agrave Edla Faust Ramos pelas tatildeo
valiosas orientaccedilotildees pela confianccedila pela crenccedila no meu trabalho e na minha pessoa
Em especial agradeccedilo a minha matildee e ao meu pai Heloisa e Antonio que me
ensinaram a lutar e persistir e pelo carinho apoio e estiacutemulo que sempre me deram
Ao David meu companheiro pela compreensatildeo paciecircncia carinho e apoio
Ao Paulo Bueno e agrave Leila Di Pietro pelo estiacutemulo paciecircncia pelas grandes
contribuiccedilotildees e ajudas prestadas
Agrave Renata Brizzi agrave Josiele Azevedo agrave Danielle Hennings e agrave Adriana Santos pelo apoio
e por suas contribuiccedilotildees
Ao Carlos Eduardo Nascimento pelo apoio e incentivo prestado
E aos meus irmatildeos Beatriz e Reacutegis por sempre acreditarem em mim
E a todos os meus amigos por serem especiais em minha vida
v
IacuteNDICE DE FIGURAS
Figura 1 Componentes de um Sistema de Recuperaccedilatildeo de Informaccedilatildeo 18 Figura 2 Exemplo dos trecircs componentes conjuntivos para query 19 Figura 3 Representaccedilatildeo do resultado de uma expressatildeo booleana conjuntiva (AND)19 Figura 4 Resultado de uma busca booleana disjuntiva (OR) 20 Figura 5 O co-seno do acircngulo adaptado como similar (dj q) 22 Figura 6 Exemplo da estrutura de niacuteveis de Sintagmas Nominais 30 Figura 7 Procedimentos de interaccedilatildeo usuaacuteriominusprotoacutetipo31 Figura 8 Estrutura de dados para acessar os Sintagmas Nominais de primeiro niacutevel a partir de
uma palavra 32 Figura 9 Estrutura de dados para acessar os Sintagmas Nominais de segundo niacutevel a partir de
Sintagmas Nominais de primeiro niacutevel 33 Figura 10 Estrutura de dados para o acesso aos tiacutetulos e textos dos artigos 33 Figura 11 Representaccedilatildeo da matriz de um item lexical39 Figura 12 Matriz superficial da Estrutura de Qualia do item lexical ldquolivrordquo 39 Figura 13 Exemplo da Estrutura de Qualia do item lexical ldquoromancerdquo 40 Figura 14 Exemplo da Estrutura de Qualia do item lexical ldquodicionaacuteriordquo40 Figura 15 Exemplo do LG relacionando ldquodicionaacuteriordquo ldquolivrordquo e peccedila atraveacutes de suas EQ41 Figura 16 Exemplo de polissemia loacutegica na representaccedilatildeo matricial da palavra ldquolivrordquo41 Figura 17 Exemplo de polissemia loacutegica na representaccedilatildeo matricial da palavra ldquojornalrdquo 42 Figura 18 Visatildeo Geral do modelo TR+47 Figura 19 Visatildeo Geral do Modelo Proposto ldquoEstrutura SINTR+rdquo56 Figura 20 Descriccedilatildeo inicial do modelo proposto58 Figura 21 Nuacutemero de palavras do Documento160 Figura 22 Nuacutemero de substantivos adveacuterbios verbos e adjetivos do Documento161 Figura 23 Nuacutemero de palavras restantes x Sintagmas Nominais 62 Figura 24 Sintagmas Nominais e adjetivos inseridos nos SN 62 Figura 25 Diagrama de casos de uso da UML do sistema proposto ndash Pesquisa do Usuaacuterio66Figura 26 Diagrama de casos de uso da UML do sistema proposto ndash Gerenciamento e
Operaccedilatildeo do BD no niacutevel de administrador 67 Figura 27 Modelo Conceitual do sistema proposto72 Figura 28 Diagrama de classes do sistema proposto ndash Pesquisa de Usuaacuterio 73 Figura 29 Diagrama de classes do sistema proposto ndash Gerenciamento e Operaccedilatildeo do BD no
niacutevel de administrador 74 Figura 30 Diagrama de Sequumlecircncia do sistema proposto ndash Pesquisa de Usuaacuterio 75 Figura 31 Diagrama de Sequumlecircncia do sistema proposto ndash Gerenciamento e Operaccedilatildeo do BD
no niacutevel de administrador 76
vi
IacuteNDICE DE TABELAS
Tabela 1 Exemplos de nominalizaccedilatildeo 49 Tabela 2 Exemplo de uma consulta qb53 Tabela 3 Paraacutegrafo 6 do documento163 Tabela 4 RLBs identificadas no paraacutegrafo 6 do documento1 63 Tabela 5 Descriccedilatildeo do caso de uso ndash Inserir novo documento68 Tabela 6 Descriccedilatildeo do caso de uso ndash Alimentar base de dados (Documentos) 68 Tabela 7 Descriccedilatildeo do caso de uso ndash Extrair SN de 4ordm ou uacuteltimo niacutevel 68 Tabela 8 Descriccedilatildeo do caso de uso ndash Tratar regras verbais69 Tabela 9 Descriccedilatildeo do caso de uso ndash Extrair SN de niacuteveis 3 2 e 1 (niacuteveis anteriores) 69 Tabela 10 Descriccedilatildeo do caso de uso ndash Alimentar base de dados (Sintagmas) 69 Tabela 11 Descriccedilatildeo do caso de uso ndash Toquenizar e etiquetar70 Tabela 12 Descriccedilatildeo do caso de uso ndash Nominalizar70 Tabela 13 Descriccedilatildeo do caso de uso ndash Capturar RLBs 70 Tabela 14 Descriccedilatildeo do caso de uso ndash Calcular peso dos descritores 71 Tabela 15 Descriccedilatildeo do caso de uso ndash Alimentar base de dados (Termos e RLBs) 71
vii
SIGLAS
RI Recuperaccedilatildeo de Informaccedilatildeo
SRI Sistemas de Recuperaccedilatildeo de Informaccedilatildeo
SN Sintagma Nominal
LG Leacutexico Gerativo
EQ Estrutura de Qualia
SMART System for the Manipulation and Retrieval of Text
SV Sintagma Verbal
SEL Leacutexico de Enumeraccedilatildeo de Sentidos
PLC Paradigma Leacutexico-Conceitual
XML Extensible Markup Language
UML Linguagem de Modelagem Unificada
UP Processo Unificado
OO Orientado a Objetos
NG N-Grama
TT Termo-Termo
TR Termo-Relacionamento
RT Relacionamento-Termo
TR+ Termo-RelacionamentoRelacionamento-Termo
SINTR+ Sintagma Nominal com TR+
BD Banco de Dados
viii
RESUMO
Este trabalho tem como objetivo apresentar um novo modelo de sistema informatizado de suporte ao usuaacuterio no processo de recuperaccedilatildeo de informaccedilotildees A proposta consiste em apoio durante a definiccedilatildeo da query de busca e baseia-se na identificaccedilatildeo das possibilidades de sistematizaccedilatildeo e junccedilatildeo do modelo de Kuramoto com a estrutura de Gonzalez Para a sua construccedilatildeo foi necessaacuterio analisar e sintetizar o modelo de suporte ao usuaacuterio de Kuramoto (baseado na determinaccedilatildeo dos Sintagmas Nominais) a estrutura de Qualia do Leacutexico Gerativo de Pustejovsky e termos e RLBs (relaccedilotildees lexicais binaacuterias) do modelo TR+ de Gonzalez O resultado que se espera alcanccedilar eacute possibilitar a realizaccedilatildeo de uma interaccedilatildeo que venha a proporcionar uma negociaccedilatildeo adequada dos significados entre o usuaacuterio e a maacutequina negociaccedilatildeo essa que deve resultar em fator fundamental na melhoria da eficiecircncia dos processos de busca O modelo de Kuramoto baseado em uma hierarquia de Sintagmas Nominais suporta inicialmente essa interaccedilatildeo Com a definiccedilatildeo da query de busca e da Estrutura de Qualia de Pustejovsky impliacutecita no modelo TR+ de Gonzalez foi possiacutevel obter uma maior relevacircncia dos documentos recuperados atraveacutes de um caacutelculo de peso de descritores (termos e relacionamentos) evidentes nos documentos As etapas gerais do modelo proposto satildeo a extraccedilatildeo de Sintagmas Nominais e a sua hierarquizaccedilatildeo automaacutetica em niacuteveis o preacute-processamento (toquenizaccedilatildeo e etiquetagem) o processo de nominalizaccedilatildeo e a captura de RLBs Delineado preliminarmente o modelo partiu-se para as etapas de levantamento e anaacutelise de requisitos representada pelos diagramas e pelas descriccedilotildees dos casos de uso chegando-se ao desenvolvimento do seu modelo conceitual que culminou a construccedilatildeo dos diagramas de classes e de sequumlecircncia para a aplicaccedilatildeo proposta Ao final conclui-se que a alternativa indicada neste trabalho aleacutem de ser exequumliacutevel apresenta ganhos qualitativos nos resultados de uma busca em recuperaccedilatildeo de informaccedilotildees e tambeacutem quantitativos no que se refere a um menor tempo na fase de indexaccedilatildeo (rapidez) e um tamanho menor de arquivos de iacutendice gerados (memoacuteria)
Palavras-chave Recuperaccedilatildeo de Informaccedilatildeo Sintagmas Nominais Estrutura de Qualia Termos e RLBs
ix
ABSTRACT
This work has the presentation of a new model of a support information system to the user in the process of information retrieval The proposal consists in the support during the definition of a search query based on the identification of the possibilities of informatization and junction of a Kuramoto model along with the Gonzalez structure For its construction it was necessary to analyze and synthesize the support model to the Kuramoto user (base don the determination of Nominal Syntagm) the Qualia structure of the Lexical Semantics of Pustejovsky and having the LBRs (lexical binary relations) of the Gonzalez TR+ model The result we expect to reach is the possibility of actually performing an interaction that may result in an adequate negotiation of meanings between the user and the machine knowing that this negotiation should result in a fundamental factor in order for the improvement on the efficiency of the search processes The Kuramoto model based on Nominal Syntagm hierarchy initially supports this interaction With the definition of the query search and the Pustejovsky Qualia structure implicit in the TR+ Gonzalez model it was possible to obtain a greater relevance of documents recovered through a calculus of weight of describers (terms and relationships) evident in the document The general stages of the proposed model are the extraction of Nominal Syntagm and their automatic placement into hierarchy the pre-processing (tokening and labeling) the naming and capture of the LRBs After the preliminary outlining of the model we went on to the gathering of stages and requisite analysis presented by diagrams and descriptions of the usage cases finally reaching the development of a conceptual model that culminated in the construction of class diagrams and of a sequence for the proposed application As we reach the end we can conclude that the indicated alternative in this work besides being executable presents qualitative gains in the results of a search for the retrieval of information and also quantitative gains when referring to a smaller amount of time spent in the index phase (speed) and a smaller amount of archives generated (memory)
Key-words Retrieval of Information Nominal Syntagm Qualia Structure Terms e LRBs
x
SUMAacuteRIO
AGRADECIMENTOS iv
IacuteNDICE DE FIGURAS v
IacuteNDICE DE TABELAS vi
IacuteNDICE DE TABELAS vi
SIGLAS vii
RESUMOviii
ABSTRACT ix
SUMAacuteRIOx
1 INTRODUCcedilAtildeO 12
11 Objetivos13 111 Objetivo Geral 13 112 Objetivos Especiacuteficos 13
12 Metodologia13
13 Resultados Esperados e Limitaccedilotildees do Trabalho 14
14 Estrutura da Dissertaccedilatildeo 15
2 RECUPERACcedilAtildeO DE INFORMACcedilAtildeO 16
21 Histoacuterico 16
22 Modelos Claacutessicos de Recuperaccedilatildeo de Informaccedilatildeo 18 221 Modelo Booleano 18
2211 Operadores Booleanos19 2212 Operadores de Proximidade 20
222 Modelo Vetorial21 223 Modelo Probabiliacutestico 23
3 FUNDAMENTACcedilAtildeO TEacuteORICA25
31 A Proposta de Kuramoto 25 311 Extraccedilatildeo dos Sintagmas Nominais 27
3111 Extraccedilatildeo Automaacutetica de Sintagmas Nominais 29 312 A determinaccedilatildeo de uma estrutura para os SN 29
xi
313 Protoacutetipo Desenho da Interface de Busca31 314 Organizaccedilatildeo dos Sintagmas Nominais como Estrutura de Busca 32
32 A Teoria do Leacutexico Gerativo de Pustejovsky34 321 Estruturas do Leacutexico Gerativo36
3211 Estrutura de Argumento 37 3212 Estrutura de Evento 37 3213 Estrutura de Qualia 38 3214 Estrutura de Heranccedila Lexical 40
322 Sistema de Tipos Semacircnticos 41 322 Mecanismos gerativos 42
3221 Coerccedilatildeo de tipo42 3222 Ligaccedilatildeo seletiva 42 3223 Co-composiccedilatildeo 43
33 O Modelo TR+ de Gonzalez45
4 APRESENTACcedilAtildeO E DISCUSSAtildeO DO MODELO PROPOSTO 55
41 Procedimentos desenvolvidos utilizando o modelo de SN de Kuramoto e a proposta Gonzalez - ldquoEstrutura SINTR+rdquo55
42 Descriccedilatildeo Formal do Modelo Proposto SINTR+ 64
5 CONCLUSAtildeO77
6 REFEREcircNCIAS BIBLIOGRAacuteFICAS 80
61 Bibliografia Consultada82
ANEXO A - DOCUMENTO186
ANEXO B - DOCUMENTO288
ANEXO C - EXTRACcedilAtildeO MANUAL DE SN DOS DOCUMENTOS91
ANEXO D - FERRAMENTA1 DE TOQUENIZACcedilAtildeO E ETIQUETAGEM99
ANEXO D - FERRAMENTA2 DE TOQUENIZACcedilAtildeO E ETIQUETAGEM102
ANEXO E - PROCESSO DE NOMINALIZACcedilAtildeO105
12
1 INTRODUCcedilAtildeO
O tema ldquoRecuperaccedilatildeo de Informaccedilatildeordquo (RI) eacute importante para diversas aacutereas tais
como Biblioteconomia Linguumliacutestica Ciecircncia da Computaccedilatildeo entre outras Segundo Baeza-
Yates e Ribeiro-Neto (1999) na Ciecircncia da Computaccedilatildeo esse tema diz respeito agrave recuperaccedilatildeo
de dados e agrave recuperaccedilatildeo de informaccedilatildeo sendo ambos processos importantes e significativos
para a aacuterea
De acordo com os autores os sistemas de recuperaccedilatildeo de informaccedilatildeo lidam com
objetos linguumliacutesticos (textos) e por isso herdam toda a problemaacutetica inerente ao tratamento da
linguagem natural Jaacute a recuperaccedilatildeo de dados estaacute associada a sistemas gerenciadores de
banco de dados (ou simplesmente banco de dados) que ao organizaacute-los jaacute especificam de
forma bem definida a sua estrutura e por conseguinte a sua semacircntica
Um dos desafios na recuperaccedilatildeo de informaccedilatildeo conforme Ferneda (2003) diz
respeito a melhorar a relevacircncia dos resultados de uma busca de maneira que o usuaacuterio possa
encontrar todos os documentos que atendam agraves suas necessidades de informaccedilatildeo Em outras
palavras isto quer dizer que a busca seraacute precisa se conseguir retornar eou listar somente
documentos relacionados ao que o usuaacuterio expressou na definiccedilatildeo da sua busca
Diversos modelos de RI vecircm proporcionando melhorias significativas na relevacircncia
dos resultados De acordo com Baeza-Yates e Ribeiro-Neto (1999) em uma visatildeo centrada no
computador o problema de RI consiste principalmente na construccedilatildeo de iacutendices mais
eficientes no processamento de querys de usuaacuterios com alta performance e no
desenvolvimento de algoritmos de classificaccedilatildeo que melhorem a ldquoqualidaderdquo do conjunto de
respostas Apesar disso os meacutetodos utilizados nesses modelos ainda deixam a desejar natildeo
sendo capazes de recuperar a contento os documentos relevantes a uma consulta do usuaacuterio
Na maioria dos modelos de recuperaccedilatildeo de informaccedilatildeo existentes hoje o processo de
indexaccedilatildeo extrai cada palavra do texto de um documento e insere uma lista de palavras
ordenadas pela frequumlecircncia da palavra no texto Isto desfaz o trabalho intelectual do autor do
documento
Observa-se que diversas pesquisas de RI se focalizam nos algoritmos de busca por
documentos relevantes a partir de querys estabelecidas O foco nesses casos eacute determinar a
relevacircncia de documentos Para isso haacute vaacuterias metodologias desde medir o tempo de
13
permanecircncia do usuaacuterio no acesso a um documento ateacute a determinaccedilatildeo da quantidade de
consultas com querys semelhantes entre outras
Outro aspecto problemaacutetico relaciona-se ao fato de que as informaccedilotildees recuperadas
dependem tambeacutem da clareza do usuaacuterio ao expressar o que necessita Ou seja a dificuldade
natildeo se trata apenas de identificar e definir a relevacircncia dos resultados atraveacutes dos modelos
computacionais de RI que datildeo suporte ao processo da busca mas da capacidade do usuaacuterio de
formular uma expressatildeo de busca utilizando as palavras ou expressotildees de forma clara de
modo a representar os documentos desejados satisfazendo assim a sua necessidade
As palavras utilizadas pelo usuaacuterio possuem um significado claro para ele mas isso
natildeo eacute suficiente para uma boa recuperaccedilatildeo de informaccedilatildeo pois a Liacutengua Portuguesa segundo
Rossi (2003) apresenta muitas palavras iguais com significados diferentes (polissemia) que
variam de acordo com o contexto E haacute tambeacutem palavras diferentes em escrita e pronuacutencia
embora com significados iguais (sinoniacutemia) Ocorre ainda a combinaccedilatildeo de palavras que
segundo Martins e Zilberknop (1999) diz respeito a duas ou mais palavras que podem
combinar-se em ordem diferente designando ideacuteias completamente diversas
Esses aspectos da linguagem natural satildeo obstaacuteculos na obtenccedilatildeo de bons resultados
em um procedimento de recuperaccedilatildeo de informaccedilatildeo No caso da polissemia e da combinaccedilatildeo
de palavras pode ocorrer o aumento da taxa de ruiacutedos1 ou o incremento da taxa de silecircncio2
que acontecem no caso de sinoniacutemia Isto pode levar a um resultado de busca de documentos
que natildeo atenda agraves necessidades de informaccedilatildeo do usuaacuterio Portanto a existecircncia de uma
negociaccedilatildeo de significados entre usuaacuterio e maacutequina levaria possivelmente a resultados mais
relevantes
O surgimento das novas tecnologias da informaccedilatildeo e da comunicaccedilatildeo fez crescer o
volume de publicaccedilotildees na Internet Esse crescimento segundo Cardoso (2000) tem
dificultado ainda mais a recuperaccedilatildeo de informaccedilotildees relevantes Um aspecto positivo eacute a
facilidade de acesso pela Web (World Wide Web) aos acervos bibliograacuteficos de diversas
universidades brasileiras e mesmo do mundo inteiro Visto que o aumento do acervo torna
ainda mais complexa a busca por isso esperava-se que esses meacutetodos acompanhassem tal
desenvolvimento mas isto ainda natildeo aconteceu de forma satisfatoacuteria
A dificuldade aparece rapidamente nos vaacuterios mecanismos da Web como ldquoGooglerdquo
ldquoCaderdquo entre outros que ao serem acionados para buscar uma determinada informaccedilatildeo
1 Taxa de ruiacutedos eacute definida como sendo a relaccedilatildeo entre a quantidade de documentos recuperados natildeo pertinentes e a quantidade total de documentos 2 Taxa de silecircncio eacute definida como sendo a relaccedilatildeo entre a quantidade de documentos recuperados pertinentes natildeo recuperados e a quantidade total de documentos pertinentes na base de dados
14
listam centenas ou mesmo milhares de referecircncias como resposta sendo normalmente destas
relevantes apenas as primeiras Aleacutem disso ao se utilizarem as mesmas palavras em diferentes
mecanismos (sites) de pesquisa os resultados variam segundo Hill (1999) devido agraves rotinas
automatizadas de pesquisa diferenciadas
O usuaacuterio precisa ainda utilizar palavras-chave para dar foco agrave sua pesquisa Segundo
Baeza-Yates e Ribeiro-Neto (1999) o interessante seria jaacute poder dizer ldquoDecirc-me dados
estatiacutesticos sobre a equipe da seleccedilatildeo brasileira de basquete no ano de 2004rdquo Mas apesar de a
tecnologia da Internet estar progredindo ainda se estaacute bastante distante desse estaacutegio
Uma linha de pesquisa que tem como representante o trabalho de Kuramoto (1999)
procura abordar a questatildeo da RI desde a perspectiva do apoio ao usuaacuterio na formulaccedilatildeo da
query de busca A expectativa eacute oferecer jaacute no momento da formulaccedilatildeo da query um apoio
interativo para o estabelecimento de uma chave mais adequada ao contexto real da busca A
proposta de Kuramoto eacute baseada na determinaccedilatildeo dos Sintagmas Nominais (SN) de um
domiacutenio de aplicaccedilatildeo
O uso de SN permite um processo de refinamento da busca A forma de navegar
pelos niacuteveis de SN intensifica a interaccedilatildeo entre o usuaacuterio e o computador (KURAMOTO
2002) A interface de busca passa a dar um suporte para o usuaacuterio na formulaccedilatildeo de sua query
antes de listar todos os documentos
A proposta de utilizaccedilatildeo de uma interface de apoio utilizando SN configura-se como
inovadora pois natildeo se tem conhecimento de outra proposiccedilatildeo que considere o fato de que nem
sempre o usuaacuterio eacute capaz de explicitar a sua necessidade de informaccedilatildeo em uma uacutenica
expressatildeo de busca
Segundo Kuramoto (2002) as palavras como unidades de um dicionaacuterio natildeo contecircm
qualquer substacircncia Elas adquirem essa substacircncia no momento em que se inserem no
universo do discurso ou seja as palavras inseridas no texto de um documento assumem um
significado especiacutefico
Percebe-se que essa linha de pesquisa eacute bastante promissora e que a aacuterea de
Linguumliacutestica pode oferecer alternativas interessantes uma delas foi vislumbrada na teoria do
Leacutexico Gerativo (LG) de Pustejovsky (1991) Nessa teoria Pustejovsky buscando dar conta
da polissemia loacutegica das palavras propondo uma estrutura para a semacircntica de uma liacutengua da
mesma forma que a sintaxe eacute estruturada Na estrutura proposta por Pustejovsky a
componente principal eacute a estrutura de dimensotildees de significados (denominada de Estrutura de
Qualia)
15
Uma palavra escrita pelo usuaacuterio pode ser utilizada pelos documentos de um acervo
e portanto identificada pela maacutequina atraveacutes de seus modelos de RI com um sentido
completamente diferente do contexto imaginado pelo usuaacuterio Para a palavra ldquojornalrdquo por
exemplo o usuaacuterio pode estar se referindo ao preacutedio onde fica o jornal ou ao objeto fiacutesico
propriamente dito ou ateacute mesmo ao conteuacutedo do jornal (informaccedilatildeo contida)
A Estrutura de Qualia auxilia a RI na identificaccedilatildeo de qual sentido mais especiacutefico o
usuaacuterio busca dessa forma esta estrutura poderia classificar os documentos contendo a palavra
ldquojornalrdquo segundo as diferentes qualia envolvidas Isso representaria um refinamento
importante na busca que poderia resultar em mais satisfaccedilatildeo para o usuaacuterio e portanto mais
eficiecircncia dos mecanismos de busca O reconhecimento da importacircncia da teoria de
Pustejovsky pode ser constatado na existecircncia de trabalhos relacionados na liacutengua portuguesa
como eacute o caso da pesquisa de Abrahatildeo (1997) que desenvolveu a modelagem e a
implementaccedilatildeo de um leacutexico semacircntico para a nossa Liacutengua a partir de um estudo
aprofundado da teoria de Pustejovsky
Aleacutem disso uma outra questatildeo importante a ressaltar eacute que existem problemas
ligados agrave definiccedilatildeo das palavras Essa criacutetica segundo Rossi (2003) se fundamenta no fato de
os lexicoacutegrafos3 parecerem atuar de maneira mais intuitiva do que propriamente fazer uso de
teorias semacircnticas que decircem o devido suporte agrave tarefa de definir um item lexical Rossi (2003)
reforccedila que muitos dicionaacuterios nem sempre prevecircem a polissemia subjacente aos itens
lexicais
Outro trabalho pesquisado que permitiu uma ampliaccedilatildeo do modelo proposto nesta
dissertaccedilatildeo foi o de Gonzalez (2005) com o seu modelo TR+ Este modelo natildeo utiliza
sistematicamente a Estrutura de Qualia aparecendo esta apenas impliacutecita principalmente a
parte formal das palavras As palavras e seus relacionamentos ganham em Gonzalez uma
importacircncia contextual pelo caacutelculo de um peso (peso de descritores) que busca manter sua
unidade significativa
A abordagem proposta para este trabalho orienta-se na melhoria da query de busca
dos usuaacuterios A pesquisa siacutentese e sistematizaccedilatildeo da proposta de Kuramoto (1999) e do
modelo de Gonzalez (2005) possibilitaram o desenvolvimento de um novo modelo chamado
3 Lexicoacutegrafos satildeo autores de dicionaacuterios ou seja dicionaristas
de SINTR+ Esse modelo utiliza a formulaccedilatildeo de consulta em RI apresentando os Sintagmas
Nominais referentes a esta consulta e com isto inicia a interaccedilatildeo com o usuaacuterio onde o mesmo
13
escolhe o SN de niacutevel apropriado e a partir daiacute haacute sistematizaccedilatildeo com o modelo TR+ de
Gonzalez
Pretende-se por um lado ajudar e apoiar o usuaacuterio a melhor especificar sua query no
contexto real da sua busca por outro lado potencializa-se o tempo tanto na fase de indexaccedilatildeo
como na de busca e reduz-se o espaccedilo utilizado de memoacuteria para dados na base
11 Objetivos
111 Objetivo Geral
Descrever a partir da identificaccedilatildeo das possibilidades de ampliaccedilatildeo de siacutentese e de
sistematizaccedilatildeo das propostas de Kuramoto e de Gonzalez um novo modelo para um sistema
informatizado de suporte ao usuaacuterio na definiccedilatildeo da sua query de busca durante um processo
de recuperaccedilatildeo de informaccedilatildeo
112 Objetivos Especiacuteficos
a) Analisar as propostas citadas buscando a sua sistematizaccedilatildeo e identificaccedilatildeo de alternativas
de implementaccedilatildeo e ampliaccedilatildeo
b) Definir o modelo conceitual do sistema desejado atraveacutes da sua anaacutelise de domiacutenio
representando-o a partir dos seus diagramas de classes e de sequumlecircncia
c) Avaliar exploratoriamente o modelo desenhado a partir da construccedilatildeo de exemplos
demonstrativos das suas principais propriedades
12 Metodologia
Para a construccedilatildeo deste trabalho inicialmente foi realizada uma revisatildeo bibliograacutefica
a partir de livros artigos e outros materiais disponiacuteveis referentes ao assunto em questatildeo
fundamentalmente sobre a aacuterea de Recuperaccedilatildeo de Informaccedilatildeo A metodologia utilizada para
desenvolver este trabalho baseou-se no cronograma de etapas a serem desenvolvidas descritas
a seguir
14
a) Estudo e identificaccedilatildeo das diferentes alternativas e abordagens atualmente desenvolvidas
para a aacuterea de recuperaccedilatildeo de informaccedilotildees
b) Formulaccedilatildeo da proposta de trabalho definiccedilatildeo do escopo e da fundamentaccedilatildeo da proposta
c) Estudo das teorias de base para a construccedilatildeo do modelo teoria do Leacutexico Gerativo de
James Pustejovsky e o modelo de Kuramoto E apoacutes um estudo de Abrahatildeo e Gonzalez
d) Esboccedilo do modelo para o sistema proposto
e) Especificaccedilatildeo dos requisitos do sistema proposto
f) Construccedilatildeo da anaacutelise de domiacutenio definiccedilatildeo do modelo conceitual
g) Construccedilatildeo dos diagramas de classes e de sequumlecircncia para o modelo
h) Construccedilatildeo de exemplos de aplicaccedilatildeo do modelo
i) Anaacutelise e conclusotildees finais
13 Resultados Esperados e Limitaccedilotildees do Trabalho
A principal contribuiccedilatildeo deste trabalho reside no fato de sistematizar as teorias de
Kuramoto Pustejovsky e Gonzalez construindo um novo modelo que amplia as
potencialidades das propostas de Kuramoto e Gonzalez melhorando os resultados do processo
de recuperaccedilatildeo de informaccedilotildees Esta melhoria ocorre em relaccedilatildeo agrave diminuiccedilatildeo do tempo de
busca dos documentos e agrave relevacircncia dos resultados encontrados por meio da junccedilatildeo de
diferentes modelos para os processos de indexaccedilatildeo e busca
A princiacutepio o modelo construiacutedo eacute antevisto como aplicaacutevel a bases de documentos
natildeo distribuiacutedas e contidas a um determinado domiacutenio de aplicaccedilatildeo mas jaacute eacute possiacutevel
perceber formas de adaptaacute-lo expandindo-o para seu uso na Web
Este trabalho natildeo tem o intuito de gerar uma implementaccedilatildeo computacional
completa do modelo proposto propotildee-se antes a demonstrar a viabilidade desta
implementaccedilatildeo descrevendo os diagramas e as descriccedilotildees dos casos de uso e a sua
modelagem conceitual culminando a construccedilatildeo dos diagramas de classes e de sequumlecircncia A
anaacutelise das potencialidades e limitaccedilotildees do modelo deveraacute ser possiacutevel a partir da realizaccedilatildeo
de estudos de casos onde se determine a complexidade computacional da implementaccedilatildeo
requerida
15
14 Estrutura da Dissertaccedilatildeo
O trabalho apresenta um capiacutetulo introdutoacuterio que orienta os toacutepicos do projeto e o
desenvolvimento da pesquisa aleacutem de sintetizar os resultados que seratildeo explorados na
conclusatildeo
O Capiacutetulo 2 a seguir aborda temas e definiccedilotildees da aacuterea de RI mostrando a sua
histoacuteria e tambeacutem discute o funcionamento e as vantagens e desvantagens dos modelos
claacutessicos de RI
No Capiacutetulo 3 apresenta-se a fundamentaccedilatildeo teoacuterica desta dissertaccedilatildeo onde satildeo
abordados trecircs autores Primeiramente apresenta-se a Proposta de Kuramoto que se baseia nos
niacuteveis de Sintagmas Nominais sendo exposto o protoacutetipo de interaccedilatildeo entre usuaacuterio e maacutequina
desenvolvido por este autor Na Teoria do Leacutexico Gerativo de Pustejovsky deu-se ecircnfase agrave
apresentaccedilatildeo da Estrutura de Qualia pois eacute a que foi julgada mais adequada para a aplicaccedilatildeo
no modelo proposto apresenta-se tambeacutem uma anaacutelise do estudo de Abrahatildeo Por fim
discute-se e apresenta-se o trabalho de Gonzalez e do seu modelo TR+ que possibilitou
juntamente com a proposta de Kuramoto sistematizar a proposta desta dissertaccedilatildeo
No Capiacutetulo 4 eacute desenvolvida a proposta do sistema SINTR+ atraveacutes dos diagramas e
das descriccedilotildees dos casos de uso do modelo o modelo conceitual os diagramas de classes e de
sequumlecircncia juntamente com exemplos demonstrativos das suas propriedades
No Capiacutetulo 5 tecircm-se as conclusotildees referentes ao trabalho bem como as sugestotildees
para continuidade desse foco de pesquisa
O Capiacutetulo 6 apresenta as referecircncias bibliograacuteficas utilizadas para a realizaccedilatildeo deste
trabalho bem como a bibliografia consultada para a compreensatildeo de conceitos abordados na
dissertaccedilatildeo finalizando com os anexos
16
2 RECUPERACcedilAtildeO DE INFORMACcedilAtildeO
Neste capiacutetulo apresentam-se o histoacuterico e os modelos claacutessicos da aacuterea de
recuperaccedilatildeo de informaccedilatildeo O objetivo ao abordar esses toacutepicos eacute delinear uma visatildeo geral da
aacuterea a partir de diversos modelos de RI apontando algumas de suas principais vantagens e
desvantagens Dar-se-aacute destaque ao fato de que os algoritmos de relevacircncia utilizados para
recuperar os documentos desconsideram o contexto da query de busca
21 Histoacuterico
Em 1951 segundo Baeza-Yates e Ribeiro-Neto (1999) Calvin Mooers criou o termo
ldquoInformation Retrievalrdquo (Recuperaccedilatildeo de Informaccedilatildeo) e definiu os problemas a serem
abordados por esta nova aacuterea de pesquisa a qual despertou o interesse principalmente de
bibliotecaacuterios e ldquoexpertsrdquo da informaccedilatildeo
No contexto da Ciecircncia da Informaccedilatildeo segundo Ferneda (2003 p 14)
o termo ldquoRecuperaccedilatildeo de Informaccedilatildeordquo significa para uns a operaccedilatildeo pela qual se seleciona documentos a partir do acervo em funccedilatildeo da demanda do usuaacuterio Para outros ldquoRecuperaccedilatildeo de Informaccedilatildeordquo consiste no fornecimento a partir de uma demanda definida pelo usuaacuterio dos elementos de informaccedilatildeo documentaacuteria correspondentes O termo pode ainda ser empregado para designar a operaccedilatildeo que fornece uma resposta mais ou menos elaborada a uma demanda e esta resposta eacute convertida num produto cujo formato eacute acordado com o usuaacuterio (bibliografia nota de siacutentese etc) Haacute ainda autores que conceituam a recuperaccedilatildeo de informaccedilatildeo de forma muito mais ampla ao subordinar agrave mesma o tratamento da informaccedilatildeo (catalogaccedilatildeo indexaccedilatildeo classificaccedilatildeo)
Para alguns autores segundo Cardoso (2000) RI eacute dita como uma subaacuterea da Ciecircncia
da Computaccedilatildeo que estuda o armazenamento e a recuperaccedilatildeo automaacutetica de documentos que
satildeo objetos de dados geralmente textos Para Baeza-Yates e Ribeiro-Neto (1999) o termo
ldquoRecuperaccedilatildeo de Informaccedilatildeordquo trata da representaccedilatildeo do armazenamento da organizaccedilatildeo e do
acesso aos itens da informaccedilatildeo
De acordo com Ferneda (2003) foi a partir dos experimentos de Hans Peter Luhn
(Engenheiro pesquisador da IBM) na indexaccedilatildeo automaacutetica e na elaboraccedilatildeo automaacutetica de
resumos que surgiram os primeiros resultados significativos no tratamento computacional da
informaccedilatildeo Com isto ldquoLuhn foi durante vaacuterios anos o criador de inuacutemeros projetos que
visavam modificar radicalmente meacutetodos tradicionais de armazenamento tratamento e
17
recuperaccedilatildeo de informaccedilatildeo Em 1961 jaacute acumulava cerca de 80 patentes nos Estados Unidosrdquo
(FERNEDA 2003 p 10-11) Estes dados mostram a importacircncia de Luhn no tratamento da
recuperaccedilatildeo de informaccedilotildees
Em 1960 segundo Ferneda (2003) foi desenvolvido os princiacutepios baacutesicos do modelo
probabiliacutestico para a Recuperaccedilatildeo de Informaccedilatildeo por Maron e Kuhns que foi mais tarde
definido por Robertson e Jones (1976) A deacutecada de 60 foi fundamental em experimentos
desta natureza ldquoem meados dos anos 60 inicia-se uma longa seacuterie de experimentos que
constitui um marco na Recuperaccedilatildeo de Informaccedilatildeo o projeto SMARTrdquo (FERNEDA 2003
p11) Este autor destaca que este projeto foi desenvolvido por Gerard Salton que se
especializou na pesquisa destas evoluccedilotildees na recuperaccedilatildeo de informaccedilotildees produzindo
inuacutemeros artigos cientiacuteficos um modelo de recuperaccedilatildeo de informaccedilatildeo a criaccedilatildeo e o
aprimoramento de diversas teacutecnicas computacionais aleacutem de o sistema SMART
Estes sistemas de recuperaccedilatildeo de informaccedilatildeo geralmente se baseiam na contagem de
frequumlecircncia das palavras do texto e na eliminaccedilatildeo de palavras reconhecidamente de pouca
relevacircncia (FERNEDA 2003) Um exemplo disso satildeo os meacutetodos automaacuteticos de indexaccedilatildeo
de recuperaccedilatildeo de informaccedilatildeo que utilizam ldquofiltrosrdquo para eliminar palavras de pouca
significaccedilatildeo (stopwords4 e noun groups5) aleacutem de normalizar os termos reduzindo-os a seus
radicais Esse processo eacute conhecido como stemming6
Ferneda evidencia que os trabalhos de Luhn e Salton inicialmente natildeo se
preocupavam com a anaacutelise semacircntica das palavras e que seus estudos colaboraram para com
a evoluccedilatildeo atual das pesquisas
Nos trabalhos de Luhn e Salton observa-se inicialmente uma crenccedila de que meacutetodos puramente estatiacutesticos seriam suficientes para tratar os problemas relacionados agrave recuperaccedilatildeo de informaccedilatildeo Poreacutem no transcorrer de suas pesquisas percebe-se uma busca por meacutetodos de anaacutelise semacircntica mais sofisticada Desde os seus primeiros trabalhos Salton se mostra interessado pela utilizaccedilatildeo de processos de tratamento da linguagem natural na recuperaccedilatildeo de informaccedilatildeo Em livro de 1983 Salton e McGill apresentam em um capiacutetulo intitulado Future directions in Information Retrieval a aplicaccedilatildeo do processamento da linguagem natural e da loacutegica fuzzy na recuperaccedilatildeo de informaccedilatildeo apontando a direccedilatildeo de futuras pesquisas para a Inteligecircncia Artificial (FERNEDA 2003 p 12)
Estas contribuiccedilotildees tecircm suas principais ideacuteias presentes ainda na maioria dos
sistemas de recuperaccedilatildeo atuais e nos mecanismos de busca da Web Como aparece na estrutura
de componentes de um sistema de recuperaccedilatildeo de informaccedilatildeo que seguem geralmente um
modelo de funcionamento como demonstrado por Cardoso (2000)
4 Stop Words eliminaccedilatildeo de artigos e conectivos 5 Noun Groups eliminaccedilatildeo de adjetivos adveacuterbios e verbos 6 Stemming reduccedilatildeo de uma palavra ao seu radical Exemplo Engineering Engineer
18
Figura 1 Componentes de um Sistema de Recuperaccedilatildeo de Informaccedilatildeo Fonte GEY apud CARDOSO 2000
22 Modelos Claacutessicos de Recuperaccedilatildeo de Informaccedilatildeo
221 Modelo Booleano
A aacutelgebra booleana eacute um sistema binaacuterio no qual existem somente dois valores
possiacuteveis para qualquer siacutembolo algeacutebrico ldquoverdadeirordquo ou ldquofalsordquo O modelo booleano eacute um
modelo de recuperaccedilatildeo simples baseado na teoria dos conjuntos e na aacutelgebra booleana Aleacutem
disso as querys satildeo especificadas atraveacutes de expressotildees booleanas que tecircm semacircnticas
precisa
Segundo Baeza-Yates e Ribeiro-Neto (1999) e Gonzalez (2000) a simplicidade e o
formalismo claro do modelo booleano recebiam grande atenccedilatildeo nos anos passados sendo
adotados por muitos sistemas comerciais bibliograacuteficos
A estrateacutegia de recuperaccedilatildeo desse modelo eacute baseada em um criteacuterio de decisatildeo
binaacuteria por exemplo um documento pode ser relevante ou natildeo relevante sem noccedilatildeo de escala
de classificaccedilatildeo que previna um bom desempenho na recuperaccedilatildeo Deste modo o modelo
booleano eacute na verdade muito mais um modelo de recuperaccedilatildeo de dados (em vez de
informaccedilatildeo)
19
Aleacutem disso conforme Baeza-Yates e Ribeiro-Neto (1999) enquanto expressotildees
booleanas tecircm semacircnticas precisas frequumlentemente natildeo eacute simples traduzir uma informaccedilatildeo
precisa dentro de uma expressatildeo booleana O modelo booleano prediz que cada documento eacute
relevante ou irrelevante Natildeo existe noccedilatildeo de um resultado (matching) parcial para as
condiccedilotildees da query
As principais vantagens do modelo booleano satildeo o formalismo claro oculto sobre o
modelo e sua simplicidade As principais desvantagens encontram-se no resultado exato que
pode recuperar poucos ou muitos documentos
Figura 2 Exemplo dos trecircs componentes conjuntivos para query Fonte BAEZA-YATES RIBEIRO-NETO 1999
2211 Operadores Booleanos
Os operadores booleanos funcionam atraveacutes de uma expressatildeo booleana para
formulaccedilatildeo de buscas Isto ocorre por meio de operadores loacutegicos AND OR e NOT (E OU e
NAtildeO) Conforme exemplo de Ferneda (2003) a recuperaccedilatildeo de informaccedilatildeo se daraacute em uma
expressatildeo conjuntiva de enunciado t1 AND t2 que recuperaraacute documentos indexados por
ambos os termos (t1 e t2) Isso equivale e permite aparecer agrave intersecccedilatildeo do conjunto dos
documentos indexados pelo termo t1 com o conjunto dos documentos indexados pelo termo
t2
Figura 3 Representaccedilatildeo do resultado de uma expressatildeo booleana conjuntiva (AND) Fonte FERNEDA 2003
20
O autor demonstra que uma expressatildeo disjuntiva t1 OR t2 recuperaraacute o conjunto dos
documentos indexados pelo termo t1 ou pelo termo t2 Isto equivale e possibilita agrave uniatildeo entre
o conjunto dos documentos indexados pelo termo t1 e o conjunto dos documentos indexados
pelo termo t2 (FERNEDA 2003)
Figura 4 Resultado de uma busca booleana disjuntiva (OR) Fonte FERNEDA 2003
2212 Operadores de Proximidade
No modelo booleano existem os operadores de proximidade que permitem
especificar condiccedilotildees relacionadas agrave distacircncia e agrave posiccedilatildeo dos termos no texto Um operador
de proximidade bastante comum nos sistemas de RI e nos mecanismos de busca da Web eacute o
operador ADJ (FERNEDA 2003) Esse operador permite pesquisar duas palavras adjacentes
no texto de um documento na ordem especificada na expressatildeo de busca por exemplo a
expressatildeo recuperaccedilatildeo ADJ informaccedilatildeo teraacute como resultado os documentos que tiverem a
palavra ldquorecuperaccedilatildeordquo seguida da palavra ldquoinformaccedilatildeordquo ou seja recuperaraacute documentos que
contecircm a expressatildeo ldquorecuperaccedilatildeo informaccedilatildeordquo Tambeacutem pode ser utilizado um termo
composto delimitando as suas palavras com aspas por exemplo ldquorecuperaccedilatildeo de
informaccedilatildeordquo
O modelo booleano de acordo com Ferneda (2003) possui limitaccedilotildees que o torna
pouco atrativo satildeo elas
bull O resultado de uma busca booleana se caracteriza por dois subconjuntos os que
atendem agrave expressatildeo de busca e aqueles que natildeo atendem Presume-se que todos
os documentos recuperados satildeo de igual utilidade para o usuaacuterio Natildeo haacute nenhum
mecanismo pelos quais os documentos possam ser ordenados
bull O usuaacuterio leigo se natildeo tiver um treinamento apropriado formularaacute somente
buscas simples Para buscas com expressotildees mais complexas eacute necessaacuterio um
conhecimento da loacutegica booleana
21
bull Natildeo existe uma forma de atribuir importacircncia relativa aos diferentes termos da
expressatildeo booleana Assume-se implicitamente que todos os termos tecircm o mesmo
peso
222 Modelo Vetorial
O modelo vetorial segundo Baeza-Yates e Ribeiro-Neto (1999) reconhece que o uso
de pesos binaacuterios eacute tambeacutem limitante e propotildee uma estrutura em que eacute possiacutevel a resposta
(matching) parcial Isto eacute feito atribuindo-se pesos natildeo binaacuterios aos termos indexados em
querys e em documentos Esses pesos de termos satildeo enfim utilizados para calcular o grau de
similaridade entre cada documento armazenado no sistema e a expressatildeo de busca formulada
pelo usuaacuterio (querys) Como a classificaccedilatildeo dos documentos recuperados eacute feita em ordem
decrescente desse grau de similaridade o modelo vetorial leva em consideraccedilatildeo documentos
que se igualem aos termos de querys somente parcialmente
O modelo vetorial de acordo com Cardoso (2000) e Gonzalez (2000) representa
documentos e consultas como vetores de termos Os termos satildeo ocorrecircncias uacutenicas nos
documentos Os documentos retornados como resultado para uma consulta satildeo representados
similarmente isto quer dizer que o vetor resultado para uma consulta eacute montado atraveacutes de um
caacutelculo de similaridade Aos termos das consultas e dos documentos satildeo atribuiacutedos pesos que
especificam o tamanho e a direccedilatildeo de seu vetor de representaccedilatildeo O acircngulo formado por esses
vetores determina a proximidade da ocorrecircncia E o caacutelculo da similaridade eacute baseado no
acircngulo entre os vetores que representam o documento e a consulta
Cardoso (2000) descreve ainda que os pesos quantificam a relevacircncia de cada termo
para as consultas (Wiq) e para os documentos (Wid) no espaccedilo vetorial Segundo Cardoso
(2000 p 03) ldquopara o caacutelculo dos pesos Wiq e Wid utiliza-se uma teacutecnica que faz o
balanceamento entre as caracteriacutesticas do documento utilizando o conceito de frequumlecircncia de
um termo num documentordquo Desta forma se uma coleccedilatildeo possui N documentos e teremos o nti
que eacute a quantidade de documentos que possuem o termo ti com isto o inverso da frequumlecircncia
do termo na coleccedilatildeo ou idf (inverse documento frequency) eacute dado pela foacutermula de Cardoso
(2000) abaixo
idfi = log (Nni)
22
Esse valor eacute possiacutevel usando a foacutermula para calcular o peso Wid = freq(tid) x idfi
que eacute o produto da frequumlecircncia do termo no documento pelo inverso da frequumlecircncia do termo na
coleccedilatildeo
No modelo vetorial um documento eacute representado por um vetor em que cada
elemento representa o peso ou a relevacircncia do respectivo termo de indexaccedilatildeo para o
documento Cada elemento do vetor (peso) eacute normalizado de forma a assumir valores entre
zero e um Os pesos mais proacuteximos de um (1) indicam termos com maior importacircncia para a
descriccedilatildeo do documento E termos que natildeo estatildeo presentes em um determinado documento
possuem peso igual a zero
Da mesma forma que os documentos no modelo vetorial uma expressatildeo de busca
conforme Baeza-Yates e Ribeiro-Neto (1999) tambeacutem eacute representada por um vetor numeacuterico
em que cada elemento representa a importacircncia (peso) do respectivo termo na expressatildeo de
busca
Diversos documentos e termos de indexaccedilatildeo podem ser representados atraveacutes de uma
matriz na qual cada linha representa um documento e cada coluna representa a associaccedilatildeo de
um determinado termo aos vaacuterios documentos
Figura 5 O co-seno do acircngulo adaptado como similar (dj q) Fonte BAEZA-YATES RIBEIRO-NETO 1999
Um exemplo de uso do modelo vetorial eacute o sistema SMART7 citado anteriormente
este sistema representa por valor numeacuterico cada documento e seu respectivo termo na
descriccedilatildeo do documento Segundo Ferneda (2003) o sistema SMART fornece um meacutetodo
automaacutetico que trata aleacutem do caacutelculo dos pesos dos vetores que representam os documentos
tambeacutem trata os vetores das expressotildees de busca
As principais vantagens do modelo vetorial segundo Baeza-Yates e Ribeiro-Neto
(1999) satildeo (1) esquema de pesos de termos melhora o desempenho da recuperaccedilatildeo (2)
estrateacutegias de resposta (matching) parcial permitem a recuperaccedilatildeo de documentos que se
aproximem de condiccedilotildees de query e (3) foacutermula de classificaccedilatildeo do co-seno ordena os
documentos de acordo com o grau de similaridade da query A desvantagem desse modelo de
23
acordo com os autores diz respeito agraves dependecircncias de termos prejudicando especialmente o
desempenho
Cardoso (2000) considera como principais vantagens do modelo vetorial a sua
simplicidade a facilidade de se computarem similaridades com eficiecircncia e o fato de que se
comporta bem com coleccedilotildees geneacutericas
223 Modelo Probabiliacutestico
O modelo probabiliacutestico foi introduzido de acordo com Baeza-Yates e Ribeiro-Neto
(1999) em 1976 por Roberston e Sparck Jones que mais tarde tornou-se como o modelo
Binary Independence Retrieval (BIR)
Na Matemaacutetica a teoria das probabilidades estuda os experimentos aleatoacuterios que
conforme Ferneda (2003 p 35) repetidos em condiccedilotildees idecircnticas podem apresentar resultados diferentes e imprevisiacuteveis Isso ocorre por exemplo quando se observa a face superior de um dado apoacutes o seu lanccedilamento ou quando se verifica o naipe de uma carta retirada de um baralho Por apresentarem resultados imprevisiacuteveis eacute possiacutevel apenas estimar a possibilidade ou a chance de um determinado evento ocorrer Para descrever matematicamente um experimento aleatoacuterio eacute necessaacuterio inicialmente identificar o conjunto de todos os seus possiacuteveis resultados A este conjunto daacute-se o nome de espaccedilo amostral
Entendendo-se uma busca como um experimento aleatoacuterio segundo Robertson e
Jones eacute possiacutevel descrever o seu espaccedilo amostral como composto de quatro possibilidades
pois dada uma expressatildeo de busca pode-se dividir a base de documentos em quatro
subconjuntos distintos o conjunto dos documentos relevantes (Rel) o conjunto dos
documentos recuperados (Rec) o conjunto dos documentos relevantes e recuperados (RR) e o
conjunto dos documentos natildeo relevantes e natildeo recuperados O conjunto dos documentos
relevantes e recuperados (RR) eacute resultante da intersecccedilatildeo dos conjuntos Rel e Rec
(FERNEDA 2003)
O conjunto de documentos resultantes da primeira busca eacute ordenado atraveacutes de uma
forma de ordenaccedilatildeo padratildeo tradicional Tendo esse conjunto de documentos o usuaacuterio
seleciona alguns deles que considera relevantes para a sua necessidade O sistema utiliza essa
informaccedilatildeo para tentar melhorar os resultados subsequumlentes
A principal virtude do modelo probabiliacutestico estaacute em reconhecer que a atribuiccedilatildeo de
relevacircncia eacute uma tarefa do usuaacuterio Eacute o uacutenico modelo que segundo Baeza-Yates e Ribeiro-
7 SMART (Sistem for the Manipulation and Retrieval of Text)
24
Neto (1999) e Gonzalez (2000) incorpora explicitamente o processo de Relevance Feedback
como base para a sua operacionalizaccedilatildeo
Uma simplificaccedilatildeo bastante questionaacutevel estaacute no fato de o modelo considerar os
pesos dos termos de indexaccedilatildeo como sendo binaacuterios ou seja no modelo probabiliacutestico natildeo eacute
considerada a frequumlecircncia com que os termos ocorrem no texto dos documentos
Em geral os modelos de RI desconsideram o contexto das palavras informadas pelo
usuaacuterio por isso tendem a retornar poucos documentos relevantes em uma consulta Para isso
pretende-se mostrar no capiacutetulo seguinte com a ajuda da Linguumliacutestica possiacuteveis abordagens
que podem apoiar o usuaacuterio considerando o seu contexto de busca e listando documentos
relevantes
25
3 FUNDAMENTACcedilAtildeO TEacuteORICA
Neste capiacutetulo buscou-se apresentar uma siacutentese dos trabalhos que datildeo base ao
modelo apresentado nesta dissertaccedilatildeo Satildeo eles a Proposta de Kuramoto a Teoria do Leacutexico
Gerativo e o Modelo de Gonzalez A Proposta de Kuramoto baseia-se em uma hierarquizaccedilatildeo
em niacuteveis de Sintagmas Nominais Na Teoria do Leacutexico Gerativo de Pustejovsky mostram-se
as estruturas compostas e deu-se destaque agrave Estrutura de Qualia julgada mais adequada para a
aplicaccedilatildeo no trabalho proposto Analisou-se o estudo de Abrahatildeo a partir de Pustejovsky A
terceira teoria de Gonzalez apresenta uma proposta automatizada com o modelo TR+
31 A Proposta de Kuramoto
Neste capiacutetulo apresentam-se os conceitos e as caracteriacutesticas da proposta de
Kuramoto que se baseia na determinaccedilatildeo de Sintagmas Nominais (SN) de uma query A sua
proposta preocupa-se em buscar os SN uma vez que satildeo considerados como importante
elemento de uma frase sendo entendidos como o nuacutecleo significativo (cerne) de uma oraccedilatildeo
Em sua tese de doutorado Kuramoto relata que todo o trabalho de reconhecimento e
extraccedilatildeo de SN dos documentos foi realizado de forma natildeo automatizada Isto auxiliou na
elaboraccedilatildeo de um modelo para reconhecimento extraccedilatildeo e indexaccedilatildeo de SN inseridos na
amostra do protoacutetipo desenvolvido
O modelo proposto por Kuramoto refere-se ao aproveitamento dos SN organizado
hierarquicamente em ldquoaacutervoresrdquo criando um novo conceito de indexaccedilatildeo que pode introduzir
inovaccedilatildeo em termos de uma interface de busca
Esse modelo de interface de acordo com Kuramoto (2002) permitiria que o usuaacuterio
navegasse no conjunto de SN ateacute encontrar o que melhor atendesse agrave sua necessidade de
informaccedilatildeo Somente apoacutes esse procedimento o usuaacuterio teria entatildeo acesso aos documentos de
onde foram extraiacutedos os SN Tal processo proporcionaria ao usuaacuterio um maior conhecimento
sobre a base de dados que estaacute sendo consultada uma vez que lhe permitiria reconhecer a
estrutura de sintagmas nominais presentes nos documentos pertencentes ao sistema
Os processos de indexaccedilatildeo automaacutetica utilizados em modelos de RI segundo Michel
Le Guern (1984 apud KURAMOTO 1995) deveriam extrair dos documentos informaccedilotildees
26
que facilitassem a recuperaccedilatildeo para o usuaacuterio e natildeo siacutembolos sem referecircncia como considera
que satildeo as palavras
Para Silva e Koch (1993) toda frase de uma liacutengua constitui uma organizaccedilatildeo ou
seja uma combinaccedilatildeo de elementos linguumliacutesticos agrupados conforme certos princiacutepios que a
caracterizam como uma estrutura Para Baeza-Yates e Ribeiro-Neto (1999) grande parte da
semacircntica do documento ou da requisiccedilatildeo do usuaacuterio eacute perdida quando se substitui o texto
completo por um conjunto de palavras
Aparentemente um conjunto de frases de nossa liacutengua de acordo com Silva e Koch
(1993) tem pouco em comum variando quanto agrave extensatildeo ao sentido agraves palavras de que se
compotildeem e agrave ordem em que essas se apresentam Apesar da aparente diversidade as frases
possuem uma organizaccedilatildeo interna que segue princiacutepios gerais bem definidos de modo que o
falante seraacute capaz de dizer se uma sequumlecircncia de palavras a) se estaacute de acordo com o sistema
gramatical da liacutengua b) se se apresenta completa ou incompleta c) se eacute passiacutevel de
interpretaccedilatildeo semacircntica
Conforme Silva e Koch (apud ABREU et al 2004 p03) ldquoo sintagma consiste num
conjunto de elementos que constituem uma unidade significativa dentro da oraccedilatildeo e que
mantecircm entre si relaccedilotildees de dependecircncia e de ordemrdquo As palavras se combinam em conjuntos
em torno de um nuacutecleo Esses conjuntos os sintagmas desempenham uma funccedilatildeo no conjunto
maior que eacute a frase Para Liberato (apud PARREIRAS 2003) o SN eacute a parte do enunciado
que representa um conceito ou referente
Assim por exemplo nos conjuntos de sintagmas ndash David o estudante a menina
doente e minha filha ndash o nuacutecleo eacute um elemento nominal (nome ou pronome) tratando-se
portanto de sintagmas nominais Nos conjuntos ndash viajou de carro dormiu e levaraacute a
encomenda ndash o elemento fundamental eacute o verbo de modo que se tecircm nesses casos sintagmas
verbais
A natureza do sintagma depende portanto do tipo de elemento que constitui o seu
nuacutecleo aleacutem do sintagma nominal (SN) e do sintagma verbal (SV) existem os sintagmas
adjetivais (SA) que tecircm por nuacutecleo um adjetivo e os sintagmas preposicionais (SP) formados
normalmente de preposiccedilatildeo mais sintagma nominal (SILVA KOCH 1993)
Na estrutura da oraccedilatildeo em sua forma de base aparecem como constituintes
obrigatoacuterios o SN e o SV Por exemplo Os garotos (SN) empinavam papagaios de papel
(SV) Pode-se dizer que as regras baacutesicas de estrutura frasal satildeo as seguintes O = SN + SV
(SP) (o elemento O significa Oraccedilatildeo)
27
311 Extraccedilatildeo dos Sintagmas Nominais
O trabalho de Kuramoto compreendeu o desenvolvimento de um protoacutetipo de
interface de busca utilizando os sintagmas nominais como forma de acesso agrave informaccedilatildeo Para
testar esse protoacutetipo foram examinados e extraiacutedos segundo Kuramoto (2002) cerca de 8800
sintagmas nominais de uma amostra de 15 artigos selecionados aleatoriamente da revista
Ciecircncia da Informaccedilatildeo
Kuramoto (1995 p 6) relata que a extraccedilatildeo dos sintagmas nominais foi realizada de forma manual simulando uma extraccedilatildeo automaacutetica Este procedimento foi adotado em funccedilatildeo da natildeo-existecircncia ainda de um sistema de extraccedilatildeo automaacutetica de SN em acervos contendo documentos em Liacutengua Portuguesa
Como os SN nem sempre se apresentam de forma clara Kuramoto aponta a
ocorrecircncia normal em todo texto em linguagem natural de anaacuteforas8 e de elipses9 que
dificultou a identificaccedilatildeo dos SN Essas dificuldades segundo Kuramoto (1995) aumentam
em um processo automatizado Algumas das dificuldades encontradas por Kuramoto no
procedimento de extraccedilatildeo dos SN satildeo descritas a seguir
a) SN escondidos em frases com fatoraccedilatildeo
Para Kuramoto (1995 p 06) as ldquofrases com fatoraccedilatildeo satildeo aquelas que contecircm uma
sequumlecircncia de palavras que precedem um outro conjunto de palavras coordenadas pelas
conjunccedilotildees eou por exemplo o processo de negociaccedilatildeo dos setores privado e puacuteblicordquo
Percebe-se nesse exemplo que o SN de niacutevel 1 compreende tanto os setores privado
e puacuteblico visto que a referecircncia dos dois adjetivos estaacute contida na palavra em plural ldquosetoresrdquo
Existem outros exemplos de frases com fatoraccedilatildeo nas quais as palavras coordenadas aparecem
entre parecircnteses significando um complemento combinatoacuterio do termo ou da frase que
precede o parecircntese por exemplo profundas transformaccedilotildees (poliacuteticas econocircmicas
sociais tecnoloacutegicas)
b) Artigo Zero
8 Em Linguumliacutestica segundo Ducrot e Todorov (1972 apud KURAMOTO 1995) um segmento do discurso eacute dito anafoacuterico quando para interpretaacute-lo (inclusive do ponto de vista literaacuterio) for necessaacuterio se reportar a um outro segmento do mesmo discurso 9 A figura de sintaxe ldquoelipserdquo eacute definida por Cunha e Cintra (1991 apud KURAMOTO 1995) como sendo a omissatildeo de um termo que o contexto ou a situaccedilatildeo permitem facilmente suprimir
28
Um outro fator de dificuldade na extraccedilatildeo dos SN eacute a frequumlente ausecircncia de
determinantes10 na liacutengua portuguesa diferente da liacutengua francesa na qual satildeo raros os SN
com ausecircncia de um determinante Motivo pelos quais algumas regras estabelecidas para a
liacutengua francesa natildeo foram utilizadas De acordo com Kuramoto (1995 p 7) ldquono
procedimento de extraccedilatildeo dos SN constatou-se que 2889 dos SN natildeo eram precedidos de
qualquer determinante Em uma amostra de 6010 SN 1736 SN natildeo satildeo precedidos por
nenhum determinanterdquo Estes nuacutemeros demonstram que o modelo necessaacuterio deve considerar
este fator
c) Caacutelculo das anaacuteforas
Quando uma entidade eacute referenciada pela primeira vez em um texto segundo
Gasperin Goulart e Vieira (2003) a expressatildeo que a descreve eacute dita nova no discurso
Quando tal entidade eacute retomada no texto a expressatildeo que a descreve eacute dita anafoacuterica sendo
considerado o seu antecedente a expressatildeo anterior correferente
Para Kuramoto (1995 p 7-8) ldquoos elementos anafoacutericos em portuguecircs aparecem
frequumlentemente mediante partiacuteculas como os pronomesrdquo No entanto na proposta do autor
natildeo foi possiacutevel resolver dois casos de anaacuteforas
Um primeiro caso de anaacutefora ocorre nas palavras sem fonte expliacutecita no texto tais
como ldquonesse sentidordquo (em que sentido) ldquonossa experiecircnciardquo (de quem do autor dos
teacutecnicos de informaccedilatildeo) etc Como a interpretaccedilatildeo das ideacuteias estaacute contida no documento natildeo
fica evidente a soluccedilatildeo desse tipo de anaacutefora
O segundo caso eacute constituiacutedo de termos cujas fontes se encontram como por exemplo
na histoacuteria dos acontecimentos como ldquoesse periacuteodo preacute-industrial esse sistema de
comunicaccedilatildeordquo etc Por este motivo os SN foram extraiacutedos da mesma forma como se
encontravam no texto
d) Caacutelculo das elipses
Outra questatildeo que necessita um entendimento do contexto de uma frase eacute o problema
ligado a este tipo de figura de sintaxe Visto que depende da capacidade de percepccedilatildeo da falta
de alguma palavra no contexto de uma frase Segundo Kuramoto (1995) eacute preciso para
identificaacute-la analisar natildeo somente as frases precedentes mas tambeacutem as frases seguintes
Como neste exemplo ldquouma visatildeo de longo prazo que assegure natildeo soacute a sobrevivecircncia ()
10 Segundo Silva e Koch (1993) o determinante quando simples eacute representado por um artigo numeral ou pronome adjetivo
29
como tambeacutem o crescimento da organizaccedilatildeordquo Que promove o questionamento de ldquoqual o
complemento do termo lsquosobrevivecircnciarsquo lsquoSobrevivecircnciarsquo de quemrdquo A soluccedilatildeo encontrada
poderia estar na frase seguinte ldquoo crescimento da organizaccedilatildeordquo
Para promover a extraccedilatildeo completa da frase o SN seria ldquouma visatildeo de longo prazo
que assegure natildeo soacute a sobrevivecircncia da organizaccedilatildeo como tambeacutem o crescimento da
organizaccedilatildeordquo
3111 Extraccedilatildeo Automaacutetica de Sintagmas Nominais
A extraccedilatildeo automaacutetica de SN eacute considerada importante para a aacuterea de RI pois
segundo Chishman et al (2000) agiliza este processo e gera um percentual baixo de erros Jaacute
foi desenvolvido um extrator automaacutetico de sintagmas nominais para a liacutengua portuguesa no
acircmbito do projeto VISL chamado ldquoPalavrasrdquo11 que vem sendo usado pelo grupo de pesquisa
da UNISINOS
Segundo Abreu Goulart e Vieira (2004) para obter a anaacutelise das sentenccedilas dos
textos utiliza-se o analisador sintaacutetico ldquoPalavrasrdquo que eacute considerada uma ferramenta robusta
para a anaacutelise sintaacutetica do portuguecircs
A partir da saiacuteda do analisador sintaacutetico segundo Gasperin Goulart e Vieira (2003)
a ferramenta ldquoXtractorrdquo gera trecircs arquivos XML O primeiro eacute o arquivo de palavras o
segundo inclui as categorias morfossintaacuteticas e o terceiro eacute o arquivo com as estruturas
sintaacuteticas das sentenccedilas
Assim apoacutes todo esse processo eacute possiacutevel extrair de modo automaacutetico os sintagmas
nominais das sentenccedilas de um texto ressaltando-se que estes natildeo estatildeo ainda organizados
segundo a estrutura de niacuteveis que propotildee Kuramoto
312 A determinaccedilatildeo de uma estrutura para os SN
A essecircncia da proposta de Kuramoto (1995) reside na percepccedilatildeo que o autor teve de
que os SN organizam-se naturalmente numa estrutura de niacuteveis encadeados Kuramoto
percebeu nessa organizaccedilatildeo em niacuteveis um caminho para propiciar ao usuaacuterio mais facilidade
11 O analisador Palavras faz parte de um grupo de analisadores sintaacuteticos (softwares) do projeto VISL - Visual Interactive Sintax Learning do Institute of Language and Communication da University of Southern Denmark Disponiacutevel em lthttpvislsdudkvislptparsingautomaticgt (ABREU GOULART VIEIRA 2004)
30
no uso de um SRI levando tambeacutem a resultados mais precisos Para compreender a estrutura
proposta pelo autor apresenta-se a seguir o exemplo usado pelo proacuteprio Kuramoto
As Caracteriacutesticas do Meio Ambiente do Mundo dos Negoacutecios SN1 os negoacutecios SN2 o mundo dos negoacutecios SN3 o meio ambiente do mundo dos negoacutecios SN4 as caracteriacutesticas do meio ambiente do mundo dos negoacutecios
Figura 6 Exemplo da estrutura de niacuteveis de Sintagmas Nominais Fonte KURAMOTO 1995
Esse exemplo mostra o potencial da estrutura de relaccedilotildees de encadeamento de um
conjunto de SN Para o autor a anaacutelise do sintagma nominal no exemplo permitiu a extraccedilatildeo do SN ndash o meio ambiente do mundo dos negoacutecios A partir desse SN pode-se visualizar um outro SN embutido ndash o mundo dos negoacutecios ndash que por sua vez possui um quarto SN ndash os negoacutecios ndash que representa o niacutevel mais inferior12 Percebe-se nesse exemplo a existecircncia de quatro SN encadeados que enumerados em ordem crescente (do SN mais simples ao mais complexo) levam agrave classificaccedilatildeo do SN original como sendo de niacutevel 4 (KURAMOTO 1995 p04)
Com base nessas caracteriacutesticas apresentadas por Kuramoto (1995) os SN podem ser
organizados sob uma estrutura de aacutervore Esta estrutura possibilita que o Sistema de
Recuperaccedilatildeo de Informaccedilatildeo (SRI) possa atender agraves necessidades de consultas do usuaacuterio
Para atender esta demanda eacute preciso fornecer um centro de SN de seu interesse (como o
exemplo do autor ldquonegoacuteciosrdquo)
Para isso apresentam-se todos os SN1 relativos a essa busca inclusive o SN ldquoos
negoacuteciosrdquo A partir da lista encontrada de SN1 o usuaacuterio poderaacute restringir o seu perfil de
busca escolhendo um SN1 por exemplo ldquoos negoacuteciosrdquo e solicitar os SN2 relacionados a esse
SN1 O SRI apresenta todos os SN2 inclusive o SN ldquoo mundo dos negoacuteciosrdquo e assim
sucessivamente (KURAMOTO 1995)
Este autor afirma que esta passagem por vaacuterios niacuteveis promove um refinamento no
processo O processo de refinamento eacute realizado por meio da passagem pelos vaacuterios niacuteveis de uma estrutura arborescente de SN13 dado que o SN vai se tornando mais especiacutefico
12 Segundo Kuramoto (1995) os sintagmas nominais agrave medida que satildeo extraiacutedos de um outro SN satildeo classificados por niacuteveis Assim o sintagma mais simples eacute denominado SN de niacutevel 1 Constitui SN de niacutevel 2 aquele a partir do qual foi extraiacutedo o de niacutevel 1 e assim sucessivamente 13 Constatou-se empiricamente utilizando a maquete desenvolvida nesta experimentaccedilatildeo de acordo com Kuramoto (1995) que a quantidade de SN de segundo niacutevel em relaccedilatildeo a um dado SN de primeiro niacutevel pode ser maior que o total de SN de primeiro niacutevel Por exemplo a resposta agrave demanda do centro de SN ldquoinformaccedilatildeordquo foi de 122 SN de primeiro niacutevel e a resposta agrave demanda do SN de primeiro niacutevel ldquoa informaccedilatildeordquo foi de 172 SN de segundo niacutevel Por outro lado verificou-se que
31
agrave medida que se atingem os niacuteveis mais elevados da estrutura Ao percorrecirc-la o usuaacuterio estaacute na realidade delimitando ou melhor qualificando a sua necessidade de informaccedilatildeo Cabe portanto ao usuaacuterio identificar o niacutevel em que as suas necessidades de informaccedilatildeo seratildeo atendidas (KURAMOTO 1995 p 04-05)
Esta possibilidade de hierarquia permite uma interaccedilatildeo entre o usuaacuterio e maacutequina e
uma escolha individual de refinamento
313 Protoacutetipo Desenho da Interface de Busca
A Figura 7 descreve de maneira esquemaacutetica a interaccedilatildeo entre o usuaacuterio e o protoacutetipo
de Kuramoto (1995)
O protoacutetipo viabiliza a primeira interaccedilatildeo pois haacute uma tela em que permite ao
usuaacuterio fazer a sua solicitaccedilatildeo de informaccedilatildeo fornecendo uma palavra (centro de SN1) A
partir dessa palavra surgem outras interaccedilotildees como mostra o esquema de Kuramoto (1995) na
Figura 7 que ocorrem nas accedilotildees abaixo
Figura 7 Procedimentos de interaccedilatildeo usuaacuteriominusprotoacutetipo Fonte KURAMOTO 1995
o SN ldquoa informaccedilatildeordquo indexava 15 documentos na base enquanto o SN de segundo niacutevel ldquoa anaacutelise da informaccedilatildeordquo indexava apenas 1 (um) documento Confirma-se nesse exemplo que a passagem de um dado niacutevel a um superior na aacutervore de SN proporciona maior refinamento no processo de seleccedilatildeo dos documentos
32
314 Organizaccedilatildeo dos Sintagmas Nominais como Estrutura de Busca
Na proposta de Kuramoto (1995) foram desenvolvidas as seguintes estruturas de busca
Figura 8 Estrutura de dados para acessar os Sintagmas Nominais de primeiro niacutevel a partir de uma palavra Fonte KURAMOTO 1995
Kuramoto (1995) mostra na Figura 8 a associaccedilatildeo das tabelas Palavras CS-SN1 e
SN1 Cada dado tem nomes dos elementos que estatildeo sublinhados e representam as chaves de
cada tabela Na tabela Palavras observa-se que o autor agrupa todas as palavras (centro) que
representam os centros de SN1 Haacute uma atribuiccedilatildeo de coacutedigo para cada ldquocentrordquo chamado
ldquocoacutedigo crdquo A tabela CS-SN1 eacute uma tabela de associaccedilatildeo dos coacutedigos dos centros de SN1 com
os coacutedigos dos SN1 Essa figura mostra que para cada centro de SN1 existem vaacuterios SN1 A indicaccedilatildeo na seta da associaccedilatildeo da tabela Palavras com a tabela CS-SN1 define que na tabela Palavras podem existir M ocorrecircncias de um coacutedigo de centro de SN1 O mesmo pode ocorrer na tabela CS-SN1 em que esse coacutedigo pode verificar-se N vezes Essa indicaccedilatildeo traduz a ideacuteia de que para cada SN1 pode existir mais de um centro de SN1 Isto se explica pela existecircncia no contexto de um SN de palavras que satildeo tatildeo importantes quanto o centro de sintagma (KURAMOTO 1995 p 11)
Observa-se o exemplo ldquoo sistema de informaccedilatildeordquo Nesse o autor define o SN1 de
ldquosistemardquo Todavia esta natildeo eacute a uacutenica palavra fundamental pois a palavra ldquoinformaccedilatildeordquo tem
tanta importacircncia quanto o proacuteprio centro de sintagma (sistema)
Kuramoto (1995 p 11) mostra ainda que existe associaccedilatildeo entre o centro de SN1 e a
vaacuterios SN de niacutevel 1 Cada centro de SN1 pode estar associado a mais de um SN1 Essa indicaccedilatildeo eacute dada pela seta que associa a tabela SN1 agrave tabela CS-SN1 onde o nuacutemero 1 significa que na tabela SN1 existe uma soacute ocorrecircncia de um determinado coacutedigo de SN1 enquanto na tabela CS-SN1 existem M ocorrecircncias desse coacutedigo
Outro elemento de dados importante na tabela SN1 eacute chamado ldquonuacutemerordquo que
segundo Kuramoto (1995 p 11-12) ldquoindica a quantidade de artigos de onde um determinado
33
SN1 foi extraiacutedordquo O nuacutemero de referecircncias de onde o SN foi extraiacutedo aparece para cada
apresentaccedilatildeo de SN1 relacionado com um centro de SN1 escolhido pelo usuaacuterio
Kuramoto (1995) ilustra numa outra figura (Figura 9) a estrutura de dados construiacuteda
para a busca dos SN2 a partir de um SN1 selecionado pelo usuaacuterio
Figura 9 Estrutura de dados para acessar os Sintagmas Nominais de segundo niacutevel a partir de Sintagmas Nominais de primeiro niacutevel Fonte KURAMOTO 1995
Nessa ilustraccedilatildeo observa-se que se manteacutem a estrutura da Figura 8 em uma
associaccedilatildeo de tabelas que busca facilitar a busca dos SN2 a partir de um SN1 escolhido pelo
usuaacuterio Segundo Kuramoto (1995 p 12) ldquopercebe-se analogamente que um dado SN1 pode
estar associado a vaacuterios SN2 e vice-versa Isto traduz a ideacuteia de que um SN2 pode ter
embutido mais de um SN1 Essa estrutura atende agraves caracteriacutesticas dos SN listados no iniacutecio
desta seccedilatildeordquo
A busca de informaccedilotildees se manteacutem na mesma estrutura para os SN de niacutevel 3 e 4 que
satildeo semelhantes agraves Figuras acima (SN1 e SN2) com diferenccedila apenas no nome de cada
elemento que eacute correspondente ao nuacutemero dos SN
O acesso aos documentos estaacute representado na Figura 10 que exemplifica uma
escolha no SN1
Figura 10 Estrutura de dados para o acesso aos tiacutetulos e textos dos artigos Fonte KURAMOTO 1995
34
Essa estrutura foi desenvolvida para que o protoacutetipo atenda a uma demanda do
usuaacuterio viabilizando a visualizaccedilatildeo de todos os tiacutetulos e textos de documentos de onde um
SN1 foi extraiacutedo Haacute outras associaccedilotildees semelhantes a essas da Figura 17 que servem para o
acessar os documentos a partir de SN de qualquer um dos quatro niacuteveis previstos no protoacutetipo
Kuramoto (1995 p 12-13) ressalta ainda as accedilotildees do coacutedigo numeacuterico Eacute importante observar que todas as tabelas contendo os SN nos seus vaacuterios niacuteveis tecircm como chave de acesso um coacutedigo numeacuterico uacutenico de SN Para tanto construiu-se uma tabela contendo os SN onde estes satildeo identificados por meio de um coacutedigo numeacuterico Natildeo existe nenhum impedimento teacutecnico por parte do sistema Access quanto ao uso do proacuteprio texto dos SN como chave de acesso agraves informaccedilotildees Deve-se ressaltar que apesar da lentidatildeo que este tipo de chave de acesso provoca as estruturas de dados seriam mais simples e faacuteceis de manusear Contudo optou-se pela utilizaccedilatildeo das chaves numeacutericas identificando cada SN com o intuito de obter maior velocidade de acesso aos SN e agraves informaccedilotildees
Finalizando esta apresentaccedilatildeo do modelo de Kuramoto cabe destacar que a utilizaccedilatildeo
da aacutervore de SN por niacuteveis permite uma visualizaccedilatildeo mais faacutecil do conteuacutedo da base de dados
e manteacutem o que haacute de mais significativo nos documentos sua semacircntica
As estruturas de Qualia e de Heranccedila Lexical do Leacutexico Gerativo de Pustejovsky a
serem apresentadas na proacutexima seccedilatildeo permitem tambeacutem da mesma forma considerar a
semacircntica dos itens lexicais atraveacutes da criaccedilatildeo de uma malharede de relaccedilotildees de palavras e
seus significados atraveacutes dos papeacuteis que compotildeem a EQ
32 A Teoria do Leacutexico Gerativo de Pustejovsky
Pustejovsky defende a ideacuteia de que assim como a gramaacutetica tem uma estrutura
(sintaxe) a semacircntica (significado) tambeacutem tem uma estrutura baacutesica Na estrutura baacutesica da
sintaxe das liacutenguas em geral segundo Souza e Silva (1993) as oraccedilotildees satildeo compostas de
Sintagma Nominal (SN) mais Sintagma Verbal (SV) basicamente Na busca da estrutura
semacircntica Pustejovsky (1991) delineia a teoria do Leacutexico Gerativo (LG) como uma
abordagem na aacuterea da semacircntica lexical que pretende dar conta da criatividade semacircntica do
uso das palavras em contexto
Segundo Rossi (2003) Ullmann concorda com essa dificuldade do uso das palavras
em contexto quando declara que ldquonatildeo satildeo raros os casos em que ocorre uma polivalecircncia das
palavras acarretando por consequumlecircncia fenocircmenos semacircnticos inerentes agraves liacutenguas naturais
entre eles a ambiguumlidade lexicalrdquo Essa ambiguumlidade eacute provocada em decorrecircncia de fatores
35
lexicais denominados de polissemia e de homoniacutemia ou na terminologia de Weinreich
conforme Rossi (2003) de ambiguumlidade complementar e ambiguumlidade contrastiva
respectivamente
No primeiro caso trata-se da polissemia que de um modo geral conforme Moura
(2001) ldquoeacute definida como um fenocircmeno que permite associar a um mesmo item lexical mais
de um sentido os quais mantecircm alguma relaccedilatildeo semacircntica entre sirdquo Assim a palavra ldquolivrordquo
por exemplo eacute polissecircmica pois expressa ao menos dois sentidos diferentes que possuem
entre si algum tipo de laccedilo semacircntico (a) objeto fiacutesico e (b) informaccedilatildeo
Jaacute no segundo caso o da ambiguumlidade contrastiva trata-se de homoniacutemia definida
por Pustejovsky como a situaccedilatildeo na qual um item lexical eacute associado com ao menos dois
sentidos diferentes e sem relaccedilatildeo entre si Desse modo a palavra ldquomangardquo por exemplo eacute
uma palavra homocircnima pois natildeo haacute nenhuma relaccedilatildeo semacircntica evidente entre os sentidos de
ldquofrutardquo e ldquoparte da blusardquo
Segundo Rossi (2003 p 14) Ullmann salienta que ldquoeacute difiacutecil em casos particulares
determinar onde termina a polissemia e onde comeccedila a homoniacutemia uma vez que natildeo eacute faacutecil e
nem sempre possiacutevel medir intuitivamente o grau de proximidade dos significadosrdquo
A polissemia loacutegica eacute denominada por Pustejovsky (1991) para restringir a
ambiguumlidade complementar abordada anteriormente nos casos em que ocorre uma relaccedilatildeo
loacutegica portanto previsiacutevel entre os sentidos de uma palavra polissecircmica Havendo mais de um
sentido eacute importante ressaltar que pode existir sobreposiccedilatildeo desses sentidos em um mesmo
contexto
Aleacutem de ter sido tratada como polissemia loacutegica por Pustejovsky segundo Rossi
(2003) desde Weinreich esse fenocircmeno da complementaridade dos sentidos tem sido
abordado como polissemia regular e polissemia sistemaacutetica
A teoria do Leacutexico Gerativo (LG) de Pustejovsky aponta o problema da
multiplicidade de significados das palavras e enfatiza um tratamento relacionado ao problema
da polissemia das palavras Segundo Neto (2003) nessa perspectiva Pustejovsky desenvolveu
o LG que eacute um modelo de processamento de liacutengua natural que trata da explicaccedilatildeo semacircntica
de itens lexicais tanto isolados quanto em contexto
Assim como a gramaacutetica caracteriza o comportamento sintaacutetico especiacutefico de uma
certa categoria de palavras Pustejovsky propotildee uma teoria gerativa do significado da palavra
E ainda pretende mostrar que seu modelo segundo Rossi (2003 p 47) ldquoeacute contraacuterio a
36
estaticidade presente em duas concepccedilotildees semacircnticas teoacutericas das deacutecadas de 60 e 70 as
baseadas em redes conexionistas e as baseadas em primitivos fixos14rdquo
Rossi (2003 p 47) afirma que a teoria de redes conexionistas organiza a semacircntica
das palavras atraveacutes de relaccedilotildees e elos para esta autora isso ldquodificulta a representaccedilatildeo de
sentidos que exibem polissemia regular haja vista a distacircncia na rede entre os sentidos que
mantecircm relaccedilatildeo sistemaacutetica entre sirdquo Por exemplo os sentidos de ldquoobjeto fiacutesicordquo e
ldquoinformaccedilatildeordquo satildeo naturalmente distantes no entanto mantecircm entre si relaccedilatildeo sistemaacutetica no
caso de ldquolivrordquo e de outras palavras
Jaacute no segundo caso o das teorias baseadas em primitivos semacircnticos fixos o leacutexico
eacute tratado como uma lista enumerativa de sentidos Por isso mesmo tais modelos satildeo
denominados por Pustejovsky (1991) de Sense Enumeration Lexicon (SEL) - leacutexico de
enumeraccedilatildeo de sentidos O problema segundo Pustejovsky (1991) eacute que essa caracterizaccedilatildeo
dos possiacuteveis sentidos de uma palavra postulada pelo modelo SEL eacute aplicada tanto para a
ambiguumlidade contrastiva como para a polissemia loacutegica
Fica evidente segundo Rossi (2003) que Pustejovsky se opotildee aos modelos SEL pois
apesar de eles proverem uma enumeraccedilatildeo exaustiva dos sentidos de um item lexical ainda se
mostram limitados natildeo dando conta dos objetivos baacutesicos da teoria semacircntico-lexical ou seja
o uso criativo de palavras a permeabilidade dos significados e as muacuteltiplas formas sintaacuteticas
das expressotildees
O objetivo principal do LG segundo Pustejovsky (1991) eacute prover uma descriccedilatildeo
formal da liacutengua que seja expressiva e flexiacutevel o suficiente para apreender a natureza gerativa
da criatividade lexical e extensatildeo de sentido Caracteriza assim o LG como um sistema
semacircntico de perspectiva loacutegica que envolve quatro niacuteveis de representaccedilatildeo um sistema de
tipos semacircnticos e trecircs tipos de mecanismos gerativos
No decorrer deste capiacutetulo seratildeo especificadas as noccedilotildees teoacutericas baacutesicas do modelo
gerativo de Pustejovsky que estruturam o leacutexico em quatro niacuteveis de representaccedilatildeo
(argumentos eventos qualia e heranccedila) sobre os quais atuam dispositivos gerativos (a
coerccedilatildeo de tipo a co-composiccedilatildeo e a ligaccedilatildeo seletiva)
321 Estruturas do Leacutexico Gerativo
14 Conforme Pustejovsky (1995) a teoria de primitivos fixos eacute defendida por autores como Lakoff (1971) Wilks (1975) Schank (1975) Katz (1977) Jaacute a teoria de redes conexionistas eacute defendida por Carnap (1956) Collins e Quillian (1969) Fodor (1975) Brachman (1979)
37
Para capturar o significado lexical estudou-se as estruturas de Pustejovsky (1991)
que propotildee quatro niacuteveis de representaccedilatildeo estrutura de argumento estrutura de evento
estrutura de qualia e estrutura de heranccedila lexical descritos abaixo
3211 Estrutura de Argumento
Para Pustejovsky (1991) essa estrutura eacute uma especificaccedilatildeo miacutenima que agrupa os
itens lexicais em quatro argumentos
bull verdadeiros ndash paracircmetros do item lexical que tecircm a necessidade de serem expressos
sintaticamente Ex Marta morou em Paris
bull apagados ndash paracircmetros que natildeo tecircm necessidade de serem realizados sintaticamente satildeo
argumentos opcionais Ex Joana coseu uma saia sem linha
bull sombreados ndash paracircmetros que jaacute estatildeo semanticamente presentes no item lexical e soacute
devem ser expressos atraveacutes de operaccedilotildees de subtipo ou especificaccedilatildeo de discurso Ex
Paulo salgou a carne com sal grosso
bull adjuntos verdadeiros ndash paracircmetros que mesmo sendo parte da interpretaccedilatildeo situacional
modificam uma expressatildeo loacutegica sem contudo estarem ligados agrave representaccedilatildeo
semacircntica de algum item lexical especiacutefico Esses paracircmetros introduzem expressotildees
adjuntivas de modificaccedilatildeo temporal ou espacial Ex David dormiu cedo
3212 Estrutura de Evento
Essa estrutura para Pustejovsky (1991) refere-se a organizaccedilatildeo de um conjunto de eventos
no que tange agrave ordenaccedilatildeo temporal de seus subeventos e a designaccedilatildeo de qual deles seraacute
considerado o principal em relaccedilatildeo ao evento matriz
bull Evento de estado ndash aquele cujo(s) argumento(s) natildeo sofre(m) alteraccedilatildeo durante o
intervalo temporal do evento Ex Kaacutetia mora em Florianoacutepolis
bull Evento de processo ndash aquele cujo(s) argumento(s) sofre(m) alteraccedilatildeo de estado ou
indica(m) o iniacutecio de alguma atividade sem uma culminaccedilatildeo precisa Ex Heloisa canta
bem
bull Evento de transiccedilatildeo - aquele cujo(s) argumento(s) sofre(m) alguma accedilatildeo de
temporalidade determinada e resulta(m) em um estado diferente do inicial Ex Tereza fez
uma boneca
38
A estrutura a seguir apresenta os atributos semacircnticos essenciais dos itens lexicais
(como por exemplo a categoria a composiccedilatildeo a funccedilatildeo e a origem) atraveacutes dos papeacuteis
formal constitutivo teacutelico e agentivo Eacute a estrutura principal responsaacutevel pela explicaccedilatildeo da
polissemia loacutegica abordada no texto (Pustejovsky 1991)
3213 Estrutura de Qualia
Devido a sua proximidade com o SN visto que trabalha por conceitos (nomes) esta
estrutura foi utilizada no desenvolvimento do modelo proposto pela pesquisa Trata de um
conjunto formado por quatro qualia que visam guiar o processo de entendimento a respeito de
um objeto ou uma relaccedilatildeo no mundo dando por consequumlecircncia um modo de especificar a
denotaccedilatildeo de tal objeto ou relaccedilatildeo Eacute dividida em quatro papeacuteis os quais satildeo descritos na
sequumlecircncia
a) Quale formal - faz a distinccedilatildeo de determinado item dentro de um domiacutenio maior levando
em consideraccedilatildeo sua
bull orientaccedilatildeo
bull magnitude
bull forma
bull dimensatildeo
bull cor
bull posiccedilatildeo
b) Quale constitutivo - estabelece a relaccedilatildeo entre um objeto e suas partes constituintes ou
proacuteprias a partir das propriedades
bull material
bull peso
bull partes e elementos componentes
Aleacutem disso o quale constitutivo informa tambeacutem de que classe um item eacute parte caso
haja tal relaccedilatildeo ou seja ele informa tanto uma relaccedilatildeo de hiperoniacutemia15 quanto de
meroniacutemia16
15 Hiperoniacutemia ocorre quando o significado de um lexema (palavra) abrange o significado de outro lexema O significado de um eacute mais geneacuterico que o significado de outro Por exemplo ldquoaeronaverdquo eacute um hiperocircnimo de ldquoteco-tecordquo
39
Estas relaccedilotildees satildeo utilizadas na modelagem do protoacutetipo de Gonzalez (2005) Este
protoacutetipo foi pesquisado e apreendido como parte integrante da proposta desta dissertaccedilatildeo e
seraacute descrito na seccedilatildeo 33 do capiacutetulo 3
c) Quale teacutelico - explicita a finalidade e a funccedilatildeo de um objeto
bull Propoacutesito de um agente ao realizar um ato
bull Funccedilatildeo interna ou objetivo que descreve certas atividades
d) Quale agentivo - determina os fatores envolvidos na origem ou causa de um objeto
partindo de consideraccedilotildees sobre
bull criador
bull artefato
bull tipo natural
bull cadeia causal
Figura 11 Representaccedilatildeo da matriz de um item lexical Fonte ROSSI 2003
Figura 12 Matriz superficial da Estrutura de Qualia do item lexical ldquolivrordquo Fonte ROSSI 2003
16 Meroniacutemia ocorre quando o significado de um lexema (palavra) faz parte ou eacute uma porccedilatildeo do significado de outro lexema Por exemplo as palavras ldquocapardquo e ldquofolhasrdquo satildeo merocircnimos de ldquolivrordquo
40
Eacute importante salientar que segundo Neto (2003a) a Estrutura de Qualia natildeo deve ser
considerada apenas como uma lista de fatos interessantes sobre um item lexical e sim como
um conjunto de propriedades que leva a uma explicaccedilatildeo mais clara de tal item
Isto equivale dizer que o objetivo da Estrutura de Qualia eacute abarcar o significado de
uma palavra e explicitar como se relaciona com o uso da liacutengua Assim essa estrutura salienta
a explicaccedilatildeo do uso da criatividade linguumliacutestica contextual natildeo como uma estrutura isolada
mas em conjunto com os mecanismos gerativos que seratildeo apresentados mais adiante
Seguem alguns exemplos da Estrutura de Qualia
Figura 13 Exemplo da Estrutura de Qualia do item lexical ldquoromancerdquo Fonte PUSTEJOVSKY 1991
Figura 14 Exemplo da Estrutura de Qualia do item lexical ldquodicionaacuteriordquo Fonte PUSTEJOVSKY 1991
3214 Estrutura de Heranccedila Lexical
Esta estrutura tambeacutem eacute de fundamental importacircncia porque nesta ocorre a relaccedilatildeo das
qualias ou seja satildeo estruturas lexicais que podem se organizar com outras estruturas em uma
grade de tipo e assim ajudar na organizaccedilatildeo geral do leacutexico Por exemplo na figura abaixo o
LG relaciona ldquodicionaacuteriordquo ldquolivrordquo e ldquopeccedilardquo atraveacutes de suas estruturas de qualia em que se
observa que os trecircs itens lexicais satildeo diferentes entre si no entanto mantecircm relaccedilotildees
semacircnticas
41
Figura 15 Exemplo do LG relacionando ldquodicionaacuteriordquo ldquolivrordquo e peccedila atraveacutes de suas EQ Fonte NETO 2003a
322 Sistema de Tipos Semacircnticos
Um sistema de tipos semacircnticos analisa o comportamento polissecircmico e loacutegico de
nomes implicitamente relacionais como por exemplo porta janela Pustejovsky mostra como
o leacutexico gerativo faz uso de estruturas de aspectos tiacutepicos e afirma que esses nomes tecircm dois
sentidos relacionais (ldquoobjeto fiacutesicordquo e ldquoaberturardquo) que satildeo logicamente parte do significado do
nome Essa habilidade que um item lexical tem de agrupar vaacuterios sentidos eacute chamada
ldquoparadigma leacutexico-conceptual (plc ou lcp)rdquo O plc eacute como um construtor de tipo por exemplo
em palavras como ldquoportardquo e1 significa objeto_fiacutesico e2 abertura e o tipo resultante eacute
ldquoobjeto_fiacutesicoabertura_plc = objeto_fiacutesicoabertura objeto_fiacutesicoaberturardquo
Figura 16 Exemplo de polissemia loacutegica na representaccedilatildeo matricial da palavra ldquolivrordquo Fonte ROSSI 2003
42
Figura 17 Exemplo de polissemia loacutegica na representaccedilatildeo matricial da palavra ldquojornalrdquo Fonte ROSSI 2003
322 Mecanismos gerativos
O Leacutexico Gerativo apresenta ainda um conjunto de trecircs mecanismos que fazem uso
das estruturas ldquoeventordquo ldquoargumentordquo e ldquoqualiardquo os quais satildeo ditos gerativos pois relacionam
diferentes itens lexicais possibilitando a interpretaccedilatildeo composicional de palavras em contexto
3221 Coerccedilatildeo de tipo
Autoriza a mudanccedila de tipo e por extensatildeo de denotaccedilatildeo de nomes e expressotildees de
acordo com o contexto a que pertencem A coerccedilatildeo de tipo reconstroacutei a semacircntica do
complemento e soacute teraacute sucesso se o item lexical em questatildeo tiver um atalho para o tipo
desejado O exemplo claacutessico dado por Pustejovsky eacute ldquoJoatildeo comeccedilou um livrordquo em que o
predicado comeccedilar requer um tipo diferente do apresentado por livro ou seja o verbo requer
um complemento do tipo ldquoeventordquo que natildeo eacute satisfeito por ldquolivrordquo O termo ldquocomeccedilar um
livrordquo eacute interpretado como comeccedilar a ler (ou escrever) um livro
3222 Ligaccedilatildeo seletiva
Rege a relaccedilatildeo semacircntica que um modificador tem com o seu nuacutecleo ou seja ela
trata do problema da polissemia adjetival uma vez que os adjetivos satildeo interpretados a partir
da semacircntica do nuacutecleo Exemplos
(1) Um passeio raacutepido
(2) Um motorista raacutepido
43
(3) Um digitador raacutepido
(4) Um computador raacutepido
O primeiro problema estaacute claramente exemplificado com (1) em oposiccedilatildeo a (2) (3) e
(4) ou seja o primeiro trata de uma adjetivaccedilatildeo sobre um evento e os demais de uma
adjetivaccedilatildeo sobre indiviacuteduos Jaacute para o segundo problema diz-se que a interpretaccedilatildeo do
adjetivo vai ser selecionada por algum dos qualia do nuacutecleo do sintagma nominal ou seja
pela ligaccedilatildeo seletiva Esse mecanismo vai buscar a interpretaccedilatildeo de raacutepido para os exemplos
acima no quale teacutelico dos nuacutecleos
3223 Co-composiccedilatildeo
Os itens lexicais componentes de um determinado sintagma influenciam-se
mutuamente e um complemento pode adicionar um sentido ao seu nuacutecleo Pustejovsky
comeccedila exemplificando esse mecanismo com a polissemia de verbos como o ldquoassarrdquo que
apresenta dois sentidos uma mudanccedila de estado e outra de criaccedilatildeo do objeto Os exemplos
claacutessicos satildeo
(a) Letiacutecia assou as batatas
(b) Letiacutecia assou o bolo
Observa-se que em (1) houve apenas uma mudanccedila de estado pois as batatas jaacute
existiam antes de serem assadas em (2) um sentido de criaccedilatildeo de objeto eacute atribuiacutedo ao verbo
uma vez que antes da assadura o bolo natildeo existia Contudo Pustejovsky (1991) afirma que
ordinariamente soacute haacute um sentido para ldquoassarrdquo o de mudanccedila de estado pois tal verbo tem seu
tipo de evento modificado devido a informaccedilotildees que satildeo trazidas pelo complemento ou seja
essas leituras soacute satildeo possiacuteveis a partir de mecanismo de co-composiccedilatildeo em que os
complementos co-especificam o verbo
Por buscar formalizar a estrutura semacircntica de uma liacutengua o trabalho de Pustejovsky
eacute de grande importacircncia para a aacuterea de recuperaccedilatildeo de informaccedilatildeo Uma tentativa de
implementaccedilatildeo computacional da sua teoria foi realizada por Abrahatildeo (1997) envolvendo a
modelagem e a implementaccedilatildeo de um leacutexico semacircntico para a Liacutengua Portuguesa
Inicialmente este autor realizou um estudo de conceitos baacutesicos relacionados agrave semacircntica
Durante a sua pesquisa foram apresentadas teacutecnicas de representaccedilatildeo do conhecimento e do
significado que auxiliaram a seleccedilatildeo e o entendimento do modelo proposto por Pustejovsky
44
Como subsiacutedio para a implementaccedilatildeo de um leacutexico semacircntico para o portuguecircs
Abrahatildeo (1997) fez um estudo aprofundado da teoria de Pustejovsky onde salienta que os
problemas mais comuns agrave representaccedilatildeo do significado das palavras como ldquoambiguumlidade
lexical polissecircmicardquo por exemplo satildeo solucionados de forma eficiente e computacional
Como o modelo de Pustejovsky eacute voltado ao Inglecircs foram encontradas semelhanccedilas e
diferenccedilas entre a liacutengua origem do modelo e o Portuguecircs Variaccedilotildees verbais - facilita o mapeamento direto os verbos satildeo inseridos numa forma canocircnica (baacutesica ou infinitiva) no leacutexico variaccedilotildees de grau nos substantivos como alternativa de soluccedilatildeo satildeo armazenados em uma forma canocircnica palavras que se comportam como verbo e substantivo palavras que se comportam como adjetivo e substantivo tambeacutem satildeo mapeadas atraveacutes do uso da estrutura de lcps de Pustejovsky mapeamento de expressotildees - expressotildees devem ser inseridas no leacutexico pois expressam um significado especiacutefico substantivos compostos por mais de uma palavra acentuaccedilatildeo ndash itens lexicais do Inglecircs natildeo apresentam acentos Esta caracteriacutestica do Portuguecircs deve ser inserida no leacutexico pois diferencia o significado de suas palavras Deste modo esta informaccedilatildeo foi atribuiacuteda aos registros de informaccedilotildees semacircnticas atraveacutes de uma variaacutevel que conteacutem o tipo e a posiccedilatildeo na palavra em que o acento aparece (ABRAHAtildeO 1997 pgs 78-80)
Abrahatildeo (1997) construiu sua implementaccedilatildeo do leacutexico sobre uma estrutura em
aacutervore Trie17 que proporciona um maior poder de representaccedilatildeo na busca de informaccedilotildees e
baixa quantidade de dados armazenados As informaccedilotildees semacircnticas associadas aos itens
lexicais satildeo armazenadas em listas encadeadas a partir de uma estrutura denominada de
Descritor Semacircntico Um item lexical pertence ao leacutexico semacircntico se este item possui um
Descritor Semacircntico associado ao seu uacuteltimo caractere na aacutervore E ainda um Descritor
Semacircntico abrange os ponteiros essenciais para a busca das informaccedilotildees semacircnticas relativas
ao item lexical
De acordo com este autor as informaccedilotildees semacircnticas associadas aos itens lexicais
seguem o modelo de Pustejovsky (1991) sendo dividida em trecircs estruturas baacutesicas de
argumentos de eventos e de Qualia As estruturas de argumentos e de eventos satildeo
implementadas atraveacutes de uma lista de argumentos e uma lista de eventos A estrutura de
Qualia eacute composta de quatro listas de informaccedilotildees uma para cada papel (formal constitutivo
teacutelico e agentivo)
Segundo este autor todas as estruturas do leacutexico semacircntico foram desenvolvidas em
vetores A manipulaccedilatildeo destes vetores daacute-se sobre estruturas denominadas cabeccedilalhos Estes
cabeccedilalhos fornecem informaccedilotildees sobre a alocaccedilatildeo de vetores em memoacuteria ponteiros para os
vetores de informaccedilatildeo tamanhos dos vetores e os arquivos associados ao sistema O nuacutecleo de
17 Segundo Abrahatildeo (1997) ldquoeacute um tipo especial de estrutura onde cada caractere dos itens lexicais determina um nodo da aacutervorerdquo
45
dados do sistema eacute constituiacutedo de dois cabeccedilalhos cabeccedilalho da aacutervore Trie e o cabeccedilalho das
informaccedilotildees semacircnticas
A biblioteca de funccedilotildees conteacutem os procedimentos necessaacuterios para manutenccedilatildeo do
banco de dados lexical bem como procedimentos de busca de informaccedilotildees semacircnticas
Juntamente com a biblioteca uma interface graacutefica foi construiacuteda possibilitando a manutenccedilatildeo
do banco de dados e facilitando a visualizaccedilatildeo da semacircntica dos itens lexicais Esta interface
graacutefica eacute implementada na linguagem de programaccedilatildeo em C para as estaccedilotildees de trabalho SUN
sobre o sistema de janelas XVIEW18 (ABRAHAtildeO 1997)
Esta seccedilatildeo mostrou a importacircncia da teoria de Pustejovsky e suas possibilidades O
LG eacute fundamental para compreensatildeo semacircntica pois considera o contexto da palavra sendo
capaz de estruturar um domiacutenio especiacutefico atraveacutes da EQ e tambeacutem de identificar dentro de
um domiacutenio quando determinada palavra aparece em tal contexto Pelo desenvolvimento do
trabalho de Abrahatildeo pode-se perceber a dimensatildeo e os elementos necessaacuterios para o
significado de uma palavra reforccedilando-se assim o valor e a viabilidade da teoria de
Pustejovsky
A proacutexima seccedilatildeo apresenta o trabalho de Gonzalez (2005) que estudou Pustejovsky19
e posteriormente desenvolveu sua proacutepria concepccedilatildeo de uma estrutura de RI (toda
automatizada)
33 O Modelo TR+ de Gonzalez
O modelo TR+ eacute considerado um modelo para RI que utiliza duas fases para o
desenvolvimento de sua estrutura fase de indexaccedilatildeo e fase de busca
18 XVIEW ldquoeacute um sistema de janela orientado a objeto que permite ao programador criar e utilizar objetos tais como janelas textos paineacuteis iacutecones entre outros para construir uma aplicaccedilatildeo Seus objetos satildeo predefinidos e satildeo ricos em funcionalidade o que permite que o coacutedigo necessaacuterio para manipular essas janelas seja pequeno simples e muito faacutecil de se compreenderrdquo (ABRAHAtildeO 1997 p 86) 19 Realizou um trabalho individual no doutorado denominado ldquoO Leacutexico Gerativo de Pustejovsky sob o enfoque da Recuperaccedilatildeo de Informaccedilotildeesrdquo de 2000a
46
Indexaccedilatildeo de textos segundo Baeza-Yates e Ribeiro-Neto (1999) e Gonzalez (2005)
eacute o processo que estipula descritores20 dos conteuacutedos dos textos de uma coleccedilatildeo de
documentos com objetivo de busca e classificaccedilatildeo dos mesmos para atender consultas em
sistemas de RI Descritores podem descrever conceitos atocircmicos sendo lsquotermosrsquo ou conceitos
complexos sendo lsquorelacionamentosrsquo O conjunto de descritores concebido na indexaccedilatildeo
favorece uma visatildeo loacutegica dos documentos com o propoacutesito de unir esses descritores termos
e relacionamentos a conceitos presentes nos textos dos documentos
Para os relacionamentos este autor classifica trecircs tipos explicando-os atraveacutes do
exemplo ldquo tecircm preocupado os pesquisadoresrdquo O primeiro tipo eacute o par modificado-
modificador como lsquopesquisador-preocupadorsquo O segundo eacute o bigrama (preocupado
pesquisador) e o terceiro eacute o Sintagma Nominal que para ele significa lsquopesquisador
preocupadorsquo e que para a pesquisa de Gonzalez ficaria na sua forma natural lsquopreocupado os
pesquisadoresrsquo O autor ainda cita que haacute outros formatos de relacionamentos como a
expressatildeo ternaacuteria (preocupaccedilatildeo-de-pesquisador) e a relaccedilatildeo binaacuteria
(preocupaccedilatildeopesquisador)
Gonzalez (2005) aponta dois tipos de relacionamentos como problemas os bigramas
por natildeo poderem descrever o conceito (ldquoferro sopardquo para ldquopanela de ferro com sopardquo) e os
termos com palavras comuns mas coadjuvantes importantes (ldquosentar bancordquo e ldquodepositar
bancordquo) os sintagmas nominais que para o autor representam tanto o conceito atocircmico quanto
o complexo (ldquonoiterdquo e ldquoboca da noiterdquo) Eacute importante perceber que a partir dessas
caracteriacutesticas e aspectos acima definidos Gonzalez (2005) propocircs um novo modelo de
espaccedilo de descritores (uniatildeo do conjunto de termos com o conjunto de relacionamentos) Este
novo modelo surgiu a partir de outros cinco modelos de descritores jaacute existentes
1 Unigrama conjunto de termos natildeo relacionados
2 N-grama (NG) conjunto de relacionamentos estatiacutesticos
3 Termo-Termo (TT) conjunto de termos relacionados estatiacutestica ou
sintaticamente
4 Termo-Relacionamento (TR) conjunto de termos e relacionamentos sintaacuteticos
20 A palavra descritores eacute usada para se tratar dos termos e relacionamentos enquanto os iacutendices se referem apenas aos termos O descritor lsquotermorsquo significa uma unidade lexical formada por uma uacutenica palavra ou por mais de uma denominada de lsquotermo compostorsquo E o descritor lsquorelacionamentorsquo ocorre entre termos ou seja satildeo relaccedilotildees de construccedilotildees sintaticamente diferentes que tecircm o mesmo significado (semacircntica) Exemplo lsquodefesa eficientersquo eacute igual a lsquodefender eficientementersquo e lsquofeira de domingorsquo eacute igual a lsquofeira dominicalrsquo Alguns autores como Baeza-Yates e Ribeiro-Neto (1999) utilizam a palavra lsquoiacutendicersquo ao inveacutes de descritores contudo Gonzalez ressalta que esta palavra refere-se apenas aos lsquotermosrsquo natildeo dando conta da semacircntica que envolve os lsquorelacionamentosrsquo
47
5 Relacionamento-Termo (RT) conjunto de relacionamentos sintaacuteticos e seus
componentes ldquoOs Sintagmas Nominais constituem os principais descritores neste
casordquo (GONZALEZ 2005 p41)
O modelo TR+ proposto por este autor combina aspectos dos modelos TR e RT
A Figura 18 daacute uma visatildeo geral do modelo TR+ de Gonzalez (2005) na fase de
indexaccedilatildeo com suas etapas essenciais e na fase de busca para a classificaccedilatildeo por relevacircncia
dos documentos em relaccedilatildeo agrave consulta
g
f
e
da a
b b
c
Figura 18 Visatildeo Geral do modelo TR+ Fonte Gonzalez 2005
O espaccedilo de descritores do modelo TR+ construiacutedo na fase de indexaccedilatildeo eacute com
de quatro processos principais
a) Preacute-processamento (toquenizaccedilatildeo e etiquetagem)
b) Nominalizaccedilatildeo
c) Captura de RLBs
d) Termos e RLBs
Na etapa ldquoardquo de preacute-processamento ocorrem duas accedilotildees fundamentais Toquen
e Etiquetagem A toquenizaccedilatildeo eacute a identificaccedilatildeo de cada item lexical (palavra e pontu
Na etiquetagem existe um etiquetador gramatical (part-of-speech tagger - parser
identifica atraveacutes de uma etiqueta (tag) a categoria gramatical de cada palavra do
(adjetivo substantivo verbo entre outras) Geralmente eacute morfoloacutegico (identifica som
c
posto
izaccedilatildeo
accedilatildeo)
) que
texto
ente a
48
categoria morfoloacutegica) ou morfossintaacutetico (identifica tambeacutem as funccedilotildees sintaacuteticas) Estes
processos satildeo realizados de forma automatizada21
Antes da nominalizaccedilatildeo eacute realizada a geraccedilatildeo de espaccedilo dos descritores que se
constitui na seleccedilatildeo e normalizaccedilatildeo dos descritores e ainda a contagem de frequumlecircncia de
ocorrecircncia dos descritores - termos (para o caacutelculo de seus pesos) que seraacute usada na etapa
ldquodrdquo
Faz parte do processo de seleccedilatildeo de descritores a eliminaccedilatildeo de stopwords22 que
podem ser descartadas na fase de indexaccedilatildeo e na consulta Essa exclusatildeo justifica-se segundo
o autor porque as stopwords satildeo consideradas palavras com pouca representatividade A
seleccedilatildeo dos descritores a quantidade dos mesmos e o peso de cada um podem ser afetados
pela normalizaccedilatildeo linguumliacutestica
A normalizaccedilatildeo segundo Gonzalez (2005) apresenta trecircs tipos conhecidos como
bull Sintaacutetica - que transforma frases semanticamente equivalentes mas
sintaticamente diferentes (ldquoeficiente processo raacutepidordquo e ldquoprocesso raacutepido
eficienterdquo)
bull Leacutexico-semacircntico ndash que utiliza relacionamentos semacircnticos (como a sinoniacutemia)
para substituir palavras morfologicamente distintas por uma uacutenica forma que
representa o conceito evidenciado
bull Morfoloacutegica ndash reduz as formas flexionais de uma palavra por meio da
conflaccedilatildeo23
No modelo TR+ foi utilizada a normalizaccedilatildeo lexical para o processo de
nominalizaccedilatildeo Este processo de nominalizaccedilatildeo constitui a etapa ldquobrdquo e significa a
transformaccedilatildeo de uma palavra (adveacuterbio adjetivo ou verbo) existente no texto em um
substantivo semanticamente equivalente constituiacutedo com regras vaacutelidas de formaccedilatildeo de
palavras (GONZALEZ 2005)
A tabela abaixo mostra exemplos de termos nominalizados Nesta etapa de
nominalizaccedilatildeo eacute utilizada a ferramenta CHAMA24
21 A ferramenta FORMA (Toquenizaccedilatildeo e Etiquetagem Morfoloacutegica) foi utilizada por Gonzalez O autor cita o nome desta ferramenta no seu site httpwwwinfpucrsbr~gonzaleztr+ Acesso em 14 de fevereiro de 2006 22 Stopwords satildeo palavras como preposiccedilotildees artigos e conjunccedilotildees 23 Conflaccedilatildeo satildeo processos realizados por algoritmos que combinam a representaccedilatildeo de duas ou mais palavras em um uacutenico termo Haacute dois meacutetodos mais comuns stemming que reduz a palavra para a parte fundamental semelhante ao radical e lematizaccedilatildeo que reduz a palavra variaacutevel agrave correspondente forma ldquocanocircnicardquo 24 A ferramenta CHAMA (nominalizaccedilatildeo de adjetivos verbos e adveacuterbios) foi desenvolvida por Marco Antonio Insaurriaga Gonzalez (doutor em Ciecircncia da Computaccedilatildeo pela UFRGS) Em sua tese de doutorado intitulada ldquoTermos e Relacionamentos em Evidecircncia na Recuperaccedilatildeo de Informaccedilatildeordquo 2005
49
Tabela 1 Exemplos de nominalizaccedilatildeo Fonte Gonzalez 2005
Devido agraves diferentes variaccedilotildees que a nossa Liacutengua Portuguesa apresenta este autor
trabalha em seu modelo com palavras sem acentuaccedilatildeo e em letras minuacutesculas ocorrendo um
comprometimento do significado das palavras como por exemplo eacute citado por ele puacuteblica e
publica
A etapa ldquocrdquo de captura de Relaccedilotildees Lexicais Binaacuterias (RLBs) eacute segundo Gonzalez
(2005) o relacionamento entre termos nominalizados ou seja sintaticamente diferentes mas
semanticamente iguais25 Uma RLB pode ser classificada tambeacutem quanto agrave nominalizaccedilatildeo de
seus componentes Este autor sistematiza e classifica esta questatildeo conforme aparece em seus
exemplos abaixo (2005 p 47)
bull Original onde o termo natildeo recebeu o processo de nominalizaccedilatildeo
bull Derivada onde um dos termos pelo menos resulta do processo de
nominalizaccedilatildeo
Uma RLB de acordo com Gonzalez (2005) apresenta a seguinte aparecircncia
25 Gonzalez desenvolveu o software RELLEX para o reconhecimento de relaccedilotildees lexicais binaacuterias em sua tese de doutorado 2005
50
id (t1t2) onde
id significa o identificador de relaccedilatildeo e
t1 e t2 satildeo os termos nominalizados
Este autor aponta os trecircs tipos de RLBs quanto ao identificador id
bull Classificaccedilatildeo onde id eacute especificado com um sinal de igual (=) t1 representa
uma subclasse ou uma instacircncia de t2 e t2 representa uma classe
Exemplos =(caoanimal)
=(PET garrafa) Exemplo desenvolvido nesta dissertaccedilatildeo
bull Restriccedilatildeo onde id eacute uma preposiccedilatildeo t1 representa um elemento modificado e t2
representa um elemento modificador
Exemplos de(equipeatletismo)
com(supervisorexperiencia)
por(orientacaoministro)
bull Associaccedilatildeo onde id representa um evento t1 eacute um sujeito e t2 eacute um objeto
(direto ou indireto) ou um adjunto
Exemplos superacao(alunodificuldade)
interessea(propostanegociante)
moradiaem(presidentebrasilia)
As Relaccedilotildees Lexicais Binaacuterias conforme Gonzalez (2005) satildeo inseridas no espaccedilo
de descritores para ampliar o seu universo As RLBs descrevem relaccedilotildees semacircnticas lexicais
como as que satildeo apresentadas na estrutura de Qualia da teoria do Leacutexico Gerativo de
Pustejovsky (GONZALEZ 2000 PUSTEJOVSKY 1991) O estudo desta teoria motivou o
Gonzalez a desenvolver a proposta das RLBs como parte integrante de seu trabalho como um
modo de adequaacute-la a aplicaccedilotildees na aacuterea de RI
Como jaacute foi descrita na seccedilatildeo 32 a Estrutura de Qualia da teoria do Leacutexico
Gerativo descreve um item lexical atraveacutes de quatro papeacuteis formal constitutivo agentivo e
teacutelico O papel formal distingue um item lexical em um domiacutenio maior Em uma RLB
segundo Gonzalez (2005) do tipo classificaccedilatildeo como ldquo=(computadormaquina)rdquo por
exemplo o computador seria distinguido como uma maacutequina ou em ldquo=(ipmftributo)rdquo o ipmf
seria um tributo Portanto a RLB do tipo classificaccedilatildeo corresponde ao papel formal da
estrutura de Qualia
51
O papel constitutivo estabelece a relaccedilatildeo entre um item lexical X e suas partes
constituintes Em uma RLB do tipo restriccedilatildeo como ldquode(mesamadeira)rdquo por exemplo haveria
a indicaccedilatildeo de que a mesa eacute feita de madeira ou em ldquocom(massaalho)rdquo de que haacute alho na
massa O papel agentivo especifica os fatores envolvidos na origem ou causa de um item
lexical Em uma RLB para este autor do tipo restriccedilatildeo como ldquopor(publicacaoautor)rdquo por
exemplo seria especificado que a publicaccedilatildeo se deve ao autor ou em ldquopor(impedimentolei)rdquo
que a lei eacute a razatildeo do impedimento
O papel teacutelico explica qual a funccedilatildeo ou finalidade do item lexical Em uma RLB do
tipo associaccedilatildeo como ldquoconserto(encanadorvazamento)rdquo por exemplo explica que a funccedilatildeo
do encanador eacute o conserto do vazamento ou em uma RLB do tipo restriccedilatildeo como
ldquopara(leituraaprendizado)rdquo que a finalidade da leitura eacute o aprendizado (GONZALEZ 2005)
Este autor salienta que natildeo se quer que as RLBs ldquointerpretemrdquo o texto com
distinccedilotildees indicaccedilotildees especificaccedilotildees ou explicaccedilotildees dos tipos apresentados O propoacutesito eacute de
que as RLBs sejam descritores de tais fatos mas sem classificaccedilatildeo (etiquetas) Por isto os
identificadores de relaccedilatildeo natildeo satildeo rotulados com os papeacuteis descritos A uacutenica exceccedilatildeo eacute o
identificador das RLBs do tipo classificaccedilatildeo O indicador ldquo=rdquo eacute o roacutetulo inevitaacutevel para o
claacutessico ldquoeacute umrdquo porque natildeo haacute outro papel possiacutevel nesse tipo de relaccedilatildeo
No modelo TR+ estaacute envolvido aleacutem da coleccedilatildeo de documentos constituiacuteda por
descritores (termos e relacionamentos) tambeacutem os seus respectivos pesos que dependem de
uma formulaccedilatildeo matemaacutetica denominada de lsquocaacutelculo de representatividadersquo dos descritores
em cada documento que eacute um diferencial deste modelo e estaacute na fase ldquodrdquo onde os termos e
RLBs seratildeo armazenados
Para ocorrer o caacutelculo do peso dos descritores eacute aplicado o conceito de evidecircncia26
Este conceito natildeo depende apenas da frequumlecircncia de ocorrecircncia de um descritor mas de um
outro mecanismo ldquoa representatividade de um descritor depende aleacutem de sua frequumlecircncia de
ocorrecircncia no texto da ocorrecircncia de mecanismos de coesatildeo fraacutesicardquo (GONZALEZ 2005
p48) A coesatildeo fraacutesica determina uma junccedilatildeo significativa entre os componentes de uma
frase27 Esta junccedilatildeo aliada com a frequumlecircncia de ocorrecircncia constitui o conceito de evidecircncia
como um dos aspectos essenciais da Tese de Gonzalez (2005)
A evidecircncia dos termos eacute realizada de forma direta com a frequumlecircncia e a coesatildeo
fraacutesica mas a evidecircncia de um relacionamento natildeo pois esta eacute dependente primeiramente das
26 Evidecircncia significa qualidade daquilo que eacute evidente que eacute incontestaacutevel que todos vecircem ou podem ver e verificar (Dicionaacuterio Eletrocircnico Michaelis) Como descreve Gonzalez (2005) ldquoeacute aquilo natildeo oferece ou natildeo daacute margem agrave duacutevidardquo 27 Site httpacdufrjbr~peadtema09coesaogramaticalhtml
52
evidecircncias de seus termos Este conceito estaacute inserido no caacutelculo de representatividade de um
descritor
O caacutelculo da representatividade eacute um caacutelculo de relevacircncia do termo ou
relacionamento que varia de acordo com as abordagens (booleana vetorial e probabiliacutestica) e
pode ser realizado apenas com a frequumlecircncia da palavra no documento ou ainda com a
frequumlecircncia vinculada com a sua informaccedilatildeo morfoloacutegica ou sintaacutetica (GONZALEZ 2005)
Para realizar o caacutelculo da representatividade dos descritores haacute duas estrateacutegias de
determinaccedilatildeo que satildeo os modelos com unigramas que tratam os termos de forma
independente (abordagens vetorial e probabiliacutestica) e os modelos com dependecircncia entre
termos Estas dependecircncias envolvem conjuntos diferentes de conhecimentos que satildeo os
estatiacutesticos e os linguumliacutesticos28 Os conhecimentos linguumliacutesticos satildeo ldquoleacutexico morfoloacutegico
fonoloacutegico sintaacutetico semacircntico e pragmaacuteticordquo (ABRAHAtildeO 1997 p11)
Estes dois modelos descritos acima satildeo apresentados como mais significativos
poreacutem ainda utilizam a abordagem booleana Isto porque Gonzalez (2005) define como o
caminho mais promissor a combinaccedilatildeo da abordagem booleana (individualmente limitadora)
com a uniatildeo dos conhecimentos estatiacutesticos e linguumliacutesticos entre si que permitem mais
interaccedilatildeo com o usuaacuterio
O caacutelculo da representatividade ao mesmo tempo que eacute uma propriedade baacutesica de
um descritor apresenta diferentes formas de acordo com as abordagens vetorial e
probabiliacutestica (capiacutetulo 2) e gera diversas interpretaccedilotildees Por isto Gonzalez (2005) propotildee um
novo caacutelculo que compreenda a importacircncia do contexto nas foacutermulas inseridas no seu modelo
TR+
O outro momento de seu modelo (Figura 18) compreende a lsquofase de buscarsquo que inclui
Preacute-Processamento (toquenizaccedilatildeo e etiquetagem) Nominalizaccedilatildeo e Captura de RLBs Estas
etapas ocorrem da mesma maneira que na fase de indexaccedilatildeo Inclui tambeacutem as etapas
Formulaccedilatildeo de consulta booleana Busca e Classificaccedilatildeo
Na etapa ldquoerdquo (Formulaccedilatildeo de Consulta Booleana) Gonzalez (2005) explica que se a
consulta q em linguagem natural formulada pelo usuaacuterio for por exemplo ldquopintura
restauradardquo entatildeo seraacute formulada no formato Booleano conforme o modelo TR+ a seguinte
consulta qb
28 Estes conhecimentos envolvem niacuteveis leacutexico-morfoloacutegico e sintaacutetico sintagmas nominais (sujeito objeto direto e indireto e adjunto adnominal) A vantagem destes eacute a capacidade de identificar relacionamentos entre palavras natildeo adjacentes como ldquoalgoritmosrdquo e ldquoconcorrentesrdquo em ldquoalgoritmos sequumlenciais e concorrentesrdquo
53
r1 OU r2 OU ( (n1 (p1) OU n2(p1) ) E (n1 (p2) OU n2(p2) ) ) onde
r1 = de(restauracaopintura)
r2 = r1rsquo = diferente_de(restauracaopintura)
n1(p1) = (elemento vazio)
n2(p1) = pintura
n1(p2) = restauracao
n2(p2) = restaurador
p1 = pintura e
p2 = restaurada
Tabela 2 Exemplo de uma consulta qb Fonte Gonzalez 2005 p 51
Na fase de busca a etapa ldquofrdquo ocorre uma relaccedilatildeo entre a etapa ldquoerdquo e a etapa ldquodrdquo Esta
uacuteltima acontece ainda na fase de indexaccedilatildeo visto que ldquoestando os termos e as RLBs definidas
e calculados os pesos a classificaccedilatildeo dos documentos depende do valor de relevacircncia dos
mesmos e da formulaccedilatildeo Booleana da consultardquo (GONZALEZ 2005 p 50)
A etapa ldquogrdquo (Classificaccedilatildeo) eacute resultado de um caacutelculo sobre os dados obtidos no
procedimento anterior que identifica o valor de relevacircncia de cada documento recuperado-os
em ordem decrescente Um exemplo de classificaccedilatildeo eacute indicado por Gonzalez (2005) atraveacutes
da foacutermula de uma consulta denominada q Nesta consulta encontram-se os termos t1 e t2 e a
RLB r e se estes dois termos estatildeo relacionados atraveacutes de r em um documento d estes teratildeo
dupla contribuiccedilatildeo no caacutelculo do valor de relevacircncia de d poreacutem se t1 e t2 ocorrem em d mas
natildeo estatildeo relacionados atraveacutes de r o autor considera que esta contribuiccedilatildeo seraacute simples e
assim d tende a perder posiccedilotildees na classificaccedilatildeo por relevacircncia a q
Os documentos recuperados classificam-se em dois grupos (a) grupo superior de maior relevacircncia documentos que atendem agraves condiccedilotildees estabelecidas na consulta Booleana ou seja possuem pelo menos uma das RLBs da consulta ou na falta de todas elas possuem obrigatoriamente todos os termos conforme especificado (b) grupo inferior de menor relevacircncia documentos que natildeo atendem a todas as condiccedilotildees estabelecidas na consulta Booleana mas possuem pelo menos um dos termos da consulta Os documentos satildeo classificados em ordem decrescente do valor de relevacircncia tanto nos grupos superior como inferior (GONZALEZ 2005 p 51)
Eacute importante ressaltar que toda a proposta de Gonzalez (Modelo TR+) foi
automatizada testada e aprovada Foi utilizado o software FORMA para a etapa de preacute-
processamento e os demais softwares como CHAMA (nominalizaccedilatildeo) e RELLEX (regras de
54
identificaccedilatildeo de RLBs) foram desenvolvidos pelo autor Diversos algoritmos juntamente com
abordagens de RI (booleana probabiliacutestica e vetorial) foram desenvolvidos para as fases
posteriores do seu trabalho como o caacutelculo do peso dos descritores a busca e a classificaccedilatildeo
de documentos
As experimentaccedilotildees desenvolvidas por Gonzalez (2005) em seu trabalho lograram
comprovar que o processo de nominalizaccedilatildeo como processo de normalizaccedilatildeo lexical
proporciona melhores resultados de recuperaccedilatildeo que os produzidos pelos processos
tradicionais (lematizaccedilatildeo e stemming) a identificaccedilatildeo de RLBs (obtenccedilatildeo de informaccedilatildeo
linguumliacutestica) contribui de forma positiva para a descriccedilatildeo de dependecircncias de termos
ampliando o espaccedilo de descritores o caacutelculo da representatividade dos descritores baseado em
evidecircncia melhora a classificaccedilatildeo de relevacircncia dos documentos com vantagem sobre o
caacutelculo baseado em frequumlecircncia de ocorrecircncia o uso de consultas com operadores Booleanos
trata-se de uma forma eficaz de complementar a especificaccedilatildeo de dependecircncias de termos e
tambeacutem a inclusatildeo de conhecimento linguumliacutestico como a realizada no modelo proposto pelo
autor apresenta relaccedilatildeo custobenefiacutecio viaacutevel dentro do atual estaacutegio de desenvolvimento da
pesquisa em RI
O proacuteximo capiacutetulo descreve o novo modelo proposto para esta dissertaccedilatildeo baseado
na identificaccedilatildeo das possibilidades de ampliaccedilatildeo de siacutentese e de sistematizaccedilatildeo do modelo de
Kuramoto com a estrutura de Gonzalez Pode ser considerada uma soluccedilatildeo hiacutebrida de um
modelo de RI que une trecircs teorias Sintagmas Nominais de Kuramoto Leacutexico Gerativo de
Pustejovsky e Modelo TR+ de Gonzalez Apresentar-se-aacute os paracircmetros gerais norteadores e
justificadores do modelo a descriccedilatildeo narrativa da sua funcionalidade os resultados dos testes
e a descriccedilatildeo formal UML do modelo
55
4 APRESENTACcedilAtildeO E DISCUSSAtildeO DO MODELO PROPOSTO
A proposta desta dissertaccedilatildeo eacute de integrar a aplicaccedilatildeo praacutetica do projeto dos
Sintagmas Nominais de Kuramoto sistematizando e associando com o modelo TR+ de
Gonzalez (2005)
Na descriccedilatildeo do modelo do sistema proposto foi utilizado o meacutetodo denominado de
Processo Unificado (UP) que envolve as fases de concepccedilatildeo elaboraccedilatildeo construccedilatildeo e
transiccedilatildeo e utilizou-se a Linguagem de Modelagem Unificada (UML) que eacute fortemente
relacionada com a metodologia utilizada segundo Wazlawick (2004)
Neste capiacutetulo desenvolve-se o modelo conceitual da aplicaccedilatildeo proposta para a qual
foram realizadas as etapas de levantamento e anaacutelise de requisitos representada pelo
diagrama e pela descriccedilatildeo dos casos de uso e de construccedilatildeo dos diagramas de classes e de
sequumlecircncia relacionados
41 Procedimentos desenvolvidos utilizando o modelo de SN de Kuramoto e a proposta
Gonzalez - ldquoEstrutura SINTR+rdquo
Esta dissertaccedilatildeo optou por realizar uma relaccedilatildeo entre propostas diferenciadas utilizar
o modelo de SN de Kuramoto para a organizaccedilatildeo dos conceitos mais significativos dos
documentos e a proposta de Gonzalez para a busca dessas informaccedilotildees que estaratildeo
estruturadas atraveacutes da dependecircncia entre termos Esta relaccedilatildeo foi desenvolvida na criaccedilatildeo da
ldquoEstrutura SINTR+rdquo que tem como especificidade a busca nos documentos a partir do banco
de dados dos Sintagmas Nominais Esta escolha de unir em uma estrutura proacutepria os SN e o
Modelo TR+ pautou-se pelo intuito de orientar mais objetivamente o usuaacuterio na definiccedilatildeo da
sua query de busca atraveacutes de uma navegaccedilatildeo sobre a estrutura de SN presentes no
documento e de posterior apresentaccedilatildeo de lista de documentos efetivamente relevantes
O objetivo eacute trabalhar com os Sintagmas Nominais evidenciando e potencializando
uma uniatildeo com o modelo TR+ de Gonzalez (2005) O modelo abaixo (Figura 19) apresenta
uma nova proposta pautada na junccedilatildeo sistematizada e analiacutetica da extraccedilatildeo dos SN na
Estrutura de Kuramoto (1999) com o Modelo TR+ de Gonzalez (2005) ldquoEstrutura SINTR+rdquo
56
Documentos
Extraccedilatildeo de SN
Preacute-processamento
Nominalizaccedilatildeo
4
Captura de RLBs
Referecircncia aos
documentos classificados
Classificaccedilatildeo
Lista de SN de Niacutevel Requerido
Lista dos demais Preacute-
3
2
85
3
2
1
Consulta em
LN
7
6
(Fase d
O mo
extraccedilatildeo de tod
o preacute-processam
de acontecer co
de forma mais
foco de anaacutelise
subsequumlentes
Antes
descritores con
frequumlecircncia de o
Etapa 5
Em se
mudanccedila de um
concreto eou a
Te
R
e indexaccedilatildeo)
Figura
delo propost
os os seus Si
ento onde o
m todas as p
objetiva e raacute
somente so
do processo d
stituiacuteda na s
correcircncia dos
guida ocorre
a palavra (ad
bstrato Na E
rmos e
LBs
Busca
Formulaccedilatildeo de consulta Booleana
11
(Fase
19 Visatildeo Geral do Modelo Proposto ldquoEstr
o se inicia a partir dos document
ntagmas Nominais (Etapa 1) Extra
correm a Toquenizaccedilatildeo e a Etiquet
alavras do documento como ocorr
pida apenas diretamente sobre os
bre os termos inclusos nos SN pe
e nominalizaccedilatildeo na Etapa 3 eacute exec
eleccedilatildeo e normalizaccedilatildeo dos descrit
descritores - termos (para o caacutelculo
o processo de nominalizaccedilatildeo que c
veacuterbio adjetivo ou verbo) existen
tapa 4 ocorre a identificaccedilatildeo das
niacuteveis de SN processamento
Nomin
Captura
9
de busca)
utura SINTR+rdquo
os a serem inse
iacutedos os SN na E
agem que Essa e
e no modelo TR
termos constant
rmanece para to
utada a geraccedilatildeo
ores e ainda na
de seus pesos)
onstitui a Etapa
te nos SN em u
RLBs nos SN q
alizaccedilatildeo
de RLBs 0
ridos com a
tapa 2 eacute feito
tapa ao inveacutes
+ eacute realizada
es nos SN O
das as etapas
de espaccedilo dos
contagem da
a ser usada na
3 e significa a
m substantivo
ue significa o
1
1
1
57
relacionamento entre termos nominalizados Estas etapas acima satildeo constituiacutedas para a
geraccedilatildeo do espaccedilo de descritores (termos e RLBs) referentes agrave Etapa 5
Na lsquofase de buscarsquo primeiramente o usuaacuterio digita uma palavra por exemplo
ldquoplaacutesticosrdquo A resposta para o usuaacuterio ocorreraacute pois internamente foi feita uma programaccedilatildeo
(a ser implementada) para identificar o niacutevel do SN solicitado pelo usuaacuterio para que
posteriormente apareccedila para este a lista de todos os SN do niacutevel apresentado contendo a query
solicitada
No caso do exemplo ldquoplaacutesticosrdquo o processo avanccedila na Etapa 6 listando todos os
sintagmas nominais de primeiro niacutevel (SN1) dos documentos (uma vez que a solicitaccedilatildeo
referia-se ao niacutevel 1) Nesta etapa o usuaacuterio poderaacute escolher um dos sintagmas de primeiro
niacutevel ou confirmar a sua escolha (query) inicial O processo continua com a escolha de uma
dentre as opccedilotildees de i) ver a lista de documentos relacionados ao SN1 definido ou ii) solicitar
a relaccedilatildeo de sintagmas de seu segundo niacutevel A visualizaccedilatildeo da lista de sintagmas de niacutevel
superior permitiria ao usuaacuterio filtrar mais a sua consulta Para a determinaccedilatildeo da lista de SN
de segundo niacutevel como por exemplo ldquoa reciclagem de plaacutesticosrdquo ldquoa induacutestria de plaacutesticosrdquo
(Figura 20) tambeacutem foi feita uma programaccedilatildeo especiacutefica que seraacute descrita posteriormente
Na continuidade do processo o usuaacuterio pode prosseguir o refinamento da sua busca
atraveacutes da seleccedilatildeo de SN de maior niacutevel ou pode dar-se por satisfeito com o resultado (Etapa
7) solicitando diretamente a lista dos documentos associados ao SN definidos Nesse caso a
lista eacute apresentada na ordem de classificaccedilatildeo oportunizada pela Estrutura TR+ conforme o
descrito nas proacuteximas etapas
O processamento proposto para a determinaccedilatildeo da relaccedilatildeo dos sintagmas de um
determinado niacutevel foi pensado com vista a gerar economia de espaccedilo de memoacuteria utilizada
uma vez que seratildeo armazenados na base de dados os documentos e seus SN de uacuteltimos niacuteveis
e manipulados apenas os uacuteltimos niacuteveis da estrutura de SN Os niacuteveis anteriores relativos ao
SN seratildeo determinados na programaccedilatildeo desenvolvida a partir da identificaccedilatildeo do nuacutemero de
preposiccedilotildees que o SN apresenta Nesta programaccedilatildeo se houver apenas um termo (ou mesmo
apenas um termo composto) o SN eacute considerado um SN de 1ordm niacutevel A presenccedila de um termo
composto com mais uma preposiccedilatildeo indica a existecircncia de um SN de 2ordm niacutevel Jaacute trecircs termos
com duas preposiccedilotildees vatildeo indicar a presenccedila de um SN de 3ordm niacutevel e finalizando quatro ou
mais termos com 3 (ou mais) preposiccedilotildees remetem ao SN de 4ordm niacutevel
Ao optar pela apresentaccedilatildeo da lista de documentos seratildeo desenvolvidas
(internamente) na programaccedilatildeo conforme o proposto pela Estrutura TR+ de Gonzalez as
etapas de Preacute-processamento (toquenizaccedilatildeo e etiquetagem ndash Etapa 8) Nominalizaccedilatildeo (Etapa
58
9) Captura de RLBs (Etapa 10) Formulaccedilatildeo de consulta Booleana (Etapa 11) Busca (Etapa
12) e por fim Classificaccedilatildeo (Etapa 13)
Na Etapa 11 eacute trabalhado no formato Booleano uma consulta formulada pelo usuaacuterio
conforme o modelo TR+ A Etapa 12 ocorre uma relaccedilatildeo entre a Etapa 11 e a Etapa 5 (esta
etapa ocorre ainda na fase de indexaccedilatildeo) A Etapa 13 eacute a uacuteltima e resulta do caacutelculo que
identifica o valor de relevacircncia de cada documento recuperando-os em ordem decrescente
Eacute importante reforccedilar que o sistema iraacute verificar o preacute-processamento nominalizaccedilatildeo
e a captura de RLBs jaacute realizadas na fase de indexaccedilatildeo comparando-as Apoacutes esta
identificaccedilatildeo o sistema usa a formulaccedilatildeo de consulta Booleana para a busca chegando agrave
classificaccedilatildeo dos documentos de acordo com o peso dos descritores (termos e RLBs)
formulados na fase de indexaccedilatildeo e definidos na fase de busca (de acordo com o termo
escolhido e a coleccedilatildeo dos documentos)
Exemplificando o paraacutegrafo acima a Figura 20 mostra o funcionamento inicial desta
estrutura no que se refere aos Sintagmas Nominais
Pesquisa
Usuaacuterio escolha uma opccedilatildeo (Sintagma Nominal) que mais se identifique com a sua consulta Logo em seguida escolha se deseja ir para o Proacuteximo Niacutevel de Sintagma Nominal ou Estrutura TR+
Buscar (SN) Plaacutesticos
SN1 Os plaacutesticos
Proacuteximo niacutevel SN Estrutura TR+
SN2 A reciclagem de plaacutesticos A separaccedilatildeo de plaacutesticos A induacutestria de plaacutesticos
Proacuteximo niacutevel SN Estrutura TR+
SN3 A induacutestria de reciclagem de plaacutesticos
Estrutura TR+ Proacuteximo niacutevel SN
SN4 -----
Estrutura TR+
Figura 20 Descriccedilatildeo inicial do modelo proposto
59
Buscando analisar as vantagens que a proposta do modelo SINTR+ apresenta vale
lembrar que o modelo TR+ de Gonzalez jaacute apresenta benefiacutecios como
bull O processo de nominalizaccedilatildeo propicia melhores resultados de recuperaccedilatildeo do que
os produzidos pelos processos tradicionais (lematizaccedilatildeo e stemming)
bull A identificaccedilatildeo de RLBs colabora para a descriccedilatildeo de dependecircncia de termos que
ampliam o espaccedilo de descritores
bull O caacutelculo da representatividade dos descritores baseado em evidecircncia melhora a
classificaccedilatildeo da relevacircncia de documentos em relaccedilatildeo agravequela obtida atraveacutes da
extraccedilatildeo e do caacutelculo por frequumlecircncia de ocorrecircncia
bull O uso de consultas com operadores Booleanos oferece uma forma eficaz de
complementar a especificaccedilatildeo de co-dependecircncia semacircntica entre termos
As vantagens antevistas na elaboraccedilatildeo da proposta SINTR+ expandem as jaacute obtidas
pelo modelo de Gonzalez29 pois une a elas a vantagem do modelo de hierarquia de niacuteveis de
SN de Kuramoto Estas vantagens satildeo a ldquoEstrutura SINTR+rdquo executa em um menor tempo na
fase de indexaccedilatildeo dos documentos a ldquoEstrutura SINTR+rdquo conteacutem um tamanho menor de
arquivos de iacutendice e a ldquoEstrutura SINTR+rdquo proporciona facilidade na fase de nominalizaccedilatildeo
visto que os SN satildeo o nuacutecleo de maior significaccedilatildeo de um texto30
Os documentos (textos) usados como campo empiacuterico desta dissertaccedilatildeo foram artigos
retirados da Internet sobre o tema ldquoLixordquo Neste contexto fazem parte da coleccedilatildeo de
documentos temas como ldquoCuidados com o Lixordquo ldquoLixo Industrialrdquo ldquoO destino do lixo
quiacutemicordquo entre outros Como ainda natildeo havia disponiacuteveis extratores automaacuteticos de SN por
hierarquia em niacuteveis foi feita uma leitura dos textos dos quais se retirou manualmente seus
sintagmas Os SN significativos com o tema ldquoLixordquo foram extraiacutedos de dois (2) documentos
(que estatildeo nos ANEXOS A e B) e satildeo apresentados no Anexo C
Apoacutes esta etapa foram extraiacutedos todos os sintagmas nominais (somente do
documento1 - ANEXO A) que estatildeo sublinhados no texto independentes do tema para
exemplificar a extraccedilatildeo da consulta
Para avaliar preliminarmente a extensatildeo com que as vantagens antevistas no modelo
proposto realmente se verificariam foi realizado um teste com o documento1 (ANEXO A)
composto de 9 paraacutegrafos e 1006 palavras (Figura 21)
29 Este modelo foi testado e aprovado na sua proposta de doutorado que estaacute inserida no contexto do grupo de pesquisa da PUCRS no qual o autor participa de estudos na aacuterea haacute mais de uma deacutecada 30 Isto pode ser observado do Anexo A (Documento1) em que os SN satildeo destacados no texto
60
Figura 21 Nuacutemero de palavras do Documento1
O documento1 (ANEXO A) foi o escolhido para dimensionar a reduccedilatildeo no total de
palavrastermos a serem incluiacutedos na base de dados demonstrando a importacircncia do modelo
apresentado conforme tabela abaixo
Categorias Texto Total SNs Total de palavrastermos 1006 640
Substantivos 369 334 Adveacuterbios 41 04
Verbos 133 Ausecircncia de verbos Adjetivos 73 55
Figura 22 Tabela comparativa Texto Total e SNs
O texto possui um total de 1006 palavrastermos sendo destes 369 substantivos 41
adveacuterbios 133 verbos e 73 adjetivos (Figura 22) Do texto todo foi extraiacutedo um total de 139
sintagmas nominais E destes o nuacutemero total de palavrastermos eacute de 640 sendo 334
substantivos 04 adveacuterbios e 55 adjetivos
61
Documento1 - Cresce a induacutestria de reciclagem de plaacutesticos
369
41
133
7355
nordm de substantivos
nordm de adveacuterbios
nordm de verbos
nordm de adjetivos
nordm de adjetivosinseridos nos SN
Figura 22 Nuacutemero de substantivos adveacuterbios verbos e adjetivos do Documento1
Relacionando o nuacutemero de adjetivos do texto todo e os adjetivos inseridos nos SN
pode-se notar um ganho expressivo pois se tem uma reduccedilatildeo de 18 adjetivos Destes dados
133 verbos foram descartados (novamente afirma-se da importacircncia dos SN que representam a
unidade significativa do texto) Tambeacutem se observa que 37 adveacuterbios natildeo foram incluiacutedos
diminuindo assim o nuacutemero de descritores
Estes dados apontam aspectos positivos que consolidam a importacircncia da utilizaccedilatildeo
dos SN na diminuiccedilatildeo de descritores com consequumlente reduccedilatildeo do uso de memoacuteria e ainda
melhora na fase de busca pelo tempo de resposta
A Figura 23 apresenta o comparativo entre o percentual do nuacutemero de palavras do
texto com o percentual do nuacutemero de palavras dos Sintagmas Nominais Isto mostra que o
percentual de SN de 64 tem um valor reduzido colaborando para um nuacutemero menor de
descritores desta forma restringe-se tambeacutem o uso de memoacuteria (neste caso ocupado na fase
de indexaccedilatildeo) reduzem-se os descritores e diminui-se o tempo de resposta na fase de busca
Estes dados natildeo satildeo somente relevantes frente a um modelo de RI mas corroboram para a
manutenccedilatildeo do seu funcionamento
62
Dados Comparativos - Nordm de palavras restantes e dos SNs
64
36 Nordm de palavras dossintagmas nominaisNordm de palavras restantes
100 - nordm total de palavras
Figura 23 Nuacutemero de palavras restantes x Sintagmas Nominais
A Figura 24 mostra que existe um percentual de 28 de adjetivos inseridos nos
Sintagmas Nominais Esses adjetivos durante o processo de nominalizaccedilatildeo conforme
Gonzalez (2005) satildeo transformados em substantivos concretos eou abstratos (se houver) Isto
aponta um nuacutemero bem inferior comparado a um texto inteiro o que promove uma diminuiccedilatildeo
de substituiccedilotildees de um adjetivo por um substantivo concreto eou abstrato que pode inferir
no significado do documento e a reduccedilatildeo destas substituiccedilotildees evita possiacuteveis erros de
interpretaccedilatildeo
Dados Comparativos - Sintagmas Nominais e adjetivos
72
28nordm de sintagmas nominais
nordm de adjetivos inseridosnos SN
Figura 24 Sintagmas Nominais e adjetivos inseridos nos SN
A extraccedilatildeo dos Sintagmas Nominais corresponde agrave primeira etapa Depois desta
extraccedilatildeo manual se agrupou os SN em quatro niacuteveis 1 2 3 e 4 (ANEXO C)
Para o desenvolvimento das demais etapas (toquenizaccedilatildeo etiquetagem morfoloacutegica
nominalizaccedilatildeo e as relaccedilotildees lexicais binaacuterias) foi escolhido o paraacutegrafo 6 do documento1
(ANEXO A)
63
A induacutestria da reciclagem do plaacutestico no Brasil tem crescido bastante em funccedilatildeo do reaproveitamento do PET que eacute usado no segmento de monofilamentos em artigos como vassouras e na induacutestria tecircxtil Conforme Ana Flores a reciclagem gera 250 mil empregos no Paiacutes dos quais 70 satildeo informais Poreacutem a maior parte do potencial de mercado ainda estaacute sendo desperdiccedilada avalia ldquoCerca de 15 do total de plaacutestico que eacute industrializado no Paiacutes eacute reciclado Em dez anos poderiacuteamos chegar a 60 como nos Estados Unidos desde que fosse implementado um conjunto de medidas incentivando essa praacuteticardquo assegura
Tabela 3 Paraacutegrafo 6 do documento1
Na etapa de toquenizaccedilatildeo e etiquetagem satildeo identificadas classes de palavras como
substantivos adjetivos adveacuterbios preposiccedilotildees artigos conjunccedilotildees e inclusive ponto No
Anexo D eacute possiacutevel visualizar essas informaccedilotildees em duas ferramentas de extraccedilatildeo
disponiacuteveis nos sites do Projeto de Linguumliacutestica Computacional Hermes da Fundaccedilatildeo
Universidade Federal do Rio Grande (FURGBrasil) e do Programa de LAEL da PUC-SP -
Programa de Estudos Poacutes-Graduados em Linguumliacutestica Aplicada e Estudos da Linguagem da
Pontifiacutecia Universidade Catoacutelica de Satildeo Paulo31
A partir desta identificaccedilatildeo adjetivos adveacuterbios e verbos satildeo transformados em
substantivos (concreto eou abstrato) quando for possiacutevel Ou ateacute mesmo o adjetivo seja o
mesmo nome (grafia) para substantivos Esse processo de nominalizaccedilatildeo no trabalho de
Gonzalez (2005) foi realizado atraveacutes da ferramenta CHAMA desenvolvida por ele mesmo
Apoacutes o processo de nominalizaccedilatildeo satildeo identificadas as RLBs (Relaccedilotildees Lexicais
Binaacuterias) conforme descrito nesta seccedilatildeo Gonzalez (2005) desenvolveu tambeacutem a ferramenta
RELLEX para identificaccedilatildeo das RLBs Para o caso do teste optou-se por fazer manualmente32
(ANEXO E) devido agrave indisponibilidade destas duas ferramentas Esta etapa tem uma
importacircncia muito grande onde satildeo reconhecidos os relacionamentos das palavras no texto
atraveacutes de identificadores A tabela 4 mostra as RLBs identificadas do paraacutegrafo 6 do
documento1 (ANEXO A) de forma manual
RLBs classificaccedilatildeo =(textil industria)
RLBS restriccedilotildees
de (industria reciclagem) de (reciclagem plastico)
de (reaproveitamento PET) de (segmento monofilamento) de (mercado potencialidade)
de (plastico totalidade) de (conjunto medida)
Tabela 4 RLBs identificadas no paraacutegrafo 6 do documento1
31 As paacuteginas disponiacuteveis satildeo hermessourceforgenethermeswebhtml e httpwww2laelpucspbrcorporaetiquetagemindexhtml32 Dicionaacuterios consultados MICHAELIS Dicionaacuterio Eletrocircnico Acesso em mar de 2006 e FERREIRA Aureacutelio Buarque de Holanda Novo Aureacutelio Seacuteculo XXI o dicionaacuterio da liacutengua portuguesa 1999
64
42 Descriccedilatildeo Formal do Modelo Proposto SINTR+
Os Sintagmas Nominais de Kuramoto em conjunto com as abordagens utilizadas no
modelo TR+ de Gonzalez promovem a utilizaccedilatildeo de conceitos orientados a objetos (OO)
porque eacute considerada a melhor metodologia para projeto de software permite uma
organizaccedilatildeo aprimorada do coacutedigo tem uma proximidade com a UML (Linguagem de
Modelagem Unificada) proporciona uma facilidade de manutenccedilatildeo do coacutedigo apresenta
menor grau de replicaccedilatildeo do coacutedigo e possibilita uma aplicaccedilatildeo em camadas o MVC33 um
padratildeo de projeto atraveacutes da Linguagem Orientada a Objetos Para compreender estes
conceitos e o desenvolvimento da modelagem proposta ressaltaram-se alguns aspectos baacutesicos
de seus fundamentos
A Linguagem UML segundo Larman (2000) expressa a modelagem de sistemas e
utiliza os conceitos orientados a objetos Como na aplicaccedilatildeo proposta trabalhar-se-aacute
especificamente apenas nas etapas de anaacutelise e projeto considera-se importante o uso da
linguagem UML por ser esta uma linguagem poderosa para expressar de modo claro e preciso
o processo de geraccedilatildeo de projetos de software Para Wazlawick (2004) esta linguagem daacute
suporte a que esse processo gere uma estrutura faacutecil de ser compreendida Para o autor isto
ocorre quando se utiliza um software autodocumentado e de faacutecil entendimento tanto em niacutevel
macro quanto em detalhes
Este autor define que o Processo Unificado (UP) estaacute associado agrave notaccedilatildeo UML e
indica que suas fases satildeo concepccedilatildeo elaboraccedilatildeo construccedilatildeo e transiccedilatildeo Conforme
Wazlawick (2004) eacute na primeira fase que se faz o levantamento dos principais requisitos e
compreende-se o sistema de forma abrangente A fase de elaboraccedilatildeo eacute constituiacuteda de anaacutelise e
projeto e a fase de construccedilatildeo corresponde agrave implementaccedilatildeo e testes
A anaacutelise de requisitos ainda segundo este autor (2004 p 24) ldquoestaacute associada ao
processo de descobrir quais satildeo as operaccedilotildees que o sistema deve realizar e quais satildeo as
restriccedilotildees que existem sobre elasrdquo Jaacute a anaacutelise de domiacutenio ldquoestaacute relacionada agrave descoberta das
informaccedilotildees gerenciadas pelo sistema ou seja agrave representaccedilatildeo e transformaccedilatildeo da
informaccedilatildeordquo (2004 p 26)
No caso de um sistema de informaccedilotildees sobre uma instituiccedilatildeo de ensino (Moacutedulo
controle de alunos) por exemplo possivelmente a anaacutelise de requisitos permitiria descobrir
que o sistema deveria controlar a data o curso e a turma em que o aluno foi matriculado o
iniacutecio e teacutermino do curso calcular automaticamente os pagamentos gerar relatoacuterios de
65
contrato especificando as claacuteusulas legais de direito e dever do aluno na Instituiccedilatildeo etc Essas
operaccedilotildees satildeo chamadas de ldquorequisitos funcionaisrdquo
Haacute tambeacutem relacionados a um sistema em construccedilatildeo os requisitos natildeo funcionais
que dizem respeito agrave operaccedilatildeo e agrave usabilidade do sistema Um exemplo de requisito natildeo-
funcional seria a necessidade de fazer a matriacutecula via Internet Essa eacute uma restriccedilatildeo de
operaccedilatildeo Um outro exemplo seria uma central de acidentes de tracircnsito onde o registro de um
dado acidente devesse ser feito em no maacuteximo 10 segundos o que demandaria um
processamento e uma interface bastante eficiente constituindo-se esse em um requisito de
usabilidade
Para as etapas de levantamento e anaacutelise de requisitos costuma ser utilizado o
diagrama de casos de uso Segundo Guedes (2004) esse diagrama possibilita a compreensatildeo
do comportamento externo do sistema por qualquer pessoa Entendem-se aqui casos de uso
segundo Larman (2000) como um documento narrativo que descreve a sequumlecircncia de eventos
(accedilotildees) de um ator (um agente externo) que usa um sistema para completar um processo e
descreve tambeacutem as respostas do sistema Pode se dizer que caso de uso eacute um cenaacuterio com
atores e ambientes Criam-se as cenas e as narrativas das mesmas ajudando a entender o que
se quer do sistema O interessante dos casos de uso eacute que os mesmos permitem que o projeto
seja construiacutedo de forma participativa por um grupo de pessoas uma vez que sua descriccedilatildeo se
daacute em uma linguagem textual e diagramaacutetica
A partir dos casos de uso eacute possiacutevel construir o modelo conceitual Conforme Larman
(2000 p 99) ldquoo modelo conceitual ilustra os conceitos significativos em um domiacutenio de
problemardquo Para Wazlawick (2004 p 102) ldquoo modelo conceitual deve descrever a
informaccedilatildeo que o sistema vai gerenciar trata-se de um artefato do domiacutenio do problema e
natildeo do domiacutenio da soluccedilatildeordquo
Eacute importante ressaltar que o modelo conceitual representa somente o aspecto estaacutetico
da informaccedilatildeo Os elementos que representam informaccedilatildeo satildeo conceitos (representados por
classes) atributos (informaccedilotildees alfanumeacutericas ligadas diretamente aos conceitos) e
associaccedilotildees (tipo de informaccedilatildeo que liga diferentes conceitos entre si)
O diagrama de casos de uso do sistema proposto foi desenvolvido no software JUDE
Community Ferramenta de Modelagem UML Um software freeware muito utilizado para a
criaccedilatildeo deste tipo de diagramas Neste software podem tambeacutem ser desenvolvidos os outros
tipos de diagramas do UML tais como de classes sequumlecircncia colaboraccedilatildeo graacuteficos de
estados
33 A sigla significa Model View e Controller
66
Os casos de uso identificados para esta aplicaccedilatildeo foram descritos em duas situaccedilotildees
A primeira eacute referente agrave pesquisa do usuaacuterio e a segunda ao gerenciamento e operaccedilatildeo do
banco de dados (BD) no niacutevel de administrador Para descobrir estes casos de uso foi
necessaacuterio primeiramente identificar os atores envolvidos com o sistema (usuaacuterio e
administrador) E na sequumlecircncia a cada grande processo reconhecido correspondeu a um caso
de uso do sistema
As Figuras 25 e 26 satildeo diagramas na UML que representam casos de uso e seus
atores As elipses significam casos de uso e os bonecos representam atores Para cada uma das
situaccedilotildees (pesquisa e gerenciamento de operaccedilatildeo do BD no niacutevel de administrador) foram
identificados os seguintes casos de uso
Figura 25 Diagrama de casos de uso da UML do sistema proposto ndash Pesquisa do Usuaacuterio
67
Figura 26 Diagrama de casos de uso da UML do sistema proposto ndash Gerenciamento e Operaccedilatildeo do BD no
niacutevel de administrador
Deve-se lembrar que na proposta deste trabalho para economia de espaccedilo de
memoacuteria foram sistematizados dois momentos o 1ordm em um armazenamento na base de dados
do documento apenas para a lista final do usuaacuterio e outro com os Sintagmas Nominais que
seratildeo armazenados na base de dados no 4ordm ou no uacuteltimo niacutevel apresentado (Figura 19) Os
niacuteveis anteriores relativos ao SN seratildeo procurados por uma programaccedilatildeo desenvolvida
relacionada diretamente com os Sintagmas Com isto natildeo haveraacute necessidade de acesso agrave
memoacuteria da base de documentos em todas as accedilotildees e esta serviraacute somente na uacuteltima escolha
do usuaacuterio tendo um ganho significativo quanto agrave rapidez de acesso aos dados da base e a natildeo
existecircncia de duplicaccedilatildeo de dados
Os casos de uso costumam ser documentados conforme Guedes (2004) por meio de
uma linguagem bastante simples fornecendo a funccedilatildeo em linhas gerais dos casos de uso
quais atores interagem com os mesmos quais etapas devem ser executadas pelo ator e pelo
sistema quais paracircmetros devem ser fornecidos e quais restriccedilotildees o caso de uso deve possuir
As Tabelas abaixo (5 a 15) apresentam as descriccedilotildees dos casos de uso do sistema proposto
referente ao gerenciamento e operaccedilatildeo do BD no niacutevel de administrador
68
Nome do Caso de Uso Inserir novo documento Caso de Uso Geral natildeo possui Ator Principal Administrador Atores secundaacuterios natildeo possui Resumo Permite ao administrador do sistema inserir arquivos na base de dados de documentos iniciando o processo de alimentaccedilatildeo de todas as demais bases de dados Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema 1) Anexar um documento 2) Verificar se documento jaacute natildeo existe na base de dados 3) Inserir o documento Restriccedilotildeesvalidaccedilotildees Apenas documentos vaacutelidos34 deveratildeo ser aceitos
Tabela 5 Descriccedilatildeo do caso de uso ndash Inserir novo documento Nome do Caso de Uso Alimentar base de dados (Documentos) Caso de Uso Geral natildeo possui Ator Principal natildeo possui Atores secundaacuterios natildeo possui Resumo Armazenar em meio fiacutesico e com seguranccedila os documentos inseridos pelo Administrador atraveacutes do sistema Preacute-condiccedilotildees Administrador anexa um documento vaacutelido Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema 1) Armazenar em base de dados os documentos anexados Restriccedilotildeesvalidaccedilotildees natildeo possui
Tabela 6 Descriccedilatildeo do caso de uso ndash Alimentar base de dados (Documentos) Nome do Caso de Uso Extrair SN de 4ordm ou uacuteltimo niacutevel Caso de Uso Geral natildeo possui Ator Principal natildeo possui Atores secundaacuterios natildeo possui Resumo Extrair do documento inserido na base de dados todos os sintagmas nominais de 4ordm ou uacuteltimo niacutevel
Preacute-condiccedilotildees o documento estar devidamente validado e inserido na base de dados Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema
1) realizar a anaacutelise do documento inserido extraindo todos os sintagmas nominais de 4ordm ou uacuteltimo niacutevel enviando informaccedilotildees para alimentaccedilatildeo de base de dados de sintagmas
Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 7 Descriccedilatildeo do caso de uso ndash Extrair SN de 4ordm ou uacuteltimo niacutevel
34 Documentos vaacutelidos satildeo considerados aqui apenas os documentos em formato de texto (como doc txt)
69
As accedilotildees do sistema da tabela 7 seguem as regras estabelecidas na seccedilatildeo 41 da paacutegina 66 Nome do Caso de Uso Tratar regras verbais Caso de Uso Geral natildeo possui Ator Principal natildeo possui Atores secundaacuterios natildeo possui Resumo Realizar o tratamento de regras verbais dos sintagmas nominais de 4ordm ou uacuteltimo niacutevel extraiacutedos do documento Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema
1) aplicar rotinas de tratamento de regras verbais e palavras no infinitivo
Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 8 Descriccedilatildeo do caso de uso ndash Tratar regras verbais
Nome do Caso de Uso Extrair SN de niacuteveis 3 2 e 1 (niacuteveis anteriores) Caso de Uso Geral natildeo possui Ator Principal natildeo possui Atores secundaacuterios natildeo possui Resumo Aplicar regras de extraccedilatildeo de sintagmas de niacuteveis 3 2 e 1 (niacuteveis anteriores) Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema
1) Definir o niacutevel apropriado de cada sintagma a partir do 4ordm ou uacuteltimo niacutevel enviando informaccedilatildeo para o usuaacuterio
Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 9 Descriccedilatildeo do caso de uso ndash Extrair SN de niacuteveis 3 2 e 1 (niacuteveis anteriores)
A tabela 9 segue a mesma regra da tabela 7
Nome do Caso de Uso Alimentar base de dados (Sintagmas) Caso de Uso Geral natildeo possui Ator Principal natildeo possui Atores secundaacuterios natildeo possui Resumo Persistir as informaccedilotildees extraiacutedas nos casos de uso ldquoExtrair SN de 4ordm ou uacuteltimo niacutevelrdquo Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema
1) Armazenar na base de dados o 4ordm ou uacuteltimo niacutevel de sintagma extraiacutedo do documento inserido
Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 10 Descriccedilatildeo do caso de uso ndash Alimentar base de dados (Sintagmas)
70
Nome do Caso de Uso Toquenizar e etiquetar Caso de Uso Geral natildeo possui Ator Principal Software Forma Atores secundaacuterios natildeo possui Resumo Submeter os sintagmas extraiacutedos ao software Forma Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema
1) Aplicar o conceito de Toquenizaccedilatildeo e Etiquetagem dos sintagmas extraiacutedos e armazenados em base de dados
Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 11 Descriccedilatildeo do caso de uso ndash Toquenizar e etiquetar
Nome do Caso de Uso Nominalizar Caso de Uso Geral natildeo possui Ator Principal Software Chama Atores secundaacuterios natildeo possui Resumo Submeter as informaccedilotildees resultantes do processo de Toquenizaccedilatildeo e Etiquetagem ao software Chama Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema
1) Aplicar o conceito de Nominalizaccedilatildeo das informaccedilotildees do documento
Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 12 Descriccedilatildeo do caso de uso ndash Nominalizar
Nome do Caso de Uso Capturar RLBs Caso de Uso Geral natildeo possui Ator Principal Software Rellex Atores secundaacuterios natildeo possui Resumo Submeter as informaccedilotildees resultantes do processo de Nominalizaccedilatildeo ao software Rellex Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema
1) Realizar o processo de captura de RLBs a partir das informaccedilotildees extraiacutedas do documento
Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 13 Descriccedilatildeo do caso de uso ndash Capturar RLBs
71
Nome do Caso de Uso Calcular peso dos descritores Caso de Uso Geral natildeo possui Ator Principal Software Peso dos Descritores Atores secundaacuterios natildeo possui Resumo Submeter as informaccedilotildees resultantes do processo de Captura de RLBs ao software Peso de Descritores Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema
1) Calcular o peso dos descritores ao resultado obtido atraveacutes da captura de RLBs do documento
Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 14 Descriccedilatildeo do caso de uso ndash Calcular peso dos descritores
Nome do Caso de Uso Alimentar base de dados (Termos e RLBs) Caso de Uso Geral natildeo possui Ator Principal natildeo possui Atores secundaacuterios natildeo possui Resumo Persistir as informaccedilotildees obtidas nos casos de uso ldquoNominalizarrdquo ldquoCapturar RLBsrdquo e ldquoCalcular peso dos descritoresrdquo na base de dados de Termos e RLBs Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema
1) Armazenar as informaccedilotildees relativas aos Termos e RLBs extraiacutedos do documento em base de dados
Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 15 Descriccedilatildeo do caso de uso ndash Alimentar base de dados (Termos e RLBs)
Apoacutes a identificaccedilatildeo dos casos de uso e suas descriccedilotildees partiu-se para o modelo
conceitual da aplicaccedilatildeo proposta
72
Figura 27 Modelo Conceitual do sistema proposto
O diagrama de classes segundo Guedes (2004) eacute considerado o mais importante e o
mais utilizado diagrama da UML Eacute o diagrama de classes que permite a visualizaccedilatildeo das
classes que iratildeo compor o sistema com os seus respectivos atributos e meacutetodos Demonstra
como as classes se relacionam complementam e transmitem informaccedilotildees entre si Pode-se
dizer que esse diagrama serve ainda como base para a construccedilatildeo de outros diagramas da
linguagem UML
A Figura 28 apresenta o diagrama de classes do modelo proposto referente agrave Pesquisa
do usuaacuterio
Foi construiacutedo um diagrama de classes (Pesquisa de Usuaacuterio) seguindo estas
definiccedilotildeesaccedilotildees
Paacutegina de Consulta refere-se a uma paacutegina HTML de pesquisa (ou seja uma
linguagem para Web) ou tambeacutem a uma interface graacutefica (GUI) para computador
desktop (cliente)
Controlador da Paacutegina conteacutem a loacutegica de negoacutecio da aplicaccedilatildeo
Classe Sintagma bean responsaacutevel por instanciar e classificar sintagmas de
diferentes niacuteveis usa o meacutetodo setSintagma para receber informaccedilotildees vindas da
paacutegina passando pelo controlador
Classe ListaSintagma cria instacircncia de array de Sintagma associando-os a
instacircncias de Documento Realiza a busca e classificaccedilatildeo destes retornando ao
controlador e posteriormente agrave paacutegina atraveacutes do meacutetodo getDocumentos
73
Classe Documento instacircncia de Documento armazenado em base de dados de
documentos
Figura 28 Diagrama de classes do sistema proposto ndash Pesquisa de Usuaacuterio
A Figura 29 apresenta o diagrama de classes do modelo proposto referente ao
Gerenciamento e Operaccedilatildeo do BD no niacutevel de administrador
Foi construiacutedo um segundo diagrama de classes seguindo estas definiccedilotildeesaccedilotildees
Paacutegina de Consulta refere-se a uma paacutegina HTML de inclusatildeo de documentos
Controlador da Paacutegina conteacutem a loacutegica de negoacutecio da aplicaccedilatildeo
Classe DocumentoBase bean responsaacutevel por instanciar um objeto que iraacute conter
o documento a inserir bem como realizar os processos de toquenizaccedilatildeo e
etiquetagem (trocando mensagens com o software FORMA) nominalizaccedilatildeo
(trocando mensagens com o software CHAMA) gerando termos e RLBs
(trocando mensagens com o software RELLEX) e por fim inserindo as
informaccedilotildees nas bases de dados
Classes Termo e RLB indicam as instacircncias de objetos termos e RLBs e deveratildeo
ser modeladas conforme especificaccedilatildeo do software RELLEX
74
Figura 29 Diagrama de classes do sistema proposto ndash Gerenciamento e Operaccedilatildeo do BD no niacutevel de
administrador
O diagrama de sequumlecircncia segundo Guedes (2004) procura determinar a sequumlecircncia de
eventos que ocorrem em um determinado processo isto eacute quais meacutetodos devem ser disparados
entre os objetos envolvidos quais condiccedilotildees devem ser satisfeitas e em que ordem durante o
processo especiacutefico Foram construiacutedos os diagramas de sequumlecircncia abaixo (Figuras 30 e 31) da
aplicaccedilatildeo proposta
75
Figura 30 Diagrama de Sequumlecircncia do sistema proposto ndash Pesquisa de Usuaacuterio
76
Figura 31 Diagrama de Sequumlecircncia do sistema proposto ndash Gerenciamento e Operaccedilatildeo do BD no niacutevel de administrador
Na elaboraccedilatildeo dos diagramas e descriccedilotildees dos casos de uso e dos diagramas de
classes e de sequumlecircncia observou-se a importacircncia do modelo conceitual porque permitiu
orientar as etapas de desenvolvimento do modelo proposto Visto que no modelo conceitual
foram criados conceitos atributos e associaccedilotildees referentes agrave particularidade da pesquisa que
puderam ser utilizados para a construccedilatildeo das etapas dos diagramas
77
5 CONCLUSAtildeO
Neste capiacutetulo apresentam-se as consideraccedilotildees finais incluindo os aspectos relativos
agraves dificuldades aos progressos e limitaccedilotildees encontradas durante o desenvolvimento da
pesquisa bem como as sugestotildees para a continuidade deste trabalho
O objetivo geral que norteou este trabalho levou ao estudo dos modelos de busca e ao
desenvolvimento de uma proposta para a melhoria dos processos de recuperaccedilatildeo de
informaccedilotildees
Centrando-se no tema Recuperaccedilatildeo de Informaccedilatildeo foram analisados os modelos de
Kuramoto (1999) e posteriormente de Gonzalez (2005) O modelo de Kuramoto baseado
em uma estrutura hieraacuterquica de sintagmas nominais possibilita ao usuaacuterio definir melhor a
sua query de busca A Estrutura de Qualia do Leacutexico Gerativo de Pustejovsky contribuiu para
o entendimento das relaccedilotildees e da estrutura de construccedilatildeo de significado entre as palavras
permitindo o tratamento de questotildees semacircnticas como a polissemia loacutegica A proposta de
Gonzalez apropriando-se dos resultados de Pustejovsky evidencia caracteriacutesticas
morfoloacutegicas e relaccedilotildees de coesatildeo importantes na descriccedilatildeo de conceitos presentes em um
texto propiciando que um texto possa computacionalmente significar mais do que uma
sequumlecircncia de palavras
Buscou-se uma siacutentese dessas propostas identificando as possibilidades de ampliaccedilatildeo
do modelo de Kuramoto pela junccedilatildeo da teoria do Leacutexico Gerativo de Pustejovsky utilizadas
nesta dissertaccedilatildeo a partir do modelo de Gonzalez que se manteve adequado devido ao fato de
que o autor apresenta processos para as fases de indexaccedilatildeo busca e classificaccedilatildeo de RI Os
termos e relacionamentos inseridos na base de dados do modelo TR+ de Gonzalez estatildeo
implicitamente relacionados com a Estrutura de Qualia do LG
O novo modelo SINTR+ aleacutem do suporte ao usuaacuterio envolve a anaacutelise a
sistematizaccedilatildeo e a ampliaccedilatildeo do modelo de Kuramoto com a utilizaccedilatildeo da estrutura TR+ de
Gonzalez (2005) para a melhoria e a otimizaccedilatildeo do processo de seleccedilatildeo dos documentos
recuperados em uma busca
O estudo e a descriccedilatildeo do modelo em UML permitiu por ser uma linguagem
poderosa expressar de modo mais claro e preciso o modelo SINTR+ Foi construiacuteda a anaacutelise
de domiacutenio do sistema desejado incluindo o desenvolvimento de diagramas de casos de uso
bem como suas descriccedilotildees do modelo conceitual de diagramas de classes e de sequumlecircncia As
78
fases de anaacutelise e projeto desenvolvidas para a aplicaccedilatildeo proposta datildeo suporte agrave continuidade
do seu desenvolvimento
O novo modelo desenvolvido foi projetado como um sistema de recuperaccedilatildeo de
informaccedilatildeo (SRI) aplicaacutevel a bases de dados natildeo distribuiacutedas abrangendo a um determinado
domiacutenio de aplicaccedilatildeo a sua adequaccedilatildeo e expansatildeo para uso na Web constitui-se em uma
importante linha de continuidade de pesquisa
A principal contribuiccedilatildeo deste trabalho estaacute na sistematizaccedilatildeo e siacutentese das teorias de
Kuramoto com Gonzalez indicando o uso dessas teorias como uma nova alternativa para a
melhoria da busca de recuperaccedilatildeo de informaccedilotildees Os modelos de recuperaccedilatildeo simplesmente
buscavam as informaccedilotildees solicitadas pelo usuaacuterio O novo modelo proposto SINTR+ baseia-
se na interaccedilatildeo entre o usuaacuterio e a maacutequina atraveacutes de Sintagmas Nominais por niacuteveis e
tambeacutem nas relaccedilotildees das palavras conforme o modelo de Gonzalez
Com este trabalho natildeo se pretendeu desenvolver uma implementaccedilatildeo completa do
modelo construiacutedo Mas o trabalho conseguiu mostrar a exequumlibilidade desta implementaccedilatildeo
computacional descrevendo os diagramas e as descriccedilotildees dos casos de uso e a sua modelagem
conceitual culminando com a construccedilatildeo dos diagramas de classes e de sequumlecircncia A proacutexima
etapa que permitiria detalhar as potencialidades e limitaccedilotildees do modelo de forma ampla
poderia se constituir em amplos estudos de casos onde se determinaria a complexidade
computacional da implementaccedilatildeo requerida
Os dados apresentados no capiacutetulo 4 jaacute indicam aspectos positivos que consolidam a
importacircncia da utilizaccedilatildeo dos Sintagmas Nominais na diminuiccedilatildeo de descritores para
manipulaccedilatildeo com um ganho bastante significativo porque os iacutendices possuem informaccedilotildees
relevantes dos documentos (conceitos significativos de uma sentenccedila) e com isto agiliza-se a
pesquisa na base de dados Quer-se crer aqui e um estudo mais amplo poderia determinar que
essa reduccedilatildeo de descritores natildeo deve ter nenhum impacto na qualidade da busca realizada
Outro aspecto significativo eacute a reduccedilatildeo do uso de memoacuteria tanto na fase de indexaccedilatildeo
como na de busca tornando mais raacutepido o processo interno
Outro aspecto positivo se refere agrave melhoria de desempenho como um todo pois
quanto menor o traacutefego em uma rede menos informaccedilotildees o servidor vai processar e estaraacute
mais disponiacutevel E quanto melhor for o processo de indexaccedilatildeo menos memoacuteria o servidor vai
utilizar E com isto o tempo de resposta na fase de busca diminui e o resultado qualitativo da
pesquisa se amplia
79
Uma outra vantagem eacute que no modelo SINTR+ seratildeo armazenados na base de dados
os documentos e seus SN de uacuteltimos niacuteveis e manipulados apenas os uacuteltimos niacuteveis da
estrutura de SN Seraacute soacute atraveacutes de uma programaccedilatildeo que seratildeo classificados por niacuteveis
diminuindo assim o volume duplicado de dados na manipulaccedilatildeo
Os diagramas construiacutedos referentes ao gerenciamento e operaccedilatildeo do BD no niacutevel do
administrador satildeo fundamentais para o entendimento do funcionamento e da manutenccedilatildeo do
banco de dados facilitando processos como a inserccedilatildeo de novos documentos e outras accedilotildees
contribuindo tambeacutem para o diferencial deste trabalho
80
6 REFEREcircNCIAS BIBLIOGRAacuteFICAS
ABRAHAtildeO Paulo Ricardo Carneiro Modelagem e Implementaccedilatildeo de um Leacutexico Semacircntico para o Portuguecircs Dissertaccedilatildeo (Mestrado) Porto Alegre PUCRS 1997
ABREU Sandra C GOULART Rodrigo VIEIRA Renata (2004) Identificaccedilatildeo de Expressotildees Anafoacutericas e Natildeo Anafoacutericas com Base na Estrutura do Sintagma 2ordm Workshop em Tecnologia da Informaccedilatildeo e da Linguagem Humana (TIL 2004) - SalvadorBA - 05 e 06 de agosto de 2004 Disponiacutevel em httpwwwinfunisinosbr~renatalaboratoriopublicacoestilsandra04pdf Acesso em nov de 2004
BAEZA-YATES Ricardo RIBEIRO-NETO Berthier Modern Information Retrieval New York Addison-Wesley 1999
CARDOSO Olinda N P Recuperaccedilatildeo de Informaccedilotildees In Infocomp-Journal of Computer Science vol 2 n 1 Lavras MG 2000 p33-38 Disponiacutevel em httpwwwdccuflabrinfocompartigosv21olindapdf Acesso em mar de 2004
CHISHMAN Rove et al Extraccedilatildeo de Sintagmas Nominais para o Processamento de Co-Referecircncia In V Encontro para o processamento computacional do Portuguecircs escrito e falado (PROPOR 2000) Atibaia - Satildeo Paulo Anais do V Encontro para o processamento computacional do Portuguecircs escrito e falado Satildeo Carlos ICMCUSP 2000 Disponiacutevel em httpwwwinfunisinosbr~renatalaboratoriopublicacoespropor00pdf Acesso em jan de 2005
FERNEDA Edberto Recuperaccedilatildeo de Informaccedilatildeo anaacutelise sobre a contribuiccedilatildeo da ciecircncia da computaccedilatildeo para a ciecircncia da informaccedilatildeo Tese (Doutorado) Satildeo Paulo USP Escola de Comunicaccedilatildeo e Artes 2003 Disponiacutevel em httpwwwtesesuspbrtesesdisponiveis2727143tde-15032004-130230 Acesso em set de 2004
FERREIRA Aureacutelio Buarque de Holanda Novo Aureacutelio Seacuteculo XXI o dicionaacuterio da liacutengua portuguesa 3ed Rio de Janeiro Nova Fronteira 1999
GASPERIN C GOULART R VIEIRA R Uma ferramenta para Resoluccedilatildeo Automaacutetica de Co-referecircncia Anais do Encontro Nacional de Inteligecircncia Artificial (ENIA) Campinas SP 2003 Disponiacutevel em httpwwwexatecunisinosbr~renatalaboratoriopublicacoesart1pdf Acesso em set de 2004
81
GONZALEZ Marco Antocircnio Insaurriaga Representaccedilatildeo Semacircntica de Sentenccedilas em Linguagem Natural e sua aplicaccedilatildeo na Recuperaccedilatildeo de Informaccedilatildeo Trabalho Individual 2 Doutorado Porto Alegre PPCC da PUCRS 2000
________ O Leacutexico Gerativo de Pustejovsky sob o enfoque da Recuperaccedilatildeo de Informaccedilotildees Trabalho Individual 1 Doutorado Porto Alegre PPCC da PUCRS 2000a
________ Termos e Relacionamentos em Evidecircncia na Recuperaccedilatildeo de Informaccedilatildeo Tese (Doutorado) Porto Alegre PPGC da UFRGS 2005
GUEDES Gilleanes T A UML uma abordagem praacutetica Satildeo Paulo Novatec 2004
HILL Brad Pesquisa na Internet Rio de Janeiro Campus 1999
KURAMOTO Heacutelio Proposition drsquoum Systegraveme de Recherche drsquoInformation Assisteacutee par Ordinateur Tese (Doutorado) LrsquoUniversiteacute Lumiegravere ndash Lyon - Franccedila 1999
________ Uma abordagem alternativa para o tratamento e a recuperaccedilatildeo de informaccedilatildeo textual os sintagmas nominais Ciecircncia da Informaccedilatildeo (Brasiacutelia) v25 n2 1995 Disponiacutevel em httpdiciibictbrarchive0000016901Ci[1]Inf-2004-476pdf Acesso em mar de 2004
________ Sintagmas Nominais uma nova proposta para a recuperaccedilatildeo de informaccedilatildeo DataGramaZero Revista de Ciecircncia da Informaccedilatildeo v3 n1 fev 2002 Disponiacutevel em httpwwwdgzeroorgfev02Art_03htm Acesso em mar de 2004
LARMAN Craig Utilizando UML e Padrotildees uma introduccedilatildeo agrave anaacutelise e ao projeto orientado a objetos Porto Alegre Bookman 2000
MARTINS Dileta Silveira ZILBERKNOP Luacutebia Scliar Portuguecircs Instrumental 20ordf ed Porto Alegre Sagra Luzzatto 1999
MOURA Heronides M de M A determinaccedilatildeo de sentidos lexicais no contexto Cadernos de Estudos Linguumliacutesticos v 41 Campinas SP 2001 NETO Magdiel Medeiros Aragatildeo A polissemia em palavras designativas de objetos fiacutesicos e eventos 2003 Disponiacutevel em httpwwwabralinorgbranaishtm Acesso em mai de 2004
________A Polissemia de acordo com a Teoria do Leacutexico Gerativo Satildeo Miguel do Oeste SC Revista do Centro de Ciecircncias da Comunicaccedilatildeo e Artes n6 maiago 2003a
82
PUSTEJOVSKY James The Generative Lexicon Association for Computational Linguistics Computer Science Department Brandeis University Cambridge MA The MIT Press 1991 Disponiacutevel em httpportalacmorgcitationcfmid=176324 Acesso em set de 2004
ROSSI Albertina Palavras Polissecircmicas entre evento e informaccedilatildeo e seu tratamento nos dicionaacuterios Aureacutelio e Houaiss Tese (Doutorado) Florianoacutepolis USFC Centro de Comunicaccedilatildeo e Expressatildeo - Programa de Poacutes-Graduaccedilatildeo em LetrasLinguumliacutestica 2003
SILVA Edna Luacutecia da Metodologia da pesquisa e elaboraccedilatildeo de dissertaccedilatildeo Edna Luacutecia da Silva Estera Muszkat Menezes ndash 2a ed revndash Florianoacutepolis Laboratoacuterio de Ensino a Distacircncia da UFSC 2001 Disponiacutevel em httpprojetosinfufscbrarquivosMetodologia20da20Pesquisa203a20edicaopdf Acesso em mai de 2005
SILVA Maria C de S KOCH Ingedore V Linguumliacutestica aplicada ao portuguecircs sintaxe 5ed Satildeo Paulo Cortez 1993
WAZLAWICK Raul Sidnei Anaacutelise e Projeto de Sistemas de Informaccedilatildeo Orientados a Objetos Rio de Janeiro Elsevier 2004
61 Bibliografia Consultada
BRAumlSCHER Marisa A Ambiguumlidade na Recuperaccedilatildeo da Informaccedilatildeo Revista Ciecircncia da Informaccedilatildeo (Brasiacutelia) v3 n1 2002 Disponiacutevel em httpwwwdgzorgbrfev02Art_05htm Acesso em abr de 2004
CARVALHO Niacutevea M de Melo Recuperaccedilatildeo da informaccedilatildeo implementaccedilatildeo e avaliaccedilatildeo de sistema de recuperaccedilatildeo de informaccedilatildeo utilizando o modelo vetorial Dissertaccedilatildeo (Mestrado) Amazonas Universidade Federal do Amazonas Programa de Poacutes-Graduaccedilatildeo em Informaacutetica 2002 Disponiacutevel em httpposfacomufubr~reneacervosriRI-ModeloVetorial-NiveaCarvalhopdf Acesso em Ago de 2004
FODOR Jerry LEPORE Ernie The emptiness of the Lexicon Critical Reflections on J Pustejovskyrsquos The Generative Lexicon Rutgers University Center for Cognitive Science
83
GOMES Andreacuteia de Faacutetima R O singular nu e a sentenccedila geneacuterica no portuguecircs brasileiro Dissertaccedilatildeo (Mestrado) Florianoacutepolis UFSC Programa de Poacutes-Graduaccedilatildeo em Linguumliacutestica 2001
GONZALEZ Marco LIMA Vera L S de Sintagma Nominal em Estrutura Hieraacuterquica Temaacutetica na Recuperaccedilatildeo de Informaccedilatildeo Anais ENIA 2001 Fortaleza 2001 Disponiacutevel em httpwwwinfpucrsbr~gonzalezdocssnehtpdf Acesso em dez 2005
________ T-Lex Thesaurus com Estruturaccedilatildeo Semacircntica e Operaccedilotildees Gerativas XXVII Conferencia Latinoamericana de Informatica (CLEI2001) Ciudad de Meacuterida Venezuela 2001 Disponiacutevel em httpwwwinfpucrsbr~gonzalezdocsartigotlexpdf Acesso em jan de 2006 (httpwwwinfpucrsbr~gonzalezpesqqhtm)
________ Recuperaccedilatildeo de Informaccedilatildeo e Processamento da Linguagem Natural XXIII Congresso da Sociedade Brasileira de Computaccedilatildeo Campinas 2003 Anais do III Jornada de Mini-Cursos de Inteligecircncia Artificial Disponiacutevel em httpwwwinfpucrsbr~gonzalezdocsminicurso-jaia2003pdf Acesso em jan de 2006
HEIDE Ann Guia do Professor para a Internet completo e faacutecil 2ed Porto Alegre Artes Meacutedicas Sul 2000
MOURA Heronides M de M Linguagem e cogniccedilatildeo na interpretaccedilatildeo de metaacuteforas Universidade Federal de Juiz de Fora Editora UFJF 2003 Disponiacutevel em httpwwwrevistaveredasufjfbrvolumesv6n1cap11pdf Acesso em jan de 2006
PARREIRAS Fernando O uso de sintagmas nominais como fonte de descritores para textos de perioacutedicos cientiacuteficos Escola de Ciecircncia da Informaccedilatildeo Belo Horizonte 2003 Disponiacutevel em httpwwwfernandoparreirasnombrpublicacoessnpdf Acesso em set de 2004
PEacuteREZ Claacuteudia C C GASPERIN Caroline VIEIRA Renata Extraccedilatildeo Semi-Automaacutetica de Conhecimento a partir de Textos 2003 Disponiacutevel em httpwwwinfunisinosbr~renatalaboratorio publicacoesenia2003-submittedpdf Acesso em ago de 2005
PIZZATO Luiz A Estrutura Multitesauro para Recuperaccedilatildeo de Informaccedilotildees Dissertaccedilatildeo (Mestrado) Porto Alegre PUCRS Faculdade de Informaacutetica - Poacutes-Graduaccedilatildeo em Ciecircncia da Computaccedilatildeo 2003 Disponiacutevel em httpwwwpucrsbrunipoainfoposdissertacoesarquivospizzatopdf Acesso em ago de 2004
84
PUSTEJOVSKY James Type Construction and the logic of concepts Disponiacutevel em httpwwwcsbrandeisedu~jamesparticlesindexhtml Acesso em set de 2004
________ The Metaphysics of Words in Context (2000) Disponiacutevel em httpwwwcsbrandeisedu~jamesparticlesindexhtml Acesso em set de 2004
________ The Semantics of Agentive Nominals Disponiacutevel em httpwwwcsbrandeisedu~jamesparticlesindexhtml Acesso em set de 2004
WORDNET a lexical database for the English language Cognitive Science Laboratory Princeton University Disponiacutevel em httpwordnetprincetonedu Acesso em jan de 2006
85
ANEXOS
86
ANEXO A - DOCUMENTO1
Endereccedilo na Web http wwwreciclaveiscombranamghtm
Segunda-feira 28 de agosto de 2000 - Nuacutemero 599 Cresce a induacutestria de reciclagem de plaacutesticos Poreacutem potencial do lixo domeacutestico ainda eacute pouco aproveitado no estado A induacutestria de reciclagem foi a que mais cresceu no setor plaacutestico de Santa Catarina nos uacuteltimos cinco anos No periacuteodo o volume reprocessado no estado cresceu 1664 ao ano atingindo 169 mil toneladas em 1999 Isso equivale a 37 do total transformado pelo setor em Santa Catarina Os dados fazem parte de estudo elaborado pela empresa de consultoria MaxiQuim de Porto Alegre para o Sindicato da Induacutestria de Material Plaacutestico no Estado de Santa Catarina (Simpesc) Contudo esse crescimento reflete mais o reaproveitamento de resiacuteduos gerados em processos industriais do que a reciclagem de lixo domeacutestico como embalagens e garrafas o chamado plaacutestico ldquopoacutes-consumordquo Este segmento cresce de maneira menos acelerada devido a problemas como a necessidade de escala de produccedilatildeo falta de linhas de financiamento e ausecircncia de legislaccedilatildeo que estimule a atividade ldquoEmbora a reciclagem do material poacutes-consumo como sacos embalagens e garrafas esteja aumentando em Santa Catarina a maior parte do crescimento verificado entre 1995 e 1999 refere-se a empresas que utilizam resiacuteduos industriais como mateacuteria-primardquo explica o diretor da MaxiQuim Joatildeo Luiz Zuntildeeda Normalmente chamadas de aparas esses resiacuteduos incluem tambeacutem as peccedilas que natildeo atingiram a qualidade necessaacuteria para ir ao mercado As oito empresas catarinenses de reciclagem de plaacutestico tecircm 383 empregados sem considerar o pessoal que trabalha na coleta de lixo atividade que geralmente eacute informal O valor da produccedilatildeo atingiu R$ 4249 milhotildees em 1999 com crescimento meacutedio de 1526 ao ano nos uacuteltimos cinco anos jaacute descontando a inflaccedilatildeo As empresas de transformaccedilatildeo de plaacutestico estatildeo cada vez mais preocupadas em recuperar o material que antes era perdido devido ao alto custo da resina virgem diz Nelson Pradella proprietaacuterio da empresa Recicle-Ville ldquoIsso eacute fundamental para que elas sejam competitivas pois vendendo os resiacuteduos do processo industrial como sucata as empresas obtecircm menos de 20 do valor da resina virgemrdquo Cobrando 30 do preccedilo da resina virgem a Recicle-Ville devolve para a induacutestria seus resiacuteduos em condiccedilotildees de serem utilizados normalmente no processo produtivordquo explica A empresa de Joinville foi uma das firmas que ajudou a elevar os iacutendices desta induacutestria no estado Ateacute agora ela estava trabalhando apenas com mateacuteria-prima gerada nos processos industriais mas isso deve mudar a partir desta semana Criada haacute um ano a empresa reprocessa cerca de 220 toneladas de plaacutestico por mecircs e estaacute aumentando a sua capacidade para 310 toneladas Ela ainda opera basicamente como terceirizada de empresas de processamento de plaacutesticos reprocessando para elas os resiacuteduos que geram e devolvendo essa mateacuteria em forma granular mesmo estado da resina virgem Como a mateacuteria prima reciclada seraacute utilizada para fazer o mesmo produto que originou a
4
3
2
1
87
apara a qualidade final natildeo eacute afetada Mas a Recicle-Ville estaacute ingressando tambeacutem no segmento de reciclagem do plaacutestico poacutes-consumo A partir desta semana a empresa coloca em funcionamento um sistema de coleta junto a escolas do municiacutepio para recolher materiais plaacutesticos como sacos garrafas e tampinhas apostando principalmente no PET Com isso ela tem a vantagem de receber material mais limpo A contaminaccedilatildeo do plaacutestico pelo lixo orgacircnico eacute justamente um dos principais problemas para o crescimento da induacutestria da reciclagem do lixo domeacutestico A simples separaccedilatildeo do lixo orgacircnico do seco jaacute traria um impulso importante para o setor diz Ana Flores diretora do departamento de meio ambiente e desenvolvimento sustentado da Federaccedilatildeo das Induacutestrias do Estado de Satildeo Paulo (Fiesp) e autora do livro ldquoO dinheiro estaacute no lixo ndash recicle essa ideacuteiardquo ldquoDeveriam ser criados mecanismos de estiacutemulo para a reciclagem Na Holanda por exemplo uma Coca-Cola custa US$ 220 Devolvendo a garrafa acontece o reembolso de US$ 1 Vocecirc acha que algueacutem vai jogaacute-la no lixordquo diz A induacutestria da reciclagem do plaacutestico no Brasil tem crescido bastante em funccedilatildeo do reaproveitamento do PET que eacute usado no segmento de monofilamentos em artigos como vassouras e na induacutestria tecircxtil Conforme Ana Flores a reciclagem gera 250 mil empregos no Paiacutes dos quais 70 satildeo informais Poreacutem a maior parte do potencial de mercado ainda estaacute sendo desperdiccedilado avalia ldquoCerca de 15 do total de plaacutestico que eacute industrializado no Paiacutes eacute reciclado Em dez anos poderiacuteamos chegar a 60 como nos Estados Unidos desde que fosse implementado um conjunto de medidas incentivando essa praacuteticardquo assegura Para a diretora da Fiesc os principais entraves satildeo o aspecto cultural a tributaccedilatildeo incidente na reciclagem do plaacutestico a falta de linhas de financiamento e a ausecircncia de uma legislaccedilatildeo ambiental mais rigorosa ldquoHaacute um contra-senso ecoloacutegico que forccedila a clandestinidade no Brasil onde para fabricar garrafa PET virgem paga-se IPI de 10 e para a reciclagem 12rdquo critica Ana afirma que essa tributaccedilatildeo decorre do interesse governamental em incentivar a induacutestria quiacutemica Outro problema apontado eacute que ao contraacuterio da induacutestria do alumiacutenio que eacute concentrada o predomiacutenio das pequenas empresas na transformaccedilatildeo do plaacutestico dificulta que sejam criadas grandes empresas para reprocessar o lixo Para Flores o sucesso brasileiro na reciclagem do alumiacutenio (o iacutendice eacute de 65 um dos mais altos do mundo) decorre da existecircncia de poucas grandes empresas capitalizadas ldquoAs pequenas empresas natildeo tecircm acesso agraves linhas de creacutedito e isso dificulta a abertura de novas recicladorasrdquo diz Flores Mas haacute quem aponte outros desafios a superar ldquoEmbora seja um mercado que deve crescer muito a reciclagem de plaacutestico natildeo eacute tatildeo simples como normalmente aparece na televisatildeo O volume miacutenimo para que a atividade seja economicamente viaacutevel atendendo a todas as exigecircncias legais eacute de 100 toneladas mecircsrdquo diz Ronaldo Cerri soacutecio da Moinhos Rone de Satildeo Paulo que fabrica equipamentos utilizados na moagem do plaacutestico uma das primeiras etapas da reciclagem Aleacutem disso explica a coleta do plaacutestico eacute mais complicada porque ao contraacuterio das latas de alumiacutenio - que podem ser amassadas o volume fiacutesico eacute maior ldquoHoje entre 70 e 80 dos moinhos que vendemos satildeo para reciclagem de resiacuteduos industriaisrdquo informa (Elmar Meurer de Joinville)
copy GAZETA MERCANTIL
9
8
7
6
5
88
ANEXO B - DOCUMENTO2
Cuidados com o Lixo
Endereccedilo na Web httpwwwpoupetempocombrambientelixohtm
Todos os seres vivos quando morrem apodrecem plantas e animais se decompotildeem e satildeo destruiacutedos por larvas bacteacuterias e fungos e reabsorvidos pela terra pela aacutegua pelo ar Eacute o ciclo da natureza morte decomposiccedilatildeo nova vida e crescimento Tudo o que eacute fabricado pelo homem acaba virando lixo Muito desse lixo natildeo se decompotildee facilmente como a mateacuteria orgacircnica e passa a ser um problema Plaacutesticos latas e vidros demoram muitos anos para se decompor e poluem o meio-ambiente Por isso a importacircncia da reciclagem do lixo fabricado pelo ser humano O lixo eacute formado por resiacuteduos soacutelidos natildeo biodegradaacuteveis e que demoram para se decompor Restos de alimentos folhas e frutas satildeo chamados lixo orgacircnico Existem tambeacutem aleacutem do lixo domiciliar o lixo industrial o de vias puacuteblicas e o hospitalar que necessitam de tratamentos especiais pois oferece perigo agrave sauacutede das pessoas Devido ao aumento da populaccedilatildeo das grandes cidades e com o aumento do consumo de produtos a quantidade de lixo tambeacutem tem aumentado O acuacutemulo de lixo eacute um dos principais problemas nas grandes cidades Muitos materiais que vatildeo para o lixo natildeo podem ser desperdiccedilados podendo ser reaproveitados e reutilizados Material orgacircnico Tudo o que eacute resto de comida de animais de plantas e frutas eacute considerado lixo propriamente dito Ou seja vocecirc deve acondicionaacute-los num uacutenico recipiente Essa material eacute recolhido pela prefeitura e levado para aterros sanitaacuterios onde vatildeo sofrer a decomposiccedilatildeo natural Material reciclaacutevel Eacute praticamente tudo o que eacute fabricado pelo homem material plaacutestico latas de alumiacutenio e ferro garrafas de refrigerante de vidro e PET caixas de papel e papelatildeo jornais revistas livros aparas de papel etc Se vocecirc mora em casa reuacutena-se com sua famiacutelia e com seus funcionaacuterios para estabelecer um meacutetodo de separaccedilatildeo desse material Dependendo do seu volume diaacuterio de lixo escolha 4 recipientes coloridos para acondicionaacute-los azul para papel vermelho para plaacutestico verde para vidro e amarelo para metal ou nomeie cada um deles conforme sua classificaccedilatildeo Se vocecirc mora em condomiacutenio faccedila esse mesmo trabalho reunindo os moradores estabelecendo regras e instruindo os empregados Observaccedilatildeo o lixo orgacircnico deve estar separado daquilo que eacute reciclaacutevel Exemplos Providencie uma caixa resistente ou sacolas e fixe nelas um papel com a identificaccedilatildeo do tipo de lixo vidro e nela vaacute acumulando as garrafas Retire aneacuteis e roacutetulos e lave as garrafas para natildeo acumular insetos Na outra caixa vaacute juntando o lixo papel aparas embalagens de papelatildeo as perdas da impressora jornais e revistas velhas etc Latas de conserva satildeo de ferro e as de refrigerante satildeo de alumiacutenio Elas devem ser acumuladas limpas sem roacutetulo e em caixas separadas As de alumiacutenio podem ser amassadas como uma sanfoninha o que economizaraacute espaccedilo Quando as caixas estiverem cheias elas devem ser encaminhadas para entidades que trabalham com material reciclaacutevel ou simplesmente recolhida pela empresa de sua cidade responsaacutevel pela coleta seletiva Consulte a prefeitura local
89
A destinaccedilatildeo do material para reciclagem pode ser feita de vaacuterias formas Uma famiacutelia mais pobre pode utilizar esse material vendendo para cooperativas e empresas especializadas e conseguir um dinheiro extra Os condomiacutenios de melhor padratildeo econocircmico podem utilizar o resultado da separaccedilatildeo do lixo para reciclagem em benefiacutecio de seus funcionaacuterios propiciando a eles um ganho extra na ajuda da triagem desse material Uma outra forma eacute simplesmente entregar todo o material para as prefeituras que jaacute possuem o meacutetodo de coleta seletiva Ajude a melhorar o meio-ambiente Eacute simples pense antes de comprar Metade do que noacutes compramos eacute lixo Satildeo embalagens que quase sempre natildeo servem para nada e vatildeo direto para o lixo Evite embalagens plaacutesticas elas satildeo pouco reciclaacuteveis enquanto o vidro eacute totalmente reciclaacutevel e muito mais uacutetil no seu reaproveitamento Algumas informaccedilotildees sobre materiais produzidos pelo homem TEMPO DE DECOMPOSICcedilAtildeO DE ALGUNS MATERIAIS
Lenccedilo de papel 3 meses Palito de foacutesforo 6 meses Caroccedilo de maccedilatilde 6 a 12 meses Ponta de cigarro 1 a 2 anos Chiclete 5 anos Lata de accedilo 10 anos Garrafa de plaacutestico 100 anos Garrafa de vidro Mais de 1000 anos Lata de alumiacutenio Natildeo se corroacutei nunca
Plaacutestico riacutegido Leve resistente e praacutetico eacute o material que compotildee cerca de 60 das embalagens plaacutesticas como garrafas de refrigerantes recipientes para produtos de limpeza e higiene e potes de alimentos eacute tambeacutem mateacuteria-prima baacutesica de bombonas fibras tecircxteis tubos e conexotildees calccedilados eletrodomeacutesticos aleacutem de baldes utensiacutelios domeacutesticos e outros produtos Ele pode ser reprocessado gerando novos artefatos plaacutesticos e energia Papel ondulado eacute usado em caixas para transporte de produtos para faacutebricas depoacutesitos escritoacuterios e residecircncias Normalmente chamado de papelatildeo este material tem uma camada intermediaacuteria de papel entre suas partes exteriores disposta em ondulaccedilotildees na forma de uma sanfona O material eacute de faacutecil coleta em grandes volumes comerciais sendo facilmente identificadas quando misturadas com outros tipos de papel por isso seu susto de processamento eacute relativamente baixo Embalagens longa vida satildeo compostas de vaacuterias camadas de material dupleacutex polietileno e alumiacutenio As embalagens cartonadas precisam ser lavadas apoacutes o consumo porque os restos de alimentos contidos nelas dificultam o reprocessamento do material Para aproveitar melhor o espaccedilo as embalagens podem ser amassadas O papel existente nas embalagens cartonadas pode ser compostado para a produccedilatildeo de huacutemus utilizado em hortas e jardins Pneus a borracha e sua reciclagem eacute capaz de devolver ao processo de produccedilatildeo insumo regenerado por menos da metade do custo da borracha natural ou sinteacutetica aleacutem disso economiza energia e poupa petroacuteleo usado como mateacuteria-prima virgem e ateacute melhora as propriedades de materiais feitos com borracha Latas de alumiacutenio aleacutem de reduzir o lixo que vai para os aterros a reciclagem desse material proporciona significativo ganho energeacutetico Para reciclar uma tonelada de latas gasta-se 5 da
90
energia necessaacuteria para produzir a mesma quantidade de alumiacutenio pelo processo primaacuterio Isto significa que cada latinha reciclada equivale ao consumo de um aparelho de TV durante 3 horas A reciclagem evita a extraccedilatildeo da bauxita o mineral beneficiado para a fabricaccedilatildeo da alumina que eacute transformada em liga de alumiacutenio Vidro a metade dos recipientes de vidro eacute fabricados no Paiacutes eacute retornaacutevel Aleacutem disso o material eacute de faacutecil reciclagem pode voltar a produccedilatildeo de novas embalagens substituindo o produto virgem sem perda da qualidade Pet (polietileno tereftalato) as garrafas recicladas satildeo transformadas em cordas e fios de costura carpetes bandejas de frutas e ateacute mesmo novas garrafas Sua reciclagem aleacutem de desviar lixo plaacutestico dos aterros utiliza apenas 30 da energia necessaacuteria para a produccedilatildeo da resina virgem e tem a vantagem de poder ser reciclado vaacuterias vezes sem prejudicar a qualidade do produto final Latas de accedilo Quando reciclado o accedilo volta ao mercado em forma de automoacuteveis ferramentas vigas para construccedilatildeo civil arames vergalhotildees utensiacutelios domeacutesticos e inclusive novas latas Plaacutestico filme eacute uma peliacutecula plaacutestica normalmente usada como sacolas de supermercados sacos de lixo embalagens de leite lonas agriacutecolas e proteccedilatildeo de alimentos na geladeira ou microondas Cerca de 44 eacute papel e 4 eacute folha de alumiacutenio Ajude a melhorar o meio-ambiente
bull Reaproveite sobras e natildeo jogue fora o que puder aproveitar bull Doe roupas que possam ser reformadas ou consertadas bull Doe livros para bibliotecas ou instituiccedilotildees beneficentes bull Use produtos biodegradaacuteveis ou reciclaacuteveis bull Deixe o oacuteleo usado do motor no posto para ser reciclado bull Leve pneus sem uso para os borracheiros bull Evite jogar lixo na rua Jogue o lixo na lixeira bull Embale o lixo corretamente sempre que possiacutevel encaminhe plaacutesticos vidros e papel
para a reciclagem
91
ANEXO C - EXTRACcedilAtildeO MANUAL DE SN DOS DOCUMENTOS
DOCUMENTO1 Linha Sintagma Nominal Niacutevel
1 Plaacutesticos 1 1 Reciclagem de plaacutesticos 2 1 Induacutestria de reciclagem de plaacutesticos 3 2 Lixo 1 2 Lixo domeacutestico 1 2 Potencial do lixo domeacutestico 2 3 Reciclagem 1 3 Induacutestria de reciclagem 2 3 Plaacutestico 1 3 Setor Plaacutestico 1 3 Setor Plaacutestico de Santa Catarina 2 7 Plaacutestico 1 7 Material Plaacutestico 1 7 Induacutestria de Material Plaacutestico 2 7 Sindicato da Induacutestria de Material Plaacutestico 3 7 Sindicato da Induacutestria de Material Plaacutestico no Estado de Santa Catarina 4 8 Resiacuteduos 1 8 Reaproveitamento de resiacuteduos 2 9 Lixo 1 9 Lixo domeacutestico 1 9 Reciclagem do lixo domeacutestico 2 10 Embalagens 1 10 Garrafas 1 10 Embalagens e garrafas 2 10 Plaacutestico 1 10 Plaacutestico poacutes-consumo 1 13 Reciclagem 1 13 Reciclagem de material 2 13 Reciclagem de material poacutes-consumo 2 13 Sacos 1 13 Embalagens 1 13 Garrafas 1 13 Sacos embalagens e garrafas 2 15 Resiacuteduos 1
92
15 Resiacuteduos industriais 1 15 Resiacuteduos industriais como mateacuteria-prima 2 18 Reciclagem 1 18 Reciclagem de plaacutesticos 2 18 Empresas catarinenses de reciclagem de plaacutesticos 3 19 Lixo 1 19 Coleta de lixo 2 22 Plaacutestico 1 22 Transformaccedilatildeo de plaacutestico 2 22 As empresas de transformaccedilatildeo de plaacutestico 3 27 Resiacuteduos 1 32 Plaacutestico 1 34 Plaacutesticos 1 34 Processamento de plaacutesticos 2 34 Empresas de processamento de plaacutesticos 3 34 Terceirizada de empresas de processamento de plaacutesticos 4 34 Os resiacuteduos 1 36 Reciclada 1 36 Mateacuteria-prima reciclada 1 38 Reciclagem 1 38 Reciclagem de plaacutestico 2 38 Reciclagem de plaacutestico poacutes-consumo 2 38 Segmento de reciclagem de plaacutestico poacutes-consumo 3 39 Coleta 1 39 Coleta junto a escolas do municiacutepio 2 39 Um sistema de coleta junto a escolas do municiacutepio 3 40 Plaacutesticos 1 40 Materiais plaacutesticos 1 40 Materiais plaacutesticos como sacos garrafas e tampinhas 2 41 PET 1 43 Lixo 1 43 Lixo orgacircnico 1 43 A contaminaccedilatildeo do plaacutestico 2 43 A contaminaccedilatildeo do plaacutestico pelo lixo orgacircnico 3 44 Lixo 1
93
44 Lixo domeacutestico 1 44 Reciclagem de lixo domeacutestico 2 44 Induacutestria da reciclagem do lixo domeacutestico 3 44 O crescimento da induacutestria da reciclagem do lixo domeacutestico 4 44 Lixo 1 44 Lixo orgacircnico 1 44 A simples separaccedilatildeo do lixo orgacircnico 2 44 A simples separaccedilatildeo do lixo orgacircnico do seco 3 49 A garrafa 1 50 Lixo 1 51 Reciclagem 1 51 Reciclagem do plaacutestico 2 51 A induacutestria da reciclagem do plaacutestico 3 51 A induacutestria da reciclagem do plaacutestico no Brasil 4 52 Reaproveitamento 1 52 Reaproveitamento do PET 2 53 A reciclagem 1 55 Plaacutestico 1 56 Reciclado 1 58 Reciclagem 1 58 Reciclagem do plaacutestico 2 58 Tributaccedilatildeo incidente na reciclagem do plaacutestico 3 61 Garrafa 1 61 Garrafa PET 1 61 Reciclagem 1 63 Induacutestria Quiacutemica 1 64 Alumiacutenio 1 64 Induacutestria do alumiacutenio 2 65 Plaacutestico 1 65 Transformaccedilatildeo do plaacutestico 2 65 Empresas na transformaccedilatildeo do plaacutestico 3 65 Predomiacutenio das pequenas empresas na transformaccedilatildeo do plaacutestico 4 66 Lixo 1 69 Recicladoras 1 69 A abertura de novas recicladoras 2
94
71 Reciclagem 1 71 Reciclagem de Plaacutestico 2 74 Plaacutestico 1 74 Moagem do plaacutestico 2 74 Reciclagem 1 74 Primeiras etapas da reciclagem 2 75 Coleta 1 75 A coleta do plaacutestico 2 77 Reciclagem 1 77 Reciclagem de resiacuteduos 2 77 Reciclagem de resiacuteduos industriais 3
DOCUMENTO2
Linha Sintagma Nominal Niacutevel1 Lixo 1 1 Cuidados com o lixo 2 5 Lixo 1 5 Lixo 1 6 Mateacuteria Orgacircnica 1 6 Plaacutesticos latas e vidros 2 7 Lixo 1 7 Reciclagem do lixo 2 7 A importacircncia da reciclagem do lixo 3 9 O lixo 1 9 Resiacuteduos 1 9 Resiacuteduos soacutelidos 1 9 Resiacuteduos soacutelidos natildeo-biodegradaacuteveis 1 9 Restos de alimentos folhas e frutas 2 10 Lixo 1 10 Lixo orgacircnico 1 11 Lixo 1 11 Lixo domiciliar lixo industrial o de vias puacuteblicas e o hospitalar 3 13 Lixo 1 13 A quantidade de lixo 2
95
15 Lixo 1 15 O acuacutemulo de lixo 2 15 O lixo 1 17 Material orgacircnico 1 18 Restos de comida de animais de plantas e frutas 4 18 Lixo 1 20 Aterro sanitaacuterio 1 20 A decomposiccedilatildeo 1 20 A decomposiccedilatildeo natural 1 21 Reciclaacutevel 1 21 Material reciclaacutevel 1 22 Material plaacutestico latas de alumiacutenio e ferro garrafas de refrigerante de
vidro e PET caixas de papel e papelatildeo jornais revistas livros aparas de papel
4
24 Lixo 1 24 Volume diaacuterio de lixo 2 31 O lixo 1 31 O lixo orgacircnico 1 31 Reciclaacutevel 1 33 Lixo 1 33 Tipo de lixo 2 33 vidro 1 34 As garrafas 1 35 As garrafas 1 36 O lixo 1 36 O lixo papel aparas embalagens de papelatildeo as perdas da impressora
jornais e revistas velhas 3
38 Ferro 1 38 Alumiacutenio 1 42 Reciclaacutevel 1 42 Material reciclaacutevel 1 42 Coleta 1 42 Coleta seletiva 1 44 Reciclagem 1 44 Material para reciclagem 2 44 A destinaccedilatildeo do material para reciclagem 3
96
47 Lixo 1 47 Separaccedilatildeo do lixo 2 47 Separaccedilatildeo do lixo para reciclagem 3 47 O resultado da separaccedilatildeo do lixo para reciclagem 4 50 Coleta 1 50 Coleta seletiva 1 50 O meacutetodo de coleta seletiva 2 53 Lixo 1 53 Embalagens 1 53 O lixo 1 54 Embalagens plaacutesticas 1 54 Pouco reciclaacuteveis 1 54 O vidro 1 57 Decomposiccedilatildeo 1 57 Decomposiccedilatildeo de alguns materiais 2 57 Tempo de decomposiccedilatildeo de alguns materiais 3 67 Plaacutestico 1 67 Plaacutestico riacutegido 1 67 Embalagens plaacutesticas 1 67 Embalagens plaacutesticas como garrafas de refrigerantes recipientes para
produtos de limpeza e higiene e potes de alimentos 4
72 Papel ondulado 1 74 Coleta 1 74 Coleta em grandes volumes comerciais 2 74 Faacutecil coleta em grandes volumes comerciais 2 76 Processamento 1 76 Custo de processamento 2 77 Embalagens 1 77 Embalagens longa vida 1 79 reprocessamento 1 79 Reprocessamento do material 2 82 Hortas e jardins 2 83 Pneus 1 83 Reciclagem 1 83 A borracha e sua reciclagem 2
97
84 Borracha 1 84 Borracha natural ou sinteacutetica 1 84 O custo da borracha natural ou sinteacutetica 2 86 Latas de alumiacutenio 1 86 O lixo 1 86 A reciclagem 1 88 Reciclada 1 88 Latinha reciclada 1 89 A reciclagem 1 91 vidro 1 91 Vidro 1 91 Recipiente de vidro 2 91 Faacutecil reciclagem 1 94 PET 1 94 Recicladas 1 94 Garrafas recicladas 1 95 Reciclagem 1 95 Lixo 1 95 Lixo plaacutestico 1 95 Lixo plaacutestico dos aterros 2 97 Reciclado 1 97 Reciclado vaacuterias vezes 1 98 Latas de accedilo 2 98 Automoacuteveis ferramentas vigas para construccedilatildeo civil arames
vergalhotildees utensiacutelios domeacutesticos e inclusive novas latas 3
100 Plaacutestico filme 1 100 Sacolas de supermercado sacos de lixo embalagens de leite lonas
agriacutecolas e proteccedilatildeo de alimentos na geladeira ou microondas 3
102 Folha de alumiacutenio 2 107 Reciclaacuteveis 1 107 Produtos biodegradaacuteveis ou reciclaacuteveis 1 110 Lixo 1 110 Lixo na rua 2 110 O lixo 1 110 O lixo na lixeira 2
98
111 O lixo 111 Reciclagem 1 111 Plaacutesticos vidros e papel para reciclagem 3
99
ANEXO D - FERRAMENTA1 DE TOQUENIZACcedilAtildeO E ETIQUETAGEM
Endereccedilo na Web hermessourceforgenethermeswebhtml
Texto processado (Paraacutegrafo 6 do Documento1)
A induacutestria da reciclagem do plaacutestico no Brasil tem crescido bastante em funccedilatildeo do reaproveitamento do PET que eacute usado no segmento de monofilamentos em artigos como vassouras e na induacutestria tecircxtil Conforme Ana Flores a reciclagem gera 250 mil empregos no Paiacutes dos quais 70 satildeo informais Poreacutem a maior parte do potencial de mercado ainda estaacute sendo desperdiccedilado avalia ldquoCerca de 15 do total de plaacutestico que eacute industrializado no Paiacutes eacute reciclado Em dez anos poderiacuteamos chegar a 60 como nos Estados Unidos desde que fosse implementado um conjunto de medidas incentivando essa praacuteticardquo assegura
Resultado
A_ART induacutestria_N da_PREP+ART reciclagem_N do_PREP+ART plaacutestico_N no_PREP+ART Brasil_NP tem_VTD crescido_ADJ bastante_ADV em_PREP funccedilatildeo_N do_PREP+ART reaproveitamento_N do_PREP+ART PET_N _ que_PR eacute_VLIG usado_ADJ no_PREP+ART segmento_N de_PREP monofilamentos_N _ em_PREP artigos_N
100
como_CONJSUB vassouras_ADJ e_CONJCOORD na_PREP+ART induacutestria_N tecircxtil_NP _ Conforme_CONJSUB Ana_NP Flores_N _ a_ART reciclagem_N gera_N 250_NC mil_NC empregos_N no_PREP+ART Paiacutes_N _ dos_PREP+ART quais_PR 70_NC satildeo_VLIG informais_ADJ _ Poreacutem_VTD _ a_ART maior_ADJ parte_N do_PREP+ART potencial_N de_PREP mercado_N ainda_ADV estaacute_VLIG sendo_VLIG desperdiccedilado_VTD _ avalia_N _ Cerca_N de_PREP 15_NC do_PREP+ART total_ADJ de_PREP plaacutestico_N que_PR eacute_VLIG
101
industrializado_VTD no_PREP+ART Paiacutes_N eacute_VLIG reciclado_VTD _ Em_PREP dez_NC anos_N poderiacuteamos_VTD chegar_VTI a_ART 60_NC _ como_CONJSUB nos_PREP+ART Estados_NP Unidos_NP _ desde_PREP que_PR fosse_VLIG implementado_ADJ um_ART conjunto_N de_PREP medidas_N incentivando_VTD essa_PD praacutetica_N _ assegura_VTD _
102
ANEXO D - FERRAMENTA2 DE TOQUENIZACcedilAtildeO E ETIQUETAGEM
Endereccedilo na Web httplaelpucspbrcorporaetiquetagem
A ARTD induacutestria N da CPR reciclagem N do CPR plaacutestico N no CPR Brasil N tem V crescido PART bastante ADV em PRP funccedilatildeo N do CPR reaproveitamento N do CPR PET N PT que PRN eacute V usado PART no CPR segmento N de PRP monofilamentos N PT em PRP artigos N como ADV vassouras N e CJ na CPR induacutestria N tecircxtil ADJ PT Conforme ADJ Ana N Flores N PT a ARTD reciclagem N gera V 250 NUM mil N
103
empregos N no CPR Paiacutes N PT dos CPR quais PRN 70 NUM PT satildeo V informais ADJ PT Poreacutem CJ PT a ARTD maior ADJ parte N do CPR potencial N de PRP mercado N ainda ADV estaacute V sendo V desperdiccedilado PART PT avalia V PT ldquoCerca PRP de PRP 15 NUM PT do CPR total N de PRP plaacutestico N que PRN eacute V industrializado PART no CPR Paiacutes N eacute V reciclado PART PT Em PRP dez NUM anos N poderiacuteamos V chegar V a ARTD 60 NUM PT
104
PT como ADV nos CPR Estados N Unidos N PT desde PRP que PRN fosse V implementado PART um ARTI conjunto N de PRP medidas N incentivando V essa PRN praacuteticardquo N PT assegura V PT
105
ANEXO E - PROCESSO DE NOMINALIZACcedilAtildeO Palavra Original Classe Substantivo Abstrato Substantivo Concretotem Verbo E E crescido Verbo no particiacutepio crescimento E bastante Adveacuterbio E E eacute Verbo E E usado Verbo no particiacutepio uso usador tecircxtil Adjetivo E tecido informal Adjetivo informalidade E maior Adjetivo maioridade E potencial Adjetivo potencialidade E ainda Adveacuterbio E E estaacute Verbo E E sendo Verbo E E desperdiccedilado Verbo no particiacutepio desperdiacutecio desperdiccedilador total Adjetivo totalidade totalizador industrializado Verbo no particiacutepio industrial induacutestria reciclado Verbo no particiacutepio E reciclagem poderiacuteamos Verbo E E chegar Verbo E chegada fosse Verbo E E implementado Verbo no particiacutepio implemento implementador incentivando Verbo Incentivo incentivador
E = ausecircncia de nominalizaccedilatildeo
Claacuteudia Maksud Mechereffe
ESTRUTURA SINTR+ UM MODELO DE SUPORTE AO USUAacuteRIO NA RECUPERACcedilAtildeO DE INFORMACcedilOtildeES
Dissertaccedilatildeo submetida agrave Universidade Federal de Santa Catarina como parte dos requisitos para a obtenccedilatildeo do grau de Mestre em Ciecircncia da Computaccedilatildeo Profordf Edla Maria Faust Ramos Drordf
Florianoacutepolis 2005
Claacuteudia Maksud Mechereffe
ESTRUTURA SINTR+ UM MODELO DE SUPORTE AO USUAacuteRIO NA RECUPERACcedilAtildeO DE INFORMACcedilOtildeES
Esta Dissertaccedilatildeo foi julgada adequada para a obtenccedilatildeo do tiacutetulo de Mestre em Ciecircncia da Computaccedilatildeo e aprovada em sua forma final pelo Programa de Poacutes-Graduaccedilatildeo em Ciecircncia da Computaccedilatildeo
_____________________________ Prof Raul Sidnei Wazlawick Dr
Coordenador do PGCC Banca Examinadora
_____________________________ Profordf Edla Maria Faust Ramos Drordf
Orientadora PGCC
_______________________________________ Prof Heronides Mauriacutelio de Melo Moura Ph D
____________________________ Profordf Maria Marta Leite Drordf
_____________________________________ Prof Raul Sidnei Wazlawick Dr
A alma eacute uma borboleta Haacute na vida um momento em que uma voz nos diz que chegou o momento de uma grande metamorfose eacute preciso
abandonar o que sempre fomos para nos tornarmos uma outra coisa
Rubem Alves
iv
AGRADECIMENTOS
O momento de agradecimento permite lembrar com gratidatildeo de todas as pessoas que
conviveram comigo e que foram importantes nesta etapa de construccedilatildeo de conhecimento
Agradeccedilo agrave Universidade Federal de Santa Catarina ao Programa de Poacutes-Graduaccedilatildeo
em Ciecircncia da Computaccedilatildeo e a todos os professores que oportunizaram o aprendizado
alcanccedilado
Em nome destes professores e pelo seu profissionalismo agrave Edla Faust Ramos pelas tatildeo
valiosas orientaccedilotildees pela confianccedila pela crenccedila no meu trabalho e na minha pessoa
Em especial agradeccedilo a minha matildee e ao meu pai Heloisa e Antonio que me
ensinaram a lutar e persistir e pelo carinho apoio e estiacutemulo que sempre me deram
Ao David meu companheiro pela compreensatildeo paciecircncia carinho e apoio
Ao Paulo Bueno e agrave Leila Di Pietro pelo estiacutemulo paciecircncia pelas grandes
contribuiccedilotildees e ajudas prestadas
Agrave Renata Brizzi agrave Josiele Azevedo agrave Danielle Hennings e agrave Adriana Santos pelo apoio
e por suas contribuiccedilotildees
Ao Carlos Eduardo Nascimento pelo apoio e incentivo prestado
E aos meus irmatildeos Beatriz e Reacutegis por sempre acreditarem em mim
E a todos os meus amigos por serem especiais em minha vida
v
IacuteNDICE DE FIGURAS
Figura 1 Componentes de um Sistema de Recuperaccedilatildeo de Informaccedilatildeo 18 Figura 2 Exemplo dos trecircs componentes conjuntivos para query 19 Figura 3 Representaccedilatildeo do resultado de uma expressatildeo booleana conjuntiva (AND)19 Figura 4 Resultado de uma busca booleana disjuntiva (OR) 20 Figura 5 O co-seno do acircngulo adaptado como similar (dj q) 22 Figura 6 Exemplo da estrutura de niacuteveis de Sintagmas Nominais 30 Figura 7 Procedimentos de interaccedilatildeo usuaacuteriominusprotoacutetipo31 Figura 8 Estrutura de dados para acessar os Sintagmas Nominais de primeiro niacutevel a partir de
uma palavra 32 Figura 9 Estrutura de dados para acessar os Sintagmas Nominais de segundo niacutevel a partir de
Sintagmas Nominais de primeiro niacutevel 33 Figura 10 Estrutura de dados para o acesso aos tiacutetulos e textos dos artigos 33 Figura 11 Representaccedilatildeo da matriz de um item lexical39 Figura 12 Matriz superficial da Estrutura de Qualia do item lexical ldquolivrordquo 39 Figura 13 Exemplo da Estrutura de Qualia do item lexical ldquoromancerdquo 40 Figura 14 Exemplo da Estrutura de Qualia do item lexical ldquodicionaacuteriordquo40 Figura 15 Exemplo do LG relacionando ldquodicionaacuteriordquo ldquolivrordquo e peccedila atraveacutes de suas EQ41 Figura 16 Exemplo de polissemia loacutegica na representaccedilatildeo matricial da palavra ldquolivrordquo41 Figura 17 Exemplo de polissemia loacutegica na representaccedilatildeo matricial da palavra ldquojornalrdquo 42 Figura 18 Visatildeo Geral do modelo TR+47 Figura 19 Visatildeo Geral do Modelo Proposto ldquoEstrutura SINTR+rdquo56 Figura 20 Descriccedilatildeo inicial do modelo proposto58 Figura 21 Nuacutemero de palavras do Documento160 Figura 22 Nuacutemero de substantivos adveacuterbios verbos e adjetivos do Documento161 Figura 23 Nuacutemero de palavras restantes x Sintagmas Nominais 62 Figura 24 Sintagmas Nominais e adjetivos inseridos nos SN 62 Figura 25 Diagrama de casos de uso da UML do sistema proposto ndash Pesquisa do Usuaacuterio66Figura 26 Diagrama de casos de uso da UML do sistema proposto ndash Gerenciamento e
Operaccedilatildeo do BD no niacutevel de administrador 67 Figura 27 Modelo Conceitual do sistema proposto72 Figura 28 Diagrama de classes do sistema proposto ndash Pesquisa de Usuaacuterio 73 Figura 29 Diagrama de classes do sistema proposto ndash Gerenciamento e Operaccedilatildeo do BD no
niacutevel de administrador 74 Figura 30 Diagrama de Sequumlecircncia do sistema proposto ndash Pesquisa de Usuaacuterio 75 Figura 31 Diagrama de Sequumlecircncia do sistema proposto ndash Gerenciamento e Operaccedilatildeo do BD
no niacutevel de administrador 76
vi
IacuteNDICE DE TABELAS
Tabela 1 Exemplos de nominalizaccedilatildeo 49 Tabela 2 Exemplo de uma consulta qb53 Tabela 3 Paraacutegrafo 6 do documento163 Tabela 4 RLBs identificadas no paraacutegrafo 6 do documento1 63 Tabela 5 Descriccedilatildeo do caso de uso ndash Inserir novo documento68 Tabela 6 Descriccedilatildeo do caso de uso ndash Alimentar base de dados (Documentos) 68 Tabela 7 Descriccedilatildeo do caso de uso ndash Extrair SN de 4ordm ou uacuteltimo niacutevel 68 Tabela 8 Descriccedilatildeo do caso de uso ndash Tratar regras verbais69 Tabela 9 Descriccedilatildeo do caso de uso ndash Extrair SN de niacuteveis 3 2 e 1 (niacuteveis anteriores) 69 Tabela 10 Descriccedilatildeo do caso de uso ndash Alimentar base de dados (Sintagmas) 69 Tabela 11 Descriccedilatildeo do caso de uso ndash Toquenizar e etiquetar70 Tabela 12 Descriccedilatildeo do caso de uso ndash Nominalizar70 Tabela 13 Descriccedilatildeo do caso de uso ndash Capturar RLBs 70 Tabela 14 Descriccedilatildeo do caso de uso ndash Calcular peso dos descritores 71 Tabela 15 Descriccedilatildeo do caso de uso ndash Alimentar base de dados (Termos e RLBs) 71
vii
SIGLAS
RI Recuperaccedilatildeo de Informaccedilatildeo
SRI Sistemas de Recuperaccedilatildeo de Informaccedilatildeo
SN Sintagma Nominal
LG Leacutexico Gerativo
EQ Estrutura de Qualia
SMART System for the Manipulation and Retrieval of Text
SV Sintagma Verbal
SEL Leacutexico de Enumeraccedilatildeo de Sentidos
PLC Paradigma Leacutexico-Conceitual
XML Extensible Markup Language
UML Linguagem de Modelagem Unificada
UP Processo Unificado
OO Orientado a Objetos
NG N-Grama
TT Termo-Termo
TR Termo-Relacionamento
RT Relacionamento-Termo
TR+ Termo-RelacionamentoRelacionamento-Termo
SINTR+ Sintagma Nominal com TR+
BD Banco de Dados
viii
RESUMO
Este trabalho tem como objetivo apresentar um novo modelo de sistema informatizado de suporte ao usuaacuterio no processo de recuperaccedilatildeo de informaccedilotildees A proposta consiste em apoio durante a definiccedilatildeo da query de busca e baseia-se na identificaccedilatildeo das possibilidades de sistematizaccedilatildeo e junccedilatildeo do modelo de Kuramoto com a estrutura de Gonzalez Para a sua construccedilatildeo foi necessaacuterio analisar e sintetizar o modelo de suporte ao usuaacuterio de Kuramoto (baseado na determinaccedilatildeo dos Sintagmas Nominais) a estrutura de Qualia do Leacutexico Gerativo de Pustejovsky e termos e RLBs (relaccedilotildees lexicais binaacuterias) do modelo TR+ de Gonzalez O resultado que se espera alcanccedilar eacute possibilitar a realizaccedilatildeo de uma interaccedilatildeo que venha a proporcionar uma negociaccedilatildeo adequada dos significados entre o usuaacuterio e a maacutequina negociaccedilatildeo essa que deve resultar em fator fundamental na melhoria da eficiecircncia dos processos de busca O modelo de Kuramoto baseado em uma hierarquia de Sintagmas Nominais suporta inicialmente essa interaccedilatildeo Com a definiccedilatildeo da query de busca e da Estrutura de Qualia de Pustejovsky impliacutecita no modelo TR+ de Gonzalez foi possiacutevel obter uma maior relevacircncia dos documentos recuperados atraveacutes de um caacutelculo de peso de descritores (termos e relacionamentos) evidentes nos documentos As etapas gerais do modelo proposto satildeo a extraccedilatildeo de Sintagmas Nominais e a sua hierarquizaccedilatildeo automaacutetica em niacuteveis o preacute-processamento (toquenizaccedilatildeo e etiquetagem) o processo de nominalizaccedilatildeo e a captura de RLBs Delineado preliminarmente o modelo partiu-se para as etapas de levantamento e anaacutelise de requisitos representada pelos diagramas e pelas descriccedilotildees dos casos de uso chegando-se ao desenvolvimento do seu modelo conceitual que culminou a construccedilatildeo dos diagramas de classes e de sequumlecircncia para a aplicaccedilatildeo proposta Ao final conclui-se que a alternativa indicada neste trabalho aleacutem de ser exequumliacutevel apresenta ganhos qualitativos nos resultados de uma busca em recuperaccedilatildeo de informaccedilotildees e tambeacutem quantitativos no que se refere a um menor tempo na fase de indexaccedilatildeo (rapidez) e um tamanho menor de arquivos de iacutendice gerados (memoacuteria)
Palavras-chave Recuperaccedilatildeo de Informaccedilatildeo Sintagmas Nominais Estrutura de Qualia Termos e RLBs
ix
ABSTRACT
This work has the presentation of a new model of a support information system to the user in the process of information retrieval The proposal consists in the support during the definition of a search query based on the identification of the possibilities of informatization and junction of a Kuramoto model along with the Gonzalez structure For its construction it was necessary to analyze and synthesize the support model to the Kuramoto user (base don the determination of Nominal Syntagm) the Qualia structure of the Lexical Semantics of Pustejovsky and having the LBRs (lexical binary relations) of the Gonzalez TR+ model The result we expect to reach is the possibility of actually performing an interaction that may result in an adequate negotiation of meanings between the user and the machine knowing that this negotiation should result in a fundamental factor in order for the improvement on the efficiency of the search processes The Kuramoto model based on Nominal Syntagm hierarchy initially supports this interaction With the definition of the query search and the Pustejovsky Qualia structure implicit in the TR+ Gonzalez model it was possible to obtain a greater relevance of documents recovered through a calculus of weight of describers (terms and relationships) evident in the document The general stages of the proposed model are the extraction of Nominal Syntagm and their automatic placement into hierarchy the pre-processing (tokening and labeling) the naming and capture of the LRBs After the preliminary outlining of the model we went on to the gathering of stages and requisite analysis presented by diagrams and descriptions of the usage cases finally reaching the development of a conceptual model that culminated in the construction of class diagrams and of a sequence for the proposed application As we reach the end we can conclude that the indicated alternative in this work besides being executable presents qualitative gains in the results of a search for the retrieval of information and also quantitative gains when referring to a smaller amount of time spent in the index phase (speed) and a smaller amount of archives generated (memory)
Key-words Retrieval of Information Nominal Syntagm Qualia Structure Terms e LRBs
x
SUMAacuteRIO
AGRADECIMENTOS iv
IacuteNDICE DE FIGURAS v
IacuteNDICE DE TABELAS vi
IacuteNDICE DE TABELAS vi
SIGLAS vii
RESUMOviii
ABSTRACT ix
SUMAacuteRIOx
1 INTRODUCcedilAtildeO 12
11 Objetivos13 111 Objetivo Geral 13 112 Objetivos Especiacuteficos 13
12 Metodologia13
13 Resultados Esperados e Limitaccedilotildees do Trabalho 14
14 Estrutura da Dissertaccedilatildeo 15
2 RECUPERACcedilAtildeO DE INFORMACcedilAtildeO 16
21 Histoacuterico 16
22 Modelos Claacutessicos de Recuperaccedilatildeo de Informaccedilatildeo 18 221 Modelo Booleano 18
2211 Operadores Booleanos19 2212 Operadores de Proximidade 20
222 Modelo Vetorial21 223 Modelo Probabiliacutestico 23
3 FUNDAMENTACcedilAtildeO TEacuteORICA25
31 A Proposta de Kuramoto 25 311 Extraccedilatildeo dos Sintagmas Nominais 27
3111 Extraccedilatildeo Automaacutetica de Sintagmas Nominais 29 312 A determinaccedilatildeo de uma estrutura para os SN 29
xi
313 Protoacutetipo Desenho da Interface de Busca31 314 Organizaccedilatildeo dos Sintagmas Nominais como Estrutura de Busca 32
32 A Teoria do Leacutexico Gerativo de Pustejovsky34 321 Estruturas do Leacutexico Gerativo36
3211 Estrutura de Argumento 37 3212 Estrutura de Evento 37 3213 Estrutura de Qualia 38 3214 Estrutura de Heranccedila Lexical 40
322 Sistema de Tipos Semacircnticos 41 322 Mecanismos gerativos 42
3221 Coerccedilatildeo de tipo42 3222 Ligaccedilatildeo seletiva 42 3223 Co-composiccedilatildeo 43
33 O Modelo TR+ de Gonzalez45
4 APRESENTACcedilAtildeO E DISCUSSAtildeO DO MODELO PROPOSTO 55
41 Procedimentos desenvolvidos utilizando o modelo de SN de Kuramoto e a proposta Gonzalez - ldquoEstrutura SINTR+rdquo55
42 Descriccedilatildeo Formal do Modelo Proposto SINTR+ 64
5 CONCLUSAtildeO77
6 REFEREcircNCIAS BIBLIOGRAacuteFICAS 80
61 Bibliografia Consultada82
ANEXO A - DOCUMENTO186
ANEXO B - DOCUMENTO288
ANEXO C - EXTRACcedilAtildeO MANUAL DE SN DOS DOCUMENTOS91
ANEXO D - FERRAMENTA1 DE TOQUENIZACcedilAtildeO E ETIQUETAGEM99
ANEXO D - FERRAMENTA2 DE TOQUENIZACcedilAtildeO E ETIQUETAGEM102
ANEXO E - PROCESSO DE NOMINALIZACcedilAtildeO105
12
1 INTRODUCcedilAtildeO
O tema ldquoRecuperaccedilatildeo de Informaccedilatildeordquo (RI) eacute importante para diversas aacutereas tais
como Biblioteconomia Linguumliacutestica Ciecircncia da Computaccedilatildeo entre outras Segundo Baeza-
Yates e Ribeiro-Neto (1999) na Ciecircncia da Computaccedilatildeo esse tema diz respeito agrave recuperaccedilatildeo
de dados e agrave recuperaccedilatildeo de informaccedilatildeo sendo ambos processos importantes e significativos
para a aacuterea
De acordo com os autores os sistemas de recuperaccedilatildeo de informaccedilatildeo lidam com
objetos linguumliacutesticos (textos) e por isso herdam toda a problemaacutetica inerente ao tratamento da
linguagem natural Jaacute a recuperaccedilatildeo de dados estaacute associada a sistemas gerenciadores de
banco de dados (ou simplesmente banco de dados) que ao organizaacute-los jaacute especificam de
forma bem definida a sua estrutura e por conseguinte a sua semacircntica
Um dos desafios na recuperaccedilatildeo de informaccedilatildeo conforme Ferneda (2003) diz
respeito a melhorar a relevacircncia dos resultados de uma busca de maneira que o usuaacuterio possa
encontrar todos os documentos que atendam agraves suas necessidades de informaccedilatildeo Em outras
palavras isto quer dizer que a busca seraacute precisa se conseguir retornar eou listar somente
documentos relacionados ao que o usuaacuterio expressou na definiccedilatildeo da sua busca
Diversos modelos de RI vecircm proporcionando melhorias significativas na relevacircncia
dos resultados De acordo com Baeza-Yates e Ribeiro-Neto (1999) em uma visatildeo centrada no
computador o problema de RI consiste principalmente na construccedilatildeo de iacutendices mais
eficientes no processamento de querys de usuaacuterios com alta performance e no
desenvolvimento de algoritmos de classificaccedilatildeo que melhorem a ldquoqualidaderdquo do conjunto de
respostas Apesar disso os meacutetodos utilizados nesses modelos ainda deixam a desejar natildeo
sendo capazes de recuperar a contento os documentos relevantes a uma consulta do usuaacuterio
Na maioria dos modelos de recuperaccedilatildeo de informaccedilatildeo existentes hoje o processo de
indexaccedilatildeo extrai cada palavra do texto de um documento e insere uma lista de palavras
ordenadas pela frequumlecircncia da palavra no texto Isto desfaz o trabalho intelectual do autor do
documento
Observa-se que diversas pesquisas de RI se focalizam nos algoritmos de busca por
documentos relevantes a partir de querys estabelecidas O foco nesses casos eacute determinar a
relevacircncia de documentos Para isso haacute vaacuterias metodologias desde medir o tempo de
13
permanecircncia do usuaacuterio no acesso a um documento ateacute a determinaccedilatildeo da quantidade de
consultas com querys semelhantes entre outras
Outro aspecto problemaacutetico relaciona-se ao fato de que as informaccedilotildees recuperadas
dependem tambeacutem da clareza do usuaacuterio ao expressar o que necessita Ou seja a dificuldade
natildeo se trata apenas de identificar e definir a relevacircncia dos resultados atraveacutes dos modelos
computacionais de RI que datildeo suporte ao processo da busca mas da capacidade do usuaacuterio de
formular uma expressatildeo de busca utilizando as palavras ou expressotildees de forma clara de
modo a representar os documentos desejados satisfazendo assim a sua necessidade
As palavras utilizadas pelo usuaacuterio possuem um significado claro para ele mas isso
natildeo eacute suficiente para uma boa recuperaccedilatildeo de informaccedilatildeo pois a Liacutengua Portuguesa segundo
Rossi (2003) apresenta muitas palavras iguais com significados diferentes (polissemia) que
variam de acordo com o contexto E haacute tambeacutem palavras diferentes em escrita e pronuacutencia
embora com significados iguais (sinoniacutemia) Ocorre ainda a combinaccedilatildeo de palavras que
segundo Martins e Zilberknop (1999) diz respeito a duas ou mais palavras que podem
combinar-se em ordem diferente designando ideacuteias completamente diversas
Esses aspectos da linguagem natural satildeo obstaacuteculos na obtenccedilatildeo de bons resultados
em um procedimento de recuperaccedilatildeo de informaccedilatildeo No caso da polissemia e da combinaccedilatildeo
de palavras pode ocorrer o aumento da taxa de ruiacutedos1 ou o incremento da taxa de silecircncio2
que acontecem no caso de sinoniacutemia Isto pode levar a um resultado de busca de documentos
que natildeo atenda agraves necessidades de informaccedilatildeo do usuaacuterio Portanto a existecircncia de uma
negociaccedilatildeo de significados entre usuaacuterio e maacutequina levaria possivelmente a resultados mais
relevantes
O surgimento das novas tecnologias da informaccedilatildeo e da comunicaccedilatildeo fez crescer o
volume de publicaccedilotildees na Internet Esse crescimento segundo Cardoso (2000) tem
dificultado ainda mais a recuperaccedilatildeo de informaccedilotildees relevantes Um aspecto positivo eacute a
facilidade de acesso pela Web (World Wide Web) aos acervos bibliograacuteficos de diversas
universidades brasileiras e mesmo do mundo inteiro Visto que o aumento do acervo torna
ainda mais complexa a busca por isso esperava-se que esses meacutetodos acompanhassem tal
desenvolvimento mas isto ainda natildeo aconteceu de forma satisfatoacuteria
A dificuldade aparece rapidamente nos vaacuterios mecanismos da Web como ldquoGooglerdquo
ldquoCaderdquo entre outros que ao serem acionados para buscar uma determinada informaccedilatildeo
1 Taxa de ruiacutedos eacute definida como sendo a relaccedilatildeo entre a quantidade de documentos recuperados natildeo pertinentes e a quantidade total de documentos 2 Taxa de silecircncio eacute definida como sendo a relaccedilatildeo entre a quantidade de documentos recuperados pertinentes natildeo recuperados e a quantidade total de documentos pertinentes na base de dados
14
listam centenas ou mesmo milhares de referecircncias como resposta sendo normalmente destas
relevantes apenas as primeiras Aleacutem disso ao se utilizarem as mesmas palavras em diferentes
mecanismos (sites) de pesquisa os resultados variam segundo Hill (1999) devido agraves rotinas
automatizadas de pesquisa diferenciadas
O usuaacuterio precisa ainda utilizar palavras-chave para dar foco agrave sua pesquisa Segundo
Baeza-Yates e Ribeiro-Neto (1999) o interessante seria jaacute poder dizer ldquoDecirc-me dados
estatiacutesticos sobre a equipe da seleccedilatildeo brasileira de basquete no ano de 2004rdquo Mas apesar de a
tecnologia da Internet estar progredindo ainda se estaacute bastante distante desse estaacutegio
Uma linha de pesquisa que tem como representante o trabalho de Kuramoto (1999)
procura abordar a questatildeo da RI desde a perspectiva do apoio ao usuaacuterio na formulaccedilatildeo da
query de busca A expectativa eacute oferecer jaacute no momento da formulaccedilatildeo da query um apoio
interativo para o estabelecimento de uma chave mais adequada ao contexto real da busca A
proposta de Kuramoto eacute baseada na determinaccedilatildeo dos Sintagmas Nominais (SN) de um
domiacutenio de aplicaccedilatildeo
O uso de SN permite um processo de refinamento da busca A forma de navegar
pelos niacuteveis de SN intensifica a interaccedilatildeo entre o usuaacuterio e o computador (KURAMOTO
2002) A interface de busca passa a dar um suporte para o usuaacuterio na formulaccedilatildeo de sua query
antes de listar todos os documentos
A proposta de utilizaccedilatildeo de uma interface de apoio utilizando SN configura-se como
inovadora pois natildeo se tem conhecimento de outra proposiccedilatildeo que considere o fato de que nem
sempre o usuaacuterio eacute capaz de explicitar a sua necessidade de informaccedilatildeo em uma uacutenica
expressatildeo de busca
Segundo Kuramoto (2002) as palavras como unidades de um dicionaacuterio natildeo contecircm
qualquer substacircncia Elas adquirem essa substacircncia no momento em que se inserem no
universo do discurso ou seja as palavras inseridas no texto de um documento assumem um
significado especiacutefico
Percebe-se que essa linha de pesquisa eacute bastante promissora e que a aacuterea de
Linguumliacutestica pode oferecer alternativas interessantes uma delas foi vislumbrada na teoria do
Leacutexico Gerativo (LG) de Pustejovsky (1991) Nessa teoria Pustejovsky buscando dar conta
da polissemia loacutegica das palavras propondo uma estrutura para a semacircntica de uma liacutengua da
mesma forma que a sintaxe eacute estruturada Na estrutura proposta por Pustejovsky a
componente principal eacute a estrutura de dimensotildees de significados (denominada de Estrutura de
Qualia)
15
Uma palavra escrita pelo usuaacuterio pode ser utilizada pelos documentos de um acervo
e portanto identificada pela maacutequina atraveacutes de seus modelos de RI com um sentido
completamente diferente do contexto imaginado pelo usuaacuterio Para a palavra ldquojornalrdquo por
exemplo o usuaacuterio pode estar se referindo ao preacutedio onde fica o jornal ou ao objeto fiacutesico
propriamente dito ou ateacute mesmo ao conteuacutedo do jornal (informaccedilatildeo contida)
A Estrutura de Qualia auxilia a RI na identificaccedilatildeo de qual sentido mais especiacutefico o
usuaacuterio busca dessa forma esta estrutura poderia classificar os documentos contendo a palavra
ldquojornalrdquo segundo as diferentes qualia envolvidas Isso representaria um refinamento
importante na busca que poderia resultar em mais satisfaccedilatildeo para o usuaacuterio e portanto mais
eficiecircncia dos mecanismos de busca O reconhecimento da importacircncia da teoria de
Pustejovsky pode ser constatado na existecircncia de trabalhos relacionados na liacutengua portuguesa
como eacute o caso da pesquisa de Abrahatildeo (1997) que desenvolveu a modelagem e a
implementaccedilatildeo de um leacutexico semacircntico para a nossa Liacutengua a partir de um estudo
aprofundado da teoria de Pustejovsky
Aleacutem disso uma outra questatildeo importante a ressaltar eacute que existem problemas
ligados agrave definiccedilatildeo das palavras Essa criacutetica segundo Rossi (2003) se fundamenta no fato de
os lexicoacutegrafos3 parecerem atuar de maneira mais intuitiva do que propriamente fazer uso de
teorias semacircnticas que decircem o devido suporte agrave tarefa de definir um item lexical Rossi (2003)
reforccedila que muitos dicionaacuterios nem sempre prevecircem a polissemia subjacente aos itens
lexicais
Outro trabalho pesquisado que permitiu uma ampliaccedilatildeo do modelo proposto nesta
dissertaccedilatildeo foi o de Gonzalez (2005) com o seu modelo TR+ Este modelo natildeo utiliza
sistematicamente a Estrutura de Qualia aparecendo esta apenas impliacutecita principalmente a
parte formal das palavras As palavras e seus relacionamentos ganham em Gonzalez uma
importacircncia contextual pelo caacutelculo de um peso (peso de descritores) que busca manter sua
unidade significativa
A abordagem proposta para este trabalho orienta-se na melhoria da query de busca
dos usuaacuterios A pesquisa siacutentese e sistematizaccedilatildeo da proposta de Kuramoto (1999) e do
modelo de Gonzalez (2005) possibilitaram o desenvolvimento de um novo modelo chamado
3 Lexicoacutegrafos satildeo autores de dicionaacuterios ou seja dicionaristas
de SINTR+ Esse modelo utiliza a formulaccedilatildeo de consulta em RI apresentando os Sintagmas
Nominais referentes a esta consulta e com isto inicia a interaccedilatildeo com o usuaacuterio onde o mesmo
13
escolhe o SN de niacutevel apropriado e a partir daiacute haacute sistematizaccedilatildeo com o modelo TR+ de
Gonzalez
Pretende-se por um lado ajudar e apoiar o usuaacuterio a melhor especificar sua query no
contexto real da sua busca por outro lado potencializa-se o tempo tanto na fase de indexaccedilatildeo
como na de busca e reduz-se o espaccedilo utilizado de memoacuteria para dados na base
11 Objetivos
111 Objetivo Geral
Descrever a partir da identificaccedilatildeo das possibilidades de ampliaccedilatildeo de siacutentese e de
sistematizaccedilatildeo das propostas de Kuramoto e de Gonzalez um novo modelo para um sistema
informatizado de suporte ao usuaacuterio na definiccedilatildeo da sua query de busca durante um processo
de recuperaccedilatildeo de informaccedilatildeo
112 Objetivos Especiacuteficos
a) Analisar as propostas citadas buscando a sua sistematizaccedilatildeo e identificaccedilatildeo de alternativas
de implementaccedilatildeo e ampliaccedilatildeo
b) Definir o modelo conceitual do sistema desejado atraveacutes da sua anaacutelise de domiacutenio
representando-o a partir dos seus diagramas de classes e de sequumlecircncia
c) Avaliar exploratoriamente o modelo desenhado a partir da construccedilatildeo de exemplos
demonstrativos das suas principais propriedades
12 Metodologia
Para a construccedilatildeo deste trabalho inicialmente foi realizada uma revisatildeo bibliograacutefica
a partir de livros artigos e outros materiais disponiacuteveis referentes ao assunto em questatildeo
fundamentalmente sobre a aacuterea de Recuperaccedilatildeo de Informaccedilatildeo A metodologia utilizada para
desenvolver este trabalho baseou-se no cronograma de etapas a serem desenvolvidas descritas
a seguir
14
a) Estudo e identificaccedilatildeo das diferentes alternativas e abordagens atualmente desenvolvidas
para a aacuterea de recuperaccedilatildeo de informaccedilotildees
b) Formulaccedilatildeo da proposta de trabalho definiccedilatildeo do escopo e da fundamentaccedilatildeo da proposta
c) Estudo das teorias de base para a construccedilatildeo do modelo teoria do Leacutexico Gerativo de
James Pustejovsky e o modelo de Kuramoto E apoacutes um estudo de Abrahatildeo e Gonzalez
d) Esboccedilo do modelo para o sistema proposto
e) Especificaccedilatildeo dos requisitos do sistema proposto
f) Construccedilatildeo da anaacutelise de domiacutenio definiccedilatildeo do modelo conceitual
g) Construccedilatildeo dos diagramas de classes e de sequumlecircncia para o modelo
h) Construccedilatildeo de exemplos de aplicaccedilatildeo do modelo
i) Anaacutelise e conclusotildees finais
13 Resultados Esperados e Limitaccedilotildees do Trabalho
A principal contribuiccedilatildeo deste trabalho reside no fato de sistematizar as teorias de
Kuramoto Pustejovsky e Gonzalez construindo um novo modelo que amplia as
potencialidades das propostas de Kuramoto e Gonzalez melhorando os resultados do processo
de recuperaccedilatildeo de informaccedilotildees Esta melhoria ocorre em relaccedilatildeo agrave diminuiccedilatildeo do tempo de
busca dos documentos e agrave relevacircncia dos resultados encontrados por meio da junccedilatildeo de
diferentes modelos para os processos de indexaccedilatildeo e busca
A princiacutepio o modelo construiacutedo eacute antevisto como aplicaacutevel a bases de documentos
natildeo distribuiacutedas e contidas a um determinado domiacutenio de aplicaccedilatildeo mas jaacute eacute possiacutevel
perceber formas de adaptaacute-lo expandindo-o para seu uso na Web
Este trabalho natildeo tem o intuito de gerar uma implementaccedilatildeo computacional
completa do modelo proposto propotildee-se antes a demonstrar a viabilidade desta
implementaccedilatildeo descrevendo os diagramas e as descriccedilotildees dos casos de uso e a sua
modelagem conceitual culminando a construccedilatildeo dos diagramas de classes e de sequumlecircncia A
anaacutelise das potencialidades e limitaccedilotildees do modelo deveraacute ser possiacutevel a partir da realizaccedilatildeo
de estudos de casos onde se determine a complexidade computacional da implementaccedilatildeo
requerida
15
14 Estrutura da Dissertaccedilatildeo
O trabalho apresenta um capiacutetulo introdutoacuterio que orienta os toacutepicos do projeto e o
desenvolvimento da pesquisa aleacutem de sintetizar os resultados que seratildeo explorados na
conclusatildeo
O Capiacutetulo 2 a seguir aborda temas e definiccedilotildees da aacuterea de RI mostrando a sua
histoacuteria e tambeacutem discute o funcionamento e as vantagens e desvantagens dos modelos
claacutessicos de RI
No Capiacutetulo 3 apresenta-se a fundamentaccedilatildeo teoacuterica desta dissertaccedilatildeo onde satildeo
abordados trecircs autores Primeiramente apresenta-se a Proposta de Kuramoto que se baseia nos
niacuteveis de Sintagmas Nominais sendo exposto o protoacutetipo de interaccedilatildeo entre usuaacuterio e maacutequina
desenvolvido por este autor Na Teoria do Leacutexico Gerativo de Pustejovsky deu-se ecircnfase agrave
apresentaccedilatildeo da Estrutura de Qualia pois eacute a que foi julgada mais adequada para a aplicaccedilatildeo
no modelo proposto apresenta-se tambeacutem uma anaacutelise do estudo de Abrahatildeo Por fim
discute-se e apresenta-se o trabalho de Gonzalez e do seu modelo TR+ que possibilitou
juntamente com a proposta de Kuramoto sistematizar a proposta desta dissertaccedilatildeo
No Capiacutetulo 4 eacute desenvolvida a proposta do sistema SINTR+ atraveacutes dos diagramas e
das descriccedilotildees dos casos de uso do modelo o modelo conceitual os diagramas de classes e de
sequumlecircncia juntamente com exemplos demonstrativos das suas propriedades
No Capiacutetulo 5 tecircm-se as conclusotildees referentes ao trabalho bem como as sugestotildees
para continuidade desse foco de pesquisa
O Capiacutetulo 6 apresenta as referecircncias bibliograacuteficas utilizadas para a realizaccedilatildeo deste
trabalho bem como a bibliografia consultada para a compreensatildeo de conceitos abordados na
dissertaccedilatildeo finalizando com os anexos
16
2 RECUPERACcedilAtildeO DE INFORMACcedilAtildeO
Neste capiacutetulo apresentam-se o histoacuterico e os modelos claacutessicos da aacuterea de
recuperaccedilatildeo de informaccedilatildeo O objetivo ao abordar esses toacutepicos eacute delinear uma visatildeo geral da
aacuterea a partir de diversos modelos de RI apontando algumas de suas principais vantagens e
desvantagens Dar-se-aacute destaque ao fato de que os algoritmos de relevacircncia utilizados para
recuperar os documentos desconsideram o contexto da query de busca
21 Histoacuterico
Em 1951 segundo Baeza-Yates e Ribeiro-Neto (1999) Calvin Mooers criou o termo
ldquoInformation Retrievalrdquo (Recuperaccedilatildeo de Informaccedilatildeo) e definiu os problemas a serem
abordados por esta nova aacuterea de pesquisa a qual despertou o interesse principalmente de
bibliotecaacuterios e ldquoexpertsrdquo da informaccedilatildeo
No contexto da Ciecircncia da Informaccedilatildeo segundo Ferneda (2003 p 14)
o termo ldquoRecuperaccedilatildeo de Informaccedilatildeordquo significa para uns a operaccedilatildeo pela qual se seleciona documentos a partir do acervo em funccedilatildeo da demanda do usuaacuterio Para outros ldquoRecuperaccedilatildeo de Informaccedilatildeordquo consiste no fornecimento a partir de uma demanda definida pelo usuaacuterio dos elementos de informaccedilatildeo documentaacuteria correspondentes O termo pode ainda ser empregado para designar a operaccedilatildeo que fornece uma resposta mais ou menos elaborada a uma demanda e esta resposta eacute convertida num produto cujo formato eacute acordado com o usuaacuterio (bibliografia nota de siacutentese etc) Haacute ainda autores que conceituam a recuperaccedilatildeo de informaccedilatildeo de forma muito mais ampla ao subordinar agrave mesma o tratamento da informaccedilatildeo (catalogaccedilatildeo indexaccedilatildeo classificaccedilatildeo)
Para alguns autores segundo Cardoso (2000) RI eacute dita como uma subaacuterea da Ciecircncia
da Computaccedilatildeo que estuda o armazenamento e a recuperaccedilatildeo automaacutetica de documentos que
satildeo objetos de dados geralmente textos Para Baeza-Yates e Ribeiro-Neto (1999) o termo
ldquoRecuperaccedilatildeo de Informaccedilatildeordquo trata da representaccedilatildeo do armazenamento da organizaccedilatildeo e do
acesso aos itens da informaccedilatildeo
De acordo com Ferneda (2003) foi a partir dos experimentos de Hans Peter Luhn
(Engenheiro pesquisador da IBM) na indexaccedilatildeo automaacutetica e na elaboraccedilatildeo automaacutetica de
resumos que surgiram os primeiros resultados significativos no tratamento computacional da
informaccedilatildeo Com isto ldquoLuhn foi durante vaacuterios anos o criador de inuacutemeros projetos que
visavam modificar radicalmente meacutetodos tradicionais de armazenamento tratamento e
17
recuperaccedilatildeo de informaccedilatildeo Em 1961 jaacute acumulava cerca de 80 patentes nos Estados Unidosrdquo
(FERNEDA 2003 p 10-11) Estes dados mostram a importacircncia de Luhn no tratamento da
recuperaccedilatildeo de informaccedilotildees
Em 1960 segundo Ferneda (2003) foi desenvolvido os princiacutepios baacutesicos do modelo
probabiliacutestico para a Recuperaccedilatildeo de Informaccedilatildeo por Maron e Kuhns que foi mais tarde
definido por Robertson e Jones (1976) A deacutecada de 60 foi fundamental em experimentos
desta natureza ldquoem meados dos anos 60 inicia-se uma longa seacuterie de experimentos que
constitui um marco na Recuperaccedilatildeo de Informaccedilatildeo o projeto SMARTrdquo (FERNEDA 2003
p11) Este autor destaca que este projeto foi desenvolvido por Gerard Salton que se
especializou na pesquisa destas evoluccedilotildees na recuperaccedilatildeo de informaccedilotildees produzindo
inuacutemeros artigos cientiacuteficos um modelo de recuperaccedilatildeo de informaccedilatildeo a criaccedilatildeo e o
aprimoramento de diversas teacutecnicas computacionais aleacutem de o sistema SMART
Estes sistemas de recuperaccedilatildeo de informaccedilatildeo geralmente se baseiam na contagem de
frequumlecircncia das palavras do texto e na eliminaccedilatildeo de palavras reconhecidamente de pouca
relevacircncia (FERNEDA 2003) Um exemplo disso satildeo os meacutetodos automaacuteticos de indexaccedilatildeo
de recuperaccedilatildeo de informaccedilatildeo que utilizam ldquofiltrosrdquo para eliminar palavras de pouca
significaccedilatildeo (stopwords4 e noun groups5) aleacutem de normalizar os termos reduzindo-os a seus
radicais Esse processo eacute conhecido como stemming6
Ferneda evidencia que os trabalhos de Luhn e Salton inicialmente natildeo se
preocupavam com a anaacutelise semacircntica das palavras e que seus estudos colaboraram para com
a evoluccedilatildeo atual das pesquisas
Nos trabalhos de Luhn e Salton observa-se inicialmente uma crenccedila de que meacutetodos puramente estatiacutesticos seriam suficientes para tratar os problemas relacionados agrave recuperaccedilatildeo de informaccedilatildeo Poreacutem no transcorrer de suas pesquisas percebe-se uma busca por meacutetodos de anaacutelise semacircntica mais sofisticada Desde os seus primeiros trabalhos Salton se mostra interessado pela utilizaccedilatildeo de processos de tratamento da linguagem natural na recuperaccedilatildeo de informaccedilatildeo Em livro de 1983 Salton e McGill apresentam em um capiacutetulo intitulado Future directions in Information Retrieval a aplicaccedilatildeo do processamento da linguagem natural e da loacutegica fuzzy na recuperaccedilatildeo de informaccedilatildeo apontando a direccedilatildeo de futuras pesquisas para a Inteligecircncia Artificial (FERNEDA 2003 p 12)
Estas contribuiccedilotildees tecircm suas principais ideacuteias presentes ainda na maioria dos
sistemas de recuperaccedilatildeo atuais e nos mecanismos de busca da Web Como aparece na estrutura
de componentes de um sistema de recuperaccedilatildeo de informaccedilatildeo que seguem geralmente um
modelo de funcionamento como demonstrado por Cardoso (2000)
4 Stop Words eliminaccedilatildeo de artigos e conectivos 5 Noun Groups eliminaccedilatildeo de adjetivos adveacuterbios e verbos 6 Stemming reduccedilatildeo de uma palavra ao seu radical Exemplo Engineering Engineer
18
Figura 1 Componentes de um Sistema de Recuperaccedilatildeo de Informaccedilatildeo Fonte GEY apud CARDOSO 2000
22 Modelos Claacutessicos de Recuperaccedilatildeo de Informaccedilatildeo
221 Modelo Booleano
A aacutelgebra booleana eacute um sistema binaacuterio no qual existem somente dois valores
possiacuteveis para qualquer siacutembolo algeacutebrico ldquoverdadeirordquo ou ldquofalsordquo O modelo booleano eacute um
modelo de recuperaccedilatildeo simples baseado na teoria dos conjuntos e na aacutelgebra booleana Aleacutem
disso as querys satildeo especificadas atraveacutes de expressotildees booleanas que tecircm semacircnticas
precisa
Segundo Baeza-Yates e Ribeiro-Neto (1999) e Gonzalez (2000) a simplicidade e o
formalismo claro do modelo booleano recebiam grande atenccedilatildeo nos anos passados sendo
adotados por muitos sistemas comerciais bibliograacuteficos
A estrateacutegia de recuperaccedilatildeo desse modelo eacute baseada em um criteacuterio de decisatildeo
binaacuteria por exemplo um documento pode ser relevante ou natildeo relevante sem noccedilatildeo de escala
de classificaccedilatildeo que previna um bom desempenho na recuperaccedilatildeo Deste modo o modelo
booleano eacute na verdade muito mais um modelo de recuperaccedilatildeo de dados (em vez de
informaccedilatildeo)
19
Aleacutem disso conforme Baeza-Yates e Ribeiro-Neto (1999) enquanto expressotildees
booleanas tecircm semacircnticas precisas frequumlentemente natildeo eacute simples traduzir uma informaccedilatildeo
precisa dentro de uma expressatildeo booleana O modelo booleano prediz que cada documento eacute
relevante ou irrelevante Natildeo existe noccedilatildeo de um resultado (matching) parcial para as
condiccedilotildees da query
As principais vantagens do modelo booleano satildeo o formalismo claro oculto sobre o
modelo e sua simplicidade As principais desvantagens encontram-se no resultado exato que
pode recuperar poucos ou muitos documentos
Figura 2 Exemplo dos trecircs componentes conjuntivos para query Fonte BAEZA-YATES RIBEIRO-NETO 1999
2211 Operadores Booleanos
Os operadores booleanos funcionam atraveacutes de uma expressatildeo booleana para
formulaccedilatildeo de buscas Isto ocorre por meio de operadores loacutegicos AND OR e NOT (E OU e
NAtildeO) Conforme exemplo de Ferneda (2003) a recuperaccedilatildeo de informaccedilatildeo se daraacute em uma
expressatildeo conjuntiva de enunciado t1 AND t2 que recuperaraacute documentos indexados por
ambos os termos (t1 e t2) Isso equivale e permite aparecer agrave intersecccedilatildeo do conjunto dos
documentos indexados pelo termo t1 com o conjunto dos documentos indexados pelo termo
t2
Figura 3 Representaccedilatildeo do resultado de uma expressatildeo booleana conjuntiva (AND) Fonte FERNEDA 2003
20
O autor demonstra que uma expressatildeo disjuntiva t1 OR t2 recuperaraacute o conjunto dos
documentos indexados pelo termo t1 ou pelo termo t2 Isto equivale e possibilita agrave uniatildeo entre
o conjunto dos documentos indexados pelo termo t1 e o conjunto dos documentos indexados
pelo termo t2 (FERNEDA 2003)
Figura 4 Resultado de uma busca booleana disjuntiva (OR) Fonte FERNEDA 2003
2212 Operadores de Proximidade
No modelo booleano existem os operadores de proximidade que permitem
especificar condiccedilotildees relacionadas agrave distacircncia e agrave posiccedilatildeo dos termos no texto Um operador
de proximidade bastante comum nos sistemas de RI e nos mecanismos de busca da Web eacute o
operador ADJ (FERNEDA 2003) Esse operador permite pesquisar duas palavras adjacentes
no texto de um documento na ordem especificada na expressatildeo de busca por exemplo a
expressatildeo recuperaccedilatildeo ADJ informaccedilatildeo teraacute como resultado os documentos que tiverem a
palavra ldquorecuperaccedilatildeordquo seguida da palavra ldquoinformaccedilatildeordquo ou seja recuperaraacute documentos que
contecircm a expressatildeo ldquorecuperaccedilatildeo informaccedilatildeordquo Tambeacutem pode ser utilizado um termo
composto delimitando as suas palavras com aspas por exemplo ldquorecuperaccedilatildeo de
informaccedilatildeordquo
O modelo booleano de acordo com Ferneda (2003) possui limitaccedilotildees que o torna
pouco atrativo satildeo elas
bull O resultado de uma busca booleana se caracteriza por dois subconjuntos os que
atendem agrave expressatildeo de busca e aqueles que natildeo atendem Presume-se que todos
os documentos recuperados satildeo de igual utilidade para o usuaacuterio Natildeo haacute nenhum
mecanismo pelos quais os documentos possam ser ordenados
bull O usuaacuterio leigo se natildeo tiver um treinamento apropriado formularaacute somente
buscas simples Para buscas com expressotildees mais complexas eacute necessaacuterio um
conhecimento da loacutegica booleana
21
bull Natildeo existe uma forma de atribuir importacircncia relativa aos diferentes termos da
expressatildeo booleana Assume-se implicitamente que todos os termos tecircm o mesmo
peso
222 Modelo Vetorial
O modelo vetorial segundo Baeza-Yates e Ribeiro-Neto (1999) reconhece que o uso
de pesos binaacuterios eacute tambeacutem limitante e propotildee uma estrutura em que eacute possiacutevel a resposta
(matching) parcial Isto eacute feito atribuindo-se pesos natildeo binaacuterios aos termos indexados em
querys e em documentos Esses pesos de termos satildeo enfim utilizados para calcular o grau de
similaridade entre cada documento armazenado no sistema e a expressatildeo de busca formulada
pelo usuaacuterio (querys) Como a classificaccedilatildeo dos documentos recuperados eacute feita em ordem
decrescente desse grau de similaridade o modelo vetorial leva em consideraccedilatildeo documentos
que se igualem aos termos de querys somente parcialmente
O modelo vetorial de acordo com Cardoso (2000) e Gonzalez (2000) representa
documentos e consultas como vetores de termos Os termos satildeo ocorrecircncias uacutenicas nos
documentos Os documentos retornados como resultado para uma consulta satildeo representados
similarmente isto quer dizer que o vetor resultado para uma consulta eacute montado atraveacutes de um
caacutelculo de similaridade Aos termos das consultas e dos documentos satildeo atribuiacutedos pesos que
especificam o tamanho e a direccedilatildeo de seu vetor de representaccedilatildeo O acircngulo formado por esses
vetores determina a proximidade da ocorrecircncia E o caacutelculo da similaridade eacute baseado no
acircngulo entre os vetores que representam o documento e a consulta
Cardoso (2000) descreve ainda que os pesos quantificam a relevacircncia de cada termo
para as consultas (Wiq) e para os documentos (Wid) no espaccedilo vetorial Segundo Cardoso
(2000 p 03) ldquopara o caacutelculo dos pesos Wiq e Wid utiliza-se uma teacutecnica que faz o
balanceamento entre as caracteriacutesticas do documento utilizando o conceito de frequumlecircncia de
um termo num documentordquo Desta forma se uma coleccedilatildeo possui N documentos e teremos o nti
que eacute a quantidade de documentos que possuem o termo ti com isto o inverso da frequumlecircncia
do termo na coleccedilatildeo ou idf (inverse documento frequency) eacute dado pela foacutermula de Cardoso
(2000) abaixo
idfi = log (Nni)
22
Esse valor eacute possiacutevel usando a foacutermula para calcular o peso Wid = freq(tid) x idfi
que eacute o produto da frequumlecircncia do termo no documento pelo inverso da frequumlecircncia do termo na
coleccedilatildeo
No modelo vetorial um documento eacute representado por um vetor em que cada
elemento representa o peso ou a relevacircncia do respectivo termo de indexaccedilatildeo para o
documento Cada elemento do vetor (peso) eacute normalizado de forma a assumir valores entre
zero e um Os pesos mais proacuteximos de um (1) indicam termos com maior importacircncia para a
descriccedilatildeo do documento E termos que natildeo estatildeo presentes em um determinado documento
possuem peso igual a zero
Da mesma forma que os documentos no modelo vetorial uma expressatildeo de busca
conforme Baeza-Yates e Ribeiro-Neto (1999) tambeacutem eacute representada por um vetor numeacuterico
em que cada elemento representa a importacircncia (peso) do respectivo termo na expressatildeo de
busca
Diversos documentos e termos de indexaccedilatildeo podem ser representados atraveacutes de uma
matriz na qual cada linha representa um documento e cada coluna representa a associaccedilatildeo de
um determinado termo aos vaacuterios documentos
Figura 5 O co-seno do acircngulo adaptado como similar (dj q) Fonte BAEZA-YATES RIBEIRO-NETO 1999
Um exemplo de uso do modelo vetorial eacute o sistema SMART7 citado anteriormente
este sistema representa por valor numeacuterico cada documento e seu respectivo termo na
descriccedilatildeo do documento Segundo Ferneda (2003) o sistema SMART fornece um meacutetodo
automaacutetico que trata aleacutem do caacutelculo dos pesos dos vetores que representam os documentos
tambeacutem trata os vetores das expressotildees de busca
As principais vantagens do modelo vetorial segundo Baeza-Yates e Ribeiro-Neto
(1999) satildeo (1) esquema de pesos de termos melhora o desempenho da recuperaccedilatildeo (2)
estrateacutegias de resposta (matching) parcial permitem a recuperaccedilatildeo de documentos que se
aproximem de condiccedilotildees de query e (3) foacutermula de classificaccedilatildeo do co-seno ordena os
documentos de acordo com o grau de similaridade da query A desvantagem desse modelo de
23
acordo com os autores diz respeito agraves dependecircncias de termos prejudicando especialmente o
desempenho
Cardoso (2000) considera como principais vantagens do modelo vetorial a sua
simplicidade a facilidade de se computarem similaridades com eficiecircncia e o fato de que se
comporta bem com coleccedilotildees geneacutericas
223 Modelo Probabiliacutestico
O modelo probabiliacutestico foi introduzido de acordo com Baeza-Yates e Ribeiro-Neto
(1999) em 1976 por Roberston e Sparck Jones que mais tarde tornou-se como o modelo
Binary Independence Retrieval (BIR)
Na Matemaacutetica a teoria das probabilidades estuda os experimentos aleatoacuterios que
conforme Ferneda (2003 p 35) repetidos em condiccedilotildees idecircnticas podem apresentar resultados diferentes e imprevisiacuteveis Isso ocorre por exemplo quando se observa a face superior de um dado apoacutes o seu lanccedilamento ou quando se verifica o naipe de uma carta retirada de um baralho Por apresentarem resultados imprevisiacuteveis eacute possiacutevel apenas estimar a possibilidade ou a chance de um determinado evento ocorrer Para descrever matematicamente um experimento aleatoacuterio eacute necessaacuterio inicialmente identificar o conjunto de todos os seus possiacuteveis resultados A este conjunto daacute-se o nome de espaccedilo amostral
Entendendo-se uma busca como um experimento aleatoacuterio segundo Robertson e
Jones eacute possiacutevel descrever o seu espaccedilo amostral como composto de quatro possibilidades
pois dada uma expressatildeo de busca pode-se dividir a base de documentos em quatro
subconjuntos distintos o conjunto dos documentos relevantes (Rel) o conjunto dos
documentos recuperados (Rec) o conjunto dos documentos relevantes e recuperados (RR) e o
conjunto dos documentos natildeo relevantes e natildeo recuperados O conjunto dos documentos
relevantes e recuperados (RR) eacute resultante da intersecccedilatildeo dos conjuntos Rel e Rec
(FERNEDA 2003)
O conjunto de documentos resultantes da primeira busca eacute ordenado atraveacutes de uma
forma de ordenaccedilatildeo padratildeo tradicional Tendo esse conjunto de documentos o usuaacuterio
seleciona alguns deles que considera relevantes para a sua necessidade O sistema utiliza essa
informaccedilatildeo para tentar melhorar os resultados subsequumlentes
A principal virtude do modelo probabiliacutestico estaacute em reconhecer que a atribuiccedilatildeo de
relevacircncia eacute uma tarefa do usuaacuterio Eacute o uacutenico modelo que segundo Baeza-Yates e Ribeiro-
7 SMART (Sistem for the Manipulation and Retrieval of Text)
24
Neto (1999) e Gonzalez (2000) incorpora explicitamente o processo de Relevance Feedback
como base para a sua operacionalizaccedilatildeo
Uma simplificaccedilatildeo bastante questionaacutevel estaacute no fato de o modelo considerar os
pesos dos termos de indexaccedilatildeo como sendo binaacuterios ou seja no modelo probabiliacutestico natildeo eacute
considerada a frequumlecircncia com que os termos ocorrem no texto dos documentos
Em geral os modelos de RI desconsideram o contexto das palavras informadas pelo
usuaacuterio por isso tendem a retornar poucos documentos relevantes em uma consulta Para isso
pretende-se mostrar no capiacutetulo seguinte com a ajuda da Linguumliacutestica possiacuteveis abordagens
que podem apoiar o usuaacuterio considerando o seu contexto de busca e listando documentos
relevantes
25
3 FUNDAMENTACcedilAtildeO TEacuteORICA
Neste capiacutetulo buscou-se apresentar uma siacutentese dos trabalhos que datildeo base ao
modelo apresentado nesta dissertaccedilatildeo Satildeo eles a Proposta de Kuramoto a Teoria do Leacutexico
Gerativo e o Modelo de Gonzalez A Proposta de Kuramoto baseia-se em uma hierarquizaccedilatildeo
em niacuteveis de Sintagmas Nominais Na Teoria do Leacutexico Gerativo de Pustejovsky mostram-se
as estruturas compostas e deu-se destaque agrave Estrutura de Qualia julgada mais adequada para a
aplicaccedilatildeo no trabalho proposto Analisou-se o estudo de Abrahatildeo a partir de Pustejovsky A
terceira teoria de Gonzalez apresenta uma proposta automatizada com o modelo TR+
31 A Proposta de Kuramoto
Neste capiacutetulo apresentam-se os conceitos e as caracteriacutesticas da proposta de
Kuramoto que se baseia na determinaccedilatildeo de Sintagmas Nominais (SN) de uma query A sua
proposta preocupa-se em buscar os SN uma vez que satildeo considerados como importante
elemento de uma frase sendo entendidos como o nuacutecleo significativo (cerne) de uma oraccedilatildeo
Em sua tese de doutorado Kuramoto relata que todo o trabalho de reconhecimento e
extraccedilatildeo de SN dos documentos foi realizado de forma natildeo automatizada Isto auxiliou na
elaboraccedilatildeo de um modelo para reconhecimento extraccedilatildeo e indexaccedilatildeo de SN inseridos na
amostra do protoacutetipo desenvolvido
O modelo proposto por Kuramoto refere-se ao aproveitamento dos SN organizado
hierarquicamente em ldquoaacutervoresrdquo criando um novo conceito de indexaccedilatildeo que pode introduzir
inovaccedilatildeo em termos de uma interface de busca
Esse modelo de interface de acordo com Kuramoto (2002) permitiria que o usuaacuterio
navegasse no conjunto de SN ateacute encontrar o que melhor atendesse agrave sua necessidade de
informaccedilatildeo Somente apoacutes esse procedimento o usuaacuterio teria entatildeo acesso aos documentos de
onde foram extraiacutedos os SN Tal processo proporcionaria ao usuaacuterio um maior conhecimento
sobre a base de dados que estaacute sendo consultada uma vez que lhe permitiria reconhecer a
estrutura de sintagmas nominais presentes nos documentos pertencentes ao sistema
Os processos de indexaccedilatildeo automaacutetica utilizados em modelos de RI segundo Michel
Le Guern (1984 apud KURAMOTO 1995) deveriam extrair dos documentos informaccedilotildees
26
que facilitassem a recuperaccedilatildeo para o usuaacuterio e natildeo siacutembolos sem referecircncia como considera
que satildeo as palavras
Para Silva e Koch (1993) toda frase de uma liacutengua constitui uma organizaccedilatildeo ou
seja uma combinaccedilatildeo de elementos linguumliacutesticos agrupados conforme certos princiacutepios que a
caracterizam como uma estrutura Para Baeza-Yates e Ribeiro-Neto (1999) grande parte da
semacircntica do documento ou da requisiccedilatildeo do usuaacuterio eacute perdida quando se substitui o texto
completo por um conjunto de palavras
Aparentemente um conjunto de frases de nossa liacutengua de acordo com Silva e Koch
(1993) tem pouco em comum variando quanto agrave extensatildeo ao sentido agraves palavras de que se
compotildeem e agrave ordem em que essas se apresentam Apesar da aparente diversidade as frases
possuem uma organizaccedilatildeo interna que segue princiacutepios gerais bem definidos de modo que o
falante seraacute capaz de dizer se uma sequumlecircncia de palavras a) se estaacute de acordo com o sistema
gramatical da liacutengua b) se se apresenta completa ou incompleta c) se eacute passiacutevel de
interpretaccedilatildeo semacircntica
Conforme Silva e Koch (apud ABREU et al 2004 p03) ldquoo sintagma consiste num
conjunto de elementos que constituem uma unidade significativa dentro da oraccedilatildeo e que
mantecircm entre si relaccedilotildees de dependecircncia e de ordemrdquo As palavras se combinam em conjuntos
em torno de um nuacutecleo Esses conjuntos os sintagmas desempenham uma funccedilatildeo no conjunto
maior que eacute a frase Para Liberato (apud PARREIRAS 2003) o SN eacute a parte do enunciado
que representa um conceito ou referente
Assim por exemplo nos conjuntos de sintagmas ndash David o estudante a menina
doente e minha filha ndash o nuacutecleo eacute um elemento nominal (nome ou pronome) tratando-se
portanto de sintagmas nominais Nos conjuntos ndash viajou de carro dormiu e levaraacute a
encomenda ndash o elemento fundamental eacute o verbo de modo que se tecircm nesses casos sintagmas
verbais
A natureza do sintagma depende portanto do tipo de elemento que constitui o seu
nuacutecleo aleacutem do sintagma nominal (SN) e do sintagma verbal (SV) existem os sintagmas
adjetivais (SA) que tecircm por nuacutecleo um adjetivo e os sintagmas preposicionais (SP) formados
normalmente de preposiccedilatildeo mais sintagma nominal (SILVA KOCH 1993)
Na estrutura da oraccedilatildeo em sua forma de base aparecem como constituintes
obrigatoacuterios o SN e o SV Por exemplo Os garotos (SN) empinavam papagaios de papel
(SV) Pode-se dizer que as regras baacutesicas de estrutura frasal satildeo as seguintes O = SN + SV
(SP) (o elemento O significa Oraccedilatildeo)
27
311 Extraccedilatildeo dos Sintagmas Nominais
O trabalho de Kuramoto compreendeu o desenvolvimento de um protoacutetipo de
interface de busca utilizando os sintagmas nominais como forma de acesso agrave informaccedilatildeo Para
testar esse protoacutetipo foram examinados e extraiacutedos segundo Kuramoto (2002) cerca de 8800
sintagmas nominais de uma amostra de 15 artigos selecionados aleatoriamente da revista
Ciecircncia da Informaccedilatildeo
Kuramoto (1995 p 6) relata que a extraccedilatildeo dos sintagmas nominais foi realizada de forma manual simulando uma extraccedilatildeo automaacutetica Este procedimento foi adotado em funccedilatildeo da natildeo-existecircncia ainda de um sistema de extraccedilatildeo automaacutetica de SN em acervos contendo documentos em Liacutengua Portuguesa
Como os SN nem sempre se apresentam de forma clara Kuramoto aponta a
ocorrecircncia normal em todo texto em linguagem natural de anaacuteforas8 e de elipses9 que
dificultou a identificaccedilatildeo dos SN Essas dificuldades segundo Kuramoto (1995) aumentam
em um processo automatizado Algumas das dificuldades encontradas por Kuramoto no
procedimento de extraccedilatildeo dos SN satildeo descritas a seguir
a) SN escondidos em frases com fatoraccedilatildeo
Para Kuramoto (1995 p 06) as ldquofrases com fatoraccedilatildeo satildeo aquelas que contecircm uma
sequumlecircncia de palavras que precedem um outro conjunto de palavras coordenadas pelas
conjunccedilotildees eou por exemplo o processo de negociaccedilatildeo dos setores privado e puacuteblicordquo
Percebe-se nesse exemplo que o SN de niacutevel 1 compreende tanto os setores privado
e puacuteblico visto que a referecircncia dos dois adjetivos estaacute contida na palavra em plural ldquosetoresrdquo
Existem outros exemplos de frases com fatoraccedilatildeo nas quais as palavras coordenadas aparecem
entre parecircnteses significando um complemento combinatoacuterio do termo ou da frase que
precede o parecircntese por exemplo profundas transformaccedilotildees (poliacuteticas econocircmicas
sociais tecnoloacutegicas)
b) Artigo Zero
8 Em Linguumliacutestica segundo Ducrot e Todorov (1972 apud KURAMOTO 1995) um segmento do discurso eacute dito anafoacuterico quando para interpretaacute-lo (inclusive do ponto de vista literaacuterio) for necessaacuterio se reportar a um outro segmento do mesmo discurso 9 A figura de sintaxe ldquoelipserdquo eacute definida por Cunha e Cintra (1991 apud KURAMOTO 1995) como sendo a omissatildeo de um termo que o contexto ou a situaccedilatildeo permitem facilmente suprimir
28
Um outro fator de dificuldade na extraccedilatildeo dos SN eacute a frequumlente ausecircncia de
determinantes10 na liacutengua portuguesa diferente da liacutengua francesa na qual satildeo raros os SN
com ausecircncia de um determinante Motivo pelos quais algumas regras estabelecidas para a
liacutengua francesa natildeo foram utilizadas De acordo com Kuramoto (1995 p 7) ldquono
procedimento de extraccedilatildeo dos SN constatou-se que 2889 dos SN natildeo eram precedidos de
qualquer determinante Em uma amostra de 6010 SN 1736 SN natildeo satildeo precedidos por
nenhum determinanterdquo Estes nuacutemeros demonstram que o modelo necessaacuterio deve considerar
este fator
c) Caacutelculo das anaacuteforas
Quando uma entidade eacute referenciada pela primeira vez em um texto segundo
Gasperin Goulart e Vieira (2003) a expressatildeo que a descreve eacute dita nova no discurso
Quando tal entidade eacute retomada no texto a expressatildeo que a descreve eacute dita anafoacuterica sendo
considerado o seu antecedente a expressatildeo anterior correferente
Para Kuramoto (1995 p 7-8) ldquoos elementos anafoacutericos em portuguecircs aparecem
frequumlentemente mediante partiacuteculas como os pronomesrdquo No entanto na proposta do autor
natildeo foi possiacutevel resolver dois casos de anaacuteforas
Um primeiro caso de anaacutefora ocorre nas palavras sem fonte expliacutecita no texto tais
como ldquonesse sentidordquo (em que sentido) ldquonossa experiecircnciardquo (de quem do autor dos
teacutecnicos de informaccedilatildeo) etc Como a interpretaccedilatildeo das ideacuteias estaacute contida no documento natildeo
fica evidente a soluccedilatildeo desse tipo de anaacutefora
O segundo caso eacute constituiacutedo de termos cujas fontes se encontram como por exemplo
na histoacuteria dos acontecimentos como ldquoesse periacuteodo preacute-industrial esse sistema de
comunicaccedilatildeordquo etc Por este motivo os SN foram extraiacutedos da mesma forma como se
encontravam no texto
d) Caacutelculo das elipses
Outra questatildeo que necessita um entendimento do contexto de uma frase eacute o problema
ligado a este tipo de figura de sintaxe Visto que depende da capacidade de percepccedilatildeo da falta
de alguma palavra no contexto de uma frase Segundo Kuramoto (1995) eacute preciso para
identificaacute-la analisar natildeo somente as frases precedentes mas tambeacutem as frases seguintes
Como neste exemplo ldquouma visatildeo de longo prazo que assegure natildeo soacute a sobrevivecircncia ()
10 Segundo Silva e Koch (1993) o determinante quando simples eacute representado por um artigo numeral ou pronome adjetivo
29
como tambeacutem o crescimento da organizaccedilatildeordquo Que promove o questionamento de ldquoqual o
complemento do termo lsquosobrevivecircnciarsquo lsquoSobrevivecircnciarsquo de quemrdquo A soluccedilatildeo encontrada
poderia estar na frase seguinte ldquoo crescimento da organizaccedilatildeordquo
Para promover a extraccedilatildeo completa da frase o SN seria ldquouma visatildeo de longo prazo
que assegure natildeo soacute a sobrevivecircncia da organizaccedilatildeo como tambeacutem o crescimento da
organizaccedilatildeordquo
3111 Extraccedilatildeo Automaacutetica de Sintagmas Nominais
A extraccedilatildeo automaacutetica de SN eacute considerada importante para a aacuterea de RI pois
segundo Chishman et al (2000) agiliza este processo e gera um percentual baixo de erros Jaacute
foi desenvolvido um extrator automaacutetico de sintagmas nominais para a liacutengua portuguesa no
acircmbito do projeto VISL chamado ldquoPalavrasrdquo11 que vem sendo usado pelo grupo de pesquisa
da UNISINOS
Segundo Abreu Goulart e Vieira (2004) para obter a anaacutelise das sentenccedilas dos
textos utiliza-se o analisador sintaacutetico ldquoPalavrasrdquo que eacute considerada uma ferramenta robusta
para a anaacutelise sintaacutetica do portuguecircs
A partir da saiacuteda do analisador sintaacutetico segundo Gasperin Goulart e Vieira (2003)
a ferramenta ldquoXtractorrdquo gera trecircs arquivos XML O primeiro eacute o arquivo de palavras o
segundo inclui as categorias morfossintaacuteticas e o terceiro eacute o arquivo com as estruturas
sintaacuteticas das sentenccedilas
Assim apoacutes todo esse processo eacute possiacutevel extrair de modo automaacutetico os sintagmas
nominais das sentenccedilas de um texto ressaltando-se que estes natildeo estatildeo ainda organizados
segundo a estrutura de niacuteveis que propotildee Kuramoto
312 A determinaccedilatildeo de uma estrutura para os SN
A essecircncia da proposta de Kuramoto (1995) reside na percepccedilatildeo que o autor teve de
que os SN organizam-se naturalmente numa estrutura de niacuteveis encadeados Kuramoto
percebeu nessa organizaccedilatildeo em niacuteveis um caminho para propiciar ao usuaacuterio mais facilidade
11 O analisador Palavras faz parte de um grupo de analisadores sintaacuteticos (softwares) do projeto VISL - Visual Interactive Sintax Learning do Institute of Language and Communication da University of Southern Denmark Disponiacutevel em lthttpvislsdudkvislptparsingautomaticgt (ABREU GOULART VIEIRA 2004)
30
no uso de um SRI levando tambeacutem a resultados mais precisos Para compreender a estrutura
proposta pelo autor apresenta-se a seguir o exemplo usado pelo proacuteprio Kuramoto
As Caracteriacutesticas do Meio Ambiente do Mundo dos Negoacutecios SN1 os negoacutecios SN2 o mundo dos negoacutecios SN3 o meio ambiente do mundo dos negoacutecios SN4 as caracteriacutesticas do meio ambiente do mundo dos negoacutecios
Figura 6 Exemplo da estrutura de niacuteveis de Sintagmas Nominais Fonte KURAMOTO 1995
Esse exemplo mostra o potencial da estrutura de relaccedilotildees de encadeamento de um
conjunto de SN Para o autor a anaacutelise do sintagma nominal no exemplo permitiu a extraccedilatildeo do SN ndash o meio ambiente do mundo dos negoacutecios A partir desse SN pode-se visualizar um outro SN embutido ndash o mundo dos negoacutecios ndash que por sua vez possui um quarto SN ndash os negoacutecios ndash que representa o niacutevel mais inferior12 Percebe-se nesse exemplo a existecircncia de quatro SN encadeados que enumerados em ordem crescente (do SN mais simples ao mais complexo) levam agrave classificaccedilatildeo do SN original como sendo de niacutevel 4 (KURAMOTO 1995 p04)
Com base nessas caracteriacutesticas apresentadas por Kuramoto (1995) os SN podem ser
organizados sob uma estrutura de aacutervore Esta estrutura possibilita que o Sistema de
Recuperaccedilatildeo de Informaccedilatildeo (SRI) possa atender agraves necessidades de consultas do usuaacuterio
Para atender esta demanda eacute preciso fornecer um centro de SN de seu interesse (como o
exemplo do autor ldquonegoacuteciosrdquo)
Para isso apresentam-se todos os SN1 relativos a essa busca inclusive o SN ldquoos
negoacuteciosrdquo A partir da lista encontrada de SN1 o usuaacuterio poderaacute restringir o seu perfil de
busca escolhendo um SN1 por exemplo ldquoos negoacuteciosrdquo e solicitar os SN2 relacionados a esse
SN1 O SRI apresenta todos os SN2 inclusive o SN ldquoo mundo dos negoacuteciosrdquo e assim
sucessivamente (KURAMOTO 1995)
Este autor afirma que esta passagem por vaacuterios niacuteveis promove um refinamento no
processo O processo de refinamento eacute realizado por meio da passagem pelos vaacuterios niacuteveis de uma estrutura arborescente de SN13 dado que o SN vai se tornando mais especiacutefico
12 Segundo Kuramoto (1995) os sintagmas nominais agrave medida que satildeo extraiacutedos de um outro SN satildeo classificados por niacuteveis Assim o sintagma mais simples eacute denominado SN de niacutevel 1 Constitui SN de niacutevel 2 aquele a partir do qual foi extraiacutedo o de niacutevel 1 e assim sucessivamente 13 Constatou-se empiricamente utilizando a maquete desenvolvida nesta experimentaccedilatildeo de acordo com Kuramoto (1995) que a quantidade de SN de segundo niacutevel em relaccedilatildeo a um dado SN de primeiro niacutevel pode ser maior que o total de SN de primeiro niacutevel Por exemplo a resposta agrave demanda do centro de SN ldquoinformaccedilatildeordquo foi de 122 SN de primeiro niacutevel e a resposta agrave demanda do SN de primeiro niacutevel ldquoa informaccedilatildeordquo foi de 172 SN de segundo niacutevel Por outro lado verificou-se que
31
agrave medida que se atingem os niacuteveis mais elevados da estrutura Ao percorrecirc-la o usuaacuterio estaacute na realidade delimitando ou melhor qualificando a sua necessidade de informaccedilatildeo Cabe portanto ao usuaacuterio identificar o niacutevel em que as suas necessidades de informaccedilatildeo seratildeo atendidas (KURAMOTO 1995 p 04-05)
Esta possibilidade de hierarquia permite uma interaccedilatildeo entre o usuaacuterio e maacutequina e
uma escolha individual de refinamento
313 Protoacutetipo Desenho da Interface de Busca
A Figura 7 descreve de maneira esquemaacutetica a interaccedilatildeo entre o usuaacuterio e o protoacutetipo
de Kuramoto (1995)
O protoacutetipo viabiliza a primeira interaccedilatildeo pois haacute uma tela em que permite ao
usuaacuterio fazer a sua solicitaccedilatildeo de informaccedilatildeo fornecendo uma palavra (centro de SN1) A
partir dessa palavra surgem outras interaccedilotildees como mostra o esquema de Kuramoto (1995) na
Figura 7 que ocorrem nas accedilotildees abaixo
Figura 7 Procedimentos de interaccedilatildeo usuaacuteriominusprotoacutetipo Fonte KURAMOTO 1995
o SN ldquoa informaccedilatildeordquo indexava 15 documentos na base enquanto o SN de segundo niacutevel ldquoa anaacutelise da informaccedilatildeordquo indexava apenas 1 (um) documento Confirma-se nesse exemplo que a passagem de um dado niacutevel a um superior na aacutervore de SN proporciona maior refinamento no processo de seleccedilatildeo dos documentos
32
314 Organizaccedilatildeo dos Sintagmas Nominais como Estrutura de Busca
Na proposta de Kuramoto (1995) foram desenvolvidas as seguintes estruturas de busca
Figura 8 Estrutura de dados para acessar os Sintagmas Nominais de primeiro niacutevel a partir de uma palavra Fonte KURAMOTO 1995
Kuramoto (1995) mostra na Figura 8 a associaccedilatildeo das tabelas Palavras CS-SN1 e
SN1 Cada dado tem nomes dos elementos que estatildeo sublinhados e representam as chaves de
cada tabela Na tabela Palavras observa-se que o autor agrupa todas as palavras (centro) que
representam os centros de SN1 Haacute uma atribuiccedilatildeo de coacutedigo para cada ldquocentrordquo chamado
ldquocoacutedigo crdquo A tabela CS-SN1 eacute uma tabela de associaccedilatildeo dos coacutedigos dos centros de SN1 com
os coacutedigos dos SN1 Essa figura mostra que para cada centro de SN1 existem vaacuterios SN1 A indicaccedilatildeo na seta da associaccedilatildeo da tabela Palavras com a tabela CS-SN1 define que na tabela Palavras podem existir M ocorrecircncias de um coacutedigo de centro de SN1 O mesmo pode ocorrer na tabela CS-SN1 em que esse coacutedigo pode verificar-se N vezes Essa indicaccedilatildeo traduz a ideacuteia de que para cada SN1 pode existir mais de um centro de SN1 Isto se explica pela existecircncia no contexto de um SN de palavras que satildeo tatildeo importantes quanto o centro de sintagma (KURAMOTO 1995 p 11)
Observa-se o exemplo ldquoo sistema de informaccedilatildeordquo Nesse o autor define o SN1 de
ldquosistemardquo Todavia esta natildeo eacute a uacutenica palavra fundamental pois a palavra ldquoinformaccedilatildeordquo tem
tanta importacircncia quanto o proacuteprio centro de sintagma (sistema)
Kuramoto (1995 p 11) mostra ainda que existe associaccedilatildeo entre o centro de SN1 e a
vaacuterios SN de niacutevel 1 Cada centro de SN1 pode estar associado a mais de um SN1 Essa indicaccedilatildeo eacute dada pela seta que associa a tabela SN1 agrave tabela CS-SN1 onde o nuacutemero 1 significa que na tabela SN1 existe uma soacute ocorrecircncia de um determinado coacutedigo de SN1 enquanto na tabela CS-SN1 existem M ocorrecircncias desse coacutedigo
Outro elemento de dados importante na tabela SN1 eacute chamado ldquonuacutemerordquo que
segundo Kuramoto (1995 p 11-12) ldquoindica a quantidade de artigos de onde um determinado
33
SN1 foi extraiacutedordquo O nuacutemero de referecircncias de onde o SN foi extraiacutedo aparece para cada
apresentaccedilatildeo de SN1 relacionado com um centro de SN1 escolhido pelo usuaacuterio
Kuramoto (1995) ilustra numa outra figura (Figura 9) a estrutura de dados construiacuteda
para a busca dos SN2 a partir de um SN1 selecionado pelo usuaacuterio
Figura 9 Estrutura de dados para acessar os Sintagmas Nominais de segundo niacutevel a partir de Sintagmas Nominais de primeiro niacutevel Fonte KURAMOTO 1995
Nessa ilustraccedilatildeo observa-se que se manteacutem a estrutura da Figura 8 em uma
associaccedilatildeo de tabelas que busca facilitar a busca dos SN2 a partir de um SN1 escolhido pelo
usuaacuterio Segundo Kuramoto (1995 p 12) ldquopercebe-se analogamente que um dado SN1 pode
estar associado a vaacuterios SN2 e vice-versa Isto traduz a ideacuteia de que um SN2 pode ter
embutido mais de um SN1 Essa estrutura atende agraves caracteriacutesticas dos SN listados no iniacutecio
desta seccedilatildeordquo
A busca de informaccedilotildees se manteacutem na mesma estrutura para os SN de niacutevel 3 e 4 que
satildeo semelhantes agraves Figuras acima (SN1 e SN2) com diferenccedila apenas no nome de cada
elemento que eacute correspondente ao nuacutemero dos SN
O acesso aos documentos estaacute representado na Figura 10 que exemplifica uma
escolha no SN1
Figura 10 Estrutura de dados para o acesso aos tiacutetulos e textos dos artigos Fonte KURAMOTO 1995
34
Essa estrutura foi desenvolvida para que o protoacutetipo atenda a uma demanda do
usuaacuterio viabilizando a visualizaccedilatildeo de todos os tiacutetulos e textos de documentos de onde um
SN1 foi extraiacutedo Haacute outras associaccedilotildees semelhantes a essas da Figura 17 que servem para o
acessar os documentos a partir de SN de qualquer um dos quatro niacuteveis previstos no protoacutetipo
Kuramoto (1995 p 12-13) ressalta ainda as accedilotildees do coacutedigo numeacuterico Eacute importante observar que todas as tabelas contendo os SN nos seus vaacuterios niacuteveis tecircm como chave de acesso um coacutedigo numeacuterico uacutenico de SN Para tanto construiu-se uma tabela contendo os SN onde estes satildeo identificados por meio de um coacutedigo numeacuterico Natildeo existe nenhum impedimento teacutecnico por parte do sistema Access quanto ao uso do proacuteprio texto dos SN como chave de acesso agraves informaccedilotildees Deve-se ressaltar que apesar da lentidatildeo que este tipo de chave de acesso provoca as estruturas de dados seriam mais simples e faacuteceis de manusear Contudo optou-se pela utilizaccedilatildeo das chaves numeacutericas identificando cada SN com o intuito de obter maior velocidade de acesso aos SN e agraves informaccedilotildees
Finalizando esta apresentaccedilatildeo do modelo de Kuramoto cabe destacar que a utilizaccedilatildeo
da aacutervore de SN por niacuteveis permite uma visualizaccedilatildeo mais faacutecil do conteuacutedo da base de dados
e manteacutem o que haacute de mais significativo nos documentos sua semacircntica
As estruturas de Qualia e de Heranccedila Lexical do Leacutexico Gerativo de Pustejovsky a
serem apresentadas na proacutexima seccedilatildeo permitem tambeacutem da mesma forma considerar a
semacircntica dos itens lexicais atraveacutes da criaccedilatildeo de uma malharede de relaccedilotildees de palavras e
seus significados atraveacutes dos papeacuteis que compotildeem a EQ
32 A Teoria do Leacutexico Gerativo de Pustejovsky
Pustejovsky defende a ideacuteia de que assim como a gramaacutetica tem uma estrutura
(sintaxe) a semacircntica (significado) tambeacutem tem uma estrutura baacutesica Na estrutura baacutesica da
sintaxe das liacutenguas em geral segundo Souza e Silva (1993) as oraccedilotildees satildeo compostas de
Sintagma Nominal (SN) mais Sintagma Verbal (SV) basicamente Na busca da estrutura
semacircntica Pustejovsky (1991) delineia a teoria do Leacutexico Gerativo (LG) como uma
abordagem na aacuterea da semacircntica lexical que pretende dar conta da criatividade semacircntica do
uso das palavras em contexto
Segundo Rossi (2003) Ullmann concorda com essa dificuldade do uso das palavras
em contexto quando declara que ldquonatildeo satildeo raros os casos em que ocorre uma polivalecircncia das
palavras acarretando por consequumlecircncia fenocircmenos semacircnticos inerentes agraves liacutenguas naturais
entre eles a ambiguumlidade lexicalrdquo Essa ambiguumlidade eacute provocada em decorrecircncia de fatores
35
lexicais denominados de polissemia e de homoniacutemia ou na terminologia de Weinreich
conforme Rossi (2003) de ambiguumlidade complementar e ambiguumlidade contrastiva
respectivamente
No primeiro caso trata-se da polissemia que de um modo geral conforme Moura
(2001) ldquoeacute definida como um fenocircmeno que permite associar a um mesmo item lexical mais
de um sentido os quais mantecircm alguma relaccedilatildeo semacircntica entre sirdquo Assim a palavra ldquolivrordquo
por exemplo eacute polissecircmica pois expressa ao menos dois sentidos diferentes que possuem
entre si algum tipo de laccedilo semacircntico (a) objeto fiacutesico e (b) informaccedilatildeo
Jaacute no segundo caso o da ambiguumlidade contrastiva trata-se de homoniacutemia definida
por Pustejovsky como a situaccedilatildeo na qual um item lexical eacute associado com ao menos dois
sentidos diferentes e sem relaccedilatildeo entre si Desse modo a palavra ldquomangardquo por exemplo eacute
uma palavra homocircnima pois natildeo haacute nenhuma relaccedilatildeo semacircntica evidente entre os sentidos de
ldquofrutardquo e ldquoparte da blusardquo
Segundo Rossi (2003 p 14) Ullmann salienta que ldquoeacute difiacutecil em casos particulares
determinar onde termina a polissemia e onde comeccedila a homoniacutemia uma vez que natildeo eacute faacutecil e
nem sempre possiacutevel medir intuitivamente o grau de proximidade dos significadosrdquo
A polissemia loacutegica eacute denominada por Pustejovsky (1991) para restringir a
ambiguumlidade complementar abordada anteriormente nos casos em que ocorre uma relaccedilatildeo
loacutegica portanto previsiacutevel entre os sentidos de uma palavra polissecircmica Havendo mais de um
sentido eacute importante ressaltar que pode existir sobreposiccedilatildeo desses sentidos em um mesmo
contexto
Aleacutem de ter sido tratada como polissemia loacutegica por Pustejovsky segundo Rossi
(2003) desde Weinreich esse fenocircmeno da complementaridade dos sentidos tem sido
abordado como polissemia regular e polissemia sistemaacutetica
A teoria do Leacutexico Gerativo (LG) de Pustejovsky aponta o problema da
multiplicidade de significados das palavras e enfatiza um tratamento relacionado ao problema
da polissemia das palavras Segundo Neto (2003) nessa perspectiva Pustejovsky desenvolveu
o LG que eacute um modelo de processamento de liacutengua natural que trata da explicaccedilatildeo semacircntica
de itens lexicais tanto isolados quanto em contexto
Assim como a gramaacutetica caracteriza o comportamento sintaacutetico especiacutefico de uma
certa categoria de palavras Pustejovsky propotildee uma teoria gerativa do significado da palavra
E ainda pretende mostrar que seu modelo segundo Rossi (2003 p 47) ldquoeacute contraacuterio a
36
estaticidade presente em duas concepccedilotildees semacircnticas teoacutericas das deacutecadas de 60 e 70 as
baseadas em redes conexionistas e as baseadas em primitivos fixos14rdquo
Rossi (2003 p 47) afirma que a teoria de redes conexionistas organiza a semacircntica
das palavras atraveacutes de relaccedilotildees e elos para esta autora isso ldquodificulta a representaccedilatildeo de
sentidos que exibem polissemia regular haja vista a distacircncia na rede entre os sentidos que
mantecircm relaccedilatildeo sistemaacutetica entre sirdquo Por exemplo os sentidos de ldquoobjeto fiacutesicordquo e
ldquoinformaccedilatildeordquo satildeo naturalmente distantes no entanto mantecircm entre si relaccedilatildeo sistemaacutetica no
caso de ldquolivrordquo e de outras palavras
Jaacute no segundo caso o das teorias baseadas em primitivos semacircnticos fixos o leacutexico
eacute tratado como uma lista enumerativa de sentidos Por isso mesmo tais modelos satildeo
denominados por Pustejovsky (1991) de Sense Enumeration Lexicon (SEL) - leacutexico de
enumeraccedilatildeo de sentidos O problema segundo Pustejovsky (1991) eacute que essa caracterizaccedilatildeo
dos possiacuteveis sentidos de uma palavra postulada pelo modelo SEL eacute aplicada tanto para a
ambiguumlidade contrastiva como para a polissemia loacutegica
Fica evidente segundo Rossi (2003) que Pustejovsky se opotildee aos modelos SEL pois
apesar de eles proverem uma enumeraccedilatildeo exaustiva dos sentidos de um item lexical ainda se
mostram limitados natildeo dando conta dos objetivos baacutesicos da teoria semacircntico-lexical ou seja
o uso criativo de palavras a permeabilidade dos significados e as muacuteltiplas formas sintaacuteticas
das expressotildees
O objetivo principal do LG segundo Pustejovsky (1991) eacute prover uma descriccedilatildeo
formal da liacutengua que seja expressiva e flexiacutevel o suficiente para apreender a natureza gerativa
da criatividade lexical e extensatildeo de sentido Caracteriza assim o LG como um sistema
semacircntico de perspectiva loacutegica que envolve quatro niacuteveis de representaccedilatildeo um sistema de
tipos semacircnticos e trecircs tipos de mecanismos gerativos
No decorrer deste capiacutetulo seratildeo especificadas as noccedilotildees teoacutericas baacutesicas do modelo
gerativo de Pustejovsky que estruturam o leacutexico em quatro niacuteveis de representaccedilatildeo
(argumentos eventos qualia e heranccedila) sobre os quais atuam dispositivos gerativos (a
coerccedilatildeo de tipo a co-composiccedilatildeo e a ligaccedilatildeo seletiva)
321 Estruturas do Leacutexico Gerativo
14 Conforme Pustejovsky (1995) a teoria de primitivos fixos eacute defendida por autores como Lakoff (1971) Wilks (1975) Schank (1975) Katz (1977) Jaacute a teoria de redes conexionistas eacute defendida por Carnap (1956) Collins e Quillian (1969) Fodor (1975) Brachman (1979)
37
Para capturar o significado lexical estudou-se as estruturas de Pustejovsky (1991)
que propotildee quatro niacuteveis de representaccedilatildeo estrutura de argumento estrutura de evento
estrutura de qualia e estrutura de heranccedila lexical descritos abaixo
3211 Estrutura de Argumento
Para Pustejovsky (1991) essa estrutura eacute uma especificaccedilatildeo miacutenima que agrupa os
itens lexicais em quatro argumentos
bull verdadeiros ndash paracircmetros do item lexical que tecircm a necessidade de serem expressos
sintaticamente Ex Marta morou em Paris
bull apagados ndash paracircmetros que natildeo tecircm necessidade de serem realizados sintaticamente satildeo
argumentos opcionais Ex Joana coseu uma saia sem linha
bull sombreados ndash paracircmetros que jaacute estatildeo semanticamente presentes no item lexical e soacute
devem ser expressos atraveacutes de operaccedilotildees de subtipo ou especificaccedilatildeo de discurso Ex
Paulo salgou a carne com sal grosso
bull adjuntos verdadeiros ndash paracircmetros que mesmo sendo parte da interpretaccedilatildeo situacional
modificam uma expressatildeo loacutegica sem contudo estarem ligados agrave representaccedilatildeo
semacircntica de algum item lexical especiacutefico Esses paracircmetros introduzem expressotildees
adjuntivas de modificaccedilatildeo temporal ou espacial Ex David dormiu cedo
3212 Estrutura de Evento
Essa estrutura para Pustejovsky (1991) refere-se a organizaccedilatildeo de um conjunto de eventos
no que tange agrave ordenaccedilatildeo temporal de seus subeventos e a designaccedilatildeo de qual deles seraacute
considerado o principal em relaccedilatildeo ao evento matriz
bull Evento de estado ndash aquele cujo(s) argumento(s) natildeo sofre(m) alteraccedilatildeo durante o
intervalo temporal do evento Ex Kaacutetia mora em Florianoacutepolis
bull Evento de processo ndash aquele cujo(s) argumento(s) sofre(m) alteraccedilatildeo de estado ou
indica(m) o iniacutecio de alguma atividade sem uma culminaccedilatildeo precisa Ex Heloisa canta
bem
bull Evento de transiccedilatildeo - aquele cujo(s) argumento(s) sofre(m) alguma accedilatildeo de
temporalidade determinada e resulta(m) em um estado diferente do inicial Ex Tereza fez
uma boneca
38
A estrutura a seguir apresenta os atributos semacircnticos essenciais dos itens lexicais
(como por exemplo a categoria a composiccedilatildeo a funccedilatildeo e a origem) atraveacutes dos papeacuteis
formal constitutivo teacutelico e agentivo Eacute a estrutura principal responsaacutevel pela explicaccedilatildeo da
polissemia loacutegica abordada no texto (Pustejovsky 1991)
3213 Estrutura de Qualia
Devido a sua proximidade com o SN visto que trabalha por conceitos (nomes) esta
estrutura foi utilizada no desenvolvimento do modelo proposto pela pesquisa Trata de um
conjunto formado por quatro qualia que visam guiar o processo de entendimento a respeito de
um objeto ou uma relaccedilatildeo no mundo dando por consequumlecircncia um modo de especificar a
denotaccedilatildeo de tal objeto ou relaccedilatildeo Eacute dividida em quatro papeacuteis os quais satildeo descritos na
sequumlecircncia
a) Quale formal - faz a distinccedilatildeo de determinado item dentro de um domiacutenio maior levando
em consideraccedilatildeo sua
bull orientaccedilatildeo
bull magnitude
bull forma
bull dimensatildeo
bull cor
bull posiccedilatildeo
b) Quale constitutivo - estabelece a relaccedilatildeo entre um objeto e suas partes constituintes ou
proacuteprias a partir das propriedades
bull material
bull peso
bull partes e elementos componentes
Aleacutem disso o quale constitutivo informa tambeacutem de que classe um item eacute parte caso
haja tal relaccedilatildeo ou seja ele informa tanto uma relaccedilatildeo de hiperoniacutemia15 quanto de
meroniacutemia16
15 Hiperoniacutemia ocorre quando o significado de um lexema (palavra) abrange o significado de outro lexema O significado de um eacute mais geneacuterico que o significado de outro Por exemplo ldquoaeronaverdquo eacute um hiperocircnimo de ldquoteco-tecordquo
39
Estas relaccedilotildees satildeo utilizadas na modelagem do protoacutetipo de Gonzalez (2005) Este
protoacutetipo foi pesquisado e apreendido como parte integrante da proposta desta dissertaccedilatildeo e
seraacute descrito na seccedilatildeo 33 do capiacutetulo 3
c) Quale teacutelico - explicita a finalidade e a funccedilatildeo de um objeto
bull Propoacutesito de um agente ao realizar um ato
bull Funccedilatildeo interna ou objetivo que descreve certas atividades
d) Quale agentivo - determina os fatores envolvidos na origem ou causa de um objeto
partindo de consideraccedilotildees sobre
bull criador
bull artefato
bull tipo natural
bull cadeia causal
Figura 11 Representaccedilatildeo da matriz de um item lexical Fonte ROSSI 2003
Figura 12 Matriz superficial da Estrutura de Qualia do item lexical ldquolivrordquo Fonte ROSSI 2003
16 Meroniacutemia ocorre quando o significado de um lexema (palavra) faz parte ou eacute uma porccedilatildeo do significado de outro lexema Por exemplo as palavras ldquocapardquo e ldquofolhasrdquo satildeo merocircnimos de ldquolivrordquo
40
Eacute importante salientar que segundo Neto (2003a) a Estrutura de Qualia natildeo deve ser
considerada apenas como uma lista de fatos interessantes sobre um item lexical e sim como
um conjunto de propriedades que leva a uma explicaccedilatildeo mais clara de tal item
Isto equivale dizer que o objetivo da Estrutura de Qualia eacute abarcar o significado de
uma palavra e explicitar como se relaciona com o uso da liacutengua Assim essa estrutura salienta
a explicaccedilatildeo do uso da criatividade linguumliacutestica contextual natildeo como uma estrutura isolada
mas em conjunto com os mecanismos gerativos que seratildeo apresentados mais adiante
Seguem alguns exemplos da Estrutura de Qualia
Figura 13 Exemplo da Estrutura de Qualia do item lexical ldquoromancerdquo Fonte PUSTEJOVSKY 1991
Figura 14 Exemplo da Estrutura de Qualia do item lexical ldquodicionaacuteriordquo Fonte PUSTEJOVSKY 1991
3214 Estrutura de Heranccedila Lexical
Esta estrutura tambeacutem eacute de fundamental importacircncia porque nesta ocorre a relaccedilatildeo das
qualias ou seja satildeo estruturas lexicais que podem se organizar com outras estruturas em uma
grade de tipo e assim ajudar na organizaccedilatildeo geral do leacutexico Por exemplo na figura abaixo o
LG relaciona ldquodicionaacuteriordquo ldquolivrordquo e ldquopeccedilardquo atraveacutes de suas estruturas de qualia em que se
observa que os trecircs itens lexicais satildeo diferentes entre si no entanto mantecircm relaccedilotildees
semacircnticas
41
Figura 15 Exemplo do LG relacionando ldquodicionaacuteriordquo ldquolivrordquo e peccedila atraveacutes de suas EQ Fonte NETO 2003a
322 Sistema de Tipos Semacircnticos
Um sistema de tipos semacircnticos analisa o comportamento polissecircmico e loacutegico de
nomes implicitamente relacionais como por exemplo porta janela Pustejovsky mostra como
o leacutexico gerativo faz uso de estruturas de aspectos tiacutepicos e afirma que esses nomes tecircm dois
sentidos relacionais (ldquoobjeto fiacutesicordquo e ldquoaberturardquo) que satildeo logicamente parte do significado do
nome Essa habilidade que um item lexical tem de agrupar vaacuterios sentidos eacute chamada
ldquoparadigma leacutexico-conceptual (plc ou lcp)rdquo O plc eacute como um construtor de tipo por exemplo
em palavras como ldquoportardquo e1 significa objeto_fiacutesico e2 abertura e o tipo resultante eacute
ldquoobjeto_fiacutesicoabertura_plc = objeto_fiacutesicoabertura objeto_fiacutesicoaberturardquo
Figura 16 Exemplo de polissemia loacutegica na representaccedilatildeo matricial da palavra ldquolivrordquo Fonte ROSSI 2003
42
Figura 17 Exemplo de polissemia loacutegica na representaccedilatildeo matricial da palavra ldquojornalrdquo Fonte ROSSI 2003
322 Mecanismos gerativos
O Leacutexico Gerativo apresenta ainda um conjunto de trecircs mecanismos que fazem uso
das estruturas ldquoeventordquo ldquoargumentordquo e ldquoqualiardquo os quais satildeo ditos gerativos pois relacionam
diferentes itens lexicais possibilitando a interpretaccedilatildeo composicional de palavras em contexto
3221 Coerccedilatildeo de tipo
Autoriza a mudanccedila de tipo e por extensatildeo de denotaccedilatildeo de nomes e expressotildees de
acordo com o contexto a que pertencem A coerccedilatildeo de tipo reconstroacutei a semacircntica do
complemento e soacute teraacute sucesso se o item lexical em questatildeo tiver um atalho para o tipo
desejado O exemplo claacutessico dado por Pustejovsky eacute ldquoJoatildeo comeccedilou um livrordquo em que o
predicado comeccedilar requer um tipo diferente do apresentado por livro ou seja o verbo requer
um complemento do tipo ldquoeventordquo que natildeo eacute satisfeito por ldquolivrordquo O termo ldquocomeccedilar um
livrordquo eacute interpretado como comeccedilar a ler (ou escrever) um livro
3222 Ligaccedilatildeo seletiva
Rege a relaccedilatildeo semacircntica que um modificador tem com o seu nuacutecleo ou seja ela
trata do problema da polissemia adjetival uma vez que os adjetivos satildeo interpretados a partir
da semacircntica do nuacutecleo Exemplos
(1) Um passeio raacutepido
(2) Um motorista raacutepido
43
(3) Um digitador raacutepido
(4) Um computador raacutepido
O primeiro problema estaacute claramente exemplificado com (1) em oposiccedilatildeo a (2) (3) e
(4) ou seja o primeiro trata de uma adjetivaccedilatildeo sobre um evento e os demais de uma
adjetivaccedilatildeo sobre indiviacuteduos Jaacute para o segundo problema diz-se que a interpretaccedilatildeo do
adjetivo vai ser selecionada por algum dos qualia do nuacutecleo do sintagma nominal ou seja
pela ligaccedilatildeo seletiva Esse mecanismo vai buscar a interpretaccedilatildeo de raacutepido para os exemplos
acima no quale teacutelico dos nuacutecleos
3223 Co-composiccedilatildeo
Os itens lexicais componentes de um determinado sintagma influenciam-se
mutuamente e um complemento pode adicionar um sentido ao seu nuacutecleo Pustejovsky
comeccedila exemplificando esse mecanismo com a polissemia de verbos como o ldquoassarrdquo que
apresenta dois sentidos uma mudanccedila de estado e outra de criaccedilatildeo do objeto Os exemplos
claacutessicos satildeo
(a) Letiacutecia assou as batatas
(b) Letiacutecia assou o bolo
Observa-se que em (1) houve apenas uma mudanccedila de estado pois as batatas jaacute
existiam antes de serem assadas em (2) um sentido de criaccedilatildeo de objeto eacute atribuiacutedo ao verbo
uma vez que antes da assadura o bolo natildeo existia Contudo Pustejovsky (1991) afirma que
ordinariamente soacute haacute um sentido para ldquoassarrdquo o de mudanccedila de estado pois tal verbo tem seu
tipo de evento modificado devido a informaccedilotildees que satildeo trazidas pelo complemento ou seja
essas leituras soacute satildeo possiacuteveis a partir de mecanismo de co-composiccedilatildeo em que os
complementos co-especificam o verbo
Por buscar formalizar a estrutura semacircntica de uma liacutengua o trabalho de Pustejovsky
eacute de grande importacircncia para a aacuterea de recuperaccedilatildeo de informaccedilatildeo Uma tentativa de
implementaccedilatildeo computacional da sua teoria foi realizada por Abrahatildeo (1997) envolvendo a
modelagem e a implementaccedilatildeo de um leacutexico semacircntico para a Liacutengua Portuguesa
Inicialmente este autor realizou um estudo de conceitos baacutesicos relacionados agrave semacircntica
Durante a sua pesquisa foram apresentadas teacutecnicas de representaccedilatildeo do conhecimento e do
significado que auxiliaram a seleccedilatildeo e o entendimento do modelo proposto por Pustejovsky
44
Como subsiacutedio para a implementaccedilatildeo de um leacutexico semacircntico para o portuguecircs
Abrahatildeo (1997) fez um estudo aprofundado da teoria de Pustejovsky onde salienta que os
problemas mais comuns agrave representaccedilatildeo do significado das palavras como ldquoambiguumlidade
lexical polissecircmicardquo por exemplo satildeo solucionados de forma eficiente e computacional
Como o modelo de Pustejovsky eacute voltado ao Inglecircs foram encontradas semelhanccedilas e
diferenccedilas entre a liacutengua origem do modelo e o Portuguecircs Variaccedilotildees verbais - facilita o mapeamento direto os verbos satildeo inseridos numa forma canocircnica (baacutesica ou infinitiva) no leacutexico variaccedilotildees de grau nos substantivos como alternativa de soluccedilatildeo satildeo armazenados em uma forma canocircnica palavras que se comportam como verbo e substantivo palavras que se comportam como adjetivo e substantivo tambeacutem satildeo mapeadas atraveacutes do uso da estrutura de lcps de Pustejovsky mapeamento de expressotildees - expressotildees devem ser inseridas no leacutexico pois expressam um significado especiacutefico substantivos compostos por mais de uma palavra acentuaccedilatildeo ndash itens lexicais do Inglecircs natildeo apresentam acentos Esta caracteriacutestica do Portuguecircs deve ser inserida no leacutexico pois diferencia o significado de suas palavras Deste modo esta informaccedilatildeo foi atribuiacuteda aos registros de informaccedilotildees semacircnticas atraveacutes de uma variaacutevel que conteacutem o tipo e a posiccedilatildeo na palavra em que o acento aparece (ABRAHAtildeO 1997 pgs 78-80)
Abrahatildeo (1997) construiu sua implementaccedilatildeo do leacutexico sobre uma estrutura em
aacutervore Trie17 que proporciona um maior poder de representaccedilatildeo na busca de informaccedilotildees e
baixa quantidade de dados armazenados As informaccedilotildees semacircnticas associadas aos itens
lexicais satildeo armazenadas em listas encadeadas a partir de uma estrutura denominada de
Descritor Semacircntico Um item lexical pertence ao leacutexico semacircntico se este item possui um
Descritor Semacircntico associado ao seu uacuteltimo caractere na aacutervore E ainda um Descritor
Semacircntico abrange os ponteiros essenciais para a busca das informaccedilotildees semacircnticas relativas
ao item lexical
De acordo com este autor as informaccedilotildees semacircnticas associadas aos itens lexicais
seguem o modelo de Pustejovsky (1991) sendo dividida em trecircs estruturas baacutesicas de
argumentos de eventos e de Qualia As estruturas de argumentos e de eventos satildeo
implementadas atraveacutes de uma lista de argumentos e uma lista de eventos A estrutura de
Qualia eacute composta de quatro listas de informaccedilotildees uma para cada papel (formal constitutivo
teacutelico e agentivo)
Segundo este autor todas as estruturas do leacutexico semacircntico foram desenvolvidas em
vetores A manipulaccedilatildeo destes vetores daacute-se sobre estruturas denominadas cabeccedilalhos Estes
cabeccedilalhos fornecem informaccedilotildees sobre a alocaccedilatildeo de vetores em memoacuteria ponteiros para os
vetores de informaccedilatildeo tamanhos dos vetores e os arquivos associados ao sistema O nuacutecleo de
17 Segundo Abrahatildeo (1997) ldquoeacute um tipo especial de estrutura onde cada caractere dos itens lexicais determina um nodo da aacutervorerdquo
45
dados do sistema eacute constituiacutedo de dois cabeccedilalhos cabeccedilalho da aacutervore Trie e o cabeccedilalho das
informaccedilotildees semacircnticas
A biblioteca de funccedilotildees conteacutem os procedimentos necessaacuterios para manutenccedilatildeo do
banco de dados lexical bem como procedimentos de busca de informaccedilotildees semacircnticas
Juntamente com a biblioteca uma interface graacutefica foi construiacuteda possibilitando a manutenccedilatildeo
do banco de dados e facilitando a visualizaccedilatildeo da semacircntica dos itens lexicais Esta interface
graacutefica eacute implementada na linguagem de programaccedilatildeo em C para as estaccedilotildees de trabalho SUN
sobre o sistema de janelas XVIEW18 (ABRAHAtildeO 1997)
Esta seccedilatildeo mostrou a importacircncia da teoria de Pustejovsky e suas possibilidades O
LG eacute fundamental para compreensatildeo semacircntica pois considera o contexto da palavra sendo
capaz de estruturar um domiacutenio especiacutefico atraveacutes da EQ e tambeacutem de identificar dentro de
um domiacutenio quando determinada palavra aparece em tal contexto Pelo desenvolvimento do
trabalho de Abrahatildeo pode-se perceber a dimensatildeo e os elementos necessaacuterios para o
significado de uma palavra reforccedilando-se assim o valor e a viabilidade da teoria de
Pustejovsky
A proacutexima seccedilatildeo apresenta o trabalho de Gonzalez (2005) que estudou Pustejovsky19
e posteriormente desenvolveu sua proacutepria concepccedilatildeo de uma estrutura de RI (toda
automatizada)
33 O Modelo TR+ de Gonzalez
O modelo TR+ eacute considerado um modelo para RI que utiliza duas fases para o
desenvolvimento de sua estrutura fase de indexaccedilatildeo e fase de busca
18 XVIEW ldquoeacute um sistema de janela orientado a objeto que permite ao programador criar e utilizar objetos tais como janelas textos paineacuteis iacutecones entre outros para construir uma aplicaccedilatildeo Seus objetos satildeo predefinidos e satildeo ricos em funcionalidade o que permite que o coacutedigo necessaacuterio para manipular essas janelas seja pequeno simples e muito faacutecil de se compreenderrdquo (ABRAHAtildeO 1997 p 86) 19 Realizou um trabalho individual no doutorado denominado ldquoO Leacutexico Gerativo de Pustejovsky sob o enfoque da Recuperaccedilatildeo de Informaccedilotildeesrdquo de 2000a
46
Indexaccedilatildeo de textos segundo Baeza-Yates e Ribeiro-Neto (1999) e Gonzalez (2005)
eacute o processo que estipula descritores20 dos conteuacutedos dos textos de uma coleccedilatildeo de
documentos com objetivo de busca e classificaccedilatildeo dos mesmos para atender consultas em
sistemas de RI Descritores podem descrever conceitos atocircmicos sendo lsquotermosrsquo ou conceitos
complexos sendo lsquorelacionamentosrsquo O conjunto de descritores concebido na indexaccedilatildeo
favorece uma visatildeo loacutegica dos documentos com o propoacutesito de unir esses descritores termos
e relacionamentos a conceitos presentes nos textos dos documentos
Para os relacionamentos este autor classifica trecircs tipos explicando-os atraveacutes do
exemplo ldquo tecircm preocupado os pesquisadoresrdquo O primeiro tipo eacute o par modificado-
modificador como lsquopesquisador-preocupadorsquo O segundo eacute o bigrama (preocupado
pesquisador) e o terceiro eacute o Sintagma Nominal que para ele significa lsquopesquisador
preocupadorsquo e que para a pesquisa de Gonzalez ficaria na sua forma natural lsquopreocupado os
pesquisadoresrsquo O autor ainda cita que haacute outros formatos de relacionamentos como a
expressatildeo ternaacuteria (preocupaccedilatildeo-de-pesquisador) e a relaccedilatildeo binaacuteria
(preocupaccedilatildeopesquisador)
Gonzalez (2005) aponta dois tipos de relacionamentos como problemas os bigramas
por natildeo poderem descrever o conceito (ldquoferro sopardquo para ldquopanela de ferro com sopardquo) e os
termos com palavras comuns mas coadjuvantes importantes (ldquosentar bancordquo e ldquodepositar
bancordquo) os sintagmas nominais que para o autor representam tanto o conceito atocircmico quanto
o complexo (ldquonoiterdquo e ldquoboca da noiterdquo) Eacute importante perceber que a partir dessas
caracteriacutesticas e aspectos acima definidos Gonzalez (2005) propocircs um novo modelo de
espaccedilo de descritores (uniatildeo do conjunto de termos com o conjunto de relacionamentos) Este
novo modelo surgiu a partir de outros cinco modelos de descritores jaacute existentes
1 Unigrama conjunto de termos natildeo relacionados
2 N-grama (NG) conjunto de relacionamentos estatiacutesticos
3 Termo-Termo (TT) conjunto de termos relacionados estatiacutestica ou
sintaticamente
4 Termo-Relacionamento (TR) conjunto de termos e relacionamentos sintaacuteticos
20 A palavra descritores eacute usada para se tratar dos termos e relacionamentos enquanto os iacutendices se referem apenas aos termos O descritor lsquotermorsquo significa uma unidade lexical formada por uma uacutenica palavra ou por mais de uma denominada de lsquotermo compostorsquo E o descritor lsquorelacionamentorsquo ocorre entre termos ou seja satildeo relaccedilotildees de construccedilotildees sintaticamente diferentes que tecircm o mesmo significado (semacircntica) Exemplo lsquodefesa eficientersquo eacute igual a lsquodefender eficientementersquo e lsquofeira de domingorsquo eacute igual a lsquofeira dominicalrsquo Alguns autores como Baeza-Yates e Ribeiro-Neto (1999) utilizam a palavra lsquoiacutendicersquo ao inveacutes de descritores contudo Gonzalez ressalta que esta palavra refere-se apenas aos lsquotermosrsquo natildeo dando conta da semacircntica que envolve os lsquorelacionamentosrsquo
47
5 Relacionamento-Termo (RT) conjunto de relacionamentos sintaacuteticos e seus
componentes ldquoOs Sintagmas Nominais constituem os principais descritores neste
casordquo (GONZALEZ 2005 p41)
O modelo TR+ proposto por este autor combina aspectos dos modelos TR e RT
A Figura 18 daacute uma visatildeo geral do modelo TR+ de Gonzalez (2005) na fase de
indexaccedilatildeo com suas etapas essenciais e na fase de busca para a classificaccedilatildeo por relevacircncia
dos documentos em relaccedilatildeo agrave consulta
g
f
e
da a
b b
c
Figura 18 Visatildeo Geral do modelo TR+ Fonte Gonzalez 2005
O espaccedilo de descritores do modelo TR+ construiacutedo na fase de indexaccedilatildeo eacute com
de quatro processos principais
a) Preacute-processamento (toquenizaccedilatildeo e etiquetagem)
b) Nominalizaccedilatildeo
c) Captura de RLBs
d) Termos e RLBs
Na etapa ldquoardquo de preacute-processamento ocorrem duas accedilotildees fundamentais Toquen
e Etiquetagem A toquenizaccedilatildeo eacute a identificaccedilatildeo de cada item lexical (palavra e pontu
Na etiquetagem existe um etiquetador gramatical (part-of-speech tagger - parser
identifica atraveacutes de uma etiqueta (tag) a categoria gramatical de cada palavra do
(adjetivo substantivo verbo entre outras) Geralmente eacute morfoloacutegico (identifica som
c
posto
izaccedilatildeo
accedilatildeo)
) que
texto
ente a
48
categoria morfoloacutegica) ou morfossintaacutetico (identifica tambeacutem as funccedilotildees sintaacuteticas) Estes
processos satildeo realizados de forma automatizada21
Antes da nominalizaccedilatildeo eacute realizada a geraccedilatildeo de espaccedilo dos descritores que se
constitui na seleccedilatildeo e normalizaccedilatildeo dos descritores e ainda a contagem de frequumlecircncia de
ocorrecircncia dos descritores - termos (para o caacutelculo de seus pesos) que seraacute usada na etapa
ldquodrdquo
Faz parte do processo de seleccedilatildeo de descritores a eliminaccedilatildeo de stopwords22 que
podem ser descartadas na fase de indexaccedilatildeo e na consulta Essa exclusatildeo justifica-se segundo
o autor porque as stopwords satildeo consideradas palavras com pouca representatividade A
seleccedilatildeo dos descritores a quantidade dos mesmos e o peso de cada um podem ser afetados
pela normalizaccedilatildeo linguumliacutestica
A normalizaccedilatildeo segundo Gonzalez (2005) apresenta trecircs tipos conhecidos como
bull Sintaacutetica - que transforma frases semanticamente equivalentes mas
sintaticamente diferentes (ldquoeficiente processo raacutepidordquo e ldquoprocesso raacutepido
eficienterdquo)
bull Leacutexico-semacircntico ndash que utiliza relacionamentos semacircnticos (como a sinoniacutemia)
para substituir palavras morfologicamente distintas por uma uacutenica forma que
representa o conceito evidenciado
bull Morfoloacutegica ndash reduz as formas flexionais de uma palavra por meio da
conflaccedilatildeo23
No modelo TR+ foi utilizada a normalizaccedilatildeo lexical para o processo de
nominalizaccedilatildeo Este processo de nominalizaccedilatildeo constitui a etapa ldquobrdquo e significa a
transformaccedilatildeo de uma palavra (adveacuterbio adjetivo ou verbo) existente no texto em um
substantivo semanticamente equivalente constituiacutedo com regras vaacutelidas de formaccedilatildeo de
palavras (GONZALEZ 2005)
A tabela abaixo mostra exemplos de termos nominalizados Nesta etapa de
nominalizaccedilatildeo eacute utilizada a ferramenta CHAMA24
21 A ferramenta FORMA (Toquenizaccedilatildeo e Etiquetagem Morfoloacutegica) foi utilizada por Gonzalez O autor cita o nome desta ferramenta no seu site httpwwwinfpucrsbr~gonzaleztr+ Acesso em 14 de fevereiro de 2006 22 Stopwords satildeo palavras como preposiccedilotildees artigos e conjunccedilotildees 23 Conflaccedilatildeo satildeo processos realizados por algoritmos que combinam a representaccedilatildeo de duas ou mais palavras em um uacutenico termo Haacute dois meacutetodos mais comuns stemming que reduz a palavra para a parte fundamental semelhante ao radical e lematizaccedilatildeo que reduz a palavra variaacutevel agrave correspondente forma ldquocanocircnicardquo 24 A ferramenta CHAMA (nominalizaccedilatildeo de adjetivos verbos e adveacuterbios) foi desenvolvida por Marco Antonio Insaurriaga Gonzalez (doutor em Ciecircncia da Computaccedilatildeo pela UFRGS) Em sua tese de doutorado intitulada ldquoTermos e Relacionamentos em Evidecircncia na Recuperaccedilatildeo de Informaccedilatildeordquo 2005
49
Tabela 1 Exemplos de nominalizaccedilatildeo Fonte Gonzalez 2005
Devido agraves diferentes variaccedilotildees que a nossa Liacutengua Portuguesa apresenta este autor
trabalha em seu modelo com palavras sem acentuaccedilatildeo e em letras minuacutesculas ocorrendo um
comprometimento do significado das palavras como por exemplo eacute citado por ele puacuteblica e
publica
A etapa ldquocrdquo de captura de Relaccedilotildees Lexicais Binaacuterias (RLBs) eacute segundo Gonzalez
(2005) o relacionamento entre termos nominalizados ou seja sintaticamente diferentes mas
semanticamente iguais25 Uma RLB pode ser classificada tambeacutem quanto agrave nominalizaccedilatildeo de
seus componentes Este autor sistematiza e classifica esta questatildeo conforme aparece em seus
exemplos abaixo (2005 p 47)
bull Original onde o termo natildeo recebeu o processo de nominalizaccedilatildeo
bull Derivada onde um dos termos pelo menos resulta do processo de
nominalizaccedilatildeo
Uma RLB de acordo com Gonzalez (2005) apresenta a seguinte aparecircncia
25 Gonzalez desenvolveu o software RELLEX para o reconhecimento de relaccedilotildees lexicais binaacuterias em sua tese de doutorado 2005
50
id (t1t2) onde
id significa o identificador de relaccedilatildeo e
t1 e t2 satildeo os termos nominalizados
Este autor aponta os trecircs tipos de RLBs quanto ao identificador id
bull Classificaccedilatildeo onde id eacute especificado com um sinal de igual (=) t1 representa
uma subclasse ou uma instacircncia de t2 e t2 representa uma classe
Exemplos =(caoanimal)
=(PET garrafa) Exemplo desenvolvido nesta dissertaccedilatildeo
bull Restriccedilatildeo onde id eacute uma preposiccedilatildeo t1 representa um elemento modificado e t2
representa um elemento modificador
Exemplos de(equipeatletismo)
com(supervisorexperiencia)
por(orientacaoministro)
bull Associaccedilatildeo onde id representa um evento t1 eacute um sujeito e t2 eacute um objeto
(direto ou indireto) ou um adjunto
Exemplos superacao(alunodificuldade)
interessea(propostanegociante)
moradiaem(presidentebrasilia)
As Relaccedilotildees Lexicais Binaacuterias conforme Gonzalez (2005) satildeo inseridas no espaccedilo
de descritores para ampliar o seu universo As RLBs descrevem relaccedilotildees semacircnticas lexicais
como as que satildeo apresentadas na estrutura de Qualia da teoria do Leacutexico Gerativo de
Pustejovsky (GONZALEZ 2000 PUSTEJOVSKY 1991) O estudo desta teoria motivou o
Gonzalez a desenvolver a proposta das RLBs como parte integrante de seu trabalho como um
modo de adequaacute-la a aplicaccedilotildees na aacuterea de RI
Como jaacute foi descrita na seccedilatildeo 32 a Estrutura de Qualia da teoria do Leacutexico
Gerativo descreve um item lexical atraveacutes de quatro papeacuteis formal constitutivo agentivo e
teacutelico O papel formal distingue um item lexical em um domiacutenio maior Em uma RLB
segundo Gonzalez (2005) do tipo classificaccedilatildeo como ldquo=(computadormaquina)rdquo por
exemplo o computador seria distinguido como uma maacutequina ou em ldquo=(ipmftributo)rdquo o ipmf
seria um tributo Portanto a RLB do tipo classificaccedilatildeo corresponde ao papel formal da
estrutura de Qualia
51
O papel constitutivo estabelece a relaccedilatildeo entre um item lexical X e suas partes
constituintes Em uma RLB do tipo restriccedilatildeo como ldquode(mesamadeira)rdquo por exemplo haveria
a indicaccedilatildeo de que a mesa eacute feita de madeira ou em ldquocom(massaalho)rdquo de que haacute alho na
massa O papel agentivo especifica os fatores envolvidos na origem ou causa de um item
lexical Em uma RLB para este autor do tipo restriccedilatildeo como ldquopor(publicacaoautor)rdquo por
exemplo seria especificado que a publicaccedilatildeo se deve ao autor ou em ldquopor(impedimentolei)rdquo
que a lei eacute a razatildeo do impedimento
O papel teacutelico explica qual a funccedilatildeo ou finalidade do item lexical Em uma RLB do
tipo associaccedilatildeo como ldquoconserto(encanadorvazamento)rdquo por exemplo explica que a funccedilatildeo
do encanador eacute o conserto do vazamento ou em uma RLB do tipo restriccedilatildeo como
ldquopara(leituraaprendizado)rdquo que a finalidade da leitura eacute o aprendizado (GONZALEZ 2005)
Este autor salienta que natildeo se quer que as RLBs ldquointerpretemrdquo o texto com
distinccedilotildees indicaccedilotildees especificaccedilotildees ou explicaccedilotildees dos tipos apresentados O propoacutesito eacute de
que as RLBs sejam descritores de tais fatos mas sem classificaccedilatildeo (etiquetas) Por isto os
identificadores de relaccedilatildeo natildeo satildeo rotulados com os papeacuteis descritos A uacutenica exceccedilatildeo eacute o
identificador das RLBs do tipo classificaccedilatildeo O indicador ldquo=rdquo eacute o roacutetulo inevitaacutevel para o
claacutessico ldquoeacute umrdquo porque natildeo haacute outro papel possiacutevel nesse tipo de relaccedilatildeo
No modelo TR+ estaacute envolvido aleacutem da coleccedilatildeo de documentos constituiacuteda por
descritores (termos e relacionamentos) tambeacutem os seus respectivos pesos que dependem de
uma formulaccedilatildeo matemaacutetica denominada de lsquocaacutelculo de representatividadersquo dos descritores
em cada documento que eacute um diferencial deste modelo e estaacute na fase ldquodrdquo onde os termos e
RLBs seratildeo armazenados
Para ocorrer o caacutelculo do peso dos descritores eacute aplicado o conceito de evidecircncia26
Este conceito natildeo depende apenas da frequumlecircncia de ocorrecircncia de um descritor mas de um
outro mecanismo ldquoa representatividade de um descritor depende aleacutem de sua frequumlecircncia de
ocorrecircncia no texto da ocorrecircncia de mecanismos de coesatildeo fraacutesicardquo (GONZALEZ 2005
p48) A coesatildeo fraacutesica determina uma junccedilatildeo significativa entre os componentes de uma
frase27 Esta junccedilatildeo aliada com a frequumlecircncia de ocorrecircncia constitui o conceito de evidecircncia
como um dos aspectos essenciais da Tese de Gonzalez (2005)
A evidecircncia dos termos eacute realizada de forma direta com a frequumlecircncia e a coesatildeo
fraacutesica mas a evidecircncia de um relacionamento natildeo pois esta eacute dependente primeiramente das
26 Evidecircncia significa qualidade daquilo que eacute evidente que eacute incontestaacutevel que todos vecircem ou podem ver e verificar (Dicionaacuterio Eletrocircnico Michaelis) Como descreve Gonzalez (2005) ldquoeacute aquilo natildeo oferece ou natildeo daacute margem agrave duacutevidardquo 27 Site httpacdufrjbr~peadtema09coesaogramaticalhtml
52
evidecircncias de seus termos Este conceito estaacute inserido no caacutelculo de representatividade de um
descritor
O caacutelculo da representatividade eacute um caacutelculo de relevacircncia do termo ou
relacionamento que varia de acordo com as abordagens (booleana vetorial e probabiliacutestica) e
pode ser realizado apenas com a frequumlecircncia da palavra no documento ou ainda com a
frequumlecircncia vinculada com a sua informaccedilatildeo morfoloacutegica ou sintaacutetica (GONZALEZ 2005)
Para realizar o caacutelculo da representatividade dos descritores haacute duas estrateacutegias de
determinaccedilatildeo que satildeo os modelos com unigramas que tratam os termos de forma
independente (abordagens vetorial e probabiliacutestica) e os modelos com dependecircncia entre
termos Estas dependecircncias envolvem conjuntos diferentes de conhecimentos que satildeo os
estatiacutesticos e os linguumliacutesticos28 Os conhecimentos linguumliacutesticos satildeo ldquoleacutexico morfoloacutegico
fonoloacutegico sintaacutetico semacircntico e pragmaacuteticordquo (ABRAHAtildeO 1997 p11)
Estes dois modelos descritos acima satildeo apresentados como mais significativos
poreacutem ainda utilizam a abordagem booleana Isto porque Gonzalez (2005) define como o
caminho mais promissor a combinaccedilatildeo da abordagem booleana (individualmente limitadora)
com a uniatildeo dos conhecimentos estatiacutesticos e linguumliacutesticos entre si que permitem mais
interaccedilatildeo com o usuaacuterio
O caacutelculo da representatividade ao mesmo tempo que eacute uma propriedade baacutesica de
um descritor apresenta diferentes formas de acordo com as abordagens vetorial e
probabiliacutestica (capiacutetulo 2) e gera diversas interpretaccedilotildees Por isto Gonzalez (2005) propotildee um
novo caacutelculo que compreenda a importacircncia do contexto nas foacutermulas inseridas no seu modelo
TR+
O outro momento de seu modelo (Figura 18) compreende a lsquofase de buscarsquo que inclui
Preacute-Processamento (toquenizaccedilatildeo e etiquetagem) Nominalizaccedilatildeo e Captura de RLBs Estas
etapas ocorrem da mesma maneira que na fase de indexaccedilatildeo Inclui tambeacutem as etapas
Formulaccedilatildeo de consulta booleana Busca e Classificaccedilatildeo
Na etapa ldquoerdquo (Formulaccedilatildeo de Consulta Booleana) Gonzalez (2005) explica que se a
consulta q em linguagem natural formulada pelo usuaacuterio for por exemplo ldquopintura
restauradardquo entatildeo seraacute formulada no formato Booleano conforme o modelo TR+ a seguinte
consulta qb
28 Estes conhecimentos envolvem niacuteveis leacutexico-morfoloacutegico e sintaacutetico sintagmas nominais (sujeito objeto direto e indireto e adjunto adnominal) A vantagem destes eacute a capacidade de identificar relacionamentos entre palavras natildeo adjacentes como ldquoalgoritmosrdquo e ldquoconcorrentesrdquo em ldquoalgoritmos sequumlenciais e concorrentesrdquo
53
r1 OU r2 OU ( (n1 (p1) OU n2(p1) ) E (n1 (p2) OU n2(p2) ) ) onde
r1 = de(restauracaopintura)
r2 = r1rsquo = diferente_de(restauracaopintura)
n1(p1) = (elemento vazio)
n2(p1) = pintura
n1(p2) = restauracao
n2(p2) = restaurador
p1 = pintura e
p2 = restaurada
Tabela 2 Exemplo de uma consulta qb Fonte Gonzalez 2005 p 51
Na fase de busca a etapa ldquofrdquo ocorre uma relaccedilatildeo entre a etapa ldquoerdquo e a etapa ldquodrdquo Esta
uacuteltima acontece ainda na fase de indexaccedilatildeo visto que ldquoestando os termos e as RLBs definidas
e calculados os pesos a classificaccedilatildeo dos documentos depende do valor de relevacircncia dos
mesmos e da formulaccedilatildeo Booleana da consultardquo (GONZALEZ 2005 p 50)
A etapa ldquogrdquo (Classificaccedilatildeo) eacute resultado de um caacutelculo sobre os dados obtidos no
procedimento anterior que identifica o valor de relevacircncia de cada documento recuperado-os
em ordem decrescente Um exemplo de classificaccedilatildeo eacute indicado por Gonzalez (2005) atraveacutes
da foacutermula de uma consulta denominada q Nesta consulta encontram-se os termos t1 e t2 e a
RLB r e se estes dois termos estatildeo relacionados atraveacutes de r em um documento d estes teratildeo
dupla contribuiccedilatildeo no caacutelculo do valor de relevacircncia de d poreacutem se t1 e t2 ocorrem em d mas
natildeo estatildeo relacionados atraveacutes de r o autor considera que esta contribuiccedilatildeo seraacute simples e
assim d tende a perder posiccedilotildees na classificaccedilatildeo por relevacircncia a q
Os documentos recuperados classificam-se em dois grupos (a) grupo superior de maior relevacircncia documentos que atendem agraves condiccedilotildees estabelecidas na consulta Booleana ou seja possuem pelo menos uma das RLBs da consulta ou na falta de todas elas possuem obrigatoriamente todos os termos conforme especificado (b) grupo inferior de menor relevacircncia documentos que natildeo atendem a todas as condiccedilotildees estabelecidas na consulta Booleana mas possuem pelo menos um dos termos da consulta Os documentos satildeo classificados em ordem decrescente do valor de relevacircncia tanto nos grupos superior como inferior (GONZALEZ 2005 p 51)
Eacute importante ressaltar que toda a proposta de Gonzalez (Modelo TR+) foi
automatizada testada e aprovada Foi utilizado o software FORMA para a etapa de preacute-
processamento e os demais softwares como CHAMA (nominalizaccedilatildeo) e RELLEX (regras de
54
identificaccedilatildeo de RLBs) foram desenvolvidos pelo autor Diversos algoritmos juntamente com
abordagens de RI (booleana probabiliacutestica e vetorial) foram desenvolvidos para as fases
posteriores do seu trabalho como o caacutelculo do peso dos descritores a busca e a classificaccedilatildeo
de documentos
As experimentaccedilotildees desenvolvidas por Gonzalez (2005) em seu trabalho lograram
comprovar que o processo de nominalizaccedilatildeo como processo de normalizaccedilatildeo lexical
proporciona melhores resultados de recuperaccedilatildeo que os produzidos pelos processos
tradicionais (lematizaccedilatildeo e stemming) a identificaccedilatildeo de RLBs (obtenccedilatildeo de informaccedilatildeo
linguumliacutestica) contribui de forma positiva para a descriccedilatildeo de dependecircncias de termos
ampliando o espaccedilo de descritores o caacutelculo da representatividade dos descritores baseado em
evidecircncia melhora a classificaccedilatildeo de relevacircncia dos documentos com vantagem sobre o
caacutelculo baseado em frequumlecircncia de ocorrecircncia o uso de consultas com operadores Booleanos
trata-se de uma forma eficaz de complementar a especificaccedilatildeo de dependecircncias de termos e
tambeacutem a inclusatildeo de conhecimento linguumliacutestico como a realizada no modelo proposto pelo
autor apresenta relaccedilatildeo custobenefiacutecio viaacutevel dentro do atual estaacutegio de desenvolvimento da
pesquisa em RI
O proacuteximo capiacutetulo descreve o novo modelo proposto para esta dissertaccedilatildeo baseado
na identificaccedilatildeo das possibilidades de ampliaccedilatildeo de siacutentese e de sistematizaccedilatildeo do modelo de
Kuramoto com a estrutura de Gonzalez Pode ser considerada uma soluccedilatildeo hiacutebrida de um
modelo de RI que une trecircs teorias Sintagmas Nominais de Kuramoto Leacutexico Gerativo de
Pustejovsky e Modelo TR+ de Gonzalez Apresentar-se-aacute os paracircmetros gerais norteadores e
justificadores do modelo a descriccedilatildeo narrativa da sua funcionalidade os resultados dos testes
e a descriccedilatildeo formal UML do modelo
55
4 APRESENTACcedilAtildeO E DISCUSSAtildeO DO MODELO PROPOSTO
A proposta desta dissertaccedilatildeo eacute de integrar a aplicaccedilatildeo praacutetica do projeto dos
Sintagmas Nominais de Kuramoto sistematizando e associando com o modelo TR+ de
Gonzalez (2005)
Na descriccedilatildeo do modelo do sistema proposto foi utilizado o meacutetodo denominado de
Processo Unificado (UP) que envolve as fases de concepccedilatildeo elaboraccedilatildeo construccedilatildeo e
transiccedilatildeo e utilizou-se a Linguagem de Modelagem Unificada (UML) que eacute fortemente
relacionada com a metodologia utilizada segundo Wazlawick (2004)
Neste capiacutetulo desenvolve-se o modelo conceitual da aplicaccedilatildeo proposta para a qual
foram realizadas as etapas de levantamento e anaacutelise de requisitos representada pelo
diagrama e pela descriccedilatildeo dos casos de uso e de construccedilatildeo dos diagramas de classes e de
sequumlecircncia relacionados
41 Procedimentos desenvolvidos utilizando o modelo de SN de Kuramoto e a proposta
Gonzalez - ldquoEstrutura SINTR+rdquo
Esta dissertaccedilatildeo optou por realizar uma relaccedilatildeo entre propostas diferenciadas utilizar
o modelo de SN de Kuramoto para a organizaccedilatildeo dos conceitos mais significativos dos
documentos e a proposta de Gonzalez para a busca dessas informaccedilotildees que estaratildeo
estruturadas atraveacutes da dependecircncia entre termos Esta relaccedilatildeo foi desenvolvida na criaccedilatildeo da
ldquoEstrutura SINTR+rdquo que tem como especificidade a busca nos documentos a partir do banco
de dados dos Sintagmas Nominais Esta escolha de unir em uma estrutura proacutepria os SN e o
Modelo TR+ pautou-se pelo intuito de orientar mais objetivamente o usuaacuterio na definiccedilatildeo da
sua query de busca atraveacutes de uma navegaccedilatildeo sobre a estrutura de SN presentes no
documento e de posterior apresentaccedilatildeo de lista de documentos efetivamente relevantes
O objetivo eacute trabalhar com os Sintagmas Nominais evidenciando e potencializando
uma uniatildeo com o modelo TR+ de Gonzalez (2005) O modelo abaixo (Figura 19) apresenta
uma nova proposta pautada na junccedilatildeo sistematizada e analiacutetica da extraccedilatildeo dos SN na
Estrutura de Kuramoto (1999) com o Modelo TR+ de Gonzalez (2005) ldquoEstrutura SINTR+rdquo
56
Documentos
Extraccedilatildeo de SN
Preacute-processamento
Nominalizaccedilatildeo
4
Captura de RLBs
Referecircncia aos
documentos classificados
Classificaccedilatildeo
Lista de SN de Niacutevel Requerido
Lista dos demais Preacute-
3
2
85
3
2
1
Consulta em
LN
7
6
(Fase d
O mo
extraccedilatildeo de tod
o preacute-processam
de acontecer co
de forma mais
foco de anaacutelise
subsequumlentes
Antes
descritores con
frequumlecircncia de o
Etapa 5
Em se
mudanccedila de um
concreto eou a
Te
R
e indexaccedilatildeo)
Figura
delo propost
os os seus Si
ento onde o
m todas as p
objetiva e raacute
somente so
do processo d
stituiacuteda na s
correcircncia dos
guida ocorre
a palavra (ad
bstrato Na E
rmos e
LBs
Busca
Formulaccedilatildeo de consulta Booleana
11
(Fase
19 Visatildeo Geral do Modelo Proposto ldquoEstr
o se inicia a partir dos document
ntagmas Nominais (Etapa 1) Extra
correm a Toquenizaccedilatildeo e a Etiquet
alavras do documento como ocorr
pida apenas diretamente sobre os
bre os termos inclusos nos SN pe
e nominalizaccedilatildeo na Etapa 3 eacute exec
eleccedilatildeo e normalizaccedilatildeo dos descrit
descritores - termos (para o caacutelculo
o processo de nominalizaccedilatildeo que c
veacuterbio adjetivo ou verbo) existen
tapa 4 ocorre a identificaccedilatildeo das
niacuteveis de SN processamento
Nomin
Captura
9
de busca)
utura SINTR+rdquo
os a serem inse
iacutedos os SN na E
agem que Essa e
e no modelo TR
termos constant
rmanece para to
utada a geraccedilatildeo
ores e ainda na
de seus pesos)
onstitui a Etapa
te nos SN em u
RLBs nos SN q
alizaccedilatildeo
de RLBs 0
ridos com a
tapa 2 eacute feito
tapa ao inveacutes
+ eacute realizada
es nos SN O
das as etapas
de espaccedilo dos
contagem da
a ser usada na
3 e significa a
m substantivo
ue significa o
1
1
1
57
relacionamento entre termos nominalizados Estas etapas acima satildeo constituiacutedas para a
geraccedilatildeo do espaccedilo de descritores (termos e RLBs) referentes agrave Etapa 5
Na lsquofase de buscarsquo primeiramente o usuaacuterio digita uma palavra por exemplo
ldquoplaacutesticosrdquo A resposta para o usuaacuterio ocorreraacute pois internamente foi feita uma programaccedilatildeo
(a ser implementada) para identificar o niacutevel do SN solicitado pelo usuaacuterio para que
posteriormente apareccedila para este a lista de todos os SN do niacutevel apresentado contendo a query
solicitada
No caso do exemplo ldquoplaacutesticosrdquo o processo avanccedila na Etapa 6 listando todos os
sintagmas nominais de primeiro niacutevel (SN1) dos documentos (uma vez que a solicitaccedilatildeo
referia-se ao niacutevel 1) Nesta etapa o usuaacuterio poderaacute escolher um dos sintagmas de primeiro
niacutevel ou confirmar a sua escolha (query) inicial O processo continua com a escolha de uma
dentre as opccedilotildees de i) ver a lista de documentos relacionados ao SN1 definido ou ii) solicitar
a relaccedilatildeo de sintagmas de seu segundo niacutevel A visualizaccedilatildeo da lista de sintagmas de niacutevel
superior permitiria ao usuaacuterio filtrar mais a sua consulta Para a determinaccedilatildeo da lista de SN
de segundo niacutevel como por exemplo ldquoa reciclagem de plaacutesticosrdquo ldquoa induacutestria de plaacutesticosrdquo
(Figura 20) tambeacutem foi feita uma programaccedilatildeo especiacutefica que seraacute descrita posteriormente
Na continuidade do processo o usuaacuterio pode prosseguir o refinamento da sua busca
atraveacutes da seleccedilatildeo de SN de maior niacutevel ou pode dar-se por satisfeito com o resultado (Etapa
7) solicitando diretamente a lista dos documentos associados ao SN definidos Nesse caso a
lista eacute apresentada na ordem de classificaccedilatildeo oportunizada pela Estrutura TR+ conforme o
descrito nas proacuteximas etapas
O processamento proposto para a determinaccedilatildeo da relaccedilatildeo dos sintagmas de um
determinado niacutevel foi pensado com vista a gerar economia de espaccedilo de memoacuteria utilizada
uma vez que seratildeo armazenados na base de dados os documentos e seus SN de uacuteltimos niacuteveis
e manipulados apenas os uacuteltimos niacuteveis da estrutura de SN Os niacuteveis anteriores relativos ao
SN seratildeo determinados na programaccedilatildeo desenvolvida a partir da identificaccedilatildeo do nuacutemero de
preposiccedilotildees que o SN apresenta Nesta programaccedilatildeo se houver apenas um termo (ou mesmo
apenas um termo composto) o SN eacute considerado um SN de 1ordm niacutevel A presenccedila de um termo
composto com mais uma preposiccedilatildeo indica a existecircncia de um SN de 2ordm niacutevel Jaacute trecircs termos
com duas preposiccedilotildees vatildeo indicar a presenccedila de um SN de 3ordm niacutevel e finalizando quatro ou
mais termos com 3 (ou mais) preposiccedilotildees remetem ao SN de 4ordm niacutevel
Ao optar pela apresentaccedilatildeo da lista de documentos seratildeo desenvolvidas
(internamente) na programaccedilatildeo conforme o proposto pela Estrutura TR+ de Gonzalez as
etapas de Preacute-processamento (toquenizaccedilatildeo e etiquetagem ndash Etapa 8) Nominalizaccedilatildeo (Etapa
58
9) Captura de RLBs (Etapa 10) Formulaccedilatildeo de consulta Booleana (Etapa 11) Busca (Etapa
12) e por fim Classificaccedilatildeo (Etapa 13)
Na Etapa 11 eacute trabalhado no formato Booleano uma consulta formulada pelo usuaacuterio
conforme o modelo TR+ A Etapa 12 ocorre uma relaccedilatildeo entre a Etapa 11 e a Etapa 5 (esta
etapa ocorre ainda na fase de indexaccedilatildeo) A Etapa 13 eacute a uacuteltima e resulta do caacutelculo que
identifica o valor de relevacircncia de cada documento recuperando-os em ordem decrescente
Eacute importante reforccedilar que o sistema iraacute verificar o preacute-processamento nominalizaccedilatildeo
e a captura de RLBs jaacute realizadas na fase de indexaccedilatildeo comparando-as Apoacutes esta
identificaccedilatildeo o sistema usa a formulaccedilatildeo de consulta Booleana para a busca chegando agrave
classificaccedilatildeo dos documentos de acordo com o peso dos descritores (termos e RLBs)
formulados na fase de indexaccedilatildeo e definidos na fase de busca (de acordo com o termo
escolhido e a coleccedilatildeo dos documentos)
Exemplificando o paraacutegrafo acima a Figura 20 mostra o funcionamento inicial desta
estrutura no que se refere aos Sintagmas Nominais
Pesquisa
Usuaacuterio escolha uma opccedilatildeo (Sintagma Nominal) que mais se identifique com a sua consulta Logo em seguida escolha se deseja ir para o Proacuteximo Niacutevel de Sintagma Nominal ou Estrutura TR+
Buscar (SN) Plaacutesticos
SN1 Os plaacutesticos
Proacuteximo niacutevel SN Estrutura TR+
SN2 A reciclagem de plaacutesticos A separaccedilatildeo de plaacutesticos A induacutestria de plaacutesticos
Proacuteximo niacutevel SN Estrutura TR+
SN3 A induacutestria de reciclagem de plaacutesticos
Estrutura TR+ Proacuteximo niacutevel SN
SN4 -----
Estrutura TR+
Figura 20 Descriccedilatildeo inicial do modelo proposto
59
Buscando analisar as vantagens que a proposta do modelo SINTR+ apresenta vale
lembrar que o modelo TR+ de Gonzalez jaacute apresenta benefiacutecios como
bull O processo de nominalizaccedilatildeo propicia melhores resultados de recuperaccedilatildeo do que
os produzidos pelos processos tradicionais (lematizaccedilatildeo e stemming)
bull A identificaccedilatildeo de RLBs colabora para a descriccedilatildeo de dependecircncia de termos que
ampliam o espaccedilo de descritores
bull O caacutelculo da representatividade dos descritores baseado em evidecircncia melhora a
classificaccedilatildeo da relevacircncia de documentos em relaccedilatildeo agravequela obtida atraveacutes da
extraccedilatildeo e do caacutelculo por frequumlecircncia de ocorrecircncia
bull O uso de consultas com operadores Booleanos oferece uma forma eficaz de
complementar a especificaccedilatildeo de co-dependecircncia semacircntica entre termos
As vantagens antevistas na elaboraccedilatildeo da proposta SINTR+ expandem as jaacute obtidas
pelo modelo de Gonzalez29 pois une a elas a vantagem do modelo de hierarquia de niacuteveis de
SN de Kuramoto Estas vantagens satildeo a ldquoEstrutura SINTR+rdquo executa em um menor tempo na
fase de indexaccedilatildeo dos documentos a ldquoEstrutura SINTR+rdquo conteacutem um tamanho menor de
arquivos de iacutendice e a ldquoEstrutura SINTR+rdquo proporciona facilidade na fase de nominalizaccedilatildeo
visto que os SN satildeo o nuacutecleo de maior significaccedilatildeo de um texto30
Os documentos (textos) usados como campo empiacuterico desta dissertaccedilatildeo foram artigos
retirados da Internet sobre o tema ldquoLixordquo Neste contexto fazem parte da coleccedilatildeo de
documentos temas como ldquoCuidados com o Lixordquo ldquoLixo Industrialrdquo ldquoO destino do lixo
quiacutemicordquo entre outros Como ainda natildeo havia disponiacuteveis extratores automaacuteticos de SN por
hierarquia em niacuteveis foi feita uma leitura dos textos dos quais se retirou manualmente seus
sintagmas Os SN significativos com o tema ldquoLixordquo foram extraiacutedos de dois (2) documentos
(que estatildeo nos ANEXOS A e B) e satildeo apresentados no Anexo C
Apoacutes esta etapa foram extraiacutedos todos os sintagmas nominais (somente do
documento1 - ANEXO A) que estatildeo sublinhados no texto independentes do tema para
exemplificar a extraccedilatildeo da consulta
Para avaliar preliminarmente a extensatildeo com que as vantagens antevistas no modelo
proposto realmente se verificariam foi realizado um teste com o documento1 (ANEXO A)
composto de 9 paraacutegrafos e 1006 palavras (Figura 21)
29 Este modelo foi testado e aprovado na sua proposta de doutorado que estaacute inserida no contexto do grupo de pesquisa da PUCRS no qual o autor participa de estudos na aacuterea haacute mais de uma deacutecada 30 Isto pode ser observado do Anexo A (Documento1) em que os SN satildeo destacados no texto
60
Figura 21 Nuacutemero de palavras do Documento1
O documento1 (ANEXO A) foi o escolhido para dimensionar a reduccedilatildeo no total de
palavrastermos a serem incluiacutedos na base de dados demonstrando a importacircncia do modelo
apresentado conforme tabela abaixo
Categorias Texto Total SNs Total de palavrastermos 1006 640
Substantivos 369 334 Adveacuterbios 41 04
Verbos 133 Ausecircncia de verbos Adjetivos 73 55
Figura 22 Tabela comparativa Texto Total e SNs
O texto possui um total de 1006 palavrastermos sendo destes 369 substantivos 41
adveacuterbios 133 verbos e 73 adjetivos (Figura 22) Do texto todo foi extraiacutedo um total de 139
sintagmas nominais E destes o nuacutemero total de palavrastermos eacute de 640 sendo 334
substantivos 04 adveacuterbios e 55 adjetivos
61
Documento1 - Cresce a induacutestria de reciclagem de plaacutesticos
369
41
133
7355
nordm de substantivos
nordm de adveacuterbios
nordm de verbos
nordm de adjetivos
nordm de adjetivosinseridos nos SN
Figura 22 Nuacutemero de substantivos adveacuterbios verbos e adjetivos do Documento1
Relacionando o nuacutemero de adjetivos do texto todo e os adjetivos inseridos nos SN
pode-se notar um ganho expressivo pois se tem uma reduccedilatildeo de 18 adjetivos Destes dados
133 verbos foram descartados (novamente afirma-se da importacircncia dos SN que representam a
unidade significativa do texto) Tambeacutem se observa que 37 adveacuterbios natildeo foram incluiacutedos
diminuindo assim o nuacutemero de descritores
Estes dados apontam aspectos positivos que consolidam a importacircncia da utilizaccedilatildeo
dos SN na diminuiccedilatildeo de descritores com consequumlente reduccedilatildeo do uso de memoacuteria e ainda
melhora na fase de busca pelo tempo de resposta
A Figura 23 apresenta o comparativo entre o percentual do nuacutemero de palavras do
texto com o percentual do nuacutemero de palavras dos Sintagmas Nominais Isto mostra que o
percentual de SN de 64 tem um valor reduzido colaborando para um nuacutemero menor de
descritores desta forma restringe-se tambeacutem o uso de memoacuteria (neste caso ocupado na fase
de indexaccedilatildeo) reduzem-se os descritores e diminui-se o tempo de resposta na fase de busca
Estes dados natildeo satildeo somente relevantes frente a um modelo de RI mas corroboram para a
manutenccedilatildeo do seu funcionamento
62
Dados Comparativos - Nordm de palavras restantes e dos SNs
64
36 Nordm de palavras dossintagmas nominaisNordm de palavras restantes
100 - nordm total de palavras
Figura 23 Nuacutemero de palavras restantes x Sintagmas Nominais
A Figura 24 mostra que existe um percentual de 28 de adjetivos inseridos nos
Sintagmas Nominais Esses adjetivos durante o processo de nominalizaccedilatildeo conforme
Gonzalez (2005) satildeo transformados em substantivos concretos eou abstratos (se houver) Isto
aponta um nuacutemero bem inferior comparado a um texto inteiro o que promove uma diminuiccedilatildeo
de substituiccedilotildees de um adjetivo por um substantivo concreto eou abstrato que pode inferir
no significado do documento e a reduccedilatildeo destas substituiccedilotildees evita possiacuteveis erros de
interpretaccedilatildeo
Dados Comparativos - Sintagmas Nominais e adjetivos
72
28nordm de sintagmas nominais
nordm de adjetivos inseridosnos SN
Figura 24 Sintagmas Nominais e adjetivos inseridos nos SN
A extraccedilatildeo dos Sintagmas Nominais corresponde agrave primeira etapa Depois desta
extraccedilatildeo manual se agrupou os SN em quatro niacuteveis 1 2 3 e 4 (ANEXO C)
Para o desenvolvimento das demais etapas (toquenizaccedilatildeo etiquetagem morfoloacutegica
nominalizaccedilatildeo e as relaccedilotildees lexicais binaacuterias) foi escolhido o paraacutegrafo 6 do documento1
(ANEXO A)
63
A induacutestria da reciclagem do plaacutestico no Brasil tem crescido bastante em funccedilatildeo do reaproveitamento do PET que eacute usado no segmento de monofilamentos em artigos como vassouras e na induacutestria tecircxtil Conforme Ana Flores a reciclagem gera 250 mil empregos no Paiacutes dos quais 70 satildeo informais Poreacutem a maior parte do potencial de mercado ainda estaacute sendo desperdiccedilada avalia ldquoCerca de 15 do total de plaacutestico que eacute industrializado no Paiacutes eacute reciclado Em dez anos poderiacuteamos chegar a 60 como nos Estados Unidos desde que fosse implementado um conjunto de medidas incentivando essa praacuteticardquo assegura
Tabela 3 Paraacutegrafo 6 do documento1
Na etapa de toquenizaccedilatildeo e etiquetagem satildeo identificadas classes de palavras como
substantivos adjetivos adveacuterbios preposiccedilotildees artigos conjunccedilotildees e inclusive ponto No
Anexo D eacute possiacutevel visualizar essas informaccedilotildees em duas ferramentas de extraccedilatildeo
disponiacuteveis nos sites do Projeto de Linguumliacutestica Computacional Hermes da Fundaccedilatildeo
Universidade Federal do Rio Grande (FURGBrasil) e do Programa de LAEL da PUC-SP -
Programa de Estudos Poacutes-Graduados em Linguumliacutestica Aplicada e Estudos da Linguagem da
Pontifiacutecia Universidade Catoacutelica de Satildeo Paulo31
A partir desta identificaccedilatildeo adjetivos adveacuterbios e verbos satildeo transformados em
substantivos (concreto eou abstrato) quando for possiacutevel Ou ateacute mesmo o adjetivo seja o
mesmo nome (grafia) para substantivos Esse processo de nominalizaccedilatildeo no trabalho de
Gonzalez (2005) foi realizado atraveacutes da ferramenta CHAMA desenvolvida por ele mesmo
Apoacutes o processo de nominalizaccedilatildeo satildeo identificadas as RLBs (Relaccedilotildees Lexicais
Binaacuterias) conforme descrito nesta seccedilatildeo Gonzalez (2005) desenvolveu tambeacutem a ferramenta
RELLEX para identificaccedilatildeo das RLBs Para o caso do teste optou-se por fazer manualmente32
(ANEXO E) devido agrave indisponibilidade destas duas ferramentas Esta etapa tem uma
importacircncia muito grande onde satildeo reconhecidos os relacionamentos das palavras no texto
atraveacutes de identificadores A tabela 4 mostra as RLBs identificadas do paraacutegrafo 6 do
documento1 (ANEXO A) de forma manual
RLBs classificaccedilatildeo =(textil industria)
RLBS restriccedilotildees
de (industria reciclagem) de (reciclagem plastico)
de (reaproveitamento PET) de (segmento monofilamento) de (mercado potencialidade)
de (plastico totalidade) de (conjunto medida)
Tabela 4 RLBs identificadas no paraacutegrafo 6 do documento1
31 As paacuteginas disponiacuteveis satildeo hermessourceforgenethermeswebhtml e httpwww2laelpucspbrcorporaetiquetagemindexhtml32 Dicionaacuterios consultados MICHAELIS Dicionaacuterio Eletrocircnico Acesso em mar de 2006 e FERREIRA Aureacutelio Buarque de Holanda Novo Aureacutelio Seacuteculo XXI o dicionaacuterio da liacutengua portuguesa 1999
64
42 Descriccedilatildeo Formal do Modelo Proposto SINTR+
Os Sintagmas Nominais de Kuramoto em conjunto com as abordagens utilizadas no
modelo TR+ de Gonzalez promovem a utilizaccedilatildeo de conceitos orientados a objetos (OO)
porque eacute considerada a melhor metodologia para projeto de software permite uma
organizaccedilatildeo aprimorada do coacutedigo tem uma proximidade com a UML (Linguagem de
Modelagem Unificada) proporciona uma facilidade de manutenccedilatildeo do coacutedigo apresenta
menor grau de replicaccedilatildeo do coacutedigo e possibilita uma aplicaccedilatildeo em camadas o MVC33 um
padratildeo de projeto atraveacutes da Linguagem Orientada a Objetos Para compreender estes
conceitos e o desenvolvimento da modelagem proposta ressaltaram-se alguns aspectos baacutesicos
de seus fundamentos
A Linguagem UML segundo Larman (2000) expressa a modelagem de sistemas e
utiliza os conceitos orientados a objetos Como na aplicaccedilatildeo proposta trabalhar-se-aacute
especificamente apenas nas etapas de anaacutelise e projeto considera-se importante o uso da
linguagem UML por ser esta uma linguagem poderosa para expressar de modo claro e preciso
o processo de geraccedilatildeo de projetos de software Para Wazlawick (2004) esta linguagem daacute
suporte a que esse processo gere uma estrutura faacutecil de ser compreendida Para o autor isto
ocorre quando se utiliza um software autodocumentado e de faacutecil entendimento tanto em niacutevel
macro quanto em detalhes
Este autor define que o Processo Unificado (UP) estaacute associado agrave notaccedilatildeo UML e
indica que suas fases satildeo concepccedilatildeo elaboraccedilatildeo construccedilatildeo e transiccedilatildeo Conforme
Wazlawick (2004) eacute na primeira fase que se faz o levantamento dos principais requisitos e
compreende-se o sistema de forma abrangente A fase de elaboraccedilatildeo eacute constituiacuteda de anaacutelise e
projeto e a fase de construccedilatildeo corresponde agrave implementaccedilatildeo e testes
A anaacutelise de requisitos ainda segundo este autor (2004 p 24) ldquoestaacute associada ao
processo de descobrir quais satildeo as operaccedilotildees que o sistema deve realizar e quais satildeo as
restriccedilotildees que existem sobre elasrdquo Jaacute a anaacutelise de domiacutenio ldquoestaacute relacionada agrave descoberta das
informaccedilotildees gerenciadas pelo sistema ou seja agrave representaccedilatildeo e transformaccedilatildeo da
informaccedilatildeordquo (2004 p 26)
No caso de um sistema de informaccedilotildees sobre uma instituiccedilatildeo de ensino (Moacutedulo
controle de alunos) por exemplo possivelmente a anaacutelise de requisitos permitiria descobrir
que o sistema deveria controlar a data o curso e a turma em que o aluno foi matriculado o
iniacutecio e teacutermino do curso calcular automaticamente os pagamentos gerar relatoacuterios de
65
contrato especificando as claacuteusulas legais de direito e dever do aluno na Instituiccedilatildeo etc Essas
operaccedilotildees satildeo chamadas de ldquorequisitos funcionaisrdquo
Haacute tambeacutem relacionados a um sistema em construccedilatildeo os requisitos natildeo funcionais
que dizem respeito agrave operaccedilatildeo e agrave usabilidade do sistema Um exemplo de requisito natildeo-
funcional seria a necessidade de fazer a matriacutecula via Internet Essa eacute uma restriccedilatildeo de
operaccedilatildeo Um outro exemplo seria uma central de acidentes de tracircnsito onde o registro de um
dado acidente devesse ser feito em no maacuteximo 10 segundos o que demandaria um
processamento e uma interface bastante eficiente constituindo-se esse em um requisito de
usabilidade
Para as etapas de levantamento e anaacutelise de requisitos costuma ser utilizado o
diagrama de casos de uso Segundo Guedes (2004) esse diagrama possibilita a compreensatildeo
do comportamento externo do sistema por qualquer pessoa Entendem-se aqui casos de uso
segundo Larman (2000) como um documento narrativo que descreve a sequumlecircncia de eventos
(accedilotildees) de um ator (um agente externo) que usa um sistema para completar um processo e
descreve tambeacutem as respostas do sistema Pode se dizer que caso de uso eacute um cenaacuterio com
atores e ambientes Criam-se as cenas e as narrativas das mesmas ajudando a entender o que
se quer do sistema O interessante dos casos de uso eacute que os mesmos permitem que o projeto
seja construiacutedo de forma participativa por um grupo de pessoas uma vez que sua descriccedilatildeo se
daacute em uma linguagem textual e diagramaacutetica
A partir dos casos de uso eacute possiacutevel construir o modelo conceitual Conforme Larman
(2000 p 99) ldquoo modelo conceitual ilustra os conceitos significativos em um domiacutenio de
problemardquo Para Wazlawick (2004 p 102) ldquoo modelo conceitual deve descrever a
informaccedilatildeo que o sistema vai gerenciar trata-se de um artefato do domiacutenio do problema e
natildeo do domiacutenio da soluccedilatildeordquo
Eacute importante ressaltar que o modelo conceitual representa somente o aspecto estaacutetico
da informaccedilatildeo Os elementos que representam informaccedilatildeo satildeo conceitos (representados por
classes) atributos (informaccedilotildees alfanumeacutericas ligadas diretamente aos conceitos) e
associaccedilotildees (tipo de informaccedilatildeo que liga diferentes conceitos entre si)
O diagrama de casos de uso do sistema proposto foi desenvolvido no software JUDE
Community Ferramenta de Modelagem UML Um software freeware muito utilizado para a
criaccedilatildeo deste tipo de diagramas Neste software podem tambeacutem ser desenvolvidos os outros
tipos de diagramas do UML tais como de classes sequumlecircncia colaboraccedilatildeo graacuteficos de
estados
33 A sigla significa Model View e Controller
66
Os casos de uso identificados para esta aplicaccedilatildeo foram descritos em duas situaccedilotildees
A primeira eacute referente agrave pesquisa do usuaacuterio e a segunda ao gerenciamento e operaccedilatildeo do
banco de dados (BD) no niacutevel de administrador Para descobrir estes casos de uso foi
necessaacuterio primeiramente identificar os atores envolvidos com o sistema (usuaacuterio e
administrador) E na sequumlecircncia a cada grande processo reconhecido correspondeu a um caso
de uso do sistema
As Figuras 25 e 26 satildeo diagramas na UML que representam casos de uso e seus
atores As elipses significam casos de uso e os bonecos representam atores Para cada uma das
situaccedilotildees (pesquisa e gerenciamento de operaccedilatildeo do BD no niacutevel de administrador) foram
identificados os seguintes casos de uso
Figura 25 Diagrama de casos de uso da UML do sistema proposto ndash Pesquisa do Usuaacuterio
67
Figura 26 Diagrama de casos de uso da UML do sistema proposto ndash Gerenciamento e Operaccedilatildeo do BD no
niacutevel de administrador
Deve-se lembrar que na proposta deste trabalho para economia de espaccedilo de
memoacuteria foram sistematizados dois momentos o 1ordm em um armazenamento na base de dados
do documento apenas para a lista final do usuaacuterio e outro com os Sintagmas Nominais que
seratildeo armazenados na base de dados no 4ordm ou no uacuteltimo niacutevel apresentado (Figura 19) Os
niacuteveis anteriores relativos ao SN seratildeo procurados por uma programaccedilatildeo desenvolvida
relacionada diretamente com os Sintagmas Com isto natildeo haveraacute necessidade de acesso agrave
memoacuteria da base de documentos em todas as accedilotildees e esta serviraacute somente na uacuteltima escolha
do usuaacuterio tendo um ganho significativo quanto agrave rapidez de acesso aos dados da base e a natildeo
existecircncia de duplicaccedilatildeo de dados
Os casos de uso costumam ser documentados conforme Guedes (2004) por meio de
uma linguagem bastante simples fornecendo a funccedilatildeo em linhas gerais dos casos de uso
quais atores interagem com os mesmos quais etapas devem ser executadas pelo ator e pelo
sistema quais paracircmetros devem ser fornecidos e quais restriccedilotildees o caso de uso deve possuir
As Tabelas abaixo (5 a 15) apresentam as descriccedilotildees dos casos de uso do sistema proposto
referente ao gerenciamento e operaccedilatildeo do BD no niacutevel de administrador
68
Nome do Caso de Uso Inserir novo documento Caso de Uso Geral natildeo possui Ator Principal Administrador Atores secundaacuterios natildeo possui Resumo Permite ao administrador do sistema inserir arquivos na base de dados de documentos iniciando o processo de alimentaccedilatildeo de todas as demais bases de dados Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema 1) Anexar um documento 2) Verificar se documento jaacute natildeo existe na base de dados 3) Inserir o documento Restriccedilotildeesvalidaccedilotildees Apenas documentos vaacutelidos34 deveratildeo ser aceitos
Tabela 5 Descriccedilatildeo do caso de uso ndash Inserir novo documento Nome do Caso de Uso Alimentar base de dados (Documentos) Caso de Uso Geral natildeo possui Ator Principal natildeo possui Atores secundaacuterios natildeo possui Resumo Armazenar em meio fiacutesico e com seguranccedila os documentos inseridos pelo Administrador atraveacutes do sistema Preacute-condiccedilotildees Administrador anexa um documento vaacutelido Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema 1) Armazenar em base de dados os documentos anexados Restriccedilotildeesvalidaccedilotildees natildeo possui
Tabela 6 Descriccedilatildeo do caso de uso ndash Alimentar base de dados (Documentos) Nome do Caso de Uso Extrair SN de 4ordm ou uacuteltimo niacutevel Caso de Uso Geral natildeo possui Ator Principal natildeo possui Atores secundaacuterios natildeo possui Resumo Extrair do documento inserido na base de dados todos os sintagmas nominais de 4ordm ou uacuteltimo niacutevel
Preacute-condiccedilotildees o documento estar devidamente validado e inserido na base de dados Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema
1) realizar a anaacutelise do documento inserido extraindo todos os sintagmas nominais de 4ordm ou uacuteltimo niacutevel enviando informaccedilotildees para alimentaccedilatildeo de base de dados de sintagmas
Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 7 Descriccedilatildeo do caso de uso ndash Extrair SN de 4ordm ou uacuteltimo niacutevel
34 Documentos vaacutelidos satildeo considerados aqui apenas os documentos em formato de texto (como doc txt)
69
As accedilotildees do sistema da tabela 7 seguem as regras estabelecidas na seccedilatildeo 41 da paacutegina 66 Nome do Caso de Uso Tratar regras verbais Caso de Uso Geral natildeo possui Ator Principal natildeo possui Atores secundaacuterios natildeo possui Resumo Realizar o tratamento de regras verbais dos sintagmas nominais de 4ordm ou uacuteltimo niacutevel extraiacutedos do documento Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema
1) aplicar rotinas de tratamento de regras verbais e palavras no infinitivo
Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 8 Descriccedilatildeo do caso de uso ndash Tratar regras verbais
Nome do Caso de Uso Extrair SN de niacuteveis 3 2 e 1 (niacuteveis anteriores) Caso de Uso Geral natildeo possui Ator Principal natildeo possui Atores secundaacuterios natildeo possui Resumo Aplicar regras de extraccedilatildeo de sintagmas de niacuteveis 3 2 e 1 (niacuteveis anteriores) Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema
1) Definir o niacutevel apropriado de cada sintagma a partir do 4ordm ou uacuteltimo niacutevel enviando informaccedilatildeo para o usuaacuterio
Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 9 Descriccedilatildeo do caso de uso ndash Extrair SN de niacuteveis 3 2 e 1 (niacuteveis anteriores)
A tabela 9 segue a mesma regra da tabela 7
Nome do Caso de Uso Alimentar base de dados (Sintagmas) Caso de Uso Geral natildeo possui Ator Principal natildeo possui Atores secundaacuterios natildeo possui Resumo Persistir as informaccedilotildees extraiacutedas nos casos de uso ldquoExtrair SN de 4ordm ou uacuteltimo niacutevelrdquo Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema
1) Armazenar na base de dados o 4ordm ou uacuteltimo niacutevel de sintagma extraiacutedo do documento inserido
Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 10 Descriccedilatildeo do caso de uso ndash Alimentar base de dados (Sintagmas)
70
Nome do Caso de Uso Toquenizar e etiquetar Caso de Uso Geral natildeo possui Ator Principal Software Forma Atores secundaacuterios natildeo possui Resumo Submeter os sintagmas extraiacutedos ao software Forma Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema
1) Aplicar o conceito de Toquenizaccedilatildeo e Etiquetagem dos sintagmas extraiacutedos e armazenados em base de dados
Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 11 Descriccedilatildeo do caso de uso ndash Toquenizar e etiquetar
Nome do Caso de Uso Nominalizar Caso de Uso Geral natildeo possui Ator Principal Software Chama Atores secundaacuterios natildeo possui Resumo Submeter as informaccedilotildees resultantes do processo de Toquenizaccedilatildeo e Etiquetagem ao software Chama Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema
1) Aplicar o conceito de Nominalizaccedilatildeo das informaccedilotildees do documento
Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 12 Descriccedilatildeo do caso de uso ndash Nominalizar
Nome do Caso de Uso Capturar RLBs Caso de Uso Geral natildeo possui Ator Principal Software Rellex Atores secundaacuterios natildeo possui Resumo Submeter as informaccedilotildees resultantes do processo de Nominalizaccedilatildeo ao software Rellex Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema
1) Realizar o processo de captura de RLBs a partir das informaccedilotildees extraiacutedas do documento
Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 13 Descriccedilatildeo do caso de uso ndash Capturar RLBs
71
Nome do Caso de Uso Calcular peso dos descritores Caso de Uso Geral natildeo possui Ator Principal Software Peso dos Descritores Atores secundaacuterios natildeo possui Resumo Submeter as informaccedilotildees resultantes do processo de Captura de RLBs ao software Peso de Descritores Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema
1) Calcular o peso dos descritores ao resultado obtido atraveacutes da captura de RLBs do documento
Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 14 Descriccedilatildeo do caso de uso ndash Calcular peso dos descritores
Nome do Caso de Uso Alimentar base de dados (Termos e RLBs) Caso de Uso Geral natildeo possui Ator Principal natildeo possui Atores secundaacuterios natildeo possui Resumo Persistir as informaccedilotildees obtidas nos casos de uso ldquoNominalizarrdquo ldquoCapturar RLBsrdquo e ldquoCalcular peso dos descritoresrdquo na base de dados de Termos e RLBs Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema
1) Armazenar as informaccedilotildees relativas aos Termos e RLBs extraiacutedos do documento em base de dados
Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 15 Descriccedilatildeo do caso de uso ndash Alimentar base de dados (Termos e RLBs)
Apoacutes a identificaccedilatildeo dos casos de uso e suas descriccedilotildees partiu-se para o modelo
conceitual da aplicaccedilatildeo proposta
72
Figura 27 Modelo Conceitual do sistema proposto
O diagrama de classes segundo Guedes (2004) eacute considerado o mais importante e o
mais utilizado diagrama da UML Eacute o diagrama de classes que permite a visualizaccedilatildeo das
classes que iratildeo compor o sistema com os seus respectivos atributos e meacutetodos Demonstra
como as classes se relacionam complementam e transmitem informaccedilotildees entre si Pode-se
dizer que esse diagrama serve ainda como base para a construccedilatildeo de outros diagramas da
linguagem UML
A Figura 28 apresenta o diagrama de classes do modelo proposto referente agrave Pesquisa
do usuaacuterio
Foi construiacutedo um diagrama de classes (Pesquisa de Usuaacuterio) seguindo estas
definiccedilotildeesaccedilotildees
Paacutegina de Consulta refere-se a uma paacutegina HTML de pesquisa (ou seja uma
linguagem para Web) ou tambeacutem a uma interface graacutefica (GUI) para computador
desktop (cliente)
Controlador da Paacutegina conteacutem a loacutegica de negoacutecio da aplicaccedilatildeo
Classe Sintagma bean responsaacutevel por instanciar e classificar sintagmas de
diferentes niacuteveis usa o meacutetodo setSintagma para receber informaccedilotildees vindas da
paacutegina passando pelo controlador
Classe ListaSintagma cria instacircncia de array de Sintagma associando-os a
instacircncias de Documento Realiza a busca e classificaccedilatildeo destes retornando ao
controlador e posteriormente agrave paacutegina atraveacutes do meacutetodo getDocumentos
73
Classe Documento instacircncia de Documento armazenado em base de dados de
documentos
Figura 28 Diagrama de classes do sistema proposto ndash Pesquisa de Usuaacuterio
A Figura 29 apresenta o diagrama de classes do modelo proposto referente ao
Gerenciamento e Operaccedilatildeo do BD no niacutevel de administrador
Foi construiacutedo um segundo diagrama de classes seguindo estas definiccedilotildeesaccedilotildees
Paacutegina de Consulta refere-se a uma paacutegina HTML de inclusatildeo de documentos
Controlador da Paacutegina conteacutem a loacutegica de negoacutecio da aplicaccedilatildeo
Classe DocumentoBase bean responsaacutevel por instanciar um objeto que iraacute conter
o documento a inserir bem como realizar os processos de toquenizaccedilatildeo e
etiquetagem (trocando mensagens com o software FORMA) nominalizaccedilatildeo
(trocando mensagens com o software CHAMA) gerando termos e RLBs
(trocando mensagens com o software RELLEX) e por fim inserindo as
informaccedilotildees nas bases de dados
Classes Termo e RLB indicam as instacircncias de objetos termos e RLBs e deveratildeo
ser modeladas conforme especificaccedilatildeo do software RELLEX
74
Figura 29 Diagrama de classes do sistema proposto ndash Gerenciamento e Operaccedilatildeo do BD no niacutevel de
administrador
O diagrama de sequumlecircncia segundo Guedes (2004) procura determinar a sequumlecircncia de
eventos que ocorrem em um determinado processo isto eacute quais meacutetodos devem ser disparados
entre os objetos envolvidos quais condiccedilotildees devem ser satisfeitas e em que ordem durante o
processo especiacutefico Foram construiacutedos os diagramas de sequumlecircncia abaixo (Figuras 30 e 31) da
aplicaccedilatildeo proposta
75
Figura 30 Diagrama de Sequumlecircncia do sistema proposto ndash Pesquisa de Usuaacuterio
76
Figura 31 Diagrama de Sequumlecircncia do sistema proposto ndash Gerenciamento e Operaccedilatildeo do BD no niacutevel de administrador
Na elaboraccedilatildeo dos diagramas e descriccedilotildees dos casos de uso e dos diagramas de
classes e de sequumlecircncia observou-se a importacircncia do modelo conceitual porque permitiu
orientar as etapas de desenvolvimento do modelo proposto Visto que no modelo conceitual
foram criados conceitos atributos e associaccedilotildees referentes agrave particularidade da pesquisa que
puderam ser utilizados para a construccedilatildeo das etapas dos diagramas
77
5 CONCLUSAtildeO
Neste capiacutetulo apresentam-se as consideraccedilotildees finais incluindo os aspectos relativos
agraves dificuldades aos progressos e limitaccedilotildees encontradas durante o desenvolvimento da
pesquisa bem como as sugestotildees para a continuidade deste trabalho
O objetivo geral que norteou este trabalho levou ao estudo dos modelos de busca e ao
desenvolvimento de uma proposta para a melhoria dos processos de recuperaccedilatildeo de
informaccedilotildees
Centrando-se no tema Recuperaccedilatildeo de Informaccedilatildeo foram analisados os modelos de
Kuramoto (1999) e posteriormente de Gonzalez (2005) O modelo de Kuramoto baseado
em uma estrutura hieraacuterquica de sintagmas nominais possibilita ao usuaacuterio definir melhor a
sua query de busca A Estrutura de Qualia do Leacutexico Gerativo de Pustejovsky contribuiu para
o entendimento das relaccedilotildees e da estrutura de construccedilatildeo de significado entre as palavras
permitindo o tratamento de questotildees semacircnticas como a polissemia loacutegica A proposta de
Gonzalez apropriando-se dos resultados de Pustejovsky evidencia caracteriacutesticas
morfoloacutegicas e relaccedilotildees de coesatildeo importantes na descriccedilatildeo de conceitos presentes em um
texto propiciando que um texto possa computacionalmente significar mais do que uma
sequumlecircncia de palavras
Buscou-se uma siacutentese dessas propostas identificando as possibilidades de ampliaccedilatildeo
do modelo de Kuramoto pela junccedilatildeo da teoria do Leacutexico Gerativo de Pustejovsky utilizadas
nesta dissertaccedilatildeo a partir do modelo de Gonzalez que se manteve adequado devido ao fato de
que o autor apresenta processos para as fases de indexaccedilatildeo busca e classificaccedilatildeo de RI Os
termos e relacionamentos inseridos na base de dados do modelo TR+ de Gonzalez estatildeo
implicitamente relacionados com a Estrutura de Qualia do LG
O novo modelo SINTR+ aleacutem do suporte ao usuaacuterio envolve a anaacutelise a
sistematizaccedilatildeo e a ampliaccedilatildeo do modelo de Kuramoto com a utilizaccedilatildeo da estrutura TR+ de
Gonzalez (2005) para a melhoria e a otimizaccedilatildeo do processo de seleccedilatildeo dos documentos
recuperados em uma busca
O estudo e a descriccedilatildeo do modelo em UML permitiu por ser uma linguagem
poderosa expressar de modo mais claro e preciso o modelo SINTR+ Foi construiacuteda a anaacutelise
de domiacutenio do sistema desejado incluindo o desenvolvimento de diagramas de casos de uso
bem como suas descriccedilotildees do modelo conceitual de diagramas de classes e de sequumlecircncia As
78
fases de anaacutelise e projeto desenvolvidas para a aplicaccedilatildeo proposta datildeo suporte agrave continuidade
do seu desenvolvimento
O novo modelo desenvolvido foi projetado como um sistema de recuperaccedilatildeo de
informaccedilatildeo (SRI) aplicaacutevel a bases de dados natildeo distribuiacutedas abrangendo a um determinado
domiacutenio de aplicaccedilatildeo a sua adequaccedilatildeo e expansatildeo para uso na Web constitui-se em uma
importante linha de continuidade de pesquisa
A principal contribuiccedilatildeo deste trabalho estaacute na sistematizaccedilatildeo e siacutentese das teorias de
Kuramoto com Gonzalez indicando o uso dessas teorias como uma nova alternativa para a
melhoria da busca de recuperaccedilatildeo de informaccedilotildees Os modelos de recuperaccedilatildeo simplesmente
buscavam as informaccedilotildees solicitadas pelo usuaacuterio O novo modelo proposto SINTR+ baseia-
se na interaccedilatildeo entre o usuaacuterio e a maacutequina atraveacutes de Sintagmas Nominais por niacuteveis e
tambeacutem nas relaccedilotildees das palavras conforme o modelo de Gonzalez
Com este trabalho natildeo se pretendeu desenvolver uma implementaccedilatildeo completa do
modelo construiacutedo Mas o trabalho conseguiu mostrar a exequumlibilidade desta implementaccedilatildeo
computacional descrevendo os diagramas e as descriccedilotildees dos casos de uso e a sua modelagem
conceitual culminando com a construccedilatildeo dos diagramas de classes e de sequumlecircncia A proacutexima
etapa que permitiria detalhar as potencialidades e limitaccedilotildees do modelo de forma ampla
poderia se constituir em amplos estudos de casos onde se determinaria a complexidade
computacional da implementaccedilatildeo requerida
Os dados apresentados no capiacutetulo 4 jaacute indicam aspectos positivos que consolidam a
importacircncia da utilizaccedilatildeo dos Sintagmas Nominais na diminuiccedilatildeo de descritores para
manipulaccedilatildeo com um ganho bastante significativo porque os iacutendices possuem informaccedilotildees
relevantes dos documentos (conceitos significativos de uma sentenccedila) e com isto agiliza-se a
pesquisa na base de dados Quer-se crer aqui e um estudo mais amplo poderia determinar que
essa reduccedilatildeo de descritores natildeo deve ter nenhum impacto na qualidade da busca realizada
Outro aspecto significativo eacute a reduccedilatildeo do uso de memoacuteria tanto na fase de indexaccedilatildeo
como na de busca tornando mais raacutepido o processo interno
Outro aspecto positivo se refere agrave melhoria de desempenho como um todo pois
quanto menor o traacutefego em uma rede menos informaccedilotildees o servidor vai processar e estaraacute
mais disponiacutevel E quanto melhor for o processo de indexaccedilatildeo menos memoacuteria o servidor vai
utilizar E com isto o tempo de resposta na fase de busca diminui e o resultado qualitativo da
pesquisa se amplia
79
Uma outra vantagem eacute que no modelo SINTR+ seratildeo armazenados na base de dados
os documentos e seus SN de uacuteltimos niacuteveis e manipulados apenas os uacuteltimos niacuteveis da
estrutura de SN Seraacute soacute atraveacutes de uma programaccedilatildeo que seratildeo classificados por niacuteveis
diminuindo assim o volume duplicado de dados na manipulaccedilatildeo
Os diagramas construiacutedos referentes ao gerenciamento e operaccedilatildeo do BD no niacutevel do
administrador satildeo fundamentais para o entendimento do funcionamento e da manutenccedilatildeo do
banco de dados facilitando processos como a inserccedilatildeo de novos documentos e outras accedilotildees
contribuindo tambeacutem para o diferencial deste trabalho
80
6 REFEREcircNCIAS BIBLIOGRAacuteFICAS
ABRAHAtildeO Paulo Ricardo Carneiro Modelagem e Implementaccedilatildeo de um Leacutexico Semacircntico para o Portuguecircs Dissertaccedilatildeo (Mestrado) Porto Alegre PUCRS 1997
ABREU Sandra C GOULART Rodrigo VIEIRA Renata (2004) Identificaccedilatildeo de Expressotildees Anafoacutericas e Natildeo Anafoacutericas com Base na Estrutura do Sintagma 2ordm Workshop em Tecnologia da Informaccedilatildeo e da Linguagem Humana (TIL 2004) - SalvadorBA - 05 e 06 de agosto de 2004 Disponiacutevel em httpwwwinfunisinosbr~renatalaboratoriopublicacoestilsandra04pdf Acesso em nov de 2004
BAEZA-YATES Ricardo RIBEIRO-NETO Berthier Modern Information Retrieval New York Addison-Wesley 1999
CARDOSO Olinda N P Recuperaccedilatildeo de Informaccedilotildees In Infocomp-Journal of Computer Science vol 2 n 1 Lavras MG 2000 p33-38 Disponiacutevel em httpwwwdccuflabrinfocompartigosv21olindapdf Acesso em mar de 2004
CHISHMAN Rove et al Extraccedilatildeo de Sintagmas Nominais para o Processamento de Co-Referecircncia In V Encontro para o processamento computacional do Portuguecircs escrito e falado (PROPOR 2000) Atibaia - Satildeo Paulo Anais do V Encontro para o processamento computacional do Portuguecircs escrito e falado Satildeo Carlos ICMCUSP 2000 Disponiacutevel em httpwwwinfunisinosbr~renatalaboratoriopublicacoespropor00pdf Acesso em jan de 2005
FERNEDA Edberto Recuperaccedilatildeo de Informaccedilatildeo anaacutelise sobre a contribuiccedilatildeo da ciecircncia da computaccedilatildeo para a ciecircncia da informaccedilatildeo Tese (Doutorado) Satildeo Paulo USP Escola de Comunicaccedilatildeo e Artes 2003 Disponiacutevel em httpwwwtesesuspbrtesesdisponiveis2727143tde-15032004-130230 Acesso em set de 2004
FERREIRA Aureacutelio Buarque de Holanda Novo Aureacutelio Seacuteculo XXI o dicionaacuterio da liacutengua portuguesa 3ed Rio de Janeiro Nova Fronteira 1999
GASPERIN C GOULART R VIEIRA R Uma ferramenta para Resoluccedilatildeo Automaacutetica de Co-referecircncia Anais do Encontro Nacional de Inteligecircncia Artificial (ENIA) Campinas SP 2003 Disponiacutevel em httpwwwexatecunisinosbr~renatalaboratoriopublicacoesart1pdf Acesso em set de 2004
81
GONZALEZ Marco Antocircnio Insaurriaga Representaccedilatildeo Semacircntica de Sentenccedilas em Linguagem Natural e sua aplicaccedilatildeo na Recuperaccedilatildeo de Informaccedilatildeo Trabalho Individual 2 Doutorado Porto Alegre PPCC da PUCRS 2000
________ O Leacutexico Gerativo de Pustejovsky sob o enfoque da Recuperaccedilatildeo de Informaccedilotildees Trabalho Individual 1 Doutorado Porto Alegre PPCC da PUCRS 2000a
________ Termos e Relacionamentos em Evidecircncia na Recuperaccedilatildeo de Informaccedilatildeo Tese (Doutorado) Porto Alegre PPGC da UFRGS 2005
GUEDES Gilleanes T A UML uma abordagem praacutetica Satildeo Paulo Novatec 2004
HILL Brad Pesquisa na Internet Rio de Janeiro Campus 1999
KURAMOTO Heacutelio Proposition drsquoum Systegraveme de Recherche drsquoInformation Assisteacutee par Ordinateur Tese (Doutorado) LrsquoUniversiteacute Lumiegravere ndash Lyon - Franccedila 1999
________ Uma abordagem alternativa para o tratamento e a recuperaccedilatildeo de informaccedilatildeo textual os sintagmas nominais Ciecircncia da Informaccedilatildeo (Brasiacutelia) v25 n2 1995 Disponiacutevel em httpdiciibictbrarchive0000016901Ci[1]Inf-2004-476pdf Acesso em mar de 2004
________ Sintagmas Nominais uma nova proposta para a recuperaccedilatildeo de informaccedilatildeo DataGramaZero Revista de Ciecircncia da Informaccedilatildeo v3 n1 fev 2002 Disponiacutevel em httpwwwdgzeroorgfev02Art_03htm Acesso em mar de 2004
LARMAN Craig Utilizando UML e Padrotildees uma introduccedilatildeo agrave anaacutelise e ao projeto orientado a objetos Porto Alegre Bookman 2000
MARTINS Dileta Silveira ZILBERKNOP Luacutebia Scliar Portuguecircs Instrumental 20ordf ed Porto Alegre Sagra Luzzatto 1999
MOURA Heronides M de M A determinaccedilatildeo de sentidos lexicais no contexto Cadernos de Estudos Linguumliacutesticos v 41 Campinas SP 2001 NETO Magdiel Medeiros Aragatildeo A polissemia em palavras designativas de objetos fiacutesicos e eventos 2003 Disponiacutevel em httpwwwabralinorgbranaishtm Acesso em mai de 2004
________A Polissemia de acordo com a Teoria do Leacutexico Gerativo Satildeo Miguel do Oeste SC Revista do Centro de Ciecircncias da Comunicaccedilatildeo e Artes n6 maiago 2003a
82
PUSTEJOVSKY James The Generative Lexicon Association for Computational Linguistics Computer Science Department Brandeis University Cambridge MA The MIT Press 1991 Disponiacutevel em httpportalacmorgcitationcfmid=176324 Acesso em set de 2004
ROSSI Albertina Palavras Polissecircmicas entre evento e informaccedilatildeo e seu tratamento nos dicionaacuterios Aureacutelio e Houaiss Tese (Doutorado) Florianoacutepolis USFC Centro de Comunicaccedilatildeo e Expressatildeo - Programa de Poacutes-Graduaccedilatildeo em LetrasLinguumliacutestica 2003
SILVA Edna Luacutecia da Metodologia da pesquisa e elaboraccedilatildeo de dissertaccedilatildeo Edna Luacutecia da Silva Estera Muszkat Menezes ndash 2a ed revndash Florianoacutepolis Laboratoacuterio de Ensino a Distacircncia da UFSC 2001 Disponiacutevel em httpprojetosinfufscbrarquivosMetodologia20da20Pesquisa203a20edicaopdf Acesso em mai de 2005
SILVA Maria C de S KOCH Ingedore V Linguumliacutestica aplicada ao portuguecircs sintaxe 5ed Satildeo Paulo Cortez 1993
WAZLAWICK Raul Sidnei Anaacutelise e Projeto de Sistemas de Informaccedilatildeo Orientados a Objetos Rio de Janeiro Elsevier 2004
61 Bibliografia Consultada
BRAumlSCHER Marisa A Ambiguumlidade na Recuperaccedilatildeo da Informaccedilatildeo Revista Ciecircncia da Informaccedilatildeo (Brasiacutelia) v3 n1 2002 Disponiacutevel em httpwwwdgzorgbrfev02Art_05htm Acesso em abr de 2004
CARVALHO Niacutevea M de Melo Recuperaccedilatildeo da informaccedilatildeo implementaccedilatildeo e avaliaccedilatildeo de sistema de recuperaccedilatildeo de informaccedilatildeo utilizando o modelo vetorial Dissertaccedilatildeo (Mestrado) Amazonas Universidade Federal do Amazonas Programa de Poacutes-Graduaccedilatildeo em Informaacutetica 2002 Disponiacutevel em httpposfacomufubr~reneacervosriRI-ModeloVetorial-NiveaCarvalhopdf Acesso em Ago de 2004
FODOR Jerry LEPORE Ernie The emptiness of the Lexicon Critical Reflections on J Pustejovskyrsquos The Generative Lexicon Rutgers University Center for Cognitive Science
83
GOMES Andreacuteia de Faacutetima R O singular nu e a sentenccedila geneacuterica no portuguecircs brasileiro Dissertaccedilatildeo (Mestrado) Florianoacutepolis UFSC Programa de Poacutes-Graduaccedilatildeo em Linguumliacutestica 2001
GONZALEZ Marco LIMA Vera L S de Sintagma Nominal em Estrutura Hieraacuterquica Temaacutetica na Recuperaccedilatildeo de Informaccedilatildeo Anais ENIA 2001 Fortaleza 2001 Disponiacutevel em httpwwwinfpucrsbr~gonzalezdocssnehtpdf Acesso em dez 2005
________ T-Lex Thesaurus com Estruturaccedilatildeo Semacircntica e Operaccedilotildees Gerativas XXVII Conferencia Latinoamericana de Informatica (CLEI2001) Ciudad de Meacuterida Venezuela 2001 Disponiacutevel em httpwwwinfpucrsbr~gonzalezdocsartigotlexpdf Acesso em jan de 2006 (httpwwwinfpucrsbr~gonzalezpesqqhtm)
________ Recuperaccedilatildeo de Informaccedilatildeo e Processamento da Linguagem Natural XXIII Congresso da Sociedade Brasileira de Computaccedilatildeo Campinas 2003 Anais do III Jornada de Mini-Cursos de Inteligecircncia Artificial Disponiacutevel em httpwwwinfpucrsbr~gonzalezdocsminicurso-jaia2003pdf Acesso em jan de 2006
HEIDE Ann Guia do Professor para a Internet completo e faacutecil 2ed Porto Alegre Artes Meacutedicas Sul 2000
MOURA Heronides M de M Linguagem e cogniccedilatildeo na interpretaccedilatildeo de metaacuteforas Universidade Federal de Juiz de Fora Editora UFJF 2003 Disponiacutevel em httpwwwrevistaveredasufjfbrvolumesv6n1cap11pdf Acesso em jan de 2006
PARREIRAS Fernando O uso de sintagmas nominais como fonte de descritores para textos de perioacutedicos cientiacuteficos Escola de Ciecircncia da Informaccedilatildeo Belo Horizonte 2003 Disponiacutevel em httpwwwfernandoparreirasnombrpublicacoessnpdf Acesso em set de 2004
PEacuteREZ Claacuteudia C C GASPERIN Caroline VIEIRA Renata Extraccedilatildeo Semi-Automaacutetica de Conhecimento a partir de Textos 2003 Disponiacutevel em httpwwwinfunisinosbr~renatalaboratorio publicacoesenia2003-submittedpdf Acesso em ago de 2005
PIZZATO Luiz A Estrutura Multitesauro para Recuperaccedilatildeo de Informaccedilotildees Dissertaccedilatildeo (Mestrado) Porto Alegre PUCRS Faculdade de Informaacutetica - Poacutes-Graduaccedilatildeo em Ciecircncia da Computaccedilatildeo 2003 Disponiacutevel em httpwwwpucrsbrunipoainfoposdissertacoesarquivospizzatopdf Acesso em ago de 2004
84
PUSTEJOVSKY James Type Construction and the logic of concepts Disponiacutevel em httpwwwcsbrandeisedu~jamesparticlesindexhtml Acesso em set de 2004
________ The Metaphysics of Words in Context (2000) Disponiacutevel em httpwwwcsbrandeisedu~jamesparticlesindexhtml Acesso em set de 2004
________ The Semantics of Agentive Nominals Disponiacutevel em httpwwwcsbrandeisedu~jamesparticlesindexhtml Acesso em set de 2004
WORDNET a lexical database for the English language Cognitive Science Laboratory Princeton University Disponiacutevel em httpwordnetprincetonedu Acesso em jan de 2006
85
ANEXOS
86
ANEXO A - DOCUMENTO1
Endereccedilo na Web http wwwreciclaveiscombranamghtm
Segunda-feira 28 de agosto de 2000 - Nuacutemero 599 Cresce a induacutestria de reciclagem de plaacutesticos Poreacutem potencial do lixo domeacutestico ainda eacute pouco aproveitado no estado A induacutestria de reciclagem foi a que mais cresceu no setor plaacutestico de Santa Catarina nos uacuteltimos cinco anos No periacuteodo o volume reprocessado no estado cresceu 1664 ao ano atingindo 169 mil toneladas em 1999 Isso equivale a 37 do total transformado pelo setor em Santa Catarina Os dados fazem parte de estudo elaborado pela empresa de consultoria MaxiQuim de Porto Alegre para o Sindicato da Induacutestria de Material Plaacutestico no Estado de Santa Catarina (Simpesc) Contudo esse crescimento reflete mais o reaproveitamento de resiacuteduos gerados em processos industriais do que a reciclagem de lixo domeacutestico como embalagens e garrafas o chamado plaacutestico ldquopoacutes-consumordquo Este segmento cresce de maneira menos acelerada devido a problemas como a necessidade de escala de produccedilatildeo falta de linhas de financiamento e ausecircncia de legislaccedilatildeo que estimule a atividade ldquoEmbora a reciclagem do material poacutes-consumo como sacos embalagens e garrafas esteja aumentando em Santa Catarina a maior parte do crescimento verificado entre 1995 e 1999 refere-se a empresas que utilizam resiacuteduos industriais como mateacuteria-primardquo explica o diretor da MaxiQuim Joatildeo Luiz Zuntildeeda Normalmente chamadas de aparas esses resiacuteduos incluem tambeacutem as peccedilas que natildeo atingiram a qualidade necessaacuteria para ir ao mercado As oito empresas catarinenses de reciclagem de plaacutestico tecircm 383 empregados sem considerar o pessoal que trabalha na coleta de lixo atividade que geralmente eacute informal O valor da produccedilatildeo atingiu R$ 4249 milhotildees em 1999 com crescimento meacutedio de 1526 ao ano nos uacuteltimos cinco anos jaacute descontando a inflaccedilatildeo As empresas de transformaccedilatildeo de plaacutestico estatildeo cada vez mais preocupadas em recuperar o material que antes era perdido devido ao alto custo da resina virgem diz Nelson Pradella proprietaacuterio da empresa Recicle-Ville ldquoIsso eacute fundamental para que elas sejam competitivas pois vendendo os resiacuteduos do processo industrial como sucata as empresas obtecircm menos de 20 do valor da resina virgemrdquo Cobrando 30 do preccedilo da resina virgem a Recicle-Ville devolve para a induacutestria seus resiacuteduos em condiccedilotildees de serem utilizados normalmente no processo produtivordquo explica A empresa de Joinville foi uma das firmas que ajudou a elevar os iacutendices desta induacutestria no estado Ateacute agora ela estava trabalhando apenas com mateacuteria-prima gerada nos processos industriais mas isso deve mudar a partir desta semana Criada haacute um ano a empresa reprocessa cerca de 220 toneladas de plaacutestico por mecircs e estaacute aumentando a sua capacidade para 310 toneladas Ela ainda opera basicamente como terceirizada de empresas de processamento de plaacutesticos reprocessando para elas os resiacuteduos que geram e devolvendo essa mateacuteria em forma granular mesmo estado da resina virgem Como a mateacuteria prima reciclada seraacute utilizada para fazer o mesmo produto que originou a
4
3
2
1
87
apara a qualidade final natildeo eacute afetada Mas a Recicle-Ville estaacute ingressando tambeacutem no segmento de reciclagem do plaacutestico poacutes-consumo A partir desta semana a empresa coloca em funcionamento um sistema de coleta junto a escolas do municiacutepio para recolher materiais plaacutesticos como sacos garrafas e tampinhas apostando principalmente no PET Com isso ela tem a vantagem de receber material mais limpo A contaminaccedilatildeo do plaacutestico pelo lixo orgacircnico eacute justamente um dos principais problemas para o crescimento da induacutestria da reciclagem do lixo domeacutestico A simples separaccedilatildeo do lixo orgacircnico do seco jaacute traria um impulso importante para o setor diz Ana Flores diretora do departamento de meio ambiente e desenvolvimento sustentado da Federaccedilatildeo das Induacutestrias do Estado de Satildeo Paulo (Fiesp) e autora do livro ldquoO dinheiro estaacute no lixo ndash recicle essa ideacuteiardquo ldquoDeveriam ser criados mecanismos de estiacutemulo para a reciclagem Na Holanda por exemplo uma Coca-Cola custa US$ 220 Devolvendo a garrafa acontece o reembolso de US$ 1 Vocecirc acha que algueacutem vai jogaacute-la no lixordquo diz A induacutestria da reciclagem do plaacutestico no Brasil tem crescido bastante em funccedilatildeo do reaproveitamento do PET que eacute usado no segmento de monofilamentos em artigos como vassouras e na induacutestria tecircxtil Conforme Ana Flores a reciclagem gera 250 mil empregos no Paiacutes dos quais 70 satildeo informais Poreacutem a maior parte do potencial de mercado ainda estaacute sendo desperdiccedilado avalia ldquoCerca de 15 do total de plaacutestico que eacute industrializado no Paiacutes eacute reciclado Em dez anos poderiacuteamos chegar a 60 como nos Estados Unidos desde que fosse implementado um conjunto de medidas incentivando essa praacuteticardquo assegura Para a diretora da Fiesc os principais entraves satildeo o aspecto cultural a tributaccedilatildeo incidente na reciclagem do plaacutestico a falta de linhas de financiamento e a ausecircncia de uma legislaccedilatildeo ambiental mais rigorosa ldquoHaacute um contra-senso ecoloacutegico que forccedila a clandestinidade no Brasil onde para fabricar garrafa PET virgem paga-se IPI de 10 e para a reciclagem 12rdquo critica Ana afirma que essa tributaccedilatildeo decorre do interesse governamental em incentivar a induacutestria quiacutemica Outro problema apontado eacute que ao contraacuterio da induacutestria do alumiacutenio que eacute concentrada o predomiacutenio das pequenas empresas na transformaccedilatildeo do plaacutestico dificulta que sejam criadas grandes empresas para reprocessar o lixo Para Flores o sucesso brasileiro na reciclagem do alumiacutenio (o iacutendice eacute de 65 um dos mais altos do mundo) decorre da existecircncia de poucas grandes empresas capitalizadas ldquoAs pequenas empresas natildeo tecircm acesso agraves linhas de creacutedito e isso dificulta a abertura de novas recicladorasrdquo diz Flores Mas haacute quem aponte outros desafios a superar ldquoEmbora seja um mercado que deve crescer muito a reciclagem de plaacutestico natildeo eacute tatildeo simples como normalmente aparece na televisatildeo O volume miacutenimo para que a atividade seja economicamente viaacutevel atendendo a todas as exigecircncias legais eacute de 100 toneladas mecircsrdquo diz Ronaldo Cerri soacutecio da Moinhos Rone de Satildeo Paulo que fabrica equipamentos utilizados na moagem do plaacutestico uma das primeiras etapas da reciclagem Aleacutem disso explica a coleta do plaacutestico eacute mais complicada porque ao contraacuterio das latas de alumiacutenio - que podem ser amassadas o volume fiacutesico eacute maior ldquoHoje entre 70 e 80 dos moinhos que vendemos satildeo para reciclagem de resiacuteduos industriaisrdquo informa (Elmar Meurer de Joinville)
copy GAZETA MERCANTIL
9
8
7
6
5
88
ANEXO B - DOCUMENTO2
Cuidados com o Lixo
Endereccedilo na Web httpwwwpoupetempocombrambientelixohtm
Todos os seres vivos quando morrem apodrecem plantas e animais se decompotildeem e satildeo destruiacutedos por larvas bacteacuterias e fungos e reabsorvidos pela terra pela aacutegua pelo ar Eacute o ciclo da natureza morte decomposiccedilatildeo nova vida e crescimento Tudo o que eacute fabricado pelo homem acaba virando lixo Muito desse lixo natildeo se decompotildee facilmente como a mateacuteria orgacircnica e passa a ser um problema Plaacutesticos latas e vidros demoram muitos anos para se decompor e poluem o meio-ambiente Por isso a importacircncia da reciclagem do lixo fabricado pelo ser humano O lixo eacute formado por resiacuteduos soacutelidos natildeo biodegradaacuteveis e que demoram para se decompor Restos de alimentos folhas e frutas satildeo chamados lixo orgacircnico Existem tambeacutem aleacutem do lixo domiciliar o lixo industrial o de vias puacuteblicas e o hospitalar que necessitam de tratamentos especiais pois oferece perigo agrave sauacutede das pessoas Devido ao aumento da populaccedilatildeo das grandes cidades e com o aumento do consumo de produtos a quantidade de lixo tambeacutem tem aumentado O acuacutemulo de lixo eacute um dos principais problemas nas grandes cidades Muitos materiais que vatildeo para o lixo natildeo podem ser desperdiccedilados podendo ser reaproveitados e reutilizados Material orgacircnico Tudo o que eacute resto de comida de animais de plantas e frutas eacute considerado lixo propriamente dito Ou seja vocecirc deve acondicionaacute-los num uacutenico recipiente Essa material eacute recolhido pela prefeitura e levado para aterros sanitaacuterios onde vatildeo sofrer a decomposiccedilatildeo natural Material reciclaacutevel Eacute praticamente tudo o que eacute fabricado pelo homem material plaacutestico latas de alumiacutenio e ferro garrafas de refrigerante de vidro e PET caixas de papel e papelatildeo jornais revistas livros aparas de papel etc Se vocecirc mora em casa reuacutena-se com sua famiacutelia e com seus funcionaacuterios para estabelecer um meacutetodo de separaccedilatildeo desse material Dependendo do seu volume diaacuterio de lixo escolha 4 recipientes coloridos para acondicionaacute-los azul para papel vermelho para plaacutestico verde para vidro e amarelo para metal ou nomeie cada um deles conforme sua classificaccedilatildeo Se vocecirc mora em condomiacutenio faccedila esse mesmo trabalho reunindo os moradores estabelecendo regras e instruindo os empregados Observaccedilatildeo o lixo orgacircnico deve estar separado daquilo que eacute reciclaacutevel Exemplos Providencie uma caixa resistente ou sacolas e fixe nelas um papel com a identificaccedilatildeo do tipo de lixo vidro e nela vaacute acumulando as garrafas Retire aneacuteis e roacutetulos e lave as garrafas para natildeo acumular insetos Na outra caixa vaacute juntando o lixo papel aparas embalagens de papelatildeo as perdas da impressora jornais e revistas velhas etc Latas de conserva satildeo de ferro e as de refrigerante satildeo de alumiacutenio Elas devem ser acumuladas limpas sem roacutetulo e em caixas separadas As de alumiacutenio podem ser amassadas como uma sanfoninha o que economizaraacute espaccedilo Quando as caixas estiverem cheias elas devem ser encaminhadas para entidades que trabalham com material reciclaacutevel ou simplesmente recolhida pela empresa de sua cidade responsaacutevel pela coleta seletiva Consulte a prefeitura local
89
A destinaccedilatildeo do material para reciclagem pode ser feita de vaacuterias formas Uma famiacutelia mais pobre pode utilizar esse material vendendo para cooperativas e empresas especializadas e conseguir um dinheiro extra Os condomiacutenios de melhor padratildeo econocircmico podem utilizar o resultado da separaccedilatildeo do lixo para reciclagem em benefiacutecio de seus funcionaacuterios propiciando a eles um ganho extra na ajuda da triagem desse material Uma outra forma eacute simplesmente entregar todo o material para as prefeituras que jaacute possuem o meacutetodo de coleta seletiva Ajude a melhorar o meio-ambiente Eacute simples pense antes de comprar Metade do que noacutes compramos eacute lixo Satildeo embalagens que quase sempre natildeo servem para nada e vatildeo direto para o lixo Evite embalagens plaacutesticas elas satildeo pouco reciclaacuteveis enquanto o vidro eacute totalmente reciclaacutevel e muito mais uacutetil no seu reaproveitamento Algumas informaccedilotildees sobre materiais produzidos pelo homem TEMPO DE DECOMPOSICcedilAtildeO DE ALGUNS MATERIAIS
Lenccedilo de papel 3 meses Palito de foacutesforo 6 meses Caroccedilo de maccedilatilde 6 a 12 meses Ponta de cigarro 1 a 2 anos Chiclete 5 anos Lata de accedilo 10 anos Garrafa de plaacutestico 100 anos Garrafa de vidro Mais de 1000 anos Lata de alumiacutenio Natildeo se corroacutei nunca
Plaacutestico riacutegido Leve resistente e praacutetico eacute o material que compotildee cerca de 60 das embalagens plaacutesticas como garrafas de refrigerantes recipientes para produtos de limpeza e higiene e potes de alimentos eacute tambeacutem mateacuteria-prima baacutesica de bombonas fibras tecircxteis tubos e conexotildees calccedilados eletrodomeacutesticos aleacutem de baldes utensiacutelios domeacutesticos e outros produtos Ele pode ser reprocessado gerando novos artefatos plaacutesticos e energia Papel ondulado eacute usado em caixas para transporte de produtos para faacutebricas depoacutesitos escritoacuterios e residecircncias Normalmente chamado de papelatildeo este material tem uma camada intermediaacuteria de papel entre suas partes exteriores disposta em ondulaccedilotildees na forma de uma sanfona O material eacute de faacutecil coleta em grandes volumes comerciais sendo facilmente identificadas quando misturadas com outros tipos de papel por isso seu susto de processamento eacute relativamente baixo Embalagens longa vida satildeo compostas de vaacuterias camadas de material dupleacutex polietileno e alumiacutenio As embalagens cartonadas precisam ser lavadas apoacutes o consumo porque os restos de alimentos contidos nelas dificultam o reprocessamento do material Para aproveitar melhor o espaccedilo as embalagens podem ser amassadas O papel existente nas embalagens cartonadas pode ser compostado para a produccedilatildeo de huacutemus utilizado em hortas e jardins Pneus a borracha e sua reciclagem eacute capaz de devolver ao processo de produccedilatildeo insumo regenerado por menos da metade do custo da borracha natural ou sinteacutetica aleacutem disso economiza energia e poupa petroacuteleo usado como mateacuteria-prima virgem e ateacute melhora as propriedades de materiais feitos com borracha Latas de alumiacutenio aleacutem de reduzir o lixo que vai para os aterros a reciclagem desse material proporciona significativo ganho energeacutetico Para reciclar uma tonelada de latas gasta-se 5 da
90
energia necessaacuteria para produzir a mesma quantidade de alumiacutenio pelo processo primaacuterio Isto significa que cada latinha reciclada equivale ao consumo de um aparelho de TV durante 3 horas A reciclagem evita a extraccedilatildeo da bauxita o mineral beneficiado para a fabricaccedilatildeo da alumina que eacute transformada em liga de alumiacutenio Vidro a metade dos recipientes de vidro eacute fabricados no Paiacutes eacute retornaacutevel Aleacutem disso o material eacute de faacutecil reciclagem pode voltar a produccedilatildeo de novas embalagens substituindo o produto virgem sem perda da qualidade Pet (polietileno tereftalato) as garrafas recicladas satildeo transformadas em cordas e fios de costura carpetes bandejas de frutas e ateacute mesmo novas garrafas Sua reciclagem aleacutem de desviar lixo plaacutestico dos aterros utiliza apenas 30 da energia necessaacuteria para a produccedilatildeo da resina virgem e tem a vantagem de poder ser reciclado vaacuterias vezes sem prejudicar a qualidade do produto final Latas de accedilo Quando reciclado o accedilo volta ao mercado em forma de automoacuteveis ferramentas vigas para construccedilatildeo civil arames vergalhotildees utensiacutelios domeacutesticos e inclusive novas latas Plaacutestico filme eacute uma peliacutecula plaacutestica normalmente usada como sacolas de supermercados sacos de lixo embalagens de leite lonas agriacutecolas e proteccedilatildeo de alimentos na geladeira ou microondas Cerca de 44 eacute papel e 4 eacute folha de alumiacutenio Ajude a melhorar o meio-ambiente
bull Reaproveite sobras e natildeo jogue fora o que puder aproveitar bull Doe roupas que possam ser reformadas ou consertadas bull Doe livros para bibliotecas ou instituiccedilotildees beneficentes bull Use produtos biodegradaacuteveis ou reciclaacuteveis bull Deixe o oacuteleo usado do motor no posto para ser reciclado bull Leve pneus sem uso para os borracheiros bull Evite jogar lixo na rua Jogue o lixo na lixeira bull Embale o lixo corretamente sempre que possiacutevel encaminhe plaacutesticos vidros e papel
para a reciclagem
91
ANEXO C - EXTRACcedilAtildeO MANUAL DE SN DOS DOCUMENTOS
DOCUMENTO1 Linha Sintagma Nominal Niacutevel
1 Plaacutesticos 1 1 Reciclagem de plaacutesticos 2 1 Induacutestria de reciclagem de plaacutesticos 3 2 Lixo 1 2 Lixo domeacutestico 1 2 Potencial do lixo domeacutestico 2 3 Reciclagem 1 3 Induacutestria de reciclagem 2 3 Plaacutestico 1 3 Setor Plaacutestico 1 3 Setor Plaacutestico de Santa Catarina 2 7 Plaacutestico 1 7 Material Plaacutestico 1 7 Induacutestria de Material Plaacutestico 2 7 Sindicato da Induacutestria de Material Plaacutestico 3 7 Sindicato da Induacutestria de Material Plaacutestico no Estado de Santa Catarina 4 8 Resiacuteduos 1 8 Reaproveitamento de resiacuteduos 2 9 Lixo 1 9 Lixo domeacutestico 1 9 Reciclagem do lixo domeacutestico 2 10 Embalagens 1 10 Garrafas 1 10 Embalagens e garrafas 2 10 Plaacutestico 1 10 Plaacutestico poacutes-consumo 1 13 Reciclagem 1 13 Reciclagem de material 2 13 Reciclagem de material poacutes-consumo 2 13 Sacos 1 13 Embalagens 1 13 Garrafas 1 13 Sacos embalagens e garrafas 2 15 Resiacuteduos 1
92
15 Resiacuteduos industriais 1 15 Resiacuteduos industriais como mateacuteria-prima 2 18 Reciclagem 1 18 Reciclagem de plaacutesticos 2 18 Empresas catarinenses de reciclagem de plaacutesticos 3 19 Lixo 1 19 Coleta de lixo 2 22 Plaacutestico 1 22 Transformaccedilatildeo de plaacutestico 2 22 As empresas de transformaccedilatildeo de plaacutestico 3 27 Resiacuteduos 1 32 Plaacutestico 1 34 Plaacutesticos 1 34 Processamento de plaacutesticos 2 34 Empresas de processamento de plaacutesticos 3 34 Terceirizada de empresas de processamento de plaacutesticos 4 34 Os resiacuteduos 1 36 Reciclada 1 36 Mateacuteria-prima reciclada 1 38 Reciclagem 1 38 Reciclagem de plaacutestico 2 38 Reciclagem de plaacutestico poacutes-consumo 2 38 Segmento de reciclagem de plaacutestico poacutes-consumo 3 39 Coleta 1 39 Coleta junto a escolas do municiacutepio 2 39 Um sistema de coleta junto a escolas do municiacutepio 3 40 Plaacutesticos 1 40 Materiais plaacutesticos 1 40 Materiais plaacutesticos como sacos garrafas e tampinhas 2 41 PET 1 43 Lixo 1 43 Lixo orgacircnico 1 43 A contaminaccedilatildeo do plaacutestico 2 43 A contaminaccedilatildeo do plaacutestico pelo lixo orgacircnico 3 44 Lixo 1
93
44 Lixo domeacutestico 1 44 Reciclagem de lixo domeacutestico 2 44 Induacutestria da reciclagem do lixo domeacutestico 3 44 O crescimento da induacutestria da reciclagem do lixo domeacutestico 4 44 Lixo 1 44 Lixo orgacircnico 1 44 A simples separaccedilatildeo do lixo orgacircnico 2 44 A simples separaccedilatildeo do lixo orgacircnico do seco 3 49 A garrafa 1 50 Lixo 1 51 Reciclagem 1 51 Reciclagem do plaacutestico 2 51 A induacutestria da reciclagem do plaacutestico 3 51 A induacutestria da reciclagem do plaacutestico no Brasil 4 52 Reaproveitamento 1 52 Reaproveitamento do PET 2 53 A reciclagem 1 55 Plaacutestico 1 56 Reciclado 1 58 Reciclagem 1 58 Reciclagem do plaacutestico 2 58 Tributaccedilatildeo incidente na reciclagem do plaacutestico 3 61 Garrafa 1 61 Garrafa PET 1 61 Reciclagem 1 63 Induacutestria Quiacutemica 1 64 Alumiacutenio 1 64 Induacutestria do alumiacutenio 2 65 Plaacutestico 1 65 Transformaccedilatildeo do plaacutestico 2 65 Empresas na transformaccedilatildeo do plaacutestico 3 65 Predomiacutenio das pequenas empresas na transformaccedilatildeo do plaacutestico 4 66 Lixo 1 69 Recicladoras 1 69 A abertura de novas recicladoras 2
94
71 Reciclagem 1 71 Reciclagem de Plaacutestico 2 74 Plaacutestico 1 74 Moagem do plaacutestico 2 74 Reciclagem 1 74 Primeiras etapas da reciclagem 2 75 Coleta 1 75 A coleta do plaacutestico 2 77 Reciclagem 1 77 Reciclagem de resiacuteduos 2 77 Reciclagem de resiacuteduos industriais 3
DOCUMENTO2
Linha Sintagma Nominal Niacutevel1 Lixo 1 1 Cuidados com o lixo 2 5 Lixo 1 5 Lixo 1 6 Mateacuteria Orgacircnica 1 6 Plaacutesticos latas e vidros 2 7 Lixo 1 7 Reciclagem do lixo 2 7 A importacircncia da reciclagem do lixo 3 9 O lixo 1 9 Resiacuteduos 1 9 Resiacuteduos soacutelidos 1 9 Resiacuteduos soacutelidos natildeo-biodegradaacuteveis 1 9 Restos de alimentos folhas e frutas 2 10 Lixo 1 10 Lixo orgacircnico 1 11 Lixo 1 11 Lixo domiciliar lixo industrial o de vias puacuteblicas e o hospitalar 3 13 Lixo 1 13 A quantidade de lixo 2
95
15 Lixo 1 15 O acuacutemulo de lixo 2 15 O lixo 1 17 Material orgacircnico 1 18 Restos de comida de animais de plantas e frutas 4 18 Lixo 1 20 Aterro sanitaacuterio 1 20 A decomposiccedilatildeo 1 20 A decomposiccedilatildeo natural 1 21 Reciclaacutevel 1 21 Material reciclaacutevel 1 22 Material plaacutestico latas de alumiacutenio e ferro garrafas de refrigerante de
vidro e PET caixas de papel e papelatildeo jornais revistas livros aparas de papel
4
24 Lixo 1 24 Volume diaacuterio de lixo 2 31 O lixo 1 31 O lixo orgacircnico 1 31 Reciclaacutevel 1 33 Lixo 1 33 Tipo de lixo 2 33 vidro 1 34 As garrafas 1 35 As garrafas 1 36 O lixo 1 36 O lixo papel aparas embalagens de papelatildeo as perdas da impressora
jornais e revistas velhas 3
38 Ferro 1 38 Alumiacutenio 1 42 Reciclaacutevel 1 42 Material reciclaacutevel 1 42 Coleta 1 42 Coleta seletiva 1 44 Reciclagem 1 44 Material para reciclagem 2 44 A destinaccedilatildeo do material para reciclagem 3
96
47 Lixo 1 47 Separaccedilatildeo do lixo 2 47 Separaccedilatildeo do lixo para reciclagem 3 47 O resultado da separaccedilatildeo do lixo para reciclagem 4 50 Coleta 1 50 Coleta seletiva 1 50 O meacutetodo de coleta seletiva 2 53 Lixo 1 53 Embalagens 1 53 O lixo 1 54 Embalagens plaacutesticas 1 54 Pouco reciclaacuteveis 1 54 O vidro 1 57 Decomposiccedilatildeo 1 57 Decomposiccedilatildeo de alguns materiais 2 57 Tempo de decomposiccedilatildeo de alguns materiais 3 67 Plaacutestico 1 67 Plaacutestico riacutegido 1 67 Embalagens plaacutesticas 1 67 Embalagens plaacutesticas como garrafas de refrigerantes recipientes para
produtos de limpeza e higiene e potes de alimentos 4
72 Papel ondulado 1 74 Coleta 1 74 Coleta em grandes volumes comerciais 2 74 Faacutecil coleta em grandes volumes comerciais 2 76 Processamento 1 76 Custo de processamento 2 77 Embalagens 1 77 Embalagens longa vida 1 79 reprocessamento 1 79 Reprocessamento do material 2 82 Hortas e jardins 2 83 Pneus 1 83 Reciclagem 1 83 A borracha e sua reciclagem 2
97
84 Borracha 1 84 Borracha natural ou sinteacutetica 1 84 O custo da borracha natural ou sinteacutetica 2 86 Latas de alumiacutenio 1 86 O lixo 1 86 A reciclagem 1 88 Reciclada 1 88 Latinha reciclada 1 89 A reciclagem 1 91 vidro 1 91 Vidro 1 91 Recipiente de vidro 2 91 Faacutecil reciclagem 1 94 PET 1 94 Recicladas 1 94 Garrafas recicladas 1 95 Reciclagem 1 95 Lixo 1 95 Lixo plaacutestico 1 95 Lixo plaacutestico dos aterros 2 97 Reciclado 1 97 Reciclado vaacuterias vezes 1 98 Latas de accedilo 2 98 Automoacuteveis ferramentas vigas para construccedilatildeo civil arames
vergalhotildees utensiacutelios domeacutesticos e inclusive novas latas 3
100 Plaacutestico filme 1 100 Sacolas de supermercado sacos de lixo embalagens de leite lonas
agriacutecolas e proteccedilatildeo de alimentos na geladeira ou microondas 3
102 Folha de alumiacutenio 2 107 Reciclaacuteveis 1 107 Produtos biodegradaacuteveis ou reciclaacuteveis 1 110 Lixo 1 110 Lixo na rua 2 110 O lixo 1 110 O lixo na lixeira 2
98
111 O lixo 111 Reciclagem 1 111 Plaacutesticos vidros e papel para reciclagem 3
99
ANEXO D - FERRAMENTA1 DE TOQUENIZACcedilAtildeO E ETIQUETAGEM
Endereccedilo na Web hermessourceforgenethermeswebhtml
Texto processado (Paraacutegrafo 6 do Documento1)
A induacutestria da reciclagem do plaacutestico no Brasil tem crescido bastante em funccedilatildeo do reaproveitamento do PET que eacute usado no segmento de monofilamentos em artigos como vassouras e na induacutestria tecircxtil Conforme Ana Flores a reciclagem gera 250 mil empregos no Paiacutes dos quais 70 satildeo informais Poreacutem a maior parte do potencial de mercado ainda estaacute sendo desperdiccedilado avalia ldquoCerca de 15 do total de plaacutestico que eacute industrializado no Paiacutes eacute reciclado Em dez anos poderiacuteamos chegar a 60 como nos Estados Unidos desde que fosse implementado um conjunto de medidas incentivando essa praacuteticardquo assegura
Resultado
A_ART induacutestria_N da_PREP+ART reciclagem_N do_PREP+ART plaacutestico_N no_PREP+ART Brasil_NP tem_VTD crescido_ADJ bastante_ADV em_PREP funccedilatildeo_N do_PREP+ART reaproveitamento_N do_PREP+ART PET_N _ que_PR eacute_VLIG usado_ADJ no_PREP+ART segmento_N de_PREP monofilamentos_N _ em_PREP artigos_N
100
como_CONJSUB vassouras_ADJ e_CONJCOORD na_PREP+ART induacutestria_N tecircxtil_NP _ Conforme_CONJSUB Ana_NP Flores_N _ a_ART reciclagem_N gera_N 250_NC mil_NC empregos_N no_PREP+ART Paiacutes_N _ dos_PREP+ART quais_PR 70_NC satildeo_VLIG informais_ADJ _ Poreacutem_VTD _ a_ART maior_ADJ parte_N do_PREP+ART potencial_N de_PREP mercado_N ainda_ADV estaacute_VLIG sendo_VLIG desperdiccedilado_VTD _ avalia_N _ Cerca_N de_PREP 15_NC do_PREP+ART total_ADJ de_PREP plaacutestico_N que_PR eacute_VLIG
101
industrializado_VTD no_PREP+ART Paiacutes_N eacute_VLIG reciclado_VTD _ Em_PREP dez_NC anos_N poderiacuteamos_VTD chegar_VTI a_ART 60_NC _ como_CONJSUB nos_PREP+ART Estados_NP Unidos_NP _ desde_PREP que_PR fosse_VLIG implementado_ADJ um_ART conjunto_N de_PREP medidas_N incentivando_VTD essa_PD praacutetica_N _ assegura_VTD _
102
ANEXO D - FERRAMENTA2 DE TOQUENIZACcedilAtildeO E ETIQUETAGEM
Endereccedilo na Web httplaelpucspbrcorporaetiquetagem
A ARTD induacutestria N da CPR reciclagem N do CPR plaacutestico N no CPR Brasil N tem V crescido PART bastante ADV em PRP funccedilatildeo N do CPR reaproveitamento N do CPR PET N PT que PRN eacute V usado PART no CPR segmento N de PRP monofilamentos N PT em PRP artigos N como ADV vassouras N e CJ na CPR induacutestria N tecircxtil ADJ PT Conforme ADJ Ana N Flores N PT a ARTD reciclagem N gera V 250 NUM mil N
103
empregos N no CPR Paiacutes N PT dos CPR quais PRN 70 NUM PT satildeo V informais ADJ PT Poreacutem CJ PT a ARTD maior ADJ parte N do CPR potencial N de PRP mercado N ainda ADV estaacute V sendo V desperdiccedilado PART PT avalia V PT ldquoCerca PRP de PRP 15 NUM PT do CPR total N de PRP plaacutestico N que PRN eacute V industrializado PART no CPR Paiacutes N eacute V reciclado PART PT Em PRP dez NUM anos N poderiacuteamos V chegar V a ARTD 60 NUM PT
104
PT como ADV nos CPR Estados N Unidos N PT desde PRP que PRN fosse V implementado PART um ARTI conjunto N de PRP medidas N incentivando V essa PRN praacuteticardquo N PT assegura V PT
105
ANEXO E - PROCESSO DE NOMINALIZACcedilAtildeO Palavra Original Classe Substantivo Abstrato Substantivo Concretotem Verbo E E crescido Verbo no particiacutepio crescimento E bastante Adveacuterbio E E eacute Verbo E E usado Verbo no particiacutepio uso usador tecircxtil Adjetivo E tecido informal Adjetivo informalidade E maior Adjetivo maioridade E potencial Adjetivo potencialidade E ainda Adveacuterbio E E estaacute Verbo E E sendo Verbo E E desperdiccedilado Verbo no particiacutepio desperdiacutecio desperdiccedilador total Adjetivo totalidade totalizador industrializado Verbo no particiacutepio industrial induacutestria reciclado Verbo no particiacutepio E reciclagem poderiacuteamos Verbo E E chegar Verbo E chegada fosse Verbo E E implementado Verbo no particiacutepio implemento implementador incentivando Verbo Incentivo incentivador
E = ausecircncia de nominalizaccedilatildeo
Claacuteudia Maksud Mechereffe
ESTRUTURA SINTR+ UM MODELO DE SUPORTE AO USUAacuteRIO NA RECUPERACcedilAtildeO DE INFORMACcedilOtildeES
Esta Dissertaccedilatildeo foi julgada adequada para a obtenccedilatildeo do tiacutetulo de Mestre em Ciecircncia da Computaccedilatildeo e aprovada em sua forma final pelo Programa de Poacutes-Graduaccedilatildeo em Ciecircncia da Computaccedilatildeo
_____________________________ Prof Raul Sidnei Wazlawick Dr
Coordenador do PGCC Banca Examinadora
_____________________________ Profordf Edla Maria Faust Ramos Drordf
Orientadora PGCC
_______________________________________ Prof Heronides Mauriacutelio de Melo Moura Ph D
____________________________ Profordf Maria Marta Leite Drordf
_____________________________________ Prof Raul Sidnei Wazlawick Dr
A alma eacute uma borboleta Haacute na vida um momento em que uma voz nos diz que chegou o momento de uma grande metamorfose eacute preciso
abandonar o que sempre fomos para nos tornarmos uma outra coisa
Rubem Alves
iv
AGRADECIMENTOS
O momento de agradecimento permite lembrar com gratidatildeo de todas as pessoas que
conviveram comigo e que foram importantes nesta etapa de construccedilatildeo de conhecimento
Agradeccedilo agrave Universidade Federal de Santa Catarina ao Programa de Poacutes-Graduaccedilatildeo
em Ciecircncia da Computaccedilatildeo e a todos os professores que oportunizaram o aprendizado
alcanccedilado
Em nome destes professores e pelo seu profissionalismo agrave Edla Faust Ramos pelas tatildeo
valiosas orientaccedilotildees pela confianccedila pela crenccedila no meu trabalho e na minha pessoa
Em especial agradeccedilo a minha matildee e ao meu pai Heloisa e Antonio que me
ensinaram a lutar e persistir e pelo carinho apoio e estiacutemulo que sempre me deram
Ao David meu companheiro pela compreensatildeo paciecircncia carinho e apoio
Ao Paulo Bueno e agrave Leila Di Pietro pelo estiacutemulo paciecircncia pelas grandes
contribuiccedilotildees e ajudas prestadas
Agrave Renata Brizzi agrave Josiele Azevedo agrave Danielle Hennings e agrave Adriana Santos pelo apoio
e por suas contribuiccedilotildees
Ao Carlos Eduardo Nascimento pelo apoio e incentivo prestado
E aos meus irmatildeos Beatriz e Reacutegis por sempre acreditarem em mim
E a todos os meus amigos por serem especiais em minha vida
v
IacuteNDICE DE FIGURAS
Figura 1 Componentes de um Sistema de Recuperaccedilatildeo de Informaccedilatildeo 18 Figura 2 Exemplo dos trecircs componentes conjuntivos para query 19 Figura 3 Representaccedilatildeo do resultado de uma expressatildeo booleana conjuntiva (AND)19 Figura 4 Resultado de uma busca booleana disjuntiva (OR) 20 Figura 5 O co-seno do acircngulo adaptado como similar (dj q) 22 Figura 6 Exemplo da estrutura de niacuteveis de Sintagmas Nominais 30 Figura 7 Procedimentos de interaccedilatildeo usuaacuteriominusprotoacutetipo31 Figura 8 Estrutura de dados para acessar os Sintagmas Nominais de primeiro niacutevel a partir de
uma palavra 32 Figura 9 Estrutura de dados para acessar os Sintagmas Nominais de segundo niacutevel a partir de
Sintagmas Nominais de primeiro niacutevel 33 Figura 10 Estrutura de dados para o acesso aos tiacutetulos e textos dos artigos 33 Figura 11 Representaccedilatildeo da matriz de um item lexical39 Figura 12 Matriz superficial da Estrutura de Qualia do item lexical ldquolivrordquo 39 Figura 13 Exemplo da Estrutura de Qualia do item lexical ldquoromancerdquo 40 Figura 14 Exemplo da Estrutura de Qualia do item lexical ldquodicionaacuteriordquo40 Figura 15 Exemplo do LG relacionando ldquodicionaacuteriordquo ldquolivrordquo e peccedila atraveacutes de suas EQ41 Figura 16 Exemplo de polissemia loacutegica na representaccedilatildeo matricial da palavra ldquolivrordquo41 Figura 17 Exemplo de polissemia loacutegica na representaccedilatildeo matricial da palavra ldquojornalrdquo 42 Figura 18 Visatildeo Geral do modelo TR+47 Figura 19 Visatildeo Geral do Modelo Proposto ldquoEstrutura SINTR+rdquo56 Figura 20 Descriccedilatildeo inicial do modelo proposto58 Figura 21 Nuacutemero de palavras do Documento160 Figura 22 Nuacutemero de substantivos adveacuterbios verbos e adjetivos do Documento161 Figura 23 Nuacutemero de palavras restantes x Sintagmas Nominais 62 Figura 24 Sintagmas Nominais e adjetivos inseridos nos SN 62 Figura 25 Diagrama de casos de uso da UML do sistema proposto ndash Pesquisa do Usuaacuterio66Figura 26 Diagrama de casos de uso da UML do sistema proposto ndash Gerenciamento e
Operaccedilatildeo do BD no niacutevel de administrador 67 Figura 27 Modelo Conceitual do sistema proposto72 Figura 28 Diagrama de classes do sistema proposto ndash Pesquisa de Usuaacuterio 73 Figura 29 Diagrama de classes do sistema proposto ndash Gerenciamento e Operaccedilatildeo do BD no
niacutevel de administrador 74 Figura 30 Diagrama de Sequumlecircncia do sistema proposto ndash Pesquisa de Usuaacuterio 75 Figura 31 Diagrama de Sequumlecircncia do sistema proposto ndash Gerenciamento e Operaccedilatildeo do BD
no niacutevel de administrador 76
vi
IacuteNDICE DE TABELAS
Tabela 1 Exemplos de nominalizaccedilatildeo 49 Tabela 2 Exemplo de uma consulta qb53 Tabela 3 Paraacutegrafo 6 do documento163 Tabela 4 RLBs identificadas no paraacutegrafo 6 do documento1 63 Tabela 5 Descriccedilatildeo do caso de uso ndash Inserir novo documento68 Tabela 6 Descriccedilatildeo do caso de uso ndash Alimentar base de dados (Documentos) 68 Tabela 7 Descriccedilatildeo do caso de uso ndash Extrair SN de 4ordm ou uacuteltimo niacutevel 68 Tabela 8 Descriccedilatildeo do caso de uso ndash Tratar regras verbais69 Tabela 9 Descriccedilatildeo do caso de uso ndash Extrair SN de niacuteveis 3 2 e 1 (niacuteveis anteriores) 69 Tabela 10 Descriccedilatildeo do caso de uso ndash Alimentar base de dados (Sintagmas) 69 Tabela 11 Descriccedilatildeo do caso de uso ndash Toquenizar e etiquetar70 Tabela 12 Descriccedilatildeo do caso de uso ndash Nominalizar70 Tabela 13 Descriccedilatildeo do caso de uso ndash Capturar RLBs 70 Tabela 14 Descriccedilatildeo do caso de uso ndash Calcular peso dos descritores 71 Tabela 15 Descriccedilatildeo do caso de uso ndash Alimentar base de dados (Termos e RLBs) 71
vii
SIGLAS
RI Recuperaccedilatildeo de Informaccedilatildeo
SRI Sistemas de Recuperaccedilatildeo de Informaccedilatildeo
SN Sintagma Nominal
LG Leacutexico Gerativo
EQ Estrutura de Qualia
SMART System for the Manipulation and Retrieval of Text
SV Sintagma Verbal
SEL Leacutexico de Enumeraccedilatildeo de Sentidos
PLC Paradigma Leacutexico-Conceitual
XML Extensible Markup Language
UML Linguagem de Modelagem Unificada
UP Processo Unificado
OO Orientado a Objetos
NG N-Grama
TT Termo-Termo
TR Termo-Relacionamento
RT Relacionamento-Termo
TR+ Termo-RelacionamentoRelacionamento-Termo
SINTR+ Sintagma Nominal com TR+
BD Banco de Dados
viii
RESUMO
Este trabalho tem como objetivo apresentar um novo modelo de sistema informatizado de suporte ao usuaacuterio no processo de recuperaccedilatildeo de informaccedilotildees A proposta consiste em apoio durante a definiccedilatildeo da query de busca e baseia-se na identificaccedilatildeo das possibilidades de sistematizaccedilatildeo e junccedilatildeo do modelo de Kuramoto com a estrutura de Gonzalez Para a sua construccedilatildeo foi necessaacuterio analisar e sintetizar o modelo de suporte ao usuaacuterio de Kuramoto (baseado na determinaccedilatildeo dos Sintagmas Nominais) a estrutura de Qualia do Leacutexico Gerativo de Pustejovsky e termos e RLBs (relaccedilotildees lexicais binaacuterias) do modelo TR+ de Gonzalez O resultado que se espera alcanccedilar eacute possibilitar a realizaccedilatildeo de uma interaccedilatildeo que venha a proporcionar uma negociaccedilatildeo adequada dos significados entre o usuaacuterio e a maacutequina negociaccedilatildeo essa que deve resultar em fator fundamental na melhoria da eficiecircncia dos processos de busca O modelo de Kuramoto baseado em uma hierarquia de Sintagmas Nominais suporta inicialmente essa interaccedilatildeo Com a definiccedilatildeo da query de busca e da Estrutura de Qualia de Pustejovsky impliacutecita no modelo TR+ de Gonzalez foi possiacutevel obter uma maior relevacircncia dos documentos recuperados atraveacutes de um caacutelculo de peso de descritores (termos e relacionamentos) evidentes nos documentos As etapas gerais do modelo proposto satildeo a extraccedilatildeo de Sintagmas Nominais e a sua hierarquizaccedilatildeo automaacutetica em niacuteveis o preacute-processamento (toquenizaccedilatildeo e etiquetagem) o processo de nominalizaccedilatildeo e a captura de RLBs Delineado preliminarmente o modelo partiu-se para as etapas de levantamento e anaacutelise de requisitos representada pelos diagramas e pelas descriccedilotildees dos casos de uso chegando-se ao desenvolvimento do seu modelo conceitual que culminou a construccedilatildeo dos diagramas de classes e de sequumlecircncia para a aplicaccedilatildeo proposta Ao final conclui-se que a alternativa indicada neste trabalho aleacutem de ser exequumliacutevel apresenta ganhos qualitativos nos resultados de uma busca em recuperaccedilatildeo de informaccedilotildees e tambeacutem quantitativos no que se refere a um menor tempo na fase de indexaccedilatildeo (rapidez) e um tamanho menor de arquivos de iacutendice gerados (memoacuteria)
Palavras-chave Recuperaccedilatildeo de Informaccedilatildeo Sintagmas Nominais Estrutura de Qualia Termos e RLBs
ix
ABSTRACT
This work has the presentation of a new model of a support information system to the user in the process of information retrieval The proposal consists in the support during the definition of a search query based on the identification of the possibilities of informatization and junction of a Kuramoto model along with the Gonzalez structure For its construction it was necessary to analyze and synthesize the support model to the Kuramoto user (base don the determination of Nominal Syntagm) the Qualia structure of the Lexical Semantics of Pustejovsky and having the LBRs (lexical binary relations) of the Gonzalez TR+ model The result we expect to reach is the possibility of actually performing an interaction that may result in an adequate negotiation of meanings between the user and the machine knowing that this negotiation should result in a fundamental factor in order for the improvement on the efficiency of the search processes The Kuramoto model based on Nominal Syntagm hierarchy initially supports this interaction With the definition of the query search and the Pustejovsky Qualia structure implicit in the TR+ Gonzalez model it was possible to obtain a greater relevance of documents recovered through a calculus of weight of describers (terms and relationships) evident in the document The general stages of the proposed model are the extraction of Nominal Syntagm and their automatic placement into hierarchy the pre-processing (tokening and labeling) the naming and capture of the LRBs After the preliminary outlining of the model we went on to the gathering of stages and requisite analysis presented by diagrams and descriptions of the usage cases finally reaching the development of a conceptual model that culminated in the construction of class diagrams and of a sequence for the proposed application As we reach the end we can conclude that the indicated alternative in this work besides being executable presents qualitative gains in the results of a search for the retrieval of information and also quantitative gains when referring to a smaller amount of time spent in the index phase (speed) and a smaller amount of archives generated (memory)
Key-words Retrieval of Information Nominal Syntagm Qualia Structure Terms e LRBs
x
SUMAacuteRIO
AGRADECIMENTOS iv
IacuteNDICE DE FIGURAS v
IacuteNDICE DE TABELAS vi
IacuteNDICE DE TABELAS vi
SIGLAS vii
RESUMOviii
ABSTRACT ix
SUMAacuteRIOx
1 INTRODUCcedilAtildeO 12
11 Objetivos13 111 Objetivo Geral 13 112 Objetivos Especiacuteficos 13
12 Metodologia13
13 Resultados Esperados e Limitaccedilotildees do Trabalho 14
14 Estrutura da Dissertaccedilatildeo 15
2 RECUPERACcedilAtildeO DE INFORMACcedilAtildeO 16
21 Histoacuterico 16
22 Modelos Claacutessicos de Recuperaccedilatildeo de Informaccedilatildeo 18 221 Modelo Booleano 18
2211 Operadores Booleanos19 2212 Operadores de Proximidade 20
222 Modelo Vetorial21 223 Modelo Probabiliacutestico 23
3 FUNDAMENTACcedilAtildeO TEacuteORICA25
31 A Proposta de Kuramoto 25 311 Extraccedilatildeo dos Sintagmas Nominais 27
3111 Extraccedilatildeo Automaacutetica de Sintagmas Nominais 29 312 A determinaccedilatildeo de uma estrutura para os SN 29
xi
313 Protoacutetipo Desenho da Interface de Busca31 314 Organizaccedilatildeo dos Sintagmas Nominais como Estrutura de Busca 32
32 A Teoria do Leacutexico Gerativo de Pustejovsky34 321 Estruturas do Leacutexico Gerativo36
3211 Estrutura de Argumento 37 3212 Estrutura de Evento 37 3213 Estrutura de Qualia 38 3214 Estrutura de Heranccedila Lexical 40
322 Sistema de Tipos Semacircnticos 41 322 Mecanismos gerativos 42
3221 Coerccedilatildeo de tipo42 3222 Ligaccedilatildeo seletiva 42 3223 Co-composiccedilatildeo 43
33 O Modelo TR+ de Gonzalez45
4 APRESENTACcedilAtildeO E DISCUSSAtildeO DO MODELO PROPOSTO 55
41 Procedimentos desenvolvidos utilizando o modelo de SN de Kuramoto e a proposta Gonzalez - ldquoEstrutura SINTR+rdquo55
42 Descriccedilatildeo Formal do Modelo Proposto SINTR+ 64
5 CONCLUSAtildeO77
6 REFEREcircNCIAS BIBLIOGRAacuteFICAS 80
61 Bibliografia Consultada82
ANEXO A - DOCUMENTO186
ANEXO B - DOCUMENTO288
ANEXO C - EXTRACcedilAtildeO MANUAL DE SN DOS DOCUMENTOS91
ANEXO D - FERRAMENTA1 DE TOQUENIZACcedilAtildeO E ETIQUETAGEM99
ANEXO D - FERRAMENTA2 DE TOQUENIZACcedilAtildeO E ETIQUETAGEM102
ANEXO E - PROCESSO DE NOMINALIZACcedilAtildeO105
12
1 INTRODUCcedilAtildeO
O tema ldquoRecuperaccedilatildeo de Informaccedilatildeordquo (RI) eacute importante para diversas aacutereas tais
como Biblioteconomia Linguumliacutestica Ciecircncia da Computaccedilatildeo entre outras Segundo Baeza-
Yates e Ribeiro-Neto (1999) na Ciecircncia da Computaccedilatildeo esse tema diz respeito agrave recuperaccedilatildeo
de dados e agrave recuperaccedilatildeo de informaccedilatildeo sendo ambos processos importantes e significativos
para a aacuterea
De acordo com os autores os sistemas de recuperaccedilatildeo de informaccedilatildeo lidam com
objetos linguumliacutesticos (textos) e por isso herdam toda a problemaacutetica inerente ao tratamento da
linguagem natural Jaacute a recuperaccedilatildeo de dados estaacute associada a sistemas gerenciadores de
banco de dados (ou simplesmente banco de dados) que ao organizaacute-los jaacute especificam de
forma bem definida a sua estrutura e por conseguinte a sua semacircntica
Um dos desafios na recuperaccedilatildeo de informaccedilatildeo conforme Ferneda (2003) diz
respeito a melhorar a relevacircncia dos resultados de uma busca de maneira que o usuaacuterio possa
encontrar todos os documentos que atendam agraves suas necessidades de informaccedilatildeo Em outras
palavras isto quer dizer que a busca seraacute precisa se conseguir retornar eou listar somente
documentos relacionados ao que o usuaacuterio expressou na definiccedilatildeo da sua busca
Diversos modelos de RI vecircm proporcionando melhorias significativas na relevacircncia
dos resultados De acordo com Baeza-Yates e Ribeiro-Neto (1999) em uma visatildeo centrada no
computador o problema de RI consiste principalmente na construccedilatildeo de iacutendices mais
eficientes no processamento de querys de usuaacuterios com alta performance e no
desenvolvimento de algoritmos de classificaccedilatildeo que melhorem a ldquoqualidaderdquo do conjunto de
respostas Apesar disso os meacutetodos utilizados nesses modelos ainda deixam a desejar natildeo
sendo capazes de recuperar a contento os documentos relevantes a uma consulta do usuaacuterio
Na maioria dos modelos de recuperaccedilatildeo de informaccedilatildeo existentes hoje o processo de
indexaccedilatildeo extrai cada palavra do texto de um documento e insere uma lista de palavras
ordenadas pela frequumlecircncia da palavra no texto Isto desfaz o trabalho intelectual do autor do
documento
Observa-se que diversas pesquisas de RI se focalizam nos algoritmos de busca por
documentos relevantes a partir de querys estabelecidas O foco nesses casos eacute determinar a
relevacircncia de documentos Para isso haacute vaacuterias metodologias desde medir o tempo de
13
permanecircncia do usuaacuterio no acesso a um documento ateacute a determinaccedilatildeo da quantidade de
consultas com querys semelhantes entre outras
Outro aspecto problemaacutetico relaciona-se ao fato de que as informaccedilotildees recuperadas
dependem tambeacutem da clareza do usuaacuterio ao expressar o que necessita Ou seja a dificuldade
natildeo se trata apenas de identificar e definir a relevacircncia dos resultados atraveacutes dos modelos
computacionais de RI que datildeo suporte ao processo da busca mas da capacidade do usuaacuterio de
formular uma expressatildeo de busca utilizando as palavras ou expressotildees de forma clara de
modo a representar os documentos desejados satisfazendo assim a sua necessidade
As palavras utilizadas pelo usuaacuterio possuem um significado claro para ele mas isso
natildeo eacute suficiente para uma boa recuperaccedilatildeo de informaccedilatildeo pois a Liacutengua Portuguesa segundo
Rossi (2003) apresenta muitas palavras iguais com significados diferentes (polissemia) que
variam de acordo com o contexto E haacute tambeacutem palavras diferentes em escrita e pronuacutencia
embora com significados iguais (sinoniacutemia) Ocorre ainda a combinaccedilatildeo de palavras que
segundo Martins e Zilberknop (1999) diz respeito a duas ou mais palavras que podem
combinar-se em ordem diferente designando ideacuteias completamente diversas
Esses aspectos da linguagem natural satildeo obstaacuteculos na obtenccedilatildeo de bons resultados
em um procedimento de recuperaccedilatildeo de informaccedilatildeo No caso da polissemia e da combinaccedilatildeo
de palavras pode ocorrer o aumento da taxa de ruiacutedos1 ou o incremento da taxa de silecircncio2
que acontecem no caso de sinoniacutemia Isto pode levar a um resultado de busca de documentos
que natildeo atenda agraves necessidades de informaccedilatildeo do usuaacuterio Portanto a existecircncia de uma
negociaccedilatildeo de significados entre usuaacuterio e maacutequina levaria possivelmente a resultados mais
relevantes
O surgimento das novas tecnologias da informaccedilatildeo e da comunicaccedilatildeo fez crescer o
volume de publicaccedilotildees na Internet Esse crescimento segundo Cardoso (2000) tem
dificultado ainda mais a recuperaccedilatildeo de informaccedilotildees relevantes Um aspecto positivo eacute a
facilidade de acesso pela Web (World Wide Web) aos acervos bibliograacuteficos de diversas
universidades brasileiras e mesmo do mundo inteiro Visto que o aumento do acervo torna
ainda mais complexa a busca por isso esperava-se que esses meacutetodos acompanhassem tal
desenvolvimento mas isto ainda natildeo aconteceu de forma satisfatoacuteria
A dificuldade aparece rapidamente nos vaacuterios mecanismos da Web como ldquoGooglerdquo
ldquoCaderdquo entre outros que ao serem acionados para buscar uma determinada informaccedilatildeo
1 Taxa de ruiacutedos eacute definida como sendo a relaccedilatildeo entre a quantidade de documentos recuperados natildeo pertinentes e a quantidade total de documentos 2 Taxa de silecircncio eacute definida como sendo a relaccedilatildeo entre a quantidade de documentos recuperados pertinentes natildeo recuperados e a quantidade total de documentos pertinentes na base de dados
14
listam centenas ou mesmo milhares de referecircncias como resposta sendo normalmente destas
relevantes apenas as primeiras Aleacutem disso ao se utilizarem as mesmas palavras em diferentes
mecanismos (sites) de pesquisa os resultados variam segundo Hill (1999) devido agraves rotinas
automatizadas de pesquisa diferenciadas
O usuaacuterio precisa ainda utilizar palavras-chave para dar foco agrave sua pesquisa Segundo
Baeza-Yates e Ribeiro-Neto (1999) o interessante seria jaacute poder dizer ldquoDecirc-me dados
estatiacutesticos sobre a equipe da seleccedilatildeo brasileira de basquete no ano de 2004rdquo Mas apesar de a
tecnologia da Internet estar progredindo ainda se estaacute bastante distante desse estaacutegio
Uma linha de pesquisa que tem como representante o trabalho de Kuramoto (1999)
procura abordar a questatildeo da RI desde a perspectiva do apoio ao usuaacuterio na formulaccedilatildeo da
query de busca A expectativa eacute oferecer jaacute no momento da formulaccedilatildeo da query um apoio
interativo para o estabelecimento de uma chave mais adequada ao contexto real da busca A
proposta de Kuramoto eacute baseada na determinaccedilatildeo dos Sintagmas Nominais (SN) de um
domiacutenio de aplicaccedilatildeo
O uso de SN permite um processo de refinamento da busca A forma de navegar
pelos niacuteveis de SN intensifica a interaccedilatildeo entre o usuaacuterio e o computador (KURAMOTO
2002) A interface de busca passa a dar um suporte para o usuaacuterio na formulaccedilatildeo de sua query
antes de listar todos os documentos
A proposta de utilizaccedilatildeo de uma interface de apoio utilizando SN configura-se como
inovadora pois natildeo se tem conhecimento de outra proposiccedilatildeo que considere o fato de que nem
sempre o usuaacuterio eacute capaz de explicitar a sua necessidade de informaccedilatildeo em uma uacutenica
expressatildeo de busca
Segundo Kuramoto (2002) as palavras como unidades de um dicionaacuterio natildeo contecircm
qualquer substacircncia Elas adquirem essa substacircncia no momento em que se inserem no
universo do discurso ou seja as palavras inseridas no texto de um documento assumem um
significado especiacutefico
Percebe-se que essa linha de pesquisa eacute bastante promissora e que a aacuterea de
Linguumliacutestica pode oferecer alternativas interessantes uma delas foi vislumbrada na teoria do
Leacutexico Gerativo (LG) de Pustejovsky (1991) Nessa teoria Pustejovsky buscando dar conta
da polissemia loacutegica das palavras propondo uma estrutura para a semacircntica de uma liacutengua da
mesma forma que a sintaxe eacute estruturada Na estrutura proposta por Pustejovsky a
componente principal eacute a estrutura de dimensotildees de significados (denominada de Estrutura de
Qualia)
15
Uma palavra escrita pelo usuaacuterio pode ser utilizada pelos documentos de um acervo
e portanto identificada pela maacutequina atraveacutes de seus modelos de RI com um sentido
completamente diferente do contexto imaginado pelo usuaacuterio Para a palavra ldquojornalrdquo por
exemplo o usuaacuterio pode estar se referindo ao preacutedio onde fica o jornal ou ao objeto fiacutesico
propriamente dito ou ateacute mesmo ao conteuacutedo do jornal (informaccedilatildeo contida)
A Estrutura de Qualia auxilia a RI na identificaccedilatildeo de qual sentido mais especiacutefico o
usuaacuterio busca dessa forma esta estrutura poderia classificar os documentos contendo a palavra
ldquojornalrdquo segundo as diferentes qualia envolvidas Isso representaria um refinamento
importante na busca que poderia resultar em mais satisfaccedilatildeo para o usuaacuterio e portanto mais
eficiecircncia dos mecanismos de busca O reconhecimento da importacircncia da teoria de
Pustejovsky pode ser constatado na existecircncia de trabalhos relacionados na liacutengua portuguesa
como eacute o caso da pesquisa de Abrahatildeo (1997) que desenvolveu a modelagem e a
implementaccedilatildeo de um leacutexico semacircntico para a nossa Liacutengua a partir de um estudo
aprofundado da teoria de Pustejovsky
Aleacutem disso uma outra questatildeo importante a ressaltar eacute que existem problemas
ligados agrave definiccedilatildeo das palavras Essa criacutetica segundo Rossi (2003) se fundamenta no fato de
os lexicoacutegrafos3 parecerem atuar de maneira mais intuitiva do que propriamente fazer uso de
teorias semacircnticas que decircem o devido suporte agrave tarefa de definir um item lexical Rossi (2003)
reforccedila que muitos dicionaacuterios nem sempre prevecircem a polissemia subjacente aos itens
lexicais
Outro trabalho pesquisado que permitiu uma ampliaccedilatildeo do modelo proposto nesta
dissertaccedilatildeo foi o de Gonzalez (2005) com o seu modelo TR+ Este modelo natildeo utiliza
sistematicamente a Estrutura de Qualia aparecendo esta apenas impliacutecita principalmente a
parte formal das palavras As palavras e seus relacionamentos ganham em Gonzalez uma
importacircncia contextual pelo caacutelculo de um peso (peso de descritores) que busca manter sua
unidade significativa
A abordagem proposta para este trabalho orienta-se na melhoria da query de busca
dos usuaacuterios A pesquisa siacutentese e sistematizaccedilatildeo da proposta de Kuramoto (1999) e do
modelo de Gonzalez (2005) possibilitaram o desenvolvimento de um novo modelo chamado
3 Lexicoacutegrafos satildeo autores de dicionaacuterios ou seja dicionaristas
de SINTR+ Esse modelo utiliza a formulaccedilatildeo de consulta em RI apresentando os Sintagmas
Nominais referentes a esta consulta e com isto inicia a interaccedilatildeo com o usuaacuterio onde o mesmo
13
escolhe o SN de niacutevel apropriado e a partir daiacute haacute sistematizaccedilatildeo com o modelo TR+ de
Gonzalez
Pretende-se por um lado ajudar e apoiar o usuaacuterio a melhor especificar sua query no
contexto real da sua busca por outro lado potencializa-se o tempo tanto na fase de indexaccedilatildeo
como na de busca e reduz-se o espaccedilo utilizado de memoacuteria para dados na base
11 Objetivos
111 Objetivo Geral
Descrever a partir da identificaccedilatildeo das possibilidades de ampliaccedilatildeo de siacutentese e de
sistematizaccedilatildeo das propostas de Kuramoto e de Gonzalez um novo modelo para um sistema
informatizado de suporte ao usuaacuterio na definiccedilatildeo da sua query de busca durante um processo
de recuperaccedilatildeo de informaccedilatildeo
112 Objetivos Especiacuteficos
a) Analisar as propostas citadas buscando a sua sistematizaccedilatildeo e identificaccedilatildeo de alternativas
de implementaccedilatildeo e ampliaccedilatildeo
b) Definir o modelo conceitual do sistema desejado atraveacutes da sua anaacutelise de domiacutenio
representando-o a partir dos seus diagramas de classes e de sequumlecircncia
c) Avaliar exploratoriamente o modelo desenhado a partir da construccedilatildeo de exemplos
demonstrativos das suas principais propriedades
12 Metodologia
Para a construccedilatildeo deste trabalho inicialmente foi realizada uma revisatildeo bibliograacutefica
a partir de livros artigos e outros materiais disponiacuteveis referentes ao assunto em questatildeo
fundamentalmente sobre a aacuterea de Recuperaccedilatildeo de Informaccedilatildeo A metodologia utilizada para
desenvolver este trabalho baseou-se no cronograma de etapas a serem desenvolvidas descritas
a seguir
14
a) Estudo e identificaccedilatildeo das diferentes alternativas e abordagens atualmente desenvolvidas
para a aacuterea de recuperaccedilatildeo de informaccedilotildees
b) Formulaccedilatildeo da proposta de trabalho definiccedilatildeo do escopo e da fundamentaccedilatildeo da proposta
c) Estudo das teorias de base para a construccedilatildeo do modelo teoria do Leacutexico Gerativo de
James Pustejovsky e o modelo de Kuramoto E apoacutes um estudo de Abrahatildeo e Gonzalez
d) Esboccedilo do modelo para o sistema proposto
e) Especificaccedilatildeo dos requisitos do sistema proposto
f) Construccedilatildeo da anaacutelise de domiacutenio definiccedilatildeo do modelo conceitual
g) Construccedilatildeo dos diagramas de classes e de sequumlecircncia para o modelo
h) Construccedilatildeo de exemplos de aplicaccedilatildeo do modelo
i) Anaacutelise e conclusotildees finais
13 Resultados Esperados e Limitaccedilotildees do Trabalho
A principal contribuiccedilatildeo deste trabalho reside no fato de sistematizar as teorias de
Kuramoto Pustejovsky e Gonzalez construindo um novo modelo que amplia as
potencialidades das propostas de Kuramoto e Gonzalez melhorando os resultados do processo
de recuperaccedilatildeo de informaccedilotildees Esta melhoria ocorre em relaccedilatildeo agrave diminuiccedilatildeo do tempo de
busca dos documentos e agrave relevacircncia dos resultados encontrados por meio da junccedilatildeo de
diferentes modelos para os processos de indexaccedilatildeo e busca
A princiacutepio o modelo construiacutedo eacute antevisto como aplicaacutevel a bases de documentos
natildeo distribuiacutedas e contidas a um determinado domiacutenio de aplicaccedilatildeo mas jaacute eacute possiacutevel
perceber formas de adaptaacute-lo expandindo-o para seu uso na Web
Este trabalho natildeo tem o intuito de gerar uma implementaccedilatildeo computacional
completa do modelo proposto propotildee-se antes a demonstrar a viabilidade desta
implementaccedilatildeo descrevendo os diagramas e as descriccedilotildees dos casos de uso e a sua
modelagem conceitual culminando a construccedilatildeo dos diagramas de classes e de sequumlecircncia A
anaacutelise das potencialidades e limitaccedilotildees do modelo deveraacute ser possiacutevel a partir da realizaccedilatildeo
de estudos de casos onde se determine a complexidade computacional da implementaccedilatildeo
requerida
15
14 Estrutura da Dissertaccedilatildeo
O trabalho apresenta um capiacutetulo introdutoacuterio que orienta os toacutepicos do projeto e o
desenvolvimento da pesquisa aleacutem de sintetizar os resultados que seratildeo explorados na
conclusatildeo
O Capiacutetulo 2 a seguir aborda temas e definiccedilotildees da aacuterea de RI mostrando a sua
histoacuteria e tambeacutem discute o funcionamento e as vantagens e desvantagens dos modelos
claacutessicos de RI
No Capiacutetulo 3 apresenta-se a fundamentaccedilatildeo teoacuterica desta dissertaccedilatildeo onde satildeo
abordados trecircs autores Primeiramente apresenta-se a Proposta de Kuramoto que se baseia nos
niacuteveis de Sintagmas Nominais sendo exposto o protoacutetipo de interaccedilatildeo entre usuaacuterio e maacutequina
desenvolvido por este autor Na Teoria do Leacutexico Gerativo de Pustejovsky deu-se ecircnfase agrave
apresentaccedilatildeo da Estrutura de Qualia pois eacute a que foi julgada mais adequada para a aplicaccedilatildeo
no modelo proposto apresenta-se tambeacutem uma anaacutelise do estudo de Abrahatildeo Por fim
discute-se e apresenta-se o trabalho de Gonzalez e do seu modelo TR+ que possibilitou
juntamente com a proposta de Kuramoto sistematizar a proposta desta dissertaccedilatildeo
No Capiacutetulo 4 eacute desenvolvida a proposta do sistema SINTR+ atraveacutes dos diagramas e
das descriccedilotildees dos casos de uso do modelo o modelo conceitual os diagramas de classes e de
sequumlecircncia juntamente com exemplos demonstrativos das suas propriedades
No Capiacutetulo 5 tecircm-se as conclusotildees referentes ao trabalho bem como as sugestotildees
para continuidade desse foco de pesquisa
O Capiacutetulo 6 apresenta as referecircncias bibliograacuteficas utilizadas para a realizaccedilatildeo deste
trabalho bem como a bibliografia consultada para a compreensatildeo de conceitos abordados na
dissertaccedilatildeo finalizando com os anexos
16
2 RECUPERACcedilAtildeO DE INFORMACcedilAtildeO
Neste capiacutetulo apresentam-se o histoacuterico e os modelos claacutessicos da aacuterea de
recuperaccedilatildeo de informaccedilatildeo O objetivo ao abordar esses toacutepicos eacute delinear uma visatildeo geral da
aacuterea a partir de diversos modelos de RI apontando algumas de suas principais vantagens e
desvantagens Dar-se-aacute destaque ao fato de que os algoritmos de relevacircncia utilizados para
recuperar os documentos desconsideram o contexto da query de busca
21 Histoacuterico
Em 1951 segundo Baeza-Yates e Ribeiro-Neto (1999) Calvin Mooers criou o termo
ldquoInformation Retrievalrdquo (Recuperaccedilatildeo de Informaccedilatildeo) e definiu os problemas a serem
abordados por esta nova aacuterea de pesquisa a qual despertou o interesse principalmente de
bibliotecaacuterios e ldquoexpertsrdquo da informaccedilatildeo
No contexto da Ciecircncia da Informaccedilatildeo segundo Ferneda (2003 p 14)
o termo ldquoRecuperaccedilatildeo de Informaccedilatildeordquo significa para uns a operaccedilatildeo pela qual se seleciona documentos a partir do acervo em funccedilatildeo da demanda do usuaacuterio Para outros ldquoRecuperaccedilatildeo de Informaccedilatildeordquo consiste no fornecimento a partir de uma demanda definida pelo usuaacuterio dos elementos de informaccedilatildeo documentaacuteria correspondentes O termo pode ainda ser empregado para designar a operaccedilatildeo que fornece uma resposta mais ou menos elaborada a uma demanda e esta resposta eacute convertida num produto cujo formato eacute acordado com o usuaacuterio (bibliografia nota de siacutentese etc) Haacute ainda autores que conceituam a recuperaccedilatildeo de informaccedilatildeo de forma muito mais ampla ao subordinar agrave mesma o tratamento da informaccedilatildeo (catalogaccedilatildeo indexaccedilatildeo classificaccedilatildeo)
Para alguns autores segundo Cardoso (2000) RI eacute dita como uma subaacuterea da Ciecircncia
da Computaccedilatildeo que estuda o armazenamento e a recuperaccedilatildeo automaacutetica de documentos que
satildeo objetos de dados geralmente textos Para Baeza-Yates e Ribeiro-Neto (1999) o termo
ldquoRecuperaccedilatildeo de Informaccedilatildeordquo trata da representaccedilatildeo do armazenamento da organizaccedilatildeo e do
acesso aos itens da informaccedilatildeo
De acordo com Ferneda (2003) foi a partir dos experimentos de Hans Peter Luhn
(Engenheiro pesquisador da IBM) na indexaccedilatildeo automaacutetica e na elaboraccedilatildeo automaacutetica de
resumos que surgiram os primeiros resultados significativos no tratamento computacional da
informaccedilatildeo Com isto ldquoLuhn foi durante vaacuterios anos o criador de inuacutemeros projetos que
visavam modificar radicalmente meacutetodos tradicionais de armazenamento tratamento e
17
recuperaccedilatildeo de informaccedilatildeo Em 1961 jaacute acumulava cerca de 80 patentes nos Estados Unidosrdquo
(FERNEDA 2003 p 10-11) Estes dados mostram a importacircncia de Luhn no tratamento da
recuperaccedilatildeo de informaccedilotildees
Em 1960 segundo Ferneda (2003) foi desenvolvido os princiacutepios baacutesicos do modelo
probabiliacutestico para a Recuperaccedilatildeo de Informaccedilatildeo por Maron e Kuhns que foi mais tarde
definido por Robertson e Jones (1976) A deacutecada de 60 foi fundamental em experimentos
desta natureza ldquoem meados dos anos 60 inicia-se uma longa seacuterie de experimentos que
constitui um marco na Recuperaccedilatildeo de Informaccedilatildeo o projeto SMARTrdquo (FERNEDA 2003
p11) Este autor destaca que este projeto foi desenvolvido por Gerard Salton que se
especializou na pesquisa destas evoluccedilotildees na recuperaccedilatildeo de informaccedilotildees produzindo
inuacutemeros artigos cientiacuteficos um modelo de recuperaccedilatildeo de informaccedilatildeo a criaccedilatildeo e o
aprimoramento de diversas teacutecnicas computacionais aleacutem de o sistema SMART
Estes sistemas de recuperaccedilatildeo de informaccedilatildeo geralmente se baseiam na contagem de
frequumlecircncia das palavras do texto e na eliminaccedilatildeo de palavras reconhecidamente de pouca
relevacircncia (FERNEDA 2003) Um exemplo disso satildeo os meacutetodos automaacuteticos de indexaccedilatildeo
de recuperaccedilatildeo de informaccedilatildeo que utilizam ldquofiltrosrdquo para eliminar palavras de pouca
significaccedilatildeo (stopwords4 e noun groups5) aleacutem de normalizar os termos reduzindo-os a seus
radicais Esse processo eacute conhecido como stemming6
Ferneda evidencia que os trabalhos de Luhn e Salton inicialmente natildeo se
preocupavam com a anaacutelise semacircntica das palavras e que seus estudos colaboraram para com
a evoluccedilatildeo atual das pesquisas
Nos trabalhos de Luhn e Salton observa-se inicialmente uma crenccedila de que meacutetodos puramente estatiacutesticos seriam suficientes para tratar os problemas relacionados agrave recuperaccedilatildeo de informaccedilatildeo Poreacutem no transcorrer de suas pesquisas percebe-se uma busca por meacutetodos de anaacutelise semacircntica mais sofisticada Desde os seus primeiros trabalhos Salton se mostra interessado pela utilizaccedilatildeo de processos de tratamento da linguagem natural na recuperaccedilatildeo de informaccedilatildeo Em livro de 1983 Salton e McGill apresentam em um capiacutetulo intitulado Future directions in Information Retrieval a aplicaccedilatildeo do processamento da linguagem natural e da loacutegica fuzzy na recuperaccedilatildeo de informaccedilatildeo apontando a direccedilatildeo de futuras pesquisas para a Inteligecircncia Artificial (FERNEDA 2003 p 12)
Estas contribuiccedilotildees tecircm suas principais ideacuteias presentes ainda na maioria dos
sistemas de recuperaccedilatildeo atuais e nos mecanismos de busca da Web Como aparece na estrutura
de componentes de um sistema de recuperaccedilatildeo de informaccedilatildeo que seguem geralmente um
modelo de funcionamento como demonstrado por Cardoso (2000)
4 Stop Words eliminaccedilatildeo de artigos e conectivos 5 Noun Groups eliminaccedilatildeo de adjetivos adveacuterbios e verbos 6 Stemming reduccedilatildeo de uma palavra ao seu radical Exemplo Engineering Engineer
18
Figura 1 Componentes de um Sistema de Recuperaccedilatildeo de Informaccedilatildeo Fonte GEY apud CARDOSO 2000
22 Modelos Claacutessicos de Recuperaccedilatildeo de Informaccedilatildeo
221 Modelo Booleano
A aacutelgebra booleana eacute um sistema binaacuterio no qual existem somente dois valores
possiacuteveis para qualquer siacutembolo algeacutebrico ldquoverdadeirordquo ou ldquofalsordquo O modelo booleano eacute um
modelo de recuperaccedilatildeo simples baseado na teoria dos conjuntos e na aacutelgebra booleana Aleacutem
disso as querys satildeo especificadas atraveacutes de expressotildees booleanas que tecircm semacircnticas
precisa
Segundo Baeza-Yates e Ribeiro-Neto (1999) e Gonzalez (2000) a simplicidade e o
formalismo claro do modelo booleano recebiam grande atenccedilatildeo nos anos passados sendo
adotados por muitos sistemas comerciais bibliograacuteficos
A estrateacutegia de recuperaccedilatildeo desse modelo eacute baseada em um criteacuterio de decisatildeo
binaacuteria por exemplo um documento pode ser relevante ou natildeo relevante sem noccedilatildeo de escala
de classificaccedilatildeo que previna um bom desempenho na recuperaccedilatildeo Deste modo o modelo
booleano eacute na verdade muito mais um modelo de recuperaccedilatildeo de dados (em vez de
informaccedilatildeo)
19
Aleacutem disso conforme Baeza-Yates e Ribeiro-Neto (1999) enquanto expressotildees
booleanas tecircm semacircnticas precisas frequumlentemente natildeo eacute simples traduzir uma informaccedilatildeo
precisa dentro de uma expressatildeo booleana O modelo booleano prediz que cada documento eacute
relevante ou irrelevante Natildeo existe noccedilatildeo de um resultado (matching) parcial para as
condiccedilotildees da query
As principais vantagens do modelo booleano satildeo o formalismo claro oculto sobre o
modelo e sua simplicidade As principais desvantagens encontram-se no resultado exato que
pode recuperar poucos ou muitos documentos
Figura 2 Exemplo dos trecircs componentes conjuntivos para query Fonte BAEZA-YATES RIBEIRO-NETO 1999
2211 Operadores Booleanos
Os operadores booleanos funcionam atraveacutes de uma expressatildeo booleana para
formulaccedilatildeo de buscas Isto ocorre por meio de operadores loacutegicos AND OR e NOT (E OU e
NAtildeO) Conforme exemplo de Ferneda (2003) a recuperaccedilatildeo de informaccedilatildeo se daraacute em uma
expressatildeo conjuntiva de enunciado t1 AND t2 que recuperaraacute documentos indexados por
ambos os termos (t1 e t2) Isso equivale e permite aparecer agrave intersecccedilatildeo do conjunto dos
documentos indexados pelo termo t1 com o conjunto dos documentos indexados pelo termo
t2
Figura 3 Representaccedilatildeo do resultado de uma expressatildeo booleana conjuntiva (AND) Fonte FERNEDA 2003
20
O autor demonstra que uma expressatildeo disjuntiva t1 OR t2 recuperaraacute o conjunto dos
documentos indexados pelo termo t1 ou pelo termo t2 Isto equivale e possibilita agrave uniatildeo entre
o conjunto dos documentos indexados pelo termo t1 e o conjunto dos documentos indexados
pelo termo t2 (FERNEDA 2003)
Figura 4 Resultado de uma busca booleana disjuntiva (OR) Fonte FERNEDA 2003
2212 Operadores de Proximidade
No modelo booleano existem os operadores de proximidade que permitem
especificar condiccedilotildees relacionadas agrave distacircncia e agrave posiccedilatildeo dos termos no texto Um operador
de proximidade bastante comum nos sistemas de RI e nos mecanismos de busca da Web eacute o
operador ADJ (FERNEDA 2003) Esse operador permite pesquisar duas palavras adjacentes
no texto de um documento na ordem especificada na expressatildeo de busca por exemplo a
expressatildeo recuperaccedilatildeo ADJ informaccedilatildeo teraacute como resultado os documentos que tiverem a
palavra ldquorecuperaccedilatildeordquo seguida da palavra ldquoinformaccedilatildeordquo ou seja recuperaraacute documentos que
contecircm a expressatildeo ldquorecuperaccedilatildeo informaccedilatildeordquo Tambeacutem pode ser utilizado um termo
composto delimitando as suas palavras com aspas por exemplo ldquorecuperaccedilatildeo de
informaccedilatildeordquo
O modelo booleano de acordo com Ferneda (2003) possui limitaccedilotildees que o torna
pouco atrativo satildeo elas
bull O resultado de uma busca booleana se caracteriza por dois subconjuntos os que
atendem agrave expressatildeo de busca e aqueles que natildeo atendem Presume-se que todos
os documentos recuperados satildeo de igual utilidade para o usuaacuterio Natildeo haacute nenhum
mecanismo pelos quais os documentos possam ser ordenados
bull O usuaacuterio leigo se natildeo tiver um treinamento apropriado formularaacute somente
buscas simples Para buscas com expressotildees mais complexas eacute necessaacuterio um
conhecimento da loacutegica booleana
21
bull Natildeo existe uma forma de atribuir importacircncia relativa aos diferentes termos da
expressatildeo booleana Assume-se implicitamente que todos os termos tecircm o mesmo
peso
222 Modelo Vetorial
O modelo vetorial segundo Baeza-Yates e Ribeiro-Neto (1999) reconhece que o uso
de pesos binaacuterios eacute tambeacutem limitante e propotildee uma estrutura em que eacute possiacutevel a resposta
(matching) parcial Isto eacute feito atribuindo-se pesos natildeo binaacuterios aos termos indexados em
querys e em documentos Esses pesos de termos satildeo enfim utilizados para calcular o grau de
similaridade entre cada documento armazenado no sistema e a expressatildeo de busca formulada
pelo usuaacuterio (querys) Como a classificaccedilatildeo dos documentos recuperados eacute feita em ordem
decrescente desse grau de similaridade o modelo vetorial leva em consideraccedilatildeo documentos
que se igualem aos termos de querys somente parcialmente
O modelo vetorial de acordo com Cardoso (2000) e Gonzalez (2000) representa
documentos e consultas como vetores de termos Os termos satildeo ocorrecircncias uacutenicas nos
documentos Os documentos retornados como resultado para uma consulta satildeo representados
similarmente isto quer dizer que o vetor resultado para uma consulta eacute montado atraveacutes de um
caacutelculo de similaridade Aos termos das consultas e dos documentos satildeo atribuiacutedos pesos que
especificam o tamanho e a direccedilatildeo de seu vetor de representaccedilatildeo O acircngulo formado por esses
vetores determina a proximidade da ocorrecircncia E o caacutelculo da similaridade eacute baseado no
acircngulo entre os vetores que representam o documento e a consulta
Cardoso (2000) descreve ainda que os pesos quantificam a relevacircncia de cada termo
para as consultas (Wiq) e para os documentos (Wid) no espaccedilo vetorial Segundo Cardoso
(2000 p 03) ldquopara o caacutelculo dos pesos Wiq e Wid utiliza-se uma teacutecnica que faz o
balanceamento entre as caracteriacutesticas do documento utilizando o conceito de frequumlecircncia de
um termo num documentordquo Desta forma se uma coleccedilatildeo possui N documentos e teremos o nti
que eacute a quantidade de documentos que possuem o termo ti com isto o inverso da frequumlecircncia
do termo na coleccedilatildeo ou idf (inverse documento frequency) eacute dado pela foacutermula de Cardoso
(2000) abaixo
idfi = log (Nni)
22
Esse valor eacute possiacutevel usando a foacutermula para calcular o peso Wid = freq(tid) x idfi
que eacute o produto da frequumlecircncia do termo no documento pelo inverso da frequumlecircncia do termo na
coleccedilatildeo
No modelo vetorial um documento eacute representado por um vetor em que cada
elemento representa o peso ou a relevacircncia do respectivo termo de indexaccedilatildeo para o
documento Cada elemento do vetor (peso) eacute normalizado de forma a assumir valores entre
zero e um Os pesos mais proacuteximos de um (1) indicam termos com maior importacircncia para a
descriccedilatildeo do documento E termos que natildeo estatildeo presentes em um determinado documento
possuem peso igual a zero
Da mesma forma que os documentos no modelo vetorial uma expressatildeo de busca
conforme Baeza-Yates e Ribeiro-Neto (1999) tambeacutem eacute representada por um vetor numeacuterico
em que cada elemento representa a importacircncia (peso) do respectivo termo na expressatildeo de
busca
Diversos documentos e termos de indexaccedilatildeo podem ser representados atraveacutes de uma
matriz na qual cada linha representa um documento e cada coluna representa a associaccedilatildeo de
um determinado termo aos vaacuterios documentos
Figura 5 O co-seno do acircngulo adaptado como similar (dj q) Fonte BAEZA-YATES RIBEIRO-NETO 1999
Um exemplo de uso do modelo vetorial eacute o sistema SMART7 citado anteriormente
este sistema representa por valor numeacuterico cada documento e seu respectivo termo na
descriccedilatildeo do documento Segundo Ferneda (2003) o sistema SMART fornece um meacutetodo
automaacutetico que trata aleacutem do caacutelculo dos pesos dos vetores que representam os documentos
tambeacutem trata os vetores das expressotildees de busca
As principais vantagens do modelo vetorial segundo Baeza-Yates e Ribeiro-Neto
(1999) satildeo (1) esquema de pesos de termos melhora o desempenho da recuperaccedilatildeo (2)
estrateacutegias de resposta (matching) parcial permitem a recuperaccedilatildeo de documentos que se
aproximem de condiccedilotildees de query e (3) foacutermula de classificaccedilatildeo do co-seno ordena os
documentos de acordo com o grau de similaridade da query A desvantagem desse modelo de
23
acordo com os autores diz respeito agraves dependecircncias de termos prejudicando especialmente o
desempenho
Cardoso (2000) considera como principais vantagens do modelo vetorial a sua
simplicidade a facilidade de se computarem similaridades com eficiecircncia e o fato de que se
comporta bem com coleccedilotildees geneacutericas
223 Modelo Probabiliacutestico
O modelo probabiliacutestico foi introduzido de acordo com Baeza-Yates e Ribeiro-Neto
(1999) em 1976 por Roberston e Sparck Jones que mais tarde tornou-se como o modelo
Binary Independence Retrieval (BIR)
Na Matemaacutetica a teoria das probabilidades estuda os experimentos aleatoacuterios que
conforme Ferneda (2003 p 35) repetidos em condiccedilotildees idecircnticas podem apresentar resultados diferentes e imprevisiacuteveis Isso ocorre por exemplo quando se observa a face superior de um dado apoacutes o seu lanccedilamento ou quando se verifica o naipe de uma carta retirada de um baralho Por apresentarem resultados imprevisiacuteveis eacute possiacutevel apenas estimar a possibilidade ou a chance de um determinado evento ocorrer Para descrever matematicamente um experimento aleatoacuterio eacute necessaacuterio inicialmente identificar o conjunto de todos os seus possiacuteveis resultados A este conjunto daacute-se o nome de espaccedilo amostral
Entendendo-se uma busca como um experimento aleatoacuterio segundo Robertson e
Jones eacute possiacutevel descrever o seu espaccedilo amostral como composto de quatro possibilidades
pois dada uma expressatildeo de busca pode-se dividir a base de documentos em quatro
subconjuntos distintos o conjunto dos documentos relevantes (Rel) o conjunto dos
documentos recuperados (Rec) o conjunto dos documentos relevantes e recuperados (RR) e o
conjunto dos documentos natildeo relevantes e natildeo recuperados O conjunto dos documentos
relevantes e recuperados (RR) eacute resultante da intersecccedilatildeo dos conjuntos Rel e Rec
(FERNEDA 2003)
O conjunto de documentos resultantes da primeira busca eacute ordenado atraveacutes de uma
forma de ordenaccedilatildeo padratildeo tradicional Tendo esse conjunto de documentos o usuaacuterio
seleciona alguns deles que considera relevantes para a sua necessidade O sistema utiliza essa
informaccedilatildeo para tentar melhorar os resultados subsequumlentes
A principal virtude do modelo probabiliacutestico estaacute em reconhecer que a atribuiccedilatildeo de
relevacircncia eacute uma tarefa do usuaacuterio Eacute o uacutenico modelo que segundo Baeza-Yates e Ribeiro-
7 SMART (Sistem for the Manipulation and Retrieval of Text)
24
Neto (1999) e Gonzalez (2000) incorpora explicitamente o processo de Relevance Feedback
como base para a sua operacionalizaccedilatildeo
Uma simplificaccedilatildeo bastante questionaacutevel estaacute no fato de o modelo considerar os
pesos dos termos de indexaccedilatildeo como sendo binaacuterios ou seja no modelo probabiliacutestico natildeo eacute
considerada a frequumlecircncia com que os termos ocorrem no texto dos documentos
Em geral os modelos de RI desconsideram o contexto das palavras informadas pelo
usuaacuterio por isso tendem a retornar poucos documentos relevantes em uma consulta Para isso
pretende-se mostrar no capiacutetulo seguinte com a ajuda da Linguumliacutestica possiacuteveis abordagens
que podem apoiar o usuaacuterio considerando o seu contexto de busca e listando documentos
relevantes
25
3 FUNDAMENTACcedilAtildeO TEacuteORICA
Neste capiacutetulo buscou-se apresentar uma siacutentese dos trabalhos que datildeo base ao
modelo apresentado nesta dissertaccedilatildeo Satildeo eles a Proposta de Kuramoto a Teoria do Leacutexico
Gerativo e o Modelo de Gonzalez A Proposta de Kuramoto baseia-se em uma hierarquizaccedilatildeo
em niacuteveis de Sintagmas Nominais Na Teoria do Leacutexico Gerativo de Pustejovsky mostram-se
as estruturas compostas e deu-se destaque agrave Estrutura de Qualia julgada mais adequada para a
aplicaccedilatildeo no trabalho proposto Analisou-se o estudo de Abrahatildeo a partir de Pustejovsky A
terceira teoria de Gonzalez apresenta uma proposta automatizada com o modelo TR+
31 A Proposta de Kuramoto
Neste capiacutetulo apresentam-se os conceitos e as caracteriacutesticas da proposta de
Kuramoto que se baseia na determinaccedilatildeo de Sintagmas Nominais (SN) de uma query A sua
proposta preocupa-se em buscar os SN uma vez que satildeo considerados como importante
elemento de uma frase sendo entendidos como o nuacutecleo significativo (cerne) de uma oraccedilatildeo
Em sua tese de doutorado Kuramoto relata que todo o trabalho de reconhecimento e
extraccedilatildeo de SN dos documentos foi realizado de forma natildeo automatizada Isto auxiliou na
elaboraccedilatildeo de um modelo para reconhecimento extraccedilatildeo e indexaccedilatildeo de SN inseridos na
amostra do protoacutetipo desenvolvido
O modelo proposto por Kuramoto refere-se ao aproveitamento dos SN organizado
hierarquicamente em ldquoaacutervoresrdquo criando um novo conceito de indexaccedilatildeo que pode introduzir
inovaccedilatildeo em termos de uma interface de busca
Esse modelo de interface de acordo com Kuramoto (2002) permitiria que o usuaacuterio
navegasse no conjunto de SN ateacute encontrar o que melhor atendesse agrave sua necessidade de
informaccedilatildeo Somente apoacutes esse procedimento o usuaacuterio teria entatildeo acesso aos documentos de
onde foram extraiacutedos os SN Tal processo proporcionaria ao usuaacuterio um maior conhecimento
sobre a base de dados que estaacute sendo consultada uma vez que lhe permitiria reconhecer a
estrutura de sintagmas nominais presentes nos documentos pertencentes ao sistema
Os processos de indexaccedilatildeo automaacutetica utilizados em modelos de RI segundo Michel
Le Guern (1984 apud KURAMOTO 1995) deveriam extrair dos documentos informaccedilotildees
26
que facilitassem a recuperaccedilatildeo para o usuaacuterio e natildeo siacutembolos sem referecircncia como considera
que satildeo as palavras
Para Silva e Koch (1993) toda frase de uma liacutengua constitui uma organizaccedilatildeo ou
seja uma combinaccedilatildeo de elementos linguumliacutesticos agrupados conforme certos princiacutepios que a
caracterizam como uma estrutura Para Baeza-Yates e Ribeiro-Neto (1999) grande parte da
semacircntica do documento ou da requisiccedilatildeo do usuaacuterio eacute perdida quando se substitui o texto
completo por um conjunto de palavras
Aparentemente um conjunto de frases de nossa liacutengua de acordo com Silva e Koch
(1993) tem pouco em comum variando quanto agrave extensatildeo ao sentido agraves palavras de que se
compotildeem e agrave ordem em que essas se apresentam Apesar da aparente diversidade as frases
possuem uma organizaccedilatildeo interna que segue princiacutepios gerais bem definidos de modo que o
falante seraacute capaz de dizer se uma sequumlecircncia de palavras a) se estaacute de acordo com o sistema
gramatical da liacutengua b) se se apresenta completa ou incompleta c) se eacute passiacutevel de
interpretaccedilatildeo semacircntica
Conforme Silva e Koch (apud ABREU et al 2004 p03) ldquoo sintagma consiste num
conjunto de elementos que constituem uma unidade significativa dentro da oraccedilatildeo e que
mantecircm entre si relaccedilotildees de dependecircncia e de ordemrdquo As palavras se combinam em conjuntos
em torno de um nuacutecleo Esses conjuntos os sintagmas desempenham uma funccedilatildeo no conjunto
maior que eacute a frase Para Liberato (apud PARREIRAS 2003) o SN eacute a parte do enunciado
que representa um conceito ou referente
Assim por exemplo nos conjuntos de sintagmas ndash David o estudante a menina
doente e minha filha ndash o nuacutecleo eacute um elemento nominal (nome ou pronome) tratando-se
portanto de sintagmas nominais Nos conjuntos ndash viajou de carro dormiu e levaraacute a
encomenda ndash o elemento fundamental eacute o verbo de modo que se tecircm nesses casos sintagmas
verbais
A natureza do sintagma depende portanto do tipo de elemento que constitui o seu
nuacutecleo aleacutem do sintagma nominal (SN) e do sintagma verbal (SV) existem os sintagmas
adjetivais (SA) que tecircm por nuacutecleo um adjetivo e os sintagmas preposicionais (SP) formados
normalmente de preposiccedilatildeo mais sintagma nominal (SILVA KOCH 1993)
Na estrutura da oraccedilatildeo em sua forma de base aparecem como constituintes
obrigatoacuterios o SN e o SV Por exemplo Os garotos (SN) empinavam papagaios de papel
(SV) Pode-se dizer que as regras baacutesicas de estrutura frasal satildeo as seguintes O = SN + SV
(SP) (o elemento O significa Oraccedilatildeo)
27
311 Extraccedilatildeo dos Sintagmas Nominais
O trabalho de Kuramoto compreendeu o desenvolvimento de um protoacutetipo de
interface de busca utilizando os sintagmas nominais como forma de acesso agrave informaccedilatildeo Para
testar esse protoacutetipo foram examinados e extraiacutedos segundo Kuramoto (2002) cerca de 8800
sintagmas nominais de uma amostra de 15 artigos selecionados aleatoriamente da revista
Ciecircncia da Informaccedilatildeo
Kuramoto (1995 p 6) relata que a extraccedilatildeo dos sintagmas nominais foi realizada de forma manual simulando uma extraccedilatildeo automaacutetica Este procedimento foi adotado em funccedilatildeo da natildeo-existecircncia ainda de um sistema de extraccedilatildeo automaacutetica de SN em acervos contendo documentos em Liacutengua Portuguesa
Como os SN nem sempre se apresentam de forma clara Kuramoto aponta a
ocorrecircncia normal em todo texto em linguagem natural de anaacuteforas8 e de elipses9 que
dificultou a identificaccedilatildeo dos SN Essas dificuldades segundo Kuramoto (1995) aumentam
em um processo automatizado Algumas das dificuldades encontradas por Kuramoto no
procedimento de extraccedilatildeo dos SN satildeo descritas a seguir
a) SN escondidos em frases com fatoraccedilatildeo
Para Kuramoto (1995 p 06) as ldquofrases com fatoraccedilatildeo satildeo aquelas que contecircm uma
sequumlecircncia de palavras que precedem um outro conjunto de palavras coordenadas pelas
conjunccedilotildees eou por exemplo o processo de negociaccedilatildeo dos setores privado e puacuteblicordquo
Percebe-se nesse exemplo que o SN de niacutevel 1 compreende tanto os setores privado
e puacuteblico visto que a referecircncia dos dois adjetivos estaacute contida na palavra em plural ldquosetoresrdquo
Existem outros exemplos de frases com fatoraccedilatildeo nas quais as palavras coordenadas aparecem
entre parecircnteses significando um complemento combinatoacuterio do termo ou da frase que
precede o parecircntese por exemplo profundas transformaccedilotildees (poliacuteticas econocircmicas
sociais tecnoloacutegicas)
b) Artigo Zero
8 Em Linguumliacutestica segundo Ducrot e Todorov (1972 apud KURAMOTO 1995) um segmento do discurso eacute dito anafoacuterico quando para interpretaacute-lo (inclusive do ponto de vista literaacuterio) for necessaacuterio se reportar a um outro segmento do mesmo discurso 9 A figura de sintaxe ldquoelipserdquo eacute definida por Cunha e Cintra (1991 apud KURAMOTO 1995) como sendo a omissatildeo de um termo que o contexto ou a situaccedilatildeo permitem facilmente suprimir
28
Um outro fator de dificuldade na extraccedilatildeo dos SN eacute a frequumlente ausecircncia de
determinantes10 na liacutengua portuguesa diferente da liacutengua francesa na qual satildeo raros os SN
com ausecircncia de um determinante Motivo pelos quais algumas regras estabelecidas para a
liacutengua francesa natildeo foram utilizadas De acordo com Kuramoto (1995 p 7) ldquono
procedimento de extraccedilatildeo dos SN constatou-se que 2889 dos SN natildeo eram precedidos de
qualquer determinante Em uma amostra de 6010 SN 1736 SN natildeo satildeo precedidos por
nenhum determinanterdquo Estes nuacutemeros demonstram que o modelo necessaacuterio deve considerar
este fator
c) Caacutelculo das anaacuteforas
Quando uma entidade eacute referenciada pela primeira vez em um texto segundo
Gasperin Goulart e Vieira (2003) a expressatildeo que a descreve eacute dita nova no discurso
Quando tal entidade eacute retomada no texto a expressatildeo que a descreve eacute dita anafoacuterica sendo
considerado o seu antecedente a expressatildeo anterior correferente
Para Kuramoto (1995 p 7-8) ldquoos elementos anafoacutericos em portuguecircs aparecem
frequumlentemente mediante partiacuteculas como os pronomesrdquo No entanto na proposta do autor
natildeo foi possiacutevel resolver dois casos de anaacuteforas
Um primeiro caso de anaacutefora ocorre nas palavras sem fonte expliacutecita no texto tais
como ldquonesse sentidordquo (em que sentido) ldquonossa experiecircnciardquo (de quem do autor dos
teacutecnicos de informaccedilatildeo) etc Como a interpretaccedilatildeo das ideacuteias estaacute contida no documento natildeo
fica evidente a soluccedilatildeo desse tipo de anaacutefora
O segundo caso eacute constituiacutedo de termos cujas fontes se encontram como por exemplo
na histoacuteria dos acontecimentos como ldquoesse periacuteodo preacute-industrial esse sistema de
comunicaccedilatildeordquo etc Por este motivo os SN foram extraiacutedos da mesma forma como se
encontravam no texto
d) Caacutelculo das elipses
Outra questatildeo que necessita um entendimento do contexto de uma frase eacute o problema
ligado a este tipo de figura de sintaxe Visto que depende da capacidade de percepccedilatildeo da falta
de alguma palavra no contexto de uma frase Segundo Kuramoto (1995) eacute preciso para
identificaacute-la analisar natildeo somente as frases precedentes mas tambeacutem as frases seguintes
Como neste exemplo ldquouma visatildeo de longo prazo que assegure natildeo soacute a sobrevivecircncia ()
10 Segundo Silva e Koch (1993) o determinante quando simples eacute representado por um artigo numeral ou pronome adjetivo
29
como tambeacutem o crescimento da organizaccedilatildeordquo Que promove o questionamento de ldquoqual o
complemento do termo lsquosobrevivecircnciarsquo lsquoSobrevivecircnciarsquo de quemrdquo A soluccedilatildeo encontrada
poderia estar na frase seguinte ldquoo crescimento da organizaccedilatildeordquo
Para promover a extraccedilatildeo completa da frase o SN seria ldquouma visatildeo de longo prazo
que assegure natildeo soacute a sobrevivecircncia da organizaccedilatildeo como tambeacutem o crescimento da
organizaccedilatildeordquo
3111 Extraccedilatildeo Automaacutetica de Sintagmas Nominais
A extraccedilatildeo automaacutetica de SN eacute considerada importante para a aacuterea de RI pois
segundo Chishman et al (2000) agiliza este processo e gera um percentual baixo de erros Jaacute
foi desenvolvido um extrator automaacutetico de sintagmas nominais para a liacutengua portuguesa no
acircmbito do projeto VISL chamado ldquoPalavrasrdquo11 que vem sendo usado pelo grupo de pesquisa
da UNISINOS
Segundo Abreu Goulart e Vieira (2004) para obter a anaacutelise das sentenccedilas dos
textos utiliza-se o analisador sintaacutetico ldquoPalavrasrdquo que eacute considerada uma ferramenta robusta
para a anaacutelise sintaacutetica do portuguecircs
A partir da saiacuteda do analisador sintaacutetico segundo Gasperin Goulart e Vieira (2003)
a ferramenta ldquoXtractorrdquo gera trecircs arquivos XML O primeiro eacute o arquivo de palavras o
segundo inclui as categorias morfossintaacuteticas e o terceiro eacute o arquivo com as estruturas
sintaacuteticas das sentenccedilas
Assim apoacutes todo esse processo eacute possiacutevel extrair de modo automaacutetico os sintagmas
nominais das sentenccedilas de um texto ressaltando-se que estes natildeo estatildeo ainda organizados
segundo a estrutura de niacuteveis que propotildee Kuramoto
312 A determinaccedilatildeo de uma estrutura para os SN
A essecircncia da proposta de Kuramoto (1995) reside na percepccedilatildeo que o autor teve de
que os SN organizam-se naturalmente numa estrutura de niacuteveis encadeados Kuramoto
percebeu nessa organizaccedilatildeo em niacuteveis um caminho para propiciar ao usuaacuterio mais facilidade
11 O analisador Palavras faz parte de um grupo de analisadores sintaacuteticos (softwares) do projeto VISL - Visual Interactive Sintax Learning do Institute of Language and Communication da University of Southern Denmark Disponiacutevel em lthttpvislsdudkvislptparsingautomaticgt (ABREU GOULART VIEIRA 2004)
30
no uso de um SRI levando tambeacutem a resultados mais precisos Para compreender a estrutura
proposta pelo autor apresenta-se a seguir o exemplo usado pelo proacuteprio Kuramoto
As Caracteriacutesticas do Meio Ambiente do Mundo dos Negoacutecios SN1 os negoacutecios SN2 o mundo dos negoacutecios SN3 o meio ambiente do mundo dos negoacutecios SN4 as caracteriacutesticas do meio ambiente do mundo dos negoacutecios
Figura 6 Exemplo da estrutura de niacuteveis de Sintagmas Nominais Fonte KURAMOTO 1995
Esse exemplo mostra o potencial da estrutura de relaccedilotildees de encadeamento de um
conjunto de SN Para o autor a anaacutelise do sintagma nominal no exemplo permitiu a extraccedilatildeo do SN ndash o meio ambiente do mundo dos negoacutecios A partir desse SN pode-se visualizar um outro SN embutido ndash o mundo dos negoacutecios ndash que por sua vez possui um quarto SN ndash os negoacutecios ndash que representa o niacutevel mais inferior12 Percebe-se nesse exemplo a existecircncia de quatro SN encadeados que enumerados em ordem crescente (do SN mais simples ao mais complexo) levam agrave classificaccedilatildeo do SN original como sendo de niacutevel 4 (KURAMOTO 1995 p04)
Com base nessas caracteriacutesticas apresentadas por Kuramoto (1995) os SN podem ser
organizados sob uma estrutura de aacutervore Esta estrutura possibilita que o Sistema de
Recuperaccedilatildeo de Informaccedilatildeo (SRI) possa atender agraves necessidades de consultas do usuaacuterio
Para atender esta demanda eacute preciso fornecer um centro de SN de seu interesse (como o
exemplo do autor ldquonegoacuteciosrdquo)
Para isso apresentam-se todos os SN1 relativos a essa busca inclusive o SN ldquoos
negoacuteciosrdquo A partir da lista encontrada de SN1 o usuaacuterio poderaacute restringir o seu perfil de
busca escolhendo um SN1 por exemplo ldquoos negoacuteciosrdquo e solicitar os SN2 relacionados a esse
SN1 O SRI apresenta todos os SN2 inclusive o SN ldquoo mundo dos negoacuteciosrdquo e assim
sucessivamente (KURAMOTO 1995)
Este autor afirma que esta passagem por vaacuterios niacuteveis promove um refinamento no
processo O processo de refinamento eacute realizado por meio da passagem pelos vaacuterios niacuteveis de uma estrutura arborescente de SN13 dado que o SN vai se tornando mais especiacutefico
12 Segundo Kuramoto (1995) os sintagmas nominais agrave medida que satildeo extraiacutedos de um outro SN satildeo classificados por niacuteveis Assim o sintagma mais simples eacute denominado SN de niacutevel 1 Constitui SN de niacutevel 2 aquele a partir do qual foi extraiacutedo o de niacutevel 1 e assim sucessivamente 13 Constatou-se empiricamente utilizando a maquete desenvolvida nesta experimentaccedilatildeo de acordo com Kuramoto (1995) que a quantidade de SN de segundo niacutevel em relaccedilatildeo a um dado SN de primeiro niacutevel pode ser maior que o total de SN de primeiro niacutevel Por exemplo a resposta agrave demanda do centro de SN ldquoinformaccedilatildeordquo foi de 122 SN de primeiro niacutevel e a resposta agrave demanda do SN de primeiro niacutevel ldquoa informaccedilatildeordquo foi de 172 SN de segundo niacutevel Por outro lado verificou-se que
31
agrave medida que se atingem os niacuteveis mais elevados da estrutura Ao percorrecirc-la o usuaacuterio estaacute na realidade delimitando ou melhor qualificando a sua necessidade de informaccedilatildeo Cabe portanto ao usuaacuterio identificar o niacutevel em que as suas necessidades de informaccedilatildeo seratildeo atendidas (KURAMOTO 1995 p 04-05)
Esta possibilidade de hierarquia permite uma interaccedilatildeo entre o usuaacuterio e maacutequina e
uma escolha individual de refinamento
313 Protoacutetipo Desenho da Interface de Busca
A Figura 7 descreve de maneira esquemaacutetica a interaccedilatildeo entre o usuaacuterio e o protoacutetipo
de Kuramoto (1995)
O protoacutetipo viabiliza a primeira interaccedilatildeo pois haacute uma tela em que permite ao
usuaacuterio fazer a sua solicitaccedilatildeo de informaccedilatildeo fornecendo uma palavra (centro de SN1) A
partir dessa palavra surgem outras interaccedilotildees como mostra o esquema de Kuramoto (1995) na
Figura 7 que ocorrem nas accedilotildees abaixo
Figura 7 Procedimentos de interaccedilatildeo usuaacuteriominusprotoacutetipo Fonte KURAMOTO 1995
o SN ldquoa informaccedilatildeordquo indexava 15 documentos na base enquanto o SN de segundo niacutevel ldquoa anaacutelise da informaccedilatildeordquo indexava apenas 1 (um) documento Confirma-se nesse exemplo que a passagem de um dado niacutevel a um superior na aacutervore de SN proporciona maior refinamento no processo de seleccedilatildeo dos documentos
32
314 Organizaccedilatildeo dos Sintagmas Nominais como Estrutura de Busca
Na proposta de Kuramoto (1995) foram desenvolvidas as seguintes estruturas de busca
Figura 8 Estrutura de dados para acessar os Sintagmas Nominais de primeiro niacutevel a partir de uma palavra Fonte KURAMOTO 1995
Kuramoto (1995) mostra na Figura 8 a associaccedilatildeo das tabelas Palavras CS-SN1 e
SN1 Cada dado tem nomes dos elementos que estatildeo sublinhados e representam as chaves de
cada tabela Na tabela Palavras observa-se que o autor agrupa todas as palavras (centro) que
representam os centros de SN1 Haacute uma atribuiccedilatildeo de coacutedigo para cada ldquocentrordquo chamado
ldquocoacutedigo crdquo A tabela CS-SN1 eacute uma tabela de associaccedilatildeo dos coacutedigos dos centros de SN1 com
os coacutedigos dos SN1 Essa figura mostra que para cada centro de SN1 existem vaacuterios SN1 A indicaccedilatildeo na seta da associaccedilatildeo da tabela Palavras com a tabela CS-SN1 define que na tabela Palavras podem existir M ocorrecircncias de um coacutedigo de centro de SN1 O mesmo pode ocorrer na tabela CS-SN1 em que esse coacutedigo pode verificar-se N vezes Essa indicaccedilatildeo traduz a ideacuteia de que para cada SN1 pode existir mais de um centro de SN1 Isto se explica pela existecircncia no contexto de um SN de palavras que satildeo tatildeo importantes quanto o centro de sintagma (KURAMOTO 1995 p 11)
Observa-se o exemplo ldquoo sistema de informaccedilatildeordquo Nesse o autor define o SN1 de
ldquosistemardquo Todavia esta natildeo eacute a uacutenica palavra fundamental pois a palavra ldquoinformaccedilatildeordquo tem
tanta importacircncia quanto o proacuteprio centro de sintagma (sistema)
Kuramoto (1995 p 11) mostra ainda que existe associaccedilatildeo entre o centro de SN1 e a
vaacuterios SN de niacutevel 1 Cada centro de SN1 pode estar associado a mais de um SN1 Essa indicaccedilatildeo eacute dada pela seta que associa a tabela SN1 agrave tabela CS-SN1 onde o nuacutemero 1 significa que na tabela SN1 existe uma soacute ocorrecircncia de um determinado coacutedigo de SN1 enquanto na tabela CS-SN1 existem M ocorrecircncias desse coacutedigo
Outro elemento de dados importante na tabela SN1 eacute chamado ldquonuacutemerordquo que
segundo Kuramoto (1995 p 11-12) ldquoindica a quantidade de artigos de onde um determinado
33
SN1 foi extraiacutedordquo O nuacutemero de referecircncias de onde o SN foi extraiacutedo aparece para cada
apresentaccedilatildeo de SN1 relacionado com um centro de SN1 escolhido pelo usuaacuterio
Kuramoto (1995) ilustra numa outra figura (Figura 9) a estrutura de dados construiacuteda
para a busca dos SN2 a partir de um SN1 selecionado pelo usuaacuterio
Figura 9 Estrutura de dados para acessar os Sintagmas Nominais de segundo niacutevel a partir de Sintagmas Nominais de primeiro niacutevel Fonte KURAMOTO 1995
Nessa ilustraccedilatildeo observa-se que se manteacutem a estrutura da Figura 8 em uma
associaccedilatildeo de tabelas que busca facilitar a busca dos SN2 a partir de um SN1 escolhido pelo
usuaacuterio Segundo Kuramoto (1995 p 12) ldquopercebe-se analogamente que um dado SN1 pode
estar associado a vaacuterios SN2 e vice-versa Isto traduz a ideacuteia de que um SN2 pode ter
embutido mais de um SN1 Essa estrutura atende agraves caracteriacutesticas dos SN listados no iniacutecio
desta seccedilatildeordquo
A busca de informaccedilotildees se manteacutem na mesma estrutura para os SN de niacutevel 3 e 4 que
satildeo semelhantes agraves Figuras acima (SN1 e SN2) com diferenccedila apenas no nome de cada
elemento que eacute correspondente ao nuacutemero dos SN
O acesso aos documentos estaacute representado na Figura 10 que exemplifica uma
escolha no SN1
Figura 10 Estrutura de dados para o acesso aos tiacutetulos e textos dos artigos Fonte KURAMOTO 1995
34
Essa estrutura foi desenvolvida para que o protoacutetipo atenda a uma demanda do
usuaacuterio viabilizando a visualizaccedilatildeo de todos os tiacutetulos e textos de documentos de onde um
SN1 foi extraiacutedo Haacute outras associaccedilotildees semelhantes a essas da Figura 17 que servem para o
acessar os documentos a partir de SN de qualquer um dos quatro niacuteveis previstos no protoacutetipo
Kuramoto (1995 p 12-13) ressalta ainda as accedilotildees do coacutedigo numeacuterico Eacute importante observar que todas as tabelas contendo os SN nos seus vaacuterios niacuteveis tecircm como chave de acesso um coacutedigo numeacuterico uacutenico de SN Para tanto construiu-se uma tabela contendo os SN onde estes satildeo identificados por meio de um coacutedigo numeacuterico Natildeo existe nenhum impedimento teacutecnico por parte do sistema Access quanto ao uso do proacuteprio texto dos SN como chave de acesso agraves informaccedilotildees Deve-se ressaltar que apesar da lentidatildeo que este tipo de chave de acesso provoca as estruturas de dados seriam mais simples e faacuteceis de manusear Contudo optou-se pela utilizaccedilatildeo das chaves numeacutericas identificando cada SN com o intuito de obter maior velocidade de acesso aos SN e agraves informaccedilotildees
Finalizando esta apresentaccedilatildeo do modelo de Kuramoto cabe destacar que a utilizaccedilatildeo
da aacutervore de SN por niacuteveis permite uma visualizaccedilatildeo mais faacutecil do conteuacutedo da base de dados
e manteacutem o que haacute de mais significativo nos documentos sua semacircntica
As estruturas de Qualia e de Heranccedila Lexical do Leacutexico Gerativo de Pustejovsky a
serem apresentadas na proacutexima seccedilatildeo permitem tambeacutem da mesma forma considerar a
semacircntica dos itens lexicais atraveacutes da criaccedilatildeo de uma malharede de relaccedilotildees de palavras e
seus significados atraveacutes dos papeacuteis que compotildeem a EQ
32 A Teoria do Leacutexico Gerativo de Pustejovsky
Pustejovsky defende a ideacuteia de que assim como a gramaacutetica tem uma estrutura
(sintaxe) a semacircntica (significado) tambeacutem tem uma estrutura baacutesica Na estrutura baacutesica da
sintaxe das liacutenguas em geral segundo Souza e Silva (1993) as oraccedilotildees satildeo compostas de
Sintagma Nominal (SN) mais Sintagma Verbal (SV) basicamente Na busca da estrutura
semacircntica Pustejovsky (1991) delineia a teoria do Leacutexico Gerativo (LG) como uma
abordagem na aacuterea da semacircntica lexical que pretende dar conta da criatividade semacircntica do
uso das palavras em contexto
Segundo Rossi (2003) Ullmann concorda com essa dificuldade do uso das palavras
em contexto quando declara que ldquonatildeo satildeo raros os casos em que ocorre uma polivalecircncia das
palavras acarretando por consequumlecircncia fenocircmenos semacircnticos inerentes agraves liacutenguas naturais
entre eles a ambiguumlidade lexicalrdquo Essa ambiguumlidade eacute provocada em decorrecircncia de fatores
35
lexicais denominados de polissemia e de homoniacutemia ou na terminologia de Weinreich
conforme Rossi (2003) de ambiguumlidade complementar e ambiguumlidade contrastiva
respectivamente
No primeiro caso trata-se da polissemia que de um modo geral conforme Moura
(2001) ldquoeacute definida como um fenocircmeno que permite associar a um mesmo item lexical mais
de um sentido os quais mantecircm alguma relaccedilatildeo semacircntica entre sirdquo Assim a palavra ldquolivrordquo
por exemplo eacute polissecircmica pois expressa ao menos dois sentidos diferentes que possuem
entre si algum tipo de laccedilo semacircntico (a) objeto fiacutesico e (b) informaccedilatildeo
Jaacute no segundo caso o da ambiguumlidade contrastiva trata-se de homoniacutemia definida
por Pustejovsky como a situaccedilatildeo na qual um item lexical eacute associado com ao menos dois
sentidos diferentes e sem relaccedilatildeo entre si Desse modo a palavra ldquomangardquo por exemplo eacute
uma palavra homocircnima pois natildeo haacute nenhuma relaccedilatildeo semacircntica evidente entre os sentidos de
ldquofrutardquo e ldquoparte da blusardquo
Segundo Rossi (2003 p 14) Ullmann salienta que ldquoeacute difiacutecil em casos particulares
determinar onde termina a polissemia e onde comeccedila a homoniacutemia uma vez que natildeo eacute faacutecil e
nem sempre possiacutevel medir intuitivamente o grau de proximidade dos significadosrdquo
A polissemia loacutegica eacute denominada por Pustejovsky (1991) para restringir a
ambiguumlidade complementar abordada anteriormente nos casos em que ocorre uma relaccedilatildeo
loacutegica portanto previsiacutevel entre os sentidos de uma palavra polissecircmica Havendo mais de um
sentido eacute importante ressaltar que pode existir sobreposiccedilatildeo desses sentidos em um mesmo
contexto
Aleacutem de ter sido tratada como polissemia loacutegica por Pustejovsky segundo Rossi
(2003) desde Weinreich esse fenocircmeno da complementaridade dos sentidos tem sido
abordado como polissemia regular e polissemia sistemaacutetica
A teoria do Leacutexico Gerativo (LG) de Pustejovsky aponta o problema da
multiplicidade de significados das palavras e enfatiza um tratamento relacionado ao problema
da polissemia das palavras Segundo Neto (2003) nessa perspectiva Pustejovsky desenvolveu
o LG que eacute um modelo de processamento de liacutengua natural que trata da explicaccedilatildeo semacircntica
de itens lexicais tanto isolados quanto em contexto
Assim como a gramaacutetica caracteriza o comportamento sintaacutetico especiacutefico de uma
certa categoria de palavras Pustejovsky propotildee uma teoria gerativa do significado da palavra
E ainda pretende mostrar que seu modelo segundo Rossi (2003 p 47) ldquoeacute contraacuterio a
36
estaticidade presente em duas concepccedilotildees semacircnticas teoacutericas das deacutecadas de 60 e 70 as
baseadas em redes conexionistas e as baseadas em primitivos fixos14rdquo
Rossi (2003 p 47) afirma que a teoria de redes conexionistas organiza a semacircntica
das palavras atraveacutes de relaccedilotildees e elos para esta autora isso ldquodificulta a representaccedilatildeo de
sentidos que exibem polissemia regular haja vista a distacircncia na rede entre os sentidos que
mantecircm relaccedilatildeo sistemaacutetica entre sirdquo Por exemplo os sentidos de ldquoobjeto fiacutesicordquo e
ldquoinformaccedilatildeordquo satildeo naturalmente distantes no entanto mantecircm entre si relaccedilatildeo sistemaacutetica no
caso de ldquolivrordquo e de outras palavras
Jaacute no segundo caso o das teorias baseadas em primitivos semacircnticos fixos o leacutexico
eacute tratado como uma lista enumerativa de sentidos Por isso mesmo tais modelos satildeo
denominados por Pustejovsky (1991) de Sense Enumeration Lexicon (SEL) - leacutexico de
enumeraccedilatildeo de sentidos O problema segundo Pustejovsky (1991) eacute que essa caracterizaccedilatildeo
dos possiacuteveis sentidos de uma palavra postulada pelo modelo SEL eacute aplicada tanto para a
ambiguumlidade contrastiva como para a polissemia loacutegica
Fica evidente segundo Rossi (2003) que Pustejovsky se opotildee aos modelos SEL pois
apesar de eles proverem uma enumeraccedilatildeo exaustiva dos sentidos de um item lexical ainda se
mostram limitados natildeo dando conta dos objetivos baacutesicos da teoria semacircntico-lexical ou seja
o uso criativo de palavras a permeabilidade dos significados e as muacuteltiplas formas sintaacuteticas
das expressotildees
O objetivo principal do LG segundo Pustejovsky (1991) eacute prover uma descriccedilatildeo
formal da liacutengua que seja expressiva e flexiacutevel o suficiente para apreender a natureza gerativa
da criatividade lexical e extensatildeo de sentido Caracteriza assim o LG como um sistema
semacircntico de perspectiva loacutegica que envolve quatro niacuteveis de representaccedilatildeo um sistema de
tipos semacircnticos e trecircs tipos de mecanismos gerativos
No decorrer deste capiacutetulo seratildeo especificadas as noccedilotildees teoacutericas baacutesicas do modelo
gerativo de Pustejovsky que estruturam o leacutexico em quatro niacuteveis de representaccedilatildeo
(argumentos eventos qualia e heranccedila) sobre os quais atuam dispositivos gerativos (a
coerccedilatildeo de tipo a co-composiccedilatildeo e a ligaccedilatildeo seletiva)
321 Estruturas do Leacutexico Gerativo
14 Conforme Pustejovsky (1995) a teoria de primitivos fixos eacute defendida por autores como Lakoff (1971) Wilks (1975) Schank (1975) Katz (1977) Jaacute a teoria de redes conexionistas eacute defendida por Carnap (1956) Collins e Quillian (1969) Fodor (1975) Brachman (1979)
37
Para capturar o significado lexical estudou-se as estruturas de Pustejovsky (1991)
que propotildee quatro niacuteveis de representaccedilatildeo estrutura de argumento estrutura de evento
estrutura de qualia e estrutura de heranccedila lexical descritos abaixo
3211 Estrutura de Argumento
Para Pustejovsky (1991) essa estrutura eacute uma especificaccedilatildeo miacutenima que agrupa os
itens lexicais em quatro argumentos
bull verdadeiros ndash paracircmetros do item lexical que tecircm a necessidade de serem expressos
sintaticamente Ex Marta morou em Paris
bull apagados ndash paracircmetros que natildeo tecircm necessidade de serem realizados sintaticamente satildeo
argumentos opcionais Ex Joana coseu uma saia sem linha
bull sombreados ndash paracircmetros que jaacute estatildeo semanticamente presentes no item lexical e soacute
devem ser expressos atraveacutes de operaccedilotildees de subtipo ou especificaccedilatildeo de discurso Ex
Paulo salgou a carne com sal grosso
bull adjuntos verdadeiros ndash paracircmetros que mesmo sendo parte da interpretaccedilatildeo situacional
modificam uma expressatildeo loacutegica sem contudo estarem ligados agrave representaccedilatildeo
semacircntica de algum item lexical especiacutefico Esses paracircmetros introduzem expressotildees
adjuntivas de modificaccedilatildeo temporal ou espacial Ex David dormiu cedo
3212 Estrutura de Evento
Essa estrutura para Pustejovsky (1991) refere-se a organizaccedilatildeo de um conjunto de eventos
no que tange agrave ordenaccedilatildeo temporal de seus subeventos e a designaccedilatildeo de qual deles seraacute
considerado o principal em relaccedilatildeo ao evento matriz
bull Evento de estado ndash aquele cujo(s) argumento(s) natildeo sofre(m) alteraccedilatildeo durante o
intervalo temporal do evento Ex Kaacutetia mora em Florianoacutepolis
bull Evento de processo ndash aquele cujo(s) argumento(s) sofre(m) alteraccedilatildeo de estado ou
indica(m) o iniacutecio de alguma atividade sem uma culminaccedilatildeo precisa Ex Heloisa canta
bem
bull Evento de transiccedilatildeo - aquele cujo(s) argumento(s) sofre(m) alguma accedilatildeo de
temporalidade determinada e resulta(m) em um estado diferente do inicial Ex Tereza fez
uma boneca
38
A estrutura a seguir apresenta os atributos semacircnticos essenciais dos itens lexicais
(como por exemplo a categoria a composiccedilatildeo a funccedilatildeo e a origem) atraveacutes dos papeacuteis
formal constitutivo teacutelico e agentivo Eacute a estrutura principal responsaacutevel pela explicaccedilatildeo da
polissemia loacutegica abordada no texto (Pustejovsky 1991)
3213 Estrutura de Qualia
Devido a sua proximidade com o SN visto que trabalha por conceitos (nomes) esta
estrutura foi utilizada no desenvolvimento do modelo proposto pela pesquisa Trata de um
conjunto formado por quatro qualia que visam guiar o processo de entendimento a respeito de
um objeto ou uma relaccedilatildeo no mundo dando por consequumlecircncia um modo de especificar a
denotaccedilatildeo de tal objeto ou relaccedilatildeo Eacute dividida em quatro papeacuteis os quais satildeo descritos na
sequumlecircncia
a) Quale formal - faz a distinccedilatildeo de determinado item dentro de um domiacutenio maior levando
em consideraccedilatildeo sua
bull orientaccedilatildeo
bull magnitude
bull forma
bull dimensatildeo
bull cor
bull posiccedilatildeo
b) Quale constitutivo - estabelece a relaccedilatildeo entre um objeto e suas partes constituintes ou
proacuteprias a partir das propriedades
bull material
bull peso
bull partes e elementos componentes
Aleacutem disso o quale constitutivo informa tambeacutem de que classe um item eacute parte caso
haja tal relaccedilatildeo ou seja ele informa tanto uma relaccedilatildeo de hiperoniacutemia15 quanto de
meroniacutemia16
15 Hiperoniacutemia ocorre quando o significado de um lexema (palavra) abrange o significado de outro lexema O significado de um eacute mais geneacuterico que o significado de outro Por exemplo ldquoaeronaverdquo eacute um hiperocircnimo de ldquoteco-tecordquo
39
Estas relaccedilotildees satildeo utilizadas na modelagem do protoacutetipo de Gonzalez (2005) Este
protoacutetipo foi pesquisado e apreendido como parte integrante da proposta desta dissertaccedilatildeo e
seraacute descrito na seccedilatildeo 33 do capiacutetulo 3
c) Quale teacutelico - explicita a finalidade e a funccedilatildeo de um objeto
bull Propoacutesito de um agente ao realizar um ato
bull Funccedilatildeo interna ou objetivo que descreve certas atividades
d) Quale agentivo - determina os fatores envolvidos na origem ou causa de um objeto
partindo de consideraccedilotildees sobre
bull criador
bull artefato
bull tipo natural
bull cadeia causal
Figura 11 Representaccedilatildeo da matriz de um item lexical Fonte ROSSI 2003
Figura 12 Matriz superficial da Estrutura de Qualia do item lexical ldquolivrordquo Fonte ROSSI 2003
16 Meroniacutemia ocorre quando o significado de um lexema (palavra) faz parte ou eacute uma porccedilatildeo do significado de outro lexema Por exemplo as palavras ldquocapardquo e ldquofolhasrdquo satildeo merocircnimos de ldquolivrordquo
40
Eacute importante salientar que segundo Neto (2003a) a Estrutura de Qualia natildeo deve ser
considerada apenas como uma lista de fatos interessantes sobre um item lexical e sim como
um conjunto de propriedades que leva a uma explicaccedilatildeo mais clara de tal item
Isto equivale dizer que o objetivo da Estrutura de Qualia eacute abarcar o significado de
uma palavra e explicitar como se relaciona com o uso da liacutengua Assim essa estrutura salienta
a explicaccedilatildeo do uso da criatividade linguumliacutestica contextual natildeo como uma estrutura isolada
mas em conjunto com os mecanismos gerativos que seratildeo apresentados mais adiante
Seguem alguns exemplos da Estrutura de Qualia
Figura 13 Exemplo da Estrutura de Qualia do item lexical ldquoromancerdquo Fonte PUSTEJOVSKY 1991
Figura 14 Exemplo da Estrutura de Qualia do item lexical ldquodicionaacuteriordquo Fonte PUSTEJOVSKY 1991
3214 Estrutura de Heranccedila Lexical
Esta estrutura tambeacutem eacute de fundamental importacircncia porque nesta ocorre a relaccedilatildeo das
qualias ou seja satildeo estruturas lexicais que podem se organizar com outras estruturas em uma
grade de tipo e assim ajudar na organizaccedilatildeo geral do leacutexico Por exemplo na figura abaixo o
LG relaciona ldquodicionaacuteriordquo ldquolivrordquo e ldquopeccedilardquo atraveacutes de suas estruturas de qualia em que se
observa que os trecircs itens lexicais satildeo diferentes entre si no entanto mantecircm relaccedilotildees
semacircnticas
41
Figura 15 Exemplo do LG relacionando ldquodicionaacuteriordquo ldquolivrordquo e peccedila atraveacutes de suas EQ Fonte NETO 2003a
322 Sistema de Tipos Semacircnticos
Um sistema de tipos semacircnticos analisa o comportamento polissecircmico e loacutegico de
nomes implicitamente relacionais como por exemplo porta janela Pustejovsky mostra como
o leacutexico gerativo faz uso de estruturas de aspectos tiacutepicos e afirma que esses nomes tecircm dois
sentidos relacionais (ldquoobjeto fiacutesicordquo e ldquoaberturardquo) que satildeo logicamente parte do significado do
nome Essa habilidade que um item lexical tem de agrupar vaacuterios sentidos eacute chamada
ldquoparadigma leacutexico-conceptual (plc ou lcp)rdquo O plc eacute como um construtor de tipo por exemplo
em palavras como ldquoportardquo e1 significa objeto_fiacutesico e2 abertura e o tipo resultante eacute
ldquoobjeto_fiacutesicoabertura_plc = objeto_fiacutesicoabertura objeto_fiacutesicoaberturardquo
Figura 16 Exemplo de polissemia loacutegica na representaccedilatildeo matricial da palavra ldquolivrordquo Fonte ROSSI 2003
42
Figura 17 Exemplo de polissemia loacutegica na representaccedilatildeo matricial da palavra ldquojornalrdquo Fonte ROSSI 2003
322 Mecanismos gerativos
O Leacutexico Gerativo apresenta ainda um conjunto de trecircs mecanismos que fazem uso
das estruturas ldquoeventordquo ldquoargumentordquo e ldquoqualiardquo os quais satildeo ditos gerativos pois relacionam
diferentes itens lexicais possibilitando a interpretaccedilatildeo composicional de palavras em contexto
3221 Coerccedilatildeo de tipo
Autoriza a mudanccedila de tipo e por extensatildeo de denotaccedilatildeo de nomes e expressotildees de
acordo com o contexto a que pertencem A coerccedilatildeo de tipo reconstroacutei a semacircntica do
complemento e soacute teraacute sucesso se o item lexical em questatildeo tiver um atalho para o tipo
desejado O exemplo claacutessico dado por Pustejovsky eacute ldquoJoatildeo comeccedilou um livrordquo em que o
predicado comeccedilar requer um tipo diferente do apresentado por livro ou seja o verbo requer
um complemento do tipo ldquoeventordquo que natildeo eacute satisfeito por ldquolivrordquo O termo ldquocomeccedilar um
livrordquo eacute interpretado como comeccedilar a ler (ou escrever) um livro
3222 Ligaccedilatildeo seletiva
Rege a relaccedilatildeo semacircntica que um modificador tem com o seu nuacutecleo ou seja ela
trata do problema da polissemia adjetival uma vez que os adjetivos satildeo interpretados a partir
da semacircntica do nuacutecleo Exemplos
(1) Um passeio raacutepido
(2) Um motorista raacutepido
43
(3) Um digitador raacutepido
(4) Um computador raacutepido
O primeiro problema estaacute claramente exemplificado com (1) em oposiccedilatildeo a (2) (3) e
(4) ou seja o primeiro trata de uma adjetivaccedilatildeo sobre um evento e os demais de uma
adjetivaccedilatildeo sobre indiviacuteduos Jaacute para o segundo problema diz-se que a interpretaccedilatildeo do
adjetivo vai ser selecionada por algum dos qualia do nuacutecleo do sintagma nominal ou seja
pela ligaccedilatildeo seletiva Esse mecanismo vai buscar a interpretaccedilatildeo de raacutepido para os exemplos
acima no quale teacutelico dos nuacutecleos
3223 Co-composiccedilatildeo
Os itens lexicais componentes de um determinado sintagma influenciam-se
mutuamente e um complemento pode adicionar um sentido ao seu nuacutecleo Pustejovsky
comeccedila exemplificando esse mecanismo com a polissemia de verbos como o ldquoassarrdquo que
apresenta dois sentidos uma mudanccedila de estado e outra de criaccedilatildeo do objeto Os exemplos
claacutessicos satildeo
(a) Letiacutecia assou as batatas
(b) Letiacutecia assou o bolo
Observa-se que em (1) houve apenas uma mudanccedila de estado pois as batatas jaacute
existiam antes de serem assadas em (2) um sentido de criaccedilatildeo de objeto eacute atribuiacutedo ao verbo
uma vez que antes da assadura o bolo natildeo existia Contudo Pustejovsky (1991) afirma que
ordinariamente soacute haacute um sentido para ldquoassarrdquo o de mudanccedila de estado pois tal verbo tem seu
tipo de evento modificado devido a informaccedilotildees que satildeo trazidas pelo complemento ou seja
essas leituras soacute satildeo possiacuteveis a partir de mecanismo de co-composiccedilatildeo em que os
complementos co-especificam o verbo
Por buscar formalizar a estrutura semacircntica de uma liacutengua o trabalho de Pustejovsky
eacute de grande importacircncia para a aacuterea de recuperaccedilatildeo de informaccedilatildeo Uma tentativa de
implementaccedilatildeo computacional da sua teoria foi realizada por Abrahatildeo (1997) envolvendo a
modelagem e a implementaccedilatildeo de um leacutexico semacircntico para a Liacutengua Portuguesa
Inicialmente este autor realizou um estudo de conceitos baacutesicos relacionados agrave semacircntica
Durante a sua pesquisa foram apresentadas teacutecnicas de representaccedilatildeo do conhecimento e do
significado que auxiliaram a seleccedilatildeo e o entendimento do modelo proposto por Pustejovsky
44
Como subsiacutedio para a implementaccedilatildeo de um leacutexico semacircntico para o portuguecircs
Abrahatildeo (1997) fez um estudo aprofundado da teoria de Pustejovsky onde salienta que os
problemas mais comuns agrave representaccedilatildeo do significado das palavras como ldquoambiguumlidade
lexical polissecircmicardquo por exemplo satildeo solucionados de forma eficiente e computacional
Como o modelo de Pustejovsky eacute voltado ao Inglecircs foram encontradas semelhanccedilas e
diferenccedilas entre a liacutengua origem do modelo e o Portuguecircs Variaccedilotildees verbais - facilita o mapeamento direto os verbos satildeo inseridos numa forma canocircnica (baacutesica ou infinitiva) no leacutexico variaccedilotildees de grau nos substantivos como alternativa de soluccedilatildeo satildeo armazenados em uma forma canocircnica palavras que se comportam como verbo e substantivo palavras que se comportam como adjetivo e substantivo tambeacutem satildeo mapeadas atraveacutes do uso da estrutura de lcps de Pustejovsky mapeamento de expressotildees - expressotildees devem ser inseridas no leacutexico pois expressam um significado especiacutefico substantivos compostos por mais de uma palavra acentuaccedilatildeo ndash itens lexicais do Inglecircs natildeo apresentam acentos Esta caracteriacutestica do Portuguecircs deve ser inserida no leacutexico pois diferencia o significado de suas palavras Deste modo esta informaccedilatildeo foi atribuiacuteda aos registros de informaccedilotildees semacircnticas atraveacutes de uma variaacutevel que conteacutem o tipo e a posiccedilatildeo na palavra em que o acento aparece (ABRAHAtildeO 1997 pgs 78-80)
Abrahatildeo (1997) construiu sua implementaccedilatildeo do leacutexico sobre uma estrutura em
aacutervore Trie17 que proporciona um maior poder de representaccedilatildeo na busca de informaccedilotildees e
baixa quantidade de dados armazenados As informaccedilotildees semacircnticas associadas aos itens
lexicais satildeo armazenadas em listas encadeadas a partir de uma estrutura denominada de
Descritor Semacircntico Um item lexical pertence ao leacutexico semacircntico se este item possui um
Descritor Semacircntico associado ao seu uacuteltimo caractere na aacutervore E ainda um Descritor
Semacircntico abrange os ponteiros essenciais para a busca das informaccedilotildees semacircnticas relativas
ao item lexical
De acordo com este autor as informaccedilotildees semacircnticas associadas aos itens lexicais
seguem o modelo de Pustejovsky (1991) sendo dividida em trecircs estruturas baacutesicas de
argumentos de eventos e de Qualia As estruturas de argumentos e de eventos satildeo
implementadas atraveacutes de uma lista de argumentos e uma lista de eventos A estrutura de
Qualia eacute composta de quatro listas de informaccedilotildees uma para cada papel (formal constitutivo
teacutelico e agentivo)
Segundo este autor todas as estruturas do leacutexico semacircntico foram desenvolvidas em
vetores A manipulaccedilatildeo destes vetores daacute-se sobre estruturas denominadas cabeccedilalhos Estes
cabeccedilalhos fornecem informaccedilotildees sobre a alocaccedilatildeo de vetores em memoacuteria ponteiros para os
vetores de informaccedilatildeo tamanhos dos vetores e os arquivos associados ao sistema O nuacutecleo de
17 Segundo Abrahatildeo (1997) ldquoeacute um tipo especial de estrutura onde cada caractere dos itens lexicais determina um nodo da aacutervorerdquo
45
dados do sistema eacute constituiacutedo de dois cabeccedilalhos cabeccedilalho da aacutervore Trie e o cabeccedilalho das
informaccedilotildees semacircnticas
A biblioteca de funccedilotildees conteacutem os procedimentos necessaacuterios para manutenccedilatildeo do
banco de dados lexical bem como procedimentos de busca de informaccedilotildees semacircnticas
Juntamente com a biblioteca uma interface graacutefica foi construiacuteda possibilitando a manutenccedilatildeo
do banco de dados e facilitando a visualizaccedilatildeo da semacircntica dos itens lexicais Esta interface
graacutefica eacute implementada na linguagem de programaccedilatildeo em C para as estaccedilotildees de trabalho SUN
sobre o sistema de janelas XVIEW18 (ABRAHAtildeO 1997)
Esta seccedilatildeo mostrou a importacircncia da teoria de Pustejovsky e suas possibilidades O
LG eacute fundamental para compreensatildeo semacircntica pois considera o contexto da palavra sendo
capaz de estruturar um domiacutenio especiacutefico atraveacutes da EQ e tambeacutem de identificar dentro de
um domiacutenio quando determinada palavra aparece em tal contexto Pelo desenvolvimento do
trabalho de Abrahatildeo pode-se perceber a dimensatildeo e os elementos necessaacuterios para o
significado de uma palavra reforccedilando-se assim o valor e a viabilidade da teoria de
Pustejovsky
A proacutexima seccedilatildeo apresenta o trabalho de Gonzalez (2005) que estudou Pustejovsky19
e posteriormente desenvolveu sua proacutepria concepccedilatildeo de uma estrutura de RI (toda
automatizada)
33 O Modelo TR+ de Gonzalez
O modelo TR+ eacute considerado um modelo para RI que utiliza duas fases para o
desenvolvimento de sua estrutura fase de indexaccedilatildeo e fase de busca
18 XVIEW ldquoeacute um sistema de janela orientado a objeto que permite ao programador criar e utilizar objetos tais como janelas textos paineacuteis iacutecones entre outros para construir uma aplicaccedilatildeo Seus objetos satildeo predefinidos e satildeo ricos em funcionalidade o que permite que o coacutedigo necessaacuterio para manipular essas janelas seja pequeno simples e muito faacutecil de se compreenderrdquo (ABRAHAtildeO 1997 p 86) 19 Realizou um trabalho individual no doutorado denominado ldquoO Leacutexico Gerativo de Pustejovsky sob o enfoque da Recuperaccedilatildeo de Informaccedilotildeesrdquo de 2000a
46
Indexaccedilatildeo de textos segundo Baeza-Yates e Ribeiro-Neto (1999) e Gonzalez (2005)
eacute o processo que estipula descritores20 dos conteuacutedos dos textos de uma coleccedilatildeo de
documentos com objetivo de busca e classificaccedilatildeo dos mesmos para atender consultas em
sistemas de RI Descritores podem descrever conceitos atocircmicos sendo lsquotermosrsquo ou conceitos
complexos sendo lsquorelacionamentosrsquo O conjunto de descritores concebido na indexaccedilatildeo
favorece uma visatildeo loacutegica dos documentos com o propoacutesito de unir esses descritores termos
e relacionamentos a conceitos presentes nos textos dos documentos
Para os relacionamentos este autor classifica trecircs tipos explicando-os atraveacutes do
exemplo ldquo tecircm preocupado os pesquisadoresrdquo O primeiro tipo eacute o par modificado-
modificador como lsquopesquisador-preocupadorsquo O segundo eacute o bigrama (preocupado
pesquisador) e o terceiro eacute o Sintagma Nominal que para ele significa lsquopesquisador
preocupadorsquo e que para a pesquisa de Gonzalez ficaria na sua forma natural lsquopreocupado os
pesquisadoresrsquo O autor ainda cita que haacute outros formatos de relacionamentos como a
expressatildeo ternaacuteria (preocupaccedilatildeo-de-pesquisador) e a relaccedilatildeo binaacuteria
(preocupaccedilatildeopesquisador)
Gonzalez (2005) aponta dois tipos de relacionamentos como problemas os bigramas
por natildeo poderem descrever o conceito (ldquoferro sopardquo para ldquopanela de ferro com sopardquo) e os
termos com palavras comuns mas coadjuvantes importantes (ldquosentar bancordquo e ldquodepositar
bancordquo) os sintagmas nominais que para o autor representam tanto o conceito atocircmico quanto
o complexo (ldquonoiterdquo e ldquoboca da noiterdquo) Eacute importante perceber que a partir dessas
caracteriacutesticas e aspectos acima definidos Gonzalez (2005) propocircs um novo modelo de
espaccedilo de descritores (uniatildeo do conjunto de termos com o conjunto de relacionamentos) Este
novo modelo surgiu a partir de outros cinco modelos de descritores jaacute existentes
1 Unigrama conjunto de termos natildeo relacionados
2 N-grama (NG) conjunto de relacionamentos estatiacutesticos
3 Termo-Termo (TT) conjunto de termos relacionados estatiacutestica ou
sintaticamente
4 Termo-Relacionamento (TR) conjunto de termos e relacionamentos sintaacuteticos
20 A palavra descritores eacute usada para se tratar dos termos e relacionamentos enquanto os iacutendices se referem apenas aos termos O descritor lsquotermorsquo significa uma unidade lexical formada por uma uacutenica palavra ou por mais de uma denominada de lsquotermo compostorsquo E o descritor lsquorelacionamentorsquo ocorre entre termos ou seja satildeo relaccedilotildees de construccedilotildees sintaticamente diferentes que tecircm o mesmo significado (semacircntica) Exemplo lsquodefesa eficientersquo eacute igual a lsquodefender eficientementersquo e lsquofeira de domingorsquo eacute igual a lsquofeira dominicalrsquo Alguns autores como Baeza-Yates e Ribeiro-Neto (1999) utilizam a palavra lsquoiacutendicersquo ao inveacutes de descritores contudo Gonzalez ressalta que esta palavra refere-se apenas aos lsquotermosrsquo natildeo dando conta da semacircntica que envolve os lsquorelacionamentosrsquo
47
5 Relacionamento-Termo (RT) conjunto de relacionamentos sintaacuteticos e seus
componentes ldquoOs Sintagmas Nominais constituem os principais descritores neste
casordquo (GONZALEZ 2005 p41)
O modelo TR+ proposto por este autor combina aspectos dos modelos TR e RT
A Figura 18 daacute uma visatildeo geral do modelo TR+ de Gonzalez (2005) na fase de
indexaccedilatildeo com suas etapas essenciais e na fase de busca para a classificaccedilatildeo por relevacircncia
dos documentos em relaccedilatildeo agrave consulta
g
f
e
da a
b b
c
Figura 18 Visatildeo Geral do modelo TR+ Fonte Gonzalez 2005
O espaccedilo de descritores do modelo TR+ construiacutedo na fase de indexaccedilatildeo eacute com
de quatro processos principais
a) Preacute-processamento (toquenizaccedilatildeo e etiquetagem)
b) Nominalizaccedilatildeo
c) Captura de RLBs
d) Termos e RLBs
Na etapa ldquoardquo de preacute-processamento ocorrem duas accedilotildees fundamentais Toquen
e Etiquetagem A toquenizaccedilatildeo eacute a identificaccedilatildeo de cada item lexical (palavra e pontu
Na etiquetagem existe um etiquetador gramatical (part-of-speech tagger - parser
identifica atraveacutes de uma etiqueta (tag) a categoria gramatical de cada palavra do
(adjetivo substantivo verbo entre outras) Geralmente eacute morfoloacutegico (identifica som
c
posto
izaccedilatildeo
accedilatildeo)
) que
texto
ente a
48
categoria morfoloacutegica) ou morfossintaacutetico (identifica tambeacutem as funccedilotildees sintaacuteticas) Estes
processos satildeo realizados de forma automatizada21
Antes da nominalizaccedilatildeo eacute realizada a geraccedilatildeo de espaccedilo dos descritores que se
constitui na seleccedilatildeo e normalizaccedilatildeo dos descritores e ainda a contagem de frequumlecircncia de
ocorrecircncia dos descritores - termos (para o caacutelculo de seus pesos) que seraacute usada na etapa
ldquodrdquo
Faz parte do processo de seleccedilatildeo de descritores a eliminaccedilatildeo de stopwords22 que
podem ser descartadas na fase de indexaccedilatildeo e na consulta Essa exclusatildeo justifica-se segundo
o autor porque as stopwords satildeo consideradas palavras com pouca representatividade A
seleccedilatildeo dos descritores a quantidade dos mesmos e o peso de cada um podem ser afetados
pela normalizaccedilatildeo linguumliacutestica
A normalizaccedilatildeo segundo Gonzalez (2005) apresenta trecircs tipos conhecidos como
bull Sintaacutetica - que transforma frases semanticamente equivalentes mas
sintaticamente diferentes (ldquoeficiente processo raacutepidordquo e ldquoprocesso raacutepido
eficienterdquo)
bull Leacutexico-semacircntico ndash que utiliza relacionamentos semacircnticos (como a sinoniacutemia)
para substituir palavras morfologicamente distintas por uma uacutenica forma que
representa o conceito evidenciado
bull Morfoloacutegica ndash reduz as formas flexionais de uma palavra por meio da
conflaccedilatildeo23
No modelo TR+ foi utilizada a normalizaccedilatildeo lexical para o processo de
nominalizaccedilatildeo Este processo de nominalizaccedilatildeo constitui a etapa ldquobrdquo e significa a
transformaccedilatildeo de uma palavra (adveacuterbio adjetivo ou verbo) existente no texto em um
substantivo semanticamente equivalente constituiacutedo com regras vaacutelidas de formaccedilatildeo de
palavras (GONZALEZ 2005)
A tabela abaixo mostra exemplos de termos nominalizados Nesta etapa de
nominalizaccedilatildeo eacute utilizada a ferramenta CHAMA24
21 A ferramenta FORMA (Toquenizaccedilatildeo e Etiquetagem Morfoloacutegica) foi utilizada por Gonzalez O autor cita o nome desta ferramenta no seu site httpwwwinfpucrsbr~gonzaleztr+ Acesso em 14 de fevereiro de 2006 22 Stopwords satildeo palavras como preposiccedilotildees artigos e conjunccedilotildees 23 Conflaccedilatildeo satildeo processos realizados por algoritmos que combinam a representaccedilatildeo de duas ou mais palavras em um uacutenico termo Haacute dois meacutetodos mais comuns stemming que reduz a palavra para a parte fundamental semelhante ao radical e lematizaccedilatildeo que reduz a palavra variaacutevel agrave correspondente forma ldquocanocircnicardquo 24 A ferramenta CHAMA (nominalizaccedilatildeo de adjetivos verbos e adveacuterbios) foi desenvolvida por Marco Antonio Insaurriaga Gonzalez (doutor em Ciecircncia da Computaccedilatildeo pela UFRGS) Em sua tese de doutorado intitulada ldquoTermos e Relacionamentos em Evidecircncia na Recuperaccedilatildeo de Informaccedilatildeordquo 2005
49
Tabela 1 Exemplos de nominalizaccedilatildeo Fonte Gonzalez 2005
Devido agraves diferentes variaccedilotildees que a nossa Liacutengua Portuguesa apresenta este autor
trabalha em seu modelo com palavras sem acentuaccedilatildeo e em letras minuacutesculas ocorrendo um
comprometimento do significado das palavras como por exemplo eacute citado por ele puacuteblica e
publica
A etapa ldquocrdquo de captura de Relaccedilotildees Lexicais Binaacuterias (RLBs) eacute segundo Gonzalez
(2005) o relacionamento entre termos nominalizados ou seja sintaticamente diferentes mas
semanticamente iguais25 Uma RLB pode ser classificada tambeacutem quanto agrave nominalizaccedilatildeo de
seus componentes Este autor sistematiza e classifica esta questatildeo conforme aparece em seus
exemplos abaixo (2005 p 47)
bull Original onde o termo natildeo recebeu o processo de nominalizaccedilatildeo
bull Derivada onde um dos termos pelo menos resulta do processo de
nominalizaccedilatildeo
Uma RLB de acordo com Gonzalez (2005) apresenta a seguinte aparecircncia
25 Gonzalez desenvolveu o software RELLEX para o reconhecimento de relaccedilotildees lexicais binaacuterias em sua tese de doutorado 2005
50
id (t1t2) onde
id significa o identificador de relaccedilatildeo e
t1 e t2 satildeo os termos nominalizados
Este autor aponta os trecircs tipos de RLBs quanto ao identificador id
bull Classificaccedilatildeo onde id eacute especificado com um sinal de igual (=) t1 representa
uma subclasse ou uma instacircncia de t2 e t2 representa uma classe
Exemplos =(caoanimal)
=(PET garrafa) Exemplo desenvolvido nesta dissertaccedilatildeo
bull Restriccedilatildeo onde id eacute uma preposiccedilatildeo t1 representa um elemento modificado e t2
representa um elemento modificador
Exemplos de(equipeatletismo)
com(supervisorexperiencia)
por(orientacaoministro)
bull Associaccedilatildeo onde id representa um evento t1 eacute um sujeito e t2 eacute um objeto
(direto ou indireto) ou um adjunto
Exemplos superacao(alunodificuldade)
interessea(propostanegociante)
moradiaem(presidentebrasilia)
As Relaccedilotildees Lexicais Binaacuterias conforme Gonzalez (2005) satildeo inseridas no espaccedilo
de descritores para ampliar o seu universo As RLBs descrevem relaccedilotildees semacircnticas lexicais
como as que satildeo apresentadas na estrutura de Qualia da teoria do Leacutexico Gerativo de
Pustejovsky (GONZALEZ 2000 PUSTEJOVSKY 1991) O estudo desta teoria motivou o
Gonzalez a desenvolver a proposta das RLBs como parte integrante de seu trabalho como um
modo de adequaacute-la a aplicaccedilotildees na aacuterea de RI
Como jaacute foi descrita na seccedilatildeo 32 a Estrutura de Qualia da teoria do Leacutexico
Gerativo descreve um item lexical atraveacutes de quatro papeacuteis formal constitutivo agentivo e
teacutelico O papel formal distingue um item lexical em um domiacutenio maior Em uma RLB
segundo Gonzalez (2005) do tipo classificaccedilatildeo como ldquo=(computadormaquina)rdquo por
exemplo o computador seria distinguido como uma maacutequina ou em ldquo=(ipmftributo)rdquo o ipmf
seria um tributo Portanto a RLB do tipo classificaccedilatildeo corresponde ao papel formal da
estrutura de Qualia
51
O papel constitutivo estabelece a relaccedilatildeo entre um item lexical X e suas partes
constituintes Em uma RLB do tipo restriccedilatildeo como ldquode(mesamadeira)rdquo por exemplo haveria
a indicaccedilatildeo de que a mesa eacute feita de madeira ou em ldquocom(massaalho)rdquo de que haacute alho na
massa O papel agentivo especifica os fatores envolvidos na origem ou causa de um item
lexical Em uma RLB para este autor do tipo restriccedilatildeo como ldquopor(publicacaoautor)rdquo por
exemplo seria especificado que a publicaccedilatildeo se deve ao autor ou em ldquopor(impedimentolei)rdquo
que a lei eacute a razatildeo do impedimento
O papel teacutelico explica qual a funccedilatildeo ou finalidade do item lexical Em uma RLB do
tipo associaccedilatildeo como ldquoconserto(encanadorvazamento)rdquo por exemplo explica que a funccedilatildeo
do encanador eacute o conserto do vazamento ou em uma RLB do tipo restriccedilatildeo como
ldquopara(leituraaprendizado)rdquo que a finalidade da leitura eacute o aprendizado (GONZALEZ 2005)
Este autor salienta que natildeo se quer que as RLBs ldquointerpretemrdquo o texto com
distinccedilotildees indicaccedilotildees especificaccedilotildees ou explicaccedilotildees dos tipos apresentados O propoacutesito eacute de
que as RLBs sejam descritores de tais fatos mas sem classificaccedilatildeo (etiquetas) Por isto os
identificadores de relaccedilatildeo natildeo satildeo rotulados com os papeacuteis descritos A uacutenica exceccedilatildeo eacute o
identificador das RLBs do tipo classificaccedilatildeo O indicador ldquo=rdquo eacute o roacutetulo inevitaacutevel para o
claacutessico ldquoeacute umrdquo porque natildeo haacute outro papel possiacutevel nesse tipo de relaccedilatildeo
No modelo TR+ estaacute envolvido aleacutem da coleccedilatildeo de documentos constituiacuteda por
descritores (termos e relacionamentos) tambeacutem os seus respectivos pesos que dependem de
uma formulaccedilatildeo matemaacutetica denominada de lsquocaacutelculo de representatividadersquo dos descritores
em cada documento que eacute um diferencial deste modelo e estaacute na fase ldquodrdquo onde os termos e
RLBs seratildeo armazenados
Para ocorrer o caacutelculo do peso dos descritores eacute aplicado o conceito de evidecircncia26
Este conceito natildeo depende apenas da frequumlecircncia de ocorrecircncia de um descritor mas de um
outro mecanismo ldquoa representatividade de um descritor depende aleacutem de sua frequumlecircncia de
ocorrecircncia no texto da ocorrecircncia de mecanismos de coesatildeo fraacutesicardquo (GONZALEZ 2005
p48) A coesatildeo fraacutesica determina uma junccedilatildeo significativa entre os componentes de uma
frase27 Esta junccedilatildeo aliada com a frequumlecircncia de ocorrecircncia constitui o conceito de evidecircncia
como um dos aspectos essenciais da Tese de Gonzalez (2005)
A evidecircncia dos termos eacute realizada de forma direta com a frequumlecircncia e a coesatildeo
fraacutesica mas a evidecircncia de um relacionamento natildeo pois esta eacute dependente primeiramente das
26 Evidecircncia significa qualidade daquilo que eacute evidente que eacute incontestaacutevel que todos vecircem ou podem ver e verificar (Dicionaacuterio Eletrocircnico Michaelis) Como descreve Gonzalez (2005) ldquoeacute aquilo natildeo oferece ou natildeo daacute margem agrave duacutevidardquo 27 Site httpacdufrjbr~peadtema09coesaogramaticalhtml
52
evidecircncias de seus termos Este conceito estaacute inserido no caacutelculo de representatividade de um
descritor
O caacutelculo da representatividade eacute um caacutelculo de relevacircncia do termo ou
relacionamento que varia de acordo com as abordagens (booleana vetorial e probabiliacutestica) e
pode ser realizado apenas com a frequumlecircncia da palavra no documento ou ainda com a
frequumlecircncia vinculada com a sua informaccedilatildeo morfoloacutegica ou sintaacutetica (GONZALEZ 2005)
Para realizar o caacutelculo da representatividade dos descritores haacute duas estrateacutegias de
determinaccedilatildeo que satildeo os modelos com unigramas que tratam os termos de forma
independente (abordagens vetorial e probabiliacutestica) e os modelos com dependecircncia entre
termos Estas dependecircncias envolvem conjuntos diferentes de conhecimentos que satildeo os
estatiacutesticos e os linguumliacutesticos28 Os conhecimentos linguumliacutesticos satildeo ldquoleacutexico morfoloacutegico
fonoloacutegico sintaacutetico semacircntico e pragmaacuteticordquo (ABRAHAtildeO 1997 p11)
Estes dois modelos descritos acima satildeo apresentados como mais significativos
poreacutem ainda utilizam a abordagem booleana Isto porque Gonzalez (2005) define como o
caminho mais promissor a combinaccedilatildeo da abordagem booleana (individualmente limitadora)
com a uniatildeo dos conhecimentos estatiacutesticos e linguumliacutesticos entre si que permitem mais
interaccedilatildeo com o usuaacuterio
O caacutelculo da representatividade ao mesmo tempo que eacute uma propriedade baacutesica de
um descritor apresenta diferentes formas de acordo com as abordagens vetorial e
probabiliacutestica (capiacutetulo 2) e gera diversas interpretaccedilotildees Por isto Gonzalez (2005) propotildee um
novo caacutelculo que compreenda a importacircncia do contexto nas foacutermulas inseridas no seu modelo
TR+
O outro momento de seu modelo (Figura 18) compreende a lsquofase de buscarsquo que inclui
Preacute-Processamento (toquenizaccedilatildeo e etiquetagem) Nominalizaccedilatildeo e Captura de RLBs Estas
etapas ocorrem da mesma maneira que na fase de indexaccedilatildeo Inclui tambeacutem as etapas
Formulaccedilatildeo de consulta booleana Busca e Classificaccedilatildeo
Na etapa ldquoerdquo (Formulaccedilatildeo de Consulta Booleana) Gonzalez (2005) explica que se a
consulta q em linguagem natural formulada pelo usuaacuterio for por exemplo ldquopintura
restauradardquo entatildeo seraacute formulada no formato Booleano conforme o modelo TR+ a seguinte
consulta qb
28 Estes conhecimentos envolvem niacuteveis leacutexico-morfoloacutegico e sintaacutetico sintagmas nominais (sujeito objeto direto e indireto e adjunto adnominal) A vantagem destes eacute a capacidade de identificar relacionamentos entre palavras natildeo adjacentes como ldquoalgoritmosrdquo e ldquoconcorrentesrdquo em ldquoalgoritmos sequumlenciais e concorrentesrdquo
53
r1 OU r2 OU ( (n1 (p1) OU n2(p1) ) E (n1 (p2) OU n2(p2) ) ) onde
r1 = de(restauracaopintura)
r2 = r1rsquo = diferente_de(restauracaopintura)
n1(p1) = (elemento vazio)
n2(p1) = pintura
n1(p2) = restauracao
n2(p2) = restaurador
p1 = pintura e
p2 = restaurada
Tabela 2 Exemplo de uma consulta qb Fonte Gonzalez 2005 p 51
Na fase de busca a etapa ldquofrdquo ocorre uma relaccedilatildeo entre a etapa ldquoerdquo e a etapa ldquodrdquo Esta
uacuteltima acontece ainda na fase de indexaccedilatildeo visto que ldquoestando os termos e as RLBs definidas
e calculados os pesos a classificaccedilatildeo dos documentos depende do valor de relevacircncia dos
mesmos e da formulaccedilatildeo Booleana da consultardquo (GONZALEZ 2005 p 50)
A etapa ldquogrdquo (Classificaccedilatildeo) eacute resultado de um caacutelculo sobre os dados obtidos no
procedimento anterior que identifica o valor de relevacircncia de cada documento recuperado-os
em ordem decrescente Um exemplo de classificaccedilatildeo eacute indicado por Gonzalez (2005) atraveacutes
da foacutermula de uma consulta denominada q Nesta consulta encontram-se os termos t1 e t2 e a
RLB r e se estes dois termos estatildeo relacionados atraveacutes de r em um documento d estes teratildeo
dupla contribuiccedilatildeo no caacutelculo do valor de relevacircncia de d poreacutem se t1 e t2 ocorrem em d mas
natildeo estatildeo relacionados atraveacutes de r o autor considera que esta contribuiccedilatildeo seraacute simples e
assim d tende a perder posiccedilotildees na classificaccedilatildeo por relevacircncia a q
Os documentos recuperados classificam-se em dois grupos (a) grupo superior de maior relevacircncia documentos que atendem agraves condiccedilotildees estabelecidas na consulta Booleana ou seja possuem pelo menos uma das RLBs da consulta ou na falta de todas elas possuem obrigatoriamente todos os termos conforme especificado (b) grupo inferior de menor relevacircncia documentos que natildeo atendem a todas as condiccedilotildees estabelecidas na consulta Booleana mas possuem pelo menos um dos termos da consulta Os documentos satildeo classificados em ordem decrescente do valor de relevacircncia tanto nos grupos superior como inferior (GONZALEZ 2005 p 51)
Eacute importante ressaltar que toda a proposta de Gonzalez (Modelo TR+) foi
automatizada testada e aprovada Foi utilizado o software FORMA para a etapa de preacute-
processamento e os demais softwares como CHAMA (nominalizaccedilatildeo) e RELLEX (regras de
54
identificaccedilatildeo de RLBs) foram desenvolvidos pelo autor Diversos algoritmos juntamente com
abordagens de RI (booleana probabiliacutestica e vetorial) foram desenvolvidos para as fases
posteriores do seu trabalho como o caacutelculo do peso dos descritores a busca e a classificaccedilatildeo
de documentos
As experimentaccedilotildees desenvolvidas por Gonzalez (2005) em seu trabalho lograram
comprovar que o processo de nominalizaccedilatildeo como processo de normalizaccedilatildeo lexical
proporciona melhores resultados de recuperaccedilatildeo que os produzidos pelos processos
tradicionais (lematizaccedilatildeo e stemming) a identificaccedilatildeo de RLBs (obtenccedilatildeo de informaccedilatildeo
linguumliacutestica) contribui de forma positiva para a descriccedilatildeo de dependecircncias de termos
ampliando o espaccedilo de descritores o caacutelculo da representatividade dos descritores baseado em
evidecircncia melhora a classificaccedilatildeo de relevacircncia dos documentos com vantagem sobre o
caacutelculo baseado em frequumlecircncia de ocorrecircncia o uso de consultas com operadores Booleanos
trata-se de uma forma eficaz de complementar a especificaccedilatildeo de dependecircncias de termos e
tambeacutem a inclusatildeo de conhecimento linguumliacutestico como a realizada no modelo proposto pelo
autor apresenta relaccedilatildeo custobenefiacutecio viaacutevel dentro do atual estaacutegio de desenvolvimento da
pesquisa em RI
O proacuteximo capiacutetulo descreve o novo modelo proposto para esta dissertaccedilatildeo baseado
na identificaccedilatildeo das possibilidades de ampliaccedilatildeo de siacutentese e de sistematizaccedilatildeo do modelo de
Kuramoto com a estrutura de Gonzalez Pode ser considerada uma soluccedilatildeo hiacutebrida de um
modelo de RI que une trecircs teorias Sintagmas Nominais de Kuramoto Leacutexico Gerativo de
Pustejovsky e Modelo TR+ de Gonzalez Apresentar-se-aacute os paracircmetros gerais norteadores e
justificadores do modelo a descriccedilatildeo narrativa da sua funcionalidade os resultados dos testes
e a descriccedilatildeo formal UML do modelo
55
4 APRESENTACcedilAtildeO E DISCUSSAtildeO DO MODELO PROPOSTO
A proposta desta dissertaccedilatildeo eacute de integrar a aplicaccedilatildeo praacutetica do projeto dos
Sintagmas Nominais de Kuramoto sistematizando e associando com o modelo TR+ de
Gonzalez (2005)
Na descriccedilatildeo do modelo do sistema proposto foi utilizado o meacutetodo denominado de
Processo Unificado (UP) que envolve as fases de concepccedilatildeo elaboraccedilatildeo construccedilatildeo e
transiccedilatildeo e utilizou-se a Linguagem de Modelagem Unificada (UML) que eacute fortemente
relacionada com a metodologia utilizada segundo Wazlawick (2004)
Neste capiacutetulo desenvolve-se o modelo conceitual da aplicaccedilatildeo proposta para a qual
foram realizadas as etapas de levantamento e anaacutelise de requisitos representada pelo
diagrama e pela descriccedilatildeo dos casos de uso e de construccedilatildeo dos diagramas de classes e de
sequumlecircncia relacionados
41 Procedimentos desenvolvidos utilizando o modelo de SN de Kuramoto e a proposta
Gonzalez - ldquoEstrutura SINTR+rdquo
Esta dissertaccedilatildeo optou por realizar uma relaccedilatildeo entre propostas diferenciadas utilizar
o modelo de SN de Kuramoto para a organizaccedilatildeo dos conceitos mais significativos dos
documentos e a proposta de Gonzalez para a busca dessas informaccedilotildees que estaratildeo
estruturadas atraveacutes da dependecircncia entre termos Esta relaccedilatildeo foi desenvolvida na criaccedilatildeo da
ldquoEstrutura SINTR+rdquo que tem como especificidade a busca nos documentos a partir do banco
de dados dos Sintagmas Nominais Esta escolha de unir em uma estrutura proacutepria os SN e o
Modelo TR+ pautou-se pelo intuito de orientar mais objetivamente o usuaacuterio na definiccedilatildeo da
sua query de busca atraveacutes de uma navegaccedilatildeo sobre a estrutura de SN presentes no
documento e de posterior apresentaccedilatildeo de lista de documentos efetivamente relevantes
O objetivo eacute trabalhar com os Sintagmas Nominais evidenciando e potencializando
uma uniatildeo com o modelo TR+ de Gonzalez (2005) O modelo abaixo (Figura 19) apresenta
uma nova proposta pautada na junccedilatildeo sistematizada e analiacutetica da extraccedilatildeo dos SN na
Estrutura de Kuramoto (1999) com o Modelo TR+ de Gonzalez (2005) ldquoEstrutura SINTR+rdquo
56
Documentos
Extraccedilatildeo de SN
Preacute-processamento
Nominalizaccedilatildeo
4
Captura de RLBs
Referecircncia aos
documentos classificados
Classificaccedilatildeo
Lista de SN de Niacutevel Requerido
Lista dos demais Preacute-
3
2
85
3
2
1
Consulta em
LN
7
6
(Fase d
O mo
extraccedilatildeo de tod
o preacute-processam
de acontecer co
de forma mais
foco de anaacutelise
subsequumlentes
Antes
descritores con
frequumlecircncia de o
Etapa 5
Em se
mudanccedila de um
concreto eou a
Te
R
e indexaccedilatildeo)
Figura
delo propost
os os seus Si
ento onde o
m todas as p
objetiva e raacute
somente so
do processo d
stituiacuteda na s
correcircncia dos
guida ocorre
a palavra (ad
bstrato Na E
rmos e
LBs
Busca
Formulaccedilatildeo de consulta Booleana
11
(Fase
19 Visatildeo Geral do Modelo Proposto ldquoEstr
o se inicia a partir dos document
ntagmas Nominais (Etapa 1) Extra
correm a Toquenizaccedilatildeo e a Etiquet
alavras do documento como ocorr
pida apenas diretamente sobre os
bre os termos inclusos nos SN pe
e nominalizaccedilatildeo na Etapa 3 eacute exec
eleccedilatildeo e normalizaccedilatildeo dos descrit
descritores - termos (para o caacutelculo
o processo de nominalizaccedilatildeo que c
veacuterbio adjetivo ou verbo) existen
tapa 4 ocorre a identificaccedilatildeo das
niacuteveis de SN processamento
Nomin
Captura
9
de busca)
utura SINTR+rdquo
os a serem inse
iacutedos os SN na E
agem que Essa e
e no modelo TR
termos constant
rmanece para to
utada a geraccedilatildeo
ores e ainda na
de seus pesos)
onstitui a Etapa
te nos SN em u
RLBs nos SN q
alizaccedilatildeo
de RLBs 0
ridos com a
tapa 2 eacute feito
tapa ao inveacutes
+ eacute realizada
es nos SN O
das as etapas
de espaccedilo dos
contagem da
a ser usada na
3 e significa a
m substantivo
ue significa o
1
1
1
57
relacionamento entre termos nominalizados Estas etapas acima satildeo constituiacutedas para a
geraccedilatildeo do espaccedilo de descritores (termos e RLBs) referentes agrave Etapa 5
Na lsquofase de buscarsquo primeiramente o usuaacuterio digita uma palavra por exemplo
ldquoplaacutesticosrdquo A resposta para o usuaacuterio ocorreraacute pois internamente foi feita uma programaccedilatildeo
(a ser implementada) para identificar o niacutevel do SN solicitado pelo usuaacuterio para que
posteriormente apareccedila para este a lista de todos os SN do niacutevel apresentado contendo a query
solicitada
No caso do exemplo ldquoplaacutesticosrdquo o processo avanccedila na Etapa 6 listando todos os
sintagmas nominais de primeiro niacutevel (SN1) dos documentos (uma vez que a solicitaccedilatildeo
referia-se ao niacutevel 1) Nesta etapa o usuaacuterio poderaacute escolher um dos sintagmas de primeiro
niacutevel ou confirmar a sua escolha (query) inicial O processo continua com a escolha de uma
dentre as opccedilotildees de i) ver a lista de documentos relacionados ao SN1 definido ou ii) solicitar
a relaccedilatildeo de sintagmas de seu segundo niacutevel A visualizaccedilatildeo da lista de sintagmas de niacutevel
superior permitiria ao usuaacuterio filtrar mais a sua consulta Para a determinaccedilatildeo da lista de SN
de segundo niacutevel como por exemplo ldquoa reciclagem de plaacutesticosrdquo ldquoa induacutestria de plaacutesticosrdquo
(Figura 20) tambeacutem foi feita uma programaccedilatildeo especiacutefica que seraacute descrita posteriormente
Na continuidade do processo o usuaacuterio pode prosseguir o refinamento da sua busca
atraveacutes da seleccedilatildeo de SN de maior niacutevel ou pode dar-se por satisfeito com o resultado (Etapa
7) solicitando diretamente a lista dos documentos associados ao SN definidos Nesse caso a
lista eacute apresentada na ordem de classificaccedilatildeo oportunizada pela Estrutura TR+ conforme o
descrito nas proacuteximas etapas
O processamento proposto para a determinaccedilatildeo da relaccedilatildeo dos sintagmas de um
determinado niacutevel foi pensado com vista a gerar economia de espaccedilo de memoacuteria utilizada
uma vez que seratildeo armazenados na base de dados os documentos e seus SN de uacuteltimos niacuteveis
e manipulados apenas os uacuteltimos niacuteveis da estrutura de SN Os niacuteveis anteriores relativos ao
SN seratildeo determinados na programaccedilatildeo desenvolvida a partir da identificaccedilatildeo do nuacutemero de
preposiccedilotildees que o SN apresenta Nesta programaccedilatildeo se houver apenas um termo (ou mesmo
apenas um termo composto) o SN eacute considerado um SN de 1ordm niacutevel A presenccedila de um termo
composto com mais uma preposiccedilatildeo indica a existecircncia de um SN de 2ordm niacutevel Jaacute trecircs termos
com duas preposiccedilotildees vatildeo indicar a presenccedila de um SN de 3ordm niacutevel e finalizando quatro ou
mais termos com 3 (ou mais) preposiccedilotildees remetem ao SN de 4ordm niacutevel
Ao optar pela apresentaccedilatildeo da lista de documentos seratildeo desenvolvidas
(internamente) na programaccedilatildeo conforme o proposto pela Estrutura TR+ de Gonzalez as
etapas de Preacute-processamento (toquenizaccedilatildeo e etiquetagem ndash Etapa 8) Nominalizaccedilatildeo (Etapa
58
9) Captura de RLBs (Etapa 10) Formulaccedilatildeo de consulta Booleana (Etapa 11) Busca (Etapa
12) e por fim Classificaccedilatildeo (Etapa 13)
Na Etapa 11 eacute trabalhado no formato Booleano uma consulta formulada pelo usuaacuterio
conforme o modelo TR+ A Etapa 12 ocorre uma relaccedilatildeo entre a Etapa 11 e a Etapa 5 (esta
etapa ocorre ainda na fase de indexaccedilatildeo) A Etapa 13 eacute a uacuteltima e resulta do caacutelculo que
identifica o valor de relevacircncia de cada documento recuperando-os em ordem decrescente
Eacute importante reforccedilar que o sistema iraacute verificar o preacute-processamento nominalizaccedilatildeo
e a captura de RLBs jaacute realizadas na fase de indexaccedilatildeo comparando-as Apoacutes esta
identificaccedilatildeo o sistema usa a formulaccedilatildeo de consulta Booleana para a busca chegando agrave
classificaccedilatildeo dos documentos de acordo com o peso dos descritores (termos e RLBs)
formulados na fase de indexaccedilatildeo e definidos na fase de busca (de acordo com o termo
escolhido e a coleccedilatildeo dos documentos)
Exemplificando o paraacutegrafo acima a Figura 20 mostra o funcionamento inicial desta
estrutura no que se refere aos Sintagmas Nominais
Pesquisa
Usuaacuterio escolha uma opccedilatildeo (Sintagma Nominal) que mais se identifique com a sua consulta Logo em seguida escolha se deseja ir para o Proacuteximo Niacutevel de Sintagma Nominal ou Estrutura TR+
Buscar (SN) Plaacutesticos
SN1 Os plaacutesticos
Proacuteximo niacutevel SN Estrutura TR+
SN2 A reciclagem de plaacutesticos A separaccedilatildeo de plaacutesticos A induacutestria de plaacutesticos
Proacuteximo niacutevel SN Estrutura TR+
SN3 A induacutestria de reciclagem de plaacutesticos
Estrutura TR+ Proacuteximo niacutevel SN
SN4 -----
Estrutura TR+
Figura 20 Descriccedilatildeo inicial do modelo proposto
59
Buscando analisar as vantagens que a proposta do modelo SINTR+ apresenta vale
lembrar que o modelo TR+ de Gonzalez jaacute apresenta benefiacutecios como
bull O processo de nominalizaccedilatildeo propicia melhores resultados de recuperaccedilatildeo do que
os produzidos pelos processos tradicionais (lematizaccedilatildeo e stemming)
bull A identificaccedilatildeo de RLBs colabora para a descriccedilatildeo de dependecircncia de termos que
ampliam o espaccedilo de descritores
bull O caacutelculo da representatividade dos descritores baseado em evidecircncia melhora a
classificaccedilatildeo da relevacircncia de documentos em relaccedilatildeo agravequela obtida atraveacutes da
extraccedilatildeo e do caacutelculo por frequumlecircncia de ocorrecircncia
bull O uso de consultas com operadores Booleanos oferece uma forma eficaz de
complementar a especificaccedilatildeo de co-dependecircncia semacircntica entre termos
As vantagens antevistas na elaboraccedilatildeo da proposta SINTR+ expandem as jaacute obtidas
pelo modelo de Gonzalez29 pois une a elas a vantagem do modelo de hierarquia de niacuteveis de
SN de Kuramoto Estas vantagens satildeo a ldquoEstrutura SINTR+rdquo executa em um menor tempo na
fase de indexaccedilatildeo dos documentos a ldquoEstrutura SINTR+rdquo conteacutem um tamanho menor de
arquivos de iacutendice e a ldquoEstrutura SINTR+rdquo proporciona facilidade na fase de nominalizaccedilatildeo
visto que os SN satildeo o nuacutecleo de maior significaccedilatildeo de um texto30
Os documentos (textos) usados como campo empiacuterico desta dissertaccedilatildeo foram artigos
retirados da Internet sobre o tema ldquoLixordquo Neste contexto fazem parte da coleccedilatildeo de
documentos temas como ldquoCuidados com o Lixordquo ldquoLixo Industrialrdquo ldquoO destino do lixo
quiacutemicordquo entre outros Como ainda natildeo havia disponiacuteveis extratores automaacuteticos de SN por
hierarquia em niacuteveis foi feita uma leitura dos textos dos quais se retirou manualmente seus
sintagmas Os SN significativos com o tema ldquoLixordquo foram extraiacutedos de dois (2) documentos
(que estatildeo nos ANEXOS A e B) e satildeo apresentados no Anexo C
Apoacutes esta etapa foram extraiacutedos todos os sintagmas nominais (somente do
documento1 - ANEXO A) que estatildeo sublinhados no texto independentes do tema para
exemplificar a extraccedilatildeo da consulta
Para avaliar preliminarmente a extensatildeo com que as vantagens antevistas no modelo
proposto realmente se verificariam foi realizado um teste com o documento1 (ANEXO A)
composto de 9 paraacutegrafos e 1006 palavras (Figura 21)
29 Este modelo foi testado e aprovado na sua proposta de doutorado que estaacute inserida no contexto do grupo de pesquisa da PUCRS no qual o autor participa de estudos na aacuterea haacute mais de uma deacutecada 30 Isto pode ser observado do Anexo A (Documento1) em que os SN satildeo destacados no texto
60
Figura 21 Nuacutemero de palavras do Documento1
O documento1 (ANEXO A) foi o escolhido para dimensionar a reduccedilatildeo no total de
palavrastermos a serem incluiacutedos na base de dados demonstrando a importacircncia do modelo
apresentado conforme tabela abaixo
Categorias Texto Total SNs Total de palavrastermos 1006 640
Substantivos 369 334 Adveacuterbios 41 04
Verbos 133 Ausecircncia de verbos Adjetivos 73 55
Figura 22 Tabela comparativa Texto Total e SNs
O texto possui um total de 1006 palavrastermos sendo destes 369 substantivos 41
adveacuterbios 133 verbos e 73 adjetivos (Figura 22) Do texto todo foi extraiacutedo um total de 139
sintagmas nominais E destes o nuacutemero total de palavrastermos eacute de 640 sendo 334
substantivos 04 adveacuterbios e 55 adjetivos
61
Documento1 - Cresce a induacutestria de reciclagem de plaacutesticos
369
41
133
7355
nordm de substantivos
nordm de adveacuterbios
nordm de verbos
nordm de adjetivos
nordm de adjetivosinseridos nos SN
Figura 22 Nuacutemero de substantivos adveacuterbios verbos e adjetivos do Documento1
Relacionando o nuacutemero de adjetivos do texto todo e os adjetivos inseridos nos SN
pode-se notar um ganho expressivo pois se tem uma reduccedilatildeo de 18 adjetivos Destes dados
133 verbos foram descartados (novamente afirma-se da importacircncia dos SN que representam a
unidade significativa do texto) Tambeacutem se observa que 37 adveacuterbios natildeo foram incluiacutedos
diminuindo assim o nuacutemero de descritores
Estes dados apontam aspectos positivos que consolidam a importacircncia da utilizaccedilatildeo
dos SN na diminuiccedilatildeo de descritores com consequumlente reduccedilatildeo do uso de memoacuteria e ainda
melhora na fase de busca pelo tempo de resposta
A Figura 23 apresenta o comparativo entre o percentual do nuacutemero de palavras do
texto com o percentual do nuacutemero de palavras dos Sintagmas Nominais Isto mostra que o
percentual de SN de 64 tem um valor reduzido colaborando para um nuacutemero menor de
descritores desta forma restringe-se tambeacutem o uso de memoacuteria (neste caso ocupado na fase
de indexaccedilatildeo) reduzem-se os descritores e diminui-se o tempo de resposta na fase de busca
Estes dados natildeo satildeo somente relevantes frente a um modelo de RI mas corroboram para a
manutenccedilatildeo do seu funcionamento
62
Dados Comparativos - Nordm de palavras restantes e dos SNs
64
36 Nordm de palavras dossintagmas nominaisNordm de palavras restantes
100 - nordm total de palavras
Figura 23 Nuacutemero de palavras restantes x Sintagmas Nominais
A Figura 24 mostra que existe um percentual de 28 de adjetivos inseridos nos
Sintagmas Nominais Esses adjetivos durante o processo de nominalizaccedilatildeo conforme
Gonzalez (2005) satildeo transformados em substantivos concretos eou abstratos (se houver) Isto
aponta um nuacutemero bem inferior comparado a um texto inteiro o que promove uma diminuiccedilatildeo
de substituiccedilotildees de um adjetivo por um substantivo concreto eou abstrato que pode inferir
no significado do documento e a reduccedilatildeo destas substituiccedilotildees evita possiacuteveis erros de
interpretaccedilatildeo
Dados Comparativos - Sintagmas Nominais e adjetivos
72
28nordm de sintagmas nominais
nordm de adjetivos inseridosnos SN
Figura 24 Sintagmas Nominais e adjetivos inseridos nos SN
A extraccedilatildeo dos Sintagmas Nominais corresponde agrave primeira etapa Depois desta
extraccedilatildeo manual se agrupou os SN em quatro niacuteveis 1 2 3 e 4 (ANEXO C)
Para o desenvolvimento das demais etapas (toquenizaccedilatildeo etiquetagem morfoloacutegica
nominalizaccedilatildeo e as relaccedilotildees lexicais binaacuterias) foi escolhido o paraacutegrafo 6 do documento1
(ANEXO A)
63
A induacutestria da reciclagem do plaacutestico no Brasil tem crescido bastante em funccedilatildeo do reaproveitamento do PET que eacute usado no segmento de monofilamentos em artigos como vassouras e na induacutestria tecircxtil Conforme Ana Flores a reciclagem gera 250 mil empregos no Paiacutes dos quais 70 satildeo informais Poreacutem a maior parte do potencial de mercado ainda estaacute sendo desperdiccedilada avalia ldquoCerca de 15 do total de plaacutestico que eacute industrializado no Paiacutes eacute reciclado Em dez anos poderiacuteamos chegar a 60 como nos Estados Unidos desde que fosse implementado um conjunto de medidas incentivando essa praacuteticardquo assegura
Tabela 3 Paraacutegrafo 6 do documento1
Na etapa de toquenizaccedilatildeo e etiquetagem satildeo identificadas classes de palavras como
substantivos adjetivos adveacuterbios preposiccedilotildees artigos conjunccedilotildees e inclusive ponto No
Anexo D eacute possiacutevel visualizar essas informaccedilotildees em duas ferramentas de extraccedilatildeo
disponiacuteveis nos sites do Projeto de Linguumliacutestica Computacional Hermes da Fundaccedilatildeo
Universidade Federal do Rio Grande (FURGBrasil) e do Programa de LAEL da PUC-SP -
Programa de Estudos Poacutes-Graduados em Linguumliacutestica Aplicada e Estudos da Linguagem da
Pontifiacutecia Universidade Catoacutelica de Satildeo Paulo31
A partir desta identificaccedilatildeo adjetivos adveacuterbios e verbos satildeo transformados em
substantivos (concreto eou abstrato) quando for possiacutevel Ou ateacute mesmo o adjetivo seja o
mesmo nome (grafia) para substantivos Esse processo de nominalizaccedilatildeo no trabalho de
Gonzalez (2005) foi realizado atraveacutes da ferramenta CHAMA desenvolvida por ele mesmo
Apoacutes o processo de nominalizaccedilatildeo satildeo identificadas as RLBs (Relaccedilotildees Lexicais
Binaacuterias) conforme descrito nesta seccedilatildeo Gonzalez (2005) desenvolveu tambeacutem a ferramenta
RELLEX para identificaccedilatildeo das RLBs Para o caso do teste optou-se por fazer manualmente32
(ANEXO E) devido agrave indisponibilidade destas duas ferramentas Esta etapa tem uma
importacircncia muito grande onde satildeo reconhecidos os relacionamentos das palavras no texto
atraveacutes de identificadores A tabela 4 mostra as RLBs identificadas do paraacutegrafo 6 do
documento1 (ANEXO A) de forma manual
RLBs classificaccedilatildeo =(textil industria)
RLBS restriccedilotildees
de (industria reciclagem) de (reciclagem plastico)
de (reaproveitamento PET) de (segmento monofilamento) de (mercado potencialidade)
de (plastico totalidade) de (conjunto medida)
Tabela 4 RLBs identificadas no paraacutegrafo 6 do documento1
31 As paacuteginas disponiacuteveis satildeo hermessourceforgenethermeswebhtml e httpwww2laelpucspbrcorporaetiquetagemindexhtml32 Dicionaacuterios consultados MICHAELIS Dicionaacuterio Eletrocircnico Acesso em mar de 2006 e FERREIRA Aureacutelio Buarque de Holanda Novo Aureacutelio Seacuteculo XXI o dicionaacuterio da liacutengua portuguesa 1999
64
42 Descriccedilatildeo Formal do Modelo Proposto SINTR+
Os Sintagmas Nominais de Kuramoto em conjunto com as abordagens utilizadas no
modelo TR+ de Gonzalez promovem a utilizaccedilatildeo de conceitos orientados a objetos (OO)
porque eacute considerada a melhor metodologia para projeto de software permite uma
organizaccedilatildeo aprimorada do coacutedigo tem uma proximidade com a UML (Linguagem de
Modelagem Unificada) proporciona uma facilidade de manutenccedilatildeo do coacutedigo apresenta
menor grau de replicaccedilatildeo do coacutedigo e possibilita uma aplicaccedilatildeo em camadas o MVC33 um
padratildeo de projeto atraveacutes da Linguagem Orientada a Objetos Para compreender estes
conceitos e o desenvolvimento da modelagem proposta ressaltaram-se alguns aspectos baacutesicos
de seus fundamentos
A Linguagem UML segundo Larman (2000) expressa a modelagem de sistemas e
utiliza os conceitos orientados a objetos Como na aplicaccedilatildeo proposta trabalhar-se-aacute
especificamente apenas nas etapas de anaacutelise e projeto considera-se importante o uso da
linguagem UML por ser esta uma linguagem poderosa para expressar de modo claro e preciso
o processo de geraccedilatildeo de projetos de software Para Wazlawick (2004) esta linguagem daacute
suporte a que esse processo gere uma estrutura faacutecil de ser compreendida Para o autor isto
ocorre quando se utiliza um software autodocumentado e de faacutecil entendimento tanto em niacutevel
macro quanto em detalhes
Este autor define que o Processo Unificado (UP) estaacute associado agrave notaccedilatildeo UML e
indica que suas fases satildeo concepccedilatildeo elaboraccedilatildeo construccedilatildeo e transiccedilatildeo Conforme
Wazlawick (2004) eacute na primeira fase que se faz o levantamento dos principais requisitos e
compreende-se o sistema de forma abrangente A fase de elaboraccedilatildeo eacute constituiacuteda de anaacutelise e
projeto e a fase de construccedilatildeo corresponde agrave implementaccedilatildeo e testes
A anaacutelise de requisitos ainda segundo este autor (2004 p 24) ldquoestaacute associada ao
processo de descobrir quais satildeo as operaccedilotildees que o sistema deve realizar e quais satildeo as
restriccedilotildees que existem sobre elasrdquo Jaacute a anaacutelise de domiacutenio ldquoestaacute relacionada agrave descoberta das
informaccedilotildees gerenciadas pelo sistema ou seja agrave representaccedilatildeo e transformaccedilatildeo da
informaccedilatildeordquo (2004 p 26)
No caso de um sistema de informaccedilotildees sobre uma instituiccedilatildeo de ensino (Moacutedulo
controle de alunos) por exemplo possivelmente a anaacutelise de requisitos permitiria descobrir
que o sistema deveria controlar a data o curso e a turma em que o aluno foi matriculado o
iniacutecio e teacutermino do curso calcular automaticamente os pagamentos gerar relatoacuterios de
65
contrato especificando as claacuteusulas legais de direito e dever do aluno na Instituiccedilatildeo etc Essas
operaccedilotildees satildeo chamadas de ldquorequisitos funcionaisrdquo
Haacute tambeacutem relacionados a um sistema em construccedilatildeo os requisitos natildeo funcionais
que dizem respeito agrave operaccedilatildeo e agrave usabilidade do sistema Um exemplo de requisito natildeo-
funcional seria a necessidade de fazer a matriacutecula via Internet Essa eacute uma restriccedilatildeo de
operaccedilatildeo Um outro exemplo seria uma central de acidentes de tracircnsito onde o registro de um
dado acidente devesse ser feito em no maacuteximo 10 segundos o que demandaria um
processamento e uma interface bastante eficiente constituindo-se esse em um requisito de
usabilidade
Para as etapas de levantamento e anaacutelise de requisitos costuma ser utilizado o
diagrama de casos de uso Segundo Guedes (2004) esse diagrama possibilita a compreensatildeo
do comportamento externo do sistema por qualquer pessoa Entendem-se aqui casos de uso
segundo Larman (2000) como um documento narrativo que descreve a sequumlecircncia de eventos
(accedilotildees) de um ator (um agente externo) que usa um sistema para completar um processo e
descreve tambeacutem as respostas do sistema Pode se dizer que caso de uso eacute um cenaacuterio com
atores e ambientes Criam-se as cenas e as narrativas das mesmas ajudando a entender o que
se quer do sistema O interessante dos casos de uso eacute que os mesmos permitem que o projeto
seja construiacutedo de forma participativa por um grupo de pessoas uma vez que sua descriccedilatildeo se
daacute em uma linguagem textual e diagramaacutetica
A partir dos casos de uso eacute possiacutevel construir o modelo conceitual Conforme Larman
(2000 p 99) ldquoo modelo conceitual ilustra os conceitos significativos em um domiacutenio de
problemardquo Para Wazlawick (2004 p 102) ldquoo modelo conceitual deve descrever a
informaccedilatildeo que o sistema vai gerenciar trata-se de um artefato do domiacutenio do problema e
natildeo do domiacutenio da soluccedilatildeordquo
Eacute importante ressaltar que o modelo conceitual representa somente o aspecto estaacutetico
da informaccedilatildeo Os elementos que representam informaccedilatildeo satildeo conceitos (representados por
classes) atributos (informaccedilotildees alfanumeacutericas ligadas diretamente aos conceitos) e
associaccedilotildees (tipo de informaccedilatildeo que liga diferentes conceitos entre si)
O diagrama de casos de uso do sistema proposto foi desenvolvido no software JUDE
Community Ferramenta de Modelagem UML Um software freeware muito utilizado para a
criaccedilatildeo deste tipo de diagramas Neste software podem tambeacutem ser desenvolvidos os outros
tipos de diagramas do UML tais como de classes sequumlecircncia colaboraccedilatildeo graacuteficos de
estados
33 A sigla significa Model View e Controller
66
Os casos de uso identificados para esta aplicaccedilatildeo foram descritos em duas situaccedilotildees
A primeira eacute referente agrave pesquisa do usuaacuterio e a segunda ao gerenciamento e operaccedilatildeo do
banco de dados (BD) no niacutevel de administrador Para descobrir estes casos de uso foi
necessaacuterio primeiramente identificar os atores envolvidos com o sistema (usuaacuterio e
administrador) E na sequumlecircncia a cada grande processo reconhecido correspondeu a um caso
de uso do sistema
As Figuras 25 e 26 satildeo diagramas na UML que representam casos de uso e seus
atores As elipses significam casos de uso e os bonecos representam atores Para cada uma das
situaccedilotildees (pesquisa e gerenciamento de operaccedilatildeo do BD no niacutevel de administrador) foram
identificados os seguintes casos de uso
Figura 25 Diagrama de casos de uso da UML do sistema proposto ndash Pesquisa do Usuaacuterio
67
Figura 26 Diagrama de casos de uso da UML do sistema proposto ndash Gerenciamento e Operaccedilatildeo do BD no
niacutevel de administrador
Deve-se lembrar que na proposta deste trabalho para economia de espaccedilo de
memoacuteria foram sistematizados dois momentos o 1ordm em um armazenamento na base de dados
do documento apenas para a lista final do usuaacuterio e outro com os Sintagmas Nominais que
seratildeo armazenados na base de dados no 4ordm ou no uacuteltimo niacutevel apresentado (Figura 19) Os
niacuteveis anteriores relativos ao SN seratildeo procurados por uma programaccedilatildeo desenvolvida
relacionada diretamente com os Sintagmas Com isto natildeo haveraacute necessidade de acesso agrave
memoacuteria da base de documentos em todas as accedilotildees e esta serviraacute somente na uacuteltima escolha
do usuaacuterio tendo um ganho significativo quanto agrave rapidez de acesso aos dados da base e a natildeo
existecircncia de duplicaccedilatildeo de dados
Os casos de uso costumam ser documentados conforme Guedes (2004) por meio de
uma linguagem bastante simples fornecendo a funccedilatildeo em linhas gerais dos casos de uso
quais atores interagem com os mesmos quais etapas devem ser executadas pelo ator e pelo
sistema quais paracircmetros devem ser fornecidos e quais restriccedilotildees o caso de uso deve possuir
As Tabelas abaixo (5 a 15) apresentam as descriccedilotildees dos casos de uso do sistema proposto
referente ao gerenciamento e operaccedilatildeo do BD no niacutevel de administrador
68
Nome do Caso de Uso Inserir novo documento Caso de Uso Geral natildeo possui Ator Principal Administrador Atores secundaacuterios natildeo possui Resumo Permite ao administrador do sistema inserir arquivos na base de dados de documentos iniciando o processo de alimentaccedilatildeo de todas as demais bases de dados Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema 1) Anexar um documento 2) Verificar se documento jaacute natildeo existe na base de dados 3) Inserir o documento Restriccedilotildeesvalidaccedilotildees Apenas documentos vaacutelidos34 deveratildeo ser aceitos
Tabela 5 Descriccedilatildeo do caso de uso ndash Inserir novo documento Nome do Caso de Uso Alimentar base de dados (Documentos) Caso de Uso Geral natildeo possui Ator Principal natildeo possui Atores secundaacuterios natildeo possui Resumo Armazenar em meio fiacutesico e com seguranccedila os documentos inseridos pelo Administrador atraveacutes do sistema Preacute-condiccedilotildees Administrador anexa um documento vaacutelido Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema 1) Armazenar em base de dados os documentos anexados Restriccedilotildeesvalidaccedilotildees natildeo possui
Tabela 6 Descriccedilatildeo do caso de uso ndash Alimentar base de dados (Documentos) Nome do Caso de Uso Extrair SN de 4ordm ou uacuteltimo niacutevel Caso de Uso Geral natildeo possui Ator Principal natildeo possui Atores secundaacuterios natildeo possui Resumo Extrair do documento inserido na base de dados todos os sintagmas nominais de 4ordm ou uacuteltimo niacutevel
Preacute-condiccedilotildees o documento estar devidamente validado e inserido na base de dados Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema
1) realizar a anaacutelise do documento inserido extraindo todos os sintagmas nominais de 4ordm ou uacuteltimo niacutevel enviando informaccedilotildees para alimentaccedilatildeo de base de dados de sintagmas
Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 7 Descriccedilatildeo do caso de uso ndash Extrair SN de 4ordm ou uacuteltimo niacutevel
34 Documentos vaacutelidos satildeo considerados aqui apenas os documentos em formato de texto (como doc txt)
69
As accedilotildees do sistema da tabela 7 seguem as regras estabelecidas na seccedilatildeo 41 da paacutegina 66 Nome do Caso de Uso Tratar regras verbais Caso de Uso Geral natildeo possui Ator Principal natildeo possui Atores secundaacuterios natildeo possui Resumo Realizar o tratamento de regras verbais dos sintagmas nominais de 4ordm ou uacuteltimo niacutevel extraiacutedos do documento Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema
1) aplicar rotinas de tratamento de regras verbais e palavras no infinitivo
Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 8 Descriccedilatildeo do caso de uso ndash Tratar regras verbais
Nome do Caso de Uso Extrair SN de niacuteveis 3 2 e 1 (niacuteveis anteriores) Caso de Uso Geral natildeo possui Ator Principal natildeo possui Atores secundaacuterios natildeo possui Resumo Aplicar regras de extraccedilatildeo de sintagmas de niacuteveis 3 2 e 1 (niacuteveis anteriores) Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema
1) Definir o niacutevel apropriado de cada sintagma a partir do 4ordm ou uacuteltimo niacutevel enviando informaccedilatildeo para o usuaacuterio
Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 9 Descriccedilatildeo do caso de uso ndash Extrair SN de niacuteveis 3 2 e 1 (niacuteveis anteriores)
A tabela 9 segue a mesma regra da tabela 7
Nome do Caso de Uso Alimentar base de dados (Sintagmas) Caso de Uso Geral natildeo possui Ator Principal natildeo possui Atores secundaacuterios natildeo possui Resumo Persistir as informaccedilotildees extraiacutedas nos casos de uso ldquoExtrair SN de 4ordm ou uacuteltimo niacutevelrdquo Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema
1) Armazenar na base de dados o 4ordm ou uacuteltimo niacutevel de sintagma extraiacutedo do documento inserido
Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 10 Descriccedilatildeo do caso de uso ndash Alimentar base de dados (Sintagmas)
70
Nome do Caso de Uso Toquenizar e etiquetar Caso de Uso Geral natildeo possui Ator Principal Software Forma Atores secundaacuterios natildeo possui Resumo Submeter os sintagmas extraiacutedos ao software Forma Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema
1) Aplicar o conceito de Toquenizaccedilatildeo e Etiquetagem dos sintagmas extraiacutedos e armazenados em base de dados
Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 11 Descriccedilatildeo do caso de uso ndash Toquenizar e etiquetar
Nome do Caso de Uso Nominalizar Caso de Uso Geral natildeo possui Ator Principal Software Chama Atores secundaacuterios natildeo possui Resumo Submeter as informaccedilotildees resultantes do processo de Toquenizaccedilatildeo e Etiquetagem ao software Chama Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema
1) Aplicar o conceito de Nominalizaccedilatildeo das informaccedilotildees do documento
Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 12 Descriccedilatildeo do caso de uso ndash Nominalizar
Nome do Caso de Uso Capturar RLBs Caso de Uso Geral natildeo possui Ator Principal Software Rellex Atores secundaacuterios natildeo possui Resumo Submeter as informaccedilotildees resultantes do processo de Nominalizaccedilatildeo ao software Rellex Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema
1) Realizar o processo de captura de RLBs a partir das informaccedilotildees extraiacutedas do documento
Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 13 Descriccedilatildeo do caso de uso ndash Capturar RLBs
71
Nome do Caso de Uso Calcular peso dos descritores Caso de Uso Geral natildeo possui Ator Principal Software Peso dos Descritores Atores secundaacuterios natildeo possui Resumo Submeter as informaccedilotildees resultantes do processo de Captura de RLBs ao software Peso de Descritores Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema
1) Calcular o peso dos descritores ao resultado obtido atraveacutes da captura de RLBs do documento
Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 14 Descriccedilatildeo do caso de uso ndash Calcular peso dos descritores
Nome do Caso de Uso Alimentar base de dados (Termos e RLBs) Caso de Uso Geral natildeo possui Ator Principal natildeo possui Atores secundaacuterios natildeo possui Resumo Persistir as informaccedilotildees obtidas nos casos de uso ldquoNominalizarrdquo ldquoCapturar RLBsrdquo e ldquoCalcular peso dos descritoresrdquo na base de dados de Termos e RLBs Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema
1) Armazenar as informaccedilotildees relativas aos Termos e RLBs extraiacutedos do documento em base de dados
Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 15 Descriccedilatildeo do caso de uso ndash Alimentar base de dados (Termos e RLBs)
Apoacutes a identificaccedilatildeo dos casos de uso e suas descriccedilotildees partiu-se para o modelo
conceitual da aplicaccedilatildeo proposta
72
Figura 27 Modelo Conceitual do sistema proposto
O diagrama de classes segundo Guedes (2004) eacute considerado o mais importante e o
mais utilizado diagrama da UML Eacute o diagrama de classes que permite a visualizaccedilatildeo das
classes que iratildeo compor o sistema com os seus respectivos atributos e meacutetodos Demonstra
como as classes se relacionam complementam e transmitem informaccedilotildees entre si Pode-se
dizer que esse diagrama serve ainda como base para a construccedilatildeo de outros diagramas da
linguagem UML
A Figura 28 apresenta o diagrama de classes do modelo proposto referente agrave Pesquisa
do usuaacuterio
Foi construiacutedo um diagrama de classes (Pesquisa de Usuaacuterio) seguindo estas
definiccedilotildeesaccedilotildees
Paacutegina de Consulta refere-se a uma paacutegina HTML de pesquisa (ou seja uma
linguagem para Web) ou tambeacutem a uma interface graacutefica (GUI) para computador
desktop (cliente)
Controlador da Paacutegina conteacutem a loacutegica de negoacutecio da aplicaccedilatildeo
Classe Sintagma bean responsaacutevel por instanciar e classificar sintagmas de
diferentes niacuteveis usa o meacutetodo setSintagma para receber informaccedilotildees vindas da
paacutegina passando pelo controlador
Classe ListaSintagma cria instacircncia de array de Sintagma associando-os a
instacircncias de Documento Realiza a busca e classificaccedilatildeo destes retornando ao
controlador e posteriormente agrave paacutegina atraveacutes do meacutetodo getDocumentos
73
Classe Documento instacircncia de Documento armazenado em base de dados de
documentos
Figura 28 Diagrama de classes do sistema proposto ndash Pesquisa de Usuaacuterio
A Figura 29 apresenta o diagrama de classes do modelo proposto referente ao
Gerenciamento e Operaccedilatildeo do BD no niacutevel de administrador
Foi construiacutedo um segundo diagrama de classes seguindo estas definiccedilotildeesaccedilotildees
Paacutegina de Consulta refere-se a uma paacutegina HTML de inclusatildeo de documentos
Controlador da Paacutegina conteacutem a loacutegica de negoacutecio da aplicaccedilatildeo
Classe DocumentoBase bean responsaacutevel por instanciar um objeto que iraacute conter
o documento a inserir bem como realizar os processos de toquenizaccedilatildeo e
etiquetagem (trocando mensagens com o software FORMA) nominalizaccedilatildeo
(trocando mensagens com o software CHAMA) gerando termos e RLBs
(trocando mensagens com o software RELLEX) e por fim inserindo as
informaccedilotildees nas bases de dados
Classes Termo e RLB indicam as instacircncias de objetos termos e RLBs e deveratildeo
ser modeladas conforme especificaccedilatildeo do software RELLEX
74
Figura 29 Diagrama de classes do sistema proposto ndash Gerenciamento e Operaccedilatildeo do BD no niacutevel de
administrador
O diagrama de sequumlecircncia segundo Guedes (2004) procura determinar a sequumlecircncia de
eventos que ocorrem em um determinado processo isto eacute quais meacutetodos devem ser disparados
entre os objetos envolvidos quais condiccedilotildees devem ser satisfeitas e em que ordem durante o
processo especiacutefico Foram construiacutedos os diagramas de sequumlecircncia abaixo (Figuras 30 e 31) da
aplicaccedilatildeo proposta
75
Figura 30 Diagrama de Sequumlecircncia do sistema proposto ndash Pesquisa de Usuaacuterio
76
Figura 31 Diagrama de Sequumlecircncia do sistema proposto ndash Gerenciamento e Operaccedilatildeo do BD no niacutevel de administrador
Na elaboraccedilatildeo dos diagramas e descriccedilotildees dos casos de uso e dos diagramas de
classes e de sequumlecircncia observou-se a importacircncia do modelo conceitual porque permitiu
orientar as etapas de desenvolvimento do modelo proposto Visto que no modelo conceitual
foram criados conceitos atributos e associaccedilotildees referentes agrave particularidade da pesquisa que
puderam ser utilizados para a construccedilatildeo das etapas dos diagramas
77
5 CONCLUSAtildeO
Neste capiacutetulo apresentam-se as consideraccedilotildees finais incluindo os aspectos relativos
agraves dificuldades aos progressos e limitaccedilotildees encontradas durante o desenvolvimento da
pesquisa bem como as sugestotildees para a continuidade deste trabalho
O objetivo geral que norteou este trabalho levou ao estudo dos modelos de busca e ao
desenvolvimento de uma proposta para a melhoria dos processos de recuperaccedilatildeo de
informaccedilotildees
Centrando-se no tema Recuperaccedilatildeo de Informaccedilatildeo foram analisados os modelos de
Kuramoto (1999) e posteriormente de Gonzalez (2005) O modelo de Kuramoto baseado
em uma estrutura hieraacuterquica de sintagmas nominais possibilita ao usuaacuterio definir melhor a
sua query de busca A Estrutura de Qualia do Leacutexico Gerativo de Pustejovsky contribuiu para
o entendimento das relaccedilotildees e da estrutura de construccedilatildeo de significado entre as palavras
permitindo o tratamento de questotildees semacircnticas como a polissemia loacutegica A proposta de
Gonzalez apropriando-se dos resultados de Pustejovsky evidencia caracteriacutesticas
morfoloacutegicas e relaccedilotildees de coesatildeo importantes na descriccedilatildeo de conceitos presentes em um
texto propiciando que um texto possa computacionalmente significar mais do que uma
sequumlecircncia de palavras
Buscou-se uma siacutentese dessas propostas identificando as possibilidades de ampliaccedilatildeo
do modelo de Kuramoto pela junccedilatildeo da teoria do Leacutexico Gerativo de Pustejovsky utilizadas
nesta dissertaccedilatildeo a partir do modelo de Gonzalez que se manteve adequado devido ao fato de
que o autor apresenta processos para as fases de indexaccedilatildeo busca e classificaccedilatildeo de RI Os
termos e relacionamentos inseridos na base de dados do modelo TR+ de Gonzalez estatildeo
implicitamente relacionados com a Estrutura de Qualia do LG
O novo modelo SINTR+ aleacutem do suporte ao usuaacuterio envolve a anaacutelise a
sistematizaccedilatildeo e a ampliaccedilatildeo do modelo de Kuramoto com a utilizaccedilatildeo da estrutura TR+ de
Gonzalez (2005) para a melhoria e a otimizaccedilatildeo do processo de seleccedilatildeo dos documentos
recuperados em uma busca
O estudo e a descriccedilatildeo do modelo em UML permitiu por ser uma linguagem
poderosa expressar de modo mais claro e preciso o modelo SINTR+ Foi construiacuteda a anaacutelise
de domiacutenio do sistema desejado incluindo o desenvolvimento de diagramas de casos de uso
bem como suas descriccedilotildees do modelo conceitual de diagramas de classes e de sequumlecircncia As
78
fases de anaacutelise e projeto desenvolvidas para a aplicaccedilatildeo proposta datildeo suporte agrave continuidade
do seu desenvolvimento
O novo modelo desenvolvido foi projetado como um sistema de recuperaccedilatildeo de
informaccedilatildeo (SRI) aplicaacutevel a bases de dados natildeo distribuiacutedas abrangendo a um determinado
domiacutenio de aplicaccedilatildeo a sua adequaccedilatildeo e expansatildeo para uso na Web constitui-se em uma
importante linha de continuidade de pesquisa
A principal contribuiccedilatildeo deste trabalho estaacute na sistematizaccedilatildeo e siacutentese das teorias de
Kuramoto com Gonzalez indicando o uso dessas teorias como uma nova alternativa para a
melhoria da busca de recuperaccedilatildeo de informaccedilotildees Os modelos de recuperaccedilatildeo simplesmente
buscavam as informaccedilotildees solicitadas pelo usuaacuterio O novo modelo proposto SINTR+ baseia-
se na interaccedilatildeo entre o usuaacuterio e a maacutequina atraveacutes de Sintagmas Nominais por niacuteveis e
tambeacutem nas relaccedilotildees das palavras conforme o modelo de Gonzalez
Com este trabalho natildeo se pretendeu desenvolver uma implementaccedilatildeo completa do
modelo construiacutedo Mas o trabalho conseguiu mostrar a exequumlibilidade desta implementaccedilatildeo
computacional descrevendo os diagramas e as descriccedilotildees dos casos de uso e a sua modelagem
conceitual culminando com a construccedilatildeo dos diagramas de classes e de sequumlecircncia A proacutexima
etapa que permitiria detalhar as potencialidades e limitaccedilotildees do modelo de forma ampla
poderia se constituir em amplos estudos de casos onde se determinaria a complexidade
computacional da implementaccedilatildeo requerida
Os dados apresentados no capiacutetulo 4 jaacute indicam aspectos positivos que consolidam a
importacircncia da utilizaccedilatildeo dos Sintagmas Nominais na diminuiccedilatildeo de descritores para
manipulaccedilatildeo com um ganho bastante significativo porque os iacutendices possuem informaccedilotildees
relevantes dos documentos (conceitos significativos de uma sentenccedila) e com isto agiliza-se a
pesquisa na base de dados Quer-se crer aqui e um estudo mais amplo poderia determinar que
essa reduccedilatildeo de descritores natildeo deve ter nenhum impacto na qualidade da busca realizada
Outro aspecto significativo eacute a reduccedilatildeo do uso de memoacuteria tanto na fase de indexaccedilatildeo
como na de busca tornando mais raacutepido o processo interno
Outro aspecto positivo se refere agrave melhoria de desempenho como um todo pois
quanto menor o traacutefego em uma rede menos informaccedilotildees o servidor vai processar e estaraacute
mais disponiacutevel E quanto melhor for o processo de indexaccedilatildeo menos memoacuteria o servidor vai
utilizar E com isto o tempo de resposta na fase de busca diminui e o resultado qualitativo da
pesquisa se amplia
79
Uma outra vantagem eacute que no modelo SINTR+ seratildeo armazenados na base de dados
os documentos e seus SN de uacuteltimos niacuteveis e manipulados apenas os uacuteltimos niacuteveis da
estrutura de SN Seraacute soacute atraveacutes de uma programaccedilatildeo que seratildeo classificados por niacuteveis
diminuindo assim o volume duplicado de dados na manipulaccedilatildeo
Os diagramas construiacutedos referentes ao gerenciamento e operaccedilatildeo do BD no niacutevel do
administrador satildeo fundamentais para o entendimento do funcionamento e da manutenccedilatildeo do
banco de dados facilitando processos como a inserccedilatildeo de novos documentos e outras accedilotildees
contribuindo tambeacutem para o diferencial deste trabalho
80
6 REFEREcircNCIAS BIBLIOGRAacuteFICAS
ABRAHAtildeO Paulo Ricardo Carneiro Modelagem e Implementaccedilatildeo de um Leacutexico Semacircntico para o Portuguecircs Dissertaccedilatildeo (Mestrado) Porto Alegre PUCRS 1997
ABREU Sandra C GOULART Rodrigo VIEIRA Renata (2004) Identificaccedilatildeo de Expressotildees Anafoacutericas e Natildeo Anafoacutericas com Base na Estrutura do Sintagma 2ordm Workshop em Tecnologia da Informaccedilatildeo e da Linguagem Humana (TIL 2004) - SalvadorBA - 05 e 06 de agosto de 2004 Disponiacutevel em httpwwwinfunisinosbr~renatalaboratoriopublicacoestilsandra04pdf Acesso em nov de 2004
BAEZA-YATES Ricardo RIBEIRO-NETO Berthier Modern Information Retrieval New York Addison-Wesley 1999
CARDOSO Olinda N P Recuperaccedilatildeo de Informaccedilotildees In Infocomp-Journal of Computer Science vol 2 n 1 Lavras MG 2000 p33-38 Disponiacutevel em httpwwwdccuflabrinfocompartigosv21olindapdf Acesso em mar de 2004
CHISHMAN Rove et al Extraccedilatildeo de Sintagmas Nominais para o Processamento de Co-Referecircncia In V Encontro para o processamento computacional do Portuguecircs escrito e falado (PROPOR 2000) Atibaia - Satildeo Paulo Anais do V Encontro para o processamento computacional do Portuguecircs escrito e falado Satildeo Carlos ICMCUSP 2000 Disponiacutevel em httpwwwinfunisinosbr~renatalaboratoriopublicacoespropor00pdf Acesso em jan de 2005
FERNEDA Edberto Recuperaccedilatildeo de Informaccedilatildeo anaacutelise sobre a contribuiccedilatildeo da ciecircncia da computaccedilatildeo para a ciecircncia da informaccedilatildeo Tese (Doutorado) Satildeo Paulo USP Escola de Comunicaccedilatildeo e Artes 2003 Disponiacutevel em httpwwwtesesuspbrtesesdisponiveis2727143tde-15032004-130230 Acesso em set de 2004
FERREIRA Aureacutelio Buarque de Holanda Novo Aureacutelio Seacuteculo XXI o dicionaacuterio da liacutengua portuguesa 3ed Rio de Janeiro Nova Fronteira 1999
GASPERIN C GOULART R VIEIRA R Uma ferramenta para Resoluccedilatildeo Automaacutetica de Co-referecircncia Anais do Encontro Nacional de Inteligecircncia Artificial (ENIA) Campinas SP 2003 Disponiacutevel em httpwwwexatecunisinosbr~renatalaboratoriopublicacoesart1pdf Acesso em set de 2004
81
GONZALEZ Marco Antocircnio Insaurriaga Representaccedilatildeo Semacircntica de Sentenccedilas em Linguagem Natural e sua aplicaccedilatildeo na Recuperaccedilatildeo de Informaccedilatildeo Trabalho Individual 2 Doutorado Porto Alegre PPCC da PUCRS 2000
________ O Leacutexico Gerativo de Pustejovsky sob o enfoque da Recuperaccedilatildeo de Informaccedilotildees Trabalho Individual 1 Doutorado Porto Alegre PPCC da PUCRS 2000a
________ Termos e Relacionamentos em Evidecircncia na Recuperaccedilatildeo de Informaccedilatildeo Tese (Doutorado) Porto Alegre PPGC da UFRGS 2005
GUEDES Gilleanes T A UML uma abordagem praacutetica Satildeo Paulo Novatec 2004
HILL Brad Pesquisa na Internet Rio de Janeiro Campus 1999
KURAMOTO Heacutelio Proposition drsquoum Systegraveme de Recherche drsquoInformation Assisteacutee par Ordinateur Tese (Doutorado) LrsquoUniversiteacute Lumiegravere ndash Lyon - Franccedila 1999
________ Uma abordagem alternativa para o tratamento e a recuperaccedilatildeo de informaccedilatildeo textual os sintagmas nominais Ciecircncia da Informaccedilatildeo (Brasiacutelia) v25 n2 1995 Disponiacutevel em httpdiciibictbrarchive0000016901Ci[1]Inf-2004-476pdf Acesso em mar de 2004
________ Sintagmas Nominais uma nova proposta para a recuperaccedilatildeo de informaccedilatildeo DataGramaZero Revista de Ciecircncia da Informaccedilatildeo v3 n1 fev 2002 Disponiacutevel em httpwwwdgzeroorgfev02Art_03htm Acesso em mar de 2004
LARMAN Craig Utilizando UML e Padrotildees uma introduccedilatildeo agrave anaacutelise e ao projeto orientado a objetos Porto Alegre Bookman 2000
MARTINS Dileta Silveira ZILBERKNOP Luacutebia Scliar Portuguecircs Instrumental 20ordf ed Porto Alegre Sagra Luzzatto 1999
MOURA Heronides M de M A determinaccedilatildeo de sentidos lexicais no contexto Cadernos de Estudos Linguumliacutesticos v 41 Campinas SP 2001 NETO Magdiel Medeiros Aragatildeo A polissemia em palavras designativas de objetos fiacutesicos e eventos 2003 Disponiacutevel em httpwwwabralinorgbranaishtm Acesso em mai de 2004
________A Polissemia de acordo com a Teoria do Leacutexico Gerativo Satildeo Miguel do Oeste SC Revista do Centro de Ciecircncias da Comunicaccedilatildeo e Artes n6 maiago 2003a
82
PUSTEJOVSKY James The Generative Lexicon Association for Computational Linguistics Computer Science Department Brandeis University Cambridge MA The MIT Press 1991 Disponiacutevel em httpportalacmorgcitationcfmid=176324 Acesso em set de 2004
ROSSI Albertina Palavras Polissecircmicas entre evento e informaccedilatildeo e seu tratamento nos dicionaacuterios Aureacutelio e Houaiss Tese (Doutorado) Florianoacutepolis USFC Centro de Comunicaccedilatildeo e Expressatildeo - Programa de Poacutes-Graduaccedilatildeo em LetrasLinguumliacutestica 2003
SILVA Edna Luacutecia da Metodologia da pesquisa e elaboraccedilatildeo de dissertaccedilatildeo Edna Luacutecia da Silva Estera Muszkat Menezes ndash 2a ed revndash Florianoacutepolis Laboratoacuterio de Ensino a Distacircncia da UFSC 2001 Disponiacutevel em httpprojetosinfufscbrarquivosMetodologia20da20Pesquisa203a20edicaopdf Acesso em mai de 2005
SILVA Maria C de S KOCH Ingedore V Linguumliacutestica aplicada ao portuguecircs sintaxe 5ed Satildeo Paulo Cortez 1993
WAZLAWICK Raul Sidnei Anaacutelise e Projeto de Sistemas de Informaccedilatildeo Orientados a Objetos Rio de Janeiro Elsevier 2004
61 Bibliografia Consultada
BRAumlSCHER Marisa A Ambiguumlidade na Recuperaccedilatildeo da Informaccedilatildeo Revista Ciecircncia da Informaccedilatildeo (Brasiacutelia) v3 n1 2002 Disponiacutevel em httpwwwdgzorgbrfev02Art_05htm Acesso em abr de 2004
CARVALHO Niacutevea M de Melo Recuperaccedilatildeo da informaccedilatildeo implementaccedilatildeo e avaliaccedilatildeo de sistema de recuperaccedilatildeo de informaccedilatildeo utilizando o modelo vetorial Dissertaccedilatildeo (Mestrado) Amazonas Universidade Federal do Amazonas Programa de Poacutes-Graduaccedilatildeo em Informaacutetica 2002 Disponiacutevel em httpposfacomufubr~reneacervosriRI-ModeloVetorial-NiveaCarvalhopdf Acesso em Ago de 2004
FODOR Jerry LEPORE Ernie The emptiness of the Lexicon Critical Reflections on J Pustejovskyrsquos The Generative Lexicon Rutgers University Center for Cognitive Science
83
GOMES Andreacuteia de Faacutetima R O singular nu e a sentenccedila geneacuterica no portuguecircs brasileiro Dissertaccedilatildeo (Mestrado) Florianoacutepolis UFSC Programa de Poacutes-Graduaccedilatildeo em Linguumliacutestica 2001
GONZALEZ Marco LIMA Vera L S de Sintagma Nominal em Estrutura Hieraacuterquica Temaacutetica na Recuperaccedilatildeo de Informaccedilatildeo Anais ENIA 2001 Fortaleza 2001 Disponiacutevel em httpwwwinfpucrsbr~gonzalezdocssnehtpdf Acesso em dez 2005
________ T-Lex Thesaurus com Estruturaccedilatildeo Semacircntica e Operaccedilotildees Gerativas XXVII Conferencia Latinoamericana de Informatica (CLEI2001) Ciudad de Meacuterida Venezuela 2001 Disponiacutevel em httpwwwinfpucrsbr~gonzalezdocsartigotlexpdf Acesso em jan de 2006 (httpwwwinfpucrsbr~gonzalezpesqqhtm)
________ Recuperaccedilatildeo de Informaccedilatildeo e Processamento da Linguagem Natural XXIII Congresso da Sociedade Brasileira de Computaccedilatildeo Campinas 2003 Anais do III Jornada de Mini-Cursos de Inteligecircncia Artificial Disponiacutevel em httpwwwinfpucrsbr~gonzalezdocsminicurso-jaia2003pdf Acesso em jan de 2006
HEIDE Ann Guia do Professor para a Internet completo e faacutecil 2ed Porto Alegre Artes Meacutedicas Sul 2000
MOURA Heronides M de M Linguagem e cogniccedilatildeo na interpretaccedilatildeo de metaacuteforas Universidade Federal de Juiz de Fora Editora UFJF 2003 Disponiacutevel em httpwwwrevistaveredasufjfbrvolumesv6n1cap11pdf Acesso em jan de 2006
PARREIRAS Fernando O uso de sintagmas nominais como fonte de descritores para textos de perioacutedicos cientiacuteficos Escola de Ciecircncia da Informaccedilatildeo Belo Horizonte 2003 Disponiacutevel em httpwwwfernandoparreirasnombrpublicacoessnpdf Acesso em set de 2004
PEacuteREZ Claacuteudia C C GASPERIN Caroline VIEIRA Renata Extraccedilatildeo Semi-Automaacutetica de Conhecimento a partir de Textos 2003 Disponiacutevel em httpwwwinfunisinosbr~renatalaboratorio publicacoesenia2003-submittedpdf Acesso em ago de 2005
PIZZATO Luiz A Estrutura Multitesauro para Recuperaccedilatildeo de Informaccedilotildees Dissertaccedilatildeo (Mestrado) Porto Alegre PUCRS Faculdade de Informaacutetica - Poacutes-Graduaccedilatildeo em Ciecircncia da Computaccedilatildeo 2003 Disponiacutevel em httpwwwpucrsbrunipoainfoposdissertacoesarquivospizzatopdf Acesso em ago de 2004
84
PUSTEJOVSKY James Type Construction and the logic of concepts Disponiacutevel em httpwwwcsbrandeisedu~jamesparticlesindexhtml Acesso em set de 2004
________ The Metaphysics of Words in Context (2000) Disponiacutevel em httpwwwcsbrandeisedu~jamesparticlesindexhtml Acesso em set de 2004
________ The Semantics of Agentive Nominals Disponiacutevel em httpwwwcsbrandeisedu~jamesparticlesindexhtml Acesso em set de 2004
WORDNET a lexical database for the English language Cognitive Science Laboratory Princeton University Disponiacutevel em httpwordnetprincetonedu Acesso em jan de 2006
85
ANEXOS
86
ANEXO A - DOCUMENTO1
Endereccedilo na Web http wwwreciclaveiscombranamghtm
Segunda-feira 28 de agosto de 2000 - Nuacutemero 599 Cresce a induacutestria de reciclagem de plaacutesticos Poreacutem potencial do lixo domeacutestico ainda eacute pouco aproveitado no estado A induacutestria de reciclagem foi a que mais cresceu no setor plaacutestico de Santa Catarina nos uacuteltimos cinco anos No periacuteodo o volume reprocessado no estado cresceu 1664 ao ano atingindo 169 mil toneladas em 1999 Isso equivale a 37 do total transformado pelo setor em Santa Catarina Os dados fazem parte de estudo elaborado pela empresa de consultoria MaxiQuim de Porto Alegre para o Sindicato da Induacutestria de Material Plaacutestico no Estado de Santa Catarina (Simpesc) Contudo esse crescimento reflete mais o reaproveitamento de resiacuteduos gerados em processos industriais do que a reciclagem de lixo domeacutestico como embalagens e garrafas o chamado plaacutestico ldquopoacutes-consumordquo Este segmento cresce de maneira menos acelerada devido a problemas como a necessidade de escala de produccedilatildeo falta de linhas de financiamento e ausecircncia de legislaccedilatildeo que estimule a atividade ldquoEmbora a reciclagem do material poacutes-consumo como sacos embalagens e garrafas esteja aumentando em Santa Catarina a maior parte do crescimento verificado entre 1995 e 1999 refere-se a empresas que utilizam resiacuteduos industriais como mateacuteria-primardquo explica o diretor da MaxiQuim Joatildeo Luiz Zuntildeeda Normalmente chamadas de aparas esses resiacuteduos incluem tambeacutem as peccedilas que natildeo atingiram a qualidade necessaacuteria para ir ao mercado As oito empresas catarinenses de reciclagem de plaacutestico tecircm 383 empregados sem considerar o pessoal que trabalha na coleta de lixo atividade que geralmente eacute informal O valor da produccedilatildeo atingiu R$ 4249 milhotildees em 1999 com crescimento meacutedio de 1526 ao ano nos uacuteltimos cinco anos jaacute descontando a inflaccedilatildeo As empresas de transformaccedilatildeo de plaacutestico estatildeo cada vez mais preocupadas em recuperar o material que antes era perdido devido ao alto custo da resina virgem diz Nelson Pradella proprietaacuterio da empresa Recicle-Ville ldquoIsso eacute fundamental para que elas sejam competitivas pois vendendo os resiacuteduos do processo industrial como sucata as empresas obtecircm menos de 20 do valor da resina virgemrdquo Cobrando 30 do preccedilo da resina virgem a Recicle-Ville devolve para a induacutestria seus resiacuteduos em condiccedilotildees de serem utilizados normalmente no processo produtivordquo explica A empresa de Joinville foi uma das firmas que ajudou a elevar os iacutendices desta induacutestria no estado Ateacute agora ela estava trabalhando apenas com mateacuteria-prima gerada nos processos industriais mas isso deve mudar a partir desta semana Criada haacute um ano a empresa reprocessa cerca de 220 toneladas de plaacutestico por mecircs e estaacute aumentando a sua capacidade para 310 toneladas Ela ainda opera basicamente como terceirizada de empresas de processamento de plaacutesticos reprocessando para elas os resiacuteduos que geram e devolvendo essa mateacuteria em forma granular mesmo estado da resina virgem Como a mateacuteria prima reciclada seraacute utilizada para fazer o mesmo produto que originou a
4
3
2
1
87
apara a qualidade final natildeo eacute afetada Mas a Recicle-Ville estaacute ingressando tambeacutem no segmento de reciclagem do plaacutestico poacutes-consumo A partir desta semana a empresa coloca em funcionamento um sistema de coleta junto a escolas do municiacutepio para recolher materiais plaacutesticos como sacos garrafas e tampinhas apostando principalmente no PET Com isso ela tem a vantagem de receber material mais limpo A contaminaccedilatildeo do plaacutestico pelo lixo orgacircnico eacute justamente um dos principais problemas para o crescimento da induacutestria da reciclagem do lixo domeacutestico A simples separaccedilatildeo do lixo orgacircnico do seco jaacute traria um impulso importante para o setor diz Ana Flores diretora do departamento de meio ambiente e desenvolvimento sustentado da Federaccedilatildeo das Induacutestrias do Estado de Satildeo Paulo (Fiesp) e autora do livro ldquoO dinheiro estaacute no lixo ndash recicle essa ideacuteiardquo ldquoDeveriam ser criados mecanismos de estiacutemulo para a reciclagem Na Holanda por exemplo uma Coca-Cola custa US$ 220 Devolvendo a garrafa acontece o reembolso de US$ 1 Vocecirc acha que algueacutem vai jogaacute-la no lixordquo diz A induacutestria da reciclagem do plaacutestico no Brasil tem crescido bastante em funccedilatildeo do reaproveitamento do PET que eacute usado no segmento de monofilamentos em artigos como vassouras e na induacutestria tecircxtil Conforme Ana Flores a reciclagem gera 250 mil empregos no Paiacutes dos quais 70 satildeo informais Poreacutem a maior parte do potencial de mercado ainda estaacute sendo desperdiccedilado avalia ldquoCerca de 15 do total de plaacutestico que eacute industrializado no Paiacutes eacute reciclado Em dez anos poderiacuteamos chegar a 60 como nos Estados Unidos desde que fosse implementado um conjunto de medidas incentivando essa praacuteticardquo assegura Para a diretora da Fiesc os principais entraves satildeo o aspecto cultural a tributaccedilatildeo incidente na reciclagem do plaacutestico a falta de linhas de financiamento e a ausecircncia de uma legislaccedilatildeo ambiental mais rigorosa ldquoHaacute um contra-senso ecoloacutegico que forccedila a clandestinidade no Brasil onde para fabricar garrafa PET virgem paga-se IPI de 10 e para a reciclagem 12rdquo critica Ana afirma que essa tributaccedilatildeo decorre do interesse governamental em incentivar a induacutestria quiacutemica Outro problema apontado eacute que ao contraacuterio da induacutestria do alumiacutenio que eacute concentrada o predomiacutenio das pequenas empresas na transformaccedilatildeo do plaacutestico dificulta que sejam criadas grandes empresas para reprocessar o lixo Para Flores o sucesso brasileiro na reciclagem do alumiacutenio (o iacutendice eacute de 65 um dos mais altos do mundo) decorre da existecircncia de poucas grandes empresas capitalizadas ldquoAs pequenas empresas natildeo tecircm acesso agraves linhas de creacutedito e isso dificulta a abertura de novas recicladorasrdquo diz Flores Mas haacute quem aponte outros desafios a superar ldquoEmbora seja um mercado que deve crescer muito a reciclagem de plaacutestico natildeo eacute tatildeo simples como normalmente aparece na televisatildeo O volume miacutenimo para que a atividade seja economicamente viaacutevel atendendo a todas as exigecircncias legais eacute de 100 toneladas mecircsrdquo diz Ronaldo Cerri soacutecio da Moinhos Rone de Satildeo Paulo que fabrica equipamentos utilizados na moagem do plaacutestico uma das primeiras etapas da reciclagem Aleacutem disso explica a coleta do plaacutestico eacute mais complicada porque ao contraacuterio das latas de alumiacutenio - que podem ser amassadas o volume fiacutesico eacute maior ldquoHoje entre 70 e 80 dos moinhos que vendemos satildeo para reciclagem de resiacuteduos industriaisrdquo informa (Elmar Meurer de Joinville)
copy GAZETA MERCANTIL
9
8
7
6
5
88
ANEXO B - DOCUMENTO2
Cuidados com o Lixo
Endereccedilo na Web httpwwwpoupetempocombrambientelixohtm
Todos os seres vivos quando morrem apodrecem plantas e animais se decompotildeem e satildeo destruiacutedos por larvas bacteacuterias e fungos e reabsorvidos pela terra pela aacutegua pelo ar Eacute o ciclo da natureza morte decomposiccedilatildeo nova vida e crescimento Tudo o que eacute fabricado pelo homem acaba virando lixo Muito desse lixo natildeo se decompotildee facilmente como a mateacuteria orgacircnica e passa a ser um problema Plaacutesticos latas e vidros demoram muitos anos para se decompor e poluem o meio-ambiente Por isso a importacircncia da reciclagem do lixo fabricado pelo ser humano O lixo eacute formado por resiacuteduos soacutelidos natildeo biodegradaacuteveis e que demoram para se decompor Restos de alimentos folhas e frutas satildeo chamados lixo orgacircnico Existem tambeacutem aleacutem do lixo domiciliar o lixo industrial o de vias puacuteblicas e o hospitalar que necessitam de tratamentos especiais pois oferece perigo agrave sauacutede das pessoas Devido ao aumento da populaccedilatildeo das grandes cidades e com o aumento do consumo de produtos a quantidade de lixo tambeacutem tem aumentado O acuacutemulo de lixo eacute um dos principais problemas nas grandes cidades Muitos materiais que vatildeo para o lixo natildeo podem ser desperdiccedilados podendo ser reaproveitados e reutilizados Material orgacircnico Tudo o que eacute resto de comida de animais de plantas e frutas eacute considerado lixo propriamente dito Ou seja vocecirc deve acondicionaacute-los num uacutenico recipiente Essa material eacute recolhido pela prefeitura e levado para aterros sanitaacuterios onde vatildeo sofrer a decomposiccedilatildeo natural Material reciclaacutevel Eacute praticamente tudo o que eacute fabricado pelo homem material plaacutestico latas de alumiacutenio e ferro garrafas de refrigerante de vidro e PET caixas de papel e papelatildeo jornais revistas livros aparas de papel etc Se vocecirc mora em casa reuacutena-se com sua famiacutelia e com seus funcionaacuterios para estabelecer um meacutetodo de separaccedilatildeo desse material Dependendo do seu volume diaacuterio de lixo escolha 4 recipientes coloridos para acondicionaacute-los azul para papel vermelho para plaacutestico verde para vidro e amarelo para metal ou nomeie cada um deles conforme sua classificaccedilatildeo Se vocecirc mora em condomiacutenio faccedila esse mesmo trabalho reunindo os moradores estabelecendo regras e instruindo os empregados Observaccedilatildeo o lixo orgacircnico deve estar separado daquilo que eacute reciclaacutevel Exemplos Providencie uma caixa resistente ou sacolas e fixe nelas um papel com a identificaccedilatildeo do tipo de lixo vidro e nela vaacute acumulando as garrafas Retire aneacuteis e roacutetulos e lave as garrafas para natildeo acumular insetos Na outra caixa vaacute juntando o lixo papel aparas embalagens de papelatildeo as perdas da impressora jornais e revistas velhas etc Latas de conserva satildeo de ferro e as de refrigerante satildeo de alumiacutenio Elas devem ser acumuladas limpas sem roacutetulo e em caixas separadas As de alumiacutenio podem ser amassadas como uma sanfoninha o que economizaraacute espaccedilo Quando as caixas estiverem cheias elas devem ser encaminhadas para entidades que trabalham com material reciclaacutevel ou simplesmente recolhida pela empresa de sua cidade responsaacutevel pela coleta seletiva Consulte a prefeitura local
89
A destinaccedilatildeo do material para reciclagem pode ser feita de vaacuterias formas Uma famiacutelia mais pobre pode utilizar esse material vendendo para cooperativas e empresas especializadas e conseguir um dinheiro extra Os condomiacutenios de melhor padratildeo econocircmico podem utilizar o resultado da separaccedilatildeo do lixo para reciclagem em benefiacutecio de seus funcionaacuterios propiciando a eles um ganho extra na ajuda da triagem desse material Uma outra forma eacute simplesmente entregar todo o material para as prefeituras que jaacute possuem o meacutetodo de coleta seletiva Ajude a melhorar o meio-ambiente Eacute simples pense antes de comprar Metade do que noacutes compramos eacute lixo Satildeo embalagens que quase sempre natildeo servem para nada e vatildeo direto para o lixo Evite embalagens plaacutesticas elas satildeo pouco reciclaacuteveis enquanto o vidro eacute totalmente reciclaacutevel e muito mais uacutetil no seu reaproveitamento Algumas informaccedilotildees sobre materiais produzidos pelo homem TEMPO DE DECOMPOSICcedilAtildeO DE ALGUNS MATERIAIS
Lenccedilo de papel 3 meses Palito de foacutesforo 6 meses Caroccedilo de maccedilatilde 6 a 12 meses Ponta de cigarro 1 a 2 anos Chiclete 5 anos Lata de accedilo 10 anos Garrafa de plaacutestico 100 anos Garrafa de vidro Mais de 1000 anos Lata de alumiacutenio Natildeo se corroacutei nunca
Plaacutestico riacutegido Leve resistente e praacutetico eacute o material que compotildee cerca de 60 das embalagens plaacutesticas como garrafas de refrigerantes recipientes para produtos de limpeza e higiene e potes de alimentos eacute tambeacutem mateacuteria-prima baacutesica de bombonas fibras tecircxteis tubos e conexotildees calccedilados eletrodomeacutesticos aleacutem de baldes utensiacutelios domeacutesticos e outros produtos Ele pode ser reprocessado gerando novos artefatos plaacutesticos e energia Papel ondulado eacute usado em caixas para transporte de produtos para faacutebricas depoacutesitos escritoacuterios e residecircncias Normalmente chamado de papelatildeo este material tem uma camada intermediaacuteria de papel entre suas partes exteriores disposta em ondulaccedilotildees na forma de uma sanfona O material eacute de faacutecil coleta em grandes volumes comerciais sendo facilmente identificadas quando misturadas com outros tipos de papel por isso seu susto de processamento eacute relativamente baixo Embalagens longa vida satildeo compostas de vaacuterias camadas de material dupleacutex polietileno e alumiacutenio As embalagens cartonadas precisam ser lavadas apoacutes o consumo porque os restos de alimentos contidos nelas dificultam o reprocessamento do material Para aproveitar melhor o espaccedilo as embalagens podem ser amassadas O papel existente nas embalagens cartonadas pode ser compostado para a produccedilatildeo de huacutemus utilizado em hortas e jardins Pneus a borracha e sua reciclagem eacute capaz de devolver ao processo de produccedilatildeo insumo regenerado por menos da metade do custo da borracha natural ou sinteacutetica aleacutem disso economiza energia e poupa petroacuteleo usado como mateacuteria-prima virgem e ateacute melhora as propriedades de materiais feitos com borracha Latas de alumiacutenio aleacutem de reduzir o lixo que vai para os aterros a reciclagem desse material proporciona significativo ganho energeacutetico Para reciclar uma tonelada de latas gasta-se 5 da
90
energia necessaacuteria para produzir a mesma quantidade de alumiacutenio pelo processo primaacuterio Isto significa que cada latinha reciclada equivale ao consumo de um aparelho de TV durante 3 horas A reciclagem evita a extraccedilatildeo da bauxita o mineral beneficiado para a fabricaccedilatildeo da alumina que eacute transformada em liga de alumiacutenio Vidro a metade dos recipientes de vidro eacute fabricados no Paiacutes eacute retornaacutevel Aleacutem disso o material eacute de faacutecil reciclagem pode voltar a produccedilatildeo de novas embalagens substituindo o produto virgem sem perda da qualidade Pet (polietileno tereftalato) as garrafas recicladas satildeo transformadas em cordas e fios de costura carpetes bandejas de frutas e ateacute mesmo novas garrafas Sua reciclagem aleacutem de desviar lixo plaacutestico dos aterros utiliza apenas 30 da energia necessaacuteria para a produccedilatildeo da resina virgem e tem a vantagem de poder ser reciclado vaacuterias vezes sem prejudicar a qualidade do produto final Latas de accedilo Quando reciclado o accedilo volta ao mercado em forma de automoacuteveis ferramentas vigas para construccedilatildeo civil arames vergalhotildees utensiacutelios domeacutesticos e inclusive novas latas Plaacutestico filme eacute uma peliacutecula plaacutestica normalmente usada como sacolas de supermercados sacos de lixo embalagens de leite lonas agriacutecolas e proteccedilatildeo de alimentos na geladeira ou microondas Cerca de 44 eacute papel e 4 eacute folha de alumiacutenio Ajude a melhorar o meio-ambiente
bull Reaproveite sobras e natildeo jogue fora o que puder aproveitar bull Doe roupas que possam ser reformadas ou consertadas bull Doe livros para bibliotecas ou instituiccedilotildees beneficentes bull Use produtos biodegradaacuteveis ou reciclaacuteveis bull Deixe o oacuteleo usado do motor no posto para ser reciclado bull Leve pneus sem uso para os borracheiros bull Evite jogar lixo na rua Jogue o lixo na lixeira bull Embale o lixo corretamente sempre que possiacutevel encaminhe plaacutesticos vidros e papel
para a reciclagem
91
ANEXO C - EXTRACcedilAtildeO MANUAL DE SN DOS DOCUMENTOS
DOCUMENTO1 Linha Sintagma Nominal Niacutevel
1 Plaacutesticos 1 1 Reciclagem de plaacutesticos 2 1 Induacutestria de reciclagem de plaacutesticos 3 2 Lixo 1 2 Lixo domeacutestico 1 2 Potencial do lixo domeacutestico 2 3 Reciclagem 1 3 Induacutestria de reciclagem 2 3 Plaacutestico 1 3 Setor Plaacutestico 1 3 Setor Plaacutestico de Santa Catarina 2 7 Plaacutestico 1 7 Material Plaacutestico 1 7 Induacutestria de Material Plaacutestico 2 7 Sindicato da Induacutestria de Material Plaacutestico 3 7 Sindicato da Induacutestria de Material Plaacutestico no Estado de Santa Catarina 4 8 Resiacuteduos 1 8 Reaproveitamento de resiacuteduos 2 9 Lixo 1 9 Lixo domeacutestico 1 9 Reciclagem do lixo domeacutestico 2 10 Embalagens 1 10 Garrafas 1 10 Embalagens e garrafas 2 10 Plaacutestico 1 10 Plaacutestico poacutes-consumo 1 13 Reciclagem 1 13 Reciclagem de material 2 13 Reciclagem de material poacutes-consumo 2 13 Sacos 1 13 Embalagens 1 13 Garrafas 1 13 Sacos embalagens e garrafas 2 15 Resiacuteduos 1
92
15 Resiacuteduos industriais 1 15 Resiacuteduos industriais como mateacuteria-prima 2 18 Reciclagem 1 18 Reciclagem de plaacutesticos 2 18 Empresas catarinenses de reciclagem de plaacutesticos 3 19 Lixo 1 19 Coleta de lixo 2 22 Plaacutestico 1 22 Transformaccedilatildeo de plaacutestico 2 22 As empresas de transformaccedilatildeo de plaacutestico 3 27 Resiacuteduos 1 32 Plaacutestico 1 34 Plaacutesticos 1 34 Processamento de plaacutesticos 2 34 Empresas de processamento de plaacutesticos 3 34 Terceirizada de empresas de processamento de plaacutesticos 4 34 Os resiacuteduos 1 36 Reciclada 1 36 Mateacuteria-prima reciclada 1 38 Reciclagem 1 38 Reciclagem de plaacutestico 2 38 Reciclagem de plaacutestico poacutes-consumo 2 38 Segmento de reciclagem de plaacutestico poacutes-consumo 3 39 Coleta 1 39 Coleta junto a escolas do municiacutepio 2 39 Um sistema de coleta junto a escolas do municiacutepio 3 40 Plaacutesticos 1 40 Materiais plaacutesticos 1 40 Materiais plaacutesticos como sacos garrafas e tampinhas 2 41 PET 1 43 Lixo 1 43 Lixo orgacircnico 1 43 A contaminaccedilatildeo do plaacutestico 2 43 A contaminaccedilatildeo do plaacutestico pelo lixo orgacircnico 3 44 Lixo 1
93
44 Lixo domeacutestico 1 44 Reciclagem de lixo domeacutestico 2 44 Induacutestria da reciclagem do lixo domeacutestico 3 44 O crescimento da induacutestria da reciclagem do lixo domeacutestico 4 44 Lixo 1 44 Lixo orgacircnico 1 44 A simples separaccedilatildeo do lixo orgacircnico 2 44 A simples separaccedilatildeo do lixo orgacircnico do seco 3 49 A garrafa 1 50 Lixo 1 51 Reciclagem 1 51 Reciclagem do plaacutestico 2 51 A induacutestria da reciclagem do plaacutestico 3 51 A induacutestria da reciclagem do plaacutestico no Brasil 4 52 Reaproveitamento 1 52 Reaproveitamento do PET 2 53 A reciclagem 1 55 Plaacutestico 1 56 Reciclado 1 58 Reciclagem 1 58 Reciclagem do plaacutestico 2 58 Tributaccedilatildeo incidente na reciclagem do plaacutestico 3 61 Garrafa 1 61 Garrafa PET 1 61 Reciclagem 1 63 Induacutestria Quiacutemica 1 64 Alumiacutenio 1 64 Induacutestria do alumiacutenio 2 65 Plaacutestico 1 65 Transformaccedilatildeo do plaacutestico 2 65 Empresas na transformaccedilatildeo do plaacutestico 3 65 Predomiacutenio das pequenas empresas na transformaccedilatildeo do plaacutestico 4 66 Lixo 1 69 Recicladoras 1 69 A abertura de novas recicladoras 2
94
71 Reciclagem 1 71 Reciclagem de Plaacutestico 2 74 Plaacutestico 1 74 Moagem do plaacutestico 2 74 Reciclagem 1 74 Primeiras etapas da reciclagem 2 75 Coleta 1 75 A coleta do plaacutestico 2 77 Reciclagem 1 77 Reciclagem de resiacuteduos 2 77 Reciclagem de resiacuteduos industriais 3
DOCUMENTO2
Linha Sintagma Nominal Niacutevel1 Lixo 1 1 Cuidados com o lixo 2 5 Lixo 1 5 Lixo 1 6 Mateacuteria Orgacircnica 1 6 Plaacutesticos latas e vidros 2 7 Lixo 1 7 Reciclagem do lixo 2 7 A importacircncia da reciclagem do lixo 3 9 O lixo 1 9 Resiacuteduos 1 9 Resiacuteduos soacutelidos 1 9 Resiacuteduos soacutelidos natildeo-biodegradaacuteveis 1 9 Restos de alimentos folhas e frutas 2 10 Lixo 1 10 Lixo orgacircnico 1 11 Lixo 1 11 Lixo domiciliar lixo industrial o de vias puacuteblicas e o hospitalar 3 13 Lixo 1 13 A quantidade de lixo 2
95
15 Lixo 1 15 O acuacutemulo de lixo 2 15 O lixo 1 17 Material orgacircnico 1 18 Restos de comida de animais de plantas e frutas 4 18 Lixo 1 20 Aterro sanitaacuterio 1 20 A decomposiccedilatildeo 1 20 A decomposiccedilatildeo natural 1 21 Reciclaacutevel 1 21 Material reciclaacutevel 1 22 Material plaacutestico latas de alumiacutenio e ferro garrafas de refrigerante de
vidro e PET caixas de papel e papelatildeo jornais revistas livros aparas de papel
4
24 Lixo 1 24 Volume diaacuterio de lixo 2 31 O lixo 1 31 O lixo orgacircnico 1 31 Reciclaacutevel 1 33 Lixo 1 33 Tipo de lixo 2 33 vidro 1 34 As garrafas 1 35 As garrafas 1 36 O lixo 1 36 O lixo papel aparas embalagens de papelatildeo as perdas da impressora
jornais e revistas velhas 3
38 Ferro 1 38 Alumiacutenio 1 42 Reciclaacutevel 1 42 Material reciclaacutevel 1 42 Coleta 1 42 Coleta seletiva 1 44 Reciclagem 1 44 Material para reciclagem 2 44 A destinaccedilatildeo do material para reciclagem 3
96
47 Lixo 1 47 Separaccedilatildeo do lixo 2 47 Separaccedilatildeo do lixo para reciclagem 3 47 O resultado da separaccedilatildeo do lixo para reciclagem 4 50 Coleta 1 50 Coleta seletiva 1 50 O meacutetodo de coleta seletiva 2 53 Lixo 1 53 Embalagens 1 53 O lixo 1 54 Embalagens plaacutesticas 1 54 Pouco reciclaacuteveis 1 54 O vidro 1 57 Decomposiccedilatildeo 1 57 Decomposiccedilatildeo de alguns materiais 2 57 Tempo de decomposiccedilatildeo de alguns materiais 3 67 Plaacutestico 1 67 Plaacutestico riacutegido 1 67 Embalagens plaacutesticas 1 67 Embalagens plaacutesticas como garrafas de refrigerantes recipientes para
produtos de limpeza e higiene e potes de alimentos 4
72 Papel ondulado 1 74 Coleta 1 74 Coleta em grandes volumes comerciais 2 74 Faacutecil coleta em grandes volumes comerciais 2 76 Processamento 1 76 Custo de processamento 2 77 Embalagens 1 77 Embalagens longa vida 1 79 reprocessamento 1 79 Reprocessamento do material 2 82 Hortas e jardins 2 83 Pneus 1 83 Reciclagem 1 83 A borracha e sua reciclagem 2
97
84 Borracha 1 84 Borracha natural ou sinteacutetica 1 84 O custo da borracha natural ou sinteacutetica 2 86 Latas de alumiacutenio 1 86 O lixo 1 86 A reciclagem 1 88 Reciclada 1 88 Latinha reciclada 1 89 A reciclagem 1 91 vidro 1 91 Vidro 1 91 Recipiente de vidro 2 91 Faacutecil reciclagem 1 94 PET 1 94 Recicladas 1 94 Garrafas recicladas 1 95 Reciclagem 1 95 Lixo 1 95 Lixo plaacutestico 1 95 Lixo plaacutestico dos aterros 2 97 Reciclado 1 97 Reciclado vaacuterias vezes 1 98 Latas de accedilo 2 98 Automoacuteveis ferramentas vigas para construccedilatildeo civil arames
vergalhotildees utensiacutelios domeacutesticos e inclusive novas latas 3
100 Plaacutestico filme 1 100 Sacolas de supermercado sacos de lixo embalagens de leite lonas
agriacutecolas e proteccedilatildeo de alimentos na geladeira ou microondas 3
102 Folha de alumiacutenio 2 107 Reciclaacuteveis 1 107 Produtos biodegradaacuteveis ou reciclaacuteveis 1 110 Lixo 1 110 Lixo na rua 2 110 O lixo 1 110 O lixo na lixeira 2
98
111 O lixo 111 Reciclagem 1 111 Plaacutesticos vidros e papel para reciclagem 3
99
ANEXO D - FERRAMENTA1 DE TOQUENIZACcedilAtildeO E ETIQUETAGEM
Endereccedilo na Web hermessourceforgenethermeswebhtml
Texto processado (Paraacutegrafo 6 do Documento1)
A induacutestria da reciclagem do plaacutestico no Brasil tem crescido bastante em funccedilatildeo do reaproveitamento do PET que eacute usado no segmento de monofilamentos em artigos como vassouras e na induacutestria tecircxtil Conforme Ana Flores a reciclagem gera 250 mil empregos no Paiacutes dos quais 70 satildeo informais Poreacutem a maior parte do potencial de mercado ainda estaacute sendo desperdiccedilado avalia ldquoCerca de 15 do total de plaacutestico que eacute industrializado no Paiacutes eacute reciclado Em dez anos poderiacuteamos chegar a 60 como nos Estados Unidos desde que fosse implementado um conjunto de medidas incentivando essa praacuteticardquo assegura
Resultado
A_ART induacutestria_N da_PREP+ART reciclagem_N do_PREP+ART plaacutestico_N no_PREP+ART Brasil_NP tem_VTD crescido_ADJ bastante_ADV em_PREP funccedilatildeo_N do_PREP+ART reaproveitamento_N do_PREP+ART PET_N _ que_PR eacute_VLIG usado_ADJ no_PREP+ART segmento_N de_PREP monofilamentos_N _ em_PREP artigos_N
100
como_CONJSUB vassouras_ADJ e_CONJCOORD na_PREP+ART induacutestria_N tecircxtil_NP _ Conforme_CONJSUB Ana_NP Flores_N _ a_ART reciclagem_N gera_N 250_NC mil_NC empregos_N no_PREP+ART Paiacutes_N _ dos_PREP+ART quais_PR 70_NC satildeo_VLIG informais_ADJ _ Poreacutem_VTD _ a_ART maior_ADJ parte_N do_PREP+ART potencial_N de_PREP mercado_N ainda_ADV estaacute_VLIG sendo_VLIG desperdiccedilado_VTD _ avalia_N _ Cerca_N de_PREP 15_NC do_PREP+ART total_ADJ de_PREP plaacutestico_N que_PR eacute_VLIG
101
industrializado_VTD no_PREP+ART Paiacutes_N eacute_VLIG reciclado_VTD _ Em_PREP dez_NC anos_N poderiacuteamos_VTD chegar_VTI a_ART 60_NC _ como_CONJSUB nos_PREP+ART Estados_NP Unidos_NP _ desde_PREP que_PR fosse_VLIG implementado_ADJ um_ART conjunto_N de_PREP medidas_N incentivando_VTD essa_PD praacutetica_N _ assegura_VTD _
102
ANEXO D - FERRAMENTA2 DE TOQUENIZACcedilAtildeO E ETIQUETAGEM
Endereccedilo na Web httplaelpucspbrcorporaetiquetagem
A ARTD induacutestria N da CPR reciclagem N do CPR plaacutestico N no CPR Brasil N tem V crescido PART bastante ADV em PRP funccedilatildeo N do CPR reaproveitamento N do CPR PET N PT que PRN eacute V usado PART no CPR segmento N de PRP monofilamentos N PT em PRP artigos N como ADV vassouras N e CJ na CPR induacutestria N tecircxtil ADJ PT Conforme ADJ Ana N Flores N PT a ARTD reciclagem N gera V 250 NUM mil N
103
empregos N no CPR Paiacutes N PT dos CPR quais PRN 70 NUM PT satildeo V informais ADJ PT Poreacutem CJ PT a ARTD maior ADJ parte N do CPR potencial N de PRP mercado N ainda ADV estaacute V sendo V desperdiccedilado PART PT avalia V PT ldquoCerca PRP de PRP 15 NUM PT do CPR total N de PRP plaacutestico N que PRN eacute V industrializado PART no CPR Paiacutes N eacute V reciclado PART PT Em PRP dez NUM anos N poderiacuteamos V chegar V a ARTD 60 NUM PT
104
PT como ADV nos CPR Estados N Unidos N PT desde PRP que PRN fosse V implementado PART um ARTI conjunto N de PRP medidas N incentivando V essa PRN praacuteticardquo N PT assegura V PT
105
ANEXO E - PROCESSO DE NOMINALIZACcedilAtildeO Palavra Original Classe Substantivo Abstrato Substantivo Concretotem Verbo E E crescido Verbo no particiacutepio crescimento E bastante Adveacuterbio E E eacute Verbo E E usado Verbo no particiacutepio uso usador tecircxtil Adjetivo E tecido informal Adjetivo informalidade E maior Adjetivo maioridade E potencial Adjetivo potencialidade E ainda Adveacuterbio E E estaacute Verbo E E sendo Verbo E E desperdiccedilado Verbo no particiacutepio desperdiacutecio desperdiccedilador total Adjetivo totalidade totalizador industrializado Verbo no particiacutepio industrial induacutestria reciclado Verbo no particiacutepio E reciclagem poderiacuteamos Verbo E E chegar Verbo E chegada fosse Verbo E E implementado Verbo no particiacutepio implemento implementador incentivando Verbo Incentivo incentivador
E = ausecircncia de nominalizaccedilatildeo
A alma eacute uma borboleta Haacute na vida um momento em que uma voz nos diz que chegou o momento de uma grande metamorfose eacute preciso
abandonar o que sempre fomos para nos tornarmos uma outra coisa
Rubem Alves
iv
AGRADECIMENTOS
O momento de agradecimento permite lembrar com gratidatildeo de todas as pessoas que
conviveram comigo e que foram importantes nesta etapa de construccedilatildeo de conhecimento
Agradeccedilo agrave Universidade Federal de Santa Catarina ao Programa de Poacutes-Graduaccedilatildeo
em Ciecircncia da Computaccedilatildeo e a todos os professores que oportunizaram o aprendizado
alcanccedilado
Em nome destes professores e pelo seu profissionalismo agrave Edla Faust Ramos pelas tatildeo
valiosas orientaccedilotildees pela confianccedila pela crenccedila no meu trabalho e na minha pessoa
Em especial agradeccedilo a minha matildee e ao meu pai Heloisa e Antonio que me
ensinaram a lutar e persistir e pelo carinho apoio e estiacutemulo que sempre me deram
Ao David meu companheiro pela compreensatildeo paciecircncia carinho e apoio
Ao Paulo Bueno e agrave Leila Di Pietro pelo estiacutemulo paciecircncia pelas grandes
contribuiccedilotildees e ajudas prestadas
Agrave Renata Brizzi agrave Josiele Azevedo agrave Danielle Hennings e agrave Adriana Santos pelo apoio
e por suas contribuiccedilotildees
Ao Carlos Eduardo Nascimento pelo apoio e incentivo prestado
E aos meus irmatildeos Beatriz e Reacutegis por sempre acreditarem em mim
E a todos os meus amigos por serem especiais em minha vida
v
IacuteNDICE DE FIGURAS
Figura 1 Componentes de um Sistema de Recuperaccedilatildeo de Informaccedilatildeo 18 Figura 2 Exemplo dos trecircs componentes conjuntivos para query 19 Figura 3 Representaccedilatildeo do resultado de uma expressatildeo booleana conjuntiva (AND)19 Figura 4 Resultado de uma busca booleana disjuntiva (OR) 20 Figura 5 O co-seno do acircngulo adaptado como similar (dj q) 22 Figura 6 Exemplo da estrutura de niacuteveis de Sintagmas Nominais 30 Figura 7 Procedimentos de interaccedilatildeo usuaacuteriominusprotoacutetipo31 Figura 8 Estrutura de dados para acessar os Sintagmas Nominais de primeiro niacutevel a partir de
uma palavra 32 Figura 9 Estrutura de dados para acessar os Sintagmas Nominais de segundo niacutevel a partir de
Sintagmas Nominais de primeiro niacutevel 33 Figura 10 Estrutura de dados para o acesso aos tiacutetulos e textos dos artigos 33 Figura 11 Representaccedilatildeo da matriz de um item lexical39 Figura 12 Matriz superficial da Estrutura de Qualia do item lexical ldquolivrordquo 39 Figura 13 Exemplo da Estrutura de Qualia do item lexical ldquoromancerdquo 40 Figura 14 Exemplo da Estrutura de Qualia do item lexical ldquodicionaacuteriordquo40 Figura 15 Exemplo do LG relacionando ldquodicionaacuteriordquo ldquolivrordquo e peccedila atraveacutes de suas EQ41 Figura 16 Exemplo de polissemia loacutegica na representaccedilatildeo matricial da palavra ldquolivrordquo41 Figura 17 Exemplo de polissemia loacutegica na representaccedilatildeo matricial da palavra ldquojornalrdquo 42 Figura 18 Visatildeo Geral do modelo TR+47 Figura 19 Visatildeo Geral do Modelo Proposto ldquoEstrutura SINTR+rdquo56 Figura 20 Descriccedilatildeo inicial do modelo proposto58 Figura 21 Nuacutemero de palavras do Documento160 Figura 22 Nuacutemero de substantivos adveacuterbios verbos e adjetivos do Documento161 Figura 23 Nuacutemero de palavras restantes x Sintagmas Nominais 62 Figura 24 Sintagmas Nominais e adjetivos inseridos nos SN 62 Figura 25 Diagrama de casos de uso da UML do sistema proposto ndash Pesquisa do Usuaacuterio66Figura 26 Diagrama de casos de uso da UML do sistema proposto ndash Gerenciamento e
Operaccedilatildeo do BD no niacutevel de administrador 67 Figura 27 Modelo Conceitual do sistema proposto72 Figura 28 Diagrama de classes do sistema proposto ndash Pesquisa de Usuaacuterio 73 Figura 29 Diagrama de classes do sistema proposto ndash Gerenciamento e Operaccedilatildeo do BD no
niacutevel de administrador 74 Figura 30 Diagrama de Sequumlecircncia do sistema proposto ndash Pesquisa de Usuaacuterio 75 Figura 31 Diagrama de Sequumlecircncia do sistema proposto ndash Gerenciamento e Operaccedilatildeo do BD
no niacutevel de administrador 76
vi
IacuteNDICE DE TABELAS
Tabela 1 Exemplos de nominalizaccedilatildeo 49 Tabela 2 Exemplo de uma consulta qb53 Tabela 3 Paraacutegrafo 6 do documento163 Tabela 4 RLBs identificadas no paraacutegrafo 6 do documento1 63 Tabela 5 Descriccedilatildeo do caso de uso ndash Inserir novo documento68 Tabela 6 Descriccedilatildeo do caso de uso ndash Alimentar base de dados (Documentos) 68 Tabela 7 Descriccedilatildeo do caso de uso ndash Extrair SN de 4ordm ou uacuteltimo niacutevel 68 Tabela 8 Descriccedilatildeo do caso de uso ndash Tratar regras verbais69 Tabela 9 Descriccedilatildeo do caso de uso ndash Extrair SN de niacuteveis 3 2 e 1 (niacuteveis anteriores) 69 Tabela 10 Descriccedilatildeo do caso de uso ndash Alimentar base de dados (Sintagmas) 69 Tabela 11 Descriccedilatildeo do caso de uso ndash Toquenizar e etiquetar70 Tabela 12 Descriccedilatildeo do caso de uso ndash Nominalizar70 Tabela 13 Descriccedilatildeo do caso de uso ndash Capturar RLBs 70 Tabela 14 Descriccedilatildeo do caso de uso ndash Calcular peso dos descritores 71 Tabela 15 Descriccedilatildeo do caso de uso ndash Alimentar base de dados (Termos e RLBs) 71
vii
SIGLAS
RI Recuperaccedilatildeo de Informaccedilatildeo
SRI Sistemas de Recuperaccedilatildeo de Informaccedilatildeo
SN Sintagma Nominal
LG Leacutexico Gerativo
EQ Estrutura de Qualia
SMART System for the Manipulation and Retrieval of Text
SV Sintagma Verbal
SEL Leacutexico de Enumeraccedilatildeo de Sentidos
PLC Paradigma Leacutexico-Conceitual
XML Extensible Markup Language
UML Linguagem de Modelagem Unificada
UP Processo Unificado
OO Orientado a Objetos
NG N-Grama
TT Termo-Termo
TR Termo-Relacionamento
RT Relacionamento-Termo
TR+ Termo-RelacionamentoRelacionamento-Termo
SINTR+ Sintagma Nominal com TR+
BD Banco de Dados
viii
RESUMO
Este trabalho tem como objetivo apresentar um novo modelo de sistema informatizado de suporte ao usuaacuterio no processo de recuperaccedilatildeo de informaccedilotildees A proposta consiste em apoio durante a definiccedilatildeo da query de busca e baseia-se na identificaccedilatildeo das possibilidades de sistematizaccedilatildeo e junccedilatildeo do modelo de Kuramoto com a estrutura de Gonzalez Para a sua construccedilatildeo foi necessaacuterio analisar e sintetizar o modelo de suporte ao usuaacuterio de Kuramoto (baseado na determinaccedilatildeo dos Sintagmas Nominais) a estrutura de Qualia do Leacutexico Gerativo de Pustejovsky e termos e RLBs (relaccedilotildees lexicais binaacuterias) do modelo TR+ de Gonzalez O resultado que se espera alcanccedilar eacute possibilitar a realizaccedilatildeo de uma interaccedilatildeo que venha a proporcionar uma negociaccedilatildeo adequada dos significados entre o usuaacuterio e a maacutequina negociaccedilatildeo essa que deve resultar em fator fundamental na melhoria da eficiecircncia dos processos de busca O modelo de Kuramoto baseado em uma hierarquia de Sintagmas Nominais suporta inicialmente essa interaccedilatildeo Com a definiccedilatildeo da query de busca e da Estrutura de Qualia de Pustejovsky impliacutecita no modelo TR+ de Gonzalez foi possiacutevel obter uma maior relevacircncia dos documentos recuperados atraveacutes de um caacutelculo de peso de descritores (termos e relacionamentos) evidentes nos documentos As etapas gerais do modelo proposto satildeo a extraccedilatildeo de Sintagmas Nominais e a sua hierarquizaccedilatildeo automaacutetica em niacuteveis o preacute-processamento (toquenizaccedilatildeo e etiquetagem) o processo de nominalizaccedilatildeo e a captura de RLBs Delineado preliminarmente o modelo partiu-se para as etapas de levantamento e anaacutelise de requisitos representada pelos diagramas e pelas descriccedilotildees dos casos de uso chegando-se ao desenvolvimento do seu modelo conceitual que culminou a construccedilatildeo dos diagramas de classes e de sequumlecircncia para a aplicaccedilatildeo proposta Ao final conclui-se que a alternativa indicada neste trabalho aleacutem de ser exequumliacutevel apresenta ganhos qualitativos nos resultados de uma busca em recuperaccedilatildeo de informaccedilotildees e tambeacutem quantitativos no que se refere a um menor tempo na fase de indexaccedilatildeo (rapidez) e um tamanho menor de arquivos de iacutendice gerados (memoacuteria)
Palavras-chave Recuperaccedilatildeo de Informaccedilatildeo Sintagmas Nominais Estrutura de Qualia Termos e RLBs
ix
ABSTRACT
This work has the presentation of a new model of a support information system to the user in the process of information retrieval The proposal consists in the support during the definition of a search query based on the identification of the possibilities of informatization and junction of a Kuramoto model along with the Gonzalez structure For its construction it was necessary to analyze and synthesize the support model to the Kuramoto user (base don the determination of Nominal Syntagm) the Qualia structure of the Lexical Semantics of Pustejovsky and having the LBRs (lexical binary relations) of the Gonzalez TR+ model The result we expect to reach is the possibility of actually performing an interaction that may result in an adequate negotiation of meanings between the user and the machine knowing that this negotiation should result in a fundamental factor in order for the improvement on the efficiency of the search processes The Kuramoto model based on Nominal Syntagm hierarchy initially supports this interaction With the definition of the query search and the Pustejovsky Qualia structure implicit in the TR+ Gonzalez model it was possible to obtain a greater relevance of documents recovered through a calculus of weight of describers (terms and relationships) evident in the document The general stages of the proposed model are the extraction of Nominal Syntagm and their automatic placement into hierarchy the pre-processing (tokening and labeling) the naming and capture of the LRBs After the preliminary outlining of the model we went on to the gathering of stages and requisite analysis presented by diagrams and descriptions of the usage cases finally reaching the development of a conceptual model that culminated in the construction of class diagrams and of a sequence for the proposed application As we reach the end we can conclude that the indicated alternative in this work besides being executable presents qualitative gains in the results of a search for the retrieval of information and also quantitative gains when referring to a smaller amount of time spent in the index phase (speed) and a smaller amount of archives generated (memory)
Key-words Retrieval of Information Nominal Syntagm Qualia Structure Terms e LRBs
x
SUMAacuteRIO
AGRADECIMENTOS iv
IacuteNDICE DE FIGURAS v
IacuteNDICE DE TABELAS vi
IacuteNDICE DE TABELAS vi
SIGLAS vii
RESUMOviii
ABSTRACT ix
SUMAacuteRIOx
1 INTRODUCcedilAtildeO 12
11 Objetivos13 111 Objetivo Geral 13 112 Objetivos Especiacuteficos 13
12 Metodologia13
13 Resultados Esperados e Limitaccedilotildees do Trabalho 14
14 Estrutura da Dissertaccedilatildeo 15
2 RECUPERACcedilAtildeO DE INFORMACcedilAtildeO 16
21 Histoacuterico 16
22 Modelos Claacutessicos de Recuperaccedilatildeo de Informaccedilatildeo 18 221 Modelo Booleano 18
2211 Operadores Booleanos19 2212 Operadores de Proximidade 20
222 Modelo Vetorial21 223 Modelo Probabiliacutestico 23
3 FUNDAMENTACcedilAtildeO TEacuteORICA25
31 A Proposta de Kuramoto 25 311 Extraccedilatildeo dos Sintagmas Nominais 27
3111 Extraccedilatildeo Automaacutetica de Sintagmas Nominais 29 312 A determinaccedilatildeo de uma estrutura para os SN 29
xi
313 Protoacutetipo Desenho da Interface de Busca31 314 Organizaccedilatildeo dos Sintagmas Nominais como Estrutura de Busca 32
32 A Teoria do Leacutexico Gerativo de Pustejovsky34 321 Estruturas do Leacutexico Gerativo36
3211 Estrutura de Argumento 37 3212 Estrutura de Evento 37 3213 Estrutura de Qualia 38 3214 Estrutura de Heranccedila Lexical 40
322 Sistema de Tipos Semacircnticos 41 322 Mecanismos gerativos 42
3221 Coerccedilatildeo de tipo42 3222 Ligaccedilatildeo seletiva 42 3223 Co-composiccedilatildeo 43
33 O Modelo TR+ de Gonzalez45
4 APRESENTACcedilAtildeO E DISCUSSAtildeO DO MODELO PROPOSTO 55
41 Procedimentos desenvolvidos utilizando o modelo de SN de Kuramoto e a proposta Gonzalez - ldquoEstrutura SINTR+rdquo55
42 Descriccedilatildeo Formal do Modelo Proposto SINTR+ 64
5 CONCLUSAtildeO77
6 REFEREcircNCIAS BIBLIOGRAacuteFICAS 80
61 Bibliografia Consultada82
ANEXO A - DOCUMENTO186
ANEXO B - DOCUMENTO288
ANEXO C - EXTRACcedilAtildeO MANUAL DE SN DOS DOCUMENTOS91
ANEXO D - FERRAMENTA1 DE TOQUENIZACcedilAtildeO E ETIQUETAGEM99
ANEXO D - FERRAMENTA2 DE TOQUENIZACcedilAtildeO E ETIQUETAGEM102
ANEXO E - PROCESSO DE NOMINALIZACcedilAtildeO105
12
1 INTRODUCcedilAtildeO
O tema ldquoRecuperaccedilatildeo de Informaccedilatildeordquo (RI) eacute importante para diversas aacutereas tais
como Biblioteconomia Linguumliacutestica Ciecircncia da Computaccedilatildeo entre outras Segundo Baeza-
Yates e Ribeiro-Neto (1999) na Ciecircncia da Computaccedilatildeo esse tema diz respeito agrave recuperaccedilatildeo
de dados e agrave recuperaccedilatildeo de informaccedilatildeo sendo ambos processos importantes e significativos
para a aacuterea
De acordo com os autores os sistemas de recuperaccedilatildeo de informaccedilatildeo lidam com
objetos linguumliacutesticos (textos) e por isso herdam toda a problemaacutetica inerente ao tratamento da
linguagem natural Jaacute a recuperaccedilatildeo de dados estaacute associada a sistemas gerenciadores de
banco de dados (ou simplesmente banco de dados) que ao organizaacute-los jaacute especificam de
forma bem definida a sua estrutura e por conseguinte a sua semacircntica
Um dos desafios na recuperaccedilatildeo de informaccedilatildeo conforme Ferneda (2003) diz
respeito a melhorar a relevacircncia dos resultados de uma busca de maneira que o usuaacuterio possa
encontrar todos os documentos que atendam agraves suas necessidades de informaccedilatildeo Em outras
palavras isto quer dizer que a busca seraacute precisa se conseguir retornar eou listar somente
documentos relacionados ao que o usuaacuterio expressou na definiccedilatildeo da sua busca
Diversos modelos de RI vecircm proporcionando melhorias significativas na relevacircncia
dos resultados De acordo com Baeza-Yates e Ribeiro-Neto (1999) em uma visatildeo centrada no
computador o problema de RI consiste principalmente na construccedilatildeo de iacutendices mais
eficientes no processamento de querys de usuaacuterios com alta performance e no
desenvolvimento de algoritmos de classificaccedilatildeo que melhorem a ldquoqualidaderdquo do conjunto de
respostas Apesar disso os meacutetodos utilizados nesses modelos ainda deixam a desejar natildeo
sendo capazes de recuperar a contento os documentos relevantes a uma consulta do usuaacuterio
Na maioria dos modelos de recuperaccedilatildeo de informaccedilatildeo existentes hoje o processo de
indexaccedilatildeo extrai cada palavra do texto de um documento e insere uma lista de palavras
ordenadas pela frequumlecircncia da palavra no texto Isto desfaz o trabalho intelectual do autor do
documento
Observa-se que diversas pesquisas de RI se focalizam nos algoritmos de busca por
documentos relevantes a partir de querys estabelecidas O foco nesses casos eacute determinar a
relevacircncia de documentos Para isso haacute vaacuterias metodologias desde medir o tempo de
13
permanecircncia do usuaacuterio no acesso a um documento ateacute a determinaccedilatildeo da quantidade de
consultas com querys semelhantes entre outras
Outro aspecto problemaacutetico relaciona-se ao fato de que as informaccedilotildees recuperadas
dependem tambeacutem da clareza do usuaacuterio ao expressar o que necessita Ou seja a dificuldade
natildeo se trata apenas de identificar e definir a relevacircncia dos resultados atraveacutes dos modelos
computacionais de RI que datildeo suporte ao processo da busca mas da capacidade do usuaacuterio de
formular uma expressatildeo de busca utilizando as palavras ou expressotildees de forma clara de
modo a representar os documentos desejados satisfazendo assim a sua necessidade
As palavras utilizadas pelo usuaacuterio possuem um significado claro para ele mas isso
natildeo eacute suficiente para uma boa recuperaccedilatildeo de informaccedilatildeo pois a Liacutengua Portuguesa segundo
Rossi (2003) apresenta muitas palavras iguais com significados diferentes (polissemia) que
variam de acordo com o contexto E haacute tambeacutem palavras diferentes em escrita e pronuacutencia
embora com significados iguais (sinoniacutemia) Ocorre ainda a combinaccedilatildeo de palavras que
segundo Martins e Zilberknop (1999) diz respeito a duas ou mais palavras que podem
combinar-se em ordem diferente designando ideacuteias completamente diversas
Esses aspectos da linguagem natural satildeo obstaacuteculos na obtenccedilatildeo de bons resultados
em um procedimento de recuperaccedilatildeo de informaccedilatildeo No caso da polissemia e da combinaccedilatildeo
de palavras pode ocorrer o aumento da taxa de ruiacutedos1 ou o incremento da taxa de silecircncio2
que acontecem no caso de sinoniacutemia Isto pode levar a um resultado de busca de documentos
que natildeo atenda agraves necessidades de informaccedilatildeo do usuaacuterio Portanto a existecircncia de uma
negociaccedilatildeo de significados entre usuaacuterio e maacutequina levaria possivelmente a resultados mais
relevantes
O surgimento das novas tecnologias da informaccedilatildeo e da comunicaccedilatildeo fez crescer o
volume de publicaccedilotildees na Internet Esse crescimento segundo Cardoso (2000) tem
dificultado ainda mais a recuperaccedilatildeo de informaccedilotildees relevantes Um aspecto positivo eacute a
facilidade de acesso pela Web (World Wide Web) aos acervos bibliograacuteficos de diversas
universidades brasileiras e mesmo do mundo inteiro Visto que o aumento do acervo torna
ainda mais complexa a busca por isso esperava-se que esses meacutetodos acompanhassem tal
desenvolvimento mas isto ainda natildeo aconteceu de forma satisfatoacuteria
A dificuldade aparece rapidamente nos vaacuterios mecanismos da Web como ldquoGooglerdquo
ldquoCaderdquo entre outros que ao serem acionados para buscar uma determinada informaccedilatildeo
1 Taxa de ruiacutedos eacute definida como sendo a relaccedilatildeo entre a quantidade de documentos recuperados natildeo pertinentes e a quantidade total de documentos 2 Taxa de silecircncio eacute definida como sendo a relaccedilatildeo entre a quantidade de documentos recuperados pertinentes natildeo recuperados e a quantidade total de documentos pertinentes na base de dados
14
listam centenas ou mesmo milhares de referecircncias como resposta sendo normalmente destas
relevantes apenas as primeiras Aleacutem disso ao se utilizarem as mesmas palavras em diferentes
mecanismos (sites) de pesquisa os resultados variam segundo Hill (1999) devido agraves rotinas
automatizadas de pesquisa diferenciadas
O usuaacuterio precisa ainda utilizar palavras-chave para dar foco agrave sua pesquisa Segundo
Baeza-Yates e Ribeiro-Neto (1999) o interessante seria jaacute poder dizer ldquoDecirc-me dados
estatiacutesticos sobre a equipe da seleccedilatildeo brasileira de basquete no ano de 2004rdquo Mas apesar de a
tecnologia da Internet estar progredindo ainda se estaacute bastante distante desse estaacutegio
Uma linha de pesquisa que tem como representante o trabalho de Kuramoto (1999)
procura abordar a questatildeo da RI desde a perspectiva do apoio ao usuaacuterio na formulaccedilatildeo da
query de busca A expectativa eacute oferecer jaacute no momento da formulaccedilatildeo da query um apoio
interativo para o estabelecimento de uma chave mais adequada ao contexto real da busca A
proposta de Kuramoto eacute baseada na determinaccedilatildeo dos Sintagmas Nominais (SN) de um
domiacutenio de aplicaccedilatildeo
O uso de SN permite um processo de refinamento da busca A forma de navegar
pelos niacuteveis de SN intensifica a interaccedilatildeo entre o usuaacuterio e o computador (KURAMOTO
2002) A interface de busca passa a dar um suporte para o usuaacuterio na formulaccedilatildeo de sua query
antes de listar todos os documentos
A proposta de utilizaccedilatildeo de uma interface de apoio utilizando SN configura-se como
inovadora pois natildeo se tem conhecimento de outra proposiccedilatildeo que considere o fato de que nem
sempre o usuaacuterio eacute capaz de explicitar a sua necessidade de informaccedilatildeo em uma uacutenica
expressatildeo de busca
Segundo Kuramoto (2002) as palavras como unidades de um dicionaacuterio natildeo contecircm
qualquer substacircncia Elas adquirem essa substacircncia no momento em que se inserem no
universo do discurso ou seja as palavras inseridas no texto de um documento assumem um
significado especiacutefico
Percebe-se que essa linha de pesquisa eacute bastante promissora e que a aacuterea de
Linguumliacutestica pode oferecer alternativas interessantes uma delas foi vislumbrada na teoria do
Leacutexico Gerativo (LG) de Pustejovsky (1991) Nessa teoria Pustejovsky buscando dar conta
da polissemia loacutegica das palavras propondo uma estrutura para a semacircntica de uma liacutengua da
mesma forma que a sintaxe eacute estruturada Na estrutura proposta por Pustejovsky a
componente principal eacute a estrutura de dimensotildees de significados (denominada de Estrutura de
Qualia)
15
Uma palavra escrita pelo usuaacuterio pode ser utilizada pelos documentos de um acervo
e portanto identificada pela maacutequina atraveacutes de seus modelos de RI com um sentido
completamente diferente do contexto imaginado pelo usuaacuterio Para a palavra ldquojornalrdquo por
exemplo o usuaacuterio pode estar se referindo ao preacutedio onde fica o jornal ou ao objeto fiacutesico
propriamente dito ou ateacute mesmo ao conteuacutedo do jornal (informaccedilatildeo contida)
A Estrutura de Qualia auxilia a RI na identificaccedilatildeo de qual sentido mais especiacutefico o
usuaacuterio busca dessa forma esta estrutura poderia classificar os documentos contendo a palavra
ldquojornalrdquo segundo as diferentes qualia envolvidas Isso representaria um refinamento
importante na busca que poderia resultar em mais satisfaccedilatildeo para o usuaacuterio e portanto mais
eficiecircncia dos mecanismos de busca O reconhecimento da importacircncia da teoria de
Pustejovsky pode ser constatado na existecircncia de trabalhos relacionados na liacutengua portuguesa
como eacute o caso da pesquisa de Abrahatildeo (1997) que desenvolveu a modelagem e a
implementaccedilatildeo de um leacutexico semacircntico para a nossa Liacutengua a partir de um estudo
aprofundado da teoria de Pustejovsky
Aleacutem disso uma outra questatildeo importante a ressaltar eacute que existem problemas
ligados agrave definiccedilatildeo das palavras Essa criacutetica segundo Rossi (2003) se fundamenta no fato de
os lexicoacutegrafos3 parecerem atuar de maneira mais intuitiva do que propriamente fazer uso de
teorias semacircnticas que decircem o devido suporte agrave tarefa de definir um item lexical Rossi (2003)
reforccedila que muitos dicionaacuterios nem sempre prevecircem a polissemia subjacente aos itens
lexicais
Outro trabalho pesquisado que permitiu uma ampliaccedilatildeo do modelo proposto nesta
dissertaccedilatildeo foi o de Gonzalez (2005) com o seu modelo TR+ Este modelo natildeo utiliza
sistematicamente a Estrutura de Qualia aparecendo esta apenas impliacutecita principalmente a
parte formal das palavras As palavras e seus relacionamentos ganham em Gonzalez uma
importacircncia contextual pelo caacutelculo de um peso (peso de descritores) que busca manter sua
unidade significativa
A abordagem proposta para este trabalho orienta-se na melhoria da query de busca
dos usuaacuterios A pesquisa siacutentese e sistematizaccedilatildeo da proposta de Kuramoto (1999) e do
modelo de Gonzalez (2005) possibilitaram o desenvolvimento de um novo modelo chamado
3 Lexicoacutegrafos satildeo autores de dicionaacuterios ou seja dicionaristas
de SINTR+ Esse modelo utiliza a formulaccedilatildeo de consulta em RI apresentando os Sintagmas
Nominais referentes a esta consulta e com isto inicia a interaccedilatildeo com o usuaacuterio onde o mesmo
13
escolhe o SN de niacutevel apropriado e a partir daiacute haacute sistematizaccedilatildeo com o modelo TR+ de
Gonzalez
Pretende-se por um lado ajudar e apoiar o usuaacuterio a melhor especificar sua query no
contexto real da sua busca por outro lado potencializa-se o tempo tanto na fase de indexaccedilatildeo
como na de busca e reduz-se o espaccedilo utilizado de memoacuteria para dados na base
11 Objetivos
111 Objetivo Geral
Descrever a partir da identificaccedilatildeo das possibilidades de ampliaccedilatildeo de siacutentese e de
sistematizaccedilatildeo das propostas de Kuramoto e de Gonzalez um novo modelo para um sistema
informatizado de suporte ao usuaacuterio na definiccedilatildeo da sua query de busca durante um processo
de recuperaccedilatildeo de informaccedilatildeo
112 Objetivos Especiacuteficos
a) Analisar as propostas citadas buscando a sua sistematizaccedilatildeo e identificaccedilatildeo de alternativas
de implementaccedilatildeo e ampliaccedilatildeo
b) Definir o modelo conceitual do sistema desejado atraveacutes da sua anaacutelise de domiacutenio
representando-o a partir dos seus diagramas de classes e de sequumlecircncia
c) Avaliar exploratoriamente o modelo desenhado a partir da construccedilatildeo de exemplos
demonstrativos das suas principais propriedades
12 Metodologia
Para a construccedilatildeo deste trabalho inicialmente foi realizada uma revisatildeo bibliograacutefica
a partir de livros artigos e outros materiais disponiacuteveis referentes ao assunto em questatildeo
fundamentalmente sobre a aacuterea de Recuperaccedilatildeo de Informaccedilatildeo A metodologia utilizada para
desenvolver este trabalho baseou-se no cronograma de etapas a serem desenvolvidas descritas
a seguir
14
a) Estudo e identificaccedilatildeo das diferentes alternativas e abordagens atualmente desenvolvidas
para a aacuterea de recuperaccedilatildeo de informaccedilotildees
b) Formulaccedilatildeo da proposta de trabalho definiccedilatildeo do escopo e da fundamentaccedilatildeo da proposta
c) Estudo das teorias de base para a construccedilatildeo do modelo teoria do Leacutexico Gerativo de
James Pustejovsky e o modelo de Kuramoto E apoacutes um estudo de Abrahatildeo e Gonzalez
d) Esboccedilo do modelo para o sistema proposto
e) Especificaccedilatildeo dos requisitos do sistema proposto
f) Construccedilatildeo da anaacutelise de domiacutenio definiccedilatildeo do modelo conceitual
g) Construccedilatildeo dos diagramas de classes e de sequumlecircncia para o modelo
h) Construccedilatildeo de exemplos de aplicaccedilatildeo do modelo
i) Anaacutelise e conclusotildees finais
13 Resultados Esperados e Limitaccedilotildees do Trabalho
A principal contribuiccedilatildeo deste trabalho reside no fato de sistematizar as teorias de
Kuramoto Pustejovsky e Gonzalez construindo um novo modelo que amplia as
potencialidades das propostas de Kuramoto e Gonzalez melhorando os resultados do processo
de recuperaccedilatildeo de informaccedilotildees Esta melhoria ocorre em relaccedilatildeo agrave diminuiccedilatildeo do tempo de
busca dos documentos e agrave relevacircncia dos resultados encontrados por meio da junccedilatildeo de
diferentes modelos para os processos de indexaccedilatildeo e busca
A princiacutepio o modelo construiacutedo eacute antevisto como aplicaacutevel a bases de documentos
natildeo distribuiacutedas e contidas a um determinado domiacutenio de aplicaccedilatildeo mas jaacute eacute possiacutevel
perceber formas de adaptaacute-lo expandindo-o para seu uso na Web
Este trabalho natildeo tem o intuito de gerar uma implementaccedilatildeo computacional
completa do modelo proposto propotildee-se antes a demonstrar a viabilidade desta
implementaccedilatildeo descrevendo os diagramas e as descriccedilotildees dos casos de uso e a sua
modelagem conceitual culminando a construccedilatildeo dos diagramas de classes e de sequumlecircncia A
anaacutelise das potencialidades e limitaccedilotildees do modelo deveraacute ser possiacutevel a partir da realizaccedilatildeo
de estudos de casos onde se determine a complexidade computacional da implementaccedilatildeo
requerida
15
14 Estrutura da Dissertaccedilatildeo
O trabalho apresenta um capiacutetulo introdutoacuterio que orienta os toacutepicos do projeto e o
desenvolvimento da pesquisa aleacutem de sintetizar os resultados que seratildeo explorados na
conclusatildeo
O Capiacutetulo 2 a seguir aborda temas e definiccedilotildees da aacuterea de RI mostrando a sua
histoacuteria e tambeacutem discute o funcionamento e as vantagens e desvantagens dos modelos
claacutessicos de RI
No Capiacutetulo 3 apresenta-se a fundamentaccedilatildeo teoacuterica desta dissertaccedilatildeo onde satildeo
abordados trecircs autores Primeiramente apresenta-se a Proposta de Kuramoto que se baseia nos
niacuteveis de Sintagmas Nominais sendo exposto o protoacutetipo de interaccedilatildeo entre usuaacuterio e maacutequina
desenvolvido por este autor Na Teoria do Leacutexico Gerativo de Pustejovsky deu-se ecircnfase agrave
apresentaccedilatildeo da Estrutura de Qualia pois eacute a que foi julgada mais adequada para a aplicaccedilatildeo
no modelo proposto apresenta-se tambeacutem uma anaacutelise do estudo de Abrahatildeo Por fim
discute-se e apresenta-se o trabalho de Gonzalez e do seu modelo TR+ que possibilitou
juntamente com a proposta de Kuramoto sistematizar a proposta desta dissertaccedilatildeo
No Capiacutetulo 4 eacute desenvolvida a proposta do sistema SINTR+ atraveacutes dos diagramas e
das descriccedilotildees dos casos de uso do modelo o modelo conceitual os diagramas de classes e de
sequumlecircncia juntamente com exemplos demonstrativos das suas propriedades
No Capiacutetulo 5 tecircm-se as conclusotildees referentes ao trabalho bem como as sugestotildees
para continuidade desse foco de pesquisa
O Capiacutetulo 6 apresenta as referecircncias bibliograacuteficas utilizadas para a realizaccedilatildeo deste
trabalho bem como a bibliografia consultada para a compreensatildeo de conceitos abordados na
dissertaccedilatildeo finalizando com os anexos
16
2 RECUPERACcedilAtildeO DE INFORMACcedilAtildeO
Neste capiacutetulo apresentam-se o histoacuterico e os modelos claacutessicos da aacuterea de
recuperaccedilatildeo de informaccedilatildeo O objetivo ao abordar esses toacutepicos eacute delinear uma visatildeo geral da
aacuterea a partir de diversos modelos de RI apontando algumas de suas principais vantagens e
desvantagens Dar-se-aacute destaque ao fato de que os algoritmos de relevacircncia utilizados para
recuperar os documentos desconsideram o contexto da query de busca
21 Histoacuterico
Em 1951 segundo Baeza-Yates e Ribeiro-Neto (1999) Calvin Mooers criou o termo
ldquoInformation Retrievalrdquo (Recuperaccedilatildeo de Informaccedilatildeo) e definiu os problemas a serem
abordados por esta nova aacuterea de pesquisa a qual despertou o interesse principalmente de
bibliotecaacuterios e ldquoexpertsrdquo da informaccedilatildeo
No contexto da Ciecircncia da Informaccedilatildeo segundo Ferneda (2003 p 14)
o termo ldquoRecuperaccedilatildeo de Informaccedilatildeordquo significa para uns a operaccedilatildeo pela qual se seleciona documentos a partir do acervo em funccedilatildeo da demanda do usuaacuterio Para outros ldquoRecuperaccedilatildeo de Informaccedilatildeordquo consiste no fornecimento a partir de uma demanda definida pelo usuaacuterio dos elementos de informaccedilatildeo documentaacuteria correspondentes O termo pode ainda ser empregado para designar a operaccedilatildeo que fornece uma resposta mais ou menos elaborada a uma demanda e esta resposta eacute convertida num produto cujo formato eacute acordado com o usuaacuterio (bibliografia nota de siacutentese etc) Haacute ainda autores que conceituam a recuperaccedilatildeo de informaccedilatildeo de forma muito mais ampla ao subordinar agrave mesma o tratamento da informaccedilatildeo (catalogaccedilatildeo indexaccedilatildeo classificaccedilatildeo)
Para alguns autores segundo Cardoso (2000) RI eacute dita como uma subaacuterea da Ciecircncia
da Computaccedilatildeo que estuda o armazenamento e a recuperaccedilatildeo automaacutetica de documentos que
satildeo objetos de dados geralmente textos Para Baeza-Yates e Ribeiro-Neto (1999) o termo
ldquoRecuperaccedilatildeo de Informaccedilatildeordquo trata da representaccedilatildeo do armazenamento da organizaccedilatildeo e do
acesso aos itens da informaccedilatildeo
De acordo com Ferneda (2003) foi a partir dos experimentos de Hans Peter Luhn
(Engenheiro pesquisador da IBM) na indexaccedilatildeo automaacutetica e na elaboraccedilatildeo automaacutetica de
resumos que surgiram os primeiros resultados significativos no tratamento computacional da
informaccedilatildeo Com isto ldquoLuhn foi durante vaacuterios anos o criador de inuacutemeros projetos que
visavam modificar radicalmente meacutetodos tradicionais de armazenamento tratamento e
17
recuperaccedilatildeo de informaccedilatildeo Em 1961 jaacute acumulava cerca de 80 patentes nos Estados Unidosrdquo
(FERNEDA 2003 p 10-11) Estes dados mostram a importacircncia de Luhn no tratamento da
recuperaccedilatildeo de informaccedilotildees
Em 1960 segundo Ferneda (2003) foi desenvolvido os princiacutepios baacutesicos do modelo
probabiliacutestico para a Recuperaccedilatildeo de Informaccedilatildeo por Maron e Kuhns que foi mais tarde
definido por Robertson e Jones (1976) A deacutecada de 60 foi fundamental em experimentos
desta natureza ldquoem meados dos anos 60 inicia-se uma longa seacuterie de experimentos que
constitui um marco na Recuperaccedilatildeo de Informaccedilatildeo o projeto SMARTrdquo (FERNEDA 2003
p11) Este autor destaca que este projeto foi desenvolvido por Gerard Salton que se
especializou na pesquisa destas evoluccedilotildees na recuperaccedilatildeo de informaccedilotildees produzindo
inuacutemeros artigos cientiacuteficos um modelo de recuperaccedilatildeo de informaccedilatildeo a criaccedilatildeo e o
aprimoramento de diversas teacutecnicas computacionais aleacutem de o sistema SMART
Estes sistemas de recuperaccedilatildeo de informaccedilatildeo geralmente se baseiam na contagem de
frequumlecircncia das palavras do texto e na eliminaccedilatildeo de palavras reconhecidamente de pouca
relevacircncia (FERNEDA 2003) Um exemplo disso satildeo os meacutetodos automaacuteticos de indexaccedilatildeo
de recuperaccedilatildeo de informaccedilatildeo que utilizam ldquofiltrosrdquo para eliminar palavras de pouca
significaccedilatildeo (stopwords4 e noun groups5) aleacutem de normalizar os termos reduzindo-os a seus
radicais Esse processo eacute conhecido como stemming6
Ferneda evidencia que os trabalhos de Luhn e Salton inicialmente natildeo se
preocupavam com a anaacutelise semacircntica das palavras e que seus estudos colaboraram para com
a evoluccedilatildeo atual das pesquisas
Nos trabalhos de Luhn e Salton observa-se inicialmente uma crenccedila de que meacutetodos puramente estatiacutesticos seriam suficientes para tratar os problemas relacionados agrave recuperaccedilatildeo de informaccedilatildeo Poreacutem no transcorrer de suas pesquisas percebe-se uma busca por meacutetodos de anaacutelise semacircntica mais sofisticada Desde os seus primeiros trabalhos Salton se mostra interessado pela utilizaccedilatildeo de processos de tratamento da linguagem natural na recuperaccedilatildeo de informaccedilatildeo Em livro de 1983 Salton e McGill apresentam em um capiacutetulo intitulado Future directions in Information Retrieval a aplicaccedilatildeo do processamento da linguagem natural e da loacutegica fuzzy na recuperaccedilatildeo de informaccedilatildeo apontando a direccedilatildeo de futuras pesquisas para a Inteligecircncia Artificial (FERNEDA 2003 p 12)
Estas contribuiccedilotildees tecircm suas principais ideacuteias presentes ainda na maioria dos
sistemas de recuperaccedilatildeo atuais e nos mecanismos de busca da Web Como aparece na estrutura
de componentes de um sistema de recuperaccedilatildeo de informaccedilatildeo que seguem geralmente um
modelo de funcionamento como demonstrado por Cardoso (2000)
4 Stop Words eliminaccedilatildeo de artigos e conectivos 5 Noun Groups eliminaccedilatildeo de adjetivos adveacuterbios e verbos 6 Stemming reduccedilatildeo de uma palavra ao seu radical Exemplo Engineering Engineer
18
Figura 1 Componentes de um Sistema de Recuperaccedilatildeo de Informaccedilatildeo Fonte GEY apud CARDOSO 2000
22 Modelos Claacutessicos de Recuperaccedilatildeo de Informaccedilatildeo
221 Modelo Booleano
A aacutelgebra booleana eacute um sistema binaacuterio no qual existem somente dois valores
possiacuteveis para qualquer siacutembolo algeacutebrico ldquoverdadeirordquo ou ldquofalsordquo O modelo booleano eacute um
modelo de recuperaccedilatildeo simples baseado na teoria dos conjuntos e na aacutelgebra booleana Aleacutem
disso as querys satildeo especificadas atraveacutes de expressotildees booleanas que tecircm semacircnticas
precisa
Segundo Baeza-Yates e Ribeiro-Neto (1999) e Gonzalez (2000) a simplicidade e o
formalismo claro do modelo booleano recebiam grande atenccedilatildeo nos anos passados sendo
adotados por muitos sistemas comerciais bibliograacuteficos
A estrateacutegia de recuperaccedilatildeo desse modelo eacute baseada em um criteacuterio de decisatildeo
binaacuteria por exemplo um documento pode ser relevante ou natildeo relevante sem noccedilatildeo de escala
de classificaccedilatildeo que previna um bom desempenho na recuperaccedilatildeo Deste modo o modelo
booleano eacute na verdade muito mais um modelo de recuperaccedilatildeo de dados (em vez de
informaccedilatildeo)
19
Aleacutem disso conforme Baeza-Yates e Ribeiro-Neto (1999) enquanto expressotildees
booleanas tecircm semacircnticas precisas frequumlentemente natildeo eacute simples traduzir uma informaccedilatildeo
precisa dentro de uma expressatildeo booleana O modelo booleano prediz que cada documento eacute
relevante ou irrelevante Natildeo existe noccedilatildeo de um resultado (matching) parcial para as
condiccedilotildees da query
As principais vantagens do modelo booleano satildeo o formalismo claro oculto sobre o
modelo e sua simplicidade As principais desvantagens encontram-se no resultado exato que
pode recuperar poucos ou muitos documentos
Figura 2 Exemplo dos trecircs componentes conjuntivos para query Fonte BAEZA-YATES RIBEIRO-NETO 1999
2211 Operadores Booleanos
Os operadores booleanos funcionam atraveacutes de uma expressatildeo booleana para
formulaccedilatildeo de buscas Isto ocorre por meio de operadores loacutegicos AND OR e NOT (E OU e
NAtildeO) Conforme exemplo de Ferneda (2003) a recuperaccedilatildeo de informaccedilatildeo se daraacute em uma
expressatildeo conjuntiva de enunciado t1 AND t2 que recuperaraacute documentos indexados por
ambos os termos (t1 e t2) Isso equivale e permite aparecer agrave intersecccedilatildeo do conjunto dos
documentos indexados pelo termo t1 com o conjunto dos documentos indexados pelo termo
t2
Figura 3 Representaccedilatildeo do resultado de uma expressatildeo booleana conjuntiva (AND) Fonte FERNEDA 2003
20
O autor demonstra que uma expressatildeo disjuntiva t1 OR t2 recuperaraacute o conjunto dos
documentos indexados pelo termo t1 ou pelo termo t2 Isto equivale e possibilita agrave uniatildeo entre
o conjunto dos documentos indexados pelo termo t1 e o conjunto dos documentos indexados
pelo termo t2 (FERNEDA 2003)
Figura 4 Resultado de uma busca booleana disjuntiva (OR) Fonte FERNEDA 2003
2212 Operadores de Proximidade
No modelo booleano existem os operadores de proximidade que permitem
especificar condiccedilotildees relacionadas agrave distacircncia e agrave posiccedilatildeo dos termos no texto Um operador
de proximidade bastante comum nos sistemas de RI e nos mecanismos de busca da Web eacute o
operador ADJ (FERNEDA 2003) Esse operador permite pesquisar duas palavras adjacentes
no texto de um documento na ordem especificada na expressatildeo de busca por exemplo a
expressatildeo recuperaccedilatildeo ADJ informaccedilatildeo teraacute como resultado os documentos que tiverem a
palavra ldquorecuperaccedilatildeordquo seguida da palavra ldquoinformaccedilatildeordquo ou seja recuperaraacute documentos que
contecircm a expressatildeo ldquorecuperaccedilatildeo informaccedilatildeordquo Tambeacutem pode ser utilizado um termo
composto delimitando as suas palavras com aspas por exemplo ldquorecuperaccedilatildeo de
informaccedilatildeordquo
O modelo booleano de acordo com Ferneda (2003) possui limitaccedilotildees que o torna
pouco atrativo satildeo elas
bull O resultado de uma busca booleana se caracteriza por dois subconjuntos os que
atendem agrave expressatildeo de busca e aqueles que natildeo atendem Presume-se que todos
os documentos recuperados satildeo de igual utilidade para o usuaacuterio Natildeo haacute nenhum
mecanismo pelos quais os documentos possam ser ordenados
bull O usuaacuterio leigo se natildeo tiver um treinamento apropriado formularaacute somente
buscas simples Para buscas com expressotildees mais complexas eacute necessaacuterio um
conhecimento da loacutegica booleana
21
bull Natildeo existe uma forma de atribuir importacircncia relativa aos diferentes termos da
expressatildeo booleana Assume-se implicitamente que todos os termos tecircm o mesmo
peso
222 Modelo Vetorial
O modelo vetorial segundo Baeza-Yates e Ribeiro-Neto (1999) reconhece que o uso
de pesos binaacuterios eacute tambeacutem limitante e propotildee uma estrutura em que eacute possiacutevel a resposta
(matching) parcial Isto eacute feito atribuindo-se pesos natildeo binaacuterios aos termos indexados em
querys e em documentos Esses pesos de termos satildeo enfim utilizados para calcular o grau de
similaridade entre cada documento armazenado no sistema e a expressatildeo de busca formulada
pelo usuaacuterio (querys) Como a classificaccedilatildeo dos documentos recuperados eacute feita em ordem
decrescente desse grau de similaridade o modelo vetorial leva em consideraccedilatildeo documentos
que se igualem aos termos de querys somente parcialmente
O modelo vetorial de acordo com Cardoso (2000) e Gonzalez (2000) representa
documentos e consultas como vetores de termos Os termos satildeo ocorrecircncias uacutenicas nos
documentos Os documentos retornados como resultado para uma consulta satildeo representados
similarmente isto quer dizer que o vetor resultado para uma consulta eacute montado atraveacutes de um
caacutelculo de similaridade Aos termos das consultas e dos documentos satildeo atribuiacutedos pesos que
especificam o tamanho e a direccedilatildeo de seu vetor de representaccedilatildeo O acircngulo formado por esses
vetores determina a proximidade da ocorrecircncia E o caacutelculo da similaridade eacute baseado no
acircngulo entre os vetores que representam o documento e a consulta
Cardoso (2000) descreve ainda que os pesos quantificam a relevacircncia de cada termo
para as consultas (Wiq) e para os documentos (Wid) no espaccedilo vetorial Segundo Cardoso
(2000 p 03) ldquopara o caacutelculo dos pesos Wiq e Wid utiliza-se uma teacutecnica que faz o
balanceamento entre as caracteriacutesticas do documento utilizando o conceito de frequumlecircncia de
um termo num documentordquo Desta forma se uma coleccedilatildeo possui N documentos e teremos o nti
que eacute a quantidade de documentos que possuem o termo ti com isto o inverso da frequumlecircncia
do termo na coleccedilatildeo ou idf (inverse documento frequency) eacute dado pela foacutermula de Cardoso
(2000) abaixo
idfi = log (Nni)
22
Esse valor eacute possiacutevel usando a foacutermula para calcular o peso Wid = freq(tid) x idfi
que eacute o produto da frequumlecircncia do termo no documento pelo inverso da frequumlecircncia do termo na
coleccedilatildeo
No modelo vetorial um documento eacute representado por um vetor em que cada
elemento representa o peso ou a relevacircncia do respectivo termo de indexaccedilatildeo para o
documento Cada elemento do vetor (peso) eacute normalizado de forma a assumir valores entre
zero e um Os pesos mais proacuteximos de um (1) indicam termos com maior importacircncia para a
descriccedilatildeo do documento E termos que natildeo estatildeo presentes em um determinado documento
possuem peso igual a zero
Da mesma forma que os documentos no modelo vetorial uma expressatildeo de busca
conforme Baeza-Yates e Ribeiro-Neto (1999) tambeacutem eacute representada por um vetor numeacuterico
em que cada elemento representa a importacircncia (peso) do respectivo termo na expressatildeo de
busca
Diversos documentos e termos de indexaccedilatildeo podem ser representados atraveacutes de uma
matriz na qual cada linha representa um documento e cada coluna representa a associaccedilatildeo de
um determinado termo aos vaacuterios documentos
Figura 5 O co-seno do acircngulo adaptado como similar (dj q) Fonte BAEZA-YATES RIBEIRO-NETO 1999
Um exemplo de uso do modelo vetorial eacute o sistema SMART7 citado anteriormente
este sistema representa por valor numeacuterico cada documento e seu respectivo termo na
descriccedilatildeo do documento Segundo Ferneda (2003) o sistema SMART fornece um meacutetodo
automaacutetico que trata aleacutem do caacutelculo dos pesos dos vetores que representam os documentos
tambeacutem trata os vetores das expressotildees de busca
As principais vantagens do modelo vetorial segundo Baeza-Yates e Ribeiro-Neto
(1999) satildeo (1) esquema de pesos de termos melhora o desempenho da recuperaccedilatildeo (2)
estrateacutegias de resposta (matching) parcial permitem a recuperaccedilatildeo de documentos que se
aproximem de condiccedilotildees de query e (3) foacutermula de classificaccedilatildeo do co-seno ordena os
documentos de acordo com o grau de similaridade da query A desvantagem desse modelo de
23
acordo com os autores diz respeito agraves dependecircncias de termos prejudicando especialmente o
desempenho
Cardoso (2000) considera como principais vantagens do modelo vetorial a sua
simplicidade a facilidade de se computarem similaridades com eficiecircncia e o fato de que se
comporta bem com coleccedilotildees geneacutericas
223 Modelo Probabiliacutestico
O modelo probabiliacutestico foi introduzido de acordo com Baeza-Yates e Ribeiro-Neto
(1999) em 1976 por Roberston e Sparck Jones que mais tarde tornou-se como o modelo
Binary Independence Retrieval (BIR)
Na Matemaacutetica a teoria das probabilidades estuda os experimentos aleatoacuterios que
conforme Ferneda (2003 p 35) repetidos em condiccedilotildees idecircnticas podem apresentar resultados diferentes e imprevisiacuteveis Isso ocorre por exemplo quando se observa a face superior de um dado apoacutes o seu lanccedilamento ou quando se verifica o naipe de uma carta retirada de um baralho Por apresentarem resultados imprevisiacuteveis eacute possiacutevel apenas estimar a possibilidade ou a chance de um determinado evento ocorrer Para descrever matematicamente um experimento aleatoacuterio eacute necessaacuterio inicialmente identificar o conjunto de todos os seus possiacuteveis resultados A este conjunto daacute-se o nome de espaccedilo amostral
Entendendo-se uma busca como um experimento aleatoacuterio segundo Robertson e
Jones eacute possiacutevel descrever o seu espaccedilo amostral como composto de quatro possibilidades
pois dada uma expressatildeo de busca pode-se dividir a base de documentos em quatro
subconjuntos distintos o conjunto dos documentos relevantes (Rel) o conjunto dos
documentos recuperados (Rec) o conjunto dos documentos relevantes e recuperados (RR) e o
conjunto dos documentos natildeo relevantes e natildeo recuperados O conjunto dos documentos
relevantes e recuperados (RR) eacute resultante da intersecccedilatildeo dos conjuntos Rel e Rec
(FERNEDA 2003)
O conjunto de documentos resultantes da primeira busca eacute ordenado atraveacutes de uma
forma de ordenaccedilatildeo padratildeo tradicional Tendo esse conjunto de documentos o usuaacuterio
seleciona alguns deles que considera relevantes para a sua necessidade O sistema utiliza essa
informaccedilatildeo para tentar melhorar os resultados subsequumlentes
A principal virtude do modelo probabiliacutestico estaacute em reconhecer que a atribuiccedilatildeo de
relevacircncia eacute uma tarefa do usuaacuterio Eacute o uacutenico modelo que segundo Baeza-Yates e Ribeiro-
7 SMART (Sistem for the Manipulation and Retrieval of Text)
24
Neto (1999) e Gonzalez (2000) incorpora explicitamente o processo de Relevance Feedback
como base para a sua operacionalizaccedilatildeo
Uma simplificaccedilatildeo bastante questionaacutevel estaacute no fato de o modelo considerar os
pesos dos termos de indexaccedilatildeo como sendo binaacuterios ou seja no modelo probabiliacutestico natildeo eacute
considerada a frequumlecircncia com que os termos ocorrem no texto dos documentos
Em geral os modelos de RI desconsideram o contexto das palavras informadas pelo
usuaacuterio por isso tendem a retornar poucos documentos relevantes em uma consulta Para isso
pretende-se mostrar no capiacutetulo seguinte com a ajuda da Linguumliacutestica possiacuteveis abordagens
que podem apoiar o usuaacuterio considerando o seu contexto de busca e listando documentos
relevantes
25
3 FUNDAMENTACcedilAtildeO TEacuteORICA
Neste capiacutetulo buscou-se apresentar uma siacutentese dos trabalhos que datildeo base ao
modelo apresentado nesta dissertaccedilatildeo Satildeo eles a Proposta de Kuramoto a Teoria do Leacutexico
Gerativo e o Modelo de Gonzalez A Proposta de Kuramoto baseia-se em uma hierarquizaccedilatildeo
em niacuteveis de Sintagmas Nominais Na Teoria do Leacutexico Gerativo de Pustejovsky mostram-se
as estruturas compostas e deu-se destaque agrave Estrutura de Qualia julgada mais adequada para a
aplicaccedilatildeo no trabalho proposto Analisou-se o estudo de Abrahatildeo a partir de Pustejovsky A
terceira teoria de Gonzalez apresenta uma proposta automatizada com o modelo TR+
31 A Proposta de Kuramoto
Neste capiacutetulo apresentam-se os conceitos e as caracteriacutesticas da proposta de
Kuramoto que se baseia na determinaccedilatildeo de Sintagmas Nominais (SN) de uma query A sua
proposta preocupa-se em buscar os SN uma vez que satildeo considerados como importante
elemento de uma frase sendo entendidos como o nuacutecleo significativo (cerne) de uma oraccedilatildeo
Em sua tese de doutorado Kuramoto relata que todo o trabalho de reconhecimento e
extraccedilatildeo de SN dos documentos foi realizado de forma natildeo automatizada Isto auxiliou na
elaboraccedilatildeo de um modelo para reconhecimento extraccedilatildeo e indexaccedilatildeo de SN inseridos na
amostra do protoacutetipo desenvolvido
O modelo proposto por Kuramoto refere-se ao aproveitamento dos SN organizado
hierarquicamente em ldquoaacutervoresrdquo criando um novo conceito de indexaccedilatildeo que pode introduzir
inovaccedilatildeo em termos de uma interface de busca
Esse modelo de interface de acordo com Kuramoto (2002) permitiria que o usuaacuterio
navegasse no conjunto de SN ateacute encontrar o que melhor atendesse agrave sua necessidade de
informaccedilatildeo Somente apoacutes esse procedimento o usuaacuterio teria entatildeo acesso aos documentos de
onde foram extraiacutedos os SN Tal processo proporcionaria ao usuaacuterio um maior conhecimento
sobre a base de dados que estaacute sendo consultada uma vez que lhe permitiria reconhecer a
estrutura de sintagmas nominais presentes nos documentos pertencentes ao sistema
Os processos de indexaccedilatildeo automaacutetica utilizados em modelos de RI segundo Michel
Le Guern (1984 apud KURAMOTO 1995) deveriam extrair dos documentos informaccedilotildees
26
que facilitassem a recuperaccedilatildeo para o usuaacuterio e natildeo siacutembolos sem referecircncia como considera
que satildeo as palavras
Para Silva e Koch (1993) toda frase de uma liacutengua constitui uma organizaccedilatildeo ou
seja uma combinaccedilatildeo de elementos linguumliacutesticos agrupados conforme certos princiacutepios que a
caracterizam como uma estrutura Para Baeza-Yates e Ribeiro-Neto (1999) grande parte da
semacircntica do documento ou da requisiccedilatildeo do usuaacuterio eacute perdida quando se substitui o texto
completo por um conjunto de palavras
Aparentemente um conjunto de frases de nossa liacutengua de acordo com Silva e Koch
(1993) tem pouco em comum variando quanto agrave extensatildeo ao sentido agraves palavras de que se
compotildeem e agrave ordem em que essas se apresentam Apesar da aparente diversidade as frases
possuem uma organizaccedilatildeo interna que segue princiacutepios gerais bem definidos de modo que o
falante seraacute capaz de dizer se uma sequumlecircncia de palavras a) se estaacute de acordo com o sistema
gramatical da liacutengua b) se se apresenta completa ou incompleta c) se eacute passiacutevel de
interpretaccedilatildeo semacircntica
Conforme Silva e Koch (apud ABREU et al 2004 p03) ldquoo sintagma consiste num
conjunto de elementos que constituem uma unidade significativa dentro da oraccedilatildeo e que
mantecircm entre si relaccedilotildees de dependecircncia e de ordemrdquo As palavras se combinam em conjuntos
em torno de um nuacutecleo Esses conjuntos os sintagmas desempenham uma funccedilatildeo no conjunto
maior que eacute a frase Para Liberato (apud PARREIRAS 2003) o SN eacute a parte do enunciado
que representa um conceito ou referente
Assim por exemplo nos conjuntos de sintagmas ndash David o estudante a menina
doente e minha filha ndash o nuacutecleo eacute um elemento nominal (nome ou pronome) tratando-se
portanto de sintagmas nominais Nos conjuntos ndash viajou de carro dormiu e levaraacute a
encomenda ndash o elemento fundamental eacute o verbo de modo que se tecircm nesses casos sintagmas
verbais
A natureza do sintagma depende portanto do tipo de elemento que constitui o seu
nuacutecleo aleacutem do sintagma nominal (SN) e do sintagma verbal (SV) existem os sintagmas
adjetivais (SA) que tecircm por nuacutecleo um adjetivo e os sintagmas preposicionais (SP) formados
normalmente de preposiccedilatildeo mais sintagma nominal (SILVA KOCH 1993)
Na estrutura da oraccedilatildeo em sua forma de base aparecem como constituintes
obrigatoacuterios o SN e o SV Por exemplo Os garotos (SN) empinavam papagaios de papel
(SV) Pode-se dizer que as regras baacutesicas de estrutura frasal satildeo as seguintes O = SN + SV
(SP) (o elemento O significa Oraccedilatildeo)
27
311 Extraccedilatildeo dos Sintagmas Nominais
O trabalho de Kuramoto compreendeu o desenvolvimento de um protoacutetipo de
interface de busca utilizando os sintagmas nominais como forma de acesso agrave informaccedilatildeo Para
testar esse protoacutetipo foram examinados e extraiacutedos segundo Kuramoto (2002) cerca de 8800
sintagmas nominais de uma amostra de 15 artigos selecionados aleatoriamente da revista
Ciecircncia da Informaccedilatildeo
Kuramoto (1995 p 6) relata que a extraccedilatildeo dos sintagmas nominais foi realizada de forma manual simulando uma extraccedilatildeo automaacutetica Este procedimento foi adotado em funccedilatildeo da natildeo-existecircncia ainda de um sistema de extraccedilatildeo automaacutetica de SN em acervos contendo documentos em Liacutengua Portuguesa
Como os SN nem sempre se apresentam de forma clara Kuramoto aponta a
ocorrecircncia normal em todo texto em linguagem natural de anaacuteforas8 e de elipses9 que
dificultou a identificaccedilatildeo dos SN Essas dificuldades segundo Kuramoto (1995) aumentam
em um processo automatizado Algumas das dificuldades encontradas por Kuramoto no
procedimento de extraccedilatildeo dos SN satildeo descritas a seguir
a) SN escondidos em frases com fatoraccedilatildeo
Para Kuramoto (1995 p 06) as ldquofrases com fatoraccedilatildeo satildeo aquelas que contecircm uma
sequumlecircncia de palavras que precedem um outro conjunto de palavras coordenadas pelas
conjunccedilotildees eou por exemplo o processo de negociaccedilatildeo dos setores privado e puacuteblicordquo
Percebe-se nesse exemplo que o SN de niacutevel 1 compreende tanto os setores privado
e puacuteblico visto que a referecircncia dos dois adjetivos estaacute contida na palavra em plural ldquosetoresrdquo
Existem outros exemplos de frases com fatoraccedilatildeo nas quais as palavras coordenadas aparecem
entre parecircnteses significando um complemento combinatoacuterio do termo ou da frase que
precede o parecircntese por exemplo profundas transformaccedilotildees (poliacuteticas econocircmicas
sociais tecnoloacutegicas)
b) Artigo Zero
8 Em Linguumliacutestica segundo Ducrot e Todorov (1972 apud KURAMOTO 1995) um segmento do discurso eacute dito anafoacuterico quando para interpretaacute-lo (inclusive do ponto de vista literaacuterio) for necessaacuterio se reportar a um outro segmento do mesmo discurso 9 A figura de sintaxe ldquoelipserdquo eacute definida por Cunha e Cintra (1991 apud KURAMOTO 1995) como sendo a omissatildeo de um termo que o contexto ou a situaccedilatildeo permitem facilmente suprimir
28
Um outro fator de dificuldade na extraccedilatildeo dos SN eacute a frequumlente ausecircncia de
determinantes10 na liacutengua portuguesa diferente da liacutengua francesa na qual satildeo raros os SN
com ausecircncia de um determinante Motivo pelos quais algumas regras estabelecidas para a
liacutengua francesa natildeo foram utilizadas De acordo com Kuramoto (1995 p 7) ldquono
procedimento de extraccedilatildeo dos SN constatou-se que 2889 dos SN natildeo eram precedidos de
qualquer determinante Em uma amostra de 6010 SN 1736 SN natildeo satildeo precedidos por
nenhum determinanterdquo Estes nuacutemeros demonstram que o modelo necessaacuterio deve considerar
este fator
c) Caacutelculo das anaacuteforas
Quando uma entidade eacute referenciada pela primeira vez em um texto segundo
Gasperin Goulart e Vieira (2003) a expressatildeo que a descreve eacute dita nova no discurso
Quando tal entidade eacute retomada no texto a expressatildeo que a descreve eacute dita anafoacuterica sendo
considerado o seu antecedente a expressatildeo anterior correferente
Para Kuramoto (1995 p 7-8) ldquoos elementos anafoacutericos em portuguecircs aparecem
frequumlentemente mediante partiacuteculas como os pronomesrdquo No entanto na proposta do autor
natildeo foi possiacutevel resolver dois casos de anaacuteforas
Um primeiro caso de anaacutefora ocorre nas palavras sem fonte expliacutecita no texto tais
como ldquonesse sentidordquo (em que sentido) ldquonossa experiecircnciardquo (de quem do autor dos
teacutecnicos de informaccedilatildeo) etc Como a interpretaccedilatildeo das ideacuteias estaacute contida no documento natildeo
fica evidente a soluccedilatildeo desse tipo de anaacutefora
O segundo caso eacute constituiacutedo de termos cujas fontes se encontram como por exemplo
na histoacuteria dos acontecimentos como ldquoesse periacuteodo preacute-industrial esse sistema de
comunicaccedilatildeordquo etc Por este motivo os SN foram extraiacutedos da mesma forma como se
encontravam no texto
d) Caacutelculo das elipses
Outra questatildeo que necessita um entendimento do contexto de uma frase eacute o problema
ligado a este tipo de figura de sintaxe Visto que depende da capacidade de percepccedilatildeo da falta
de alguma palavra no contexto de uma frase Segundo Kuramoto (1995) eacute preciso para
identificaacute-la analisar natildeo somente as frases precedentes mas tambeacutem as frases seguintes
Como neste exemplo ldquouma visatildeo de longo prazo que assegure natildeo soacute a sobrevivecircncia ()
10 Segundo Silva e Koch (1993) o determinante quando simples eacute representado por um artigo numeral ou pronome adjetivo
29
como tambeacutem o crescimento da organizaccedilatildeordquo Que promove o questionamento de ldquoqual o
complemento do termo lsquosobrevivecircnciarsquo lsquoSobrevivecircnciarsquo de quemrdquo A soluccedilatildeo encontrada
poderia estar na frase seguinte ldquoo crescimento da organizaccedilatildeordquo
Para promover a extraccedilatildeo completa da frase o SN seria ldquouma visatildeo de longo prazo
que assegure natildeo soacute a sobrevivecircncia da organizaccedilatildeo como tambeacutem o crescimento da
organizaccedilatildeordquo
3111 Extraccedilatildeo Automaacutetica de Sintagmas Nominais
A extraccedilatildeo automaacutetica de SN eacute considerada importante para a aacuterea de RI pois
segundo Chishman et al (2000) agiliza este processo e gera um percentual baixo de erros Jaacute
foi desenvolvido um extrator automaacutetico de sintagmas nominais para a liacutengua portuguesa no
acircmbito do projeto VISL chamado ldquoPalavrasrdquo11 que vem sendo usado pelo grupo de pesquisa
da UNISINOS
Segundo Abreu Goulart e Vieira (2004) para obter a anaacutelise das sentenccedilas dos
textos utiliza-se o analisador sintaacutetico ldquoPalavrasrdquo que eacute considerada uma ferramenta robusta
para a anaacutelise sintaacutetica do portuguecircs
A partir da saiacuteda do analisador sintaacutetico segundo Gasperin Goulart e Vieira (2003)
a ferramenta ldquoXtractorrdquo gera trecircs arquivos XML O primeiro eacute o arquivo de palavras o
segundo inclui as categorias morfossintaacuteticas e o terceiro eacute o arquivo com as estruturas
sintaacuteticas das sentenccedilas
Assim apoacutes todo esse processo eacute possiacutevel extrair de modo automaacutetico os sintagmas
nominais das sentenccedilas de um texto ressaltando-se que estes natildeo estatildeo ainda organizados
segundo a estrutura de niacuteveis que propotildee Kuramoto
312 A determinaccedilatildeo de uma estrutura para os SN
A essecircncia da proposta de Kuramoto (1995) reside na percepccedilatildeo que o autor teve de
que os SN organizam-se naturalmente numa estrutura de niacuteveis encadeados Kuramoto
percebeu nessa organizaccedilatildeo em niacuteveis um caminho para propiciar ao usuaacuterio mais facilidade
11 O analisador Palavras faz parte de um grupo de analisadores sintaacuteticos (softwares) do projeto VISL - Visual Interactive Sintax Learning do Institute of Language and Communication da University of Southern Denmark Disponiacutevel em lthttpvislsdudkvislptparsingautomaticgt (ABREU GOULART VIEIRA 2004)
30
no uso de um SRI levando tambeacutem a resultados mais precisos Para compreender a estrutura
proposta pelo autor apresenta-se a seguir o exemplo usado pelo proacuteprio Kuramoto
As Caracteriacutesticas do Meio Ambiente do Mundo dos Negoacutecios SN1 os negoacutecios SN2 o mundo dos negoacutecios SN3 o meio ambiente do mundo dos negoacutecios SN4 as caracteriacutesticas do meio ambiente do mundo dos negoacutecios
Figura 6 Exemplo da estrutura de niacuteveis de Sintagmas Nominais Fonte KURAMOTO 1995
Esse exemplo mostra o potencial da estrutura de relaccedilotildees de encadeamento de um
conjunto de SN Para o autor a anaacutelise do sintagma nominal no exemplo permitiu a extraccedilatildeo do SN ndash o meio ambiente do mundo dos negoacutecios A partir desse SN pode-se visualizar um outro SN embutido ndash o mundo dos negoacutecios ndash que por sua vez possui um quarto SN ndash os negoacutecios ndash que representa o niacutevel mais inferior12 Percebe-se nesse exemplo a existecircncia de quatro SN encadeados que enumerados em ordem crescente (do SN mais simples ao mais complexo) levam agrave classificaccedilatildeo do SN original como sendo de niacutevel 4 (KURAMOTO 1995 p04)
Com base nessas caracteriacutesticas apresentadas por Kuramoto (1995) os SN podem ser
organizados sob uma estrutura de aacutervore Esta estrutura possibilita que o Sistema de
Recuperaccedilatildeo de Informaccedilatildeo (SRI) possa atender agraves necessidades de consultas do usuaacuterio
Para atender esta demanda eacute preciso fornecer um centro de SN de seu interesse (como o
exemplo do autor ldquonegoacuteciosrdquo)
Para isso apresentam-se todos os SN1 relativos a essa busca inclusive o SN ldquoos
negoacuteciosrdquo A partir da lista encontrada de SN1 o usuaacuterio poderaacute restringir o seu perfil de
busca escolhendo um SN1 por exemplo ldquoos negoacuteciosrdquo e solicitar os SN2 relacionados a esse
SN1 O SRI apresenta todos os SN2 inclusive o SN ldquoo mundo dos negoacuteciosrdquo e assim
sucessivamente (KURAMOTO 1995)
Este autor afirma que esta passagem por vaacuterios niacuteveis promove um refinamento no
processo O processo de refinamento eacute realizado por meio da passagem pelos vaacuterios niacuteveis de uma estrutura arborescente de SN13 dado que o SN vai se tornando mais especiacutefico
12 Segundo Kuramoto (1995) os sintagmas nominais agrave medida que satildeo extraiacutedos de um outro SN satildeo classificados por niacuteveis Assim o sintagma mais simples eacute denominado SN de niacutevel 1 Constitui SN de niacutevel 2 aquele a partir do qual foi extraiacutedo o de niacutevel 1 e assim sucessivamente 13 Constatou-se empiricamente utilizando a maquete desenvolvida nesta experimentaccedilatildeo de acordo com Kuramoto (1995) que a quantidade de SN de segundo niacutevel em relaccedilatildeo a um dado SN de primeiro niacutevel pode ser maior que o total de SN de primeiro niacutevel Por exemplo a resposta agrave demanda do centro de SN ldquoinformaccedilatildeordquo foi de 122 SN de primeiro niacutevel e a resposta agrave demanda do SN de primeiro niacutevel ldquoa informaccedilatildeordquo foi de 172 SN de segundo niacutevel Por outro lado verificou-se que
31
agrave medida que se atingem os niacuteveis mais elevados da estrutura Ao percorrecirc-la o usuaacuterio estaacute na realidade delimitando ou melhor qualificando a sua necessidade de informaccedilatildeo Cabe portanto ao usuaacuterio identificar o niacutevel em que as suas necessidades de informaccedilatildeo seratildeo atendidas (KURAMOTO 1995 p 04-05)
Esta possibilidade de hierarquia permite uma interaccedilatildeo entre o usuaacuterio e maacutequina e
uma escolha individual de refinamento
313 Protoacutetipo Desenho da Interface de Busca
A Figura 7 descreve de maneira esquemaacutetica a interaccedilatildeo entre o usuaacuterio e o protoacutetipo
de Kuramoto (1995)
O protoacutetipo viabiliza a primeira interaccedilatildeo pois haacute uma tela em que permite ao
usuaacuterio fazer a sua solicitaccedilatildeo de informaccedilatildeo fornecendo uma palavra (centro de SN1) A
partir dessa palavra surgem outras interaccedilotildees como mostra o esquema de Kuramoto (1995) na
Figura 7 que ocorrem nas accedilotildees abaixo
Figura 7 Procedimentos de interaccedilatildeo usuaacuteriominusprotoacutetipo Fonte KURAMOTO 1995
o SN ldquoa informaccedilatildeordquo indexava 15 documentos na base enquanto o SN de segundo niacutevel ldquoa anaacutelise da informaccedilatildeordquo indexava apenas 1 (um) documento Confirma-se nesse exemplo que a passagem de um dado niacutevel a um superior na aacutervore de SN proporciona maior refinamento no processo de seleccedilatildeo dos documentos
32
314 Organizaccedilatildeo dos Sintagmas Nominais como Estrutura de Busca
Na proposta de Kuramoto (1995) foram desenvolvidas as seguintes estruturas de busca
Figura 8 Estrutura de dados para acessar os Sintagmas Nominais de primeiro niacutevel a partir de uma palavra Fonte KURAMOTO 1995
Kuramoto (1995) mostra na Figura 8 a associaccedilatildeo das tabelas Palavras CS-SN1 e
SN1 Cada dado tem nomes dos elementos que estatildeo sublinhados e representam as chaves de
cada tabela Na tabela Palavras observa-se que o autor agrupa todas as palavras (centro) que
representam os centros de SN1 Haacute uma atribuiccedilatildeo de coacutedigo para cada ldquocentrordquo chamado
ldquocoacutedigo crdquo A tabela CS-SN1 eacute uma tabela de associaccedilatildeo dos coacutedigos dos centros de SN1 com
os coacutedigos dos SN1 Essa figura mostra que para cada centro de SN1 existem vaacuterios SN1 A indicaccedilatildeo na seta da associaccedilatildeo da tabela Palavras com a tabela CS-SN1 define que na tabela Palavras podem existir M ocorrecircncias de um coacutedigo de centro de SN1 O mesmo pode ocorrer na tabela CS-SN1 em que esse coacutedigo pode verificar-se N vezes Essa indicaccedilatildeo traduz a ideacuteia de que para cada SN1 pode existir mais de um centro de SN1 Isto se explica pela existecircncia no contexto de um SN de palavras que satildeo tatildeo importantes quanto o centro de sintagma (KURAMOTO 1995 p 11)
Observa-se o exemplo ldquoo sistema de informaccedilatildeordquo Nesse o autor define o SN1 de
ldquosistemardquo Todavia esta natildeo eacute a uacutenica palavra fundamental pois a palavra ldquoinformaccedilatildeordquo tem
tanta importacircncia quanto o proacuteprio centro de sintagma (sistema)
Kuramoto (1995 p 11) mostra ainda que existe associaccedilatildeo entre o centro de SN1 e a
vaacuterios SN de niacutevel 1 Cada centro de SN1 pode estar associado a mais de um SN1 Essa indicaccedilatildeo eacute dada pela seta que associa a tabela SN1 agrave tabela CS-SN1 onde o nuacutemero 1 significa que na tabela SN1 existe uma soacute ocorrecircncia de um determinado coacutedigo de SN1 enquanto na tabela CS-SN1 existem M ocorrecircncias desse coacutedigo
Outro elemento de dados importante na tabela SN1 eacute chamado ldquonuacutemerordquo que
segundo Kuramoto (1995 p 11-12) ldquoindica a quantidade de artigos de onde um determinado
33
SN1 foi extraiacutedordquo O nuacutemero de referecircncias de onde o SN foi extraiacutedo aparece para cada
apresentaccedilatildeo de SN1 relacionado com um centro de SN1 escolhido pelo usuaacuterio
Kuramoto (1995) ilustra numa outra figura (Figura 9) a estrutura de dados construiacuteda
para a busca dos SN2 a partir de um SN1 selecionado pelo usuaacuterio
Figura 9 Estrutura de dados para acessar os Sintagmas Nominais de segundo niacutevel a partir de Sintagmas Nominais de primeiro niacutevel Fonte KURAMOTO 1995
Nessa ilustraccedilatildeo observa-se que se manteacutem a estrutura da Figura 8 em uma
associaccedilatildeo de tabelas que busca facilitar a busca dos SN2 a partir de um SN1 escolhido pelo
usuaacuterio Segundo Kuramoto (1995 p 12) ldquopercebe-se analogamente que um dado SN1 pode
estar associado a vaacuterios SN2 e vice-versa Isto traduz a ideacuteia de que um SN2 pode ter
embutido mais de um SN1 Essa estrutura atende agraves caracteriacutesticas dos SN listados no iniacutecio
desta seccedilatildeordquo
A busca de informaccedilotildees se manteacutem na mesma estrutura para os SN de niacutevel 3 e 4 que
satildeo semelhantes agraves Figuras acima (SN1 e SN2) com diferenccedila apenas no nome de cada
elemento que eacute correspondente ao nuacutemero dos SN
O acesso aos documentos estaacute representado na Figura 10 que exemplifica uma
escolha no SN1
Figura 10 Estrutura de dados para o acesso aos tiacutetulos e textos dos artigos Fonte KURAMOTO 1995
34
Essa estrutura foi desenvolvida para que o protoacutetipo atenda a uma demanda do
usuaacuterio viabilizando a visualizaccedilatildeo de todos os tiacutetulos e textos de documentos de onde um
SN1 foi extraiacutedo Haacute outras associaccedilotildees semelhantes a essas da Figura 17 que servem para o
acessar os documentos a partir de SN de qualquer um dos quatro niacuteveis previstos no protoacutetipo
Kuramoto (1995 p 12-13) ressalta ainda as accedilotildees do coacutedigo numeacuterico Eacute importante observar que todas as tabelas contendo os SN nos seus vaacuterios niacuteveis tecircm como chave de acesso um coacutedigo numeacuterico uacutenico de SN Para tanto construiu-se uma tabela contendo os SN onde estes satildeo identificados por meio de um coacutedigo numeacuterico Natildeo existe nenhum impedimento teacutecnico por parte do sistema Access quanto ao uso do proacuteprio texto dos SN como chave de acesso agraves informaccedilotildees Deve-se ressaltar que apesar da lentidatildeo que este tipo de chave de acesso provoca as estruturas de dados seriam mais simples e faacuteceis de manusear Contudo optou-se pela utilizaccedilatildeo das chaves numeacutericas identificando cada SN com o intuito de obter maior velocidade de acesso aos SN e agraves informaccedilotildees
Finalizando esta apresentaccedilatildeo do modelo de Kuramoto cabe destacar que a utilizaccedilatildeo
da aacutervore de SN por niacuteveis permite uma visualizaccedilatildeo mais faacutecil do conteuacutedo da base de dados
e manteacutem o que haacute de mais significativo nos documentos sua semacircntica
As estruturas de Qualia e de Heranccedila Lexical do Leacutexico Gerativo de Pustejovsky a
serem apresentadas na proacutexima seccedilatildeo permitem tambeacutem da mesma forma considerar a
semacircntica dos itens lexicais atraveacutes da criaccedilatildeo de uma malharede de relaccedilotildees de palavras e
seus significados atraveacutes dos papeacuteis que compotildeem a EQ
32 A Teoria do Leacutexico Gerativo de Pustejovsky
Pustejovsky defende a ideacuteia de que assim como a gramaacutetica tem uma estrutura
(sintaxe) a semacircntica (significado) tambeacutem tem uma estrutura baacutesica Na estrutura baacutesica da
sintaxe das liacutenguas em geral segundo Souza e Silva (1993) as oraccedilotildees satildeo compostas de
Sintagma Nominal (SN) mais Sintagma Verbal (SV) basicamente Na busca da estrutura
semacircntica Pustejovsky (1991) delineia a teoria do Leacutexico Gerativo (LG) como uma
abordagem na aacuterea da semacircntica lexical que pretende dar conta da criatividade semacircntica do
uso das palavras em contexto
Segundo Rossi (2003) Ullmann concorda com essa dificuldade do uso das palavras
em contexto quando declara que ldquonatildeo satildeo raros os casos em que ocorre uma polivalecircncia das
palavras acarretando por consequumlecircncia fenocircmenos semacircnticos inerentes agraves liacutenguas naturais
entre eles a ambiguumlidade lexicalrdquo Essa ambiguumlidade eacute provocada em decorrecircncia de fatores
35
lexicais denominados de polissemia e de homoniacutemia ou na terminologia de Weinreich
conforme Rossi (2003) de ambiguumlidade complementar e ambiguumlidade contrastiva
respectivamente
No primeiro caso trata-se da polissemia que de um modo geral conforme Moura
(2001) ldquoeacute definida como um fenocircmeno que permite associar a um mesmo item lexical mais
de um sentido os quais mantecircm alguma relaccedilatildeo semacircntica entre sirdquo Assim a palavra ldquolivrordquo
por exemplo eacute polissecircmica pois expressa ao menos dois sentidos diferentes que possuem
entre si algum tipo de laccedilo semacircntico (a) objeto fiacutesico e (b) informaccedilatildeo
Jaacute no segundo caso o da ambiguumlidade contrastiva trata-se de homoniacutemia definida
por Pustejovsky como a situaccedilatildeo na qual um item lexical eacute associado com ao menos dois
sentidos diferentes e sem relaccedilatildeo entre si Desse modo a palavra ldquomangardquo por exemplo eacute
uma palavra homocircnima pois natildeo haacute nenhuma relaccedilatildeo semacircntica evidente entre os sentidos de
ldquofrutardquo e ldquoparte da blusardquo
Segundo Rossi (2003 p 14) Ullmann salienta que ldquoeacute difiacutecil em casos particulares
determinar onde termina a polissemia e onde comeccedila a homoniacutemia uma vez que natildeo eacute faacutecil e
nem sempre possiacutevel medir intuitivamente o grau de proximidade dos significadosrdquo
A polissemia loacutegica eacute denominada por Pustejovsky (1991) para restringir a
ambiguumlidade complementar abordada anteriormente nos casos em que ocorre uma relaccedilatildeo
loacutegica portanto previsiacutevel entre os sentidos de uma palavra polissecircmica Havendo mais de um
sentido eacute importante ressaltar que pode existir sobreposiccedilatildeo desses sentidos em um mesmo
contexto
Aleacutem de ter sido tratada como polissemia loacutegica por Pustejovsky segundo Rossi
(2003) desde Weinreich esse fenocircmeno da complementaridade dos sentidos tem sido
abordado como polissemia regular e polissemia sistemaacutetica
A teoria do Leacutexico Gerativo (LG) de Pustejovsky aponta o problema da
multiplicidade de significados das palavras e enfatiza um tratamento relacionado ao problema
da polissemia das palavras Segundo Neto (2003) nessa perspectiva Pustejovsky desenvolveu
o LG que eacute um modelo de processamento de liacutengua natural que trata da explicaccedilatildeo semacircntica
de itens lexicais tanto isolados quanto em contexto
Assim como a gramaacutetica caracteriza o comportamento sintaacutetico especiacutefico de uma
certa categoria de palavras Pustejovsky propotildee uma teoria gerativa do significado da palavra
E ainda pretende mostrar que seu modelo segundo Rossi (2003 p 47) ldquoeacute contraacuterio a
36
estaticidade presente em duas concepccedilotildees semacircnticas teoacutericas das deacutecadas de 60 e 70 as
baseadas em redes conexionistas e as baseadas em primitivos fixos14rdquo
Rossi (2003 p 47) afirma que a teoria de redes conexionistas organiza a semacircntica
das palavras atraveacutes de relaccedilotildees e elos para esta autora isso ldquodificulta a representaccedilatildeo de
sentidos que exibem polissemia regular haja vista a distacircncia na rede entre os sentidos que
mantecircm relaccedilatildeo sistemaacutetica entre sirdquo Por exemplo os sentidos de ldquoobjeto fiacutesicordquo e
ldquoinformaccedilatildeordquo satildeo naturalmente distantes no entanto mantecircm entre si relaccedilatildeo sistemaacutetica no
caso de ldquolivrordquo e de outras palavras
Jaacute no segundo caso o das teorias baseadas em primitivos semacircnticos fixos o leacutexico
eacute tratado como uma lista enumerativa de sentidos Por isso mesmo tais modelos satildeo
denominados por Pustejovsky (1991) de Sense Enumeration Lexicon (SEL) - leacutexico de
enumeraccedilatildeo de sentidos O problema segundo Pustejovsky (1991) eacute que essa caracterizaccedilatildeo
dos possiacuteveis sentidos de uma palavra postulada pelo modelo SEL eacute aplicada tanto para a
ambiguumlidade contrastiva como para a polissemia loacutegica
Fica evidente segundo Rossi (2003) que Pustejovsky se opotildee aos modelos SEL pois
apesar de eles proverem uma enumeraccedilatildeo exaustiva dos sentidos de um item lexical ainda se
mostram limitados natildeo dando conta dos objetivos baacutesicos da teoria semacircntico-lexical ou seja
o uso criativo de palavras a permeabilidade dos significados e as muacuteltiplas formas sintaacuteticas
das expressotildees
O objetivo principal do LG segundo Pustejovsky (1991) eacute prover uma descriccedilatildeo
formal da liacutengua que seja expressiva e flexiacutevel o suficiente para apreender a natureza gerativa
da criatividade lexical e extensatildeo de sentido Caracteriza assim o LG como um sistema
semacircntico de perspectiva loacutegica que envolve quatro niacuteveis de representaccedilatildeo um sistema de
tipos semacircnticos e trecircs tipos de mecanismos gerativos
No decorrer deste capiacutetulo seratildeo especificadas as noccedilotildees teoacutericas baacutesicas do modelo
gerativo de Pustejovsky que estruturam o leacutexico em quatro niacuteveis de representaccedilatildeo
(argumentos eventos qualia e heranccedila) sobre os quais atuam dispositivos gerativos (a
coerccedilatildeo de tipo a co-composiccedilatildeo e a ligaccedilatildeo seletiva)
321 Estruturas do Leacutexico Gerativo
14 Conforme Pustejovsky (1995) a teoria de primitivos fixos eacute defendida por autores como Lakoff (1971) Wilks (1975) Schank (1975) Katz (1977) Jaacute a teoria de redes conexionistas eacute defendida por Carnap (1956) Collins e Quillian (1969) Fodor (1975) Brachman (1979)
37
Para capturar o significado lexical estudou-se as estruturas de Pustejovsky (1991)
que propotildee quatro niacuteveis de representaccedilatildeo estrutura de argumento estrutura de evento
estrutura de qualia e estrutura de heranccedila lexical descritos abaixo
3211 Estrutura de Argumento
Para Pustejovsky (1991) essa estrutura eacute uma especificaccedilatildeo miacutenima que agrupa os
itens lexicais em quatro argumentos
bull verdadeiros ndash paracircmetros do item lexical que tecircm a necessidade de serem expressos
sintaticamente Ex Marta morou em Paris
bull apagados ndash paracircmetros que natildeo tecircm necessidade de serem realizados sintaticamente satildeo
argumentos opcionais Ex Joana coseu uma saia sem linha
bull sombreados ndash paracircmetros que jaacute estatildeo semanticamente presentes no item lexical e soacute
devem ser expressos atraveacutes de operaccedilotildees de subtipo ou especificaccedilatildeo de discurso Ex
Paulo salgou a carne com sal grosso
bull adjuntos verdadeiros ndash paracircmetros que mesmo sendo parte da interpretaccedilatildeo situacional
modificam uma expressatildeo loacutegica sem contudo estarem ligados agrave representaccedilatildeo
semacircntica de algum item lexical especiacutefico Esses paracircmetros introduzem expressotildees
adjuntivas de modificaccedilatildeo temporal ou espacial Ex David dormiu cedo
3212 Estrutura de Evento
Essa estrutura para Pustejovsky (1991) refere-se a organizaccedilatildeo de um conjunto de eventos
no que tange agrave ordenaccedilatildeo temporal de seus subeventos e a designaccedilatildeo de qual deles seraacute
considerado o principal em relaccedilatildeo ao evento matriz
bull Evento de estado ndash aquele cujo(s) argumento(s) natildeo sofre(m) alteraccedilatildeo durante o
intervalo temporal do evento Ex Kaacutetia mora em Florianoacutepolis
bull Evento de processo ndash aquele cujo(s) argumento(s) sofre(m) alteraccedilatildeo de estado ou
indica(m) o iniacutecio de alguma atividade sem uma culminaccedilatildeo precisa Ex Heloisa canta
bem
bull Evento de transiccedilatildeo - aquele cujo(s) argumento(s) sofre(m) alguma accedilatildeo de
temporalidade determinada e resulta(m) em um estado diferente do inicial Ex Tereza fez
uma boneca
38
A estrutura a seguir apresenta os atributos semacircnticos essenciais dos itens lexicais
(como por exemplo a categoria a composiccedilatildeo a funccedilatildeo e a origem) atraveacutes dos papeacuteis
formal constitutivo teacutelico e agentivo Eacute a estrutura principal responsaacutevel pela explicaccedilatildeo da
polissemia loacutegica abordada no texto (Pustejovsky 1991)
3213 Estrutura de Qualia
Devido a sua proximidade com o SN visto que trabalha por conceitos (nomes) esta
estrutura foi utilizada no desenvolvimento do modelo proposto pela pesquisa Trata de um
conjunto formado por quatro qualia que visam guiar o processo de entendimento a respeito de
um objeto ou uma relaccedilatildeo no mundo dando por consequumlecircncia um modo de especificar a
denotaccedilatildeo de tal objeto ou relaccedilatildeo Eacute dividida em quatro papeacuteis os quais satildeo descritos na
sequumlecircncia
a) Quale formal - faz a distinccedilatildeo de determinado item dentro de um domiacutenio maior levando
em consideraccedilatildeo sua
bull orientaccedilatildeo
bull magnitude
bull forma
bull dimensatildeo
bull cor
bull posiccedilatildeo
b) Quale constitutivo - estabelece a relaccedilatildeo entre um objeto e suas partes constituintes ou
proacuteprias a partir das propriedades
bull material
bull peso
bull partes e elementos componentes
Aleacutem disso o quale constitutivo informa tambeacutem de que classe um item eacute parte caso
haja tal relaccedilatildeo ou seja ele informa tanto uma relaccedilatildeo de hiperoniacutemia15 quanto de
meroniacutemia16
15 Hiperoniacutemia ocorre quando o significado de um lexema (palavra) abrange o significado de outro lexema O significado de um eacute mais geneacuterico que o significado de outro Por exemplo ldquoaeronaverdquo eacute um hiperocircnimo de ldquoteco-tecordquo
39
Estas relaccedilotildees satildeo utilizadas na modelagem do protoacutetipo de Gonzalez (2005) Este
protoacutetipo foi pesquisado e apreendido como parte integrante da proposta desta dissertaccedilatildeo e
seraacute descrito na seccedilatildeo 33 do capiacutetulo 3
c) Quale teacutelico - explicita a finalidade e a funccedilatildeo de um objeto
bull Propoacutesito de um agente ao realizar um ato
bull Funccedilatildeo interna ou objetivo que descreve certas atividades
d) Quale agentivo - determina os fatores envolvidos na origem ou causa de um objeto
partindo de consideraccedilotildees sobre
bull criador
bull artefato
bull tipo natural
bull cadeia causal
Figura 11 Representaccedilatildeo da matriz de um item lexical Fonte ROSSI 2003
Figura 12 Matriz superficial da Estrutura de Qualia do item lexical ldquolivrordquo Fonte ROSSI 2003
16 Meroniacutemia ocorre quando o significado de um lexema (palavra) faz parte ou eacute uma porccedilatildeo do significado de outro lexema Por exemplo as palavras ldquocapardquo e ldquofolhasrdquo satildeo merocircnimos de ldquolivrordquo
40
Eacute importante salientar que segundo Neto (2003a) a Estrutura de Qualia natildeo deve ser
considerada apenas como uma lista de fatos interessantes sobre um item lexical e sim como
um conjunto de propriedades que leva a uma explicaccedilatildeo mais clara de tal item
Isto equivale dizer que o objetivo da Estrutura de Qualia eacute abarcar o significado de
uma palavra e explicitar como se relaciona com o uso da liacutengua Assim essa estrutura salienta
a explicaccedilatildeo do uso da criatividade linguumliacutestica contextual natildeo como uma estrutura isolada
mas em conjunto com os mecanismos gerativos que seratildeo apresentados mais adiante
Seguem alguns exemplos da Estrutura de Qualia
Figura 13 Exemplo da Estrutura de Qualia do item lexical ldquoromancerdquo Fonte PUSTEJOVSKY 1991
Figura 14 Exemplo da Estrutura de Qualia do item lexical ldquodicionaacuteriordquo Fonte PUSTEJOVSKY 1991
3214 Estrutura de Heranccedila Lexical
Esta estrutura tambeacutem eacute de fundamental importacircncia porque nesta ocorre a relaccedilatildeo das
qualias ou seja satildeo estruturas lexicais que podem se organizar com outras estruturas em uma
grade de tipo e assim ajudar na organizaccedilatildeo geral do leacutexico Por exemplo na figura abaixo o
LG relaciona ldquodicionaacuteriordquo ldquolivrordquo e ldquopeccedilardquo atraveacutes de suas estruturas de qualia em que se
observa que os trecircs itens lexicais satildeo diferentes entre si no entanto mantecircm relaccedilotildees
semacircnticas
41
Figura 15 Exemplo do LG relacionando ldquodicionaacuteriordquo ldquolivrordquo e peccedila atraveacutes de suas EQ Fonte NETO 2003a
322 Sistema de Tipos Semacircnticos
Um sistema de tipos semacircnticos analisa o comportamento polissecircmico e loacutegico de
nomes implicitamente relacionais como por exemplo porta janela Pustejovsky mostra como
o leacutexico gerativo faz uso de estruturas de aspectos tiacutepicos e afirma que esses nomes tecircm dois
sentidos relacionais (ldquoobjeto fiacutesicordquo e ldquoaberturardquo) que satildeo logicamente parte do significado do
nome Essa habilidade que um item lexical tem de agrupar vaacuterios sentidos eacute chamada
ldquoparadigma leacutexico-conceptual (plc ou lcp)rdquo O plc eacute como um construtor de tipo por exemplo
em palavras como ldquoportardquo e1 significa objeto_fiacutesico e2 abertura e o tipo resultante eacute
ldquoobjeto_fiacutesicoabertura_plc = objeto_fiacutesicoabertura objeto_fiacutesicoaberturardquo
Figura 16 Exemplo de polissemia loacutegica na representaccedilatildeo matricial da palavra ldquolivrordquo Fonte ROSSI 2003
42
Figura 17 Exemplo de polissemia loacutegica na representaccedilatildeo matricial da palavra ldquojornalrdquo Fonte ROSSI 2003
322 Mecanismos gerativos
O Leacutexico Gerativo apresenta ainda um conjunto de trecircs mecanismos que fazem uso
das estruturas ldquoeventordquo ldquoargumentordquo e ldquoqualiardquo os quais satildeo ditos gerativos pois relacionam
diferentes itens lexicais possibilitando a interpretaccedilatildeo composicional de palavras em contexto
3221 Coerccedilatildeo de tipo
Autoriza a mudanccedila de tipo e por extensatildeo de denotaccedilatildeo de nomes e expressotildees de
acordo com o contexto a que pertencem A coerccedilatildeo de tipo reconstroacutei a semacircntica do
complemento e soacute teraacute sucesso se o item lexical em questatildeo tiver um atalho para o tipo
desejado O exemplo claacutessico dado por Pustejovsky eacute ldquoJoatildeo comeccedilou um livrordquo em que o
predicado comeccedilar requer um tipo diferente do apresentado por livro ou seja o verbo requer
um complemento do tipo ldquoeventordquo que natildeo eacute satisfeito por ldquolivrordquo O termo ldquocomeccedilar um
livrordquo eacute interpretado como comeccedilar a ler (ou escrever) um livro
3222 Ligaccedilatildeo seletiva
Rege a relaccedilatildeo semacircntica que um modificador tem com o seu nuacutecleo ou seja ela
trata do problema da polissemia adjetival uma vez que os adjetivos satildeo interpretados a partir
da semacircntica do nuacutecleo Exemplos
(1) Um passeio raacutepido
(2) Um motorista raacutepido
43
(3) Um digitador raacutepido
(4) Um computador raacutepido
O primeiro problema estaacute claramente exemplificado com (1) em oposiccedilatildeo a (2) (3) e
(4) ou seja o primeiro trata de uma adjetivaccedilatildeo sobre um evento e os demais de uma
adjetivaccedilatildeo sobre indiviacuteduos Jaacute para o segundo problema diz-se que a interpretaccedilatildeo do
adjetivo vai ser selecionada por algum dos qualia do nuacutecleo do sintagma nominal ou seja
pela ligaccedilatildeo seletiva Esse mecanismo vai buscar a interpretaccedilatildeo de raacutepido para os exemplos
acima no quale teacutelico dos nuacutecleos
3223 Co-composiccedilatildeo
Os itens lexicais componentes de um determinado sintagma influenciam-se
mutuamente e um complemento pode adicionar um sentido ao seu nuacutecleo Pustejovsky
comeccedila exemplificando esse mecanismo com a polissemia de verbos como o ldquoassarrdquo que
apresenta dois sentidos uma mudanccedila de estado e outra de criaccedilatildeo do objeto Os exemplos
claacutessicos satildeo
(a) Letiacutecia assou as batatas
(b) Letiacutecia assou o bolo
Observa-se que em (1) houve apenas uma mudanccedila de estado pois as batatas jaacute
existiam antes de serem assadas em (2) um sentido de criaccedilatildeo de objeto eacute atribuiacutedo ao verbo
uma vez que antes da assadura o bolo natildeo existia Contudo Pustejovsky (1991) afirma que
ordinariamente soacute haacute um sentido para ldquoassarrdquo o de mudanccedila de estado pois tal verbo tem seu
tipo de evento modificado devido a informaccedilotildees que satildeo trazidas pelo complemento ou seja
essas leituras soacute satildeo possiacuteveis a partir de mecanismo de co-composiccedilatildeo em que os
complementos co-especificam o verbo
Por buscar formalizar a estrutura semacircntica de uma liacutengua o trabalho de Pustejovsky
eacute de grande importacircncia para a aacuterea de recuperaccedilatildeo de informaccedilatildeo Uma tentativa de
implementaccedilatildeo computacional da sua teoria foi realizada por Abrahatildeo (1997) envolvendo a
modelagem e a implementaccedilatildeo de um leacutexico semacircntico para a Liacutengua Portuguesa
Inicialmente este autor realizou um estudo de conceitos baacutesicos relacionados agrave semacircntica
Durante a sua pesquisa foram apresentadas teacutecnicas de representaccedilatildeo do conhecimento e do
significado que auxiliaram a seleccedilatildeo e o entendimento do modelo proposto por Pustejovsky
44
Como subsiacutedio para a implementaccedilatildeo de um leacutexico semacircntico para o portuguecircs
Abrahatildeo (1997) fez um estudo aprofundado da teoria de Pustejovsky onde salienta que os
problemas mais comuns agrave representaccedilatildeo do significado das palavras como ldquoambiguumlidade
lexical polissecircmicardquo por exemplo satildeo solucionados de forma eficiente e computacional
Como o modelo de Pustejovsky eacute voltado ao Inglecircs foram encontradas semelhanccedilas e
diferenccedilas entre a liacutengua origem do modelo e o Portuguecircs Variaccedilotildees verbais - facilita o mapeamento direto os verbos satildeo inseridos numa forma canocircnica (baacutesica ou infinitiva) no leacutexico variaccedilotildees de grau nos substantivos como alternativa de soluccedilatildeo satildeo armazenados em uma forma canocircnica palavras que se comportam como verbo e substantivo palavras que se comportam como adjetivo e substantivo tambeacutem satildeo mapeadas atraveacutes do uso da estrutura de lcps de Pustejovsky mapeamento de expressotildees - expressotildees devem ser inseridas no leacutexico pois expressam um significado especiacutefico substantivos compostos por mais de uma palavra acentuaccedilatildeo ndash itens lexicais do Inglecircs natildeo apresentam acentos Esta caracteriacutestica do Portuguecircs deve ser inserida no leacutexico pois diferencia o significado de suas palavras Deste modo esta informaccedilatildeo foi atribuiacuteda aos registros de informaccedilotildees semacircnticas atraveacutes de uma variaacutevel que conteacutem o tipo e a posiccedilatildeo na palavra em que o acento aparece (ABRAHAtildeO 1997 pgs 78-80)
Abrahatildeo (1997) construiu sua implementaccedilatildeo do leacutexico sobre uma estrutura em
aacutervore Trie17 que proporciona um maior poder de representaccedilatildeo na busca de informaccedilotildees e
baixa quantidade de dados armazenados As informaccedilotildees semacircnticas associadas aos itens
lexicais satildeo armazenadas em listas encadeadas a partir de uma estrutura denominada de
Descritor Semacircntico Um item lexical pertence ao leacutexico semacircntico se este item possui um
Descritor Semacircntico associado ao seu uacuteltimo caractere na aacutervore E ainda um Descritor
Semacircntico abrange os ponteiros essenciais para a busca das informaccedilotildees semacircnticas relativas
ao item lexical
De acordo com este autor as informaccedilotildees semacircnticas associadas aos itens lexicais
seguem o modelo de Pustejovsky (1991) sendo dividida em trecircs estruturas baacutesicas de
argumentos de eventos e de Qualia As estruturas de argumentos e de eventos satildeo
implementadas atraveacutes de uma lista de argumentos e uma lista de eventos A estrutura de
Qualia eacute composta de quatro listas de informaccedilotildees uma para cada papel (formal constitutivo
teacutelico e agentivo)
Segundo este autor todas as estruturas do leacutexico semacircntico foram desenvolvidas em
vetores A manipulaccedilatildeo destes vetores daacute-se sobre estruturas denominadas cabeccedilalhos Estes
cabeccedilalhos fornecem informaccedilotildees sobre a alocaccedilatildeo de vetores em memoacuteria ponteiros para os
vetores de informaccedilatildeo tamanhos dos vetores e os arquivos associados ao sistema O nuacutecleo de
17 Segundo Abrahatildeo (1997) ldquoeacute um tipo especial de estrutura onde cada caractere dos itens lexicais determina um nodo da aacutervorerdquo
45
dados do sistema eacute constituiacutedo de dois cabeccedilalhos cabeccedilalho da aacutervore Trie e o cabeccedilalho das
informaccedilotildees semacircnticas
A biblioteca de funccedilotildees conteacutem os procedimentos necessaacuterios para manutenccedilatildeo do
banco de dados lexical bem como procedimentos de busca de informaccedilotildees semacircnticas
Juntamente com a biblioteca uma interface graacutefica foi construiacuteda possibilitando a manutenccedilatildeo
do banco de dados e facilitando a visualizaccedilatildeo da semacircntica dos itens lexicais Esta interface
graacutefica eacute implementada na linguagem de programaccedilatildeo em C para as estaccedilotildees de trabalho SUN
sobre o sistema de janelas XVIEW18 (ABRAHAtildeO 1997)
Esta seccedilatildeo mostrou a importacircncia da teoria de Pustejovsky e suas possibilidades O
LG eacute fundamental para compreensatildeo semacircntica pois considera o contexto da palavra sendo
capaz de estruturar um domiacutenio especiacutefico atraveacutes da EQ e tambeacutem de identificar dentro de
um domiacutenio quando determinada palavra aparece em tal contexto Pelo desenvolvimento do
trabalho de Abrahatildeo pode-se perceber a dimensatildeo e os elementos necessaacuterios para o
significado de uma palavra reforccedilando-se assim o valor e a viabilidade da teoria de
Pustejovsky
A proacutexima seccedilatildeo apresenta o trabalho de Gonzalez (2005) que estudou Pustejovsky19
e posteriormente desenvolveu sua proacutepria concepccedilatildeo de uma estrutura de RI (toda
automatizada)
33 O Modelo TR+ de Gonzalez
O modelo TR+ eacute considerado um modelo para RI que utiliza duas fases para o
desenvolvimento de sua estrutura fase de indexaccedilatildeo e fase de busca
18 XVIEW ldquoeacute um sistema de janela orientado a objeto que permite ao programador criar e utilizar objetos tais como janelas textos paineacuteis iacutecones entre outros para construir uma aplicaccedilatildeo Seus objetos satildeo predefinidos e satildeo ricos em funcionalidade o que permite que o coacutedigo necessaacuterio para manipular essas janelas seja pequeno simples e muito faacutecil de se compreenderrdquo (ABRAHAtildeO 1997 p 86) 19 Realizou um trabalho individual no doutorado denominado ldquoO Leacutexico Gerativo de Pustejovsky sob o enfoque da Recuperaccedilatildeo de Informaccedilotildeesrdquo de 2000a
46
Indexaccedilatildeo de textos segundo Baeza-Yates e Ribeiro-Neto (1999) e Gonzalez (2005)
eacute o processo que estipula descritores20 dos conteuacutedos dos textos de uma coleccedilatildeo de
documentos com objetivo de busca e classificaccedilatildeo dos mesmos para atender consultas em
sistemas de RI Descritores podem descrever conceitos atocircmicos sendo lsquotermosrsquo ou conceitos
complexos sendo lsquorelacionamentosrsquo O conjunto de descritores concebido na indexaccedilatildeo
favorece uma visatildeo loacutegica dos documentos com o propoacutesito de unir esses descritores termos
e relacionamentos a conceitos presentes nos textos dos documentos
Para os relacionamentos este autor classifica trecircs tipos explicando-os atraveacutes do
exemplo ldquo tecircm preocupado os pesquisadoresrdquo O primeiro tipo eacute o par modificado-
modificador como lsquopesquisador-preocupadorsquo O segundo eacute o bigrama (preocupado
pesquisador) e o terceiro eacute o Sintagma Nominal que para ele significa lsquopesquisador
preocupadorsquo e que para a pesquisa de Gonzalez ficaria na sua forma natural lsquopreocupado os
pesquisadoresrsquo O autor ainda cita que haacute outros formatos de relacionamentos como a
expressatildeo ternaacuteria (preocupaccedilatildeo-de-pesquisador) e a relaccedilatildeo binaacuteria
(preocupaccedilatildeopesquisador)
Gonzalez (2005) aponta dois tipos de relacionamentos como problemas os bigramas
por natildeo poderem descrever o conceito (ldquoferro sopardquo para ldquopanela de ferro com sopardquo) e os
termos com palavras comuns mas coadjuvantes importantes (ldquosentar bancordquo e ldquodepositar
bancordquo) os sintagmas nominais que para o autor representam tanto o conceito atocircmico quanto
o complexo (ldquonoiterdquo e ldquoboca da noiterdquo) Eacute importante perceber que a partir dessas
caracteriacutesticas e aspectos acima definidos Gonzalez (2005) propocircs um novo modelo de
espaccedilo de descritores (uniatildeo do conjunto de termos com o conjunto de relacionamentos) Este
novo modelo surgiu a partir de outros cinco modelos de descritores jaacute existentes
1 Unigrama conjunto de termos natildeo relacionados
2 N-grama (NG) conjunto de relacionamentos estatiacutesticos
3 Termo-Termo (TT) conjunto de termos relacionados estatiacutestica ou
sintaticamente
4 Termo-Relacionamento (TR) conjunto de termos e relacionamentos sintaacuteticos
20 A palavra descritores eacute usada para se tratar dos termos e relacionamentos enquanto os iacutendices se referem apenas aos termos O descritor lsquotermorsquo significa uma unidade lexical formada por uma uacutenica palavra ou por mais de uma denominada de lsquotermo compostorsquo E o descritor lsquorelacionamentorsquo ocorre entre termos ou seja satildeo relaccedilotildees de construccedilotildees sintaticamente diferentes que tecircm o mesmo significado (semacircntica) Exemplo lsquodefesa eficientersquo eacute igual a lsquodefender eficientementersquo e lsquofeira de domingorsquo eacute igual a lsquofeira dominicalrsquo Alguns autores como Baeza-Yates e Ribeiro-Neto (1999) utilizam a palavra lsquoiacutendicersquo ao inveacutes de descritores contudo Gonzalez ressalta que esta palavra refere-se apenas aos lsquotermosrsquo natildeo dando conta da semacircntica que envolve os lsquorelacionamentosrsquo
47
5 Relacionamento-Termo (RT) conjunto de relacionamentos sintaacuteticos e seus
componentes ldquoOs Sintagmas Nominais constituem os principais descritores neste
casordquo (GONZALEZ 2005 p41)
O modelo TR+ proposto por este autor combina aspectos dos modelos TR e RT
A Figura 18 daacute uma visatildeo geral do modelo TR+ de Gonzalez (2005) na fase de
indexaccedilatildeo com suas etapas essenciais e na fase de busca para a classificaccedilatildeo por relevacircncia
dos documentos em relaccedilatildeo agrave consulta
g
f
e
da a
b b
c
Figura 18 Visatildeo Geral do modelo TR+ Fonte Gonzalez 2005
O espaccedilo de descritores do modelo TR+ construiacutedo na fase de indexaccedilatildeo eacute com
de quatro processos principais
a) Preacute-processamento (toquenizaccedilatildeo e etiquetagem)
b) Nominalizaccedilatildeo
c) Captura de RLBs
d) Termos e RLBs
Na etapa ldquoardquo de preacute-processamento ocorrem duas accedilotildees fundamentais Toquen
e Etiquetagem A toquenizaccedilatildeo eacute a identificaccedilatildeo de cada item lexical (palavra e pontu
Na etiquetagem existe um etiquetador gramatical (part-of-speech tagger - parser
identifica atraveacutes de uma etiqueta (tag) a categoria gramatical de cada palavra do
(adjetivo substantivo verbo entre outras) Geralmente eacute morfoloacutegico (identifica som
c
posto
izaccedilatildeo
accedilatildeo)
) que
texto
ente a
48
categoria morfoloacutegica) ou morfossintaacutetico (identifica tambeacutem as funccedilotildees sintaacuteticas) Estes
processos satildeo realizados de forma automatizada21
Antes da nominalizaccedilatildeo eacute realizada a geraccedilatildeo de espaccedilo dos descritores que se
constitui na seleccedilatildeo e normalizaccedilatildeo dos descritores e ainda a contagem de frequumlecircncia de
ocorrecircncia dos descritores - termos (para o caacutelculo de seus pesos) que seraacute usada na etapa
ldquodrdquo
Faz parte do processo de seleccedilatildeo de descritores a eliminaccedilatildeo de stopwords22 que
podem ser descartadas na fase de indexaccedilatildeo e na consulta Essa exclusatildeo justifica-se segundo
o autor porque as stopwords satildeo consideradas palavras com pouca representatividade A
seleccedilatildeo dos descritores a quantidade dos mesmos e o peso de cada um podem ser afetados
pela normalizaccedilatildeo linguumliacutestica
A normalizaccedilatildeo segundo Gonzalez (2005) apresenta trecircs tipos conhecidos como
bull Sintaacutetica - que transforma frases semanticamente equivalentes mas
sintaticamente diferentes (ldquoeficiente processo raacutepidordquo e ldquoprocesso raacutepido
eficienterdquo)
bull Leacutexico-semacircntico ndash que utiliza relacionamentos semacircnticos (como a sinoniacutemia)
para substituir palavras morfologicamente distintas por uma uacutenica forma que
representa o conceito evidenciado
bull Morfoloacutegica ndash reduz as formas flexionais de uma palavra por meio da
conflaccedilatildeo23
No modelo TR+ foi utilizada a normalizaccedilatildeo lexical para o processo de
nominalizaccedilatildeo Este processo de nominalizaccedilatildeo constitui a etapa ldquobrdquo e significa a
transformaccedilatildeo de uma palavra (adveacuterbio adjetivo ou verbo) existente no texto em um
substantivo semanticamente equivalente constituiacutedo com regras vaacutelidas de formaccedilatildeo de
palavras (GONZALEZ 2005)
A tabela abaixo mostra exemplos de termos nominalizados Nesta etapa de
nominalizaccedilatildeo eacute utilizada a ferramenta CHAMA24
21 A ferramenta FORMA (Toquenizaccedilatildeo e Etiquetagem Morfoloacutegica) foi utilizada por Gonzalez O autor cita o nome desta ferramenta no seu site httpwwwinfpucrsbr~gonzaleztr+ Acesso em 14 de fevereiro de 2006 22 Stopwords satildeo palavras como preposiccedilotildees artigos e conjunccedilotildees 23 Conflaccedilatildeo satildeo processos realizados por algoritmos que combinam a representaccedilatildeo de duas ou mais palavras em um uacutenico termo Haacute dois meacutetodos mais comuns stemming que reduz a palavra para a parte fundamental semelhante ao radical e lematizaccedilatildeo que reduz a palavra variaacutevel agrave correspondente forma ldquocanocircnicardquo 24 A ferramenta CHAMA (nominalizaccedilatildeo de adjetivos verbos e adveacuterbios) foi desenvolvida por Marco Antonio Insaurriaga Gonzalez (doutor em Ciecircncia da Computaccedilatildeo pela UFRGS) Em sua tese de doutorado intitulada ldquoTermos e Relacionamentos em Evidecircncia na Recuperaccedilatildeo de Informaccedilatildeordquo 2005
49
Tabela 1 Exemplos de nominalizaccedilatildeo Fonte Gonzalez 2005
Devido agraves diferentes variaccedilotildees que a nossa Liacutengua Portuguesa apresenta este autor
trabalha em seu modelo com palavras sem acentuaccedilatildeo e em letras minuacutesculas ocorrendo um
comprometimento do significado das palavras como por exemplo eacute citado por ele puacuteblica e
publica
A etapa ldquocrdquo de captura de Relaccedilotildees Lexicais Binaacuterias (RLBs) eacute segundo Gonzalez
(2005) o relacionamento entre termos nominalizados ou seja sintaticamente diferentes mas
semanticamente iguais25 Uma RLB pode ser classificada tambeacutem quanto agrave nominalizaccedilatildeo de
seus componentes Este autor sistematiza e classifica esta questatildeo conforme aparece em seus
exemplos abaixo (2005 p 47)
bull Original onde o termo natildeo recebeu o processo de nominalizaccedilatildeo
bull Derivada onde um dos termos pelo menos resulta do processo de
nominalizaccedilatildeo
Uma RLB de acordo com Gonzalez (2005) apresenta a seguinte aparecircncia
25 Gonzalez desenvolveu o software RELLEX para o reconhecimento de relaccedilotildees lexicais binaacuterias em sua tese de doutorado 2005
50
id (t1t2) onde
id significa o identificador de relaccedilatildeo e
t1 e t2 satildeo os termos nominalizados
Este autor aponta os trecircs tipos de RLBs quanto ao identificador id
bull Classificaccedilatildeo onde id eacute especificado com um sinal de igual (=) t1 representa
uma subclasse ou uma instacircncia de t2 e t2 representa uma classe
Exemplos =(caoanimal)
=(PET garrafa) Exemplo desenvolvido nesta dissertaccedilatildeo
bull Restriccedilatildeo onde id eacute uma preposiccedilatildeo t1 representa um elemento modificado e t2
representa um elemento modificador
Exemplos de(equipeatletismo)
com(supervisorexperiencia)
por(orientacaoministro)
bull Associaccedilatildeo onde id representa um evento t1 eacute um sujeito e t2 eacute um objeto
(direto ou indireto) ou um adjunto
Exemplos superacao(alunodificuldade)
interessea(propostanegociante)
moradiaem(presidentebrasilia)
As Relaccedilotildees Lexicais Binaacuterias conforme Gonzalez (2005) satildeo inseridas no espaccedilo
de descritores para ampliar o seu universo As RLBs descrevem relaccedilotildees semacircnticas lexicais
como as que satildeo apresentadas na estrutura de Qualia da teoria do Leacutexico Gerativo de
Pustejovsky (GONZALEZ 2000 PUSTEJOVSKY 1991) O estudo desta teoria motivou o
Gonzalez a desenvolver a proposta das RLBs como parte integrante de seu trabalho como um
modo de adequaacute-la a aplicaccedilotildees na aacuterea de RI
Como jaacute foi descrita na seccedilatildeo 32 a Estrutura de Qualia da teoria do Leacutexico
Gerativo descreve um item lexical atraveacutes de quatro papeacuteis formal constitutivo agentivo e
teacutelico O papel formal distingue um item lexical em um domiacutenio maior Em uma RLB
segundo Gonzalez (2005) do tipo classificaccedilatildeo como ldquo=(computadormaquina)rdquo por
exemplo o computador seria distinguido como uma maacutequina ou em ldquo=(ipmftributo)rdquo o ipmf
seria um tributo Portanto a RLB do tipo classificaccedilatildeo corresponde ao papel formal da
estrutura de Qualia
51
O papel constitutivo estabelece a relaccedilatildeo entre um item lexical X e suas partes
constituintes Em uma RLB do tipo restriccedilatildeo como ldquode(mesamadeira)rdquo por exemplo haveria
a indicaccedilatildeo de que a mesa eacute feita de madeira ou em ldquocom(massaalho)rdquo de que haacute alho na
massa O papel agentivo especifica os fatores envolvidos na origem ou causa de um item
lexical Em uma RLB para este autor do tipo restriccedilatildeo como ldquopor(publicacaoautor)rdquo por
exemplo seria especificado que a publicaccedilatildeo se deve ao autor ou em ldquopor(impedimentolei)rdquo
que a lei eacute a razatildeo do impedimento
O papel teacutelico explica qual a funccedilatildeo ou finalidade do item lexical Em uma RLB do
tipo associaccedilatildeo como ldquoconserto(encanadorvazamento)rdquo por exemplo explica que a funccedilatildeo
do encanador eacute o conserto do vazamento ou em uma RLB do tipo restriccedilatildeo como
ldquopara(leituraaprendizado)rdquo que a finalidade da leitura eacute o aprendizado (GONZALEZ 2005)
Este autor salienta que natildeo se quer que as RLBs ldquointerpretemrdquo o texto com
distinccedilotildees indicaccedilotildees especificaccedilotildees ou explicaccedilotildees dos tipos apresentados O propoacutesito eacute de
que as RLBs sejam descritores de tais fatos mas sem classificaccedilatildeo (etiquetas) Por isto os
identificadores de relaccedilatildeo natildeo satildeo rotulados com os papeacuteis descritos A uacutenica exceccedilatildeo eacute o
identificador das RLBs do tipo classificaccedilatildeo O indicador ldquo=rdquo eacute o roacutetulo inevitaacutevel para o
claacutessico ldquoeacute umrdquo porque natildeo haacute outro papel possiacutevel nesse tipo de relaccedilatildeo
No modelo TR+ estaacute envolvido aleacutem da coleccedilatildeo de documentos constituiacuteda por
descritores (termos e relacionamentos) tambeacutem os seus respectivos pesos que dependem de
uma formulaccedilatildeo matemaacutetica denominada de lsquocaacutelculo de representatividadersquo dos descritores
em cada documento que eacute um diferencial deste modelo e estaacute na fase ldquodrdquo onde os termos e
RLBs seratildeo armazenados
Para ocorrer o caacutelculo do peso dos descritores eacute aplicado o conceito de evidecircncia26
Este conceito natildeo depende apenas da frequumlecircncia de ocorrecircncia de um descritor mas de um
outro mecanismo ldquoa representatividade de um descritor depende aleacutem de sua frequumlecircncia de
ocorrecircncia no texto da ocorrecircncia de mecanismos de coesatildeo fraacutesicardquo (GONZALEZ 2005
p48) A coesatildeo fraacutesica determina uma junccedilatildeo significativa entre os componentes de uma
frase27 Esta junccedilatildeo aliada com a frequumlecircncia de ocorrecircncia constitui o conceito de evidecircncia
como um dos aspectos essenciais da Tese de Gonzalez (2005)
A evidecircncia dos termos eacute realizada de forma direta com a frequumlecircncia e a coesatildeo
fraacutesica mas a evidecircncia de um relacionamento natildeo pois esta eacute dependente primeiramente das
26 Evidecircncia significa qualidade daquilo que eacute evidente que eacute incontestaacutevel que todos vecircem ou podem ver e verificar (Dicionaacuterio Eletrocircnico Michaelis) Como descreve Gonzalez (2005) ldquoeacute aquilo natildeo oferece ou natildeo daacute margem agrave duacutevidardquo 27 Site httpacdufrjbr~peadtema09coesaogramaticalhtml
52
evidecircncias de seus termos Este conceito estaacute inserido no caacutelculo de representatividade de um
descritor
O caacutelculo da representatividade eacute um caacutelculo de relevacircncia do termo ou
relacionamento que varia de acordo com as abordagens (booleana vetorial e probabiliacutestica) e
pode ser realizado apenas com a frequumlecircncia da palavra no documento ou ainda com a
frequumlecircncia vinculada com a sua informaccedilatildeo morfoloacutegica ou sintaacutetica (GONZALEZ 2005)
Para realizar o caacutelculo da representatividade dos descritores haacute duas estrateacutegias de
determinaccedilatildeo que satildeo os modelos com unigramas que tratam os termos de forma
independente (abordagens vetorial e probabiliacutestica) e os modelos com dependecircncia entre
termos Estas dependecircncias envolvem conjuntos diferentes de conhecimentos que satildeo os
estatiacutesticos e os linguumliacutesticos28 Os conhecimentos linguumliacutesticos satildeo ldquoleacutexico morfoloacutegico
fonoloacutegico sintaacutetico semacircntico e pragmaacuteticordquo (ABRAHAtildeO 1997 p11)
Estes dois modelos descritos acima satildeo apresentados como mais significativos
poreacutem ainda utilizam a abordagem booleana Isto porque Gonzalez (2005) define como o
caminho mais promissor a combinaccedilatildeo da abordagem booleana (individualmente limitadora)
com a uniatildeo dos conhecimentos estatiacutesticos e linguumliacutesticos entre si que permitem mais
interaccedilatildeo com o usuaacuterio
O caacutelculo da representatividade ao mesmo tempo que eacute uma propriedade baacutesica de
um descritor apresenta diferentes formas de acordo com as abordagens vetorial e
probabiliacutestica (capiacutetulo 2) e gera diversas interpretaccedilotildees Por isto Gonzalez (2005) propotildee um
novo caacutelculo que compreenda a importacircncia do contexto nas foacutermulas inseridas no seu modelo
TR+
O outro momento de seu modelo (Figura 18) compreende a lsquofase de buscarsquo que inclui
Preacute-Processamento (toquenizaccedilatildeo e etiquetagem) Nominalizaccedilatildeo e Captura de RLBs Estas
etapas ocorrem da mesma maneira que na fase de indexaccedilatildeo Inclui tambeacutem as etapas
Formulaccedilatildeo de consulta booleana Busca e Classificaccedilatildeo
Na etapa ldquoerdquo (Formulaccedilatildeo de Consulta Booleana) Gonzalez (2005) explica que se a
consulta q em linguagem natural formulada pelo usuaacuterio for por exemplo ldquopintura
restauradardquo entatildeo seraacute formulada no formato Booleano conforme o modelo TR+ a seguinte
consulta qb
28 Estes conhecimentos envolvem niacuteveis leacutexico-morfoloacutegico e sintaacutetico sintagmas nominais (sujeito objeto direto e indireto e adjunto adnominal) A vantagem destes eacute a capacidade de identificar relacionamentos entre palavras natildeo adjacentes como ldquoalgoritmosrdquo e ldquoconcorrentesrdquo em ldquoalgoritmos sequumlenciais e concorrentesrdquo
53
r1 OU r2 OU ( (n1 (p1) OU n2(p1) ) E (n1 (p2) OU n2(p2) ) ) onde
r1 = de(restauracaopintura)
r2 = r1rsquo = diferente_de(restauracaopintura)
n1(p1) = (elemento vazio)
n2(p1) = pintura
n1(p2) = restauracao
n2(p2) = restaurador
p1 = pintura e
p2 = restaurada
Tabela 2 Exemplo de uma consulta qb Fonte Gonzalez 2005 p 51
Na fase de busca a etapa ldquofrdquo ocorre uma relaccedilatildeo entre a etapa ldquoerdquo e a etapa ldquodrdquo Esta
uacuteltima acontece ainda na fase de indexaccedilatildeo visto que ldquoestando os termos e as RLBs definidas
e calculados os pesos a classificaccedilatildeo dos documentos depende do valor de relevacircncia dos
mesmos e da formulaccedilatildeo Booleana da consultardquo (GONZALEZ 2005 p 50)
A etapa ldquogrdquo (Classificaccedilatildeo) eacute resultado de um caacutelculo sobre os dados obtidos no
procedimento anterior que identifica o valor de relevacircncia de cada documento recuperado-os
em ordem decrescente Um exemplo de classificaccedilatildeo eacute indicado por Gonzalez (2005) atraveacutes
da foacutermula de uma consulta denominada q Nesta consulta encontram-se os termos t1 e t2 e a
RLB r e se estes dois termos estatildeo relacionados atraveacutes de r em um documento d estes teratildeo
dupla contribuiccedilatildeo no caacutelculo do valor de relevacircncia de d poreacutem se t1 e t2 ocorrem em d mas
natildeo estatildeo relacionados atraveacutes de r o autor considera que esta contribuiccedilatildeo seraacute simples e
assim d tende a perder posiccedilotildees na classificaccedilatildeo por relevacircncia a q
Os documentos recuperados classificam-se em dois grupos (a) grupo superior de maior relevacircncia documentos que atendem agraves condiccedilotildees estabelecidas na consulta Booleana ou seja possuem pelo menos uma das RLBs da consulta ou na falta de todas elas possuem obrigatoriamente todos os termos conforme especificado (b) grupo inferior de menor relevacircncia documentos que natildeo atendem a todas as condiccedilotildees estabelecidas na consulta Booleana mas possuem pelo menos um dos termos da consulta Os documentos satildeo classificados em ordem decrescente do valor de relevacircncia tanto nos grupos superior como inferior (GONZALEZ 2005 p 51)
Eacute importante ressaltar que toda a proposta de Gonzalez (Modelo TR+) foi
automatizada testada e aprovada Foi utilizado o software FORMA para a etapa de preacute-
processamento e os demais softwares como CHAMA (nominalizaccedilatildeo) e RELLEX (regras de
54
identificaccedilatildeo de RLBs) foram desenvolvidos pelo autor Diversos algoritmos juntamente com
abordagens de RI (booleana probabiliacutestica e vetorial) foram desenvolvidos para as fases
posteriores do seu trabalho como o caacutelculo do peso dos descritores a busca e a classificaccedilatildeo
de documentos
As experimentaccedilotildees desenvolvidas por Gonzalez (2005) em seu trabalho lograram
comprovar que o processo de nominalizaccedilatildeo como processo de normalizaccedilatildeo lexical
proporciona melhores resultados de recuperaccedilatildeo que os produzidos pelos processos
tradicionais (lematizaccedilatildeo e stemming) a identificaccedilatildeo de RLBs (obtenccedilatildeo de informaccedilatildeo
linguumliacutestica) contribui de forma positiva para a descriccedilatildeo de dependecircncias de termos
ampliando o espaccedilo de descritores o caacutelculo da representatividade dos descritores baseado em
evidecircncia melhora a classificaccedilatildeo de relevacircncia dos documentos com vantagem sobre o
caacutelculo baseado em frequumlecircncia de ocorrecircncia o uso de consultas com operadores Booleanos
trata-se de uma forma eficaz de complementar a especificaccedilatildeo de dependecircncias de termos e
tambeacutem a inclusatildeo de conhecimento linguumliacutestico como a realizada no modelo proposto pelo
autor apresenta relaccedilatildeo custobenefiacutecio viaacutevel dentro do atual estaacutegio de desenvolvimento da
pesquisa em RI
O proacuteximo capiacutetulo descreve o novo modelo proposto para esta dissertaccedilatildeo baseado
na identificaccedilatildeo das possibilidades de ampliaccedilatildeo de siacutentese e de sistematizaccedilatildeo do modelo de
Kuramoto com a estrutura de Gonzalez Pode ser considerada uma soluccedilatildeo hiacutebrida de um
modelo de RI que une trecircs teorias Sintagmas Nominais de Kuramoto Leacutexico Gerativo de
Pustejovsky e Modelo TR+ de Gonzalez Apresentar-se-aacute os paracircmetros gerais norteadores e
justificadores do modelo a descriccedilatildeo narrativa da sua funcionalidade os resultados dos testes
e a descriccedilatildeo formal UML do modelo
55
4 APRESENTACcedilAtildeO E DISCUSSAtildeO DO MODELO PROPOSTO
A proposta desta dissertaccedilatildeo eacute de integrar a aplicaccedilatildeo praacutetica do projeto dos
Sintagmas Nominais de Kuramoto sistematizando e associando com o modelo TR+ de
Gonzalez (2005)
Na descriccedilatildeo do modelo do sistema proposto foi utilizado o meacutetodo denominado de
Processo Unificado (UP) que envolve as fases de concepccedilatildeo elaboraccedilatildeo construccedilatildeo e
transiccedilatildeo e utilizou-se a Linguagem de Modelagem Unificada (UML) que eacute fortemente
relacionada com a metodologia utilizada segundo Wazlawick (2004)
Neste capiacutetulo desenvolve-se o modelo conceitual da aplicaccedilatildeo proposta para a qual
foram realizadas as etapas de levantamento e anaacutelise de requisitos representada pelo
diagrama e pela descriccedilatildeo dos casos de uso e de construccedilatildeo dos diagramas de classes e de
sequumlecircncia relacionados
41 Procedimentos desenvolvidos utilizando o modelo de SN de Kuramoto e a proposta
Gonzalez - ldquoEstrutura SINTR+rdquo
Esta dissertaccedilatildeo optou por realizar uma relaccedilatildeo entre propostas diferenciadas utilizar
o modelo de SN de Kuramoto para a organizaccedilatildeo dos conceitos mais significativos dos
documentos e a proposta de Gonzalez para a busca dessas informaccedilotildees que estaratildeo
estruturadas atraveacutes da dependecircncia entre termos Esta relaccedilatildeo foi desenvolvida na criaccedilatildeo da
ldquoEstrutura SINTR+rdquo que tem como especificidade a busca nos documentos a partir do banco
de dados dos Sintagmas Nominais Esta escolha de unir em uma estrutura proacutepria os SN e o
Modelo TR+ pautou-se pelo intuito de orientar mais objetivamente o usuaacuterio na definiccedilatildeo da
sua query de busca atraveacutes de uma navegaccedilatildeo sobre a estrutura de SN presentes no
documento e de posterior apresentaccedilatildeo de lista de documentos efetivamente relevantes
O objetivo eacute trabalhar com os Sintagmas Nominais evidenciando e potencializando
uma uniatildeo com o modelo TR+ de Gonzalez (2005) O modelo abaixo (Figura 19) apresenta
uma nova proposta pautada na junccedilatildeo sistematizada e analiacutetica da extraccedilatildeo dos SN na
Estrutura de Kuramoto (1999) com o Modelo TR+ de Gonzalez (2005) ldquoEstrutura SINTR+rdquo
56
Documentos
Extraccedilatildeo de SN
Preacute-processamento
Nominalizaccedilatildeo
4
Captura de RLBs
Referecircncia aos
documentos classificados
Classificaccedilatildeo
Lista de SN de Niacutevel Requerido
Lista dos demais Preacute-
3
2
85
3
2
1
Consulta em
LN
7
6
(Fase d
O mo
extraccedilatildeo de tod
o preacute-processam
de acontecer co
de forma mais
foco de anaacutelise
subsequumlentes
Antes
descritores con
frequumlecircncia de o
Etapa 5
Em se
mudanccedila de um
concreto eou a
Te
R
e indexaccedilatildeo)
Figura
delo propost
os os seus Si
ento onde o
m todas as p
objetiva e raacute
somente so
do processo d
stituiacuteda na s
correcircncia dos
guida ocorre
a palavra (ad
bstrato Na E
rmos e
LBs
Busca
Formulaccedilatildeo de consulta Booleana
11
(Fase
19 Visatildeo Geral do Modelo Proposto ldquoEstr
o se inicia a partir dos document
ntagmas Nominais (Etapa 1) Extra
correm a Toquenizaccedilatildeo e a Etiquet
alavras do documento como ocorr
pida apenas diretamente sobre os
bre os termos inclusos nos SN pe
e nominalizaccedilatildeo na Etapa 3 eacute exec
eleccedilatildeo e normalizaccedilatildeo dos descrit
descritores - termos (para o caacutelculo
o processo de nominalizaccedilatildeo que c
veacuterbio adjetivo ou verbo) existen
tapa 4 ocorre a identificaccedilatildeo das
niacuteveis de SN processamento
Nomin
Captura
9
de busca)
utura SINTR+rdquo
os a serem inse
iacutedos os SN na E
agem que Essa e
e no modelo TR
termos constant
rmanece para to
utada a geraccedilatildeo
ores e ainda na
de seus pesos)
onstitui a Etapa
te nos SN em u
RLBs nos SN q
alizaccedilatildeo
de RLBs 0
ridos com a
tapa 2 eacute feito
tapa ao inveacutes
+ eacute realizada
es nos SN O
das as etapas
de espaccedilo dos
contagem da
a ser usada na
3 e significa a
m substantivo
ue significa o
1
1
1
57
relacionamento entre termos nominalizados Estas etapas acima satildeo constituiacutedas para a
geraccedilatildeo do espaccedilo de descritores (termos e RLBs) referentes agrave Etapa 5
Na lsquofase de buscarsquo primeiramente o usuaacuterio digita uma palavra por exemplo
ldquoplaacutesticosrdquo A resposta para o usuaacuterio ocorreraacute pois internamente foi feita uma programaccedilatildeo
(a ser implementada) para identificar o niacutevel do SN solicitado pelo usuaacuterio para que
posteriormente apareccedila para este a lista de todos os SN do niacutevel apresentado contendo a query
solicitada
No caso do exemplo ldquoplaacutesticosrdquo o processo avanccedila na Etapa 6 listando todos os
sintagmas nominais de primeiro niacutevel (SN1) dos documentos (uma vez que a solicitaccedilatildeo
referia-se ao niacutevel 1) Nesta etapa o usuaacuterio poderaacute escolher um dos sintagmas de primeiro
niacutevel ou confirmar a sua escolha (query) inicial O processo continua com a escolha de uma
dentre as opccedilotildees de i) ver a lista de documentos relacionados ao SN1 definido ou ii) solicitar
a relaccedilatildeo de sintagmas de seu segundo niacutevel A visualizaccedilatildeo da lista de sintagmas de niacutevel
superior permitiria ao usuaacuterio filtrar mais a sua consulta Para a determinaccedilatildeo da lista de SN
de segundo niacutevel como por exemplo ldquoa reciclagem de plaacutesticosrdquo ldquoa induacutestria de plaacutesticosrdquo
(Figura 20) tambeacutem foi feita uma programaccedilatildeo especiacutefica que seraacute descrita posteriormente
Na continuidade do processo o usuaacuterio pode prosseguir o refinamento da sua busca
atraveacutes da seleccedilatildeo de SN de maior niacutevel ou pode dar-se por satisfeito com o resultado (Etapa
7) solicitando diretamente a lista dos documentos associados ao SN definidos Nesse caso a
lista eacute apresentada na ordem de classificaccedilatildeo oportunizada pela Estrutura TR+ conforme o
descrito nas proacuteximas etapas
O processamento proposto para a determinaccedilatildeo da relaccedilatildeo dos sintagmas de um
determinado niacutevel foi pensado com vista a gerar economia de espaccedilo de memoacuteria utilizada
uma vez que seratildeo armazenados na base de dados os documentos e seus SN de uacuteltimos niacuteveis
e manipulados apenas os uacuteltimos niacuteveis da estrutura de SN Os niacuteveis anteriores relativos ao
SN seratildeo determinados na programaccedilatildeo desenvolvida a partir da identificaccedilatildeo do nuacutemero de
preposiccedilotildees que o SN apresenta Nesta programaccedilatildeo se houver apenas um termo (ou mesmo
apenas um termo composto) o SN eacute considerado um SN de 1ordm niacutevel A presenccedila de um termo
composto com mais uma preposiccedilatildeo indica a existecircncia de um SN de 2ordm niacutevel Jaacute trecircs termos
com duas preposiccedilotildees vatildeo indicar a presenccedila de um SN de 3ordm niacutevel e finalizando quatro ou
mais termos com 3 (ou mais) preposiccedilotildees remetem ao SN de 4ordm niacutevel
Ao optar pela apresentaccedilatildeo da lista de documentos seratildeo desenvolvidas
(internamente) na programaccedilatildeo conforme o proposto pela Estrutura TR+ de Gonzalez as
etapas de Preacute-processamento (toquenizaccedilatildeo e etiquetagem ndash Etapa 8) Nominalizaccedilatildeo (Etapa
58
9) Captura de RLBs (Etapa 10) Formulaccedilatildeo de consulta Booleana (Etapa 11) Busca (Etapa
12) e por fim Classificaccedilatildeo (Etapa 13)
Na Etapa 11 eacute trabalhado no formato Booleano uma consulta formulada pelo usuaacuterio
conforme o modelo TR+ A Etapa 12 ocorre uma relaccedilatildeo entre a Etapa 11 e a Etapa 5 (esta
etapa ocorre ainda na fase de indexaccedilatildeo) A Etapa 13 eacute a uacuteltima e resulta do caacutelculo que
identifica o valor de relevacircncia de cada documento recuperando-os em ordem decrescente
Eacute importante reforccedilar que o sistema iraacute verificar o preacute-processamento nominalizaccedilatildeo
e a captura de RLBs jaacute realizadas na fase de indexaccedilatildeo comparando-as Apoacutes esta
identificaccedilatildeo o sistema usa a formulaccedilatildeo de consulta Booleana para a busca chegando agrave
classificaccedilatildeo dos documentos de acordo com o peso dos descritores (termos e RLBs)
formulados na fase de indexaccedilatildeo e definidos na fase de busca (de acordo com o termo
escolhido e a coleccedilatildeo dos documentos)
Exemplificando o paraacutegrafo acima a Figura 20 mostra o funcionamento inicial desta
estrutura no que se refere aos Sintagmas Nominais
Pesquisa
Usuaacuterio escolha uma opccedilatildeo (Sintagma Nominal) que mais se identifique com a sua consulta Logo em seguida escolha se deseja ir para o Proacuteximo Niacutevel de Sintagma Nominal ou Estrutura TR+
Buscar (SN) Plaacutesticos
SN1 Os plaacutesticos
Proacuteximo niacutevel SN Estrutura TR+
SN2 A reciclagem de plaacutesticos A separaccedilatildeo de plaacutesticos A induacutestria de plaacutesticos
Proacuteximo niacutevel SN Estrutura TR+
SN3 A induacutestria de reciclagem de plaacutesticos
Estrutura TR+ Proacuteximo niacutevel SN
SN4 -----
Estrutura TR+
Figura 20 Descriccedilatildeo inicial do modelo proposto
59
Buscando analisar as vantagens que a proposta do modelo SINTR+ apresenta vale
lembrar que o modelo TR+ de Gonzalez jaacute apresenta benefiacutecios como
bull O processo de nominalizaccedilatildeo propicia melhores resultados de recuperaccedilatildeo do que
os produzidos pelos processos tradicionais (lematizaccedilatildeo e stemming)
bull A identificaccedilatildeo de RLBs colabora para a descriccedilatildeo de dependecircncia de termos que
ampliam o espaccedilo de descritores
bull O caacutelculo da representatividade dos descritores baseado em evidecircncia melhora a
classificaccedilatildeo da relevacircncia de documentos em relaccedilatildeo agravequela obtida atraveacutes da
extraccedilatildeo e do caacutelculo por frequumlecircncia de ocorrecircncia
bull O uso de consultas com operadores Booleanos oferece uma forma eficaz de
complementar a especificaccedilatildeo de co-dependecircncia semacircntica entre termos
As vantagens antevistas na elaboraccedilatildeo da proposta SINTR+ expandem as jaacute obtidas
pelo modelo de Gonzalez29 pois une a elas a vantagem do modelo de hierarquia de niacuteveis de
SN de Kuramoto Estas vantagens satildeo a ldquoEstrutura SINTR+rdquo executa em um menor tempo na
fase de indexaccedilatildeo dos documentos a ldquoEstrutura SINTR+rdquo conteacutem um tamanho menor de
arquivos de iacutendice e a ldquoEstrutura SINTR+rdquo proporciona facilidade na fase de nominalizaccedilatildeo
visto que os SN satildeo o nuacutecleo de maior significaccedilatildeo de um texto30
Os documentos (textos) usados como campo empiacuterico desta dissertaccedilatildeo foram artigos
retirados da Internet sobre o tema ldquoLixordquo Neste contexto fazem parte da coleccedilatildeo de
documentos temas como ldquoCuidados com o Lixordquo ldquoLixo Industrialrdquo ldquoO destino do lixo
quiacutemicordquo entre outros Como ainda natildeo havia disponiacuteveis extratores automaacuteticos de SN por
hierarquia em niacuteveis foi feita uma leitura dos textos dos quais se retirou manualmente seus
sintagmas Os SN significativos com o tema ldquoLixordquo foram extraiacutedos de dois (2) documentos
(que estatildeo nos ANEXOS A e B) e satildeo apresentados no Anexo C
Apoacutes esta etapa foram extraiacutedos todos os sintagmas nominais (somente do
documento1 - ANEXO A) que estatildeo sublinhados no texto independentes do tema para
exemplificar a extraccedilatildeo da consulta
Para avaliar preliminarmente a extensatildeo com que as vantagens antevistas no modelo
proposto realmente se verificariam foi realizado um teste com o documento1 (ANEXO A)
composto de 9 paraacutegrafos e 1006 palavras (Figura 21)
29 Este modelo foi testado e aprovado na sua proposta de doutorado que estaacute inserida no contexto do grupo de pesquisa da PUCRS no qual o autor participa de estudos na aacuterea haacute mais de uma deacutecada 30 Isto pode ser observado do Anexo A (Documento1) em que os SN satildeo destacados no texto
60
Figura 21 Nuacutemero de palavras do Documento1
O documento1 (ANEXO A) foi o escolhido para dimensionar a reduccedilatildeo no total de
palavrastermos a serem incluiacutedos na base de dados demonstrando a importacircncia do modelo
apresentado conforme tabela abaixo
Categorias Texto Total SNs Total de palavrastermos 1006 640
Substantivos 369 334 Adveacuterbios 41 04
Verbos 133 Ausecircncia de verbos Adjetivos 73 55
Figura 22 Tabela comparativa Texto Total e SNs
O texto possui um total de 1006 palavrastermos sendo destes 369 substantivos 41
adveacuterbios 133 verbos e 73 adjetivos (Figura 22) Do texto todo foi extraiacutedo um total de 139
sintagmas nominais E destes o nuacutemero total de palavrastermos eacute de 640 sendo 334
substantivos 04 adveacuterbios e 55 adjetivos
61
Documento1 - Cresce a induacutestria de reciclagem de plaacutesticos
369
41
133
7355
nordm de substantivos
nordm de adveacuterbios
nordm de verbos
nordm de adjetivos
nordm de adjetivosinseridos nos SN
Figura 22 Nuacutemero de substantivos adveacuterbios verbos e adjetivos do Documento1
Relacionando o nuacutemero de adjetivos do texto todo e os adjetivos inseridos nos SN
pode-se notar um ganho expressivo pois se tem uma reduccedilatildeo de 18 adjetivos Destes dados
133 verbos foram descartados (novamente afirma-se da importacircncia dos SN que representam a
unidade significativa do texto) Tambeacutem se observa que 37 adveacuterbios natildeo foram incluiacutedos
diminuindo assim o nuacutemero de descritores
Estes dados apontam aspectos positivos que consolidam a importacircncia da utilizaccedilatildeo
dos SN na diminuiccedilatildeo de descritores com consequumlente reduccedilatildeo do uso de memoacuteria e ainda
melhora na fase de busca pelo tempo de resposta
A Figura 23 apresenta o comparativo entre o percentual do nuacutemero de palavras do
texto com o percentual do nuacutemero de palavras dos Sintagmas Nominais Isto mostra que o
percentual de SN de 64 tem um valor reduzido colaborando para um nuacutemero menor de
descritores desta forma restringe-se tambeacutem o uso de memoacuteria (neste caso ocupado na fase
de indexaccedilatildeo) reduzem-se os descritores e diminui-se o tempo de resposta na fase de busca
Estes dados natildeo satildeo somente relevantes frente a um modelo de RI mas corroboram para a
manutenccedilatildeo do seu funcionamento
62
Dados Comparativos - Nordm de palavras restantes e dos SNs
64
36 Nordm de palavras dossintagmas nominaisNordm de palavras restantes
100 - nordm total de palavras
Figura 23 Nuacutemero de palavras restantes x Sintagmas Nominais
A Figura 24 mostra que existe um percentual de 28 de adjetivos inseridos nos
Sintagmas Nominais Esses adjetivos durante o processo de nominalizaccedilatildeo conforme
Gonzalez (2005) satildeo transformados em substantivos concretos eou abstratos (se houver) Isto
aponta um nuacutemero bem inferior comparado a um texto inteiro o que promove uma diminuiccedilatildeo
de substituiccedilotildees de um adjetivo por um substantivo concreto eou abstrato que pode inferir
no significado do documento e a reduccedilatildeo destas substituiccedilotildees evita possiacuteveis erros de
interpretaccedilatildeo
Dados Comparativos - Sintagmas Nominais e adjetivos
72
28nordm de sintagmas nominais
nordm de adjetivos inseridosnos SN
Figura 24 Sintagmas Nominais e adjetivos inseridos nos SN
A extraccedilatildeo dos Sintagmas Nominais corresponde agrave primeira etapa Depois desta
extraccedilatildeo manual se agrupou os SN em quatro niacuteveis 1 2 3 e 4 (ANEXO C)
Para o desenvolvimento das demais etapas (toquenizaccedilatildeo etiquetagem morfoloacutegica
nominalizaccedilatildeo e as relaccedilotildees lexicais binaacuterias) foi escolhido o paraacutegrafo 6 do documento1
(ANEXO A)
63
A induacutestria da reciclagem do plaacutestico no Brasil tem crescido bastante em funccedilatildeo do reaproveitamento do PET que eacute usado no segmento de monofilamentos em artigos como vassouras e na induacutestria tecircxtil Conforme Ana Flores a reciclagem gera 250 mil empregos no Paiacutes dos quais 70 satildeo informais Poreacutem a maior parte do potencial de mercado ainda estaacute sendo desperdiccedilada avalia ldquoCerca de 15 do total de plaacutestico que eacute industrializado no Paiacutes eacute reciclado Em dez anos poderiacuteamos chegar a 60 como nos Estados Unidos desde que fosse implementado um conjunto de medidas incentivando essa praacuteticardquo assegura
Tabela 3 Paraacutegrafo 6 do documento1
Na etapa de toquenizaccedilatildeo e etiquetagem satildeo identificadas classes de palavras como
substantivos adjetivos adveacuterbios preposiccedilotildees artigos conjunccedilotildees e inclusive ponto No
Anexo D eacute possiacutevel visualizar essas informaccedilotildees em duas ferramentas de extraccedilatildeo
disponiacuteveis nos sites do Projeto de Linguumliacutestica Computacional Hermes da Fundaccedilatildeo
Universidade Federal do Rio Grande (FURGBrasil) e do Programa de LAEL da PUC-SP -
Programa de Estudos Poacutes-Graduados em Linguumliacutestica Aplicada e Estudos da Linguagem da
Pontifiacutecia Universidade Catoacutelica de Satildeo Paulo31
A partir desta identificaccedilatildeo adjetivos adveacuterbios e verbos satildeo transformados em
substantivos (concreto eou abstrato) quando for possiacutevel Ou ateacute mesmo o adjetivo seja o
mesmo nome (grafia) para substantivos Esse processo de nominalizaccedilatildeo no trabalho de
Gonzalez (2005) foi realizado atraveacutes da ferramenta CHAMA desenvolvida por ele mesmo
Apoacutes o processo de nominalizaccedilatildeo satildeo identificadas as RLBs (Relaccedilotildees Lexicais
Binaacuterias) conforme descrito nesta seccedilatildeo Gonzalez (2005) desenvolveu tambeacutem a ferramenta
RELLEX para identificaccedilatildeo das RLBs Para o caso do teste optou-se por fazer manualmente32
(ANEXO E) devido agrave indisponibilidade destas duas ferramentas Esta etapa tem uma
importacircncia muito grande onde satildeo reconhecidos os relacionamentos das palavras no texto
atraveacutes de identificadores A tabela 4 mostra as RLBs identificadas do paraacutegrafo 6 do
documento1 (ANEXO A) de forma manual
RLBs classificaccedilatildeo =(textil industria)
RLBS restriccedilotildees
de (industria reciclagem) de (reciclagem plastico)
de (reaproveitamento PET) de (segmento monofilamento) de (mercado potencialidade)
de (plastico totalidade) de (conjunto medida)
Tabela 4 RLBs identificadas no paraacutegrafo 6 do documento1
31 As paacuteginas disponiacuteveis satildeo hermessourceforgenethermeswebhtml e httpwww2laelpucspbrcorporaetiquetagemindexhtml32 Dicionaacuterios consultados MICHAELIS Dicionaacuterio Eletrocircnico Acesso em mar de 2006 e FERREIRA Aureacutelio Buarque de Holanda Novo Aureacutelio Seacuteculo XXI o dicionaacuterio da liacutengua portuguesa 1999
64
42 Descriccedilatildeo Formal do Modelo Proposto SINTR+
Os Sintagmas Nominais de Kuramoto em conjunto com as abordagens utilizadas no
modelo TR+ de Gonzalez promovem a utilizaccedilatildeo de conceitos orientados a objetos (OO)
porque eacute considerada a melhor metodologia para projeto de software permite uma
organizaccedilatildeo aprimorada do coacutedigo tem uma proximidade com a UML (Linguagem de
Modelagem Unificada) proporciona uma facilidade de manutenccedilatildeo do coacutedigo apresenta
menor grau de replicaccedilatildeo do coacutedigo e possibilita uma aplicaccedilatildeo em camadas o MVC33 um
padratildeo de projeto atraveacutes da Linguagem Orientada a Objetos Para compreender estes
conceitos e o desenvolvimento da modelagem proposta ressaltaram-se alguns aspectos baacutesicos
de seus fundamentos
A Linguagem UML segundo Larman (2000) expressa a modelagem de sistemas e
utiliza os conceitos orientados a objetos Como na aplicaccedilatildeo proposta trabalhar-se-aacute
especificamente apenas nas etapas de anaacutelise e projeto considera-se importante o uso da
linguagem UML por ser esta uma linguagem poderosa para expressar de modo claro e preciso
o processo de geraccedilatildeo de projetos de software Para Wazlawick (2004) esta linguagem daacute
suporte a que esse processo gere uma estrutura faacutecil de ser compreendida Para o autor isto
ocorre quando se utiliza um software autodocumentado e de faacutecil entendimento tanto em niacutevel
macro quanto em detalhes
Este autor define que o Processo Unificado (UP) estaacute associado agrave notaccedilatildeo UML e
indica que suas fases satildeo concepccedilatildeo elaboraccedilatildeo construccedilatildeo e transiccedilatildeo Conforme
Wazlawick (2004) eacute na primeira fase que se faz o levantamento dos principais requisitos e
compreende-se o sistema de forma abrangente A fase de elaboraccedilatildeo eacute constituiacuteda de anaacutelise e
projeto e a fase de construccedilatildeo corresponde agrave implementaccedilatildeo e testes
A anaacutelise de requisitos ainda segundo este autor (2004 p 24) ldquoestaacute associada ao
processo de descobrir quais satildeo as operaccedilotildees que o sistema deve realizar e quais satildeo as
restriccedilotildees que existem sobre elasrdquo Jaacute a anaacutelise de domiacutenio ldquoestaacute relacionada agrave descoberta das
informaccedilotildees gerenciadas pelo sistema ou seja agrave representaccedilatildeo e transformaccedilatildeo da
informaccedilatildeordquo (2004 p 26)
No caso de um sistema de informaccedilotildees sobre uma instituiccedilatildeo de ensino (Moacutedulo
controle de alunos) por exemplo possivelmente a anaacutelise de requisitos permitiria descobrir
que o sistema deveria controlar a data o curso e a turma em que o aluno foi matriculado o
iniacutecio e teacutermino do curso calcular automaticamente os pagamentos gerar relatoacuterios de
65
contrato especificando as claacuteusulas legais de direito e dever do aluno na Instituiccedilatildeo etc Essas
operaccedilotildees satildeo chamadas de ldquorequisitos funcionaisrdquo
Haacute tambeacutem relacionados a um sistema em construccedilatildeo os requisitos natildeo funcionais
que dizem respeito agrave operaccedilatildeo e agrave usabilidade do sistema Um exemplo de requisito natildeo-
funcional seria a necessidade de fazer a matriacutecula via Internet Essa eacute uma restriccedilatildeo de
operaccedilatildeo Um outro exemplo seria uma central de acidentes de tracircnsito onde o registro de um
dado acidente devesse ser feito em no maacuteximo 10 segundos o que demandaria um
processamento e uma interface bastante eficiente constituindo-se esse em um requisito de
usabilidade
Para as etapas de levantamento e anaacutelise de requisitos costuma ser utilizado o
diagrama de casos de uso Segundo Guedes (2004) esse diagrama possibilita a compreensatildeo
do comportamento externo do sistema por qualquer pessoa Entendem-se aqui casos de uso
segundo Larman (2000) como um documento narrativo que descreve a sequumlecircncia de eventos
(accedilotildees) de um ator (um agente externo) que usa um sistema para completar um processo e
descreve tambeacutem as respostas do sistema Pode se dizer que caso de uso eacute um cenaacuterio com
atores e ambientes Criam-se as cenas e as narrativas das mesmas ajudando a entender o que
se quer do sistema O interessante dos casos de uso eacute que os mesmos permitem que o projeto
seja construiacutedo de forma participativa por um grupo de pessoas uma vez que sua descriccedilatildeo se
daacute em uma linguagem textual e diagramaacutetica
A partir dos casos de uso eacute possiacutevel construir o modelo conceitual Conforme Larman
(2000 p 99) ldquoo modelo conceitual ilustra os conceitos significativos em um domiacutenio de
problemardquo Para Wazlawick (2004 p 102) ldquoo modelo conceitual deve descrever a
informaccedilatildeo que o sistema vai gerenciar trata-se de um artefato do domiacutenio do problema e
natildeo do domiacutenio da soluccedilatildeordquo
Eacute importante ressaltar que o modelo conceitual representa somente o aspecto estaacutetico
da informaccedilatildeo Os elementos que representam informaccedilatildeo satildeo conceitos (representados por
classes) atributos (informaccedilotildees alfanumeacutericas ligadas diretamente aos conceitos) e
associaccedilotildees (tipo de informaccedilatildeo que liga diferentes conceitos entre si)
O diagrama de casos de uso do sistema proposto foi desenvolvido no software JUDE
Community Ferramenta de Modelagem UML Um software freeware muito utilizado para a
criaccedilatildeo deste tipo de diagramas Neste software podem tambeacutem ser desenvolvidos os outros
tipos de diagramas do UML tais como de classes sequumlecircncia colaboraccedilatildeo graacuteficos de
estados
33 A sigla significa Model View e Controller
66
Os casos de uso identificados para esta aplicaccedilatildeo foram descritos em duas situaccedilotildees
A primeira eacute referente agrave pesquisa do usuaacuterio e a segunda ao gerenciamento e operaccedilatildeo do
banco de dados (BD) no niacutevel de administrador Para descobrir estes casos de uso foi
necessaacuterio primeiramente identificar os atores envolvidos com o sistema (usuaacuterio e
administrador) E na sequumlecircncia a cada grande processo reconhecido correspondeu a um caso
de uso do sistema
As Figuras 25 e 26 satildeo diagramas na UML que representam casos de uso e seus
atores As elipses significam casos de uso e os bonecos representam atores Para cada uma das
situaccedilotildees (pesquisa e gerenciamento de operaccedilatildeo do BD no niacutevel de administrador) foram
identificados os seguintes casos de uso
Figura 25 Diagrama de casos de uso da UML do sistema proposto ndash Pesquisa do Usuaacuterio
67
Figura 26 Diagrama de casos de uso da UML do sistema proposto ndash Gerenciamento e Operaccedilatildeo do BD no
niacutevel de administrador
Deve-se lembrar que na proposta deste trabalho para economia de espaccedilo de
memoacuteria foram sistematizados dois momentos o 1ordm em um armazenamento na base de dados
do documento apenas para a lista final do usuaacuterio e outro com os Sintagmas Nominais que
seratildeo armazenados na base de dados no 4ordm ou no uacuteltimo niacutevel apresentado (Figura 19) Os
niacuteveis anteriores relativos ao SN seratildeo procurados por uma programaccedilatildeo desenvolvida
relacionada diretamente com os Sintagmas Com isto natildeo haveraacute necessidade de acesso agrave
memoacuteria da base de documentos em todas as accedilotildees e esta serviraacute somente na uacuteltima escolha
do usuaacuterio tendo um ganho significativo quanto agrave rapidez de acesso aos dados da base e a natildeo
existecircncia de duplicaccedilatildeo de dados
Os casos de uso costumam ser documentados conforme Guedes (2004) por meio de
uma linguagem bastante simples fornecendo a funccedilatildeo em linhas gerais dos casos de uso
quais atores interagem com os mesmos quais etapas devem ser executadas pelo ator e pelo
sistema quais paracircmetros devem ser fornecidos e quais restriccedilotildees o caso de uso deve possuir
As Tabelas abaixo (5 a 15) apresentam as descriccedilotildees dos casos de uso do sistema proposto
referente ao gerenciamento e operaccedilatildeo do BD no niacutevel de administrador
68
Nome do Caso de Uso Inserir novo documento Caso de Uso Geral natildeo possui Ator Principal Administrador Atores secundaacuterios natildeo possui Resumo Permite ao administrador do sistema inserir arquivos na base de dados de documentos iniciando o processo de alimentaccedilatildeo de todas as demais bases de dados Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema 1) Anexar um documento 2) Verificar se documento jaacute natildeo existe na base de dados 3) Inserir o documento Restriccedilotildeesvalidaccedilotildees Apenas documentos vaacutelidos34 deveratildeo ser aceitos
Tabela 5 Descriccedilatildeo do caso de uso ndash Inserir novo documento Nome do Caso de Uso Alimentar base de dados (Documentos) Caso de Uso Geral natildeo possui Ator Principal natildeo possui Atores secundaacuterios natildeo possui Resumo Armazenar em meio fiacutesico e com seguranccedila os documentos inseridos pelo Administrador atraveacutes do sistema Preacute-condiccedilotildees Administrador anexa um documento vaacutelido Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema 1) Armazenar em base de dados os documentos anexados Restriccedilotildeesvalidaccedilotildees natildeo possui
Tabela 6 Descriccedilatildeo do caso de uso ndash Alimentar base de dados (Documentos) Nome do Caso de Uso Extrair SN de 4ordm ou uacuteltimo niacutevel Caso de Uso Geral natildeo possui Ator Principal natildeo possui Atores secundaacuterios natildeo possui Resumo Extrair do documento inserido na base de dados todos os sintagmas nominais de 4ordm ou uacuteltimo niacutevel
Preacute-condiccedilotildees o documento estar devidamente validado e inserido na base de dados Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema
1) realizar a anaacutelise do documento inserido extraindo todos os sintagmas nominais de 4ordm ou uacuteltimo niacutevel enviando informaccedilotildees para alimentaccedilatildeo de base de dados de sintagmas
Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 7 Descriccedilatildeo do caso de uso ndash Extrair SN de 4ordm ou uacuteltimo niacutevel
34 Documentos vaacutelidos satildeo considerados aqui apenas os documentos em formato de texto (como doc txt)
69
As accedilotildees do sistema da tabela 7 seguem as regras estabelecidas na seccedilatildeo 41 da paacutegina 66 Nome do Caso de Uso Tratar regras verbais Caso de Uso Geral natildeo possui Ator Principal natildeo possui Atores secundaacuterios natildeo possui Resumo Realizar o tratamento de regras verbais dos sintagmas nominais de 4ordm ou uacuteltimo niacutevel extraiacutedos do documento Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema
1) aplicar rotinas de tratamento de regras verbais e palavras no infinitivo
Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 8 Descriccedilatildeo do caso de uso ndash Tratar regras verbais
Nome do Caso de Uso Extrair SN de niacuteveis 3 2 e 1 (niacuteveis anteriores) Caso de Uso Geral natildeo possui Ator Principal natildeo possui Atores secundaacuterios natildeo possui Resumo Aplicar regras de extraccedilatildeo de sintagmas de niacuteveis 3 2 e 1 (niacuteveis anteriores) Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema
1) Definir o niacutevel apropriado de cada sintagma a partir do 4ordm ou uacuteltimo niacutevel enviando informaccedilatildeo para o usuaacuterio
Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 9 Descriccedilatildeo do caso de uso ndash Extrair SN de niacuteveis 3 2 e 1 (niacuteveis anteriores)
A tabela 9 segue a mesma regra da tabela 7
Nome do Caso de Uso Alimentar base de dados (Sintagmas) Caso de Uso Geral natildeo possui Ator Principal natildeo possui Atores secundaacuterios natildeo possui Resumo Persistir as informaccedilotildees extraiacutedas nos casos de uso ldquoExtrair SN de 4ordm ou uacuteltimo niacutevelrdquo Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema
1) Armazenar na base de dados o 4ordm ou uacuteltimo niacutevel de sintagma extraiacutedo do documento inserido
Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 10 Descriccedilatildeo do caso de uso ndash Alimentar base de dados (Sintagmas)
70
Nome do Caso de Uso Toquenizar e etiquetar Caso de Uso Geral natildeo possui Ator Principal Software Forma Atores secundaacuterios natildeo possui Resumo Submeter os sintagmas extraiacutedos ao software Forma Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema
1) Aplicar o conceito de Toquenizaccedilatildeo e Etiquetagem dos sintagmas extraiacutedos e armazenados em base de dados
Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 11 Descriccedilatildeo do caso de uso ndash Toquenizar e etiquetar
Nome do Caso de Uso Nominalizar Caso de Uso Geral natildeo possui Ator Principal Software Chama Atores secundaacuterios natildeo possui Resumo Submeter as informaccedilotildees resultantes do processo de Toquenizaccedilatildeo e Etiquetagem ao software Chama Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema
1) Aplicar o conceito de Nominalizaccedilatildeo das informaccedilotildees do documento
Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 12 Descriccedilatildeo do caso de uso ndash Nominalizar
Nome do Caso de Uso Capturar RLBs Caso de Uso Geral natildeo possui Ator Principal Software Rellex Atores secundaacuterios natildeo possui Resumo Submeter as informaccedilotildees resultantes do processo de Nominalizaccedilatildeo ao software Rellex Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema
1) Realizar o processo de captura de RLBs a partir das informaccedilotildees extraiacutedas do documento
Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 13 Descriccedilatildeo do caso de uso ndash Capturar RLBs
71
Nome do Caso de Uso Calcular peso dos descritores Caso de Uso Geral natildeo possui Ator Principal Software Peso dos Descritores Atores secundaacuterios natildeo possui Resumo Submeter as informaccedilotildees resultantes do processo de Captura de RLBs ao software Peso de Descritores Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema
1) Calcular o peso dos descritores ao resultado obtido atraveacutes da captura de RLBs do documento
Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 14 Descriccedilatildeo do caso de uso ndash Calcular peso dos descritores
Nome do Caso de Uso Alimentar base de dados (Termos e RLBs) Caso de Uso Geral natildeo possui Ator Principal natildeo possui Atores secundaacuterios natildeo possui Resumo Persistir as informaccedilotildees obtidas nos casos de uso ldquoNominalizarrdquo ldquoCapturar RLBsrdquo e ldquoCalcular peso dos descritoresrdquo na base de dados de Termos e RLBs Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema
1) Armazenar as informaccedilotildees relativas aos Termos e RLBs extraiacutedos do documento em base de dados
Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 15 Descriccedilatildeo do caso de uso ndash Alimentar base de dados (Termos e RLBs)
Apoacutes a identificaccedilatildeo dos casos de uso e suas descriccedilotildees partiu-se para o modelo
conceitual da aplicaccedilatildeo proposta
72
Figura 27 Modelo Conceitual do sistema proposto
O diagrama de classes segundo Guedes (2004) eacute considerado o mais importante e o
mais utilizado diagrama da UML Eacute o diagrama de classes que permite a visualizaccedilatildeo das
classes que iratildeo compor o sistema com os seus respectivos atributos e meacutetodos Demonstra
como as classes se relacionam complementam e transmitem informaccedilotildees entre si Pode-se
dizer que esse diagrama serve ainda como base para a construccedilatildeo de outros diagramas da
linguagem UML
A Figura 28 apresenta o diagrama de classes do modelo proposto referente agrave Pesquisa
do usuaacuterio
Foi construiacutedo um diagrama de classes (Pesquisa de Usuaacuterio) seguindo estas
definiccedilotildeesaccedilotildees
Paacutegina de Consulta refere-se a uma paacutegina HTML de pesquisa (ou seja uma
linguagem para Web) ou tambeacutem a uma interface graacutefica (GUI) para computador
desktop (cliente)
Controlador da Paacutegina conteacutem a loacutegica de negoacutecio da aplicaccedilatildeo
Classe Sintagma bean responsaacutevel por instanciar e classificar sintagmas de
diferentes niacuteveis usa o meacutetodo setSintagma para receber informaccedilotildees vindas da
paacutegina passando pelo controlador
Classe ListaSintagma cria instacircncia de array de Sintagma associando-os a
instacircncias de Documento Realiza a busca e classificaccedilatildeo destes retornando ao
controlador e posteriormente agrave paacutegina atraveacutes do meacutetodo getDocumentos
73
Classe Documento instacircncia de Documento armazenado em base de dados de
documentos
Figura 28 Diagrama de classes do sistema proposto ndash Pesquisa de Usuaacuterio
A Figura 29 apresenta o diagrama de classes do modelo proposto referente ao
Gerenciamento e Operaccedilatildeo do BD no niacutevel de administrador
Foi construiacutedo um segundo diagrama de classes seguindo estas definiccedilotildeesaccedilotildees
Paacutegina de Consulta refere-se a uma paacutegina HTML de inclusatildeo de documentos
Controlador da Paacutegina conteacutem a loacutegica de negoacutecio da aplicaccedilatildeo
Classe DocumentoBase bean responsaacutevel por instanciar um objeto que iraacute conter
o documento a inserir bem como realizar os processos de toquenizaccedilatildeo e
etiquetagem (trocando mensagens com o software FORMA) nominalizaccedilatildeo
(trocando mensagens com o software CHAMA) gerando termos e RLBs
(trocando mensagens com o software RELLEX) e por fim inserindo as
informaccedilotildees nas bases de dados
Classes Termo e RLB indicam as instacircncias de objetos termos e RLBs e deveratildeo
ser modeladas conforme especificaccedilatildeo do software RELLEX
74
Figura 29 Diagrama de classes do sistema proposto ndash Gerenciamento e Operaccedilatildeo do BD no niacutevel de
administrador
O diagrama de sequumlecircncia segundo Guedes (2004) procura determinar a sequumlecircncia de
eventos que ocorrem em um determinado processo isto eacute quais meacutetodos devem ser disparados
entre os objetos envolvidos quais condiccedilotildees devem ser satisfeitas e em que ordem durante o
processo especiacutefico Foram construiacutedos os diagramas de sequumlecircncia abaixo (Figuras 30 e 31) da
aplicaccedilatildeo proposta
75
Figura 30 Diagrama de Sequumlecircncia do sistema proposto ndash Pesquisa de Usuaacuterio
76
Figura 31 Diagrama de Sequumlecircncia do sistema proposto ndash Gerenciamento e Operaccedilatildeo do BD no niacutevel de administrador
Na elaboraccedilatildeo dos diagramas e descriccedilotildees dos casos de uso e dos diagramas de
classes e de sequumlecircncia observou-se a importacircncia do modelo conceitual porque permitiu
orientar as etapas de desenvolvimento do modelo proposto Visto que no modelo conceitual
foram criados conceitos atributos e associaccedilotildees referentes agrave particularidade da pesquisa que
puderam ser utilizados para a construccedilatildeo das etapas dos diagramas
77
5 CONCLUSAtildeO
Neste capiacutetulo apresentam-se as consideraccedilotildees finais incluindo os aspectos relativos
agraves dificuldades aos progressos e limitaccedilotildees encontradas durante o desenvolvimento da
pesquisa bem como as sugestotildees para a continuidade deste trabalho
O objetivo geral que norteou este trabalho levou ao estudo dos modelos de busca e ao
desenvolvimento de uma proposta para a melhoria dos processos de recuperaccedilatildeo de
informaccedilotildees
Centrando-se no tema Recuperaccedilatildeo de Informaccedilatildeo foram analisados os modelos de
Kuramoto (1999) e posteriormente de Gonzalez (2005) O modelo de Kuramoto baseado
em uma estrutura hieraacuterquica de sintagmas nominais possibilita ao usuaacuterio definir melhor a
sua query de busca A Estrutura de Qualia do Leacutexico Gerativo de Pustejovsky contribuiu para
o entendimento das relaccedilotildees e da estrutura de construccedilatildeo de significado entre as palavras
permitindo o tratamento de questotildees semacircnticas como a polissemia loacutegica A proposta de
Gonzalez apropriando-se dos resultados de Pustejovsky evidencia caracteriacutesticas
morfoloacutegicas e relaccedilotildees de coesatildeo importantes na descriccedilatildeo de conceitos presentes em um
texto propiciando que um texto possa computacionalmente significar mais do que uma
sequumlecircncia de palavras
Buscou-se uma siacutentese dessas propostas identificando as possibilidades de ampliaccedilatildeo
do modelo de Kuramoto pela junccedilatildeo da teoria do Leacutexico Gerativo de Pustejovsky utilizadas
nesta dissertaccedilatildeo a partir do modelo de Gonzalez que se manteve adequado devido ao fato de
que o autor apresenta processos para as fases de indexaccedilatildeo busca e classificaccedilatildeo de RI Os
termos e relacionamentos inseridos na base de dados do modelo TR+ de Gonzalez estatildeo
implicitamente relacionados com a Estrutura de Qualia do LG
O novo modelo SINTR+ aleacutem do suporte ao usuaacuterio envolve a anaacutelise a
sistematizaccedilatildeo e a ampliaccedilatildeo do modelo de Kuramoto com a utilizaccedilatildeo da estrutura TR+ de
Gonzalez (2005) para a melhoria e a otimizaccedilatildeo do processo de seleccedilatildeo dos documentos
recuperados em uma busca
O estudo e a descriccedilatildeo do modelo em UML permitiu por ser uma linguagem
poderosa expressar de modo mais claro e preciso o modelo SINTR+ Foi construiacuteda a anaacutelise
de domiacutenio do sistema desejado incluindo o desenvolvimento de diagramas de casos de uso
bem como suas descriccedilotildees do modelo conceitual de diagramas de classes e de sequumlecircncia As
78
fases de anaacutelise e projeto desenvolvidas para a aplicaccedilatildeo proposta datildeo suporte agrave continuidade
do seu desenvolvimento
O novo modelo desenvolvido foi projetado como um sistema de recuperaccedilatildeo de
informaccedilatildeo (SRI) aplicaacutevel a bases de dados natildeo distribuiacutedas abrangendo a um determinado
domiacutenio de aplicaccedilatildeo a sua adequaccedilatildeo e expansatildeo para uso na Web constitui-se em uma
importante linha de continuidade de pesquisa
A principal contribuiccedilatildeo deste trabalho estaacute na sistematizaccedilatildeo e siacutentese das teorias de
Kuramoto com Gonzalez indicando o uso dessas teorias como uma nova alternativa para a
melhoria da busca de recuperaccedilatildeo de informaccedilotildees Os modelos de recuperaccedilatildeo simplesmente
buscavam as informaccedilotildees solicitadas pelo usuaacuterio O novo modelo proposto SINTR+ baseia-
se na interaccedilatildeo entre o usuaacuterio e a maacutequina atraveacutes de Sintagmas Nominais por niacuteveis e
tambeacutem nas relaccedilotildees das palavras conforme o modelo de Gonzalez
Com este trabalho natildeo se pretendeu desenvolver uma implementaccedilatildeo completa do
modelo construiacutedo Mas o trabalho conseguiu mostrar a exequumlibilidade desta implementaccedilatildeo
computacional descrevendo os diagramas e as descriccedilotildees dos casos de uso e a sua modelagem
conceitual culminando com a construccedilatildeo dos diagramas de classes e de sequumlecircncia A proacutexima
etapa que permitiria detalhar as potencialidades e limitaccedilotildees do modelo de forma ampla
poderia se constituir em amplos estudos de casos onde se determinaria a complexidade
computacional da implementaccedilatildeo requerida
Os dados apresentados no capiacutetulo 4 jaacute indicam aspectos positivos que consolidam a
importacircncia da utilizaccedilatildeo dos Sintagmas Nominais na diminuiccedilatildeo de descritores para
manipulaccedilatildeo com um ganho bastante significativo porque os iacutendices possuem informaccedilotildees
relevantes dos documentos (conceitos significativos de uma sentenccedila) e com isto agiliza-se a
pesquisa na base de dados Quer-se crer aqui e um estudo mais amplo poderia determinar que
essa reduccedilatildeo de descritores natildeo deve ter nenhum impacto na qualidade da busca realizada
Outro aspecto significativo eacute a reduccedilatildeo do uso de memoacuteria tanto na fase de indexaccedilatildeo
como na de busca tornando mais raacutepido o processo interno
Outro aspecto positivo se refere agrave melhoria de desempenho como um todo pois
quanto menor o traacutefego em uma rede menos informaccedilotildees o servidor vai processar e estaraacute
mais disponiacutevel E quanto melhor for o processo de indexaccedilatildeo menos memoacuteria o servidor vai
utilizar E com isto o tempo de resposta na fase de busca diminui e o resultado qualitativo da
pesquisa se amplia
79
Uma outra vantagem eacute que no modelo SINTR+ seratildeo armazenados na base de dados
os documentos e seus SN de uacuteltimos niacuteveis e manipulados apenas os uacuteltimos niacuteveis da
estrutura de SN Seraacute soacute atraveacutes de uma programaccedilatildeo que seratildeo classificados por niacuteveis
diminuindo assim o volume duplicado de dados na manipulaccedilatildeo
Os diagramas construiacutedos referentes ao gerenciamento e operaccedilatildeo do BD no niacutevel do
administrador satildeo fundamentais para o entendimento do funcionamento e da manutenccedilatildeo do
banco de dados facilitando processos como a inserccedilatildeo de novos documentos e outras accedilotildees
contribuindo tambeacutem para o diferencial deste trabalho
80
6 REFEREcircNCIAS BIBLIOGRAacuteFICAS
ABRAHAtildeO Paulo Ricardo Carneiro Modelagem e Implementaccedilatildeo de um Leacutexico Semacircntico para o Portuguecircs Dissertaccedilatildeo (Mestrado) Porto Alegre PUCRS 1997
ABREU Sandra C GOULART Rodrigo VIEIRA Renata (2004) Identificaccedilatildeo de Expressotildees Anafoacutericas e Natildeo Anafoacutericas com Base na Estrutura do Sintagma 2ordm Workshop em Tecnologia da Informaccedilatildeo e da Linguagem Humana (TIL 2004) - SalvadorBA - 05 e 06 de agosto de 2004 Disponiacutevel em httpwwwinfunisinosbr~renatalaboratoriopublicacoestilsandra04pdf Acesso em nov de 2004
BAEZA-YATES Ricardo RIBEIRO-NETO Berthier Modern Information Retrieval New York Addison-Wesley 1999
CARDOSO Olinda N P Recuperaccedilatildeo de Informaccedilotildees In Infocomp-Journal of Computer Science vol 2 n 1 Lavras MG 2000 p33-38 Disponiacutevel em httpwwwdccuflabrinfocompartigosv21olindapdf Acesso em mar de 2004
CHISHMAN Rove et al Extraccedilatildeo de Sintagmas Nominais para o Processamento de Co-Referecircncia In V Encontro para o processamento computacional do Portuguecircs escrito e falado (PROPOR 2000) Atibaia - Satildeo Paulo Anais do V Encontro para o processamento computacional do Portuguecircs escrito e falado Satildeo Carlos ICMCUSP 2000 Disponiacutevel em httpwwwinfunisinosbr~renatalaboratoriopublicacoespropor00pdf Acesso em jan de 2005
FERNEDA Edberto Recuperaccedilatildeo de Informaccedilatildeo anaacutelise sobre a contribuiccedilatildeo da ciecircncia da computaccedilatildeo para a ciecircncia da informaccedilatildeo Tese (Doutorado) Satildeo Paulo USP Escola de Comunicaccedilatildeo e Artes 2003 Disponiacutevel em httpwwwtesesuspbrtesesdisponiveis2727143tde-15032004-130230 Acesso em set de 2004
FERREIRA Aureacutelio Buarque de Holanda Novo Aureacutelio Seacuteculo XXI o dicionaacuterio da liacutengua portuguesa 3ed Rio de Janeiro Nova Fronteira 1999
GASPERIN C GOULART R VIEIRA R Uma ferramenta para Resoluccedilatildeo Automaacutetica de Co-referecircncia Anais do Encontro Nacional de Inteligecircncia Artificial (ENIA) Campinas SP 2003 Disponiacutevel em httpwwwexatecunisinosbr~renatalaboratoriopublicacoesart1pdf Acesso em set de 2004
81
GONZALEZ Marco Antocircnio Insaurriaga Representaccedilatildeo Semacircntica de Sentenccedilas em Linguagem Natural e sua aplicaccedilatildeo na Recuperaccedilatildeo de Informaccedilatildeo Trabalho Individual 2 Doutorado Porto Alegre PPCC da PUCRS 2000
________ O Leacutexico Gerativo de Pustejovsky sob o enfoque da Recuperaccedilatildeo de Informaccedilotildees Trabalho Individual 1 Doutorado Porto Alegre PPCC da PUCRS 2000a
________ Termos e Relacionamentos em Evidecircncia na Recuperaccedilatildeo de Informaccedilatildeo Tese (Doutorado) Porto Alegre PPGC da UFRGS 2005
GUEDES Gilleanes T A UML uma abordagem praacutetica Satildeo Paulo Novatec 2004
HILL Brad Pesquisa na Internet Rio de Janeiro Campus 1999
KURAMOTO Heacutelio Proposition drsquoum Systegraveme de Recherche drsquoInformation Assisteacutee par Ordinateur Tese (Doutorado) LrsquoUniversiteacute Lumiegravere ndash Lyon - Franccedila 1999
________ Uma abordagem alternativa para o tratamento e a recuperaccedilatildeo de informaccedilatildeo textual os sintagmas nominais Ciecircncia da Informaccedilatildeo (Brasiacutelia) v25 n2 1995 Disponiacutevel em httpdiciibictbrarchive0000016901Ci[1]Inf-2004-476pdf Acesso em mar de 2004
________ Sintagmas Nominais uma nova proposta para a recuperaccedilatildeo de informaccedilatildeo DataGramaZero Revista de Ciecircncia da Informaccedilatildeo v3 n1 fev 2002 Disponiacutevel em httpwwwdgzeroorgfev02Art_03htm Acesso em mar de 2004
LARMAN Craig Utilizando UML e Padrotildees uma introduccedilatildeo agrave anaacutelise e ao projeto orientado a objetos Porto Alegre Bookman 2000
MARTINS Dileta Silveira ZILBERKNOP Luacutebia Scliar Portuguecircs Instrumental 20ordf ed Porto Alegre Sagra Luzzatto 1999
MOURA Heronides M de M A determinaccedilatildeo de sentidos lexicais no contexto Cadernos de Estudos Linguumliacutesticos v 41 Campinas SP 2001 NETO Magdiel Medeiros Aragatildeo A polissemia em palavras designativas de objetos fiacutesicos e eventos 2003 Disponiacutevel em httpwwwabralinorgbranaishtm Acesso em mai de 2004
________A Polissemia de acordo com a Teoria do Leacutexico Gerativo Satildeo Miguel do Oeste SC Revista do Centro de Ciecircncias da Comunicaccedilatildeo e Artes n6 maiago 2003a
82
PUSTEJOVSKY James The Generative Lexicon Association for Computational Linguistics Computer Science Department Brandeis University Cambridge MA The MIT Press 1991 Disponiacutevel em httpportalacmorgcitationcfmid=176324 Acesso em set de 2004
ROSSI Albertina Palavras Polissecircmicas entre evento e informaccedilatildeo e seu tratamento nos dicionaacuterios Aureacutelio e Houaiss Tese (Doutorado) Florianoacutepolis USFC Centro de Comunicaccedilatildeo e Expressatildeo - Programa de Poacutes-Graduaccedilatildeo em LetrasLinguumliacutestica 2003
SILVA Edna Luacutecia da Metodologia da pesquisa e elaboraccedilatildeo de dissertaccedilatildeo Edna Luacutecia da Silva Estera Muszkat Menezes ndash 2a ed revndash Florianoacutepolis Laboratoacuterio de Ensino a Distacircncia da UFSC 2001 Disponiacutevel em httpprojetosinfufscbrarquivosMetodologia20da20Pesquisa203a20edicaopdf Acesso em mai de 2005
SILVA Maria C de S KOCH Ingedore V Linguumliacutestica aplicada ao portuguecircs sintaxe 5ed Satildeo Paulo Cortez 1993
WAZLAWICK Raul Sidnei Anaacutelise e Projeto de Sistemas de Informaccedilatildeo Orientados a Objetos Rio de Janeiro Elsevier 2004
61 Bibliografia Consultada
BRAumlSCHER Marisa A Ambiguumlidade na Recuperaccedilatildeo da Informaccedilatildeo Revista Ciecircncia da Informaccedilatildeo (Brasiacutelia) v3 n1 2002 Disponiacutevel em httpwwwdgzorgbrfev02Art_05htm Acesso em abr de 2004
CARVALHO Niacutevea M de Melo Recuperaccedilatildeo da informaccedilatildeo implementaccedilatildeo e avaliaccedilatildeo de sistema de recuperaccedilatildeo de informaccedilatildeo utilizando o modelo vetorial Dissertaccedilatildeo (Mestrado) Amazonas Universidade Federal do Amazonas Programa de Poacutes-Graduaccedilatildeo em Informaacutetica 2002 Disponiacutevel em httpposfacomufubr~reneacervosriRI-ModeloVetorial-NiveaCarvalhopdf Acesso em Ago de 2004
FODOR Jerry LEPORE Ernie The emptiness of the Lexicon Critical Reflections on J Pustejovskyrsquos The Generative Lexicon Rutgers University Center for Cognitive Science
83
GOMES Andreacuteia de Faacutetima R O singular nu e a sentenccedila geneacuterica no portuguecircs brasileiro Dissertaccedilatildeo (Mestrado) Florianoacutepolis UFSC Programa de Poacutes-Graduaccedilatildeo em Linguumliacutestica 2001
GONZALEZ Marco LIMA Vera L S de Sintagma Nominal em Estrutura Hieraacuterquica Temaacutetica na Recuperaccedilatildeo de Informaccedilatildeo Anais ENIA 2001 Fortaleza 2001 Disponiacutevel em httpwwwinfpucrsbr~gonzalezdocssnehtpdf Acesso em dez 2005
________ T-Lex Thesaurus com Estruturaccedilatildeo Semacircntica e Operaccedilotildees Gerativas XXVII Conferencia Latinoamericana de Informatica (CLEI2001) Ciudad de Meacuterida Venezuela 2001 Disponiacutevel em httpwwwinfpucrsbr~gonzalezdocsartigotlexpdf Acesso em jan de 2006 (httpwwwinfpucrsbr~gonzalezpesqqhtm)
________ Recuperaccedilatildeo de Informaccedilatildeo e Processamento da Linguagem Natural XXIII Congresso da Sociedade Brasileira de Computaccedilatildeo Campinas 2003 Anais do III Jornada de Mini-Cursos de Inteligecircncia Artificial Disponiacutevel em httpwwwinfpucrsbr~gonzalezdocsminicurso-jaia2003pdf Acesso em jan de 2006
HEIDE Ann Guia do Professor para a Internet completo e faacutecil 2ed Porto Alegre Artes Meacutedicas Sul 2000
MOURA Heronides M de M Linguagem e cogniccedilatildeo na interpretaccedilatildeo de metaacuteforas Universidade Federal de Juiz de Fora Editora UFJF 2003 Disponiacutevel em httpwwwrevistaveredasufjfbrvolumesv6n1cap11pdf Acesso em jan de 2006
PARREIRAS Fernando O uso de sintagmas nominais como fonte de descritores para textos de perioacutedicos cientiacuteficos Escola de Ciecircncia da Informaccedilatildeo Belo Horizonte 2003 Disponiacutevel em httpwwwfernandoparreirasnombrpublicacoessnpdf Acesso em set de 2004
PEacuteREZ Claacuteudia C C GASPERIN Caroline VIEIRA Renata Extraccedilatildeo Semi-Automaacutetica de Conhecimento a partir de Textos 2003 Disponiacutevel em httpwwwinfunisinosbr~renatalaboratorio publicacoesenia2003-submittedpdf Acesso em ago de 2005
PIZZATO Luiz A Estrutura Multitesauro para Recuperaccedilatildeo de Informaccedilotildees Dissertaccedilatildeo (Mestrado) Porto Alegre PUCRS Faculdade de Informaacutetica - Poacutes-Graduaccedilatildeo em Ciecircncia da Computaccedilatildeo 2003 Disponiacutevel em httpwwwpucrsbrunipoainfoposdissertacoesarquivospizzatopdf Acesso em ago de 2004
84
PUSTEJOVSKY James Type Construction and the logic of concepts Disponiacutevel em httpwwwcsbrandeisedu~jamesparticlesindexhtml Acesso em set de 2004
________ The Metaphysics of Words in Context (2000) Disponiacutevel em httpwwwcsbrandeisedu~jamesparticlesindexhtml Acesso em set de 2004
________ The Semantics of Agentive Nominals Disponiacutevel em httpwwwcsbrandeisedu~jamesparticlesindexhtml Acesso em set de 2004
WORDNET a lexical database for the English language Cognitive Science Laboratory Princeton University Disponiacutevel em httpwordnetprincetonedu Acesso em jan de 2006
85
ANEXOS
86
ANEXO A - DOCUMENTO1
Endereccedilo na Web http wwwreciclaveiscombranamghtm
Segunda-feira 28 de agosto de 2000 - Nuacutemero 599 Cresce a induacutestria de reciclagem de plaacutesticos Poreacutem potencial do lixo domeacutestico ainda eacute pouco aproveitado no estado A induacutestria de reciclagem foi a que mais cresceu no setor plaacutestico de Santa Catarina nos uacuteltimos cinco anos No periacuteodo o volume reprocessado no estado cresceu 1664 ao ano atingindo 169 mil toneladas em 1999 Isso equivale a 37 do total transformado pelo setor em Santa Catarina Os dados fazem parte de estudo elaborado pela empresa de consultoria MaxiQuim de Porto Alegre para o Sindicato da Induacutestria de Material Plaacutestico no Estado de Santa Catarina (Simpesc) Contudo esse crescimento reflete mais o reaproveitamento de resiacuteduos gerados em processos industriais do que a reciclagem de lixo domeacutestico como embalagens e garrafas o chamado plaacutestico ldquopoacutes-consumordquo Este segmento cresce de maneira menos acelerada devido a problemas como a necessidade de escala de produccedilatildeo falta de linhas de financiamento e ausecircncia de legislaccedilatildeo que estimule a atividade ldquoEmbora a reciclagem do material poacutes-consumo como sacos embalagens e garrafas esteja aumentando em Santa Catarina a maior parte do crescimento verificado entre 1995 e 1999 refere-se a empresas que utilizam resiacuteduos industriais como mateacuteria-primardquo explica o diretor da MaxiQuim Joatildeo Luiz Zuntildeeda Normalmente chamadas de aparas esses resiacuteduos incluem tambeacutem as peccedilas que natildeo atingiram a qualidade necessaacuteria para ir ao mercado As oito empresas catarinenses de reciclagem de plaacutestico tecircm 383 empregados sem considerar o pessoal que trabalha na coleta de lixo atividade que geralmente eacute informal O valor da produccedilatildeo atingiu R$ 4249 milhotildees em 1999 com crescimento meacutedio de 1526 ao ano nos uacuteltimos cinco anos jaacute descontando a inflaccedilatildeo As empresas de transformaccedilatildeo de plaacutestico estatildeo cada vez mais preocupadas em recuperar o material que antes era perdido devido ao alto custo da resina virgem diz Nelson Pradella proprietaacuterio da empresa Recicle-Ville ldquoIsso eacute fundamental para que elas sejam competitivas pois vendendo os resiacuteduos do processo industrial como sucata as empresas obtecircm menos de 20 do valor da resina virgemrdquo Cobrando 30 do preccedilo da resina virgem a Recicle-Ville devolve para a induacutestria seus resiacuteduos em condiccedilotildees de serem utilizados normalmente no processo produtivordquo explica A empresa de Joinville foi uma das firmas que ajudou a elevar os iacutendices desta induacutestria no estado Ateacute agora ela estava trabalhando apenas com mateacuteria-prima gerada nos processos industriais mas isso deve mudar a partir desta semana Criada haacute um ano a empresa reprocessa cerca de 220 toneladas de plaacutestico por mecircs e estaacute aumentando a sua capacidade para 310 toneladas Ela ainda opera basicamente como terceirizada de empresas de processamento de plaacutesticos reprocessando para elas os resiacuteduos que geram e devolvendo essa mateacuteria em forma granular mesmo estado da resina virgem Como a mateacuteria prima reciclada seraacute utilizada para fazer o mesmo produto que originou a
4
3
2
1
87
apara a qualidade final natildeo eacute afetada Mas a Recicle-Ville estaacute ingressando tambeacutem no segmento de reciclagem do plaacutestico poacutes-consumo A partir desta semana a empresa coloca em funcionamento um sistema de coleta junto a escolas do municiacutepio para recolher materiais plaacutesticos como sacos garrafas e tampinhas apostando principalmente no PET Com isso ela tem a vantagem de receber material mais limpo A contaminaccedilatildeo do plaacutestico pelo lixo orgacircnico eacute justamente um dos principais problemas para o crescimento da induacutestria da reciclagem do lixo domeacutestico A simples separaccedilatildeo do lixo orgacircnico do seco jaacute traria um impulso importante para o setor diz Ana Flores diretora do departamento de meio ambiente e desenvolvimento sustentado da Federaccedilatildeo das Induacutestrias do Estado de Satildeo Paulo (Fiesp) e autora do livro ldquoO dinheiro estaacute no lixo ndash recicle essa ideacuteiardquo ldquoDeveriam ser criados mecanismos de estiacutemulo para a reciclagem Na Holanda por exemplo uma Coca-Cola custa US$ 220 Devolvendo a garrafa acontece o reembolso de US$ 1 Vocecirc acha que algueacutem vai jogaacute-la no lixordquo diz A induacutestria da reciclagem do plaacutestico no Brasil tem crescido bastante em funccedilatildeo do reaproveitamento do PET que eacute usado no segmento de monofilamentos em artigos como vassouras e na induacutestria tecircxtil Conforme Ana Flores a reciclagem gera 250 mil empregos no Paiacutes dos quais 70 satildeo informais Poreacutem a maior parte do potencial de mercado ainda estaacute sendo desperdiccedilado avalia ldquoCerca de 15 do total de plaacutestico que eacute industrializado no Paiacutes eacute reciclado Em dez anos poderiacuteamos chegar a 60 como nos Estados Unidos desde que fosse implementado um conjunto de medidas incentivando essa praacuteticardquo assegura Para a diretora da Fiesc os principais entraves satildeo o aspecto cultural a tributaccedilatildeo incidente na reciclagem do plaacutestico a falta de linhas de financiamento e a ausecircncia de uma legislaccedilatildeo ambiental mais rigorosa ldquoHaacute um contra-senso ecoloacutegico que forccedila a clandestinidade no Brasil onde para fabricar garrafa PET virgem paga-se IPI de 10 e para a reciclagem 12rdquo critica Ana afirma que essa tributaccedilatildeo decorre do interesse governamental em incentivar a induacutestria quiacutemica Outro problema apontado eacute que ao contraacuterio da induacutestria do alumiacutenio que eacute concentrada o predomiacutenio das pequenas empresas na transformaccedilatildeo do plaacutestico dificulta que sejam criadas grandes empresas para reprocessar o lixo Para Flores o sucesso brasileiro na reciclagem do alumiacutenio (o iacutendice eacute de 65 um dos mais altos do mundo) decorre da existecircncia de poucas grandes empresas capitalizadas ldquoAs pequenas empresas natildeo tecircm acesso agraves linhas de creacutedito e isso dificulta a abertura de novas recicladorasrdquo diz Flores Mas haacute quem aponte outros desafios a superar ldquoEmbora seja um mercado que deve crescer muito a reciclagem de plaacutestico natildeo eacute tatildeo simples como normalmente aparece na televisatildeo O volume miacutenimo para que a atividade seja economicamente viaacutevel atendendo a todas as exigecircncias legais eacute de 100 toneladas mecircsrdquo diz Ronaldo Cerri soacutecio da Moinhos Rone de Satildeo Paulo que fabrica equipamentos utilizados na moagem do plaacutestico uma das primeiras etapas da reciclagem Aleacutem disso explica a coleta do plaacutestico eacute mais complicada porque ao contraacuterio das latas de alumiacutenio - que podem ser amassadas o volume fiacutesico eacute maior ldquoHoje entre 70 e 80 dos moinhos que vendemos satildeo para reciclagem de resiacuteduos industriaisrdquo informa (Elmar Meurer de Joinville)
copy GAZETA MERCANTIL
9
8
7
6
5
88
ANEXO B - DOCUMENTO2
Cuidados com o Lixo
Endereccedilo na Web httpwwwpoupetempocombrambientelixohtm
Todos os seres vivos quando morrem apodrecem plantas e animais se decompotildeem e satildeo destruiacutedos por larvas bacteacuterias e fungos e reabsorvidos pela terra pela aacutegua pelo ar Eacute o ciclo da natureza morte decomposiccedilatildeo nova vida e crescimento Tudo o que eacute fabricado pelo homem acaba virando lixo Muito desse lixo natildeo se decompotildee facilmente como a mateacuteria orgacircnica e passa a ser um problema Plaacutesticos latas e vidros demoram muitos anos para se decompor e poluem o meio-ambiente Por isso a importacircncia da reciclagem do lixo fabricado pelo ser humano O lixo eacute formado por resiacuteduos soacutelidos natildeo biodegradaacuteveis e que demoram para se decompor Restos de alimentos folhas e frutas satildeo chamados lixo orgacircnico Existem tambeacutem aleacutem do lixo domiciliar o lixo industrial o de vias puacuteblicas e o hospitalar que necessitam de tratamentos especiais pois oferece perigo agrave sauacutede das pessoas Devido ao aumento da populaccedilatildeo das grandes cidades e com o aumento do consumo de produtos a quantidade de lixo tambeacutem tem aumentado O acuacutemulo de lixo eacute um dos principais problemas nas grandes cidades Muitos materiais que vatildeo para o lixo natildeo podem ser desperdiccedilados podendo ser reaproveitados e reutilizados Material orgacircnico Tudo o que eacute resto de comida de animais de plantas e frutas eacute considerado lixo propriamente dito Ou seja vocecirc deve acondicionaacute-los num uacutenico recipiente Essa material eacute recolhido pela prefeitura e levado para aterros sanitaacuterios onde vatildeo sofrer a decomposiccedilatildeo natural Material reciclaacutevel Eacute praticamente tudo o que eacute fabricado pelo homem material plaacutestico latas de alumiacutenio e ferro garrafas de refrigerante de vidro e PET caixas de papel e papelatildeo jornais revistas livros aparas de papel etc Se vocecirc mora em casa reuacutena-se com sua famiacutelia e com seus funcionaacuterios para estabelecer um meacutetodo de separaccedilatildeo desse material Dependendo do seu volume diaacuterio de lixo escolha 4 recipientes coloridos para acondicionaacute-los azul para papel vermelho para plaacutestico verde para vidro e amarelo para metal ou nomeie cada um deles conforme sua classificaccedilatildeo Se vocecirc mora em condomiacutenio faccedila esse mesmo trabalho reunindo os moradores estabelecendo regras e instruindo os empregados Observaccedilatildeo o lixo orgacircnico deve estar separado daquilo que eacute reciclaacutevel Exemplos Providencie uma caixa resistente ou sacolas e fixe nelas um papel com a identificaccedilatildeo do tipo de lixo vidro e nela vaacute acumulando as garrafas Retire aneacuteis e roacutetulos e lave as garrafas para natildeo acumular insetos Na outra caixa vaacute juntando o lixo papel aparas embalagens de papelatildeo as perdas da impressora jornais e revistas velhas etc Latas de conserva satildeo de ferro e as de refrigerante satildeo de alumiacutenio Elas devem ser acumuladas limpas sem roacutetulo e em caixas separadas As de alumiacutenio podem ser amassadas como uma sanfoninha o que economizaraacute espaccedilo Quando as caixas estiverem cheias elas devem ser encaminhadas para entidades que trabalham com material reciclaacutevel ou simplesmente recolhida pela empresa de sua cidade responsaacutevel pela coleta seletiva Consulte a prefeitura local
89
A destinaccedilatildeo do material para reciclagem pode ser feita de vaacuterias formas Uma famiacutelia mais pobre pode utilizar esse material vendendo para cooperativas e empresas especializadas e conseguir um dinheiro extra Os condomiacutenios de melhor padratildeo econocircmico podem utilizar o resultado da separaccedilatildeo do lixo para reciclagem em benefiacutecio de seus funcionaacuterios propiciando a eles um ganho extra na ajuda da triagem desse material Uma outra forma eacute simplesmente entregar todo o material para as prefeituras que jaacute possuem o meacutetodo de coleta seletiva Ajude a melhorar o meio-ambiente Eacute simples pense antes de comprar Metade do que noacutes compramos eacute lixo Satildeo embalagens que quase sempre natildeo servem para nada e vatildeo direto para o lixo Evite embalagens plaacutesticas elas satildeo pouco reciclaacuteveis enquanto o vidro eacute totalmente reciclaacutevel e muito mais uacutetil no seu reaproveitamento Algumas informaccedilotildees sobre materiais produzidos pelo homem TEMPO DE DECOMPOSICcedilAtildeO DE ALGUNS MATERIAIS
Lenccedilo de papel 3 meses Palito de foacutesforo 6 meses Caroccedilo de maccedilatilde 6 a 12 meses Ponta de cigarro 1 a 2 anos Chiclete 5 anos Lata de accedilo 10 anos Garrafa de plaacutestico 100 anos Garrafa de vidro Mais de 1000 anos Lata de alumiacutenio Natildeo se corroacutei nunca
Plaacutestico riacutegido Leve resistente e praacutetico eacute o material que compotildee cerca de 60 das embalagens plaacutesticas como garrafas de refrigerantes recipientes para produtos de limpeza e higiene e potes de alimentos eacute tambeacutem mateacuteria-prima baacutesica de bombonas fibras tecircxteis tubos e conexotildees calccedilados eletrodomeacutesticos aleacutem de baldes utensiacutelios domeacutesticos e outros produtos Ele pode ser reprocessado gerando novos artefatos plaacutesticos e energia Papel ondulado eacute usado em caixas para transporte de produtos para faacutebricas depoacutesitos escritoacuterios e residecircncias Normalmente chamado de papelatildeo este material tem uma camada intermediaacuteria de papel entre suas partes exteriores disposta em ondulaccedilotildees na forma de uma sanfona O material eacute de faacutecil coleta em grandes volumes comerciais sendo facilmente identificadas quando misturadas com outros tipos de papel por isso seu susto de processamento eacute relativamente baixo Embalagens longa vida satildeo compostas de vaacuterias camadas de material dupleacutex polietileno e alumiacutenio As embalagens cartonadas precisam ser lavadas apoacutes o consumo porque os restos de alimentos contidos nelas dificultam o reprocessamento do material Para aproveitar melhor o espaccedilo as embalagens podem ser amassadas O papel existente nas embalagens cartonadas pode ser compostado para a produccedilatildeo de huacutemus utilizado em hortas e jardins Pneus a borracha e sua reciclagem eacute capaz de devolver ao processo de produccedilatildeo insumo regenerado por menos da metade do custo da borracha natural ou sinteacutetica aleacutem disso economiza energia e poupa petroacuteleo usado como mateacuteria-prima virgem e ateacute melhora as propriedades de materiais feitos com borracha Latas de alumiacutenio aleacutem de reduzir o lixo que vai para os aterros a reciclagem desse material proporciona significativo ganho energeacutetico Para reciclar uma tonelada de latas gasta-se 5 da
90
energia necessaacuteria para produzir a mesma quantidade de alumiacutenio pelo processo primaacuterio Isto significa que cada latinha reciclada equivale ao consumo de um aparelho de TV durante 3 horas A reciclagem evita a extraccedilatildeo da bauxita o mineral beneficiado para a fabricaccedilatildeo da alumina que eacute transformada em liga de alumiacutenio Vidro a metade dos recipientes de vidro eacute fabricados no Paiacutes eacute retornaacutevel Aleacutem disso o material eacute de faacutecil reciclagem pode voltar a produccedilatildeo de novas embalagens substituindo o produto virgem sem perda da qualidade Pet (polietileno tereftalato) as garrafas recicladas satildeo transformadas em cordas e fios de costura carpetes bandejas de frutas e ateacute mesmo novas garrafas Sua reciclagem aleacutem de desviar lixo plaacutestico dos aterros utiliza apenas 30 da energia necessaacuteria para a produccedilatildeo da resina virgem e tem a vantagem de poder ser reciclado vaacuterias vezes sem prejudicar a qualidade do produto final Latas de accedilo Quando reciclado o accedilo volta ao mercado em forma de automoacuteveis ferramentas vigas para construccedilatildeo civil arames vergalhotildees utensiacutelios domeacutesticos e inclusive novas latas Plaacutestico filme eacute uma peliacutecula plaacutestica normalmente usada como sacolas de supermercados sacos de lixo embalagens de leite lonas agriacutecolas e proteccedilatildeo de alimentos na geladeira ou microondas Cerca de 44 eacute papel e 4 eacute folha de alumiacutenio Ajude a melhorar o meio-ambiente
bull Reaproveite sobras e natildeo jogue fora o que puder aproveitar bull Doe roupas que possam ser reformadas ou consertadas bull Doe livros para bibliotecas ou instituiccedilotildees beneficentes bull Use produtos biodegradaacuteveis ou reciclaacuteveis bull Deixe o oacuteleo usado do motor no posto para ser reciclado bull Leve pneus sem uso para os borracheiros bull Evite jogar lixo na rua Jogue o lixo na lixeira bull Embale o lixo corretamente sempre que possiacutevel encaminhe plaacutesticos vidros e papel
para a reciclagem
91
ANEXO C - EXTRACcedilAtildeO MANUAL DE SN DOS DOCUMENTOS
DOCUMENTO1 Linha Sintagma Nominal Niacutevel
1 Plaacutesticos 1 1 Reciclagem de plaacutesticos 2 1 Induacutestria de reciclagem de plaacutesticos 3 2 Lixo 1 2 Lixo domeacutestico 1 2 Potencial do lixo domeacutestico 2 3 Reciclagem 1 3 Induacutestria de reciclagem 2 3 Plaacutestico 1 3 Setor Plaacutestico 1 3 Setor Plaacutestico de Santa Catarina 2 7 Plaacutestico 1 7 Material Plaacutestico 1 7 Induacutestria de Material Plaacutestico 2 7 Sindicato da Induacutestria de Material Plaacutestico 3 7 Sindicato da Induacutestria de Material Plaacutestico no Estado de Santa Catarina 4 8 Resiacuteduos 1 8 Reaproveitamento de resiacuteduos 2 9 Lixo 1 9 Lixo domeacutestico 1 9 Reciclagem do lixo domeacutestico 2 10 Embalagens 1 10 Garrafas 1 10 Embalagens e garrafas 2 10 Plaacutestico 1 10 Plaacutestico poacutes-consumo 1 13 Reciclagem 1 13 Reciclagem de material 2 13 Reciclagem de material poacutes-consumo 2 13 Sacos 1 13 Embalagens 1 13 Garrafas 1 13 Sacos embalagens e garrafas 2 15 Resiacuteduos 1
92
15 Resiacuteduos industriais 1 15 Resiacuteduos industriais como mateacuteria-prima 2 18 Reciclagem 1 18 Reciclagem de plaacutesticos 2 18 Empresas catarinenses de reciclagem de plaacutesticos 3 19 Lixo 1 19 Coleta de lixo 2 22 Plaacutestico 1 22 Transformaccedilatildeo de plaacutestico 2 22 As empresas de transformaccedilatildeo de plaacutestico 3 27 Resiacuteduos 1 32 Plaacutestico 1 34 Plaacutesticos 1 34 Processamento de plaacutesticos 2 34 Empresas de processamento de plaacutesticos 3 34 Terceirizada de empresas de processamento de plaacutesticos 4 34 Os resiacuteduos 1 36 Reciclada 1 36 Mateacuteria-prima reciclada 1 38 Reciclagem 1 38 Reciclagem de plaacutestico 2 38 Reciclagem de plaacutestico poacutes-consumo 2 38 Segmento de reciclagem de plaacutestico poacutes-consumo 3 39 Coleta 1 39 Coleta junto a escolas do municiacutepio 2 39 Um sistema de coleta junto a escolas do municiacutepio 3 40 Plaacutesticos 1 40 Materiais plaacutesticos 1 40 Materiais plaacutesticos como sacos garrafas e tampinhas 2 41 PET 1 43 Lixo 1 43 Lixo orgacircnico 1 43 A contaminaccedilatildeo do plaacutestico 2 43 A contaminaccedilatildeo do plaacutestico pelo lixo orgacircnico 3 44 Lixo 1
93
44 Lixo domeacutestico 1 44 Reciclagem de lixo domeacutestico 2 44 Induacutestria da reciclagem do lixo domeacutestico 3 44 O crescimento da induacutestria da reciclagem do lixo domeacutestico 4 44 Lixo 1 44 Lixo orgacircnico 1 44 A simples separaccedilatildeo do lixo orgacircnico 2 44 A simples separaccedilatildeo do lixo orgacircnico do seco 3 49 A garrafa 1 50 Lixo 1 51 Reciclagem 1 51 Reciclagem do plaacutestico 2 51 A induacutestria da reciclagem do plaacutestico 3 51 A induacutestria da reciclagem do plaacutestico no Brasil 4 52 Reaproveitamento 1 52 Reaproveitamento do PET 2 53 A reciclagem 1 55 Plaacutestico 1 56 Reciclado 1 58 Reciclagem 1 58 Reciclagem do plaacutestico 2 58 Tributaccedilatildeo incidente na reciclagem do plaacutestico 3 61 Garrafa 1 61 Garrafa PET 1 61 Reciclagem 1 63 Induacutestria Quiacutemica 1 64 Alumiacutenio 1 64 Induacutestria do alumiacutenio 2 65 Plaacutestico 1 65 Transformaccedilatildeo do plaacutestico 2 65 Empresas na transformaccedilatildeo do plaacutestico 3 65 Predomiacutenio das pequenas empresas na transformaccedilatildeo do plaacutestico 4 66 Lixo 1 69 Recicladoras 1 69 A abertura de novas recicladoras 2
94
71 Reciclagem 1 71 Reciclagem de Plaacutestico 2 74 Plaacutestico 1 74 Moagem do plaacutestico 2 74 Reciclagem 1 74 Primeiras etapas da reciclagem 2 75 Coleta 1 75 A coleta do plaacutestico 2 77 Reciclagem 1 77 Reciclagem de resiacuteduos 2 77 Reciclagem de resiacuteduos industriais 3
DOCUMENTO2
Linha Sintagma Nominal Niacutevel1 Lixo 1 1 Cuidados com o lixo 2 5 Lixo 1 5 Lixo 1 6 Mateacuteria Orgacircnica 1 6 Plaacutesticos latas e vidros 2 7 Lixo 1 7 Reciclagem do lixo 2 7 A importacircncia da reciclagem do lixo 3 9 O lixo 1 9 Resiacuteduos 1 9 Resiacuteduos soacutelidos 1 9 Resiacuteduos soacutelidos natildeo-biodegradaacuteveis 1 9 Restos de alimentos folhas e frutas 2 10 Lixo 1 10 Lixo orgacircnico 1 11 Lixo 1 11 Lixo domiciliar lixo industrial o de vias puacuteblicas e o hospitalar 3 13 Lixo 1 13 A quantidade de lixo 2
95
15 Lixo 1 15 O acuacutemulo de lixo 2 15 O lixo 1 17 Material orgacircnico 1 18 Restos de comida de animais de plantas e frutas 4 18 Lixo 1 20 Aterro sanitaacuterio 1 20 A decomposiccedilatildeo 1 20 A decomposiccedilatildeo natural 1 21 Reciclaacutevel 1 21 Material reciclaacutevel 1 22 Material plaacutestico latas de alumiacutenio e ferro garrafas de refrigerante de
vidro e PET caixas de papel e papelatildeo jornais revistas livros aparas de papel
4
24 Lixo 1 24 Volume diaacuterio de lixo 2 31 O lixo 1 31 O lixo orgacircnico 1 31 Reciclaacutevel 1 33 Lixo 1 33 Tipo de lixo 2 33 vidro 1 34 As garrafas 1 35 As garrafas 1 36 O lixo 1 36 O lixo papel aparas embalagens de papelatildeo as perdas da impressora
jornais e revistas velhas 3
38 Ferro 1 38 Alumiacutenio 1 42 Reciclaacutevel 1 42 Material reciclaacutevel 1 42 Coleta 1 42 Coleta seletiva 1 44 Reciclagem 1 44 Material para reciclagem 2 44 A destinaccedilatildeo do material para reciclagem 3
96
47 Lixo 1 47 Separaccedilatildeo do lixo 2 47 Separaccedilatildeo do lixo para reciclagem 3 47 O resultado da separaccedilatildeo do lixo para reciclagem 4 50 Coleta 1 50 Coleta seletiva 1 50 O meacutetodo de coleta seletiva 2 53 Lixo 1 53 Embalagens 1 53 O lixo 1 54 Embalagens plaacutesticas 1 54 Pouco reciclaacuteveis 1 54 O vidro 1 57 Decomposiccedilatildeo 1 57 Decomposiccedilatildeo de alguns materiais 2 57 Tempo de decomposiccedilatildeo de alguns materiais 3 67 Plaacutestico 1 67 Plaacutestico riacutegido 1 67 Embalagens plaacutesticas 1 67 Embalagens plaacutesticas como garrafas de refrigerantes recipientes para
produtos de limpeza e higiene e potes de alimentos 4
72 Papel ondulado 1 74 Coleta 1 74 Coleta em grandes volumes comerciais 2 74 Faacutecil coleta em grandes volumes comerciais 2 76 Processamento 1 76 Custo de processamento 2 77 Embalagens 1 77 Embalagens longa vida 1 79 reprocessamento 1 79 Reprocessamento do material 2 82 Hortas e jardins 2 83 Pneus 1 83 Reciclagem 1 83 A borracha e sua reciclagem 2
97
84 Borracha 1 84 Borracha natural ou sinteacutetica 1 84 O custo da borracha natural ou sinteacutetica 2 86 Latas de alumiacutenio 1 86 O lixo 1 86 A reciclagem 1 88 Reciclada 1 88 Latinha reciclada 1 89 A reciclagem 1 91 vidro 1 91 Vidro 1 91 Recipiente de vidro 2 91 Faacutecil reciclagem 1 94 PET 1 94 Recicladas 1 94 Garrafas recicladas 1 95 Reciclagem 1 95 Lixo 1 95 Lixo plaacutestico 1 95 Lixo plaacutestico dos aterros 2 97 Reciclado 1 97 Reciclado vaacuterias vezes 1 98 Latas de accedilo 2 98 Automoacuteveis ferramentas vigas para construccedilatildeo civil arames
vergalhotildees utensiacutelios domeacutesticos e inclusive novas latas 3
100 Plaacutestico filme 1 100 Sacolas de supermercado sacos de lixo embalagens de leite lonas
agriacutecolas e proteccedilatildeo de alimentos na geladeira ou microondas 3
102 Folha de alumiacutenio 2 107 Reciclaacuteveis 1 107 Produtos biodegradaacuteveis ou reciclaacuteveis 1 110 Lixo 1 110 Lixo na rua 2 110 O lixo 1 110 O lixo na lixeira 2
98
111 O lixo 111 Reciclagem 1 111 Plaacutesticos vidros e papel para reciclagem 3
99
ANEXO D - FERRAMENTA1 DE TOQUENIZACcedilAtildeO E ETIQUETAGEM
Endereccedilo na Web hermessourceforgenethermeswebhtml
Texto processado (Paraacutegrafo 6 do Documento1)
A induacutestria da reciclagem do plaacutestico no Brasil tem crescido bastante em funccedilatildeo do reaproveitamento do PET que eacute usado no segmento de monofilamentos em artigos como vassouras e na induacutestria tecircxtil Conforme Ana Flores a reciclagem gera 250 mil empregos no Paiacutes dos quais 70 satildeo informais Poreacutem a maior parte do potencial de mercado ainda estaacute sendo desperdiccedilado avalia ldquoCerca de 15 do total de plaacutestico que eacute industrializado no Paiacutes eacute reciclado Em dez anos poderiacuteamos chegar a 60 como nos Estados Unidos desde que fosse implementado um conjunto de medidas incentivando essa praacuteticardquo assegura
Resultado
A_ART induacutestria_N da_PREP+ART reciclagem_N do_PREP+ART plaacutestico_N no_PREP+ART Brasil_NP tem_VTD crescido_ADJ bastante_ADV em_PREP funccedilatildeo_N do_PREP+ART reaproveitamento_N do_PREP+ART PET_N _ que_PR eacute_VLIG usado_ADJ no_PREP+ART segmento_N de_PREP monofilamentos_N _ em_PREP artigos_N
100
como_CONJSUB vassouras_ADJ e_CONJCOORD na_PREP+ART induacutestria_N tecircxtil_NP _ Conforme_CONJSUB Ana_NP Flores_N _ a_ART reciclagem_N gera_N 250_NC mil_NC empregos_N no_PREP+ART Paiacutes_N _ dos_PREP+ART quais_PR 70_NC satildeo_VLIG informais_ADJ _ Poreacutem_VTD _ a_ART maior_ADJ parte_N do_PREP+ART potencial_N de_PREP mercado_N ainda_ADV estaacute_VLIG sendo_VLIG desperdiccedilado_VTD _ avalia_N _ Cerca_N de_PREP 15_NC do_PREP+ART total_ADJ de_PREP plaacutestico_N que_PR eacute_VLIG
101
industrializado_VTD no_PREP+ART Paiacutes_N eacute_VLIG reciclado_VTD _ Em_PREP dez_NC anos_N poderiacuteamos_VTD chegar_VTI a_ART 60_NC _ como_CONJSUB nos_PREP+ART Estados_NP Unidos_NP _ desde_PREP que_PR fosse_VLIG implementado_ADJ um_ART conjunto_N de_PREP medidas_N incentivando_VTD essa_PD praacutetica_N _ assegura_VTD _
102
ANEXO D - FERRAMENTA2 DE TOQUENIZACcedilAtildeO E ETIQUETAGEM
Endereccedilo na Web httplaelpucspbrcorporaetiquetagem
A ARTD induacutestria N da CPR reciclagem N do CPR plaacutestico N no CPR Brasil N tem V crescido PART bastante ADV em PRP funccedilatildeo N do CPR reaproveitamento N do CPR PET N PT que PRN eacute V usado PART no CPR segmento N de PRP monofilamentos N PT em PRP artigos N como ADV vassouras N e CJ na CPR induacutestria N tecircxtil ADJ PT Conforme ADJ Ana N Flores N PT a ARTD reciclagem N gera V 250 NUM mil N
103
empregos N no CPR Paiacutes N PT dos CPR quais PRN 70 NUM PT satildeo V informais ADJ PT Poreacutem CJ PT a ARTD maior ADJ parte N do CPR potencial N de PRP mercado N ainda ADV estaacute V sendo V desperdiccedilado PART PT avalia V PT ldquoCerca PRP de PRP 15 NUM PT do CPR total N de PRP plaacutestico N que PRN eacute V industrializado PART no CPR Paiacutes N eacute V reciclado PART PT Em PRP dez NUM anos N poderiacuteamos V chegar V a ARTD 60 NUM PT
104
PT como ADV nos CPR Estados N Unidos N PT desde PRP que PRN fosse V implementado PART um ARTI conjunto N de PRP medidas N incentivando V essa PRN praacuteticardquo N PT assegura V PT
105
ANEXO E - PROCESSO DE NOMINALIZACcedilAtildeO Palavra Original Classe Substantivo Abstrato Substantivo Concretotem Verbo E E crescido Verbo no particiacutepio crescimento E bastante Adveacuterbio E E eacute Verbo E E usado Verbo no particiacutepio uso usador tecircxtil Adjetivo E tecido informal Adjetivo informalidade E maior Adjetivo maioridade E potencial Adjetivo potencialidade E ainda Adveacuterbio E E estaacute Verbo E E sendo Verbo E E desperdiccedilado Verbo no particiacutepio desperdiacutecio desperdiccedilador total Adjetivo totalidade totalizador industrializado Verbo no particiacutepio industrial induacutestria reciclado Verbo no particiacutepio E reciclagem poderiacuteamos Verbo E E chegar Verbo E chegada fosse Verbo E E implementado Verbo no particiacutepio implemento implementador incentivando Verbo Incentivo incentivador
E = ausecircncia de nominalizaccedilatildeo
iv
AGRADECIMENTOS
O momento de agradecimento permite lembrar com gratidatildeo de todas as pessoas que
conviveram comigo e que foram importantes nesta etapa de construccedilatildeo de conhecimento
Agradeccedilo agrave Universidade Federal de Santa Catarina ao Programa de Poacutes-Graduaccedilatildeo
em Ciecircncia da Computaccedilatildeo e a todos os professores que oportunizaram o aprendizado
alcanccedilado
Em nome destes professores e pelo seu profissionalismo agrave Edla Faust Ramos pelas tatildeo
valiosas orientaccedilotildees pela confianccedila pela crenccedila no meu trabalho e na minha pessoa
Em especial agradeccedilo a minha matildee e ao meu pai Heloisa e Antonio que me
ensinaram a lutar e persistir e pelo carinho apoio e estiacutemulo que sempre me deram
Ao David meu companheiro pela compreensatildeo paciecircncia carinho e apoio
Ao Paulo Bueno e agrave Leila Di Pietro pelo estiacutemulo paciecircncia pelas grandes
contribuiccedilotildees e ajudas prestadas
Agrave Renata Brizzi agrave Josiele Azevedo agrave Danielle Hennings e agrave Adriana Santos pelo apoio
e por suas contribuiccedilotildees
Ao Carlos Eduardo Nascimento pelo apoio e incentivo prestado
E aos meus irmatildeos Beatriz e Reacutegis por sempre acreditarem em mim
E a todos os meus amigos por serem especiais em minha vida
v
IacuteNDICE DE FIGURAS
Figura 1 Componentes de um Sistema de Recuperaccedilatildeo de Informaccedilatildeo 18 Figura 2 Exemplo dos trecircs componentes conjuntivos para query 19 Figura 3 Representaccedilatildeo do resultado de uma expressatildeo booleana conjuntiva (AND)19 Figura 4 Resultado de uma busca booleana disjuntiva (OR) 20 Figura 5 O co-seno do acircngulo adaptado como similar (dj q) 22 Figura 6 Exemplo da estrutura de niacuteveis de Sintagmas Nominais 30 Figura 7 Procedimentos de interaccedilatildeo usuaacuteriominusprotoacutetipo31 Figura 8 Estrutura de dados para acessar os Sintagmas Nominais de primeiro niacutevel a partir de
uma palavra 32 Figura 9 Estrutura de dados para acessar os Sintagmas Nominais de segundo niacutevel a partir de
Sintagmas Nominais de primeiro niacutevel 33 Figura 10 Estrutura de dados para o acesso aos tiacutetulos e textos dos artigos 33 Figura 11 Representaccedilatildeo da matriz de um item lexical39 Figura 12 Matriz superficial da Estrutura de Qualia do item lexical ldquolivrordquo 39 Figura 13 Exemplo da Estrutura de Qualia do item lexical ldquoromancerdquo 40 Figura 14 Exemplo da Estrutura de Qualia do item lexical ldquodicionaacuteriordquo40 Figura 15 Exemplo do LG relacionando ldquodicionaacuteriordquo ldquolivrordquo e peccedila atraveacutes de suas EQ41 Figura 16 Exemplo de polissemia loacutegica na representaccedilatildeo matricial da palavra ldquolivrordquo41 Figura 17 Exemplo de polissemia loacutegica na representaccedilatildeo matricial da palavra ldquojornalrdquo 42 Figura 18 Visatildeo Geral do modelo TR+47 Figura 19 Visatildeo Geral do Modelo Proposto ldquoEstrutura SINTR+rdquo56 Figura 20 Descriccedilatildeo inicial do modelo proposto58 Figura 21 Nuacutemero de palavras do Documento160 Figura 22 Nuacutemero de substantivos adveacuterbios verbos e adjetivos do Documento161 Figura 23 Nuacutemero de palavras restantes x Sintagmas Nominais 62 Figura 24 Sintagmas Nominais e adjetivos inseridos nos SN 62 Figura 25 Diagrama de casos de uso da UML do sistema proposto ndash Pesquisa do Usuaacuterio66Figura 26 Diagrama de casos de uso da UML do sistema proposto ndash Gerenciamento e
Operaccedilatildeo do BD no niacutevel de administrador 67 Figura 27 Modelo Conceitual do sistema proposto72 Figura 28 Diagrama de classes do sistema proposto ndash Pesquisa de Usuaacuterio 73 Figura 29 Diagrama de classes do sistema proposto ndash Gerenciamento e Operaccedilatildeo do BD no
niacutevel de administrador 74 Figura 30 Diagrama de Sequumlecircncia do sistema proposto ndash Pesquisa de Usuaacuterio 75 Figura 31 Diagrama de Sequumlecircncia do sistema proposto ndash Gerenciamento e Operaccedilatildeo do BD
no niacutevel de administrador 76
vi
IacuteNDICE DE TABELAS
Tabela 1 Exemplos de nominalizaccedilatildeo 49 Tabela 2 Exemplo de uma consulta qb53 Tabela 3 Paraacutegrafo 6 do documento163 Tabela 4 RLBs identificadas no paraacutegrafo 6 do documento1 63 Tabela 5 Descriccedilatildeo do caso de uso ndash Inserir novo documento68 Tabela 6 Descriccedilatildeo do caso de uso ndash Alimentar base de dados (Documentos) 68 Tabela 7 Descriccedilatildeo do caso de uso ndash Extrair SN de 4ordm ou uacuteltimo niacutevel 68 Tabela 8 Descriccedilatildeo do caso de uso ndash Tratar regras verbais69 Tabela 9 Descriccedilatildeo do caso de uso ndash Extrair SN de niacuteveis 3 2 e 1 (niacuteveis anteriores) 69 Tabela 10 Descriccedilatildeo do caso de uso ndash Alimentar base de dados (Sintagmas) 69 Tabela 11 Descriccedilatildeo do caso de uso ndash Toquenizar e etiquetar70 Tabela 12 Descriccedilatildeo do caso de uso ndash Nominalizar70 Tabela 13 Descriccedilatildeo do caso de uso ndash Capturar RLBs 70 Tabela 14 Descriccedilatildeo do caso de uso ndash Calcular peso dos descritores 71 Tabela 15 Descriccedilatildeo do caso de uso ndash Alimentar base de dados (Termos e RLBs) 71
vii
SIGLAS
RI Recuperaccedilatildeo de Informaccedilatildeo
SRI Sistemas de Recuperaccedilatildeo de Informaccedilatildeo
SN Sintagma Nominal
LG Leacutexico Gerativo
EQ Estrutura de Qualia
SMART System for the Manipulation and Retrieval of Text
SV Sintagma Verbal
SEL Leacutexico de Enumeraccedilatildeo de Sentidos
PLC Paradigma Leacutexico-Conceitual
XML Extensible Markup Language
UML Linguagem de Modelagem Unificada
UP Processo Unificado
OO Orientado a Objetos
NG N-Grama
TT Termo-Termo
TR Termo-Relacionamento
RT Relacionamento-Termo
TR+ Termo-RelacionamentoRelacionamento-Termo
SINTR+ Sintagma Nominal com TR+
BD Banco de Dados
viii
RESUMO
Este trabalho tem como objetivo apresentar um novo modelo de sistema informatizado de suporte ao usuaacuterio no processo de recuperaccedilatildeo de informaccedilotildees A proposta consiste em apoio durante a definiccedilatildeo da query de busca e baseia-se na identificaccedilatildeo das possibilidades de sistematizaccedilatildeo e junccedilatildeo do modelo de Kuramoto com a estrutura de Gonzalez Para a sua construccedilatildeo foi necessaacuterio analisar e sintetizar o modelo de suporte ao usuaacuterio de Kuramoto (baseado na determinaccedilatildeo dos Sintagmas Nominais) a estrutura de Qualia do Leacutexico Gerativo de Pustejovsky e termos e RLBs (relaccedilotildees lexicais binaacuterias) do modelo TR+ de Gonzalez O resultado que se espera alcanccedilar eacute possibilitar a realizaccedilatildeo de uma interaccedilatildeo que venha a proporcionar uma negociaccedilatildeo adequada dos significados entre o usuaacuterio e a maacutequina negociaccedilatildeo essa que deve resultar em fator fundamental na melhoria da eficiecircncia dos processos de busca O modelo de Kuramoto baseado em uma hierarquia de Sintagmas Nominais suporta inicialmente essa interaccedilatildeo Com a definiccedilatildeo da query de busca e da Estrutura de Qualia de Pustejovsky impliacutecita no modelo TR+ de Gonzalez foi possiacutevel obter uma maior relevacircncia dos documentos recuperados atraveacutes de um caacutelculo de peso de descritores (termos e relacionamentos) evidentes nos documentos As etapas gerais do modelo proposto satildeo a extraccedilatildeo de Sintagmas Nominais e a sua hierarquizaccedilatildeo automaacutetica em niacuteveis o preacute-processamento (toquenizaccedilatildeo e etiquetagem) o processo de nominalizaccedilatildeo e a captura de RLBs Delineado preliminarmente o modelo partiu-se para as etapas de levantamento e anaacutelise de requisitos representada pelos diagramas e pelas descriccedilotildees dos casos de uso chegando-se ao desenvolvimento do seu modelo conceitual que culminou a construccedilatildeo dos diagramas de classes e de sequumlecircncia para a aplicaccedilatildeo proposta Ao final conclui-se que a alternativa indicada neste trabalho aleacutem de ser exequumliacutevel apresenta ganhos qualitativos nos resultados de uma busca em recuperaccedilatildeo de informaccedilotildees e tambeacutem quantitativos no que se refere a um menor tempo na fase de indexaccedilatildeo (rapidez) e um tamanho menor de arquivos de iacutendice gerados (memoacuteria)
Palavras-chave Recuperaccedilatildeo de Informaccedilatildeo Sintagmas Nominais Estrutura de Qualia Termos e RLBs
ix
ABSTRACT
This work has the presentation of a new model of a support information system to the user in the process of information retrieval The proposal consists in the support during the definition of a search query based on the identification of the possibilities of informatization and junction of a Kuramoto model along with the Gonzalez structure For its construction it was necessary to analyze and synthesize the support model to the Kuramoto user (base don the determination of Nominal Syntagm) the Qualia structure of the Lexical Semantics of Pustejovsky and having the LBRs (lexical binary relations) of the Gonzalez TR+ model The result we expect to reach is the possibility of actually performing an interaction that may result in an adequate negotiation of meanings between the user and the machine knowing that this negotiation should result in a fundamental factor in order for the improvement on the efficiency of the search processes The Kuramoto model based on Nominal Syntagm hierarchy initially supports this interaction With the definition of the query search and the Pustejovsky Qualia structure implicit in the TR+ Gonzalez model it was possible to obtain a greater relevance of documents recovered through a calculus of weight of describers (terms and relationships) evident in the document The general stages of the proposed model are the extraction of Nominal Syntagm and their automatic placement into hierarchy the pre-processing (tokening and labeling) the naming and capture of the LRBs After the preliminary outlining of the model we went on to the gathering of stages and requisite analysis presented by diagrams and descriptions of the usage cases finally reaching the development of a conceptual model that culminated in the construction of class diagrams and of a sequence for the proposed application As we reach the end we can conclude that the indicated alternative in this work besides being executable presents qualitative gains in the results of a search for the retrieval of information and also quantitative gains when referring to a smaller amount of time spent in the index phase (speed) and a smaller amount of archives generated (memory)
Key-words Retrieval of Information Nominal Syntagm Qualia Structure Terms e LRBs
x
SUMAacuteRIO
AGRADECIMENTOS iv
IacuteNDICE DE FIGURAS v
IacuteNDICE DE TABELAS vi
IacuteNDICE DE TABELAS vi
SIGLAS vii
RESUMOviii
ABSTRACT ix
SUMAacuteRIOx
1 INTRODUCcedilAtildeO 12
11 Objetivos13 111 Objetivo Geral 13 112 Objetivos Especiacuteficos 13
12 Metodologia13
13 Resultados Esperados e Limitaccedilotildees do Trabalho 14
14 Estrutura da Dissertaccedilatildeo 15
2 RECUPERACcedilAtildeO DE INFORMACcedilAtildeO 16
21 Histoacuterico 16
22 Modelos Claacutessicos de Recuperaccedilatildeo de Informaccedilatildeo 18 221 Modelo Booleano 18
2211 Operadores Booleanos19 2212 Operadores de Proximidade 20
222 Modelo Vetorial21 223 Modelo Probabiliacutestico 23
3 FUNDAMENTACcedilAtildeO TEacuteORICA25
31 A Proposta de Kuramoto 25 311 Extraccedilatildeo dos Sintagmas Nominais 27
3111 Extraccedilatildeo Automaacutetica de Sintagmas Nominais 29 312 A determinaccedilatildeo de uma estrutura para os SN 29
xi
313 Protoacutetipo Desenho da Interface de Busca31 314 Organizaccedilatildeo dos Sintagmas Nominais como Estrutura de Busca 32
32 A Teoria do Leacutexico Gerativo de Pustejovsky34 321 Estruturas do Leacutexico Gerativo36
3211 Estrutura de Argumento 37 3212 Estrutura de Evento 37 3213 Estrutura de Qualia 38 3214 Estrutura de Heranccedila Lexical 40
322 Sistema de Tipos Semacircnticos 41 322 Mecanismos gerativos 42
3221 Coerccedilatildeo de tipo42 3222 Ligaccedilatildeo seletiva 42 3223 Co-composiccedilatildeo 43
33 O Modelo TR+ de Gonzalez45
4 APRESENTACcedilAtildeO E DISCUSSAtildeO DO MODELO PROPOSTO 55
41 Procedimentos desenvolvidos utilizando o modelo de SN de Kuramoto e a proposta Gonzalez - ldquoEstrutura SINTR+rdquo55
42 Descriccedilatildeo Formal do Modelo Proposto SINTR+ 64
5 CONCLUSAtildeO77
6 REFEREcircNCIAS BIBLIOGRAacuteFICAS 80
61 Bibliografia Consultada82
ANEXO A - DOCUMENTO186
ANEXO B - DOCUMENTO288
ANEXO C - EXTRACcedilAtildeO MANUAL DE SN DOS DOCUMENTOS91
ANEXO D - FERRAMENTA1 DE TOQUENIZACcedilAtildeO E ETIQUETAGEM99
ANEXO D - FERRAMENTA2 DE TOQUENIZACcedilAtildeO E ETIQUETAGEM102
ANEXO E - PROCESSO DE NOMINALIZACcedilAtildeO105
12
1 INTRODUCcedilAtildeO
O tema ldquoRecuperaccedilatildeo de Informaccedilatildeordquo (RI) eacute importante para diversas aacutereas tais
como Biblioteconomia Linguumliacutestica Ciecircncia da Computaccedilatildeo entre outras Segundo Baeza-
Yates e Ribeiro-Neto (1999) na Ciecircncia da Computaccedilatildeo esse tema diz respeito agrave recuperaccedilatildeo
de dados e agrave recuperaccedilatildeo de informaccedilatildeo sendo ambos processos importantes e significativos
para a aacuterea
De acordo com os autores os sistemas de recuperaccedilatildeo de informaccedilatildeo lidam com
objetos linguumliacutesticos (textos) e por isso herdam toda a problemaacutetica inerente ao tratamento da
linguagem natural Jaacute a recuperaccedilatildeo de dados estaacute associada a sistemas gerenciadores de
banco de dados (ou simplesmente banco de dados) que ao organizaacute-los jaacute especificam de
forma bem definida a sua estrutura e por conseguinte a sua semacircntica
Um dos desafios na recuperaccedilatildeo de informaccedilatildeo conforme Ferneda (2003) diz
respeito a melhorar a relevacircncia dos resultados de uma busca de maneira que o usuaacuterio possa
encontrar todos os documentos que atendam agraves suas necessidades de informaccedilatildeo Em outras
palavras isto quer dizer que a busca seraacute precisa se conseguir retornar eou listar somente
documentos relacionados ao que o usuaacuterio expressou na definiccedilatildeo da sua busca
Diversos modelos de RI vecircm proporcionando melhorias significativas na relevacircncia
dos resultados De acordo com Baeza-Yates e Ribeiro-Neto (1999) em uma visatildeo centrada no
computador o problema de RI consiste principalmente na construccedilatildeo de iacutendices mais
eficientes no processamento de querys de usuaacuterios com alta performance e no
desenvolvimento de algoritmos de classificaccedilatildeo que melhorem a ldquoqualidaderdquo do conjunto de
respostas Apesar disso os meacutetodos utilizados nesses modelos ainda deixam a desejar natildeo
sendo capazes de recuperar a contento os documentos relevantes a uma consulta do usuaacuterio
Na maioria dos modelos de recuperaccedilatildeo de informaccedilatildeo existentes hoje o processo de
indexaccedilatildeo extrai cada palavra do texto de um documento e insere uma lista de palavras
ordenadas pela frequumlecircncia da palavra no texto Isto desfaz o trabalho intelectual do autor do
documento
Observa-se que diversas pesquisas de RI se focalizam nos algoritmos de busca por
documentos relevantes a partir de querys estabelecidas O foco nesses casos eacute determinar a
relevacircncia de documentos Para isso haacute vaacuterias metodologias desde medir o tempo de
13
permanecircncia do usuaacuterio no acesso a um documento ateacute a determinaccedilatildeo da quantidade de
consultas com querys semelhantes entre outras
Outro aspecto problemaacutetico relaciona-se ao fato de que as informaccedilotildees recuperadas
dependem tambeacutem da clareza do usuaacuterio ao expressar o que necessita Ou seja a dificuldade
natildeo se trata apenas de identificar e definir a relevacircncia dos resultados atraveacutes dos modelos
computacionais de RI que datildeo suporte ao processo da busca mas da capacidade do usuaacuterio de
formular uma expressatildeo de busca utilizando as palavras ou expressotildees de forma clara de
modo a representar os documentos desejados satisfazendo assim a sua necessidade
As palavras utilizadas pelo usuaacuterio possuem um significado claro para ele mas isso
natildeo eacute suficiente para uma boa recuperaccedilatildeo de informaccedilatildeo pois a Liacutengua Portuguesa segundo
Rossi (2003) apresenta muitas palavras iguais com significados diferentes (polissemia) que
variam de acordo com o contexto E haacute tambeacutem palavras diferentes em escrita e pronuacutencia
embora com significados iguais (sinoniacutemia) Ocorre ainda a combinaccedilatildeo de palavras que
segundo Martins e Zilberknop (1999) diz respeito a duas ou mais palavras que podem
combinar-se em ordem diferente designando ideacuteias completamente diversas
Esses aspectos da linguagem natural satildeo obstaacuteculos na obtenccedilatildeo de bons resultados
em um procedimento de recuperaccedilatildeo de informaccedilatildeo No caso da polissemia e da combinaccedilatildeo
de palavras pode ocorrer o aumento da taxa de ruiacutedos1 ou o incremento da taxa de silecircncio2
que acontecem no caso de sinoniacutemia Isto pode levar a um resultado de busca de documentos
que natildeo atenda agraves necessidades de informaccedilatildeo do usuaacuterio Portanto a existecircncia de uma
negociaccedilatildeo de significados entre usuaacuterio e maacutequina levaria possivelmente a resultados mais
relevantes
O surgimento das novas tecnologias da informaccedilatildeo e da comunicaccedilatildeo fez crescer o
volume de publicaccedilotildees na Internet Esse crescimento segundo Cardoso (2000) tem
dificultado ainda mais a recuperaccedilatildeo de informaccedilotildees relevantes Um aspecto positivo eacute a
facilidade de acesso pela Web (World Wide Web) aos acervos bibliograacuteficos de diversas
universidades brasileiras e mesmo do mundo inteiro Visto que o aumento do acervo torna
ainda mais complexa a busca por isso esperava-se que esses meacutetodos acompanhassem tal
desenvolvimento mas isto ainda natildeo aconteceu de forma satisfatoacuteria
A dificuldade aparece rapidamente nos vaacuterios mecanismos da Web como ldquoGooglerdquo
ldquoCaderdquo entre outros que ao serem acionados para buscar uma determinada informaccedilatildeo
1 Taxa de ruiacutedos eacute definida como sendo a relaccedilatildeo entre a quantidade de documentos recuperados natildeo pertinentes e a quantidade total de documentos 2 Taxa de silecircncio eacute definida como sendo a relaccedilatildeo entre a quantidade de documentos recuperados pertinentes natildeo recuperados e a quantidade total de documentos pertinentes na base de dados
14
listam centenas ou mesmo milhares de referecircncias como resposta sendo normalmente destas
relevantes apenas as primeiras Aleacutem disso ao se utilizarem as mesmas palavras em diferentes
mecanismos (sites) de pesquisa os resultados variam segundo Hill (1999) devido agraves rotinas
automatizadas de pesquisa diferenciadas
O usuaacuterio precisa ainda utilizar palavras-chave para dar foco agrave sua pesquisa Segundo
Baeza-Yates e Ribeiro-Neto (1999) o interessante seria jaacute poder dizer ldquoDecirc-me dados
estatiacutesticos sobre a equipe da seleccedilatildeo brasileira de basquete no ano de 2004rdquo Mas apesar de a
tecnologia da Internet estar progredindo ainda se estaacute bastante distante desse estaacutegio
Uma linha de pesquisa que tem como representante o trabalho de Kuramoto (1999)
procura abordar a questatildeo da RI desde a perspectiva do apoio ao usuaacuterio na formulaccedilatildeo da
query de busca A expectativa eacute oferecer jaacute no momento da formulaccedilatildeo da query um apoio
interativo para o estabelecimento de uma chave mais adequada ao contexto real da busca A
proposta de Kuramoto eacute baseada na determinaccedilatildeo dos Sintagmas Nominais (SN) de um
domiacutenio de aplicaccedilatildeo
O uso de SN permite um processo de refinamento da busca A forma de navegar
pelos niacuteveis de SN intensifica a interaccedilatildeo entre o usuaacuterio e o computador (KURAMOTO
2002) A interface de busca passa a dar um suporte para o usuaacuterio na formulaccedilatildeo de sua query
antes de listar todos os documentos
A proposta de utilizaccedilatildeo de uma interface de apoio utilizando SN configura-se como
inovadora pois natildeo se tem conhecimento de outra proposiccedilatildeo que considere o fato de que nem
sempre o usuaacuterio eacute capaz de explicitar a sua necessidade de informaccedilatildeo em uma uacutenica
expressatildeo de busca
Segundo Kuramoto (2002) as palavras como unidades de um dicionaacuterio natildeo contecircm
qualquer substacircncia Elas adquirem essa substacircncia no momento em que se inserem no
universo do discurso ou seja as palavras inseridas no texto de um documento assumem um
significado especiacutefico
Percebe-se que essa linha de pesquisa eacute bastante promissora e que a aacuterea de
Linguumliacutestica pode oferecer alternativas interessantes uma delas foi vislumbrada na teoria do
Leacutexico Gerativo (LG) de Pustejovsky (1991) Nessa teoria Pustejovsky buscando dar conta
da polissemia loacutegica das palavras propondo uma estrutura para a semacircntica de uma liacutengua da
mesma forma que a sintaxe eacute estruturada Na estrutura proposta por Pustejovsky a
componente principal eacute a estrutura de dimensotildees de significados (denominada de Estrutura de
Qualia)
15
Uma palavra escrita pelo usuaacuterio pode ser utilizada pelos documentos de um acervo
e portanto identificada pela maacutequina atraveacutes de seus modelos de RI com um sentido
completamente diferente do contexto imaginado pelo usuaacuterio Para a palavra ldquojornalrdquo por
exemplo o usuaacuterio pode estar se referindo ao preacutedio onde fica o jornal ou ao objeto fiacutesico
propriamente dito ou ateacute mesmo ao conteuacutedo do jornal (informaccedilatildeo contida)
A Estrutura de Qualia auxilia a RI na identificaccedilatildeo de qual sentido mais especiacutefico o
usuaacuterio busca dessa forma esta estrutura poderia classificar os documentos contendo a palavra
ldquojornalrdquo segundo as diferentes qualia envolvidas Isso representaria um refinamento
importante na busca que poderia resultar em mais satisfaccedilatildeo para o usuaacuterio e portanto mais
eficiecircncia dos mecanismos de busca O reconhecimento da importacircncia da teoria de
Pustejovsky pode ser constatado na existecircncia de trabalhos relacionados na liacutengua portuguesa
como eacute o caso da pesquisa de Abrahatildeo (1997) que desenvolveu a modelagem e a
implementaccedilatildeo de um leacutexico semacircntico para a nossa Liacutengua a partir de um estudo
aprofundado da teoria de Pustejovsky
Aleacutem disso uma outra questatildeo importante a ressaltar eacute que existem problemas
ligados agrave definiccedilatildeo das palavras Essa criacutetica segundo Rossi (2003) se fundamenta no fato de
os lexicoacutegrafos3 parecerem atuar de maneira mais intuitiva do que propriamente fazer uso de
teorias semacircnticas que decircem o devido suporte agrave tarefa de definir um item lexical Rossi (2003)
reforccedila que muitos dicionaacuterios nem sempre prevecircem a polissemia subjacente aos itens
lexicais
Outro trabalho pesquisado que permitiu uma ampliaccedilatildeo do modelo proposto nesta
dissertaccedilatildeo foi o de Gonzalez (2005) com o seu modelo TR+ Este modelo natildeo utiliza
sistematicamente a Estrutura de Qualia aparecendo esta apenas impliacutecita principalmente a
parte formal das palavras As palavras e seus relacionamentos ganham em Gonzalez uma
importacircncia contextual pelo caacutelculo de um peso (peso de descritores) que busca manter sua
unidade significativa
A abordagem proposta para este trabalho orienta-se na melhoria da query de busca
dos usuaacuterios A pesquisa siacutentese e sistematizaccedilatildeo da proposta de Kuramoto (1999) e do
modelo de Gonzalez (2005) possibilitaram o desenvolvimento de um novo modelo chamado
3 Lexicoacutegrafos satildeo autores de dicionaacuterios ou seja dicionaristas
de SINTR+ Esse modelo utiliza a formulaccedilatildeo de consulta em RI apresentando os Sintagmas
Nominais referentes a esta consulta e com isto inicia a interaccedilatildeo com o usuaacuterio onde o mesmo
13
escolhe o SN de niacutevel apropriado e a partir daiacute haacute sistematizaccedilatildeo com o modelo TR+ de
Gonzalez
Pretende-se por um lado ajudar e apoiar o usuaacuterio a melhor especificar sua query no
contexto real da sua busca por outro lado potencializa-se o tempo tanto na fase de indexaccedilatildeo
como na de busca e reduz-se o espaccedilo utilizado de memoacuteria para dados na base
11 Objetivos
111 Objetivo Geral
Descrever a partir da identificaccedilatildeo das possibilidades de ampliaccedilatildeo de siacutentese e de
sistematizaccedilatildeo das propostas de Kuramoto e de Gonzalez um novo modelo para um sistema
informatizado de suporte ao usuaacuterio na definiccedilatildeo da sua query de busca durante um processo
de recuperaccedilatildeo de informaccedilatildeo
112 Objetivos Especiacuteficos
a) Analisar as propostas citadas buscando a sua sistematizaccedilatildeo e identificaccedilatildeo de alternativas
de implementaccedilatildeo e ampliaccedilatildeo
b) Definir o modelo conceitual do sistema desejado atraveacutes da sua anaacutelise de domiacutenio
representando-o a partir dos seus diagramas de classes e de sequumlecircncia
c) Avaliar exploratoriamente o modelo desenhado a partir da construccedilatildeo de exemplos
demonstrativos das suas principais propriedades
12 Metodologia
Para a construccedilatildeo deste trabalho inicialmente foi realizada uma revisatildeo bibliograacutefica
a partir de livros artigos e outros materiais disponiacuteveis referentes ao assunto em questatildeo
fundamentalmente sobre a aacuterea de Recuperaccedilatildeo de Informaccedilatildeo A metodologia utilizada para
desenvolver este trabalho baseou-se no cronograma de etapas a serem desenvolvidas descritas
a seguir
14
a) Estudo e identificaccedilatildeo das diferentes alternativas e abordagens atualmente desenvolvidas
para a aacuterea de recuperaccedilatildeo de informaccedilotildees
b) Formulaccedilatildeo da proposta de trabalho definiccedilatildeo do escopo e da fundamentaccedilatildeo da proposta
c) Estudo das teorias de base para a construccedilatildeo do modelo teoria do Leacutexico Gerativo de
James Pustejovsky e o modelo de Kuramoto E apoacutes um estudo de Abrahatildeo e Gonzalez
d) Esboccedilo do modelo para o sistema proposto
e) Especificaccedilatildeo dos requisitos do sistema proposto
f) Construccedilatildeo da anaacutelise de domiacutenio definiccedilatildeo do modelo conceitual
g) Construccedilatildeo dos diagramas de classes e de sequumlecircncia para o modelo
h) Construccedilatildeo de exemplos de aplicaccedilatildeo do modelo
i) Anaacutelise e conclusotildees finais
13 Resultados Esperados e Limitaccedilotildees do Trabalho
A principal contribuiccedilatildeo deste trabalho reside no fato de sistematizar as teorias de
Kuramoto Pustejovsky e Gonzalez construindo um novo modelo que amplia as
potencialidades das propostas de Kuramoto e Gonzalez melhorando os resultados do processo
de recuperaccedilatildeo de informaccedilotildees Esta melhoria ocorre em relaccedilatildeo agrave diminuiccedilatildeo do tempo de
busca dos documentos e agrave relevacircncia dos resultados encontrados por meio da junccedilatildeo de
diferentes modelos para os processos de indexaccedilatildeo e busca
A princiacutepio o modelo construiacutedo eacute antevisto como aplicaacutevel a bases de documentos
natildeo distribuiacutedas e contidas a um determinado domiacutenio de aplicaccedilatildeo mas jaacute eacute possiacutevel
perceber formas de adaptaacute-lo expandindo-o para seu uso na Web
Este trabalho natildeo tem o intuito de gerar uma implementaccedilatildeo computacional
completa do modelo proposto propotildee-se antes a demonstrar a viabilidade desta
implementaccedilatildeo descrevendo os diagramas e as descriccedilotildees dos casos de uso e a sua
modelagem conceitual culminando a construccedilatildeo dos diagramas de classes e de sequumlecircncia A
anaacutelise das potencialidades e limitaccedilotildees do modelo deveraacute ser possiacutevel a partir da realizaccedilatildeo
de estudos de casos onde se determine a complexidade computacional da implementaccedilatildeo
requerida
15
14 Estrutura da Dissertaccedilatildeo
O trabalho apresenta um capiacutetulo introdutoacuterio que orienta os toacutepicos do projeto e o
desenvolvimento da pesquisa aleacutem de sintetizar os resultados que seratildeo explorados na
conclusatildeo
O Capiacutetulo 2 a seguir aborda temas e definiccedilotildees da aacuterea de RI mostrando a sua
histoacuteria e tambeacutem discute o funcionamento e as vantagens e desvantagens dos modelos
claacutessicos de RI
No Capiacutetulo 3 apresenta-se a fundamentaccedilatildeo teoacuterica desta dissertaccedilatildeo onde satildeo
abordados trecircs autores Primeiramente apresenta-se a Proposta de Kuramoto que se baseia nos
niacuteveis de Sintagmas Nominais sendo exposto o protoacutetipo de interaccedilatildeo entre usuaacuterio e maacutequina
desenvolvido por este autor Na Teoria do Leacutexico Gerativo de Pustejovsky deu-se ecircnfase agrave
apresentaccedilatildeo da Estrutura de Qualia pois eacute a que foi julgada mais adequada para a aplicaccedilatildeo
no modelo proposto apresenta-se tambeacutem uma anaacutelise do estudo de Abrahatildeo Por fim
discute-se e apresenta-se o trabalho de Gonzalez e do seu modelo TR+ que possibilitou
juntamente com a proposta de Kuramoto sistematizar a proposta desta dissertaccedilatildeo
No Capiacutetulo 4 eacute desenvolvida a proposta do sistema SINTR+ atraveacutes dos diagramas e
das descriccedilotildees dos casos de uso do modelo o modelo conceitual os diagramas de classes e de
sequumlecircncia juntamente com exemplos demonstrativos das suas propriedades
No Capiacutetulo 5 tecircm-se as conclusotildees referentes ao trabalho bem como as sugestotildees
para continuidade desse foco de pesquisa
O Capiacutetulo 6 apresenta as referecircncias bibliograacuteficas utilizadas para a realizaccedilatildeo deste
trabalho bem como a bibliografia consultada para a compreensatildeo de conceitos abordados na
dissertaccedilatildeo finalizando com os anexos
16
2 RECUPERACcedilAtildeO DE INFORMACcedilAtildeO
Neste capiacutetulo apresentam-se o histoacuterico e os modelos claacutessicos da aacuterea de
recuperaccedilatildeo de informaccedilatildeo O objetivo ao abordar esses toacutepicos eacute delinear uma visatildeo geral da
aacuterea a partir de diversos modelos de RI apontando algumas de suas principais vantagens e
desvantagens Dar-se-aacute destaque ao fato de que os algoritmos de relevacircncia utilizados para
recuperar os documentos desconsideram o contexto da query de busca
21 Histoacuterico
Em 1951 segundo Baeza-Yates e Ribeiro-Neto (1999) Calvin Mooers criou o termo
ldquoInformation Retrievalrdquo (Recuperaccedilatildeo de Informaccedilatildeo) e definiu os problemas a serem
abordados por esta nova aacuterea de pesquisa a qual despertou o interesse principalmente de
bibliotecaacuterios e ldquoexpertsrdquo da informaccedilatildeo
No contexto da Ciecircncia da Informaccedilatildeo segundo Ferneda (2003 p 14)
o termo ldquoRecuperaccedilatildeo de Informaccedilatildeordquo significa para uns a operaccedilatildeo pela qual se seleciona documentos a partir do acervo em funccedilatildeo da demanda do usuaacuterio Para outros ldquoRecuperaccedilatildeo de Informaccedilatildeordquo consiste no fornecimento a partir de uma demanda definida pelo usuaacuterio dos elementos de informaccedilatildeo documentaacuteria correspondentes O termo pode ainda ser empregado para designar a operaccedilatildeo que fornece uma resposta mais ou menos elaborada a uma demanda e esta resposta eacute convertida num produto cujo formato eacute acordado com o usuaacuterio (bibliografia nota de siacutentese etc) Haacute ainda autores que conceituam a recuperaccedilatildeo de informaccedilatildeo de forma muito mais ampla ao subordinar agrave mesma o tratamento da informaccedilatildeo (catalogaccedilatildeo indexaccedilatildeo classificaccedilatildeo)
Para alguns autores segundo Cardoso (2000) RI eacute dita como uma subaacuterea da Ciecircncia
da Computaccedilatildeo que estuda o armazenamento e a recuperaccedilatildeo automaacutetica de documentos que
satildeo objetos de dados geralmente textos Para Baeza-Yates e Ribeiro-Neto (1999) o termo
ldquoRecuperaccedilatildeo de Informaccedilatildeordquo trata da representaccedilatildeo do armazenamento da organizaccedilatildeo e do
acesso aos itens da informaccedilatildeo
De acordo com Ferneda (2003) foi a partir dos experimentos de Hans Peter Luhn
(Engenheiro pesquisador da IBM) na indexaccedilatildeo automaacutetica e na elaboraccedilatildeo automaacutetica de
resumos que surgiram os primeiros resultados significativos no tratamento computacional da
informaccedilatildeo Com isto ldquoLuhn foi durante vaacuterios anos o criador de inuacutemeros projetos que
visavam modificar radicalmente meacutetodos tradicionais de armazenamento tratamento e
17
recuperaccedilatildeo de informaccedilatildeo Em 1961 jaacute acumulava cerca de 80 patentes nos Estados Unidosrdquo
(FERNEDA 2003 p 10-11) Estes dados mostram a importacircncia de Luhn no tratamento da
recuperaccedilatildeo de informaccedilotildees
Em 1960 segundo Ferneda (2003) foi desenvolvido os princiacutepios baacutesicos do modelo
probabiliacutestico para a Recuperaccedilatildeo de Informaccedilatildeo por Maron e Kuhns que foi mais tarde
definido por Robertson e Jones (1976) A deacutecada de 60 foi fundamental em experimentos
desta natureza ldquoem meados dos anos 60 inicia-se uma longa seacuterie de experimentos que
constitui um marco na Recuperaccedilatildeo de Informaccedilatildeo o projeto SMARTrdquo (FERNEDA 2003
p11) Este autor destaca que este projeto foi desenvolvido por Gerard Salton que se
especializou na pesquisa destas evoluccedilotildees na recuperaccedilatildeo de informaccedilotildees produzindo
inuacutemeros artigos cientiacuteficos um modelo de recuperaccedilatildeo de informaccedilatildeo a criaccedilatildeo e o
aprimoramento de diversas teacutecnicas computacionais aleacutem de o sistema SMART
Estes sistemas de recuperaccedilatildeo de informaccedilatildeo geralmente se baseiam na contagem de
frequumlecircncia das palavras do texto e na eliminaccedilatildeo de palavras reconhecidamente de pouca
relevacircncia (FERNEDA 2003) Um exemplo disso satildeo os meacutetodos automaacuteticos de indexaccedilatildeo
de recuperaccedilatildeo de informaccedilatildeo que utilizam ldquofiltrosrdquo para eliminar palavras de pouca
significaccedilatildeo (stopwords4 e noun groups5) aleacutem de normalizar os termos reduzindo-os a seus
radicais Esse processo eacute conhecido como stemming6
Ferneda evidencia que os trabalhos de Luhn e Salton inicialmente natildeo se
preocupavam com a anaacutelise semacircntica das palavras e que seus estudos colaboraram para com
a evoluccedilatildeo atual das pesquisas
Nos trabalhos de Luhn e Salton observa-se inicialmente uma crenccedila de que meacutetodos puramente estatiacutesticos seriam suficientes para tratar os problemas relacionados agrave recuperaccedilatildeo de informaccedilatildeo Poreacutem no transcorrer de suas pesquisas percebe-se uma busca por meacutetodos de anaacutelise semacircntica mais sofisticada Desde os seus primeiros trabalhos Salton se mostra interessado pela utilizaccedilatildeo de processos de tratamento da linguagem natural na recuperaccedilatildeo de informaccedilatildeo Em livro de 1983 Salton e McGill apresentam em um capiacutetulo intitulado Future directions in Information Retrieval a aplicaccedilatildeo do processamento da linguagem natural e da loacutegica fuzzy na recuperaccedilatildeo de informaccedilatildeo apontando a direccedilatildeo de futuras pesquisas para a Inteligecircncia Artificial (FERNEDA 2003 p 12)
Estas contribuiccedilotildees tecircm suas principais ideacuteias presentes ainda na maioria dos
sistemas de recuperaccedilatildeo atuais e nos mecanismos de busca da Web Como aparece na estrutura
de componentes de um sistema de recuperaccedilatildeo de informaccedilatildeo que seguem geralmente um
modelo de funcionamento como demonstrado por Cardoso (2000)
4 Stop Words eliminaccedilatildeo de artigos e conectivos 5 Noun Groups eliminaccedilatildeo de adjetivos adveacuterbios e verbos 6 Stemming reduccedilatildeo de uma palavra ao seu radical Exemplo Engineering Engineer
18
Figura 1 Componentes de um Sistema de Recuperaccedilatildeo de Informaccedilatildeo Fonte GEY apud CARDOSO 2000
22 Modelos Claacutessicos de Recuperaccedilatildeo de Informaccedilatildeo
221 Modelo Booleano
A aacutelgebra booleana eacute um sistema binaacuterio no qual existem somente dois valores
possiacuteveis para qualquer siacutembolo algeacutebrico ldquoverdadeirordquo ou ldquofalsordquo O modelo booleano eacute um
modelo de recuperaccedilatildeo simples baseado na teoria dos conjuntos e na aacutelgebra booleana Aleacutem
disso as querys satildeo especificadas atraveacutes de expressotildees booleanas que tecircm semacircnticas
precisa
Segundo Baeza-Yates e Ribeiro-Neto (1999) e Gonzalez (2000) a simplicidade e o
formalismo claro do modelo booleano recebiam grande atenccedilatildeo nos anos passados sendo
adotados por muitos sistemas comerciais bibliograacuteficos
A estrateacutegia de recuperaccedilatildeo desse modelo eacute baseada em um criteacuterio de decisatildeo
binaacuteria por exemplo um documento pode ser relevante ou natildeo relevante sem noccedilatildeo de escala
de classificaccedilatildeo que previna um bom desempenho na recuperaccedilatildeo Deste modo o modelo
booleano eacute na verdade muito mais um modelo de recuperaccedilatildeo de dados (em vez de
informaccedilatildeo)
19
Aleacutem disso conforme Baeza-Yates e Ribeiro-Neto (1999) enquanto expressotildees
booleanas tecircm semacircnticas precisas frequumlentemente natildeo eacute simples traduzir uma informaccedilatildeo
precisa dentro de uma expressatildeo booleana O modelo booleano prediz que cada documento eacute
relevante ou irrelevante Natildeo existe noccedilatildeo de um resultado (matching) parcial para as
condiccedilotildees da query
As principais vantagens do modelo booleano satildeo o formalismo claro oculto sobre o
modelo e sua simplicidade As principais desvantagens encontram-se no resultado exato que
pode recuperar poucos ou muitos documentos
Figura 2 Exemplo dos trecircs componentes conjuntivos para query Fonte BAEZA-YATES RIBEIRO-NETO 1999
2211 Operadores Booleanos
Os operadores booleanos funcionam atraveacutes de uma expressatildeo booleana para
formulaccedilatildeo de buscas Isto ocorre por meio de operadores loacutegicos AND OR e NOT (E OU e
NAtildeO) Conforme exemplo de Ferneda (2003) a recuperaccedilatildeo de informaccedilatildeo se daraacute em uma
expressatildeo conjuntiva de enunciado t1 AND t2 que recuperaraacute documentos indexados por
ambos os termos (t1 e t2) Isso equivale e permite aparecer agrave intersecccedilatildeo do conjunto dos
documentos indexados pelo termo t1 com o conjunto dos documentos indexados pelo termo
t2
Figura 3 Representaccedilatildeo do resultado de uma expressatildeo booleana conjuntiva (AND) Fonte FERNEDA 2003
20
O autor demonstra que uma expressatildeo disjuntiva t1 OR t2 recuperaraacute o conjunto dos
documentos indexados pelo termo t1 ou pelo termo t2 Isto equivale e possibilita agrave uniatildeo entre
o conjunto dos documentos indexados pelo termo t1 e o conjunto dos documentos indexados
pelo termo t2 (FERNEDA 2003)
Figura 4 Resultado de uma busca booleana disjuntiva (OR) Fonte FERNEDA 2003
2212 Operadores de Proximidade
No modelo booleano existem os operadores de proximidade que permitem
especificar condiccedilotildees relacionadas agrave distacircncia e agrave posiccedilatildeo dos termos no texto Um operador
de proximidade bastante comum nos sistemas de RI e nos mecanismos de busca da Web eacute o
operador ADJ (FERNEDA 2003) Esse operador permite pesquisar duas palavras adjacentes
no texto de um documento na ordem especificada na expressatildeo de busca por exemplo a
expressatildeo recuperaccedilatildeo ADJ informaccedilatildeo teraacute como resultado os documentos que tiverem a
palavra ldquorecuperaccedilatildeordquo seguida da palavra ldquoinformaccedilatildeordquo ou seja recuperaraacute documentos que
contecircm a expressatildeo ldquorecuperaccedilatildeo informaccedilatildeordquo Tambeacutem pode ser utilizado um termo
composto delimitando as suas palavras com aspas por exemplo ldquorecuperaccedilatildeo de
informaccedilatildeordquo
O modelo booleano de acordo com Ferneda (2003) possui limitaccedilotildees que o torna
pouco atrativo satildeo elas
bull O resultado de uma busca booleana se caracteriza por dois subconjuntos os que
atendem agrave expressatildeo de busca e aqueles que natildeo atendem Presume-se que todos
os documentos recuperados satildeo de igual utilidade para o usuaacuterio Natildeo haacute nenhum
mecanismo pelos quais os documentos possam ser ordenados
bull O usuaacuterio leigo se natildeo tiver um treinamento apropriado formularaacute somente
buscas simples Para buscas com expressotildees mais complexas eacute necessaacuterio um
conhecimento da loacutegica booleana
21
bull Natildeo existe uma forma de atribuir importacircncia relativa aos diferentes termos da
expressatildeo booleana Assume-se implicitamente que todos os termos tecircm o mesmo
peso
222 Modelo Vetorial
O modelo vetorial segundo Baeza-Yates e Ribeiro-Neto (1999) reconhece que o uso
de pesos binaacuterios eacute tambeacutem limitante e propotildee uma estrutura em que eacute possiacutevel a resposta
(matching) parcial Isto eacute feito atribuindo-se pesos natildeo binaacuterios aos termos indexados em
querys e em documentos Esses pesos de termos satildeo enfim utilizados para calcular o grau de
similaridade entre cada documento armazenado no sistema e a expressatildeo de busca formulada
pelo usuaacuterio (querys) Como a classificaccedilatildeo dos documentos recuperados eacute feita em ordem
decrescente desse grau de similaridade o modelo vetorial leva em consideraccedilatildeo documentos
que se igualem aos termos de querys somente parcialmente
O modelo vetorial de acordo com Cardoso (2000) e Gonzalez (2000) representa
documentos e consultas como vetores de termos Os termos satildeo ocorrecircncias uacutenicas nos
documentos Os documentos retornados como resultado para uma consulta satildeo representados
similarmente isto quer dizer que o vetor resultado para uma consulta eacute montado atraveacutes de um
caacutelculo de similaridade Aos termos das consultas e dos documentos satildeo atribuiacutedos pesos que
especificam o tamanho e a direccedilatildeo de seu vetor de representaccedilatildeo O acircngulo formado por esses
vetores determina a proximidade da ocorrecircncia E o caacutelculo da similaridade eacute baseado no
acircngulo entre os vetores que representam o documento e a consulta
Cardoso (2000) descreve ainda que os pesos quantificam a relevacircncia de cada termo
para as consultas (Wiq) e para os documentos (Wid) no espaccedilo vetorial Segundo Cardoso
(2000 p 03) ldquopara o caacutelculo dos pesos Wiq e Wid utiliza-se uma teacutecnica que faz o
balanceamento entre as caracteriacutesticas do documento utilizando o conceito de frequumlecircncia de
um termo num documentordquo Desta forma se uma coleccedilatildeo possui N documentos e teremos o nti
que eacute a quantidade de documentos que possuem o termo ti com isto o inverso da frequumlecircncia
do termo na coleccedilatildeo ou idf (inverse documento frequency) eacute dado pela foacutermula de Cardoso
(2000) abaixo
idfi = log (Nni)
22
Esse valor eacute possiacutevel usando a foacutermula para calcular o peso Wid = freq(tid) x idfi
que eacute o produto da frequumlecircncia do termo no documento pelo inverso da frequumlecircncia do termo na
coleccedilatildeo
No modelo vetorial um documento eacute representado por um vetor em que cada
elemento representa o peso ou a relevacircncia do respectivo termo de indexaccedilatildeo para o
documento Cada elemento do vetor (peso) eacute normalizado de forma a assumir valores entre
zero e um Os pesos mais proacuteximos de um (1) indicam termos com maior importacircncia para a
descriccedilatildeo do documento E termos que natildeo estatildeo presentes em um determinado documento
possuem peso igual a zero
Da mesma forma que os documentos no modelo vetorial uma expressatildeo de busca
conforme Baeza-Yates e Ribeiro-Neto (1999) tambeacutem eacute representada por um vetor numeacuterico
em que cada elemento representa a importacircncia (peso) do respectivo termo na expressatildeo de
busca
Diversos documentos e termos de indexaccedilatildeo podem ser representados atraveacutes de uma
matriz na qual cada linha representa um documento e cada coluna representa a associaccedilatildeo de
um determinado termo aos vaacuterios documentos
Figura 5 O co-seno do acircngulo adaptado como similar (dj q) Fonte BAEZA-YATES RIBEIRO-NETO 1999
Um exemplo de uso do modelo vetorial eacute o sistema SMART7 citado anteriormente
este sistema representa por valor numeacuterico cada documento e seu respectivo termo na
descriccedilatildeo do documento Segundo Ferneda (2003) o sistema SMART fornece um meacutetodo
automaacutetico que trata aleacutem do caacutelculo dos pesos dos vetores que representam os documentos
tambeacutem trata os vetores das expressotildees de busca
As principais vantagens do modelo vetorial segundo Baeza-Yates e Ribeiro-Neto
(1999) satildeo (1) esquema de pesos de termos melhora o desempenho da recuperaccedilatildeo (2)
estrateacutegias de resposta (matching) parcial permitem a recuperaccedilatildeo de documentos que se
aproximem de condiccedilotildees de query e (3) foacutermula de classificaccedilatildeo do co-seno ordena os
documentos de acordo com o grau de similaridade da query A desvantagem desse modelo de
23
acordo com os autores diz respeito agraves dependecircncias de termos prejudicando especialmente o
desempenho
Cardoso (2000) considera como principais vantagens do modelo vetorial a sua
simplicidade a facilidade de se computarem similaridades com eficiecircncia e o fato de que se
comporta bem com coleccedilotildees geneacutericas
223 Modelo Probabiliacutestico
O modelo probabiliacutestico foi introduzido de acordo com Baeza-Yates e Ribeiro-Neto
(1999) em 1976 por Roberston e Sparck Jones que mais tarde tornou-se como o modelo
Binary Independence Retrieval (BIR)
Na Matemaacutetica a teoria das probabilidades estuda os experimentos aleatoacuterios que
conforme Ferneda (2003 p 35) repetidos em condiccedilotildees idecircnticas podem apresentar resultados diferentes e imprevisiacuteveis Isso ocorre por exemplo quando se observa a face superior de um dado apoacutes o seu lanccedilamento ou quando se verifica o naipe de uma carta retirada de um baralho Por apresentarem resultados imprevisiacuteveis eacute possiacutevel apenas estimar a possibilidade ou a chance de um determinado evento ocorrer Para descrever matematicamente um experimento aleatoacuterio eacute necessaacuterio inicialmente identificar o conjunto de todos os seus possiacuteveis resultados A este conjunto daacute-se o nome de espaccedilo amostral
Entendendo-se uma busca como um experimento aleatoacuterio segundo Robertson e
Jones eacute possiacutevel descrever o seu espaccedilo amostral como composto de quatro possibilidades
pois dada uma expressatildeo de busca pode-se dividir a base de documentos em quatro
subconjuntos distintos o conjunto dos documentos relevantes (Rel) o conjunto dos
documentos recuperados (Rec) o conjunto dos documentos relevantes e recuperados (RR) e o
conjunto dos documentos natildeo relevantes e natildeo recuperados O conjunto dos documentos
relevantes e recuperados (RR) eacute resultante da intersecccedilatildeo dos conjuntos Rel e Rec
(FERNEDA 2003)
O conjunto de documentos resultantes da primeira busca eacute ordenado atraveacutes de uma
forma de ordenaccedilatildeo padratildeo tradicional Tendo esse conjunto de documentos o usuaacuterio
seleciona alguns deles que considera relevantes para a sua necessidade O sistema utiliza essa
informaccedilatildeo para tentar melhorar os resultados subsequumlentes
A principal virtude do modelo probabiliacutestico estaacute em reconhecer que a atribuiccedilatildeo de
relevacircncia eacute uma tarefa do usuaacuterio Eacute o uacutenico modelo que segundo Baeza-Yates e Ribeiro-
7 SMART (Sistem for the Manipulation and Retrieval of Text)
24
Neto (1999) e Gonzalez (2000) incorpora explicitamente o processo de Relevance Feedback
como base para a sua operacionalizaccedilatildeo
Uma simplificaccedilatildeo bastante questionaacutevel estaacute no fato de o modelo considerar os
pesos dos termos de indexaccedilatildeo como sendo binaacuterios ou seja no modelo probabiliacutestico natildeo eacute
considerada a frequumlecircncia com que os termos ocorrem no texto dos documentos
Em geral os modelos de RI desconsideram o contexto das palavras informadas pelo
usuaacuterio por isso tendem a retornar poucos documentos relevantes em uma consulta Para isso
pretende-se mostrar no capiacutetulo seguinte com a ajuda da Linguumliacutestica possiacuteveis abordagens
que podem apoiar o usuaacuterio considerando o seu contexto de busca e listando documentos
relevantes
25
3 FUNDAMENTACcedilAtildeO TEacuteORICA
Neste capiacutetulo buscou-se apresentar uma siacutentese dos trabalhos que datildeo base ao
modelo apresentado nesta dissertaccedilatildeo Satildeo eles a Proposta de Kuramoto a Teoria do Leacutexico
Gerativo e o Modelo de Gonzalez A Proposta de Kuramoto baseia-se em uma hierarquizaccedilatildeo
em niacuteveis de Sintagmas Nominais Na Teoria do Leacutexico Gerativo de Pustejovsky mostram-se
as estruturas compostas e deu-se destaque agrave Estrutura de Qualia julgada mais adequada para a
aplicaccedilatildeo no trabalho proposto Analisou-se o estudo de Abrahatildeo a partir de Pustejovsky A
terceira teoria de Gonzalez apresenta uma proposta automatizada com o modelo TR+
31 A Proposta de Kuramoto
Neste capiacutetulo apresentam-se os conceitos e as caracteriacutesticas da proposta de
Kuramoto que se baseia na determinaccedilatildeo de Sintagmas Nominais (SN) de uma query A sua
proposta preocupa-se em buscar os SN uma vez que satildeo considerados como importante
elemento de uma frase sendo entendidos como o nuacutecleo significativo (cerne) de uma oraccedilatildeo
Em sua tese de doutorado Kuramoto relata que todo o trabalho de reconhecimento e
extraccedilatildeo de SN dos documentos foi realizado de forma natildeo automatizada Isto auxiliou na
elaboraccedilatildeo de um modelo para reconhecimento extraccedilatildeo e indexaccedilatildeo de SN inseridos na
amostra do protoacutetipo desenvolvido
O modelo proposto por Kuramoto refere-se ao aproveitamento dos SN organizado
hierarquicamente em ldquoaacutervoresrdquo criando um novo conceito de indexaccedilatildeo que pode introduzir
inovaccedilatildeo em termos de uma interface de busca
Esse modelo de interface de acordo com Kuramoto (2002) permitiria que o usuaacuterio
navegasse no conjunto de SN ateacute encontrar o que melhor atendesse agrave sua necessidade de
informaccedilatildeo Somente apoacutes esse procedimento o usuaacuterio teria entatildeo acesso aos documentos de
onde foram extraiacutedos os SN Tal processo proporcionaria ao usuaacuterio um maior conhecimento
sobre a base de dados que estaacute sendo consultada uma vez que lhe permitiria reconhecer a
estrutura de sintagmas nominais presentes nos documentos pertencentes ao sistema
Os processos de indexaccedilatildeo automaacutetica utilizados em modelos de RI segundo Michel
Le Guern (1984 apud KURAMOTO 1995) deveriam extrair dos documentos informaccedilotildees
26
que facilitassem a recuperaccedilatildeo para o usuaacuterio e natildeo siacutembolos sem referecircncia como considera
que satildeo as palavras
Para Silva e Koch (1993) toda frase de uma liacutengua constitui uma organizaccedilatildeo ou
seja uma combinaccedilatildeo de elementos linguumliacutesticos agrupados conforme certos princiacutepios que a
caracterizam como uma estrutura Para Baeza-Yates e Ribeiro-Neto (1999) grande parte da
semacircntica do documento ou da requisiccedilatildeo do usuaacuterio eacute perdida quando se substitui o texto
completo por um conjunto de palavras
Aparentemente um conjunto de frases de nossa liacutengua de acordo com Silva e Koch
(1993) tem pouco em comum variando quanto agrave extensatildeo ao sentido agraves palavras de que se
compotildeem e agrave ordem em que essas se apresentam Apesar da aparente diversidade as frases
possuem uma organizaccedilatildeo interna que segue princiacutepios gerais bem definidos de modo que o
falante seraacute capaz de dizer se uma sequumlecircncia de palavras a) se estaacute de acordo com o sistema
gramatical da liacutengua b) se se apresenta completa ou incompleta c) se eacute passiacutevel de
interpretaccedilatildeo semacircntica
Conforme Silva e Koch (apud ABREU et al 2004 p03) ldquoo sintagma consiste num
conjunto de elementos que constituem uma unidade significativa dentro da oraccedilatildeo e que
mantecircm entre si relaccedilotildees de dependecircncia e de ordemrdquo As palavras se combinam em conjuntos
em torno de um nuacutecleo Esses conjuntos os sintagmas desempenham uma funccedilatildeo no conjunto
maior que eacute a frase Para Liberato (apud PARREIRAS 2003) o SN eacute a parte do enunciado
que representa um conceito ou referente
Assim por exemplo nos conjuntos de sintagmas ndash David o estudante a menina
doente e minha filha ndash o nuacutecleo eacute um elemento nominal (nome ou pronome) tratando-se
portanto de sintagmas nominais Nos conjuntos ndash viajou de carro dormiu e levaraacute a
encomenda ndash o elemento fundamental eacute o verbo de modo que se tecircm nesses casos sintagmas
verbais
A natureza do sintagma depende portanto do tipo de elemento que constitui o seu
nuacutecleo aleacutem do sintagma nominal (SN) e do sintagma verbal (SV) existem os sintagmas
adjetivais (SA) que tecircm por nuacutecleo um adjetivo e os sintagmas preposicionais (SP) formados
normalmente de preposiccedilatildeo mais sintagma nominal (SILVA KOCH 1993)
Na estrutura da oraccedilatildeo em sua forma de base aparecem como constituintes
obrigatoacuterios o SN e o SV Por exemplo Os garotos (SN) empinavam papagaios de papel
(SV) Pode-se dizer que as regras baacutesicas de estrutura frasal satildeo as seguintes O = SN + SV
(SP) (o elemento O significa Oraccedilatildeo)
27
311 Extraccedilatildeo dos Sintagmas Nominais
O trabalho de Kuramoto compreendeu o desenvolvimento de um protoacutetipo de
interface de busca utilizando os sintagmas nominais como forma de acesso agrave informaccedilatildeo Para
testar esse protoacutetipo foram examinados e extraiacutedos segundo Kuramoto (2002) cerca de 8800
sintagmas nominais de uma amostra de 15 artigos selecionados aleatoriamente da revista
Ciecircncia da Informaccedilatildeo
Kuramoto (1995 p 6) relata que a extraccedilatildeo dos sintagmas nominais foi realizada de forma manual simulando uma extraccedilatildeo automaacutetica Este procedimento foi adotado em funccedilatildeo da natildeo-existecircncia ainda de um sistema de extraccedilatildeo automaacutetica de SN em acervos contendo documentos em Liacutengua Portuguesa
Como os SN nem sempre se apresentam de forma clara Kuramoto aponta a
ocorrecircncia normal em todo texto em linguagem natural de anaacuteforas8 e de elipses9 que
dificultou a identificaccedilatildeo dos SN Essas dificuldades segundo Kuramoto (1995) aumentam
em um processo automatizado Algumas das dificuldades encontradas por Kuramoto no
procedimento de extraccedilatildeo dos SN satildeo descritas a seguir
a) SN escondidos em frases com fatoraccedilatildeo
Para Kuramoto (1995 p 06) as ldquofrases com fatoraccedilatildeo satildeo aquelas que contecircm uma
sequumlecircncia de palavras que precedem um outro conjunto de palavras coordenadas pelas
conjunccedilotildees eou por exemplo o processo de negociaccedilatildeo dos setores privado e puacuteblicordquo
Percebe-se nesse exemplo que o SN de niacutevel 1 compreende tanto os setores privado
e puacuteblico visto que a referecircncia dos dois adjetivos estaacute contida na palavra em plural ldquosetoresrdquo
Existem outros exemplos de frases com fatoraccedilatildeo nas quais as palavras coordenadas aparecem
entre parecircnteses significando um complemento combinatoacuterio do termo ou da frase que
precede o parecircntese por exemplo profundas transformaccedilotildees (poliacuteticas econocircmicas
sociais tecnoloacutegicas)
b) Artigo Zero
8 Em Linguumliacutestica segundo Ducrot e Todorov (1972 apud KURAMOTO 1995) um segmento do discurso eacute dito anafoacuterico quando para interpretaacute-lo (inclusive do ponto de vista literaacuterio) for necessaacuterio se reportar a um outro segmento do mesmo discurso 9 A figura de sintaxe ldquoelipserdquo eacute definida por Cunha e Cintra (1991 apud KURAMOTO 1995) como sendo a omissatildeo de um termo que o contexto ou a situaccedilatildeo permitem facilmente suprimir
28
Um outro fator de dificuldade na extraccedilatildeo dos SN eacute a frequumlente ausecircncia de
determinantes10 na liacutengua portuguesa diferente da liacutengua francesa na qual satildeo raros os SN
com ausecircncia de um determinante Motivo pelos quais algumas regras estabelecidas para a
liacutengua francesa natildeo foram utilizadas De acordo com Kuramoto (1995 p 7) ldquono
procedimento de extraccedilatildeo dos SN constatou-se que 2889 dos SN natildeo eram precedidos de
qualquer determinante Em uma amostra de 6010 SN 1736 SN natildeo satildeo precedidos por
nenhum determinanterdquo Estes nuacutemeros demonstram que o modelo necessaacuterio deve considerar
este fator
c) Caacutelculo das anaacuteforas
Quando uma entidade eacute referenciada pela primeira vez em um texto segundo
Gasperin Goulart e Vieira (2003) a expressatildeo que a descreve eacute dita nova no discurso
Quando tal entidade eacute retomada no texto a expressatildeo que a descreve eacute dita anafoacuterica sendo
considerado o seu antecedente a expressatildeo anterior correferente
Para Kuramoto (1995 p 7-8) ldquoos elementos anafoacutericos em portuguecircs aparecem
frequumlentemente mediante partiacuteculas como os pronomesrdquo No entanto na proposta do autor
natildeo foi possiacutevel resolver dois casos de anaacuteforas
Um primeiro caso de anaacutefora ocorre nas palavras sem fonte expliacutecita no texto tais
como ldquonesse sentidordquo (em que sentido) ldquonossa experiecircnciardquo (de quem do autor dos
teacutecnicos de informaccedilatildeo) etc Como a interpretaccedilatildeo das ideacuteias estaacute contida no documento natildeo
fica evidente a soluccedilatildeo desse tipo de anaacutefora
O segundo caso eacute constituiacutedo de termos cujas fontes se encontram como por exemplo
na histoacuteria dos acontecimentos como ldquoesse periacuteodo preacute-industrial esse sistema de
comunicaccedilatildeordquo etc Por este motivo os SN foram extraiacutedos da mesma forma como se
encontravam no texto
d) Caacutelculo das elipses
Outra questatildeo que necessita um entendimento do contexto de uma frase eacute o problema
ligado a este tipo de figura de sintaxe Visto que depende da capacidade de percepccedilatildeo da falta
de alguma palavra no contexto de uma frase Segundo Kuramoto (1995) eacute preciso para
identificaacute-la analisar natildeo somente as frases precedentes mas tambeacutem as frases seguintes
Como neste exemplo ldquouma visatildeo de longo prazo que assegure natildeo soacute a sobrevivecircncia ()
10 Segundo Silva e Koch (1993) o determinante quando simples eacute representado por um artigo numeral ou pronome adjetivo
29
como tambeacutem o crescimento da organizaccedilatildeordquo Que promove o questionamento de ldquoqual o
complemento do termo lsquosobrevivecircnciarsquo lsquoSobrevivecircnciarsquo de quemrdquo A soluccedilatildeo encontrada
poderia estar na frase seguinte ldquoo crescimento da organizaccedilatildeordquo
Para promover a extraccedilatildeo completa da frase o SN seria ldquouma visatildeo de longo prazo
que assegure natildeo soacute a sobrevivecircncia da organizaccedilatildeo como tambeacutem o crescimento da
organizaccedilatildeordquo
3111 Extraccedilatildeo Automaacutetica de Sintagmas Nominais
A extraccedilatildeo automaacutetica de SN eacute considerada importante para a aacuterea de RI pois
segundo Chishman et al (2000) agiliza este processo e gera um percentual baixo de erros Jaacute
foi desenvolvido um extrator automaacutetico de sintagmas nominais para a liacutengua portuguesa no
acircmbito do projeto VISL chamado ldquoPalavrasrdquo11 que vem sendo usado pelo grupo de pesquisa
da UNISINOS
Segundo Abreu Goulart e Vieira (2004) para obter a anaacutelise das sentenccedilas dos
textos utiliza-se o analisador sintaacutetico ldquoPalavrasrdquo que eacute considerada uma ferramenta robusta
para a anaacutelise sintaacutetica do portuguecircs
A partir da saiacuteda do analisador sintaacutetico segundo Gasperin Goulart e Vieira (2003)
a ferramenta ldquoXtractorrdquo gera trecircs arquivos XML O primeiro eacute o arquivo de palavras o
segundo inclui as categorias morfossintaacuteticas e o terceiro eacute o arquivo com as estruturas
sintaacuteticas das sentenccedilas
Assim apoacutes todo esse processo eacute possiacutevel extrair de modo automaacutetico os sintagmas
nominais das sentenccedilas de um texto ressaltando-se que estes natildeo estatildeo ainda organizados
segundo a estrutura de niacuteveis que propotildee Kuramoto
312 A determinaccedilatildeo de uma estrutura para os SN
A essecircncia da proposta de Kuramoto (1995) reside na percepccedilatildeo que o autor teve de
que os SN organizam-se naturalmente numa estrutura de niacuteveis encadeados Kuramoto
percebeu nessa organizaccedilatildeo em niacuteveis um caminho para propiciar ao usuaacuterio mais facilidade
11 O analisador Palavras faz parte de um grupo de analisadores sintaacuteticos (softwares) do projeto VISL - Visual Interactive Sintax Learning do Institute of Language and Communication da University of Southern Denmark Disponiacutevel em lthttpvislsdudkvislptparsingautomaticgt (ABREU GOULART VIEIRA 2004)
30
no uso de um SRI levando tambeacutem a resultados mais precisos Para compreender a estrutura
proposta pelo autor apresenta-se a seguir o exemplo usado pelo proacuteprio Kuramoto
As Caracteriacutesticas do Meio Ambiente do Mundo dos Negoacutecios SN1 os negoacutecios SN2 o mundo dos negoacutecios SN3 o meio ambiente do mundo dos negoacutecios SN4 as caracteriacutesticas do meio ambiente do mundo dos negoacutecios
Figura 6 Exemplo da estrutura de niacuteveis de Sintagmas Nominais Fonte KURAMOTO 1995
Esse exemplo mostra o potencial da estrutura de relaccedilotildees de encadeamento de um
conjunto de SN Para o autor a anaacutelise do sintagma nominal no exemplo permitiu a extraccedilatildeo do SN ndash o meio ambiente do mundo dos negoacutecios A partir desse SN pode-se visualizar um outro SN embutido ndash o mundo dos negoacutecios ndash que por sua vez possui um quarto SN ndash os negoacutecios ndash que representa o niacutevel mais inferior12 Percebe-se nesse exemplo a existecircncia de quatro SN encadeados que enumerados em ordem crescente (do SN mais simples ao mais complexo) levam agrave classificaccedilatildeo do SN original como sendo de niacutevel 4 (KURAMOTO 1995 p04)
Com base nessas caracteriacutesticas apresentadas por Kuramoto (1995) os SN podem ser
organizados sob uma estrutura de aacutervore Esta estrutura possibilita que o Sistema de
Recuperaccedilatildeo de Informaccedilatildeo (SRI) possa atender agraves necessidades de consultas do usuaacuterio
Para atender esta demanda eacute preciso fornecer um centro de SN de seu interesse (como o
exemplo do autor ldquonegoacuteciosrdquo)
Para isso apresentam-se todos os SN1 relativos a essa busca inclusive o SN ldquoos
negoacuteciosrdquo A partir da lista encontrada de SN1 o usuaacuterio poderaacute restringir o seu perfil de
busca escolhendo um SN1 por exemplo ldquoos negoacuteciosrdquo e solicitar os SN2 relacionados a esse
SN1 O SRI apresenta todos os SN2 inclusive o SN ldquoo mundo dos negoacuteciosrdquo e assim
sucessivamente (KURAMOTO 1995)
Este autor afirma que esta passagem por vaacuterios niacuteveis promove um refinamento no
processo O processo de refinamento eacute realizado por meio da passagem pelos vaacuterios niacuteveis de uma estrutura arborescente de SN13 dado que o SN vai se tornando mais especiacutefico
12 Segundo Kuramoto (1995) os sintagmas nominais agrave medida que satildeo extraiacutedos de um outro SN satildeo classificados por niacuteveis Assim o sintagma mais simples eacute denominado SN de niacutevel 1 Constitui SN de niacutevel 2 aquele a partir do qual foi extraiacutedo o de niacutevel 1 e assim sucessivamente 13 Constatou-se empiricamente utilizando a maquete desenvolvida nesta experimentaccedilatildeo de acordo com Kuramoto (1995) que a quantidade de SN de segundo niacutevel em relaccedilatildeo a um dado SN de primeiro niacutevel pode ser maior que o total de SN de primeiro niacutevel Por exemplo a resposta agrave demanda do centro de SN ldquoinformaccedilatildeordquo foi de 122 SN de primeiro niacutevel e a resposta agrave demanda do SN de primeiro niacutevel ldquoa informaccedilatildeordquo foi de 172 SN de segundo niacutevel Por outro lado verificou-se que
31
agrave medida que se atingem os niacuteveis mais elevados da estrutura Ao percorrecirc-la o usuaacuterio estaacute na realidade delimitando ou melhor qualificando a sua necessidade de informaccedilatildeo Cabe portanto ao usuaacuterio identificar o niacutevel em que as suas necessidades de informaccedilatildeo seratildeo atendidas (KURAMOTO 1995 p 04-05)
Esta possibilidade de hierarquia permite uma interaccedilatildeo entre o usuaacuterio e maacutequina e
uma escolha individual de refinamento
313 Protoacutetipo Desenho da Interface de Busca
A Figura 7 descreve de maneira esquemaacutetica a interaccedilatildeo entre o usuaacuterio e o protoacutetipo
de Kuramoto (1995)
O protoacutetipo viabiliza a primeira interaccedilatildeo pois haacute uma tela em que permite ao
usuaacuterio fazer a sua solicitaccedilatildeo de informaccedilatildeo fornecendo uma palavra (centro de SN1) A
partir dessa palavra surgem outras interaccedilotildees como mostra o esquema de Kuramoto (1995) na
Figura 7 que ocorrem nas accedilotildees abaixo
Figura 7 Procedimentos de interaccedilatildeo usuaacuteriominusprotoacutetipo Fonte KURAMOTO 1995
o SN ldquoa informaccedilatildeordquo indexava 15 documentos na base enquanto o SN de segundo niacutevel ldquoa anaacutelise da informaccedilatildeordquo indexava apenas 1 (um) documento Confirma-se nesse exemplo que a passagem de um dado niacutevel a um superior na aacutervore de SN proporciona maior refinamento no processo de seleccedilatildeo dos documentos
32
314 Organizaccedilatildeo dos Sintagmas Nominais como Estrutura de Busca
Na proposta de Kuramoto (1995) foram desenvolvidas as seguintes estruturas de busca
Figura 8 Estrutura de dados para acessar os Sintagmas Nominais de primeiro niacutevel a partir de uma palavra Fonte KURAMOTO 1995
Kuramoto (1995) mostra na Figura 8 a associaccedilatildeo das tabelas Palavras CS-SN1 e
SN1 Cada dado tem nomes dos elementos que estatildeo sublinhados e representam as chaves de
cada tabela Na tabela Palavras observa-se que o autor agrupa todas as palavras (centro) que
representam os centros de SN1 Haacute uma atribuiccedilatildeo de coacutedigo para cada ldquocentrordquo chamado
ldquocoacutedigo crdquo A tabela CS-SN1 eacute uma tabela de associaccedilatildeo dos coacutedigos dos centros de SN1 com
os coacutedigos dos SN1 Essa figura mostra que para cada centro de SN1 existem vaacuterios SN1 A indicaccedilatildeo na seta da associaccedilatildeo da tabela Palavras com a tabela CS-SN1 define que na tabela Palavras podem existir M ocorrecircncias de um coacutedigo de centro de SN1 O mesmo pode ocorrer na tabela CS-SN1 em que esse coacutedigo pode verificar-se N vezes Essa indicaccedilatildeo traduz a ideacuteia de que para cada SN1 pode existir mais de um centro de SN1 Isto se explica pela existecircncia no contexto de um SN de palavras que satildeo tatildeo importantes quanto o centro de sintagma (KURAMOTO 1995 p 11)
Observa-se o exemplo ldquoo sistema de informaccedilatildeordquo Nesse o autor define o SN1 de
ldquosistemardquo Todavia esta natildeo eacute a uacutenica palavra fundamental pois a palavra ldquoinformaccedilatildeordquo tem
tanta importacircncia quanto o proacuteprio centro de sintagma (sistema)
Kuramoto (1995 p 11) mostra ainda que existe associaccedilatildeo entre o centro de SN1 e a
vaacuterios SN de niacutevel 1 Cada centro de SN1 pode estar associado a mais de um SN1 Essa indicaccedilatildeo eacute dada pela seta que associa a tabela SN1 agrave tabela CS-SN1 onde o nuacutemero 1 significa que na tabela SN1 existe uma soacute ocorrecircncia de um determinado coacutedigo de SN1 enquanto na tabela CS-SN1 existem M ocorrecircncias desse coacutedigo
Outro elemento de dados importante na tabela SN1 eacute chamado ldquonuacutemerordquo que
segundo Kuramoto (1995 p 11-12) ldquoindica a quantidade de artigos de onde um determinado
33
SN1 foi extraiacutedordquo O nuacutemero de referecircncias de onde o SN foi extraiacutedo aparece para cada
apresentaccedilatildeo de SN1 relacionado com um centro de SN1 escolhido pelo usuaacuterio
Kuramoto (1995) ilustra numa outra figura (Figura 9) a estrutura de dados construiacuteda
para a busca dos SN2 a partir de um SN1 selecionado pelo usuaacuterio
Figura 9 Estrutura de dados para acessar os Sintagmas Nominais de segundo niacutevel a partir de Sintagmas Nominais de primeiro niacutevel Fonte KURAMOTO 1995
Nessa ilustraccedilatildeo observa-se que se manteacutem a estrutura da Figura 8 em uma
associaccedilatildeo de tabelas que busca facilitar a busca dos SN2 a partir de um SN1 escolhido pelo
usuaacuterio Segundo Kuramoto (1995 p 12) ldquopercebe-se analogamente que um dado SN1 pode
estar associado a vaacuterios SN2 e vice-versa Isto traduz a ideacuteia de que um SN2 pode ter
embutido mais de um SN1 Essa estrutura atende agraves caracteriacutesticas dos SN listados no iniacutecio
desta seccedilatildeordquo
A busca de informaccedilotildees se manteacutem na mesma estrutura para os SN de niacutevel 3 e 4 que
satildeo semelhantes agraves Figuras acima (SN1 e SN2) com diferenccedila apenas no nome de cada
elemento que eacute correspondente ao nuacutemero dos SN
O acesso aos documentos estaacute representado na Figura 10 que exemplifica uma
escolha no SN1
Figura 10 Estrutura de dados para o acesso aos tiacutetulos e textos dos artigos Fonte KURAMOTO 1995
34
Essa estrutura foi desenvolvida para que o protoacutetipo atenda a uma demanda do
usuaacuterio viabilizando a visualizaccedilatildeo de todos os tiacutetulos e textos de documentos de onde um
SN1 foi extraiacutedo Haacute outras associaccedilotildees semelhantes a essas da Figura 17 que servem para o
acessar os documentos a partir de SN de qualquer um dos quatro niacuteveis previstos no protoacutetipo
Kuramoto (1995 p 12-13) ressalta ainda as accedilotildees do coacutedigo numeacuterico Eacute importante observar que todas as tabelas contendo os SN nos seus vaacuterios niacuteveis tecircm como chave de acesso um coacutedigo numeacuterico uacutenico de SN Para tanto construiu-se uma tabela contendo os SN onde estes satildeo identificados por meio de um coacutedigo numeacuterico Natildeo existe nenhum impedimento teacutecnico por parte do sistema Access quanto ao uso do proacuteprio texto dos SN como chave de acesso agraves informaccedilotildees Deve-se ressaltar que apesar da lentidatildeo que este tipo de chave de acesso provoca as estruturas de dados seriam mais simples e faacuteceis de manusear Contudo optou-se pela utilizaccedilatildeo das chaves numeacutericas identificando cada SN com o intuito de obter maior velocidade de acesso aos SN e agraves informaccedilotildees
Finalizando esta apresentaccedilatildeo do modelo de Kuramoto cabe destacar que a utilizaccedilatildeo
da aacutervore de SN por niacuteveis permite uma visualizaccedilatildeo mais faacutecil do conteuacutedo da base de dados
e manteacutem o que haacute de mais significativo nos documentos sua semacircntica
As estruturas de Qualia e de Heranccedila Lexical do Leacutexico Gerativo de Pustejovsky a
serem apresentadas na proacutexima seccedilatildeo permitem tambeacutem da mesma forma considerar a
semacircntica dos itens lexicais atraveacutes da criaccedilatildeo de uma malharede de relaccedilotildees de palavras e
seus significados atraveacutes dos papeacuteis que compotildeem a EQ
32 A Teoria do Leacutexico Gerativo de Pustejovsky
Pustejovsky defende a ideacuteia de que assim como a gramaacutetica tem uma estrutura
(sintaxe) a semacircntica (significado) tambeacutem tem uma estrutura baacutesica Na estrutura baacutesica da
sintaxe das liacutenguas em geral segundo Souza e Silva (1993) as oraccedilotildees satildeo compostas de
Sintagma Nominal (SN) mais Sintagma Verbal (SV) basicamente Na busca da estrutura
semacircntica Pustejovsky (1991) delineia a teoria do Leacutexico Gerativo (LG) como uma
abordagem na aacuterea da semacircntica lexical que pretende dar conta da criatividade semacircntica do
uso das palavras em contexto
Segundo Rossi (2003) Ullmann concorda com essa dificuldade do uso das palavras
em contexto quando declara que ldquonatildeo satildeo raros os casos em que ocorre uma polivalecircncia das
palavras acarretando por consequumlecircncia fenocircmenos semacircnticos inerentes agraves liacutenguas naturais
entre eles a ambiguumlidade lexicalrdquo Essa ambiguumlidade eacute provocada em decorrecircncia de fatores
35
lexicais denominados de polissemia e de homoniacutemia ou na terminologia de Weinreich
conforme Rossi (2003) de ambiguumlidade complementar e ambiguumlidade contrastiva
respectivamente
No primeiro caso trata-se da polissemia que de um modo geral conforme Moura
(2001) ldquoeacute definida como um fenocircmeno que permite associar a um mesmo item lexical mais
de um sentido os quais mantecircm alguma relaccedilatildeo semacircntica entre sirdquo Assim a palavra ldquolivrordquo
por exemplo eacute polissecircmica pois expressa ao menos dois sentidos diferentes que possuem
entre si algum tipo de laccedilo semacircntico (a) objeto fiacutesico e (b) informaccedilatildeo
Jaacute no segundo caso o da ambiguumlidade contrastiva trata-se de homoniacutemia definida
por Pustejovsky como a situaccedilatildeo na qual um item lexical eacute associado com ao menos dois
sentidos diferentes e sem relaccedilatildeo entre si Desse modo a palavra ldquomangardquo por exemplo eacute
uma palavra homocircnima pois natildeo haacute nenhuma relaccedilatildeo semacircntica evidente entre os sentidos de
ldquofrutardquo e ldquoparte da blusardquo
Segundo Rossi (2003 p 14) Ullmann salienta que ldquoeacute difiacutecil em casos particulares
determinar onde termina a polissemia e onde comeccedila a homoniacutemia uma vez que natildeo eacute faacutecil e
nem sempre possiacutevel medir intuitivamente o grau de proximidade dos significadosrdquo
A polissemia loacutegica eacute denominada por Pustejovsky (1991) para restringir a
ambiguumlidade complementar abordada anteriormente nos casos em que ocorre uma relaccedilatildeo
loacutegica portanto previsiacutevel entre os sentidos de uma palavra polissecircmica Havendo mais de um
sentido eacute importante ressaltar que pode existir sobreposiccedilatildeo desses sentidos em um mesmo
contexto
Aleacutem de ter sido tratada como polissemia loacutegica por Pustejovsky segundo Rossi
(2003) desde Weinreich esse fenocircmeno da complementaridade dos sentidos tem sido
abordado como polissemia regular e polissemia sistemaacutetica
A teoria do Leacutexico Gerativo (LG) de Pustejovsky aponta o problema da
multiplicidade de significados das palavras e enfatiza um tratamento relacionado ao problema
da polissemia das palavras Segundo Neto (2003) nessa perspectiva Pustejovsky desenvolveu
o LG que eacute um modelo de processamento de liacutengua natural que trata da explicaccedilatildeo semacircntica
de itens lexicais tanto isolados quanto em contexto
Assim como a gramaacutetica caracteriza o comportamento sintaacutetico especiacutefico de uma
certa categoria de palavras Pustejovsky propotildee uma teoria gerativa do significado da palavra
E ainda pretende mostrar que seu modelo segundo Rossi (2003 p 47) ldquoeacute contraacuterio a
36
estaticidade presente em duas concepccedilotildees semacircnticas teoacutericas das deacutecadas de 60 e 70 as
baseadas em redes conexionistas e as baseadas em primitivos fixos14rdquo
Rossi (2003 p 47) afirma que a teoria de redes conexionistas organiza a semacircntica
das palavras atraveacutes de relaccedilotildees e elos para esta autora isso ldquodificulta a representaccedilatildeo de
sentidos que exibem polissemia regular haja vista a distacircncia na rede entre os sentidos que
mantecircm relaccedilatildeo sistemaacutetica entre sirdquo Por exemplo os sentidos de ldquoobjeto fiacutesicordquo e
ldquoinformaccedilatildeordquo satildeo naturalmente distantes no entanto mantecircm entre si relaccedilatildeo sistemaacutetica no
caso de ldquolivrordquo e de outras palavras
Jaacute no segundo caso o das teorias baseadas em primitivos semacircnticos fixos o leacutexico
eacute tratado como uma lista enumerativa de sentidos Por isso mesmo tais modelos satildeo
denominados por Pustejovsky (1991) de Sense Enumeration Lexicon (SEL) - leacutexico de
enumeraccedilatildeo de sentidos O problema segundo Pustejovsky (1991) eacute que essa caracterizaccedilatildeo
dos possiacuteveis sentidos de uma palavra postulada pelo modelo SEL eacute aplicada tanto para a
ambiguumlidade contrastiva como para a polissemia loacutegica
Fica evidente segundo Rossi (2003) que Pustejovsky se opotildee aos modelos SEL pois
apesar de eles proverem uma enumeraccedilatildeo exaustiva dos sentidos de um item lexical ainda se
mostram limitados natildeo dando conta dos objetivos baacutesicos da teoria semacircntico-lexical ou seja
o uso criativo de palavras a permeabilidade dos significados e as muacuteltiplas formas sintaacuteticas
das expressotildees
O objetivo principal do LG segundo Pustejovsky (1991) eacute prover uma descriccedilatildeo
formal da liacutengua que seja expressiva e flexiacutevel o suficiente para apreender a natureza gerativa
da criatividade lexical e extensatildeo de sentido Caracteriza assim o LG como um sistema
semacircntico de perspectiva loacutegica que envolve quatro niacuteveis de representaccedilatildeo um sistema de
tipos semacircnticos e trecircs tipos de mecanismos gerativos
No decorrer deste capiacutetulo seratildeo especificadas as noccedilotildees teoacutericas baacutesicas do modelo
gerativo de Pustejovsky que estruturam o leacutexico em quatro niacuteveis de representaccedilatildeo
(argumentos eventos qualia e heranccedila) sobre os quais atuam dispositivos gerativos (a
coerccedilatildeo de tipo a co-composiccedilatildeo e a ligaccedilatildeo seletiva)
321 Estruturas do Leacutexico Gerativo
14 Conforme Pustejovsky (1995) a teoria de primitivos fixos eacute defendida por autores como Lakoff (1971) Wilks (1975) Schank (1975) Katz (1977) Jaacute a teoria de redes conexionistas eacute defendida por Carnap (1956) Collins e Quillian (1969) Fodor (1975) Brachman (1979)
37
Para capturar o significado lexical estudou-se as estruturas de Pustejovsky (1991)
que propotildee quatro niacuteveis de representaccedilatildeo estrutura de argumento estrutura de evento
estrutura de qualia e estrutura de heranccedila lexical descritos abaixo
3211 Estrutura de Argumento
Para Pustejovsky (1991) essa estrutura eacute uma especificaccedilatildeo miacutenima que agrupa os
itens lexicais em quatro argumentos
bull verdadeiros ndash paracircmetros do item lexical que tecircm a necessidade de serem expressos
sintaticamente Ex Marta morou em Paris
bull apagados ndash paracircmetros que natildeo tecircm necessidade de serem realizados sintaticamente satildeo
argumentos opcionais Ex Joana coseu uma saia sem linha
bull sombreados ndash paracircmetros que jaacute estatildeo semanticamente presentes no item lexical e soacute
devem ser expressos atraveacutes de operaccedilotildees de subtipo ou especificaccedilatildeo de discurso Ex
Paulo salgou a carne com sal grosso
bull adjuntos verdadeiros ndash paracircmetros que mesmo sendo parte da interpretaccedilatildeo situacional
modificam uma expressatildeo loacutegica sem contudo estarem ligados agrave representaccedilatildeo
semacircntica de algum item lexical especiacutefico Esses paracircmetros introduzem expressotildees
adjuntivas de modificaccedilatildeo temporal ou espacial Ex David dormiu cedo
3212 Estrutura de Evento
Essa estrutura para Pustejovsky (1991) refere-se a organizaccedilatildeo de um conjunto de eventos
no que tange agrave ordenaccedilatildeo temporal de seus subeventos e a designaccedilatildeo de qual deles seraacute
considerado o principal em relaccedilatildeo ao evento matriz
bull Evento de estado ndash aquele cujo(s) argumento(s) natildeo sofre(m) alteraccedilatildeo durante o
intervalo temporal do evento Ex Kaacutetia mora em Florianoacutepolis
bull Evento de processo ndash aquele cujo(s) argumento(s) sofre(m) alteraccedilatildeo de estado ou
indica(m) o iniacutecio de alguma atividade sem uma culminaccedilatildeo precisa Ex Heloisa canta
bem
bull Evento de transiccedilatildeo - aquele cujo(s) argumento(s) sofre(m) alguma accedilatildeo de
temporalidade determinada e resulta(m) em um estado diferente do inicial Ex Tereza fez
uma boneca
38
A estrutura a seguir apresenta os atributos semacircnticos essenciais dos itens lexicais
(como por exemplo a categoria a composiccedilatildeo a funccedilatildeo e a origem) atraveacutes dos papeacuteis
formal constitutivo teacutelico e agentivo Eacute a estrutura principal responsaacutevel pela explicaccedilatildeo da
polissemia loacutegica abordada no texto (Pustejovsky 1991)
3213 Estrutura de Qualia
Devido a sua proximidade com o SN visto que trabalha por conceitos (nomes) esta
estrutura foi utilizada no desenvolvimento do modelo proposto pela pesquisa Trata de um
conjunto formado por quatro qualia que visam guiar o processo de entendimento a respeito de
um objeto ou uma relaccedilatildeo no mundo dando por consequumlecircncia um modo de especificar a
denotaccedilatildeo de tal objeto ou relaccedilatildeo Eacute dividida em quatro papeacuteis os quais satildeo descritos na
sequumlecircncia
a) Quale formal - faz a distinccedilatildeo de determinado item dentro de um domiacutenio maior levando
em consideraccedilatildeo sua
bull orientaccedilatildeo
bull magnitude
bull forma
bull dimensatildeo
bull cor
bull posiccedilatildeo
b) Quale constitutivo - estabelece a relaccedilatildeo entre um objeto e suas partes constituintes ou
proacuteprias a partir das propriedades
bull material
bull peso
bull partes e elementos componentes
Aleacutem disso o quale constitutivo informa tambeacutem de que classe um item eacute parte caso
haja tal relaccedilatildeo ou seja ele informa tanto uma relaccedilatildeo de hiperoniacutemia15 quanto de
meroniacutemia16
15 Hiperoniacutemia ocorre quando o significado de um lexema (palavra) abrange o significado de outro lexema O significado de um eacute mais geneacuterico que o significado de outro Por exemplo ldquoaeronaverdquo eacute um hiperocircnimo de ldquoteco-tecordquo
39
Estas relaccedilotildees satildeo utilizadas na modelagem do protoacutetipo de Gonzalez (2005) Este
protoacutetipo foi pesquisado e apreendido como parte integrante da proposta desta dissertaccedilatildeo e
seraacute descrito na seccedilatildeo 33 do capiacutetulo 3
c) Quale teacutelico - explicita a finalidade e a funccedilatildeo de um objeto
bull Propoacutesito de um agente ao realizar um ato
bull Funccedilatildeo interna ou objetivo que descreve certas atividades
d) Quale agentivo - determina os fatores envolvidos na origem ou causa de um objeto
partindo de consideraccedilotildees sobre
bull criador
bull artefato
bull tipo natural
bull cadeia causal
Figura 11 Representaccedilatildeo da matriz de um item lexical Fonte ROSSI 2003
Figura 12 Matriz superficial da Estrutura de Qualia do item lexical ldquolivrordquo Fonte ROSSI 2003
16 Meroniacutemia ocorre quando o significado de um lexema (palavra) faz parte ou eacute uma porccedilatildeo do significado de outro lexema Por exemplo as palavras ldquocapardquo e ldquofolhasrdquo satildeo merocircnimos de ldquolivrordquo
40
Eacute importante salientar que segundo Neto (2003a) a Estrutura de Qualia natildeo deve ser
considerada apenas como uma lista de fatos interessantes sobre um item lexical e sim como
um conjunto de propriedades que leva a uma explicaccedilatildeo mais clara de tal item
Isto equivale dizer que o objetivo da Estrutura de Qualia eacute abarcar o significado de
uma palavra e explicitar como se relaciona com o uso da liacutengua Assim essa estrutura salienta
a explicaccedilatildeo do uso da criatividade linguumliacutestica contextual natildeo como uma estrutura isolada
mas em conjunto com os mecanismos gerativos que seratildeo apresentados mais adiante
Seguem alguns exemplos da Estrutura de Qualia
Figura 13 Exemplo da Estrutura de Qualia do item lexical ldquoromancerdquo Fonte PUSTEJOVSKY 1991
Figura 14 Exemplo da Estrutura de Qualia do item lexical ldquodicionaacuteriordquo Fonte PUSTEJOVSKY 1991
3214 Estrutura de Heranccedila Lexical
Esta estrutura tambeacutem eacute de fundamental importacircncia porque nesta ocorre a relaccedilatildeo das
qualias ou seja satildeo estruturas lexicais que podem se organizar com outras estruturas em uma
grade de tipo e assim ajudar na organizaccedilatildeo geral do leacutexico Por exemplo na figura abaixo o
LG relaciona ldquodicionaacuteriordquo ldquolivrordquo e ldquopeccedilardquo atraveacutes de suas estruturas de qualia em que se
observa que os trecircs itens lexicais satildeo diferentes entre si no entanto mantecircm relaccedilotildees
semacircnticas
41
Figura 15 Exemplo do LG relacionando ldquodicionaacuteriordquo ldquolivrordquo e peccedila atraveacutes de suas EQ Fonte NETO 2003a
322 Sistema de Tipos Semacircnticos
Um sistema de tipos semacircnticos analisa o comportamento polissecircmico e loacutegico de
nomes implicitamente relacionais como por exemplo porta janela Pustejovsky mostra como
o leacutexico gerativo faz uso de estruturas de aspectos tiacutepicos e afirma que esses nomes tecircm dois
sentidos relacionais (ldquoobjeto fiacutesicordquo e ldquoaberturardquo) que satildeo logicamente parte do significado do
nome Essa habilidade que um item lexical tem de agrupar vaacuterios sentidos eacute chamada
ldquoparadigma leacutexico-conceptual (plc ou lcp)rdquo O plc eacute como um construtor de tipo por exemplo
em palavras como ldquoportardquo e1 significa objeto_fiacutesico e2 abertura e o tipo resultante eacute
ldquoobjeto_fiacutesicoabertura_plc = objeto_fiacutesicoabertura objeto_fiacutesicoaberturardquo
Figura 16 Exemplo de polissemia loacutegica na representaccedilatildeo matricial da palavra ldquolivrordquo Fonte ROSSI 2003
42
Figura 17 Exemplo de polissemia loacutegica na representaccedilatildeo matricial da palavra ldquojornalrdquo Fonte ROSSI 2003
322 Mecanismos gerativos
O Leacutexico Gerativo apresenta ainda um conjunto de trecircs mecanismos que fazem uso
das estruturas ldquoeventordquo ldquoargumentordquo e ldquoqualiardquo os quais satildeo ditos gerativos pois relacionam
diferentes itens lexicais possibilitando a interpretaccedilatildeo composicional de palavras em contexto
3221 Coerccedilatildeo de tipo
Autoriza a mudanccedila de tipo e por extensatildeo de denotaccedilatildeo de nomes e expressotildees de
acordo com o contexto a que pertencem A coerccedilatildeo de tipo reconstroacutei a semacircntica do
complemento e soacute teraacute sucesso se o item lexical em questatildeo tiver um atalho para o tipo
desejado O exemplo claacutessico dado por Pustejovsky eacute ldquoJoatildeo comeccedilou um livrordquo em que o
predicado comeccedilar requer um tipo diferente do apresentado por livro ou seja o verbo requer
um complemento do tipo ldquoeventordquo que natildeo eacute satisfeito por ldquolivrordquo O termo ldquocomeccedilar um
livrordquo eacute interpretado como comeccedilar a ler (ou escrever) um livro
3222 Ligaccedilatildeo seletiva
Rege a relaccedilatildeo semacircntica que um modificador tem com o seu nuacutecleo ou seja ela
trata do problema da polissemia adjetival uma vez que os adjetivos satildeo interpretados a partir
da semacircntica do nuacutecleo Exemplos
(1) Um passeio raacutepido
(2) Um motorista raacutepido
43
(3) Um digitador raacutepido
(4) Um computador raacutepido
O primeiro problema estaacute claramente exemplificado com (1) em oposiccedilatildeo a (2) (3) e
(4) ou seja o primeiro trata de uma adjetivaccedilatildeo sobre um evento e os demais de uma
adjetivaccedilatildeo sobre indiviacuteduos Jaacute para o segundo problema diz-se que a interpretaccedilatildeo do
adjetivo vai ser selecionada por algum dos qualia do nuacutecleo do sintagma nominal ou seja
pela ligaccedilatildeo seletiva Esse mecanismo vai buscar a interpretaccedilatildeo de raacutepido para os exemplos
acima no quale teacutelico dos nuacutecleos
3223 Co-composiccedilatildeo
Os itens lexicais componentes de um determinado sintagma influenciam-se
mutuamente e um complemento pode adicionar um sentido ao seu nuacutecleo Pustejovsky
comeccedila exemplificando esse mecanismo com a polissemia de verbos como o ldquoassarrdquo que
apresenta dois sentidos uma mudanccedila de estado e outra de criaccedilatildeo do objeto Os exemplos
claacutessicos satildeo
(a) Letiacutecia assou as batatas
(b) Letiacutecia assou o bolo
Observa-se que em (1) houve apenas uma mudanccedila de estado pois as batatas jaacute
existiam antes de serem assadas em (2) um sentido de criaccedilatildeo de objeto eacute atribuiacutedo ao verbo
uma vez que antes da assadura o bolo natildeo existia Contudo Pustejovsky (1991) afirma que
ordinariamente soacute haacute um sentido para ldquoassarrdquo o de mudanccedila de estado pois tal verbo tem seu
tipo de evento modificado devido a informaccedilotildees que satildeo trazidas pelo complemento ou seja
essas leituras soacute satildeo possiacuteveis a partir de mecanismo de co-composiccedilatildeo em que os
complementos co-especificam o verbo
Por buscar formalizar a estrutura semacircntica de uma liacutengua o trabalho de Pustejovsky
eacute de grande importacircncia para a aacuterea de recuperaccedilatildeo de informaccedilatildeo Uma tentativa de
implementaccedilatildeo computacional da sua teoria foi realizada por Abrahatildeo (1997) envolvendo a
modelagem e a implementaccedilatildeo de um leacutexico semacircntico para a Liacutengua Portuguesa
Inicialmente este autor realizou um estudo de conceitos baacutesicos relacionados agrave semacircntica
Durante a sua pesquisa foram apresentadas teacutecnicas de representaccedilatildeo do conhecimento e do
significado que auxiliaram a seleccedilatildeo e o entendimento do modelo proposto por Pustejovsky
44
Como subsiacutedio para a implementaccedilatildeo de um leacutexico semacircntico para o portuguecircs
Abrahatildeo (1997) fez um estudo aprofundado da teoria de Pustejovsky onde salienta que os
problemas mais comuns agrave representaccedilatildeo do significado das palavras como ldquoambiguumlidade
lexical polissecircmicardquo por exemplo satildeo solucionados de forma eficiente e computacional
Como o modelo de Pustejovsky eacute voltado ao Inglecircs foram encontradas semelhanccedilas e
diferenccedilas entre a liacutengua origem do modelo e o Portuguecircs Variaccedilotildees verbais - facilita o mapeamento direto os verbos satildeo inseridos numa forma canocircnica (baacutesica ou infinitiva) no leacutexico variaccedilotildees de grau nos substantivos como alternativa de soluccedilatildeo satildeo armazenados em uma forma canocircnica palavras que se comportam como verbo e substantivo palavras que se comportam como adjetivo e substantivo tambeacutem satildeo mapeadas atraveacutes do uso da estrutura de lcps de Pustejovsky mapeamento de expressotildees - expressotildees devem ser inseridas no leacutexico pois expressam um significado especiacutefico substantivos compostos por mais de uma palavra acentuaccedilatildeo ndash itens lexicais do Inglecircs natildeo apresentam acentos Esta caracteriacutestica do Portuguecircs deve ser inserida no leacutexico pois diferencia o significado de suas palavras Deste modo esta informaccedilatildeo foi atribuiacuteda aos registros de informaccedilotildees semacircnticas atraveacutes de uma variaacutevel que conteacutem o tipo e a posiccedilatildeo na palavra em que o acento aparece (ABRAHAtildeO 1997 pgs 78-80)
Abrahatildeo (1997) construiu sua implementaccedilatildeo do leacutexico sobre uma estrutura em
aacutervore Trie17 que proporciona um maior poder de representaccedilatildeo na busca de informaccedilotildees e
baixa quantidade de dados armazenados As informaccedilotildees semacircnticas associadas aos itens
lexicais satildeo armazenadas em listas encadeadas a partir de uma estrutura denominada de
Descritor Semacircntico Um item lexical pertence ao leacutexico semacircntico se este item possui um
Descritor Semacircntico associado ao seu uacuteltimo caractere na aacutervore E ainda um Descritor
Semacircntico abrange os ponteiros essenciais para a busca das informaccedilotildees semacircnticas relativas
ao item lexical
De acordo com este autor as informaccedilotildees semacircnticas associadas aos itens lexicais
seguem o modelo de Pustejovsky (1991) sendo dividida em trecircs estruturas baacutesicas de
argumentos de eventos e de Qualia As estruturas de argumentos e de eventos satildeo
implementadas atraveacutes de uma lista de argumentos e uma lista de eventos A estrutura de
Qualia eacute composta de quatro listas de informaccedilotildees uma para cada papel (formal constitutivo
teacutelico e agentivo)
Segundo este autor todas as estruturas do leacutexico semacircntico foram desenvolvidas em
vetores A manipulaccedilatildeo destes vetores daacute-se sobre estruturas denominadas cabeccedilalhos Estes
cabeccedilalhos fornecem informaccedilotildees sobre a alocaccedilatildeo de vetores em memoacuteria ponteiros para os
vetores de informaccedilatildeo tamanhos dos vetores e os arquivos associados ao sistema O nuacutecleo de
17 Segundo Abrahatildeo (1997) ldquoeacute um tipo especial de estrutura onde cada caractere dos itens lexicais determina um nodo da aacutervorerdquo
45
dados do sistema eacute constituiacutedo de dois cabeccedilalhos cabeccedilalho da aacutervore Trie e o cabeccedilalho das
informaccedilotildees semacircnticas
A biblioteca de funccedilotildees conteacutem os procedimentos necessaacuterios para manutenccedilatildeo do
banco de dados lexical bem como procedimentos de busca de informaccedilotildees semacircnticas
Juntamente com a biblioteca uma interface graacutefica foi construiacuteda possibilitando a manutenccedilatildeo
do banco de dados e facilitando a visualizaccedilatildeo da semacircntica dos itens lexicais Esta interface
graacutefica eacute implementada na linguagem de programaccedilatildeo em C para as estaccedilotildees de trabalho SUN
sobre o sistema de janelas XVIEW18 (ABRAHAtildeO 1997)
Esta seccedilatildeo mostrou a importacircncia da teoria de Pustejovsky e suas possibilidades O
LG eacute fundamental para compreensatildeo semacircntica pois considera o contexto da palavra sendo
capaz de estruturar um domiacutenio especiacutefico atraveacutes da EQ e tambeacutem de identificar dentro de
um domiacutenio quando determinada palavra aparece em tal contexto Pelo desenvolvimento do
trabalho de Abrahatildeo pode-se perceber a dimensatildeo e os elementos necessaacuterios para o
significado de uma palavra reforccedilando-se assim o valor e a viabilidade da teoria de
Pustejovsky
A proacutexima seccedilatildeo apresenta o trabalho de Gonzalez (2005) que estudou Pustejovsky19
e posteriormente desenvolveu sua proacutepria concepccedilatildeo de uma estrutura de RI (toda
automatizada)
33 O Modelo TR+ de Gonzalez
O modelo TR+ eacute considerado um modelo para RI que utiliza duas fases para o
desenvolvimento de sua estrutura fase de indexaccedilatildeo e fase de busca
18 XVIEW ldquoeacute um sistema de janela orientado a objeto que permite ao programador criar e utilizar objetos tais como janelas textos paineacuteis iacutecones entre outros para construir uma aplicaccedilatildeo Seus objetos satildeo predefinidos e satildeo ricos em funcionalidade o que permite que o coacutedigo necessaacuterio para manipular essas janelas seja pequeno simples e muito faacutecil de se compreenderrdquo (ABRAHAtildeO 1997 p 86) 19 Realizou um trabalho individual no doutorado denominado ldquoO Leacutexico Gerativo de Pustejovsky sob o enfoque da Recuperaccedilatildeo de Informaccedilotildeesrdquo de 2000a
46
Indexaccedilatildeo de textos segundo Baeza-Yates e Ribeiro-Neto (1999) e Gonzalez (2005)
eacute o processo que estipula descritores20 dos conteuacutedos dos textos de uma coleccedilatildeo de
documentos com objetivo de busca e classificaccedilatildeo dos mesmos para atender consultas em
sistemas de RI Descritores podem descrever conceitos atocircmicos sendo lsquotermosrsquo ou conceitos
complexos sendo lsquorelacionamentosrsquo O conjunto de descritores concebido na indexaccedilatildeo
favorece uma visatildeo loacutegica dos documentos com o propoacutesito de unir esses descritores termos
e relacionamentos a conceitos presentes nos textos dos documentos
Para os relacionamentos este autor classifica trecircs tipos explicando-os atraveacutes do
exemplo ldquo tecircm preocupado os pesquisadoresrdquo O primeiro tipo eacute o par modificado-
modificador como lsquopesquisador-preocupadorsquo O segundo eacute o bigrama (preocupado
pesquisador) e o terceiro eacute o Sintagma Nominal que para ele significa lsquopesquisador
preocupadorsquo e que para a pesquisa de Gonzalez ficaria na sua forma natural lsquopreocupado os
pesquisadoresrsquo O autor ainda cita que haacute outros formatos de relacionamentos como a
expressatildeo ternaacuteria (preocupaccedilatildeo-de-pesquisador) e a relaccedilatildeo binaacuteria
(preocupaccedilatildeopesquisador)
Gonzalez (2005) aponta dois tipos de relacionamentos como problemas os bigramas
por natildeo poderem descrever o conceito (ldquoferro sopardquo para ldquopanela de ferro com sopardquo) e os
termos com palavras comuns mas coadjuvantes importantes (ldquosentar bancordquo e ldquodepositar
bancordquo) os sintagmas nominais que para o autor representam tanto o conceito atocircmico quanto
o complexo (ldquonoiterdquo e ldquoboca da noiterdquo) Eacute importante perceber que a partir dessas
caracteriacutesticas e aspectos acima definidos Gonzalez (2005) propocircs um novo modelo de
espaccedilo de descritores (uniatildeo do conjunto de termos com o conjunto de relacionamentos) Este
novo modelo surgiu a partir de outros cinco modelos de descritores jaacute existentes
1 Unigrama conjunto de termos natildeo relacionados
2 N-grama (NG) conjunto de relacionamentos estatiacutesticos
3 Termo-Termo (TT) conjunto de termos relacionados estatiacutestica ou
sintaticamente
4 Termo-Relacionamento (TR) conjunto de termos e relacionamentos sintaacuteticos
20 A palavra descritores eacute usada para se tratar dos termos e relacionamentos enquanto os iacutendices se referem apenas aos termos O descritor lsquotermorsquo significa uma unidade lexical formada por uma uacutenica palavra ou por mais de uma denominada de lsquotermo compostorsquo E o descritor lsquorelacionamentorsquo ocorre entre termos ou seja satildeo relaccedilotildees de construccedilotildees sintaticamente diferentes que tecircm o mesmo significado (semacircntica) Exemplo lsquodefesa eficientersquo eacute igual a lsquodefender eficientementersquo e lsquofeira de domingorsquo eacute igual a lsquofeira dominicalrsquo Alguns autores como Baeza-Yates e Ribeiro-Neto (1999) utilizam a palavra lsquoiacutendicersquo ao inveacutes de descritores contudo Gonzalez ressalta que esta palavra refere-se apenas aos lsquotermosrsquo natildeo dando conta da semacircntica que envolve os lsquorelacionamentosrsquo
47
5 Relacionamento-Termo (RT) conjunto de relacionamentos sintaacuteticos e seus
componentes ldquoOs Sintagmas Nominais constituem os principais descritores neste
casordquo (GONZALEZ 2005 p41)
O modelo TR+ proposto por este autor combina aspectos dos modelos TR e RT
A Figura 18 daacute uma visatildeo geral do modelo TR+ de Gonzalez (2005) na fase de
indexaccedilatildeo com suas etapas essenciais e na fase de busca para a classificaccedilatildeo por relevacircncia
dos documentos em relaccedilatildeo agrave consulta
g
f
e
da a
b b
c
Figura 18 Visatildeo Geral do modelo TR+ Fonte Gonzalez 2005
O espaccedilo de descritores do modelo TR+ construiacutedo na fase de indexaccedilatildeo eacute com
de quatro processos principais
a) Preacute-processamento (toquenizaccedilatildeo e etiquetagem)
b) Nominalizaccedilatildeo
c) Captura de RLBs
d) Termos e RLBs
Na etapa ldquoardquo de preacute-processamento ocorrem duas accedilotildees fundamentais Toquen
e Etiquetagem A toquenizaccedilatildeo eacute a identificaccedilatildeo de cada item lexical (palavra e pontu
Na etiquetagem existe um etiquetador gramatical (part-of-speech tagger - parser
identifica atraveacutes de uma etiqueta (tag) a categoria gramatical de cada palavra do
(adjetivo substantivo verbo entre outras) Geralmente eacute morfoloacutegico (identifica som
c
posto
izaccedilatildeo
accedilatildeo)
) que
texto
ente a
48
categoria morfoloacutegica) ou morfossintaacutetico (identifica tambeacutem as funccedilotildees sintaacuteticas) Estes
processos satildeo realizados de forma automatizada21
Antes da nominalizaccedilatildeo eacute realizada a geraccedilatildeo de espaccedilo dos descritores que se
constitui na seleccedilatildeo e normalizaccedilatildeo dos descritores e ainda a contagem de frequumlecircncia de
ocorrecircncia dos descritores - termos (para o caacutelculo de seus pesos) que seraacute usada na etapa
ldquodrdquo
Faz parte do processo de seleccedilatildeo de descritores a eliminaccedilatildeo de stopwords22 que
podem ser descartadas na fase de indexaccedilatildeo e na consulta Essa exclusatildeo justifica-se segundo
o autor porque as stopwords satildeo consideradas palavras com pouca representatividade A
seleccedilatildeo dos descritores a quantidade dos mesmos e o peso de cada um podem ser afetados
pela normalizaccedilatildeo linguumliacutestica
A normalizaccedilatildeo segundo Gonzalez (2005) apresenta trecircs tipos conhecidos como
bull Sintaacutetica - que transforma frases semanticamente equivalentes mas
sintaticamente diferentes (ldquoeficiente processo raacutepidordquo e ldquoprocesso raacutepido
eficienterdquo)
bull Leacutexico-semacircntico ndash que utiliza relacionamentos semacircnticos (como a sinoniacutemia)
para substituir palavras morfologicamente distintas por uma uacutenica forma que
representa o conceito evidenciado
bull Morfoloacutegica ndash reduz as formas flexionais de uma palavra por meio da
conflaccedilatildeo23
No modelo TR+ foi utilizada a normalizaccedilatildeo lexical para o processo de
nominalizaccedilatildeo Este processo de nominalizaccedilatildeo constitui a etapa ldquobrdquo e significa a
transformaccedilatildeo de uma palavra (adveacuterbio adjetivo ou verbo) existente no texto em um
substantivo semanticamente equivalente constituiacutedo com regras vaacutelidas de formaccedilatildeo de
palavras (GONZALEZ 2005)
A tabela abaixo mostra exemplos de termos nominalizados Nesta etapa de
nominalizaccedilatildeo eacute utilizada a ferramenta CHAMA24
21 A ferramenta FORMA (Toquenizaccedilatildeo e Etiquetagem Morfoloacutegica) foi utilizada por Gonzalez O autor cita o nome desta ferramenta no seu site httpwwwinfpucrsbr~gonzaleztr+ Acesso em 14 de fevereiro de 2006 22 Stopwords satildeo palavras como preposiccedilotildees artigos e conjunccedilotildees 23 Conflaccedilatildeo satildeo processos realizados por algoritmos que combinam a representaccedilatildeo de duas ou mais palavras em um uacutenico termo Haacute dois meacutetodos mais comuns stemming que reduz a palavra para a parte fundamental semelhante ao radical e lematizaccedilatildeo que reduz a palavra variaacutevel agrave correspondente forma ldquocanocircnicardquo 24 A ferramenta CHAMA (nominalizaccedilatildeo de adjetivos verbos e adveacuterbios) foi desenvolvida por Marco Antonio Insaurriaga Gonzalez (doutor em Ciecircncia da Computaccedilatildeo pela UFRGS) Em sua tese de doutorado intitulada ldquoTermos e Relacionamentos em Evidecircncia na Recuperaccedilatildeo de Informaccedilatildeordquo 2005
49
Tabela 1 Exemplos de nominalizaccedilatildeo Fonte Gonzalez 2005
Devido agraves diferentes variaccedilotildees que a nossa Liacutengua Portuguesa apresenta este autor
trabalha em seu modelo com palavras sem acentuaccedilatildeo e em letras minuacutesculas ocorrendo um
comprometimento do significado das palavras como por exemplo eacute citado por ele puacuteblica e
publica
A etapa ldquocrdquo de captura de Relaccedilotildees Lexicais Binaacuterias (RLBs) eacute segundo Gonzalez
(2005) o relacionamento entre termos nominalizados ou seja sintaticamente diferentes mas
semanticamente iguais25 Uma RLB pode ser classificada tambeacutem quanto agrave nominalizaccedilatildeo de
seus componentes Este autor sistematiza e classifica esta questatildeo conforme aparece em seus
exemplos abaixo (2005 p 47)
bull Original onde o termo natildeo recebeu o processo de nominalizaccedilatildeo
bull Derivada onde um dos termos pelo menos resulta do processo de
nominalizaccedilatildeo
Uma RLB de acordo com Gonzalez (2005) apresenta a seguinte aparecircncia
25 Gonzalez desenvolveu o software RELLEX para o reconhecimento de relaccedilotildees lexicais binaacuterias em sua tese de doutorado 2005
50
id (t1t2) onde
id significa o identificador de relaccedilatildeo e
t1 e t2 satildeo os termos nominalizados
Este autor aponta os trecircs tipos de RLBs quanto ao identificador id
bull Classificaccedilatildeo onde id eacute especificado com um sinal de igual (=) t1 representa
uma subclasse ou uma instacircncia de t2 e t2 representa uma classe
Exemplos =(caoanimal)
=(PET garrafa) Exemplo desenvolvido nesta dissertaccedilatildeo
bull Restriccedilatildeo onde id eacute uma preposiccedilatildeo t1 representa um elemento modificado e t2
representa um elemento modificador
Exemplos de(equipeatletismo)
com(supervisorexperiencia)
por(orientacaoministro)
bull Associaccedilatildeo onde id representa um evento t1 eacute um sujeito e t2 eacute um objeto
(direto ou indireto) ou um adjunto
Exemplos superacao(alunodificuldade)
interessea(propostanegociante)
moradiaem(presidentebrasilia)
As Relaccedilotildees Lexicais Binaacuterias conforme Gonzalez (2005) satildeo inseridas no espaccedilo
de descritores para ampliar o seu universo As RLBs descrevem relaccedilotildees semacircnticas lexicais
como as que satildeo apresentadas na estrutura de Qualia da teoria do Leacutexico Gerativo de
Pustejovsky (GONZALEZ 2000 PUSTEJOVSKY 1991) O estudo desta teoria motivou o
Gonzalez a desenvolver a proposta das RLBs como parte integrante de seu trabalho como um
modo de adequaacute-la a aplicaccedilotildees na aacuterea de RI
Como jaacute foi descrita na seccedilatildeo 32 a Estrutura de Qualia da teoria do Leacutexico
Gerativo descreve um item lexical atraveacutes de quatro papeacuteis formal constitutivo agentivo e
teacutelico O papel formal distingue um item lexical em um domiacutenio maior Em uma RLB
segundo Gonzalez (2005) do tipo classificaccedilatildeo como ldquo=(computadormaquina)rdquo por
exemplo o computador seria distinguido como uma maacutequina ou em ldquo=(ipmftributo)rdquo o ipmf
seria um tributo Portanto a RLB do tipo classificaccedilatildeo corresponde ao papel formal da
estrutura de Qualia
51
O papel constitutivo estabelece a relaccedilatildeo entre um item lexical X e suas partes
constituintes Em uma RLB do tipo restriccedilatildeo como ldquode(mesamadeira)rdquo por exemplo haveria
a indicaccedilatildeo de que a mesa eacute feita de madeira ou em ldquocom(massaalho)rdquo de que haacute alho na
massa O papel agentivo especifica os fatores envolvidos na origem ou causa de um item
lexical Em uma RLB para este autor do tipo restriccedilatildeo como ldquopor(publicacaoautor)rdquo por
exemplo seria especificado que a publicaccedilatildeo se deve ao autor ou em ldquopor(impedimentolei)rdquo
que a lei eacute a razatildeo do impedimento
O papel teacutelico explica qual a funccedilatildeo ou finalidade do item lexical Em uma RLB do
tipo associaccedilatildeo como ldquoconserto(encanadorvazamento)rdquo por exemplo explica que a funccedilatildeo
do encanador eacute o conserto do vazamento ou em uma RLB do tipo restriccedilatildeo como
ldquopara(leituraaprendizado)rdquo que a finalidade da leitura eacute o aprendizado (GONZALEZ 2005)
Este autor salienta que natildeo se quer que as RLBs ldquointerpretemrdquo o texto com
distinccedilotildees indicaccedilotildees especificaccedilotildees ou explicaccedilotildees dos tipos apresentados O propoacutesito eacute de
que as RLBs sejam descritores de tais fatos mas sem classificaccedilatildeo (etiquetas) Por isto os
identificadores de relaccedilatildeo natildeo satildeo rotulados com os papeacuteis descritos A uacutenica exceccedilatildeo eacute o
identificador das RLBs do tipo classificaccedilatildeo O indicador ldquo=rdquo eacute o roacutetulo inevitaacutevel para o
claacutessico ldquoeacute umrdquo porque natildeo haacute outro papel possiacutevel nesse tipo de relaccedilatildeo
No modelo TR+ estaacute envolvido aleacutem da coleccedilatildeo de documentos constituiacuteda por
descritores (termos e relacionamentos) tambeacutem os seus respectivos pesos que dependem de
uma formulaccedilatildeo matemaacutetica denominada de lsquocaacutelculo de representatividadersquo dos descritores
em cada documento que eacute um diferencial deste modelo e estaacute na fase ldquodrdquo onde os termos e
RLBs seratildeo armazenados
Para ocorrer o caacutelculo do peso dos descritores eacute aplicado o conceito de evidecircncia26
Este conceito natildeo depende apenas da frequumlecircncia de ocorrecircncia de um descritor mas de um
outro mecanismo ldquoa representatividade de um descritor depende aleacutem de sua frequumlecircncia de
ocorrecircncia no texto da ocorrecircncia de mecanismos de coesatildeo fraacutesicardquo (GONZALEZ 2005
p48) A coesatildeo fraacutesica determina uma junccedilatildeo significativa entre os componentes de uma
frase27 Esta junccedilatildeo aliada com a frequumlecircncia de ocorrecircncia constitui o conceito de evidecircncia
como um dos aspectos essenciais da Tese de Gonzalez (2005)
A evidecircncia dos termos eacute realizada de forma direta com a frequumlecircncia e a coesatildeo
fraacutesica mas a evidecircncia de um relacionamento natildeo pois esta eacute dependente primeiramente das
26 Evidecircncia significa qualidade daquilo que eacute evidente que eacute incontestaacutevel que todos vecircem ou podem ver e verificar (Dicionaacuterio Eletrocircnico Michaelis) Como descreve Gonzalez (2005) ldquoeacute aquilo natildeo oferece ou natildeo daacute margem agrave duacutevidardquo 27 Site httpacdufrjbr~peadtema09coesaogramaticalhtml
52
evidecircncias de seus termos Este conceito estaacute inserido no caacutelculo de representatividade de um
descritor
O caacutelculo da representatividade eacute um caacutelculo de relevacircncia do termo ou
relacionamento que varia de acordo com as abordagens (booleana vetorial e probabiliacutestica) e
pode ser realizado apenas com a frequumlecircncia da palavra no documento ou ainda com a
frequumlecircncia vinculada com a sua informaccedilatildeo morfoloacutegica ou sintaacutetica (GONZALEZ 2005)
Para realizar o caacutelculo da representatividade dos descritores haacute duas estrateacutegias de
determinaccedilatildeo que satildeo os modelos com unigramas que tratam os termos de forma
independente (abordagens vetorial e probabiliacutestica) e os modelos com dependecircncia entre
termos Estas dependecircncias envolvem conjuntos diferentes de conhecimentos que satildeo os
estatiacutesticos e os linguumliacutesticos28 Os conhecimentos linguumliacutesticos satildeo ldquoleacutexico morfoloacutegico
fonoloacutegico sintaacutetico semacircntico e pragmaacuteticordquo (ABRAHAtildeO 1997 p11)
Estes dois modelos descritos acima satildeo apresentados como mais significativos
poreacutem ainda utilizam a abordagem booleana Isto porque Gonzalez (2005) define como o
caminho mais promissor a combinaccedilatildeo da abordagem booleana (individualmente limitadora)
com a uniatildeo dos conhecimentos estatiacutesticos e linguumliacutesticos entre si que permitem mais
interaccedilatildeo com o usuaacuterio
O caacutelculo da representatividade ao mesmo tempo que eacute uma propriedade baacutesica de
um descritor apresenta diferentes formas de acordo com as abordagens vetorial e
probabiliacutestica (capiacutetulo 2) e gera diversas interpretaccedilotildees Por isto Gonzalez (2005) propotildee um
novo caacutelculo que compreenda a importacircncia do contexto nas foacutermulas inseridas no seu modelo
TR+
O outro momento de seu modelo (Figura 18) compreende a lsquofase de buscarsquo que inclui
Preacute-Processamento (toquenizaccedilatildeo e etiquetagem) Nominalizaccedilatildeo e Captura de RLBs Estas
etapas ocorrem da mesma maneira que na fase de indexaccedilatildeo Inclui tambeacutem as etapas
Formulaccedilatildeo de consulta booleana Busca e Classificaccedilatildeo
Na etapa ldquoerdquo (Formulaccedilatildeo de Consulta Booleana) Gonzalez (2005) explica que se a
consulta q em linguagem natural formulada pelo usuaacuterio for por exemplo ldquopintura
restauradardquo entatildeo seraacute formulada no formato Booleano conforme o modelo TR+ a seguinte
consulta qb
28 Estes conhecimentos envolvem niacuteveis leacutexico-morfoloacutegico e sintaacutetico sintagmas nominais (sujeito objeto direto e indireto e adjunto adnominal) A vantagem destes eacute a capacidade de identificar relacionamentos entre palavras natildeo adjacentes como ldquoalgoritmosrdquo e ldquoconcorrentesrdquo em ldquoalgoritmos sequumlenciais e concorrentesrdquo
53
r1 OU r2 OU ( (n1 (p1) OU n2(p1) ) E (n1 (p2) OU n2(p2) ) ) onde
r1 = de(restauracaopintura)
r2 = r1rsquo = diferente_de(restauracaopintura)
n1(p1) = (elemento vazio)
n2(p1) = pintura
n1(p2) = restauracao
n2(p2) = restaurador
p1 = pintura e
p2 = restaurada
Tabela 2 Exemplo de uma consulta qb Fonte Gonzalez 2005 p 51
Na fase de busca a etapa ldquofrdquo ocorre uma relaccedilatildeo entre a etapa ldquoerdquo e a etapa ldquodrdquo Esta
uacuteltima acontece ainda na fase de indexaccedilatildeo visto que ldquoestando os termos e as RLBs definidas
e calculados os pesos a classificaccedilatildeo dos documentos depende do valor de relevacircncia dos
mesmos e da formulaccedilatildeo Booleana da consultardquo (GONZALEZ 2005 p 50)
A etapa ldquogrdquo (Classificaccedilatildeo) eacute resultado de um caacutelculo sobre os dados obtidos no
procedimento anterior que identifica o valor de relevacircncia de cada documento recuperado-os
em ordem decrescente Um exemplo de classificaccedilatildeo eacute indicado por Gonzalez (2005) atraveacutes
da foacutermula de uma consulta denominada q Nesta consulta encontram-se os termos t1 e t2 e a
RLB r e se estes dois termos estatildeo relacionados atraveacutes de r em um documento d estes teratildeo
dupla contribuiccedilatildeo no caacutelculo do valor de relevacircncia de d poreacutem se t1 e t2 ocorrem em d mas
natildeo estatildeo relacionados atraveacutes de r o autor considera que esta contribuiccedilatildeo seraacute simples e
assim d tende a perder posiccedilotildees na classificaccedilatildeo por relevacircncia a q
Os documentos recuperados classificam-se em dois grupos (a) grupo superior de maior relevacircncia documentos que atendem agraves condiccedilotildees estabelecidas na consulta Booleana ou seja possuem pelo menos uma das RLBs da consulta ou na falta de todas elas possuem obrigatoriamente todos os termos conforme especificado (b) grupo inferior de menor relevacircncia documentos que natildeo atendem a todas as condiccedilotildees estabelecidas na consulta Booleana mas possuem pelo menos um dos termos da consulta Os documentos satildeo classificados em ordem decrescente do valor de relevacircncia tanto nos grupos superior como inferior (GONZALEZ 2005 p 51)
Eacute importante ressaltar que toda a proposta de Gonzalez (Modelo TR+) foi
automatizada testada e aprovada Foi utilizado o software FORMA para a etapa de preacute-
processamento e os demais softwares como CHAMA (nominalizaccedilatildeo) e RELLEX (regras de
54
identificaccedilatildeo de RLBs) foram desenvolvidos pelo autor Diversos algoritmos juntamente com
abordagens de RI (booleana probabiliacutestica e vetorial) foram desenvolvidos para as fases
posteriores do seu trabalho como o caacutelculo do peso dos descritores a busca e a classificaccedilatildeo
de documentos
As experimentaccedilotildees desenvolvidas por Gonzalez (2005) em seu trabalho lograram
comprovar que o processo de nominalizaccedilatildeo como processo de normalizaccedilatildeo lexical
proporciona melhores resultados de recuperaccedilatildeo que os produzidos pelos processos
tradicionais (lematizaccedilatildeo e stemming) a identificaccedilatildeo de RLBs (obtenccedilatildeo de informaccedilatildeo
linguumliacutestica) contribui de forma positiva para a descriccedilatildeo de dependecircncias de termos
ampliando o espaccedilo de descritores o caacutelculo da representatividade dos descritores baseado em
evidecircncia melhora a classificaccedilatildeo de relevacircncia dos documentos com vantagem sobre o
caacutelculo baseado em frequumlecircncia de ocorrecircncia o uso de consultas com operadores Booleanos
trata-se de uma forma eficaz de complementar a especificaccedilatildeo de dependecircncias de termos e
tambeacutem a inclusatildeo de conhecimento linguumliacutestico como a realizada no modelo proposto pelo
autor apresenta relaccedilatildeo custobenefiacutecio viaacutevel dentro do atual estaacutegio de desenvolvimento da
pesquisa em RI
O proacuteximo capiacutetulo descreve o novo modelo proposto para esta dissertaccedilatildeo baseado
na identificaccedilatildeo das possibilidades de ampliaccedilatildeo de siacutentese e de sistematizaccedilatildeo do modelo de
Kuramoto com a estrutura de Gonzalez Pode ser considerada uma soluccedilatildeo hiacutebrida de um
modelo de RI que une trecircs teorias Sintagmas Nominais de Kuramoto Leacutexico Gerativo de
Pustejovsky e Modelo TR+ de Gonzalez Apresentar-se-aacute os paracircmetros gerais norteadores e
justificadores do modelo a descriccedilatildeo narrativa da sua funcionalidade os resultados dos testes
e a descriccedilatildeo formal UML do modelo
55
4 APRESENTACcedilAtildeO E DISCUSSAtildeO DO MODELO PROPOSTO
A proposta desta dissertaccedilatildeo eacute de integrar a aplicaccedilatildeo praacutetica do projeto dos
Sintagmas Nominais de Kuramoto sistematizando e associando com o modelo TR+ de
Gonzalez (2005)
Na descriccedilatildeo do modelo do sistema proposto foi utilizado o meacutetodo denominado de
Processo Unificado (UP) que envolve as fases de concepccedilatildeo elaboraccedilatildeo construccedilatildeo e
transiccedilatildeo e utilizou-se a Linguagem de Modelagem Unificada (UML) que eacute fortemente
relacionada com a metodologia utilizada segundo Wazlawick (2004)
Neste capiacutetulo desenvolve-se o modelo conceitual da aplicaccedilatildeo proposta para a qual
foram realizadas as etapas de levantamento e anaacutelise de requisitos representada pelo
diagrama e pela descriccedilatildeo dos casos de uso e de construccedilatildeo dos diagramas de classes e de
sequumlecircncia relacionados
41 Procedimentos desenvolvidos utilizando o modelo de SN de Kuramoto e a proposta
Gonzalez - ldquoEstrutura SINTR+rdquo
Esta dissertaccedilatildeo optou por realizar uma relaccedilatildeo entre propostas diferenciadas utilizar
o modelo de SN de Kuramoto para a organizaccedilatildeo dos conceitos mais significativos dos
documentos e a proposta de Gonzalez para a busca dessas informaccedilotildees que estaratildeo
estruturadas atraveacutes da dependecircncia entre termos Esta relaccedilatildeo foi desenvolvida na criaccedilatildeo da
ldquoEstrutura SINTR+rdquo que tem como especificidade a busca nos documentos a partir do banco
de dados dos Sintagmas Nominais Esta escolha de unir em uma estrutura proacutepria os SN e o
Modelo TR+ pautou-se pelo intuito de orientar mais objetivamente o usuaacuterio na definiccedilatildeo da
sua query de busca atraveacutes de uma navegaccedilatildeo sobre a estrutura de SN presentes no
documento e de posterior apresentaccedilatildeo de lista de documentos efetivamente relevantes
O objetivo eacute trabalhar com os Sintagmas Nominais evidenciando e potencializando
uma uniatildeo com o modelo TR+ de Gonzalez (2005) O modelo abaixo (Figura 19) apresenta
uma nova proposta pautada na junccedilatildeo sistematizada e analiacutetica da extraccedilatildeo dos SN na
Estrutura de Kuramoto (1999) com o Modelo TR+ de Gonzalez (2005) ldquoEstrutura SINTR+rdquo
56
Documentos
Extraccedilatildeo de SN
Preacute-processamento
Nominalizaccedilatildeo
4
Captura de RLBs
Referecircncia aos
documentos classificados
Classificaccedilatildeo
Lista de SN de Niacutevel Requerido
Lista dos demais Preacute-
3
2
85
3
2
1
Consulta em
LN
7
6
(Fase d
O mo
extraccedilatildeo de tod
o preacute-processam
de acontecer co
de forma mais
foco de anaacutelise
subsequumlentes
Antes
descritores con
frequumlecircncia de o
Etapa 5
Em se
mudanccedila de um
concreto eou a
Te
R
e indexaccedilatildeo)
Figura
delo propost
os os seus Si
ento onde o
m todas as p
objetiva e raacute
somente so
do processo d
stituiacuteda na s
correcircncia dos
guida ocorre
a palavra (ad
bstrato Na E
rmos e
LBs
Busca
Formulaccedilatildeo de consulta Booleana
11
(Fase
19 Visatildeo Geral do Modelo Proposto ldquoEstr
o se inicia a partir dos document
ntagmas Nominais (Etapa 1) Extra
correm a Toquenizaccedilatildeo e a Etiquet
alavras do documento como ocorr
pida apenas diretamente sobre os
bre os termos inclusos nos SN pe
e nominalizaccedilatildeo na Etapa 3 eacute exec
eleccedilatildeo e normalizaccedilatildeo dos descrit
descritores - termos (para o caacutelculo
o processo de nominalizaccedilatildeo que c
veacuterbio adjetivo ou verbo) existen
tapa 4 ocorre a identificaccedilatildeo das
niacuteveis de SN processamento
Nomin
Captura
9
de busca)
utura SINTR+rdquo
os a serem inse
iacutedos os SN na E
agem que Essa e
e no modelo TR
termos constant
rmanece para to
utada a geraccedilatildeo
ores e ainda na
de seus pesos)
onstitui a Etapa
te nos SN em u
RLBs nos SN q
alizaccedilatildeo
de RLBs 0
ridos com a
tapa 2 eacute feito
tapa ao inveacutes
+ eacute realizada
es nos SN O
das as etapas
de espaccedilo dos
contagem da
a ser usada na
3 e significa a
m substantivo
ue significa o
1
1
1
57
relacionamento entre termos nominalizados Estas etapas acima satildeo constituiacutedas para a
geraccedilatildeo do espaccedilo de descritores (termos e RLBs) referentes agrave Etapa 5
Na lsquofase de buscarsquo primeiramente o usuaacuterio digita uma palavra por exemplo
ldquoplaacutesticosrdquo A resposta para o usuaacuterio ocorreraacute pois internamente foi feita uma programaccedilatildeo
(a ser implementada) para identificar o niacutevel do SN solicitado pelo usuaacuterio para que
posteriormente apareccedila para este a lista de todos os SN do niacutevel apresentado contendo a query
solicitada
No caso do exemplo ldquoplaacutesticosrdquo o processo avanccedila na Etapa 6 listando todos os
sintagmas nominais de primeiro niacutevel (SN1) dos documentos (uma vez que a solicitaccedilatildeo
referia-se ao niacutevel 1) Nesta etapa o usuaacuterio poderaacute escolher um dos sintagmas de primeiro
niacutevel ou confirmar a sua escolha (query) inicial O processo continua com a escolha de uma
dentre as opccedilotildees de i) ver a lista de documentos relacionados ao SN1 definido ou ii) solicitar
a relaccedilatildeo de sintagmas de seu segundo niacutevel A visualizaccedilatildeo da lista de sintagmas de niacutevel
superior permitiria ao usuaacuterio filtrar mais a sua consulta Para a determinaccedilatildeo da lista de SN
de segundo niacutevel como por exemplo ldquoa reciclagem de plaacutesticosrdquo ldquoa induacutestria de plaacutesticosrdquo
(Figura 20) tambeacutem foi feita uma programaccedilatildeo especiacutefica que seraacute descrita posteriormente
Na continuidade do processo o usuaacuterio pode prosseguir o refinamento da sua busca
atraveacutes da seleccedilatildeo de SN de maior niacutevel ou pode dar-se por satisfeito com o resultado (Etapa
7) solicitando diretamente a lista dos documentos associados ao SN definidos Nesse caso a
lista eacute apresentada na ordem de classificaccedilatildeo oportunizada pela Estrutura TR+ conforme o
descrito nas proacuteximas etapas
O processamento proposto para a determinaccedilatildeo da relaccedilatildeo dos sintagmas de um
determinado niacutevel foi pensado com vista a gerar economia de espaccedilo de memoacuteria utilizada
uma vez que seratildeo armazenados na base de dados os documentos e seus SN de uacuteltimos niacuteveis
e manipulados apenas os uacuteltimos niacuteveis da estrutura de SN Os niacuteveis anteriores relativos ao
SN seratildeo determinados na programaccedilatildeo desenvolvida a partir da identificaccedilatildeo do nuacutemero de
preposiccedilotildees que o SN apresenta Nesta programaccedilatildeo se houver apenas um termo (ou mesmo
apenas um termo composto) o SN eacute considerado um SN de 1ordm niacutevel A presenccedila de um termo
composto com mais uma preposiccedilatildeo indica a existecircncia de um SN de 2ordm niacutevel Jaacute trecircs termos
com duas preposiccedilotildees vatildeo indicar a presenccedila de um SN de 3ordm niacutevel e finalizando quatro ou
mais termos com 3 (ou mais) preposiccedilotildees remetem ao SN de 4ordm niacutevel
Ao optar pela apresentaccedilatildeo da lista de documentos seratildeo desenvolvidas
(internamente) na programaccedilatildeo conforme o proposto pela Estrutura TR+ de Gonzalez as
etapas de Preacute-processamento (toquenizaccedilatildeo e etiquetagem ndash Etapa 8) Nominalizaccedilatildeo (Etapa
58
9) Captura de RLBs (Etapa 10) Formulaccedilatildeo de consulta Booleana (Etapa 11) Busca (Etapa
12) e por fim Classificaccedilatildeo (Etapa 13)
Na Etapa 11 eacute trabalhado no formato Booleano uma consulta formulada pelo usuaacuterio
conforme o modelo TR+ A Etapa 12 ocorre uma relaccedilatildeo entre a Etapa 11 e a Etapa 5 (esta
etapa ocorre ainda na fase de indexaccedilatildeo) A Etapa 13 eacute a uacuteltima e resulta do caacutelculo que
identifica o valor de relevacircncia de cada documento recuperando-os em ordem decrescente
Eacute importante reforccedilar que o sistema iraacute verificar o preacute-processamento nominalizaccedilatildeo
e a captura de RLBs jaacute realizadas na fase de indexaccedilatildeo comparando-as Apoacutes esta
identificaccedilatildeo o sistema usa a formulaccedilatildeo de consulta Booleana para a busca chegando agrave
classificaccedilatildeo dos documentos de acordo com o peso dos descritores (termos e RLBs)
formulados na fase de indexaccedilatildeo e definidos na fase de busca (de acordo com o termo
escolhido e a coleccedilatildeo dos documentos)
Exemplificando o paraacutegrafo acima a Figura 20 mostra o funcionamento inicial desta
estrutura no que se refere aos Sintagmas Nominais
Pesquisa
Usuaacuterio escolha uma opccedilatildeo (Sintagma Nominal) que mais se identifique com a sua consulta Logo em seguida escolha se deseja ir para o Proacuteximo Niacutevel de Sintagma Nominal ou Estrutura TR+
Buscar (SN) Plaacutesticos
SN1 Os plaacutesticos
Proacuteximo niacutevel SN Estrutura TR+
SN2 A reciclagem de plaacutesticos A separaccedilatildeo de plaacutesticos A induacutestria de plaacutesticos
Proacuteximo niacutevel SN Estrutura TR+
SN3 A induacutestria de reciclagem de plaacutesticos
Estrutura TR+ Proacuteximo niacutevel SN
SN4 -----
Estrutura TR+
Figura 20 Descriccedilatildeo inicial do modelo proposto
59
Buscando analisar as vantagens que a proposta do modelo SINTR+ apresenta vale
lembrar que o modelo TR+ de Gonzalez jaacute apresenta benefiacutecios como
bull O processo de nominalizaccedilatildeo propicia melhores resultados de recuperaccedilatildeo do que
os produzidos pelos processos tradicionais (lematizaccedilatildeo e stemming)
bull A identificaccedilatildeo de RLBs colabora para a descriccedilatildeo de dependecircncia de termos que
ampliam o espaccedilo de descritores
bull O caacutelculo da representatividade dos descritores baseado em evidecircncia melhora a
classificaccedilatildeo da relevacircncia de documentos em relaccedilatildeo agravequela obtida atraveacutes da
extraccedilatildeo e do caacutelculo por frequumlecircncia de ocorrecircncia
bull O uso de consultas com operadores Booleanos oferece uma forma eficaz de
complementar a especificaccedilatildeo de co-dependecircncia semacircntica entre termos
As vantagens antevistas na elaboraccedilatildeo da proposta SINTR+ expandem as jaacute obtidas
pelo modelo de Gonzalez29 pois une a elas a vantagem do modelo de hierarquia de niacuteveis de
SN de Kuramoto Estas vantagens satildeo a ldquoEstrutura SINTR+rdquo executa em um menor tempo na
fase de indexaccedilatildeo dos documentos a ldquoEstrutura SINTR+rdquo conteacutem um tamanho menor de
arquivos de iacutendice e a ldquoEstrutura SINTR+rdquo proporciona facilidade na fase de nominalizaccedilatildeo
visto que os SN satildeo o nuacutecleo de maior significaccedilatildeo de um texto30
Os documentos (textos) usados como campo empiacuterico desta dissertaccedilatildeo foram artigos
retirados da Internet sobre o tema ldquoLixordquo Neste contexto fazem parte da coleccedilatildeo de
documentos temas como ldquoCuidados com o Lixordquo ldquoLixo Industrialrdquo ldquoO destino do lixo
quiacutemicordquo entre outros Como ainda natildeo havia disponiacuteveis extratores automaacuteticos de SN por
hierarquia em niacuteveis foi feita uma leitura dos textos dos quais se retirou manualmente seus
sintagmas Os SN significativos com o tema ldquoLixordquo foram extraiacutedos de dois (2) documentos
(que estatildeo nos ANEXOS A e B) e satildeo apresentados no Anexo C
Apoacutes esta etapa foram extraiacutedos todos os sintagmas nominais (somente do
documento1 - ANEXO A) que estatildeo sublinhados no texto independentes do tema para
exemplificar a extraccedilatildeo da consulta
Para avaliar preliminarmente a extensatildeo com que as vantagens antevistas no modelo
proposto realmente se verificariam foi realizado um teste com o documento1 (ANEXO A)
composto de 9 paraacutegrafos e 1006 palavras (Figura 21)
29 Este modelo foi testado e aprovado na sua proposta de doutorado que estaacute inserida no contexto do grupo de pesquisa da PUCRS no qual o autor participa de estudos na aacuterea haacute mais de uma deacutecada 30 Isto pode ser observado do Anexo A (Documento1) em que os SN satildeo destacados no texto
60
Figura 21 Nuacutemero de palavras do Documento1
O documento1 (ANEXO A) foi o escolhido para dimensionar a reduccedilatildeo no total de
palavrastermos a serem incluiacutedos na base de dados demonstrando a importacircncia do modelo
apresentado conforme tabela abaixo
Categorias Texto Total SNs Total de palavrastermos 1006 640
Substantivos 369 334 Adveacuterbios 41 04
Verbos 133 Ausecircncia de verbos Adjetivos 73 55
Figura 22 Tabela comparativa Texto Total e SNs
O texto possui um total de 1006 palavrastermos sendo destes 369 substantivos 41
adveacuterbios 133 verbos e 73 adjetivos (Figura 22) Do texto todo foi extraiacutedo um total de 139
sintagmas nominais E destes o nuacutemero total de palavrastermos eacute de 640 sendo 334
substantivos 04 adveacuterbios e 55 adjetivos
61
Documento1 - Cresce a induacutestria de reciclagem de plaacutesticos
369
41
133
7355
nordm de substantivos
nordm de adveacuterbios
nordm de verbos
nordm de adjetivos
nordm de adjetivosinseridos nos SN
Figura 22 Nuacutemero de substantivos adveacuterbios verbos e adjetivos do Documento1
Relacionando o nuacutemero de adjetivos do texto todo e os adjetivos inseridos nos SN
pode-se notar um ganho expressivo pois se tem uma reduccedilatildeo de 18 adjetivos Destes dados
133 verbos foram descartados (novamente afirma-se da importacircncia dos SN que representam a
unidade significativa do texto) Tambeacutem se observa que 37 adveacuterbios natildeo foram incluiacutedos
diminuindo assim o nuacutemero de descritores
Estes dados apontam aspectos positivos que consolidam a importacircncia da utilizaccedilatildeo
dos SN na diminuiccedilatildeo de descritores com consequumlente reduccedilatildeo do uso de memoacuteria e ainda
melhora na fase de busca pelo tempo de resposta
A Figura 23 apresenta o comparativo entre o percentual do nuacutemero de palavras do
texto com o percentual do nuacutemero de palavras dos Sintagmas Nominais Isto mostra que o
percentual de SN de 64 tem um valor reduzido colaborando para um nuacutemero menor de
descritores desta forma restringe-se tambeacutem o uso de memoacuteria (neste caso ocupado na fase
de indexaccedilatildeo) reduzem-se os descritores e diminui-se o tempo de resposta na fase de busca
Estes dados natildeo satildeo somente relevantes frente a um modelo de RI mas corroboram para a
manutenccedilatildeo do seu funcionamento
62
Dados Comparativos - Nordm de palavras restantes e dos SNs
64
36 Nordm de palavras dossintagmas nominaisNordm de palavras restantes
100 - nordm total de palavras
Figura 23 Nuacutemero de palavras restantes x Sintagmas Nominais
A Figura 24 mostra que existe um percentual de 28 de adjetivos inseridos nos
Sintagmas Nominais Esses adjetivos durante o processo de nominalizaccedilatildeo conforme
Gonzalez (2005) satildeo transformados em substantivos concretos eou abstratos (se houver) Isto
aponta um nuacutemero bem inferior comparado a um texto inteiro o que promove uma diminuiccedilatildeo
de substituiccedilotildees de um adjetivo por um substantivo concreto eou abstrato que pode inferir
no significado do documento e a reduccedilatildeo destas substituiccedilotildees evita possiacuteveis erros de
interpretaccedilatildeo
Dados Comparativos - Sintagmas Nominais e adjetivos
72
28nordm de sintagmas nominais
nordm de adjetivos inseridosnos SN
Figura 24 Sintagmas Nominais e adjetivos inseridos nos SN
A extraccedilatildeo dos Sintagmas Nominais corresponde agrave primeira etapa Depois desta
extraccedilatildeo manual se agrupou os SN em quatro niacuteveis 1 2 3 e 4 (ANEXO C)
Para o desenvolvimento das demais etapas (toquenizaccedilatildeo etiquetagem morfoloacutegica
nominalizaccedilatildeo e as relaccedilotildees lexicais binaacuterias) foi escolhido o paraacutegrafo 6 do documento1
(ANEXO A)
63
A induacutestria da reciclagem do plaacutestico no Brasil tem crescido bastante em funccedilatildeo do reaproveitamento do PET que eacute usado no segmento de monofilamentos em artigos como vassouras e na induacutestria tecircxtil Conforme Ana Flores a reciclagem gera 250 mil empregos no Paiacutes dos quais 70 satildeo informais Poreacutem a maior parte do potencial de mercado ainda estaacute sendo desperdiccedilada avalia ldquoCerca de 15 do total de plaacutestico que eacute industrializado no Paiacutes eacute reciclado Em dez anos poderiacuteamos chegar a 60 como nos Estados Unidos desde que fosse implementado um conjunto de medidas incentivando essa praacuteticardquo assegura
Tabela 3 Paraacutegrafo 6 do documento1
Na etapa de toquenizaccedilatildeo e etiquetagem satildeo identificadas classes de palavras como
substantivos adjetivos adveacuterbios preposiccedilotildees artigos conjunccedilotildees e inclusive ponto No
Anexo D eacute possiacutevel visualizar essas informaccedilotildees em duas ferramentas de extraccedilatildeo
disponiacuteveis nos sites do Projeto de Linguumliacutestica Computacional Hermes da Fundaccedilatildeo
Universidade Federal do Rio Grande (FURGBrasil) e do Programa de LAEL da PUC-SP -
Programa de Estudos Poacutes-Graduados em Linguumliacutestica Aplicada e Estudos da Linguagem da
Pontifiacutecia Universidade Catoacutelica de Satildeo Paulo31
A partir desta identificaccedilatildeo adjetivos adveacuterbios e verbos satildeo transformados em
substantivos (concreto eou abstrato) quando for possiacutevel Ou ateacute mesmo o adjetivo seja o
mesmo nome (grafia) para substantivos Esse processo de nominalizaccedilatildeo no trabalho de
Gonzalez (2005) foi realizado atraveacutes da ferramenta CHAMA desenvolvida por ele mesmo
Apoacutes o processo de nominalizaccedilatildeo satildeo identificadas as RLBs (Relaccedilotildees Lexicais
Binaacuterias) conforme descrito nesta seccedilatildeo Gonzalez (2005) desenvolveu tambeacutem a ferramenta
RELLEX para identificaccedilatildeo das RLBs Para o caso do teste optou-se por fazer manualmente32
(ANEXO E) devido agrave indisponibilidade destas duas ferramentas Esta etapa tem uma
importacircncia muito grande onde satildeo reconhecidos os relacionamentos das palavras no texto
atraveacutes de identificadores A tabela 4 mostra as RLBs identificadas do paraacutegrafo 6 do
documento1 (ANEXO A) de forma manual
RLBs classificaccedilatildeo =(textil industria)
RLBS restriccedilotildees
de (industria reciclagem) de (reciclagem plastico)
de (reaproveitamento PET) de (segmento monofilamento) de (mercado potencialidade)
de (plastico totalidade) de (conjunto medida)
Tabela 4 RLBs identificadas no paraacutegrafo 6 do documento1
31 As paacuteginas disponiacuteveis satildeo hermessourceforgenethermeswebhtml e httpwww2laelpucspbrcorporaetiquetagemindexhtml32 Dicionaacuterios consultados MICHAELIS Dicionaacuterio Eletrocircnico Acesso em mar de 2006 e FERREIRA Aureacutelio Buarque de Holanda Novo Aureacutelio Seacuteculo XXI o dicionaacuterio da liacutengua portuguesa 1999
64
42 Descriccedilatildeo Formal do Modelo Proposto SINTR+
Os Sintagmas Nominais de Kuramoto em conjunto com as abordagens utilizadas no
modelo TR+ de Gonzalez promovem a utilizaccedilatildeo de conceitos orientados a objetos (OO)
porque eacute considerada a melhor metodologia para projeto de software permite uma
organizaccedilatildeo aprimorada do coacutedigo tem uma proximidade com a UML (Linguagem de
Modelagem Unificada) proporciona uma facilidade de manutenccedilatildeo do coacutedigo apresenta
menor grau de replicaccedilatildeo do coacutedigo e possibilita uma aplicaccedilatildeo em camadas o MVC33 um
padratildeo de projeto atraveacutes da Linguagem Orientada a Objetos Para compreender estes
conceitos e o desenvolvimento da modelagem proposta ressaltaram-se alguns aspectos baacutesicos
de seus fundamentos
A Linguagem UML segundo Larman (2000) expressa a modelagem de sistemas e
utiliza os conceitos orientados a objetos Como na aplicaccedilatildeo proposta trabalhar-se-aacute
especificamente apenas nas etapas de anaacutelise e projeto considera-se importante o uso da
linguagem UML por ser esta uma linguagem poderosa para expressar de modo claro e preciso
o processo de geraccedilatildeo de projetos de software Para Wazlawick (2004) esta linguagem daacute
suporte a que esse processo gere uma estrutura faacutecil de ser compreendida Para o autor isto
ocorre quando se utiliza um software autodocumentado e de faacutecil entendimento tanto em niacutevel
macro quanto em detalhes
Este autor define que o Processo Unificado (UP) estaacute associado agrave notaccedilatildeo UML e
indica que suas fases satildeo concepccedilatildeo elaboraccedilatildeo construccedilatildeo e transiccedilatildeo Conforme
Wazlawick (2004) eacute na primeira fase que se faz o levantamento dos principais requisitos e
compreende-se o sistema de forma abrangente A fase de elaboraccedilatildeo eacute constituiacuteda de anaacutelise e
projeto e a fase de construccedilatildeo corresponde agrave implementaccedilatildeo e testes
A anaacutelise de requisitos ainda segundo este autor (2004 p 24) ldquoestaacute associada ao
processo de descobrir quais satildeo as operaccedilotildees que o sistema deve realizar e quais satildeo as
restriccedilotildees que existem sobre elasrdquo Jaacute a anaacutelise de domiacutenio ldquoestaacute relacionada agrave descoberta das
informaccedilotildees gerenciadas pelo sistema ou seja agrave representaccedilatildeo e transformaccedilatildeo da
informaccedilatildeordquo (2004 p 26)
No caso de um sistema de informaccedilotildees sobre uma instituiccedilatildeo de ensino (Moacutedulo
controle de alunos) por exemplo possivelmente a anaacutelise de requisitos permitiria descobrir
que o sistema deveria controlar a data o curso e a turma em que o aluno foi matriculado o
iniacutecio e teacutermino do curso calcular automaticamente os pagamentos gerar relatoacuterios de
65
contrato especificando as claacuteusulas legais de direito e dever do aluno na Instituiccedilatildeo etc Essas
operaccedilotildees satildeo chamadas de ldquorequisitos funcionaisrdquo
Haacute tambeacutem relacionados a um sistema em construccedilatildeo os requisitos natildeo funcionais
que dizem respeito agrave operaccedilatildeo e agrave usabilidade do sistema Um exemplo de requisito natildeo-
funcional seria a necessidade de fazer a matriacutecula via Internet Essa eacute uma restriccedilatildeo de
operaccedilatildeo Um outro exemplo seria uma central de acidentes de tracircnsito onde o registro de um
dado acidente devesse ser feito em no maacuteximo 10 segundos o que demandaria um
processamento e uma interface bastante eficiente constituindo-se esse em um requisito de
usabilidade
Para as etapas de levantamento e anaacutelise de requisitos costuma ser utilizado o
diagrama de casos de uso Segundo Guedes (2004) esse diagrama possibilita a compreensatildeo
do comportamento externo do sistema por qualquer pessoa Entendem-se aqui casos de uso
segundo Larman (2000) como um documento narrativo que descreve a sequumlecircncia de eventos
(accedilotildees) de um ator (um agente externo) que usa um sistema para completar um processo e
descreve tambeacutem as respostas do sistema Pode se dizer que caso de uso eacute um cenaacuterio com
atores e ambientes Criam-se as cenas e as narrativas das mesmas ajudando a entender o que
se quer do sistema O interessante dos casos de uso eacute que os mesmos permitem que o projeto
seja construiacutedo de forma participativa por um grupo de pessoas uma vez que sua descriccedilatildeo se
daacute em uma linguagem textual e diagramaacutetica
A partir dos casos de uso eacute possiacutevel construir o modelo conceitual Conforme Larman
(2000 p 99) ldquoo modelo conceitual ilustra os conceitos significativos em um domiacutenio de
problemardquo Para Wazlawick (2004 p 102) ldquoo modelo conceitual deve descrever a
informaccedilatildeo que o sistema vai gerenciar trata-se de um artefato do domiacutenio do problema e
natildeo do domiacutenio da soluccedilatildeordquo
Eacute importante ressaltar que o modelo conceitual representa somente o aspecto estaacutetico
da informaccedilatildeo Os elementos que representam informaccedilatildeo satildeo conceitos (representados por
classes) atributos (informaccedilotildees alfanumeacutericas ligadas diretamente aos conceitos) e
associaccedilotildees (tipo de informaccedilatildeo que liga diferentes conceitos entre si)
O diagrama de casos de uso do sistema proposto foi desenvolvido no software JUDE
Community Ferramenta de Modelagem UML Um software freeware muito utilizado para a
criaccedilatildeo deste tipo de diagramas Neste software podem tambeacutem ser desenvolvidos os outros
tipos de diagramas do UML tais como de classes sequumlecircncia colaboraccedilatildeo graacuteficos de
estados
33 A sigla significa Model View e Controller
66
Os casos de uso identificados para esta aplicaccedilatildeo foram descritos em duas situaccedilotildees
A primeira eacute referente agrave pesquisa do usuaacuterio e a segunda ao gerenciamento e operaccedilatildeo do
banco de dados (BD) no niacutevel de administrador Para descobrir estes casos de uso foi
necessaacuterio primeiramente identificar os atores envolvidos com o sistema (usuaacuterio e
administrador) E na sequumlecircncia a cada grande processo reconhecido correspondeu a um caso
de uso do sistema
As Figuras 25 e 26 satildeo diagramas na UML que representam casos de uso e seus
atores As elipses significam casos de uso e os bonecos representam atores Para cada uma das
situaccedilotildees (pesquisa e gerenciamento de operaccedilatildeo do BD no niacutevel de administrador) foram
identificados os seguintes casos de uso
Figura 25 Diagrama de casos de uso da UML do sistema proposto ndash Pesquisa do Usuaacuterio
67
Figura 26 Diagrama de casos de uso da UML do sistema proposto ndash Gerenciamento e Operaccedilatildeo do BD no
niacutevel de administrador
Deve-se lembrar que na proposta deste trabalho para economia de espaccedilo de
memoacuteria foram sistematizados dois momentos o 1ordm em um armazenamento na base de dados
do documento apenas para a lista final do usuaacuterio e outro com os Sintagmas Nominais que
seratildeo armazenados na base de dados no 4ordm ou no uacuteltimo niacutevel apresentado (Figura 19) Os
niacuteveis anteriores relativos ao SN seratildeo procurados por uma programaccedilatildeo desenvolvida
relacionada diretamente com os Sintagmas Com isto natildeo haveraacute necessidade de acesso agrave
memoacuteria da base de documentos em todas as accedilotildees e esta serviraacute somente na uacuteltima escolha
do usuaacuterio tendo um ganho significativo quanto agrave rapidez de acesso aos dados da base e a natildeo
existecircncia de duplicaccedilatildeo de dados
Os casos de uso costumam ser documentados conforme Guedes (2004) por meio de
uma linguagem bastante simples fornecendo a funccedilatildeo em linhas gerais dos casos de uso
quais atores interagem com os mesmos quais etapas devem ser executadas pelo ator e pelo
sistema quais paracircmetros devem ser fornecidos e quais restriccedilotildees o caso de uso deve possuir
As Tabelas abaixo (5 a 15) apresentam as descriccedilotildees dos casos de uso do sistema proposto
referente ao gerenciamento e operaccedilatildeo do BD no niacutevel de administrador
68
Nome do Caso de Uso Inserir novo documento Caso de Uso Geral natildeo possui Ator Principal Administrador Atores secundaacuterios natildeo possui Resumo Permite ao administrador do sistema inserir arquivos na base de dados de documentos iniciando o processo de alimentaccedilatildeo de todas as demais bases de dados Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema 1) Anexar um documento 2) Verificar se documento jaacute natildeo existe na base de dados 3) Inserir o documento Restriccedilotildeesvalidaccedilotildees Apenas documentos vaacutelidos34 deveratildeo ser aceitos
Tabela 5 Descriccedilatildeo do caso de uso ndash Inserir novo documento Nome do Caso de Uso Alimentar base de dados (Documentos) Caso de Uso Geral natildeo possui Ator Principal natildeo possui Atores secundaacuterios natildeo possui Resumo Armazenar em meio fiacutesico e com seguranccedila os documentos inseridos pelo Administrador atraveacutes do sistema Preacute-condiccedilotildees Administrador anexa um documento vaacutelido Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema 1) Armazenar em base de dados os documentos anexados Restriccedilotildeesvalidaccedilotildees natildeo possui
Tabela 6 Descriccedilatildeo do caso de uso ndash Alimentar base de dados (Documentos) Nome do Caso de Uso Extrair SN de 4ordm ou uacuteltimo niacutevel Caso de Uso Geral natildeo possui Ator Principal natildeo possui Atores secundaacuterios natildeo possui Resumo Extrair do documento inserido na base de dados todos os sintagmas nominais de 4ordm ou uacuteltimo niacutevel
Preacute-condiccedilotildees o documento estar devidamente validado e inserido na base de dados Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema
1) realizar a anaacutelise do documento inserido extraindo todos os sintagmas nominais de 4ordm ou uacuteltimo niacutevel enviando informaccedilotildees para alimentaccedilatildeo de base de dados de sintagmas
Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 7 Descriccedilatildeo do caso de uso ndash Extrair SN de 4ordm ou uacuteltimo niacutevel
34 Documentos vaacutelidos satildeo considerados aqui apenas os documentos em formato de texto (como doc txt)
69
As accedilotildees do sistema da tabela 7 seguem as regras estabelecidas na seccedilatildeo 41 da paacutegina 66 Nome do Caso de Uso Tratar regras verbais Caso de Uso Geral natildeo possui Ator Principal natildeo possui Atores secundaacuterios natildeo possui Resumo Realizar o tratamento de regras verbais dos sintagmas nominais de 4ordm ou uacuteltimo niacutevel extraiacutedos do documento Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema
1) aplicar rotinas de tratamento de regras verbais e palavras no infinitivo
Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 8 Descriccedilatildeo do caso de uso ndash Tratar regras verbais
Nome do Caso de Uso Extrair SN de niacuteveis 3 2 e 1 (niacuteveis anteriores) Caso de Uso Geral natildeo possui Ator Principal natildeo possui Atores secundaacuterios natildeo possui Resumo Aplicar regras de extraccedilatildeo de sintagmas de niacuteveis 3 2 e 1 (niacuteveis anteriores) Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema
1) Definir o niacutevel apropriado de cada sintagma a partir do 4ordm ou uacuteltimo niacutevel enviando informaccedilatildeo para o usuaacuterio
Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 9 Descriccedilatildeo do caso de uso ndash Extrair SN de niacuteveis 3 2 e 1 (niacuteveis anteriores)
A tabela 9 segue a mesma regra da tabela 7
Nome do Caso de Uso Alimentar base de dados (Sintagmas) Caso de Uso Geral natildeo possui Ator Principal natildeo possui Atores secundaacuterios natildeo possui Resumo Persistir as informaccedilotildees extraiacutedas nos casos de uso ldquoExtrair SN de 4ordm ou uacuteltimo niacutevelrdquo Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema
1) Armazenar na base de dados o 4ordm ou uacuteltimo niacutevel de sintagma extraiacutedo do documento inserido
Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 10 Descriccedilatildeo do caso de uso ndash Alimentar base de dados (Sintagmas)
70
Nome do Caso de Uso Toquenizar e etiquetar Caso de Uso Geral natildeo possui Ator Principal Software Forma Atores secundaacuterios natildeo possui Resumo Submeter os sintagmas extraiacutedos ao software Forma Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema
1) Aplicar o conceito de Toquenizaccedilatildeo e Etiquetagem dos sintagmas extraiacutedos e armazenados em base de dados
Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 11 Descriccedilatildeo do caso de uso ndash Toquenizar e etiquetar
Nome do Caso de Uso Nominalizar Caso de Uso Geral natildeo possui Ator Principal Software Chama Atores secundaacuterios natildeo possui Resumo Submeter as informaccedilotildees resultantes do processo de Toquenizaccedilatildeo e Etiquetagem ao software Chama Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema
1) Aplicar o conceito de Nominalizaccedilatildeo das informaccedilotildees do documento
Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 12 Descriccedilatildeo do caso de uso ndash Nominalizar
Nome do Caso de Uso Capturar RLBs Caso de Uso Geral natildeo possui Ator Principal Software Rellex Atores secundaacuterios natildeo possui Resumo Submeter as informaccedilotildees resultantes do processo de Nominalizaccedilatildeo ao software Rellex Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema
1) Realizar o processo de captura de RLBs a partir das informaccedilotildees extraiacutedas do documento
Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 13 Descriccedilatildeo do caso de uso ndash Capturar RLBs
71
Nome do Caso de Uso Calcular peso dos descritores Caso de Uso Geral natildeo possui Ator Principal Software Peso dos Descritores Atores secundaacuterios natildeo possui Resumo Submeter as informaccedilotildees resultantes do processo de Captura de RLBs ao software Peso de Descritores Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema
1) Calcular o peso dos descritores ao resultado obtido atraveacutes da captura de RLBs do documento
Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 14 Descriccedilatildeo do caso de uso ndash Calcular peso dos descritores
Nome do Caso de Uso Alimentar base de dados (Termos e RLBs) Caso de Uso Geral natildeo possui Ator Principal natildeo possui Atores secundaacuterios natildeo possui Resumo Persistir as informaccedilotildees obtidas nos casos de uso ldquoNominalizarrdquo ldquoCapturar RLBsrdquo e ldquoCalcular peso dos descritoresrdquo na base de dados de Termos e RLBs Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema
1) Armazenar as informaccedilotildees relativas aos Termos e RLBs extraiacutedos do documento em base de dados
Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 15 Descriccedilatildeo do caso de uso ndash Alimentar base de dados (Termos e RLBs)
Apoacutes a identificaccedilatildeo dos casos de uso e suas descriccedilotildees partiu-se para o modelo
conceitual da aplicaccedilatildeo proposta
72
Figura 27 Modelo Conceitual do sistema proposto
O diagrama de classes segundo Guedes (2004) eacute considerado o mais importante e o
mais utilizado diagrama da UML Eacute o diagrama de classes que permite a visualizaccedilatildeo das
classes que iratildeo compor o sistema com os seus respectivos atributos e meacutetodos Demonstra
como as classes se relacionam complementam e transmitem informaccedilotildees entre si Pode-se
dizer que esse diagrama serve ainda como base para a construccedilatildeo de outros diagramas da
linguagem UML
A Figura 28 apresenta o diagrama de classes do modelo proposto referente agrave Pesquisa
do usuaacuterio
Foi construiacutedo um diagrama de classes (Pesquisa de Usuaacuterio) seguindo estas
definiccedilotildeesaccedilotildees
Paacutegina de Consulta refere-se a uma paacutegina HTML de pesquisa (ou seja uma
linguagem para Web) ou tambeacutem a uma interface graacutefica (GUI) para computador
desktop (cliente)
Controlador da Paacutegina conteacutem a loacutegica de negoacutecio da aplicaccedilatildeo
Classe Sintagma bean responsaacutevel por instanciar e classificar sintagmas de
diferentes niacuteveis usa o meacutetodo setSintagma para receber informaccedilotildees vindas da
paacutegina passando pelo controlador
Classe ListaSintagma cria instacircncia de array de Sintagma associando-os a
instacircncias de Documento Realiza a busca e classificaccedilatildeo destes retornando ao
controlador e posteriormente agrave paacutegina atraveacutes do meacutetodo getDocumentos
73
Classe Documento instacircncia de Documento armazenado em base de dados de
documentos
Figura 28 Diagrama de classes do sistema proposto ndash Pesquisa de Usuaacuterio
A Figura 29 apresenta o diagrama de classes do modelo proposto referente ao
Gerenciamento e Operaccedilatildeo do BD no niacutevel de administrador
Foi construiacutedo um segundo diagrama de classes seguindo estas definiccedilotildeesaccedilotildees
Paacutegina de Consulta refere-se a uma paacutegina HTML de inclusatildeo de documentos
Controlador da Paacutegina conteacutem a loacutegica de negoacutecio da aplicaccedilatildeo
Classe DocumentoBase bean responsaacutevel por instanciar um objeto que iraacute conter
o documento a inserir bem como realizar os processos de toquenizaccedilatildeo e
etiquetagem (trocando mensagens com o software FORMA) nominalizaccedilatildeo
(trocando mensagens com o software CHAMA) gerando termos e RLBs
(trocando mensagens com o software RELLEX) e por fim inserindo as
informaccedilotildees nas bases de dados
Classes Termo e RLB indicam as instacircncias de objetos termos e RLBs e deveratildeo
ser modeladas conforme especificaccedilatildeo do software RELLEX
74
Figura 29 Diagrama de classes do sistema proposto ndash Gerenciamento e Operaccedilatildeo do BD no niacutevel de
administrador
O diagrama de sequumlecircncia segundo Guedes (2004) procura determinar a sequumlecircncia de
eventos que ocorrem em um determinado processo isto eacute quais meacutetodos devem ser disparados
entre os objetos envolvidos quais condiccedilotildees devem ser satisfeitas e em que ordem durante o
processo especiacutefico Foram construiacutedos os diagramas de sequumlecircncia abaixo (Figuras 30 e 31) da
aplicaccedilatildeo proposta
75
Figura 30 Diagrama de Sequumlecircncia do sistema proposto ndash Pesquisa de Usuaacuterio
76
Figura 31 Diagrama de Sequumlecircncia do sistema proposto ndash Gerenciamento e Operaccedilatildeo do BD no niacutevel de administrador
Na elaboraccedilatildeo dos diagramas e descriccedilotildees dos casos de uso e dos diagramas de
classes e de sequumlecircncia observou-se a importacircncia do modelo conceitual porque permitiu
orientar as etapas de desenvolvimento do modelo proposto Visto que no modelo conceitual
foram criados conceitos atributos e associaccedilotildees referentes agrave particularidade da pesquisa que
puderam ser utilizados para a construccedilatildeo das etapas dos diagramas
77
5 CONCLUSAtildeO
Neste capiacutetulo apresentam-se as consideraccedilotildees finais incluindo os aspectos relativos
agraves dificuldades aos progressos e limitaccedilotildees encontradas durante o desenvolvimento da
pesquisa bem como as sugestotildees para a continuidade deste trabalho
O objetivo geral que norteou este trabalho levou ao estudo dos modelos de busca e ao
desenvolvimento de uma proposta para a melhoria dos processos de recuperaccedilatildeo de
informaccedilotildees
Centrando-se no tema Recuperaccedilatildeo de Informaccedilatildeo foram analisados os modelos de
Kuramoto (1999) e posteriormente de Gonzalez (2005) O modelo de Kuramoto baseado
em uma estrutura hieraacuterquica de sintagmas nominais possibilita ao usuaacuterio definir melhor a
sua query de busca A Estrutura de Qualia do Leacutexico Gerativo de Pustejovsky contribuiu para
o entendimento das relaccedilotildees e da estrutura de construccedilatildeo de significado entre as palavras
permitindo o tratamento de questotildees semacircnticas como a polissemia loacutegica A proposta de
Gonzalez apropriando-se dos resultados de Pustejovsky evidencia caracteriacutesticas
morfoloacutegicas e relaccedilotildees de coesatildeo importantes na descriccedilatildeo de conceitos presentes em um
texto propiciando que um texto possa computacionalmente significar mais do que uma
sequumlecircncia de palavras
Buscou-se uma siacutentese dessas propostas identificando as possibilidades de ampliaccedilatildeo
do modelo de Kuramoto pela junccedilatildeo da teoria do Leacutexico Gerativo de Pustejovsky utilizadas
nesta dissertaccedilatildeo a partir do modelo de Gonzalez que se manteve adequado devido ao fato de
que o autor apresenta processos para as fases de indexaccedilatildeo busca e classificaccedilatildeo de RI Os
termos e relacionamentos inseridos na base de dados do modelo TR+ de Gonzalez estatildeo
implicitamente relacionados com a Estrutura de Qualia do LG
O novo modelo SINTR+ aleacutem do suporte ao usuaacuterio envolve a anaacutelise a
sistematizaccedilatildeo e a ampliaccedilatildeo do modelo de Kuramoto com a utilizaccedilatildeo da estrutura TR+ de
Gonzalez (2005) para a melhoria e a otimizaccedilatildeo do processo de seleccedilatildeo dos documentos
recuperados em uma busca
O estudo e a descriccedilatildeo do modelo em UML permitiu por ser uma linguagem
poderosa expressar de modo mais claro e preciso o modelo SINTR+ Foi construiacuteda a anaacutelise
de domiacutenio do sistema desejado incluindo o desenvolvimento de diagramas de casos de uso
bem como suas descriccedilotildees do modelo conceitual de diagramas de classes e de sequumlecircncia As
78
fases de anaacutelise e projeto desenvolvidas para a aplicaccedilatildeo proposta datildeo suporte agrave continuidade
do seu desenvolvimento
O novo modelo desenvolvido foi projetado como um sistema de recuperaccedilatildeo de
informaccedilatildeo (SRI) aplicaacutevel a bases de dados natildeo distribuiacutedas abrangendo a um determinado
domiacutenio de aplicaccedilatildeo a sua adequaccedilatildeo e expansatildeo para uso na Web constitui-se em uma
importante linha de continuidade de pesquisa
A principal contribuiccedilatildeo deste trabalho estaacute na sistematizaccedilatildeo e siacutentese das teorias de
Kuramoto com Gonzalez indicando o uso dessas teorias como uma nova alternativa para a
melhoria da busca de recuperaccedilatildeo de informaccedilotildees Os modelos de recuperaccedilatildeo simplesmente
buscavam as informaccedilotildees solicitadas pelo usuaacuterio O novo modelo proposto SINTR+ baseia-
se na interaccedilatildeo entre o usuaacuterio e a maacutequina atraveacutes de Sintagmas Nominais por niacuteveis e
tambeacutem nas relaccedilotildees das palavras conforme o modelo de Gonzalez
Com este trabalho natildeo se pretendeu desenvolver uma implementaccedilatildeo completa do
modelo construiacutedo Mas o trabalho conseguiu mostrar a exequumlibilidade desta implementaccedilatildeo
computacional descrevendo os diagramas e as descriccedilotildees dos casos de uso e a sua modelagem
conceitual culminando com a construccedilatildeo dos diagramas de classes e de sequumlecircncia A proacutexima
etapa que permitiria detalhar as potencialidades e limitaccedilotildees do modelo de forma ampla
poderia se constituir em amplos estudos de casos onde se determinaria a complexidade
computacional da implementaccedilatildeo requerida
Os dados apresentados no capiacutetulo 4 jaacute indicam aspectos positivos que consolidam a
importacircncia da utilizaccedilatildeo dos Sintagmas Nominais na diminuiccedilatildeo de descritores para
manipulaccedilatildeo com um ganho bastante significativo porque os iacutendices possuem informaccedilotildees
relevantes dos documentos (conceitos significativos de uma sentenccedila) e com isto agiliza-se a
pesquisa na base de dados Quer-se crer aqui e um estudo mais amplo poderia determinar que
essa reduccedilatildeo de descritores natildeo deve ter nenhum impacto na qualidade da busca realizada
Outro aspecto significativo eacute a reduccedilatildeo do uso de memoacuteria tanto na fase de indexaccedilatildeo
como na de busca tornando mais raacutepido o processo interno
Outro aspecto positivo se refere agrave melhoria de desempenho como um todo pois
quanto menor o traacutefego em uma rede menos informaccedilotildees o servidor vai processar e estaraacute
mais disponiacutevel E quanto melhor for o processo de indexaccedilatildeo menos memoacuteria o servidor vai
utilizar E com isto o tempo de resposta na fase de busca diminui e o resultado qualitativo da
pesquisa se amplia
79
Uma outra vantagem eacute que no modelo SINTR+ seratildeo armazenados na base de dados
os documentos e seus SN de uacuteltimos niacuteveis e manipulados apenas os uacuteltimos niacuteveis da
estrutura de SN Seraacute soacute atraveacutes de uma programaccedilatildeo que seratildeo classificados por niacuteveis
diminuindo assim o volume duplicado de dados na manipulaccedilatildeo
Os diagramas construiacutedos referentes ao gerenciamento e operaccedilatildeo do BD no niacutevel do
administrador satildeo fundamentais para o entendimento do funcionamento e da manutenccedilatildeo do
banco de dados facilitando processos como a inserccedilatildeo de novos documentos e outras accedilotildees
contribuindo tambeacutem para o diferencial deste trabalho
80
6 REFEREcircNCIAS BIBLIOGRAacuteFICAS
ABRAHAtildeO Paulo Ricardo Carneiro Modelagem e Implementaccedilatildeo de um Leacutexico Semacircntico para o Portuguecircs Dissertaccedilatildeo (Mestrado) Porto Alegre PUCRS 1997
ABREU Sandra C GOULART Rodrigo VIEIRA Renata (2004) Identificaccedilatildeo de Expressotildees Anafoacutericas e Natildeo Anafoacutericas com Base na Estrutura do Sintagma 2ordm Workshop em Tecnologia da Informaccedilatildeo e da Linguagem Humana (TIL 2004) - SalvadorBA - 05 e 06 de agosto de 2004 Disponiacutevel em httpwwwinfunisinosbr~renatalaboratoriopublicacoestilsandra04pdf Acesso em nov de 2004
BAEZA-YATES Ricardo RIBEIRO-NETO Berthier Modern Information Retrieval New York Addison-Wesley 1999
CARDOSO Olinda N P Recuperaccedilatildeo de Informaccedilotildees In Infocomp-Journal of Computer Science vol 2 n 1 Lavras MG 2000 p33-38 Disponiacutevel em httpwwwdccuflabrinfocompartigosv21olindapdf Acesso em mar de 2004
CHISHMAN Rove et al Extraccedilatildeo de Sintagmas Nominais para o Processamento de Co-Referecircncia In V Encontro para o processamento computacional do Portuguecircs escrito e falado (PROPOR 2000) Atibaia - Satildeo Paulo Anais do V Encontro para o processamento computacional do Portuguecircs escrito e falado Satildeo Carlos ICMCUSP 2000 Disponiacutevel em httpwwwinfunisinosbr~renatalaboratoriopublicacoespropor00pdf Acesso em jan de 2005
FERNEDA Edberto Recuperaccedilatildeo de Informaccedilatildeo anaacutelise sobre a contribuiccedilatildeo da ciecircncia da computaccedilatildeo para a ciecircncia da informaccedilatildeo Tese (Doutorado) Satildeo Paulo USP Escola de Comunicaccedilatildeo e Artes 2003 Disponiacutevel em httpwwwtesesuspbrtesesdisponiveis2727143tde-15032004-130230 Acesso em set de 2004
FERREIRA Aureacutelio Buarque de Holanda Novo Aureacutelio Seacuteculo XXI o dicionaacuterio da liacutengua portuguesa 3ed Rio de Janeiro Nova Fronteira 1999
GASPERIN C GOULART R VIEIRA R Uma ferramenta para Resoluccedilatildeo Automaacutetica de Co-referecircncia Anais do Encontro Nacional de Inteligecircncia Artificial (ENIA) Campinas SP 2003 Disponiacutevel em httpwwwexatecunisinosbr~renatalaboratoriopublicacoesart1pdf Acesso em set de 2004
81
GONZALEZ Marco Antocircnio Insaurriaga Representaccedilatildeo Semacircntica de Sentenccedilas em Linguagem Natural e sua aplicaccedilatildeo na Recuperaccedilatildeo de Informaccedilatildeo Trabalho Individual 2 Doutorado Porto Alegre PPCC da PUCRS 2000
________ O Leacutexico Gerativo de Pustejovsky sob o enfoque da Recuperaccedilatildeo de Informaccedilotildees Trabalho Individual 1 Doutorado Porto Alegre PPCC da PUCRS 2000a
________ Termos e Relacionamentos em Evidecircncia na Recuperaccedilatildeo de Informaccedilatildeo Tese (Doutorado) Porto Alegre PPGC da UFRGS 2005
GUEDES Gilleanes T A UML uma abordagem praacutetica Satildeo Paulo Novatec 2004
HILL Brad Pesquisa na Internet Rio de Janeiro Campus 1999
KURAMOTO Heacutelio Proposition drsquoum Systegraveme de Recherche drsquoInformation Assisteacutee par Ordinateur Tese (Doutorado) LrsquoUniversiteacute Lumiegravere ndash Lyon - Franccedila 1999
________ Uma abordagem alternativa para o tratamento e a recuperaccedilatildeo de informaccedilatildeo textual os sintagmas nominais Ciecircncia da Informaccedilatildeo (Brasiacutelia) v25 n2 1995 Disponiacutevel em httpdiciibictbrarchive0000016901Ci[1]Inf-2004-476pdf Acesso em mar de 2004
________ Sintagmas Nominais uma nova proposta para a recuperaccedilatildeo de informaccedilatildeo DataGramaZero Revista de Ciecircncia da Informaccedilatildeo v3 n1 fev 2002 Disponiacutevel em httpwwwdgzeroorgfev02Art_03htm Acesso em mar de 2004
LARMAN Craig Utilizando UML e Padrotildees uma introduccedilatildeo agrave anaacutelise e ao projeto orientado a objetos Porto Alegre Bookman 2000
MARTINS Dileta Silveira ZILBERKNOP Luacutebia Scliar Portuguecircs Instrumental 20ordf ed Porto Alegre Sagra Luzzatto 1999
MOURA Heronides M de M A determinaccedilatildeo de sentidos lexicais no contexto Cadernos de Estudos Linguumliacutesticos v 41 Campinas SP 2001 NETO Magdiel Medeiros Aragatildeo A polissemia em palavras designativas de objetos fiacutesicos e eventos 2003 Disponiacutevel em httpwwwabralinorgbranaishtm Acesso em mai de 2004
________A Polissemia de acordo com a Teoria do Leacutexico Gerativo Satildeo Miguel do Oeste SC Revista do Centro de Ciecircncias da Comunicaccedilatildeo e Artes n6 maiago 2003a
82
PUSTEJOVSKY James The Generative Lexicon Association for Computational Linguistics Computer Science Department Brandeis University Cambridge MA The MIT Press 1991 Disponiacutevel em httpportalacmorgcitationcfmid=176324 Acesso em set de 2004
ROSSI Albertina Palavras Polissecircmicas entre evento e informaccedilatildeo e seu tratamento nos dicionaacuterios Aureacutelio e Houaiss Tese (Doutorado) Florianoacutepolis USFC Centro de Comunicaccedilatildeo e Expressatildeo - Programa de Poacutes-Graduaccedilatildeo em LetrasLinguumliacutestica 2003
SILVA Edna Luacutecia da Metodologia da pesquisa e elaboraccedilatildeo de dissertaccedilatildeo Edna Luacutecia da Silva Estera Muszkat Menezes ndash 2a ed revndash Florianoacutepolis Laboratoacuterio de Ensino a Distacircncia da UFSC 2001 Disponiacutevel em httpprojetosinfufscbrarquivosMetodologia20da20Pesquisa203a20edicaopdf Acesso em mai de 2005
SILVA Maria C de S KOCH Ingedore V Linguumliacutestica aplicada ao portuguecircs sintaxe 5ed Satildeo Paulo Cortez 1993
WAZLAWICK Raul Sidnei Anaacutelise e Projeto de Sistemas de Informaccedilatildeo Orientados a Objetos Rio de Janeiro Elsevier 2004
61 Bibliografia Consultada
BRAumlSCHER Marisa A Ambiguumlidade na Recuperaccedilatildeo da Informaccedilatildeo Revista Ciecircncia da Informaccedilatildeo (Brasiacutelia) v3 n1 2002 Disponiacutevel em httpwwwdgzorgbrfev02Art_05htm Acesso em abr de 2004
CARVALHO Niacutevea M de Melo Recuperaccedilatildeo da informaccedilatildeo implementaccedilatildeo e avaliaccedilatildeo de sistema de recuperaccedilatildeo de informaccedilatildeo utilizando o modelo vetorial Dissertaccedilatildeo (Mestrado) Amazonas Universidade Federal do Amazonas Programa de Poacutes-Graduaccedilatildeo em Informaacutetica 2002 Disponiacutevel em httpposfacomufubr~reneacervosriRI-ModeloVetorial-NiveaCarvalhopdf Acesso em Ago de 2004
FODOR Jerry LEPORE Ernie The emptiness of the Lexicon Critical Reflections on J Pustejovskyrsquos The Generative Lexicon Rutgers University Center for Cognitive Science
83
GOMES Andreacuteia de Faacutetima R O singular nu e a sentenccedila geneacuterica no portuguecircs brasileiro Dissertaccedilatildeo (Mestrado) Florianoacutepolis UFSC Programa de Poacutes-Graduaccedilatildeo em Linguumliacutestica 2001
GONZALEZ Marco LIMA Vera L S de Sintagma Nominal em Estrutura Hieraacuterquica Temaacutetica na Recuperaccedilatildeo de Informaccedilatildeo Anais ENIA 2001 Fortaleza 2001 Disponiacutevel em httpwwwinfpucrsbr~gonzalezdocssnehtpdf Acesso em dez 2005
________ T-Lex Thesaurus com Estruturaccedilatildeo Semacircntica e Operaccedilotildees Gerativas XXVII Conferencia Latinoamericana de Informatica (CLEI2001) Ciudad de Meacuterida Venezuela 2001 Disponiacutevel em httpwwwinfpucrsbr~gonzalezdocsartigotlexpdf Acesso em jan de 2006 (httpwwwinfpucrsbr~gonzalezpesqqhtm)
________ Recuperaccedilatildeo de Informaccedilatildeo e Processamento da Linguagem Natural XXIII Congresso da Sociedade Brasileira de Computaccedilatildeo Campinas 2003 Anais do III Jornada de Mini-Cursos de Inteligecircncia Artificial Disponiacutevel em httpwwwinfpucrsbr~gonzalezdocsminicurso-jaia2003pdf Acesso em jan de 2006
HEIDE Ann Guia do Professor para a Internet completo e faacutecil 2ed Porto Alegre Artes Meacutedicas Sul 2000
MOURA Heronides M de M Linguagem e cogniccedilatildeo na interpretaccedilatildeo de metaacuteforas Universidade Federal de Juiz de Fora Editora UFJF 2003 Disponiacutevel em httpwwwrevistaveredasufjfbrvolumesv6n1cap11pdf Acesso em jan de 2006
PARREIRAS Fernando O uso de sintagmas nominais como fonte de descritores para textos de perioacutedicos cientiacuteficos Escola de Ciecircncia da Informaccedilatildeo Belo Horizonte 2003 Disponiacutevel em httpwwwfernandoparreirasnombrpublicacoessnpdf Acesso em set de 2004
PEacuteREZ Claacuteudia C C GASPERIN Caroline VIEIRA Renata Extraccedilatildeo Semi-Automaacutetica de Conhecimento a partir de Textos 2003 Disponiacutevel em httpwwwinfunisinosbr~renatalaboratorio publicacoesenia2003-submittedpdf Acesso em ago de 2005
PIZZATO Luiz A Estrutura Multitesauro para Recuperaccedilatildeo de Informaccedilotildees Dissertaccedilatildeo (Mestrado) Porto Alegre PUCRS Faculdade de Informaacutetica - Poacutes-Graduaccedilatildeo em Ciecircncia da Computaccedilatildeo 2003 Disponiacutevel em httpwwwpucrsbrunipoainfoposdissertacoesarquivospizzatopdf Acesso em ago de 2004
84
PUSTEJOVSKY James Type Construction and the logic of concepts Disponiacutevel em httpwwwcsbrandeisedu~jamesparticlesindexhtml Acesso em set de 2004
________ The Metaphysics of Words in Context (2000) Disponiacutevel em httpwwwcsbrandeisedu~jamesparticlesindexhtml Acesso em set de 2004
________ The Semantics of Agentive Nominals Disponiacutevel em httpwwwcsbrandeisedu~jamesparticlesindexhtml Acesso em set de 2004
WORDNET a lexical database for the English language Cognitive Science Laboratory Princeton University Disponiacutevel em httpwordnetprincetonedu Acesso em jan de 2006
85
ANEXOS
86
ANEXO A - DOCUMENTO1
Endereccedilo na Web http wwwreciclaveiscombranamghtm
Segunda-feira 28 de agosto de 2000 - Nuacutemero 599 Cresce a induacutestria de reciclagem de plaacutesticos Poreacutem potencial do lixo domeacutestico ainda eacute pouco aproveitado no estado A induacutestria de reciclagem foi a que mais cresceu no setor plaacutestico de Santa Catarina nos uacuteltimos cinco anos No periacuteodo o volume reprocessado no estado cresceu 1664 ao ano atingindo 169 mil toneladas em 1999 Isso equivale a 37 do total transformado pelo setor em Santa Catarina Os dados fazem parte de estudo elaborado pela empresa de consultoria MaxiQuim de Porto Alegre para o Sindicato da Induacutestria de Material Plaacutestico no Estado de Santa Catarina (Simpesc) Contudo esse crescimento reflete mais o reaproveitamento de resiacuteduos gerados em processos industriais do que a reciclagem de lixo domeacutestico como embalagens e garrafas o chamado plaacutestico ldquopoacutes-consumordquo Este segmento cresce de maneira menos acelerada devido a problemas como a necessidade de escala de produccedilatildeo falta de linhas de financiamento e ausecircncia de legislaccedilatildeo que estimule a atividade ldquoEmbora a reciclagem do material poacutes-consumo como sacos embalagens e garrafas esteja aumentando em Santa Catarina a maior parte do crescimento verificado entre 1995 e 1999 refere-se a empresas que utilizam resiacuteduos industriais como mateacuteria-primardquo explica o diretor da MaxiQuim Joatildeo Luiz Zuntildeeda Normalmente chamadas de aparas esses resiacuteduos incluem tambeacutem as peccedilas que natildeo atingiram a qualidade necessaacuteria para ir ao mercado As oito empresas catarinenses de reciclagem de plaacutestico tecircm 383 empregados sem considerar o pessoal que trabalha na coleta de lixo atividade que geralmente eacute informal O valor da produccedilatildeo atingiu R$ 4249 milhotildees em 1999 com crescimento meacutedio de 1526 ao ano nos uacuteltimos cinco anos jaacute descontando a inflaccedilatildeo As empresas de transformaccedilatildeo de plaacutestico estatildeo cada vez mais preocupadas em recuperar o material que antes era perdido devido ao alto custo da resina virgem diz Nelson Pradella proprietaacuterio da empresa Recicle-Ville ldquoIsso eacute fundamental para que elas sejam competitivas pois vendendo os resiacuteduos do processo industrial como sucata as empresas obtecircm menos de 20 do valor da resina virgemrdquo Cobrando 30 do preccedilo da resina virgem a Recicle-Ville devolve para a induacutestria seus resiacuteduos em condiccedilotildees de serem utilizados normalmente no processo produtivordquo explica A empresa de Joinville foi uma das firmas que ajudou a elevar os iacutendices desta induacutestria no estado Ateacute agora ela estava trabalhando apenas com mateacuteria-prima gerada nos processos industriais mas isso deve mudar a partir desta semana Criada haacute um ano a empresa reprocessa cerca de 220 toneladas de plaacutestico por mecircs e estaacute aumentando a sua capacidade para 310 toneladas Ela ainda opera basicamente como terceirizada de empresas de processamento de plaacutesticos reprocessando para elas os resiacuteduos que geram e devolvendo essa mateacuteria em forma granular mesmo estado da resina virgem Como a mateacuteria prima reciclada seraacute utilizada para fazer o mesmo produto que originou a
4
3
2
1
87
apara a qualidade final natildeo eacute afetada Mas a Recicle-Ville estaacute ingressando tambeacutem no segmento de reciclagem do plaacutestico poacutes-consumo A partir desta semana a empresa coloca em funcionamento um sistema de coleta junto a escolas do municiacutepio para recolher materiais plaacutesticos como sacos garrafas e tampinhas apostando principalmente no PET Com isso ela tem a vantagem de receber material mais limpo A contaminaccedilatildeo do plaacutestico pelo lixo orgacircnico eacute justamente um dos principais problemas para o crescimento da induacutestria da reciclagem do lixo domeacutestico A simples separaccedilatildeo do lixo orgacircnico do seco jaacute traria um impulso importante para o setor diz Ana Flores diretora do departamento de meio ambiente e desenvolvimento sustentado da Federaccedilatildeo das Induacutestrias do Estado de Satildeo Paulo (Fiesp) e autora do livro ldquoO dinheiro estaacute no lixo ndash recicle essa ideacuteiardquo ldquoDeveriam ser criados mecanismos de estiacutemulo para a reciclagem Na Holanda por exemplo uma Coca-Cola custa US$ 220 Devolvendo a garrafa acontece o reembolso de US$ 1 Vocecirc acha que algueacutem vai jogaacute-la no lixordquo diz A induacutestria da reciclagem do plaacutestico no Brasil tem crescido bastante em funccedilatildeo do reaproveitamento do PET que eacute usado no segmento de monofilamentos em artigos como vassouras e na induacutestria tecircxtil Conforme Ana Flores a reciclagem gera 250 mil empregos no Paiacutes dos quais 70 satildeo informais Poreacutem a maior parte do potencial de mercado ainda estaacute sendo desperdiccedilado avalia ldquoCerca de 15 do total de plaacutestico que eacute industrializado no Paiacutes eacute reciclado Em dez anos poderiacuteamos chegar a 60 como nos Estados Unidos desde que fosse implementado um conjunto de medidas incentivando essa praacuteticardquo assegura Para a diretora da Fiesc os principais entraves satildeo o aspecto cultural a tributaccedilatildeo incidente na reciclagem do plaacutestico a falta de linhas de financiamento e a ausecircncia de uma legislaccedilatildeo ambiental mais rigorosa ldquoHaacute um contra-senso ecoloacutegico que forccedila a clandestinidade no Brasil onde para fabricar garrafa PET virgem paga-se IPI de 10 e para a reciclagem 12rdquo critica Ana afirma que essa tributaccedilatildeo decorre do interesse governamental em incentivar a induacutestria quiacutemica Outro problema apontado eacute que ao contraacuterio da induacutestria do alumiacutenio que eacute concentrada o predomiacutenio das pequenas empresas na transformaccedilatildeo do plaacutestico dificulta que sejam criadas grandes empresas para reprocessar o lixo Para Flores o sucesso brasileiro na reciclagem do alumiacutenio (o iacutendice eacute de 65 um dos mais altos do mundo) decorre da existecircncia de poucas grandes empresas capitalizadas ldquoAs pequenas empresas natildeo tecircm acesso agraves linhas de creacutedito e isso dificulta a abertura de novas recicladorasrdquo diz Flores Mas haacute quem aponte outros desafios a superar ldquoEmbora seja um mercado que deve crescer muito a reciclagem de plaacutestico natildeo eacute tatildeo simples como normalmente aparece na televisatildeo O volume miacutenimo para que a atividade seja economicamente viaacutevel atendendo a todas as exigecircncias legais eacute de 100 toneladas mecircsrdquo diz Ronaldo Cerri soacutecio da Moinhos Rone de Satildeo Paulo que fabrica equipamentos utilizados na moagem do plaacutestico uma das primeiras etapas da reciclagem Aleacutem disso explica a coleta do plaacutestico eacute mais complicada porque ao contraacuterio das latas de alumiacutenio - que podem ser amassadas o volume fiacutesico eacute maior ldquoHoje entre 70 e 80 dos moinhos que vendemos satildeo para reciclagem de resiacuteduos industriaisrdquo informa (Elmar Meurer de Joinville)
copy GAZETA MERCANTIL
9
8
7
6
5
88
ANEXO B - DOCUMENTO2
Cuidados com o Lixo
Endereccedilo na Web httpwwwpoupetempocombrambientelixohtm
Todos os seres vivos quando morrem apodrecem plantas e animais se decompotildeem e satildeo destruiacutedos por larvas bacteacuterias e fungos e reabsorvidos pela terra pela aacutegua pelo ar Eacute o ciclo da natureza morte decomposiccedilatildeo nova vida e crescimento Tudo o que eacute fabricado pelo homem acaba virando lixo Muito desse lixo natildeo se decompotildee facilmente como a mateacuteria orgacircnica e passa a ser um problema Plaacutesticos latas e vidros demoram muitos anos para se decompor e poluem o meio-ambiente Por isso a importacircncia da reciclagem do lixo fabricado pelo ser humano O lixo eacute formado por resiacuteduos soacutelidos natildeo biodegradaacuteveis e que demoram para se decompor Restos de alimentos folhas e frutas satildeo chamados lixo orgacircnico Existem tambeacutem aleacutem do lixo domiciliar o lixo industrial o de vias puacuteblicas e o hospitalar que necessitam de tratamentos especiais pois oferece perigo agrave sauacutede das pessoas Devido ao aumento da populaccedilatildeo das grandes cidades e com o aumento do consumo de produtos a quantidade de lixo tambeacutem tem aumentado O acuacutemulo de lixo eacute um dos principais problemas nas grandes cidades Muitos materiais que vatildeo para o lixo natildeo podem ser desperdiccedilados podendo ser reaproveitados e reutilizados Material orgacircnico Tudo o que eacute resto de comida de animais de plantas e frutas eacute considerado lixo propriamente dito Ou seja vocecirc deve acondicionaacute-los num uacutenico recipiente Essa material eacute recolhido pela prefeitura e levado para aterros sanitaacuterios onde vatildeo sofrer a decomposiccedilatildeo natural Material reciclaacutevel Eacute praticamente tudo o que eacute fabricado pelo homem material plaacutestico latas de alumiacutenio e ferro garrafas de refrigerante de vidro e PET caixas de papel e papelatildeo jornais revistas livros aparas de papel etc Se vocecirc mora em casa reuacutena-se com sua famiacutelia e com seus funcionaacuterios para estabelecer um meacutetodo de separaccedilatildeo desse material Dependendo do seu volume diaacuterio de lixo escolha 4 recipientes coloridos para acondicionaacute-los azul para papel vermelho para plaacutestico verde para vidro e amarelo para metal ou nomeie cada um deles conforme sua classificaccedilatildeo Se vocecirc mora em condomiacutenio faccedila esse mesmo trabalho reunindo os moradores estabelecendo regras e instruindo os empregados Observaccedilatildeo o lixo orgacircnico deve estar separado daquilo que eacute reciclaacutevel Exemplos Providencie uma caixa resistente ou sacolas e fixe nelas um papel com a identificaccedilatildeo do tipo de lixo vidro e nela vaacute acumulando as garrafas Retire aneacuteis e roacutetulos e lave as garrafas para natildeo acumular insetos Na outra caixa vaacute juntando o lixo papel aparas embalagens de papelatildeo as perdas da impressora jornais e revistas velhas etc Latas de conserva satildeo de ferro e as de refrigerante satildeo de alumiacutenio Elas devem ser acumuladas limpas sem roacutetulo e em caixas separadas As de alumiacutenio podem ser amassadas como uma sanfoninha o que economizaraacute espaccedilo Quando as caixas estiverem cheias elas devem ser encaminhadas para entidades que trabalham com material reciclaacutevel ou simplesmente recolhida pela empresa de sua cidade responsaacutevel pela coleta seletiva Consulte a prefeitura local
89
A destinaccedilatildeo do material para reciclagem pode ser feita de vaacuterias formas Uma famiacutelia mais pobre pode utilizar esse material vendendo para cooperativas e empresas especializadas e conseguir um dinheiro extra Os condomiacutenios de melhor padratildeo econocircmico podem utilizar o resultado da separaccedilatildeo do lixo para reciclagem em benefiacutecio de seus funcionaacuterios propiciando a eles um ganho extra na ajuda da triagem desse material Uma outra forma eacute simplesmente entregar todo o material para as prefeituras que jaacute possuem o meacutetodo de coleta seletiva Ajude a melhorar o meio-ambiente Eacute simples pense antes de comprar Metade do que noacutes compramos eacute lixo Satildeo embalagens que quase sempre natildeo servem para nada e vatildeo direto para o lixo Evite embalagens plaacutesticas elas satildeo pouco reciclaacuteveis enquanto o vidro eacute totalmente reciclaacutevel e muito mais uacutetil no seu reaproveitamento Algumas informaccedilotildees sobre materiais produzidos pelo homem TEMPO DE DECOMPOSICcedilAtildeO DE ALGUNS MATERIAIS
Lenccedilo de papel 3 meses Palito de foacutesforo 6 meses Caroccedilo de maccedilatilde 6 a 12 meses Ponta de cigarro 1 a 2 anos Chiclete 5 anos Lata de accedilo 10 anos Garrafa de plaacutestico 100 anos Garrafa de vidro Mais de 1000 anos Lata de alumiacutenio Natildeo se corroacutei nunca
Plaacutestico riacutegido Leve resistente e praacutetico eacute o material que compotildee cerca de 60 das embalagens plaacutesticas como garrafas de refrigerantes recipientes para produtos de limpeza e higiene e potes de alimentos eacute tambeacutem mateacuteria-prima baacutesica de bombonas fibras tecircxteis tubos e conexotildees calccedilados eletrodomeacutesticos aleacutem de baldes utensiacutelios domeacutesticos e outros produtos Ele pode ser reprocessado gerando novos artefatos plaacutesticos e energia Papel ondulado eacute usado em caixas para transporte de produtos para faacutebricas depoacutesitos escritoacuterios e residecircncias Normalmente chamado de papelatildeo este material tem uma camada intermediaacuteria de papel entre suas partes exteriores disposta em ondulaccedilotildees na forma de uma sanfona O material eacute de faacutecil coleta em grandes volumes comerciais sendo facilmente identificadas quando misturadas com outros tipos de papel por isso seu susto de processamento eacute relativamente baixo Embalagens longa vida satildeo compostas de vaacuterias camadas de material dupleacutex polietileno e alumiacutenio As embalagens cartonadas precisam ser lavadas apoacutes o consumo porque os restos de alimentos contidos nelas dificultam o reprocessamento do material Para aproveitar melhor o espaccedilo as embalagens podem ser amassadas O papel existente nas embalagens cartonadas pode ser compostado para a produccedilatildeo de huacutemus utilizado em hortas e jardins Pneus a borracha e sua reciclagem eacute capaz de devolver ao processo de produccedilatildeo insumo regenerado por menos da metade do custo da borracha natural ou sinteacutetica aleacutem disso economiza energia e poupa petroacuteleo usado como mateacuteria-prima virgem e ateacute melhora as propriedades de materiais feitos com borracha Latas de alumiacutenio aleacutem de reduzir o lixo que vai para os aterros a reciclagem desse material proporciona significativo ganho energeacutetico Para reciclar uma tonelada de latas gasta-se 5 da
90
energia necessaacuteria para produzir a mesma quantidade de alumiacutenio pelo processo primaacuterio Isto significa que cada latinha reciclada equivale ao consumo de um aparelho de TV durante 3 horas A reciclagem evita a extraccedilatildeo da bauxita o mineral beneficiado para a fabricaccedilatildeo da alumina que eacute transformada em liga de alumiacutenio Vidro a metade dos recipientes de vidro eacute fabricados no Paiacutes eacute retornaacutevel Aleacutem disso o material eacute de faacutecil reciclagem pode voltar a produccedilatildeo de novas embalagens substituindo o produto virgem sem perda da qualidade Pet (polietileno tereftalato) as garrafas recicladas satildeo transformadas em cordas e fios de costura carpetes bandejas de frutas e ateacute mesmo novas garrafas Sua reciclagem aleacutem de desviar lixo plaacutestico dos aterros utiliza apenas 30 da energia necessaacuteria para a produccedilatildeo da resina virgem e tem a vantagem de poder ser reciclado vaacuterias vezes sem prejudicar a qualidade do produto final Latas de accedilo Quando reciclado o accedilo volta ao mercado em forma de automoacuteveis ferramentas vigas para construccedilatildeo civil arames vergalhotildees utensiacutelios domeacutesticos e inclusive novas latas Plaacutestico filme eacute uma peliacutecula plaacutestica normalmente usada como sacolas de supermercados sacos de lixo embalagens de leite lonas agriacutecolas e proteccedilatildeo de alimentos na geladeira ou microondas Cerca de 44 eacute papel e 4 eacute folha de alumiacutenio Ajude a melhorar o meio-ambiente
bull Reaproveite sobras e natildeo jogue fora o que puder aproveitar bull Doe roupas que possam ser reformadas ou consertadas bull Doe livros para bibliotecas ou instituiccedilotildees beneficentes bull Use produtos biodegradaacuteveis ou reciclaacuteveis bull Deixe o oacuteleo usado do motor no posto para ser reciclado bull Leve pneus sem uso para os borracheiros bull Evite jogar lixo na rua Jogue o lixo na lixeira bull Embale o lixo corretamente sempre que possiacutevel encaminhe plaacutesticos vidros e papel
para a reciclagem
91
ANEXO C - EXTRACcedilAtildeO MANUAL DE SN DOS DOCUMENTOS
DOCUMENTO1 Linha Sintagma Nominal Niacutevel
1 Plaacutesticos 1 1 Reciclagem de plaacutesticos 2 1 Induacutestria de reciclagem de plaacutesticos 3 2 Lixo 1 2 Lixo domeacutestico 1 2 Potencial do lixo domeacutestico 2 3 Reciclagem 1 3 Induacutestria de reciclagem 2 3 Plaacutestico 1 3 Setor Plaacutestico 1 3 Setor Plaacutestico de Santa Catarina 2 7 Plaacutestico 1 7 Material Plaacutestico 1 7 Induacutestria de Material Plaacutestico 2 7 Sindicato da Induacutestria de Material Plaacutestico 3 7 Sindicato da Induacutestria de Material Plaacutestico no Estado de Santa Catarina 4 8 Resiacuteduos 1 8 Reaproveitamento de resiacuteduos 2 9 Lixo 1 9 Lixo domeacutestico 1 9 Reciclagem do lixo domeacutestico 2 10 Embalagens 1 10 Garrafas 1 10 Embalagens e garrafas 2 10 Plaacutestico 1 10 Plaacutestico poacutes-consumo 1 13 Reciclagem 1 13 Reciclagem de material 2 13 Reciclagem de material poacutes-consumo 2 13 Sacos 1 13 Embalagens 1 13 Garrafas 1 13 Sacos embalagens e garrafas 2 15 Resiacuteduos 1
92
15 Resiacuteduos industriais 1 15 Resiacuteduos industriais como mateacuteria-prima 2 18 Reciclagem 1 18 Reciclagem de plaacutesticos 2 18 Empresas catarinenses de reciclagem de plaacutesticos 3 19 Lixo 1 19 Coleta de lixo 2 22 Plaacutestico 1 22 Transformaccedilatildeo de plaacutestico 2 22 As empresas de transformaccedilatildeo de plaacutestico 3 27 Resiacuteduos 1 32 Plaacutestico 1 34 Plaacutesticos 1 34 Processamento de plaacutesticos 2 34 Empresas de processamento de plaacutesticos 3 34 Terceirizada de empresas de processamento de plaacutesticos 4 34 Os resiacuteduos 1 36 Reciclada 1 36 Mateacuteria-prima reciclada 1 38 Reciclagem 1 38 Reciclagem de plaacutestico 2 38 Reciclagem de plaacutestico poacutes-consumo 2 38 Segmento de reciclagem de plaacutestico poacutes-consumo 3 39 Coleta 1 39 Coleta junto a escolas do municiacutepio 2 39 Um sistema de coleta junto a escolas do municiacutepio 3 40 Plaacutesticos 1 40 Materiais plaacutesticos 1 40 Materiais plaacutesticos como sacos garrafas e tampinhas 2 41 PET 1 43 Lixo 1 43 Lixo orgacircnico 1 43 A contaminaccedilatildeo do plaacutestico 2 43 A contaminaccedilatildeo do plaacutestico pelo lixo orgacircnico 3 44 Lixo 1
93
44 Lixo domeacutestico 1 44 Reciclagem de lixo domeacutestico 2 44 Induacutestria da reciclagem do lixo domeacutestico 3 44 O crescimento da induacutestria da reciclagem do lixo domeacutestico 4 44 Lixo 1 44 Lixo orgacircnico 1 44 A simples separaccedilatildeo do lixo orgacircnico 2 44 A simples separaccedilatildeo do lixo orgacircnico do seco 3 49 A garrafa 1 50 Lixo 1 51 Reciclagem 1 51 Reciclagem do plaacutestico 2 51 A induacutestria da reciclagem do plaacutestico 3 51 A induacutestria da reciclagem do plaacutestico no Brasil 4 52 Reaproveitamento 1 52 Reaproveitamento do PET 2 53 A reciclagem 1 55 Plaacutestico 1 56 Reciclado 1 58 Reciclagem 1 58 Reciclagem do plaacutestico 2 58 Tributaccedilatildeo incidente na reciclagem do plaacutestico 3 61 Garrafa 1 61 Garrafa PET 1 61 Reciclagem 1 63 Induacutestria Quiacutemica 1 64 Alumiacutenio 1 64 Induacutestria do alumiacutenio 2 65 Plaacutestico 1 65 Transformaccedilatildeo do plaacutestico 2 65 Empresas na transformaccedilatildeo do plaacutestico 3 65 Predomiacutenio das pequenas empresas na transformaccedilatildeo do plaacutestico 4 66 Lixo 1 69 Recicladoras 1 69 A abertura de novas recicladoras 2
94
71 Reciclagem 1 71 Reciclagem de Plaacutestico 2 74 Plaacutestico 1 74 Moagem do plaacutestico 2 74 Reciclagem 1 74 Primeiras etapas da reciclagem 2 75 Coleta 1 75 A coleta do plaacutestico 2 77 Reciclagem 1 77 Reciclagem de resiacuteduos 2 77 Reciclagem de resiacuteduos industriais 3
DOCUMENTO2
Linha Sintagma Nominal Niacutevel1 Lixo 1 1 Cuidados com o lixo 2 5 Lixo 1 5 Lixo 1 6 Mateacuteria Orgacircnica 1 6 Plaacutesticos latas e vidros 2 7 Lixo 1 7 Reciclagem do lixo 2 7 A importacircncia da reciclagem do lixo 3 9 O lixo 1 9 Resiacuteduos 1 9 Resiacuteduos soacutelidos 1 9 Resiacuteduos soacutelidos natildeo-biodegradaacuteveis 1 9 Restos de alimentos folhas e frutas 2 10 Lixo 1 10 Lixo orgacircnico 1 11 Lixo 1 11 Lixo domiciliar lixo industrial o de vias puacuteblicas e o hospitalar 3 13 Lixo 1 13 A quantidade de lixo 2
95
15 Lixo 1 15 O acuacutemulo de lixo 2 15 O lixo 1 17 Material orgacircnico 1 18 Restos de comida de animais de plantas e frutas 4 18 Lixo 1 20 Aterro sanitaacuterio 1 20 A decomposiccedilatildeo 1 20 A decomposiccedilatildeo natural 1 21 Reciclaacutevel 1 21 Material reciclaacutevel 1 22 Material plaacutestico latas de alumiacutenio e ferro garrafas de refrigerante de
vidro e PET caixas de papel e papelatildeo jornais revistas livros aparas de papel
4
24 Lixo 1 24 Volume diaacuterio de lixo 2 31 O lixo 1 31 O lixo orgacircnico 1 31 Reciclaacutevel 1 33 Lixo 1 33 Tipo de lixo 2 33 vidro 1 34 As garrafas 1 35 As garrafas 1 36 O lixo 1 36 O lixo papel aparas embalagens de papelatildeo as perdas da impressora
jornais e revistas velhas 3
38 Ferro 1 38 Alumiacutenio 1 42 Reciclaacutevel 1 42 Material reciclaacutevel 1 42 Coleta 1 42 Coleta seletiva 1 44 Reciclagem 1 44 Material para reciclagem 2 44 A destinaccedilatildeo do material para reciclagem 3
96
47 Lixo 1 47 Separaccedilatildeo do lixo 2 47 Separaccedilatildeo do lixo para reciclagem 3 47 O resultado da separaccedilatildeo do lixo para reciclagem 4 50 Coleta 1 50 Coleta seletiva 1 50 O meacutetodo de coleta seletiva 2 53 Lixo 1 53 Embalagens 1 53 O lixo 1 54 Embalagens plaacutesticas 1 54 Pouco reciclaacuteveis 1 54 O vidro 1 57 Decomposiccedilatildeo 1 57 Decomposiccedilatildeo de alguns materiais 2 57 Tempo de decomposiccedilatildeo de alguns materiais 3 67 Plaacutestico 1 67 Plaacutestico riacutegido 1 67 Embalagens plaacutesticas 1 67 Embalagens plaacutesticas como garrafas de refrigerantes recipientes para
produtos de limpeza e higiene e potes de alimentos 4
72 Papel ondulado 1 74 Coleta 1 74 Coleta em grandes volumes comerciais 2 74 Faacutecil coleta em grandes volumes comerciais 2 76 Processamento 1 76 Custo de processamento 2 77 Embalagens 1 77 Embalagens longa vida 1 79 reprocessamento 1 79 Reprocessamento do material 2 82 Hortas e jardins 2 83 Pneus 1 83 Reciclagem 1 83 A borracha e sua reciclagem 2
97
84 Borracha 1 84 Borracha natural ou sinteacutetica 1 84 O custo da borracha natural ou sinteacutetica 2 86 Latas de alumiacutenio 1 86 O lixo 1 86 A reciclagem 1 88 Reciclada 1 88 Latinha reciclada 1 89 A reciclagem 1 91 vidro 1 91 Vidro 1 91 Recipiente de vidro 2 91 Faacutecil reciclagem 1 94 PET 1 94 Recicladas 1 94 Garrafas recicladas 1 95 Reciclagem 1 95 Lixo 1 95 Lixo plaacutestico 1 95 Lixo plaacutestico dos aterros 2 97 Reciclado 1 97 Reciclado vaacuterias vezes 1 98 Latas de accedilo 2 98 Automoacuteveis ferramentas vigas para construccedilatildeo civil arames
vergalhotildees utensiacutelios domeacutesticos e inclusive novas latas 3
100 Plaacutestico filme 1 100 Sacolas de supermercado sacos de lixo embalagens de leite lonas
agriacutecolas e proteccedilatildeo de alimentos na geladeira ou microondas 3
102 Folha de alumiacutenio 2 107 Reciclaacuteveis 1 107 Produtos biodegradaacuteveis ou reciclaacuteveis 1 110 Lixo 1 110 Lixo na rua 2 110 O lixo 1 110 O lixo na lixeira 2
98
111 O lixo 111 Reciclagem 1 111 Plaacutesticos vidros e papel para reciclagem 3
99
ANEXO D - FERRAMENTA1 DE TOQUENIZACcedilAtildeO E ETIQUETAGEM
Endereccedilo na Web hermessourceforgenethermeswebhtml
Texto processado (Paraacutegrafo 6 do Documento1)
A induacutestria da reciclagem do plaacutestico no Brasil tem crescido bastante em funccedilatildeo do reaproveitamento do PET que eacute usado no segmento de monofilamentos em artigos como vassouras e na induacutestria tecircxtil Conforme Ana Flores a reciclagem gera 250 mil empregos no Paiacutes dos quais 70 satildeo informais Poreacutem a maior parte do potencial de mercado ainda estaacute sendo desperdiccedilado avalia ldquoCerca de 15 do total de plaacutestico que eacute industrializado no Paiacutes eacute reciclado Em dez anos poderiacuteamos chegar a 60 como nos Estados Unidos desde que fosse implementado um conjunto de medidas incentivando essa praacuteticardquo assegura
Resultado
A_ART induacutestria_N da_PREP+ART reciclagem_N do_PREP+ART plaacutestico_N no_PREP+ART Brasil_NP tem_VTD crescido_ADJ bastante_ADV em_PREP funccedilatildeo_N do_PREP+ART reaproveitamento_N do_PREP+ART PET_N _ que_PR eacute_VLIG usado_ADJ no_PREP+ART segmento_N de_PREP monofilamentos_N _ em_PREP artigos_N
100
como_CONJSUB vassouras_ADJ e_CONJCOORD na_PREP+ART induacutestria_N tecircxtil_NP _ Conforme_CONJSUB Ana_NP Flores_N _ a_ART reciclagem_N gera_N 250_NC mil_NC empregos_N no_PREP+ART Paiacutes_N _ dos_PREP+ART quais_PR 70_NC satildeo_VLIG informais_ADJ _ Poreacutem_VTD _ a_ART maior_ADJ parte_N do_PREP+ART potencial_N de_PREP mercado_N ainda_ADV estaacute_VLIG sendo_VLIG desperdiccedilado_VTD _ avalia_N _ Cerca_N de_PREP 15_NC do_PREP+ART total_ADJ de_PREP plaacutestico_N que_PR eacute_VLIG
101
industrializado_VTD no_PREP+ART Paiacutes_N eacute_VLIG reciclado_VTD _ Em_PREP dez_NC anos_N poderiacuteamos_VTD chegar_VTI a_ART 60_NC _ como_CONJSUB nos_PREP+ART Estados_NP Unidos_NP _ desde_PREP que_PR fosse_VLIG implementado_ADJ um_ART conjunto_N de_PREP medidas_N incentivando_VTD essa_PD praacutetica_N _ assegura_VTD _
102
ANEXO D - FERRAMENTA2 DE TOQUENIZACcedilAtildeO E ETIQUETAGEM
Endereccedilo na Web httplaelpucspbrcorporaetiquetagem
A ARTD induacutestria N da CPR reciclagem N do CPR plaacutestico N no CPR Brasil N tem V crescido PART bastante ADV em PRP funccedilatildeo N do CPR reaproveitamento N do CPR PET N PT que PRN eacute V usado PART no CPR segmento N de PRP monofilamentos N PT em PRP artigos N como ADV vassouras N e CJ na CPR induacutestria N tecircxtil ADJ PT Conforme ADJ Ana N Flores N PT a ARTD reciclagem N gera V 250 NUM mil N
103
empregos N no CPR Paiacutes N PT dos CPR quais PRN 70 NUM PT satildeo V informais ADJ PT Poreacutem CJ PT a ARTD maior ADJ parte N do CPR potencial N de PRP mercado N ainda ADV estaacute V sendo V desperdiccedilado PART PT avalia V PT ldquoCerca PRP de PRP 15 NUM PT do CPR total N de PRP plaacutestico N que PRN eacute V industrializado PART no CPR Paiacutes N eacute V reciclado PART PT Em PRP dez NUM anos N poderiacuteamos V chegar V a ARTD 60 NUM PT
104
PT como ADV nos CPR Estados N Unidos N PT desde PRP que PRN fosse V implementado PART um ARTI conjunto N de PRP medidas N incentivando V essa PRN praacuteticardquo N PT assegura V PT
105
ANEXO E - PROCESSO DE NOMINALIZACcedilAtildeO Palavra Original Classe Substantivo Abstrato Substantivo Concretotem Verbo E E crescido Verbo no particiacutepio crescimento E bastante Adveacuterbio E E eacute Verbo E E usado Verbo no particiacutepio uso usador tecircxtil Adjetivo E tecido informal Adjetivo informalidade E maior Adjetivo maioridade E potencial Adjetivo potencialidade E ainda Adveacuterbio E E estaacute Verbo E E sendo Verbo E E desperdiccedilado Verbo no particiacutepio desperdiacutecio desperdiccedilador total Adjetivo totalidade totalizador industrializado Verbo no particiacutepio industrial induacutestria reciclado Verbo no particiacutepio E reciclagem poderiacuteamos Verbo E E chegar Verbo E chegada fosse Verbo E E implementado Verbo no particiacutepio implemento implementador incentivando Verbo Incentivo incentivador
E = ausecircncia de nominalizaccedilatildeo
v
IacuteNDICE DE FIGURAS
Figura 1 Componentes de um Sistema de Recuperaccedilatildeo de Informaccedilatildeo 18 Figura 2 Exemplo dos trecircs componentes conjuntivos para query 19 Figura 3 Representaccedilatildeo do resultado de uma expressatildeo booleana conjuntiva (AND)19 Figura 4 Resultado de uma busca booleana disjuntiva (OR) 20 Figura 5 O co-seno do acircngulo adaptado como similar (dj q) 22 Figura 6 Exemplo da estrutura de niacuteveis de Sintagmas Nominais 30 Figura 7 Procedimentos de interaccedilatildeo usuaacuteriominusprotoacutetipo31 Figura 8 Estrutura de dados para acessar os Sintagmas Nominais de primeiro niacutevel a partir de
uma palavra 32 Figura 9 Estrutura de dados para acessar os Sintagmas Nominais de segundo niacutevel a partir de
Sintagmas Nominais de primeiro niacutevel 33 Figura 10 Estrutura de dados para o acesso aos tiacutetulos e textos dos artigos 33 Figura 11 Representaccedilatildeo da matriz de um item lexical39 Figura 12 Matriz superficial da Estrutura de Qualia do item lexical ldquolivrordquo 39 Figura 13 Exemplo da Estrutura de Qualia do item lexical ldquoromancerdquo 40 Figura 14 Exemplo da Estrutura de Qualia do item lexical ldquodicionaacuteriordquo40 Figura 15 Exemplo do LG relacionando ldquodicionaacuteriordquo ldquolivrordquo e peccedila atraveacutes de suas EQ41 Figura 16 Exemplo de polissemia loacutegica na representaccedilatildeo matricial da palavra ldquolivrordquo41 Figura 17 Exemplo de polissemia loacutegica na representaccedilatildeo matricial da palavra ldquojornalrdquo 42 Figura 18 Visatildeo Geral do modelo TR+47 Figura 19 Visatildeo Geral do Modelo Proposto ldquoEstrutura SINTR+rdquo56 Figura 20 Descriccedilatildeo inicial do modelo proposto58 Figura 21 Nuacutemero de palavras do Documento160 Figura 22 Nuacutemero de substantivos adveacuterbios verbos e adjetivos do Documento161 Figura 23 Nuacutemero de palavras restantes x Sintagmas Nominais 62 Figura 24 Sintagmas Nominais e adjetivos inseridos nos SN 62 Figura 25 Diagrama de casos de uso da UML do sistema proposto ndash Pesquisa do Usuaacuterio66Figura 26 Diagrama de casos de uso da UML do sistema proposto ndash Gerenciamento e
Operaccedilatildeo do BD no niacutevel de administrador 67 Figura 27 Modelo Conceitual do sistema proposto72 Figura 28 Diagrama de classes do sistema proposto ndash Pesquisa de Usuaacuterio 73 Figura 29 Diagrama de classes do sistema proposto ndash Gerenciamento e Operaccedilatildeo do BD no
niacutevel de administrador 74 Figura 30 Diagrama de Sequumlecircncia do sistema proposto ndash Pesquisa de Usuaacuterio 75 Figura 31 Diagrama de Sequumlecircncia do sistema proposto ndash Gerenciamento e Operaccedilatildeo do BD
no niacutevel de administrador 76
vi
IacuteNDICE DE TABELAS
Tabela 1 Exemplos de nominalizaccedilatildeo 49 Tabela 2 Exemplo de uma consulta qb53 Tabela 3 Paraacutegrafo 6 do documento163 Tabela 4 RLBs identificadas no paraacutegrafo 6 do documento1 63 Tabela 5 Descriccedilatildeo do caso de uso ndash Inserir novo documento68 Tabela 6 Descriccedilatildeo do caso de uso ndash Alimentar base de dados (Documentos) 68 Tabela 7 Descriccedilatildeo do caso de uso ndash Extrair SN de 4ordm ou uacuteltimo niacutevel 68 Tabela 8 Descriccedilatildeo do caso de uso ndash Tratar regras verbais69 Tabela 9 Descriccedilatildeo do caso de uso ndash Extrair SN de niacuteveis 3 2 e 1 (niacuteveis anteriores) 69 Tabela 10 Descriccedilatildeo do caso de uso ndash Alimentar base de dados (Sintagmas) 69 Tabela 11 Descriccedilatildeo do caso de uso ndash Toquenizar e etiquetar70 Tabela 12 Descriccedilatildeo do caso de uso ndash Nominalizar70 Tabela 13 Descriccedilatildeo do caso de uso ndash Capturar RLBs 70 Tabela 14 Descriccedilatildeo do caso de uso ndash Calcular peso dos descritores 71 Tabela 15 Descriccedilatildeo do caso de uso ndash Alimentar base de dados (Termos e RLBs) 71
vii
SIGLAS
RI Recuperaccedilatildeo de Informaccedilatildeo
SRI Sistemas de Recuperaccedilatildeo de Informaccedilatildeo
SN Sintagma Nominal
LG Leacutexico Gerativo
EQ Estrutura de Qualia
SMART System for the Manipulation and Retrieval of Text
SV Sintagma Verbal
SEL Leacutexico de Enumeraccedilatildeo de Sentidos
PLC Paradigma Leacutexico-Conceitual
XML Extensible Markup Language
UML Linguagem de Modelagem Unificada
UP Processo Unificado
OO Orientado a Objetos
NG N-Grama
TT Termo-Termo
TR Termo-Relacionamento
RT Relacionamento-Termo
TR+ Termo-RelacionamentoRelacionamento-Termo
SINTR+ Sintagma Nominal com TR+
BD Banco de Dados
viii
RESUMO
Este trabalho tem como objetivo apresentar um novo modelo de sistema informatizado de suporte ao usuaacuterio no processo de recuperaccedilatildeo de informaccedilotildees A proposta consiste em apoio durante a definiccedilatildeo da query de busca e baseia-se na identificaccedilatildeo das possibilidades de sistematizaccedilatildeo e junccedilatildeo do modelo de Kuramoto com a estrutura de Gonzalez Para a sua construccedilatildeo foi necessaacuterio analisar e sintetizar o modelo de suporte ao usuaacuterio de Kuramoto (baseado na determinaccedilatildeo dos Sintagmas Nominais) a estrutura de Qualia do Leacutexico Gerativo de Pustejovsky e termos e RLBs (relaccedilotildees lexicais binaacuterias) do modelo TR+ de Gonzalez O resultado que se espera alcanccedilar eacute possibilitar a realizaccedilatildeo de uma interaccedilatildeo que venha a proporcionar uma negociaccedilatildeo adequada dos significados entre o usuaacuterio e a maacutequina negociaccedilatildeo essa que deve resultar em fator fundamental na melhoria da eficiecircncia dos processos de busca O modelo de Kuramoto baseado em uma hierarquia de Sintagmas Nominais suporta inicialmente essa interaccedilatildeo Com a definiccedilatildeo da query de busca e da Estrutura de Qualia de Pustejovsky impliacutecita no modelo TR+ de Gonzalez foi possiacutevel obter uma maior relevacircncia dos documentos recuperados atraveacutes de um caacutelculo de peso de descritores (termos e relacionamentos) evidentes nos documentos As etapas gerais do modelo proposto satildeo a extraccedilatildeo de Sintagmas Nominais e a sua hierarquizaccedilatildeo automaacutetica em niacuteveis o preacute-processamento (toquenizaccedilatildeo e etiquetagem) o processo de nominalizaccedilatildeo e a captura de RLBs Delineado preliminarmente o modelo partiu-se para as etapas de levantamento e anaacutelise de requisitos representada pelos diagramas e pelas descriccedilotildees dos casos de uso chegando-se ao desenvolvimento do seu modelo conceitual que culminou a construccedilatildeo dos diagramas de classes e de sequumlecircncia para a aplicaccedilatildeo proposta Ao final conclui-se que a alternativa indicada neste trabalho aleacutem de ser exequumliacutevel apresenta ganhos qualitativos nos resultados de uma busca em recuperaccedilatildeo de informaccedilotildees e tambeacutem quantitativos no que se refere a um menor tempo na fase de indexaccedilatildeo (rapidez) e um tamanho menor de arquivos de iacutendice gerados (memoacuteria)
Palavras-chave Recuperaccedilatildeo de Informaccedilatildeo Sintagmas Nominais Estrutura de Qualia Termos e RLBs
ix
ABSTRACT
This work has the presentation of a new model of a support information system to the user in the process of information retrieval The proposal consists in the support during the definition of a search query based on the identification of the possibilities of informatization and junction of a Kuramoto model along with the Gonzalez structure For its construction it was necessary to analyze and synthesize the support model to the Kuramoto user (base don the determination of Nominal Syntagm) the Qualia structure of the Lexical Semantics of Pustejovsky and having the LBRs (lexical binary relations) of the Gonzalez TR+ model The result we expect to reach is the possibility of actually performing an interaction that may result in an adequate negotiation of meanings between the user and the machine knowing that this negotiation should result in a fundamental factor in order for the improvement on the efficiency of the search processes The Kuramoto model based on Nominal Syntagm hierarchy initially supports this interaction With the definition of the query search and the Pustejovsky Qualia structure implicit in the TR+ Gonzalez model it was possible to obtain a greater relevance of documents recovered through a calculus of weight of describers (terms and relationships) evident in the document The general stages of the proposed model are the extraction of Nominal Syntagm and their automatic placement into hierarchy the pre-processing (tokening and labeling) the naming and capture of the LRBs After the preliminary outlining of the model we went on to the gathering of stages and requisite analysis presented by diagrams and descriptions of the usage cases finally reaching the development of a conceptual model that culminated in the construction of class diagrams and of a sequence for the proposed application As we reach the end we can conclude that the indicated alternative in this work besides being executable presents qualitative gains in the results of a search for the retrieval of information and also quantitative gains when referring to a smaller amount of time spent in the index phase (speed) and a smaller amount of archives generated (memory)
Key-words Retrieval of Information Nominal Syntagm Qualia Structure Terms e LRBs
x
SUMAacuteRIO
AGRADECIMENTOS iv
IacuteNDICE DE FIGURAS v
IacuteNDICE DE TABELAS vi
IacuteNDICE DE TABELAS vi
SIGLAS vii
RESUMOviii
ABSTRACT ix
SUMAacuteRIOx
1 INTRODUCcedilAtildeO 12
11 Objetivos13 111 Objetivo Geral 13 112 Objetivos Especiacuteficos 13
12 Metodologia13
13 Resultados Esperados e Limitaccedilotildees do Trabalho 14
14 Estrutura da Dissertaccedilatildeo 15
2 RECUPERACcedilAtildeO DE INFORMACcedilAtildeO 16
21 Histoacuterico 16
22 Modelos Claacutessicos de Recuperaccedilatildeo de Informaccedilatildeo 18 221 Modelo Booleano 18
2211 Operadores Booleanos19 2212 Operadores de Proximidade 20
222 Modelo Vetorial21 223 Modelo Probabiliacutestico 23
3 FUNDAMENTACcedilAtildeO TEacuteORICA25
31 A Proposta de Kuramoto 25 311 Extraccedilatildeo dos Sintagmas Nominais 27
3111 Extraccedilatildeo Automaacutetica de Sintagmas Nominais 29 312 A determinaccedilatildeo de uma estrutura para os SN 29
xi
313 Protoacutetipo Desenho da Interface de Busca31 314 Organizaccedilatildeo dos Sintagmas Nominais como Estrutura de Busca 32
32 A Teoria do Leacutexico Gerativo de Pustejovsky34 321 Estruturas do Leacutexico Gerativo36
3211 Estrutura de Argumento 37 3212 Estrutura de Evento 37 3213 Estrutura de Qualia 38 3214 Estrutura de Heranccedila Lexical 40
322 Sistema de Tipos Semacircnticos 41 322 Mecanismos gerativos 42
3221 Coerccedilatildeo de tipo42 3222 Ligaccedilatildeo seletiva 42 3223 Co-composiccedilatildeo 43
33 O Modelo TR+ de Gonzalez45
4 APRESENTACcedilAtildeO E DISCUSSAtildeO DO MODELO PROPOSTO 55
41 Procedimentos desenvolvidos utilizando o modelo de SN de Kuramoto e a proposta Gonzalez - ldquoEstrutura SINTR+rdquo55
42 Descriccedilatildeo Formal do Modelo Proposto SINTR+ 64
5 CONCLUSAtildeO77
6 REFEREcircNCIAS BIBLIOGRAacuteFICAS 80
61 Bibliografia Consultada82
ANEXO A - DOCUMENTO186
ANEXO B - DOCUMENTO288
ANEXO C - EXTRACcedilAtildeO MANUAL DE SN DOS DOCUMENTOS91
ANEXO D - FERRAMENTA1 DE TOQUENIZACcedilAtildeO E ETIQUETAGEM99
ANEXO D - FERRAMENTA2 DE TOQUENIZACcedilAtildeO E ETIQUETAGEM102
ANEXO E - PROCESSO DE NOMINALIZACcedilAtildeO105
12
1 INTRODUCcedilAtildeO
O tema ldquoRecuperaccedilatildeo de Informaccedilatildeordquo (RI) eacute importante para diversas aacutereas tais
como Biblioteconomia Linguumliacutestica Ciecircncia da Computaccedilatildeo entre outras Segundo Baeza-
Yates e Ribeiro-Neto (1999) na Ciecircncia da Computaccedilatildeo esse tema diz respeito agrave recuperaccedilatildeo
de dados e agrave recuperaccedilatildeo de informaccedilatildeo sendo ambos processos importantes e significativos
para a aacuterea
De acordo com os autores os sistemas de recuperaccedilatildeo de informaccedilatildeo lidam com
objetos linguumliacutesticos (textos) e por isso herdam toda a problemaacutetica inerente ao tratamento da
linguagem natural Jaacute a recuperaccedilatildeo de dados estaacute associada a sistemas gerenciadores de
banco de dados (ou simplesmente banco de dados) que ao organizaacute-los jaacute especificam de
forma bem definida a sua estrutura e por conseguinte a sua semacircntica
Um dos desafios na recuperaccedilatildeo de informaccedilatildeo conforme Ferneda (2003) diz
respeito a melhorar a relevacircncia dos resultados de uma busca de maneira que o usuaacuterio possa
encontrar todos os documentos que atendam agraves suas necessidades de informaccedilatildeo Em outras
palavras isto quer dizer que a busca seraacute precisa se conseguir retornar eou listar somente
documentos relacionados ao que o usuaacuterio expressou na definiccedilatildeo da sua busca
Diversos modelos de RI vecircm proporcionando melhorias significativas na relevacircncia
dos resultados De acordo com Baeza-Yates e Ribeiro-Neto (1999) em uma visatildeo centrada no
computador o problema de RI consiste principalmente na construccedilatildeo de iacutendices mais
eficientes no processamento de querys de usuaacuterios com alta performance e no
desenvolvimento de algoritmos de classificaccedilatildeo que melhorem a ldquoqualidaderdquo do conjunto de
respostas Apesar disso os meacutetodos utilizados nesses modelos ainda deixam a desejar natildeo
sendo capazes de recuperar a contento os documentos relevantes a uma consulta do usuaacuterio
Na maioria dos modelos de recuperaccedilatildeo de informaccedilatildeo existentes hoje o processo de
indexaccedilatildeo extrai cada palavra do texto de um documento e insere uma lista de palavras
ordenadas pela frequumlecircncia da palavra no texto Isto desfaz o trabalho intelectual do autor do
documento
Observa-se que diversas pesquisas de RI se focalizam nos algoritmos de busca por
documentos relevantes a partir de querys estabelecidas O foco nesses casos eacute determinar a
relevacircncia de documentos Para isso haacute vaacuterias metodologias desde medir o tempo de
13
permanecircncia do usuaacuterio no acesso a um documento ateacute a determinaccedilatildeo da quantidade de
consultas com querys semelhantes entre outras
Outro aspecto problemaacutetico relaciona-se ao fato de que as informaccedilotildees recuperadas
dependem tambeacutem da clareza do usuaacuterio ao expressar o que necessita Ou seja a dificuldade
natildeo se trata apenas de identificar e definir a relevacircncia dos resultados atraveacutes dos modelos
computacionais de RI que datildeo suporte ao processo da busca mas da capacidade do usuaacuterio de
formular uma expressatildeo de busca utilizando as palavras ou expressotildees de forma clara de
modo a representar os documentos desejados satisfazendo assim a sua necessidade
As palavras utilizadas pelo usuaacuterio possuem um significado claro para ele mas isso
natildeo eacute suficiente para uma boa recuperaccedilatildeo de informaccedilatildeo pois a Liacutengua Portuguesa segundo
Rossi (2003) apresenta muitas palavras iguais com significados diferentes (polissemia) que
variam de acordo com o contexto E haacute tambeacutem palavras diferentes em escrita e pronuacutencia
embora com significados iguais (sinoniacutemia) Ocorre ainda a combinaccedilatildeo de palavras que
segundo Martins e Zilberknop (1999) diz respeito a duas ou mais palavras que podem
combinar-se em ordem diferente designando ideacuteias completamente diversas
Esses aspectos da linguagem natural satildeo obstaacuteculos na obtenccedilatildeo de bons resultados
em um procedimento de recuperaccedilatildeo de informaccedilatildeo No caso da polissemia e da combinaccedilatildeo
de palavras pode ocorrer o aumento da taxa de ruiacutedos1 ou o incremento da taxa de silecircncio2
que acontecem no caso de sinoniacutemia Isto pode levar a um resultado de busca de documentos
que natildeo atenda agraves necessidades de informaccedilatildeo do usuaacuterio Portanto a existecircncia de uma
negociaccedilatildeo de significados entre usuaacuterio e maacutequina levaria possivelmente a resultados mais
relevantes
O surgimento das novas tecnologias da informaccedilatildeo e da comunicaccedilatildeo fez crescer o
volume de publicaccedilotildees na Internet Esse crescimento segundo Cardoso (2000) tem
dificultado ainda mais a recuperaccedilatildeo de informaccedilotildees relevantes Um aspecto positivo eacute a
facilidade de acesso pela Web (World Wide Web) aos acervos bibliograacuteficos de diversas
universidades brasileiras e mesmo do mundo inteiro Visto que o aumento do acervo torna
ainda mais complexa a busca por isso esperava-se que esses meacutetodos acompanhassem tal
desenvolvimento mas isto ainda natildeo aconteceu de forma satisfatoacuteria
A dificuldade aparece rapidamente nos vaacuterios mecanismos da Web como ldquoGooglerdquo
ldquoCaderdquo entre outros que ao serem acionados para buscar uma determinada informaccedilatildeo
1 Taxa de ruiacutedos eacute definida como sendo a relaccedilatildeo entre a quantidade de documentos recuperados natildeo pertinentes e a quantidade total de documentos 2 Taxa de silecircncio eacute definida como sendo a relaccedilatildeo entre a quantidade de documentos recuperados pertinentes natildeo recuperados e a quantidade total de documentos pertinentes na base de dados
14
listam centenas ou mesmo milhares de referecircncias como resposta sendo normalmente destas
relevantes apenas as primeiras Aleacutem disso ao se utilizarem as mesmas palavras em diferentes
mecanismos (sites) de pesquisa os resultados variam segundo Hill (1999) devido agraves rotinas
automatizadas de pesquisa diferenciadas
O usuaacuterio precisa ainda utilizar palavras-chave para dar foco agrave sua pesquisa Segundo
Baeza-Yates e Ribeiro-Neto (1999) o interessante seria jaacute poder dizer ldquoDecirc-me dados
estatiacutesticos sobre a equipe da seleccedilatildeo brasileira de basquete no ano de 2004rdquo Mas apesar de a
tecnologia da Internet estar progredindo ainda se estaacute bastante distante desse estaacutegio
Uma linha de pesquisa que tem como representante o trabalho de Kuramoto (1999)
procura abordar a questatildeo da RI desde a perspectiva do apoio ao usuaacuterio na formulaccedilatildeo da
query de busca A expectativa eacute oferecer jaacute no momento da formulaccedilatildeo da query um apoio
interativo para o estabelecimento de uma chave mais adequada ao contexto real da busca A
proposta de Kuramoto eacute baseada na determinaccedilatildeo dos Sintagmas Nominais (SN) de um
domiacutenio de aplicaccedilatildeo
O uso de SN permite um processo de refinamento da busca A forma de navegar
pelos niacuteveis de SN intensifica a interaccedilatildeo entre o usuaacuterio e o computador (KURAMOTO
2002) A interface de busca passa a dar um suporte para o usuaacuterio na formulaccedilatildeo de sua query
antes de listar todos os documentos
A proposta de utilizaccedilatildeo de uma interface de apoio utilizando SN configura-se como
inovadora pois natildeo se tem conhecimento de outra proposiccedilatildeo que considere o fato de que nem
sempre o usuaacuterio eacute capaz de explicitar a sua necessidade de informaccedilatildeo em uma uacutenica
expressatildeo de busca
Segundo Kuramoto (2002) as palavras como unidades de um dicionaacuterio natildeo contecircm
qualquer substacircncia Elas adquirem essa substacircncia no momento em que se inserem no
universo do discurso ou seja as palavras inseridas no texto de um documento assumem um
significado especiacutefico
Percebe-se que essa linha de pesquisa eacute bastante promissora e que a aacuterea de
Linguumliacutestica pode oferecer alternativas interessantes uma delas foi vislumbrada na teoria do
Leacutexico Gerativo (LG) de Pustejovsky (1991) Nessa teoria Pustejovsky buscando dar conta
da polissemia loacutegica das palavras propondo uma estrutura para a semacircntica de uma liacutengua da
mesma forma que a sintaxe eacute estruturada Na estrutura proposta por Pustejovsky a
componente principal eacute a estrutura de dimensotildees de significados (denominada de Estrutura de
Qualia)
15
Uma palavra escrita pelo usuaacuterio pode ser utilizada pelos documentos de um acervo
e portanto identificada pela maacutequina atraveacutes de seus modelos de RI com um sentido
completamente diferente do contexto imaginado pelo usuaacuterio Para a palavra ldquojornalrdquo por
exemplo o usuaacuterio pode estar se referindo ao preacutedio onde fica o jornal ou ao objeto fiacutesico
propriamente dito ou ateacute mesmo ao conteuacutedo do jornal (informaccedilatildeo contida)
A Estrutura de Qualia auxilia a RI na identificaccedilatildeo de qual sentido mais especiacutefico o
usuaacuterio busca dessa forma esta estrutura poderia classificar os documentos contendo a palavra
ldquojornalrdquo segundo as diferentes qualia envolvidas Isso representaria um refinamento
importante na busca que poderia resultar em mais satisfaccedilatildeo para o usuaacuterio e portanto mais
eficiecircncia dos mecanismos de busca O reconhecimento da importacircncia da teoria de
Pustejovsky pode ser constatado na existecircncia de trabalhos relacionados na liacutengua portuguesa
como eacute o caso da pesquisa de Abrahatildeo (1997) que desenvolveu a modelagem e a
implementaccedilatildeo de um leacutexico semacircntico para a nossa Liacutengua a partir de um estudo
aprofundado da teoria de Pustejovsky
Aleacutem disso uma outra questatildeo importante a ressaltar eacute que existem problemas
ligados agrave definiccedilatildeo das palavras Essa criacutetica segundo Rossi (2003) se fundamenta no fato de
os lexicoacutegrafos3 parecerem atuar de maneira mais intuitiva do que propriamente fazer uso de
teorias semacircnticas que decircem o devido suporte agrave tarefa de definir um item lexical Rossi (2003)
reforccedila que muitos dicionaacuterios nem sempre prevecircem a polissemia subjacente aos itens
lexicais
Outro trabalho pesquisado que permitiu uma ampliaccedilatildeo do modelo proposto nesta
dissertaccedilatildeo foi o de Gonzalez (2005) com o seu modelo TR+ Este modelo natildeo utiliza
sistematicamente a Estrutura de Qualia aparecendo esta apenas impliacutecita principalmente a
parte formal das palavras As palavras e seus relacionamentos ganham em Gonzalez uma
importacircncia contextual pelo caacutelculo de um peso (peso de descritores) que busca manter sua
unidade significativa
A abordagem proposta para este trabalho orienta-se na melhoria da query de busca
dos usuaacuterios A pesquisa siacutentese e sistematizaccedilatildeo da proposta de Kuramoto (1999) e do
modelo de Gonzalez (2005) possibilitaram o desenvolvimento de um novo modelo chamado
3 Lexicoacutegrafos satildeo autores de dicionaacuterios ou seja dicionaristas
de SINTR+ Esse modelo utiliza a formulaccedilatildeo de consulta em RI apresentando os Sintagmas
Nominais referentes a esta consulta e com isto inicia a interaccedilatildeo com o usuaacuterio onde o mesmo
13
escolhe o SN de niacutevel apropriado e a partir daiacute haacute sistematizaccedilatildeo com o modelo TR+ de
Gonzalez
Pretende-se por um lado ajudar e apoiar o usuaacuterio a melhor especificar sua query no
contexto real da sua busca por outro lado potencializa-se o tempo tanto na fase de indexaccedilatildeo
como na de busca e reduz-se o espaccedilo utilizado de memoacuteria para dados na base
11 Objetivos
111 Objetivo Geral
Descrever a partir da identificaccedilatildeo das possibilidades de ampliaccedilatildeo de siacutentese e de
sistematizaccedilatildeo das propostas de Kuramoto e de Gonzalez um novo modelo para um sistema
informatizado de suporte ao usuaacuterio na definiccedilatildeo da sua query de busca durante um processo
de recuperaccedilatildeo de informaccedilatildeo
112 Objetivos Especiacuteficos
a) Analisar as propostas citadas buscando a sua sistematizaccedilatildeo e identificaccedilatildeo de alternativas
de implementaccedilatildeo e ampliaccedilatildeo
b) Definir o modelo conceitual do sistema desejado atraveacutes da sua anaacutelise de domiacutenio
representando-o a partir dos seus diagramas de classes e de sequumlecircncia
c) Avaliar exploratoriamente o modelo desenhado a partir da construccedilatildeo de exemplos
demonstrativos das suas principais propriedades
12 Metodologia
Para a construccedilatildeo deste trabalho inicialmente foi realizada uma revisatildeo bibliograacutefica
a partir de livros artigos e outros materiais disponiacuteveis referentes ao assunto em questatildeo
fundamentalmente sobre a aacuterea de Recuperaccedilatildeo de Informaccedilatildeo A metodologia utilizada para
desenvolver este trabalho baseou-se no cronograma de etapas a serem desenvolvidas descritas
a seguir
14
a) Estudo e identificaccedilatildeo das diferentes alternativas e abordagens atualmente desenvolvidas
para a aacuterea de recuperaccedilatildeo de informaccedilotildees
b) Formulaccedilatildeo da proposta de trabalho definiccedilatildeo do escopo e da fundamentaccedilatildeo da proposta
c) Estudo das teorias de base para a construccedilatildeo do modelo teoria do Leacutexico Gerativo de
James Pustejovsky e o modelo de Kuramoto E apoacutes um estudo de Abrahatildeo e Gonzalez
d) Esboccedilo do modelo para o sistema proposto
e) Especificaccedilatildeo dos requisitos do sistema proposto
f) Construccedilatildeo da anaacutelise de domiacutenio definiccedilatildeo do modelo conceitual
g) Construccedilatildeo dos diagramas de classes e de sequumlecircncia para o modelo
h) Construccedilatildeo de exemplos de aplicaccedilatildeo do modelo
i) Anaacutelise e conclusotildees finais
13 Resultados Esperados e Limitaccedilotildees do Trabalho
A principal contribuiccedilatildeo deste trabalho reside no fato de sistematizar as teorias de
Kuramoto Pustejovsky e Gonzalez construindo um novo modelo que amplia as
potencialidades das propostas de Kuramoto e Gonzalez melhorando os resultados do processo
de recuperaccedilatildeo de informaccedilotildees Esta melhoria ocorre em relaccedilatildeo agrave diminuiccedilatildeo do tempo de
busca dos documentos e agrave relevacircncia dos resultados encontrados por meio da junccedilatildeo de
diferentes modelos para os processos de indexaccedilatildeo e busca
A princiacutepio o modelo construiacutedo eacute antevisto como aplicaacutevel a bases de documentos
natildeo distribuiacutedas e contidas a um determinado domiacutenio de aplicaccedilatildeo mas jaacute eacute possiacutevel
perceber formas de adaptaacute-lo expandindo-o para seu uso na Web
Este trabalho natildeo tem o intuito de gerar uma implementaccedilatildeo computacional
completa do modelo proposto propotildee-se antes a demonstrar a viabilidade desta
implementaccedilatildeo descrevendo os diagramas e as descriccedilotildees dos casos de uso e a sua
modelagem conceitual culminando a construccedilatildeo dos diagramas de classes e de sequumlecircncia A
anaacutelise das potencialidades e limitaccedilotildees do modelo deveraacute ser possiacutevel a partir da realizaccedilatildeo
de estudos de casos onde se determine a complexidade computacional da implementaccedilatildeo
requerida
15
14 Estrutura da Dissertaccedilatildeo
O trabalho apresenta um capiacutetulo introdutoacuterio que orienta os toacutepicos do projeto e o
desenvolvimento da pesquisa aleacutem de sintetizar os resultados que seratildeo explorados na
conclusatildeo
O Capiacutetulo 2 a seguir aborda temas e definiccedilotildees da aacuterea de RI mostrando a sua
histoacuteria e tambeacutem discute o funcionamento e as vantagens e desvantagens dos modelos
claacutessicos de RI
No Capiacutetulo 3 apresenta-se a fundamentaccedilatildeo teoacuterica desta dissertaccedilatildeo onde satildeo
abordados trecircs autores Primeiramente apresenta-se a Proposta de Kuramoto que se baseia nos
niacuteveis de Sintagmas Nominais sendo exposto o protoacutetipo de interaccedilatildeo entre usuaacuterio e maacutequina
desenvolvido por este autor Na Teoria do Leacutexico Gerativo de Pustejovsky deu-se ecircnfase agrave
apresentaccedilatildeo da Estrutura de Qualia pois eacute a que foi julgada mais adequada para a aplicaccedilatildeo
no modelo proposto apresenta-se tambeacutem uma anaacutelise do estudo de Abrahatildeo Por fim
discute-se e apresenta-se o trabalho de Gonzalez e do seu modelo TR+ que possibilitou
juntamente com a proposta de Kuramoto sistematizar a proposta desta dissertaccedilatildeo
No Capiacutetulo 4 eacute desenvolvida a proposta do sistema SINTR+ atraveacutes dos diagramas e
das descriccedilotildees dos casos de uso do modelo o modelo conceitual os diagramas de classes e de
sequumlecircncia juntamente com exemplos demonstrativos das suas propriedades
No Capiacutetulo 5 tecircm-se as conclusotildees referentes ao trabalho bem como as sugestotildees
para continuidade desse foco de pesquisa
O Capiacutetulo 6 apresenta as referecircncias bibliograacuteficas utilizadas para a realizaccedilatildeo deste
trabalho bem como a bibliografia consultada para a compreensatildeo de conceitos abordados na
dissertaccedilatildeo finalizando com os anexos
16
2 RECUPERACcedilAtildeO DE INFORMACcedilAtildeO
Neste capiacutetulo apresentam-se o histoacuterico e os modelos claacutessicos da aacuterea de
recuperaccedilatildeo de informaccedilatildeo O objetivo ao abordar esses toacutepicos eacute delinear uma visatildeo geral da
aacuterea a partir de diversos modelos de RI apontando algumas de suas principais vantagens e
desvantagens Dar-se-aacute destaque ao fato de que os algoritmos de relevacircncia utilizados para
recuperar os documentos desconsideram o contexto da query de busca
21 Histoacuterico
Em 1951 segundo Baeza-Yates e Ribeiro-Neto (1999) Calvin Mooers criou o termo
ldquoInformation Retrievalrdquo (Recuperaccedilatildeo de Informaccedilatildeo) e definiu os problemas a serem
abordados por esta nova aacuterea de pesquisa a qual despertou o interesse principalmente de
bibliotecaacuterios e ldquoexpertsrdquo da informaccedilatildeo
No contexto da Ciecircncia da Informaccedilatildeo segundo Ferneda (2003 p 14)
o termo ldquoRecuperaccedilatildeo de Informaccedilatildeordquo significa para uns a operaccedilatildeo pela qual se seleciona documentos a partir do acervo em funccedilatildeo da demanda do usuaacuterio Para outros ldquoRecuperaccedilatildeo de Informaccedilatildeordquo consiste no fornecimento a partir de uma demanda definida pelo usuaacuterio dos elementos de informaccedilatildeo documentaacuteria correspondentes O termo pode ainda ser empregado para designar a operaccedilatildeo que fornece uma resposta mais ou menos elaborada a uma demanda e esta resposta eacute convertida num produto cujo formato eacute acordado com o usuaacuterio (bibliografia nota de siacutentese etc) Haacute ainda autores que conceituam a recuperaccedilatildeo de informaccedilatildeo de forma muito mais ampla ao subordinar agrave mesma o tratamento da informaccedilatildeo (catalogaccedilatildeo indexaccedilatildeo classificaccedilatildeo)
Para alguns autores segundo Cardoso (2000) RI eacute dita como uma subaacuterea da Ciecircncia
da Computaccedilatildeo que estuda o armazenamento e a recuperaccedilatildeo automaacutetica de documentos que
satildeo objetos de dados geralmente textos Para Baeza-Yates e Ribeiro-Neto (1999) o termo
ldquoRecuperaccedilatildeo de Informaccedilatildeordquo trata da representaccedilatildeo do armazenamento da organizaccedilatildeo e do
acesso aos itens da informaccedilatildeo
De acordo com Ferneda (2003) foi a partir dos experimentos de Hans Peter Luhn
(Engenheiro pesquisador da IBM) na indexaccedilatildeo automaacutetica e na elaboraccedilatildeo automaacutetica de
resumos que surgiram os primeiros resultados significativos no tratamento computacional da
informaccedilatildeo Com isto ldquoLuhn foi durante vaacuterios anos o criador de inuacutemeros projetos que
visavam modificar radicalmente meacutetodos tradicionais de armazenamento tratamento e
17
recuperaccedilatildeo de informaccedilatildeo Em 1961 jaacute acumulava cerca de 80 patentes nos Estados Unidosrdquo
(FERNEDA 2003 p 10-11) Estes dados mostram a importacircncia de Luhn no tratamento da
recuperaccedilatildeo de informaccedilotildees
Em 1960 segundo Ferneda (2003) foi desenvolvido os princiacutepios baacutesicos do modelo
probabiliacutestico para a Recuperaccedilatildeo de Informaccedilatildeo por Maron e Kuhns que foi mais tarde
definido por Robertson e Jones (1976) A deacutecada de 60 foi fundamental em experimentos
desta natureza ldquoem meados dos anos 60 inicia-se uma longa seacuterie de experimentos que
constitui um marco na Recuperaccedilatildeo de Informaccedilatildeo o projeto SMARTrdquo (FERNEDA 2003
p11) Este autor destaca que este projeto foi desenvolvido por Gerard Salton que se
especializou na pesquisa destas evoluccedilotildees na recuperaccedilatildeo de informaccedilotildees produzindo
inuacutemeros artigos cientiacuteficos um modelo de recuperaccedilatildeo de informaccedilatildeo a criaccedilatildeo e o
aprimoramento de diversas teacutecnicas computacionais aleacutem de o sistema SMART
Estes sistemas de recuperaccedilatildeo de informaccedilatildeo geralmente se baseiam na contagem de
frequumlecircncia das palavras do texto e na eliminaccedilatildeo de palavras reconhecidamente de pouca
relevacircncia (FERNEDA 2003) Um exemplo disso satildeo os meacutetodos automaacuteticos de indexaccedilatildeo
de recuperaccedilatildeo de informaccedilatildeo que utilizam ldquofiltrosrdquo para eliminar palavras de pouca
significaccedilatildeo (stopwords4 e noun groups5) aleacutem de normalizar os termos reduzindo-os a seus
radicais Esse processo eacute conhecido como stemming6
Ferneda evidencia que os trabalhos de Luhn e Salton inicialmente natildeo se
preocupavam com a anaacutelise semacircntica das palavras e que seus estudos colaboraram para com
a evoluccedilatildeo atual das pesquisas
Nos trabalhos de Luhn e Salton observa-se inicialmente uma crenccedila de que meacutetodos puramente estatiacutesticos seriam suficientes para tratar os problemas relacionados agrave recuperaccedilatildeo de informaccedilatildeo Poreacutem no transcorrer de suas pesquisas percebe-se uma busca por meacutetodos de anaacutelise semacircntica mais sofisticada Desde os seus primeiros trabalhos Salton se mostra interessado pela utilizaccedilatildeo de processos de tratamento da linguagem natural na recuperaccedilatildeo de informaccedilatildeo Em livro de 1983 Salton e McGill apresentam em um capiacutetulo intitulado Future directions in Information Retrieval a aplicaccedilatildeo do processamento da linguagem natural e da loacutegica fuzzy na recuperaccedilatildeo de informaccedilatildeo apontando a direccedilatildeo de futuras pesquisas para a Inteligecircncia Artificial (FERNEDA 2003 p 12)
Estas contribuiccedilotildees tecircm suas principais ideacuteias presentes ainda na maioria dos
sistemas de recuperaccedilatildeo atuais e nos mecanismos de busca da Web Como aparece na estrutura
de componentes de um sistema de recuperaccedilatildeo de informaccedilatildeo que seguem geralmente um
modelo de funcionamento como demonstrado por Cardoso (2000)
4 Stop Words eliminaccedilatildeo de artigos e conectivos 5 Noun Groups eliminaccedilatildeo de adjetivos adveacuterbios e verbos 6 Stemming reduccedilatildeo de uma palavra ao seu radical Exemplo Engineering Engineer
18
Figura 1 Componentes de um Sistema de Recuperaccedilatildeo de Informaccedilatildeo Fonte GEY apud CARDOSO 2000
22 Modelos Claacutessicos de Recuperaccedilatildeo de Informaccedilatildeo
221 Modelo Booleano
A aacutelgebra booleana eacute um sistema binaacuterio no qual existem somente dois valores
possiacuteveis para qualquer siacutembolo algeacutebrico ldquoverdadeirordquo ou ldquofalsordquo O modelo booleano eacute um
modelo de recuperaccedilatildeo simples baseado na teoria dos conjuntos e na aacutelgebra booleana Aleacutem
disso as querys satildeo especificadas atraveacutes de expressotildees booleanas que tecircm semacircnticas
precisa
Segundo Baeza-Yates e Ribeiro-Neto (1999) e Gonzalez (2000) a simplicidade e o
formalismo claro do modelo booleano recebiam grande atenccedilatildeo nos anos passados sendo
adotados por muitos sistemas comerciais bibliograacuteficos
A estrateacutegia de recuperaccedilatildeo desse modelo eacute baseada em um criteacuterio de decisatildeo
binaacuteria por exemplo um documento pode ser relevante ou natildeo relevante sem noccedilatildeo de escala
de classificaccedilatildeo que previna um bom desempenho na recuperaccedilatildeo Deste modo o modelo
booleano eacute na verdade muito mais um modelo de recuperaccedilatildeo de dados (em vez de
informaccedilatildeo)
19
Aleacutem disso conforme Baeza-Yates e Ribeiro-Neto (1999) enquanto expressotildees
booleanas tecircm semacircnticas precisas frequumlentemente natildeo eacute simples traduzir uma informaccedilatildeo
precisa dentro de uma expressatildeo booleana O modelo booleano prediz que cada documento eacute
relevante ou irrelevante Natildeo existe noccedilatildeo de um resultado (matching) parcial para as
condiccedilotildees da query
As principais vantagens do modelo booleano satildeo o formalismo claro oculto sobre o
modelo e sua simplicidade As principais desvantagens encontram-se no resultado exato que
pode recuperar poucos ou muitos documentos
Figura 2 Exemplo dos trecircs componentes conjuntivos para query Fonte BAEZA-YATES RIBEIRO-NETO 1999
2211 Operadores Booleanos
Os operadores booleanos funcionam atraveacutes de uma expressatildeo booleana para
formulaccedilatildeo de buscas Isto ocorre por meio de operadores loacutegicos AND OR e NOT (E OU e
NAtildeO) Conforme exemplo de Ferneda (2003) a recuperaccedilatildeo de informaccedilatildeo se daraacute em uma
expressatildeo conjuntiva de enunciado t1 AND t2 que recuperaraacute documentos indexados por
ambos os termos (t1 e t2) Isso equivale e permite aparecer agrave intersecccedilatildeo do conjunto dos
documentos indexados pelo termo t1 com o conjunto dos documentos indexados pelo termo
t2
Figura 3 Representaccedilatildeo do resultado de uma expressatildeo booleana conjuntiva (AND) Fonte FERNEDA 2003
20
O autor demonstra que uma expressatildeo disjuntiva t1 OR t2 recuperaraacute o conjunto dos
documentos indexados pelo termo t1 ou pelo termo t2 Isto equivale e possibilita agrave uniatildeo entre
o conjunto dos documentos indexados pelo termo t1 e o conjunto dos documentos indexados
pelo termo t2 (FERNEDA 2003)
Figura 4 Resultado de uma busca booleana disjuntiva (OR) Fonte FERNEDA 2003
2212 Operadores de Proximidade
No modelo booleano existem os operadores de proximidade que permitem
especificar condiccedilotildees relacionadas agrave distacircncia e agrave posiccedilatildeo dos termos no texto Um operador
de proximidade bastante comum nos sistemas de RI e nos mecanismos de busca da Web eacute o
operador ADJ (FERNEDA 2003) Esse operador permite pesquisar duas palavras adjacentes
no texto de um documento na ordem especificada na expressatildeo de busca por exemplo a
expressatildeo recuperaccedilatildeo ADJ informaccedilatildeo teraacute como resultado os documentos que tiverem a
palavra ldquorecuperaccedilatildeordquo seguida da palavra ldquoinformaccedilatildeordquo ou seja recuperaraacute documentos que
contecircm a expressatildeo ldquorecuperaccedilatildeo informaccedilatildeordquo Tambeacutem pode ser utilizado um termo
composto delimitando as suas palavras com aspas por exemplo ldquorecuperaccedilatildeo de
informaccedilatildeordquo
O modelo booleano de acordo com Ferneda (2003) possui limitaccedilotildees que o torna
pouco atrativo satildeo elas
bull O resultado de uma busca booleana se caracteriza por dois subconjuntos os que
atendem agrave expressatildeo de busca e aqueles que natildeo atendem Presume-se que todos
os documentos recuperados satildeo de igual utilidade para o usuaacuterio Natildeo haacute nenhum
mecanismo pelos quais os documentos possam ser ordenados
bull O usuaacuterio leigo se natildeo tiver um treinamento apropriado formularaacute somente
buscas simples Para buscas com expressotildees mais complexas eacute necessaacuterio um
conhecimento da loacutegica booleana
21
bull Natildeo existe uma forma de atribuir importacircncia relativa aos diferentes termos da
expressatildeo booleana Assume-se implicitamente que todos os termos tecircm o mesmo
peso
222 Modelo Vetorial
O modelo vetorial segundo Baeza-Yates e Ribeiro-Neto (1999) reconhece que o uso
de pesos binaacuterios eacute tambeacutem limitante e propotildee uma estrutura em que eacute possiacutevel a resposta
(matching) parcial Isto eacute feito atribuindo-se pesos natildeo binaacuterios aos termos indexados em
querys e em documentos Esses pesos de termos satildeo enfim utilizados para calcular o grau de
similaridade entre cada documento armazenado no sistema e a expressatildeo de busca formulada
pelo usuaacuterio (querys) Como a classificaccedilatildeo dos documentos recuperados eacute feita em ordem
decrescente desse grau de similaridade o modelo vetorial leva em consideraccedilatildeo documentos
que se igualem aos termos de querys somente parcialmente
O modelo vetorial de acordo com Cardoso (2000) e Gonzalez (2000) representa
documentos e consultas como vetores de termos Os termos satildeo ocorrecircncias uacutenicas nos
documentos Os documentos retornados como resultado para uma consulta satildeo representados
similarmente isto quer dizer que o vetor resultado para uma consulta eacute montado atraveacutes de um
caacutelculo de similaridade Aos termos das consultas e dos documentos satildeo atribuiacutedos pesos que
especificam o tamanho e a direccedilatildeo de seu vetor de representaccedilatildeo O acircngulo formado por esses
vetores determina a proximidade da ocorrecircncia E o caacutelculo da similaridade eacute baseado no
acircngulo entre os vetores que representam o documento e a consulta
Cardoso (2000) descreve ainda que os pesos quantificam a relevacircncia de cada termo
para as consultas (Wiq) e para os documentos (Wid) no espaccedilo vetorial Segundo Cardoso
(2000 p 03) ldquopara o caacutelculo dos pesos Wiq e Wid utiliza-se uma teacutecnica que faz o
balanceamento entre as caracteriacutesticas do documento utilizando o conceito de frequumlecircncia de
um termo num documentordquo Desta forma se uma coleccedilatildeo possui N documentos e teremos o nti
que eacute a quantidade de documentos que possuem o termo ti com isto o inverso da frequumlecircncia
do termo na coleccedilatildeo ou idf (inverse documento frequency) eacute dado pela foacutermula de Cardoso
(2000) abaixo
idfi = log (Nni)
22
Esse valor eacute possiacutevel usando a foacutermula para calcular o peso Wid = freq(tid) x idfi
que eacute o produto da frequumlecircncia do termo no documento pelo inverso da frequumlecircncia do termo na
coleccedilatildeo
No modelo vetorial um documento eacute representado por um vetor em que cada
elemento representa o peso ou a relevacircncia do respectivo termo de indexaccedilatildeo para o
documento Cada elemento do vetor (peso) eacute normalizado de forma a assumir valores entre
zero e um Os pesos mais proacuteximos de um (1) indicam termos com maior importacircncia para a
descriccedilatildeo do documento E termos que natildeo estatildeo presentes em um determinado documento
possuem peso igual a zero
Da mesma forma que os documentos no modelo vetorial uma expressatildeo de busca
conforme Baeza-Yates e Ribeiro-Neto (1999) tambeacutem eacute representada por um vetor numeacuterico
em que cada elemento representa a importacircncia (peso) do respectivo termo na expressatildeo de
busca
Diversos documentos e termos de indexaccedilatildeo podem ser representados atraveacutes de uma
matriz na qual cada linha representa um documento e cada coluna representa a associaccedilatildeo de
um determinado termo aos vaacuterios documentos
Figura 5 O co-seno do acircngulo adaptado como similar (dj q) Fonte BAEZA-YATES RIBEIRO-NETO 1999
Um exemplo de uso do modelo vetorial eacute o sistema SMART7 citado anteriormente
este sistema representa por valor numeacuterico cada documento e seu respectivo termo na
descriccedilatildeo do documento Segundo Ferneda (2003) o sistema SMART fornece um meacutetodo
automaacutetico que trata aleacutem do caacutelculo dos pesos dos vetores que representam os documentos
tambeacutem trata os vetores das expressotildees de busca
As principais vantagens do modelo vetorial segundo Baeza-Yates e Ribeiro-Neto
(1999) satildeo (1) esquema de pesos de termos melhora o desempenho da recuperaccedilatildeo (2)
estrateacutegias de resposta (matching) parcial permitem a recuperaccedilatildeo de documentos que se
aproximem de condiccedilotildees de query e (3) foacutermula de classificaccedilatildeo do co-seno ordena os
documentos de acordo com o grau de similaridade da query A desvantagem desse modelo de
23
acordo com os autores diz respeito agraves dependecircncias de termos prejudicando especialmente o
desempenho
Cardoso (2000) considera como principais vantagens do modelo vetorial a sua
simplicidade a facilidade de se computarem similaridades com eficiecircncia e o fato de que se
comporta bem com coleccedilotildees geneacutericas
223 Modelo Probabiliacutestico
O modelo probabiliacutestico foi introduzido de acordo com Baeza-Yates e Ribeiro-Neto
(1999) em 1976 por Roberston e Sparck Jones que mais tarde tornou-se como o modelo
Binary Independence Retrieval (BIR)
Na Matemaacutetica a teoria das probabilidades estuda os experimentos aleatoacuterios que
conforme Ferneda (2003 p 35) repetidos em condiccedilotildees idecircnticas podem apresentar resultados diferentes e imprevisiacuteveis Isso ocorre por exemplo quando se observa a face superior de um dado apoacutes o seu lanccedilamento ou quando se verifica o naipe de uma carta retirada de um baralho Por apresentarem resultados imprevisiacuteveis eacute possiacutevel apenas estimar a possibilidade ou a chance de um determinado evento ocorrer Para descrever matematicamente um experimento aleatoacuterio eacute necessaacuterio inicialmente identificar o conjunto de todos os seus possiacuteveis resultados A este conjunto daacute-se o nome de espaccedilo amostral
Entendendo-se uma busca como um experimento aleatoacuterio segundo Robertson e
Jones eacute possiacutevel descrever o seu espaccedilo amostral como composto de quatro possibilidades
pois dada uma expressatildeo de busca pode-se dividir a base de documentos em quatro
subconjuntos distintos o conjunto dos documentos relevantes (Rel) o conjunto dos
documentos recuperados (Rec) o conjunto dos documentos relevantes e recuperados (RR) e o
conjunto dos documentos natildeo relevantes e natildeo recuperados O conjunto dos documentos
relevantes e recuperados (RR) eacute resultante da intersecccedilatildeo dos conjuntos Rel e Rec
(FERNEDA 2003)
O conjunto de documentos resultantes da primeira busca eacute ordenado atraveacutes de uma
forma de ordenaccedilatildeo padratildeo tradicional Tendo esse conjunto de documentos o usuaacuterio
seleciona alguns deles que considera relevantes para a sua necessidade O sistema utiliza essa
informaccedilatildeo para tentar melhorar os resultados subsequumlentes
A principal virtude do modelo probabiliacutestico estaacute em reconhecer que a atribuiccedilatildeo de
relevacircncia eacute uma tarefa do usuaacuterio Eacute o uacutenico modelo que segundo Baeza-Yates e Ribeiro-
7 SMART (Sistem for the Manipulation and Retrieval of Text)
24
Neto (1999) e Gonzalez (2000) incorpora explicitamente o processo de Relevance Feedback
como base para a sua operacionalizaccedilatildeo
Uma simplificaccedilatildeo bastante questionaacutevel estaacute no fato de o modelo considerar os
pesos dos termos de indexaccedilatildeo como sendo binaacuterios ou seja no modelo probabiliacutestico natildeo eacute
considerada a frequumlecircncia com que os termos ocorrem no texto dos documentos
Em geral os modelos de RI desconsideram o contexto das palavras informadas pelo
usuaacuterio por isso tendem a retornar poucos documentos relevantes em uma consulta Para isso
pretende-se mostrar no capiacutetulo seguinte com a ajuda da Linguumliacutestica possiacuteveis abordagens
que podem apoiar o usuaacuterio considerando o seu contexto de busca e listando documentos
relevantes
25
3 FUNDAMENTACcedilAtildeO TEacuteORICA
Neste capiacutetulo buscou-se apresentar uma siacutentese dos trabalhos que datildeo base ao
modelo apresentado nesta dissertaccedilatildeo Satildeo eles a Proposta de Kuramoto a Teoria do Leacutexico
Gerativo e o Modelo de Gonzalez A Proposta de Kuramoto baseia-se em uma hierarquizaccedilatildeo
em niacuteveis de Sintagmas Nominais Na Teoria do Leacutexico Gerativo de Pustejovsky mostram-se
as estruturas compostas e deu-se destaque agrave Estrutura de Qualia julgada mais adequada para a
aplicaccedilatildeo no trabalho proposto Analisou-se o estudo de Abrahatildeo a partir de Pustejovsky A
terceira teoria de Gonzalez apresenta uma proposta automatizada com o modelo TR+
31 A Proposta de Kuramoto
Neste capiacutetulo apresentam-se os conceitos e as caracteriacutesticas da proposta de
Kuramoto que se baseia na determinaccedilatildeo de Sintagmas Nominais (SN) de uma query A sua
proposta preocupa-se em buscar os SN uma vez que satildeo considerados como importante
elemento de uma frase sendo entendidos como o nuacutecleo significativo (cerne) de uma oraccedilatildeo
Em sua tese de doutorado Kuramoto relata que todo o trabalho de reconhecimento e
extraccedilatildeo de SN dos documentos foi realizado de forma natildeo automatizada Isto auxiliou na
elaboraccedilatildeo de um modelo para reconhecimento extraccedilatildeo e indexaccedilatildeo de SN inseridos na
amostra do protoacutetipo desenvolvido
O modelo proposto por Kuramoto refere-se ao aproveitamento dos SN organizado
hierarquicamente em ldquoaacutervoresrdquo criando um novo conceito de indexaccedilatildeo que pode introduzir
inovaccedilatildeo em termos de uma interface de busca
Esse modelo de interface de acordo com Kuramoto (2002) permitiria que o usuaacuterio
navegasse no conjunto de SN ateacute encontrar o que melhor atendesse agrave sua necessidade de
informaccedilatildeo Somente apoacutes esse procedimento o usuaacuterio teria entatildeo acesso aos documentos de
onde foram extraiacutedos os SN Tal processo proporcionaria ao usuaacuterio um maior conhecimento
sobre a base de dados que estaacute sendo consultada uma vez que lhe permitiria reconhecer a
estrutura de sintagmas nominais presentes nos documentos pertencentes ao sistema
Os processos de indexaccedilatildeo automaacutetica utilizados em modelos de RI segundo Michel
Le Guern (1984 apud KURAMOTO 1995) deveriam extrair dos documentos informaccedilotildees
26
que facilitassem a recuperaccedilatildeo para o usuaacuterio e natildeo siacutembolos sem referecircncia como considera
que satildeo as palavras
Para Silva e Koch (1993) toda frase de uma liacutengua constitui uma organizaccedilatildeo ou
seja uma combinaccedilatildeo de elementos linguumliacutesticos agrupados conforme certos princiacutepios que a
caracterizam como uma estrutura Para Baeza-Yates e Ribeiro-Neto (1999) grande parte da
semacircntica do documento ou da requisiccedilatildeo do usuaacuterio eacute perdida quando se substitui o texto
completo por um conjunto de palavras
Aparentemente um conjunto de frases de nossa liacutengua de acordo com Silva e Koch
(1993) tem pouco em comum variando quanto agrave extensatildeo ao sentido agraves palavras de que se
compotildeem e agrave ordem em que essas se apresentam Apesar da aparente diversidade as frases
possuem uma organizaccedilatildeo interna que segue princiacutepios gerais bem definidos de modo que o
falante seraacute capaz de dizer se uma sequumlecircncia de palavras a) se estaacute de acordo com o sistema
gramatical da liacutengua b) se se apresenta completa ou incompleta c) se eacute passiacutevel de
interpretaccedilatildeo semacircntica
Conforme Silva e Koch (apud ABREU et al 2004 p03) ldquoo sintagma consiste num
conjunto de elementos que constituem uma unidade significativa dentro da oraccedilatildeo e que
mantecircm entre si relaccedilotildees de dependecircncia e de ordemrdquo As palavras se combinam em conjuntos
em torno de um nuacutecleo Esses conjuntos os sintagmas desempenham uma funccedilatildeo no conjunto
maior que eacute a frase Para Liberato (apud PARREIRAS 2003) o SN eacute a parte do enunciado
que representa um conceito ou referente
Assim por exemplo nos conjuntos de sintagmas ndash David o estudante a menina
doente e minha filha ndash o nuacutecleo eacute um elemento nominal (nome ou pronome) tratando-se
portanto de sintagmas nominais Nos conjuntos ndash viajou de carro dormiu e levaraacute a
encomenda ndash o elemento fundamental eacute o verbo de modo que se tecircm nesses casos sintagmas
verbais
A natureza do sintagma depende portanto do tipo de elemento que constitui o seu
nuacutecleo aleacutem do sintagma nominal (SN) e do sintagma verbal (SV) existem os sintagmas
adjetivais (SA) que tecircm por nuacutecleo um adjetivo e os sintagmas preposicionais (SP) formados
normalmente de preposiccedilatildeo mais sintagma nominal (SILVA KOCH 1993)
Na estrutura da oraccedilatildeo em sua forma de base aparecem como constituintes
obrigatoacuterios o SN e o SV Por exemplo Os garotos (SN) empinavam papagaios de papel
(SV) Pode-se dizer que as regras baacutesicas de estrutura frasal satildeo as seguintes O = SN + SV
(SP) (o elemento O significa Oraccedilatildeo)
27
311 Extraccedilatildeo dos Sintagmas Nominais
O trabalho de Kuramoto compreendeu o desenvolvimento de um protoacutetipo de
interface de busca utilizando os sintagmas nominais como forma de acesso agrave informaccedilatildeo Para
testar esse protoacutetipo foram examinados e extraiacutedos segundo Kuramoto (2002) cerca de 8800
sintagmas nominais de uma amostra de 15 artigos selecionados aleatoriamente da revista
Ciecircncia da Informaccedilatildeo
Kuramoto (1995 p 6) relata que a extraccedilatildeo dos sintagmas nominais foi realizada de forma manual simulando uma extraccedilatildeo automaacutetica Este procedimento foi adotado em funccedilatildeo da natildeo-existecircncia ainda de um sistema de extraccedilatildeo automaacutetica de SN em acervos contendo documentos em Liacutengua Portuguesa
Como os SN nem sempre se apresentam de forma clara Kuramoto aponta a
ocorrecircncia normal em todo texto em linguagem natural de anaacuteforas8 e de elipses9 que
dificultou a identificaccedilatildeo dos SN Essas dificuldades segundo Kuramoto (1995) aumentam
em um processo automatizado Algumas das dificuldades encontradas por Kuramoto no
procedimento de extraccedilatildeo dos SN satildeo descritas a seguir
a) SN escondidos em frases com fatoraccedilatildeo
Para Kuramoto (1995 p 06) as ldquofrases com fatoraccedilatildeo satildeo aquelas que contecircm uma
sequumlecircncia de palavras que precedem um outro conjunto de palavras coordenadas pelas
conjunccedilotildees eou por exemplo o processo de negociaccedilatildeo dos setores privado e puacuteblicordquo
Percebe-se nesse exemplo que o SN de niacutevel 1 compreende tanto os setores privado
e puacuteblico visto que a referecircncia dos dois adjetivos estaacute contida na palavra em plural ldquosetoresrdquo
Existem outros exemplos de frases com fatoraccedilatildeo nas quais as palavras coordenadas aparecem
entre parecircnteses significando um complemento combinatoacuterio do termo ou da frase que
precede o parecircntese por exemplo profundas transformaccedilotildees (poliacuteticas econocircmicas
sociais tecnoloacutegicas)
b) Artigo Zero
8 Em Linguumliacutestica segundo Ducrot e Todorov (1972 apud KURAMOTO 1995) um segmento do discurso eacute dito anafoacuterico quando para interpretaacute-lo (inclusive do ponto de vista literaacuterio) for necessaacuterio se reportar a um outro segmento do mesmo discurso 9 A figura de sintaxe ldquoelipserdquo eacute definida por Cunha e Cintra (1991 apud KURAMOTO 1995) como sendo a omissatildeo de um termo que o contexto ou a situaccedilatildeo permitem facilmente suprimir
28
Um outro fator de dificuldade na extraccedilatildeo dos SN eacute a frequumlente ausecircncia de
determinantes10 na liacutengua portuguesa diferente da liacutengua francesa na qual satildeo raros os SN
com ausecircncia de um determinante Motivo pelos quais algumas regras estabelecidas para a
liacutengua francesa natildeo foram utilizadas De acordo com Kuramoto (1995 p 7) ldquono
procedimento de extraccedilatildeo dos SN constatou-se que 2889 dos SN natildeo eram precedidos de
qualquer determinante Em uma amostra de 6010 SN 1736 SN natildeo satildeo precedidos por
nenhum determinanterdquo Estes nuacutemeros demonstram que o modelo necessaacuterio deve considerar
este fator
c) Caacutelculo das anaacuteforas
Quando uma entidade eacute referenciada pela primeira vez em um texto segundo
Gasperin Goulart e Vieira (2003) a expressatildeo que a descreve eacute dita nova no discurso
Quando tal entidade eacute retomada no texto a expressatildeo que a descreve eacute dita anafoacuterica sendo
considerado o seu antecedente a expressatildeo anterior correferente
Para Kuramoto (1995 p 7-8) ldquoos elementos anafoacutericos em portuguecircs aparecem
frequumlentemente mediante partiacuteculas como os pronomesrdquo No entanto na proposta do autor
natildeo foi possiacutevel resolver dois casos de anaacuteforas
Um primeiro caso de anaacutefora ocorre nas palavras sem fonte expliacutecita no texto tais
como ldquonesse sentidordquo (em que sentido) ldquonossa experiecircnciardquo (de quem do autor dos
teacutecnicos de informaccedilatildeo) etc Como a interpretaccedilatildeo das ideacuteias estaacute contida no documento natildeo
fica evidente a soluccedilatildeo desse tipo de anaacutefora
O segundo caso eacute constituiacutedo de termos cujas fontes se encontram como por exemplo
na histoacuteria dos acontecimentos como ldquoesse periacuteodo preacute-industrial esse sistema de
comunicaccedilatildeordquo etc Por este motivo os SN foram extraiacutedos da mesma forma como se
encontravam no texto
d) Caacutelculo das elipses
Outra questatildeo que necessita um entendimento do contexto de uma frase eacute o problema
ligado a este tipo de figura de sintaxe Visto que depende da capacidade de percepccedilatildeo da falta
de alguma palavra no contexto de uma frase Segundo Kuramoto (1995) eacute preciso para
identificaacute-la analisar natildeo somente as frases precedentes mas tambeacutem as frases seguintes
Como neste exemplo ldquouma visatildeo de longo prazo que assegure natildeo soacute a sobrevivecircncia ()
10 Segundo Silva e Koch (1993) o determinante quando simples eacute representado por um artigo numeral ou pronome adjetivo
29
como tambeacutem o crescimento da organizaccedilatildeordquo Que promove o questionamento de ldquoqual o
complemento do termo lsquosobrevivecircnciarsquo lsquoSobrevivecircnciarsquo de quemrdquo A soluccedilatildeo encontrada
poderia estar na frase seguinte ldquoo crescimento da organizaccedilatildeordquo
Para promover a extraccedilatildeo completa da frase o SN seria ldquouma visatildeo de longo prazo
que assegure natildeo soacute a sobrevivecircncia da organizaccedilatildeo como tambeacutem o crescimento da
organizaccedilatildeordquo
3111 Extraccedilatildeo Automaacutetica de Sintagmas Nominais
A extraccedilatildeo automaacutetica de SN eacute considerada importante para a aacuterea de RI pois
segundo Chishman et al (2000) agiliza este processo e gera um percentual baixo de erros Jaacute
foi desenvolvido um extrator automaacutetico de sintagmas nominais para a liacutengua portuguesa no
acircmbito do projeto VISL chamado ldquoPalavrasrdquo11 que vem sendo usado pelo grupo de pesquisa
da UNISINOS
Segundo Abreu Goulart e Vieira (2004) para obter a anaacutelise das sentenccedilas dos
textos utiliza-se o analisador sintaacutetico ldquoPalavrasrdquo que eacute considerada uma ferramenta robusta
para a anaacutelise sintaacutetica do portuguecircs
A partir da saiacuteda do analisador sintaacutetico segundo Gasperin Goulart e Vieira (2003)
a ferramenta ldquoXtractorrdquo gera trecircs arquivos XML O primeiro eacute o arquivo de palavras o
segundo inclui as categorias morfossintaacuteticas e o terceiro eacute o arquivo com as estruturas
sintaacuteticas das sentenccedilas
Assim apoacutes todo esse processo eacute possiacutevel extrair de modo automaacutetico os sintagmas
nominais das sentenccedilas de um texto ressaltando-se que estes natildeo estatildeo ainda organizados
segundo a estrutura de niacuteveis que propotildee Kuramoto
312 A determinaccedilatildeo de uma estrutura para os SN
A essecircncia da proposta de Kuramoto (1995) reside na percepccedilatildeo que o autor teve de
que os SN organizam-se naturalmente numa estrutura de niacuteveis encadeados Kuramoto
percebeu nessa organizaccedilatildeo em niacuteveis um caminho para propiciar ao usuaacuterio mais facilidade
11 O analisador Palavras faz parte de um grupo de analisadores sintaacuteticos (softwares) do projeto VISL - Visual Interactive Sintax Learning do Institute of Language and Communication da University of Southern Denmark Disponiacutevel em lthttpvislsdudkvislptparsingautomaticgt (ABREU GOULART VIEIRA 2004)
30
no uso de um SRI levando tambeacutem a resultados mais precisos Para compreender a estrutura
proposta pelo autor apresenta-se a seguir o exemplo usado pelo proacuteprio Kuramoto
As Caracteriacutesticas do Meio Ambiente do Mundo dos Negoacutecios SN1 os negoacutecios SN2 o mundo dos negoacutecios SN3 o meio ambiente do mundo dos negoacutecios SN4 as caracteriacutesticas do meio ambiente do mundo dos negoacutecios
Figura 6 Exemplo da estrutura de niacuteveis de Sintagmas Nominais Fonte KURAMOTO 1995
Esse exemplo mostra o potencial da estrutura de relaccedilotildees de encadeamento de um
conjunto de SN Para o autor a anaacutelise do sintagma nominal no exemplo permitiu a extraccedilatildeo do SN ndash o meio ambiente do mundo dos negoacutecios A partir desse SN pode-se visualizar um outro SN embutido ndash o mundo dos negoacutecios ndash que por sua vez possui um quarto SN ndash os negoacutecios ndash que representa o niacutevel mais inferior12 Percebe-se nesse exemplo a existecircncia de quatro SN encadeados que enumerados em ordem crescente (do SN mais simples ao mais complexo) levam agrave classificaccedilatildeo do SN original como sendo de niacutevel 4 (KURAMOTO 1995 p04)
Com base nessas caracteriacutesticas apresentadas por Kuramoto (1995) os SN podem ser
organizados sob uma estrutura de aacutervore Esta estrutura possibilita que o Sistema de
Recuperaccedilatildeo de Informaccedilatildeo (SRI) possa atender agraves necessidades de consultas do usuaacuterio
Para atender esta demanda eacute preciso fornecer um centro de SN de seu interesse (como o
exemplo do autor ldquonegoacuteciosrdquo)
Para isso apresentam-se todos os SN1 relativos a essa busca inclusive o SN ldquoos
negoacuteciosrdquo A partir da lista encontrada de SN1 o usuaacuterio poderaacute restringir o seu perfil de
busca escolhendo um SN1 por exemplo ldquoos negoacuteciosrdquo e solicitar os SN2 relacionados a esse
SN1 O SRI apresenta todos os SN2 inclusive o SN ldquoo mundo dos negoacuteciosrdquo e assim
sucessivamente (KURAMOTO 1995)
Este autor afirma que esta passagem por vaacuterios niacuteveis promove um refinamento no
processo O processo de refinamento eacute realizado por meio da passagem pelos vaacuterios niacuteveis de uma estrutura arborescente de SN13 dado que o SN vai se tornando mais especiacutefico
12 Segundo Kuramoto (1995) os sintagmas nominais agrave medida que satildeo extraiacutedos de um outro SN satildeo classificados por niacuteveis Assim o sintagma mais simples eacute denominado SN de niacutevel 1 Constitui SN de niacutevel 2 aquele a partir do qual foi extraiacutedo o de niacutevel 1 e assim sucessivamente 13 Constatou-se empiricamente utilizando a maquete desenvolvida nesta experimentaccedilatildeo de acordo com Kuramoto (1995) que a quantidade de SN de segundo niacutevel em relaccedilatildeo a um dado SN de primeiro niacutevel pode ser maior que o total de SN de primeiro niacutevel Por exemplo a resposta agrave demanda do centro de SN ldquoinformaccedilatildeordquo foi de 122 SN de primeiro niacutevel e a resposta agrave demanda do SN de primeiro niacutevel ldquoa informaccedilatildeordquo foi de 172 SN de segundo niacutevel Por outro lado verificou-se que
31
agrave medida que se atingem os niacuteveis mais elevados da estrutura Ao percorrecirc-la o usuaacuterio estaacute na realidade delimitando ou melhor qualificando a sua necessidade de informaccedilatildeo Cabe portanto ao usuaacuterio identificar o niacutevel em que as suas necessidades de informaccedilatildeo seratildeo atendidas (KURAMOTO 1995 p 04-05)
Esta possibilidade de hierarquia permite uma interaccedilatildeo entre o usuaacuterio e maacutequina e
uma escolha individual de refinamento
313 Protoacutetipo Desenho da Interface de Busca
A Figura 7 descreve de maneira esquemaacutetica a interaccedilatildeo entre o usuaacuterio e o protoacutetipo
de Kuramoto (1995)
O protoacutetipo viabiliza a primeira interaccedilatildeo pois haacute uma tela em que permite ao
usuaacuterio fazer a sua solicitaccedilatildeo de informaccedilatildeo fornecendo uma palavra (centro de SN1) A
partir dessa palavra surgem outras interaccedilotildees como mostra o esquema de Kuramoto (1995) na
Figura 7 que ocorrem nas accedilotildees abaixo
Figura 7 Procedimentos de interaccedilatildeo usuaacuteriominusprotoacutetipo Fonte KURAMOTO 1995
o SN ldquoa informaccedilatildeordquo indexava 15 documentos na base enquanto o SN de segundo niacutevel ldquoa anaacutelise da informaccedilatildeordquo indexava apenas 1 (um) documento Confirma-se nesse exemplo que a passagem de um dado niacutevel a um superior na aacutervore de SN proporciona maior refinamento no processo de seleccedilatildeo dos documentos
32
314 Organizaccedilatildeo dos Sintagmas Nominais como Estrutura de Busca
Na proposta de Kuramoto (1995) foram desenvolvidas as seguintes estruturas de busca
Figura 8 Estrutura de dados para acessar os Sintagmas Nominais de primeiro niacutevel a partir de uma palavra Fonte KURAMOTO 1995
Kuramoto (1995) mostra na Figura 8 a associaccedilatildeo das tabelas Palavras CS-SN1 e
SN1 Cada dado tem nomes dos elementos que estatildeo sublinhados e representam as chaves de
cada tabela Na tabela Palavras observa-se que o autor agrupa todas as palavras (centro) que
representam os centros de SN1 Haacute uma atribuiccedilatildeo de coacutedigo para cada ldquocentrordquo chamado
ldquocoacutedigo crdquo A tabela CS-SN1 eacute uma tabela de associaccedilatildeo dos coacutedigos dos centros de SN1 com
os coacutedigos dos SN1 Essa figura mostra que para cada centro de SN1 existem vaacuterios SN1 A indicaccedilatildeo na seta da associaccedilatildeo da tabela Palavras com a tabela CS-SN1 define que na tabela Palavras podem existir M ocorrecircncias de um coacutedigo de centro de SN1 O mesmo pode ocorrer na tabela CS-SN1 em que esse coacutedigo pode verificar-se N vezes Essa indicaccedilatildeo traduz a ideacuteia de que para cada SN1 pode existir mais de um centro de SN1 Isto se explica pela existecircncia no contexto de um SN de palavras que satildeo tatildeo importantes quanto o centro de sintagma (KURAMOTO 1995 p 11)
Observa-se o exemplo ldquoo sistema de informaccedilatildeordquo Nesse o autor define o SN1 de
ldquosistemardquo Todavia esta natildeo eacute a uacutenica palavra fundamental pois a palavra ldquoinformaccedilatildeordquo tem
tanta importacircncia quanto o proacuteprio centro de sintagma (sistema)
Kuramoto (1995 p 11) mostra ainda que existe associaccedilatildeo entre o centro de SN1 e a
vaacuterios SN de niacutevel 1 Cada centro de SN1 pode estar associado a mais de um SN1 Essa indicaccedilatildeo eacute dada pela seta que associa a tabela SN1 agrave tabela CS-SN1 onde o nuacutemero 1 significa que na tabela SN1 existe uma soacute ocorrecircncia de um determinado coacutedigo de SN1 enquanto na tabela CS-SN1 existem M ocorrecircncias desse coacutedigo
Outro elemento de dados importante na tabela SN1 eacute chamado ldquonuacutemerordquo que
segundo Kuramoto (1995 p 11-12) ldquoindica a quantidade de artigos de onde um determinado
33
SN1 foi extraiacutedordquo O nuacutemero de referecircncias de onde o SN foi extraiacutedo aparece para cada
apresentaccedilatildeo de SN1 relacionado com um centro de SN1 escolhido pelo usuaacuterio
Kuramoto (1995) ilustra numa outra figura (Figura 9) a estrutura de dados construiacuteda
para a busca dos SN2 a partir de um SN1 selecionado pelo usuaacuterio
Figura 9 Estrutura de dados para acessar os Sintagmas Nominais de segundo niacutevel a partir de Sintagmas Nominais de primeiro niacutevel Fonte KURAMOTO 1995
Nessa ilustraccedilatildeo observa-se que se manteacutem a estrutura da Figura 8 em uma
associaccedilatildeo de tabelas que busca facilitar a busca dos SN2 a partir de um SN1 escolhido pelo
usuaacuterio Segundo Kuramoto (1995 p 12) ldquopercebe-se analogamente que um dado SN1 pode
estar associado a vaacuterios SN2 e vice-versa Isto traduz a ideacuteia de que um SN2 pode ter
embutido mais de um SN1 Essa estrutura atende agraves caracteriacutesticas dos SN listados no iniacutecio
desta seccedilatildeordquo
A busca de informaccedilotildees se manteacutem na mesma estrutura para os SN de niacutevel 3 e 4 que
satildeo semelhantes agraves Figuras acima (SN1 e SN2) com diferenccedila apenas no nome de cada
elemento que eacute correspondente ao nuacutemero dos SN
O acesso aos documentos estaacute representado na Figura 10 que exemplifica uma
escolha no SN1
Figura 10 Estrutura de dados para o acesso aos tiacutetulos e textos dos artigos Fonte KURAMOTO 1995
34
Essa estrutura foi desenvolvida para que o protoacutetipo atenda a uma demanda do
usuaacuterio viabilizando a visualizaccedilatildeo de todos os tiacutetulos e textos de documentos de onde um
SN1 foi extraiacutedo Haacute outras associaccedilotildees semelhantes a essas da Figura 17 que servem para o
acessar os documentos a partir de SN de qualquer um dos quatro niacuteveis previstos no protoacutetipo
Kuramoto (1995 p 12-13) ressalta ainda as accedilotildees do coacutedigo numeacuterico Eacute importante observar que todas as tabelas contendo os SN nos seus vaacuterios niacuteveis tecircm como chave de acesso um coacutedigo numeacuterico uacutenico de SN Para tanto construiu-se uma tabela contendo os SN onde estes satildeo identificados por meio de um coacutedigo numeacuterico Natildeo existe nenhum impedimento teacutecnico por parte do sistema Access quanto ao uso do proacuteprio texto dos SN como chave de acesso agraves informaccedilotildees Deve-se ressaltar que apesar da lentidatildeo que este tipo de chave de acesso provoca as estruturas de dados seriam mais simples e faacuteceis de manusear Contudo optou-se pela utilizaccedilatildeo das chaves numeacutericas identificando cada SN com o intuito de obter maior velocidade de acesso aos SN e agraves informaccedilotildees
Finalizando esta apresentaccedilatildeo do modelo de Kuramoto cabe destacar que a utilizaccedilatildeo
da aacutervore de SN por niacuteveis permite uma visualizaccedilatildeo mais faacutecil do conteuacutedo da base de dados
e manteacutem o que haacute de mais significativo nos documentos sua semacircntica
As estruturas de Qualia e de Heranccedila Lexical do Leacutexico Gerativo de Pustejovsky a
serem apresentadas na proacutexima seccedilatildeo permitem tambeacutem da mesma forma considerar a
semacircntica dos itens lexicais atraveacutes da criaccedilatildeo de uma malharede de relaccedilotildees de palavras e
seus significados atraveacutes dos papeacuteis que compotildeem a EQ
32 A Teoria do Leacutexico Gerativo de Pustejovsky
Pustejovsky defende a ideacuteia de que assim como a gramaacutetica tem uma estrutura
(sintaxe) a semacircntica (significado) tambeacutem tem uma estrutura baacutesica Na estrutura baacutesica da
sintaxe das liacutenguas em geral segundo Souza e Silva (1993) as oraccedilotildees satildeo compostas de
Sintagma Nominal (SN) mais Sintagma Verbal (SV) basicamente Na busca da estrutura
semacircntica Pustejovsky (1991) delineia a teoria do Leacutexico Gerativo (LG) como uma
abordagem na aacuterea da semacircntica lexical que pretende dar conta da criatividade semacircntica do
uso das palavras em contexto
Segundo Rossi (2003) Ullmann concorda com essa dificuldade do uso das palavras
em contexto quando declara que ldquonatildeo satildeo raros os casos em que ocorre uma polivalecircncia das
palavras acarretando por consequumlecircncia fenocircmenos semacircnticos inerentes agraves liacutenguas naturais
entre eles a ambiguumlidade lexicalrdquo Essa ambiguumlidade eacute provocada em decorrecircncia de fatores
35
lexicais denominados de polissemia e de homoniacutemia ou na terminologia de Weinreich
conforme Rossi (2003) de ambiguumlidade complementar e ambiguumlidade contrastiva
respectivamente
No primeiro caso trata-se da polissemia que de um modo geral conforme Moura
(2001) ldquoeacute definida como um fenocircmeno que permite associar a um mesmo item lexical mais
de um sentido os quais mantecircm alguma relaccedilatildeo semacircntica entre sirdquo Assim a palavra ldquolivrordquo
por exemplo eacute polissecircmica pois expressa ao menos dois sentidos diferentes que possuem
entre si algum tipo de laccedilo semacircntico (a) objeto fiacutesico e (b) informaccedilatildeo
Jaacute no segundo caso o da ambiguumlidade contrastiva trata-se de homoniacutemia definida
por Pustejovsky como a situaccedilatildeo na qual um item lexical eacute associado com ao menos dois
sentidos diferentes e sem relaccedilatildeo entre si Desse modo a palavra ldquomangardquo por exemplo eacute
uma palavra homocircnima pois natildeo haacute nenhuma relaccedilatildeo semacircntica evidente entre os sentidos de
ldquofrutardquo e ldquoparte da blusardquo
Segundo Rossi (2003 p 14) Ullmann salienta que ldquoeacute difiacutecil em casos particulares
determinar onde termina a polissemia e onde comeccedila a homoniacutemia uma vez que natildeo eacute faacutecil e
nem sempre possiacutevel medir intuitivamente o grau de proximidade dos significadosrdquo
A polissemia loacutegica eacute denominada por Pustejovsky (1991) para restringir a
ambiguumlidade complementar abordada anteriormente nos casos em que ocorre uma relaccedilatildeo
loacutegica portanto previsiacutevel entre os sentidos de uma palavra polissecircmica Havendo mais de um
sentido eacute importante ressaltar que pode existir sobreposiccedilatildeo desses sentidos em um mesmo
contexto
Aleacutem de ter sido tratada como polissemia loacutegica por Pustejovsky segundo Rossi
(2003) desde Weinreich esse fenocircmeno da complementaridade dos sentidos tem sido
abordado como polissemia regular e polissemia sistemaacutetica
A teoria do Leacutexico Gerativo (LG) de Pustejovsky aponta o problema da
multiplicidade de significados das palavras e enfatiza um tratamento relacionado ao problema
da polissemia das palavras Segundo Neto (2003) nessa perspectiva Pustejovsky desenvolveu
o LG que eacute um modelo de processamento de liacutengua natural que trata da explicaccedilatildeo semacircntica
de itens lexicais tanto isolados quanto em contexto
Assim como a gramaacutetica caracteriza o comportamento sintaacutetico especiacutefico de uma
certa categoria de palavras Pustejovsky propotildee uma teoria gerativa do significado da palavra
E ainda pretende mostrar que seu modelo segundo Rossi (2003 p 47) ldquoeacute contraacuterio a
36
estaticidade presente em duas concepccedilotildees semacircnticas teoacutericas das deacutecadas de 60 e 70 as
baseadas em redes conexionistas e as baseadas em primitivos fixos14rdquo
Rossi (2003 p 47) afirma que a teoria de redes conexionistas organiza a semacircntica
das palavras atraveacutes de relaccedilotildees e elos para esta autora isso ldquodificulta a representaccedilatildeo de
sentidos que exibem polissemia regular haja vista a distacircncia na rede entre os sentidos que
mantecircm relaccedilatildeo sistemaacutetica entre sirdquo Por exemplo os sentidos de ldquoobjeto fiacutesicordquo e
ldquoinformaccedilatildeordquo satildeo naturalmente distantes no entanto mantecircm entre si relaccedilatildeo sistemaacutetica no
caso de ldquolivrordquo e de outras palavras
Jaacute no segundo caso o das teorias baseadas em primitivos semacircnticos fixos o leacutexico
eacute tratado como uma lista enumerativa de sentidos Por isso mesmo tais modelos satildeo
denominados por Pustejovsky (1991) de Sense Enumeration Lexicon (SEL) - leacutexico de
enumeraccedilatildeo de sentidos O problema segundo Pustejovsky (1991) eacute que essa caracterizaccedilatildeo
dos possiacuteveis sentidos de uma palavra postulada pelo modelo SEL eacute aplicada tanto para a
ambiguumlidade contrastiva como para a polissemia loacutegica
Fica evidente segundo Rossi (2003) que Pustejovsky se opotildee aos modelos SEL pois
apesar de eles proverem uma enumeraccedilatildeo exaustiva dos sentidos de um item lexical ainda se
mostram limitados natildeo dando conta dos objetivos baacutesicos da teoria semacircntico-lexical ou seja
o uso criativo de palavras a permeabilidade dos significados e as muacuteltiplas formas sintaacuteticas
das expressotildees
O objetivo principal do LG segundo Pustejovsky (1991) eacute prover uma descriccedilatildeo
formal da liacutengua que seja expressiva e flexiacutevel o suficiente para apreender a natureza gerativa
da criatividade lexical e extensatildeo de sentido Caracteriza assim o LG como um sistema
semacircntico de perspectiva loacutegica que envolve quatro niacuteveis de representaccedilatildeo um sistema de
tipos semacircnticos e trecircs tipos de mecanismos gerativos
No decorrer deste capiacutetulo seratildeo especificadas as noccedilotildees teoacutericas baacutesicas do modelo
gerativo de Pustejovsky que estruturam o leacutexico em quatro niacuteveis de representaccedilatildeo
(argumentos eventos qualia e heranccedila) sobre os quais atuam dispositivos gerativos (a
coerccedilatildeo de tipo a co-composiccedilatildeo e a ligaccedilatildeo seletiva)
321 Estruturas do Leacutexico Gerativo
14 Conforme Pustejovsky (1995) a teoria de primitivos fixos eacute defendida por autores como Lakoff (1971) Wilks (1975) Schank (1975) Katz (1977) Jaacute a teoria de redes conexionistas eacute defendida por Carnap (1956) Collins e Quillian (1969) Fodor (1975) Brachman (1979)
37
Para capturar o significado lexical estudou-se as estruturas de Pustejovsky (1991)
que propotildee quatro niacuteveis de representaccedilatildeo estrutura de argumento estrutura de evento
estrutura de qualia e estrutura de heranccedila lexical descritos abaixo
3211 Estrutura de Argumento
Para Pustejovsky (1991) essa estrutura eacute uma especificaccedilatildeo miacutenima que agrupa os
itens lexicais em quatro argumentos
bull verdadeiros ndash paracircmetros do item lexical que tecircm a necessidade de serem expressos
sintaticamente Ex Marta morou em Paris
bull apagados ndash paracircmetros que natildeo tecircm necessidade de serem realizados sintaticamente satildeo
argumentos opcionais Ex Joana coseu uma saia sem linha
bull sombreados ndash paracircmetros que jaacute estatildeo semanticamente presentes no item lexical e soacute
devem ser expressos atraveacutes de operaccedilotildees de subtipo ou especificaccedilatildeo de discurso Ex
Paulo salgou a carne com sal grosso
bull adjuntos verdadeiros ndash paracircmetros que mesmo sendo parte da interpretaccedilatildeo situacional
modificam uma expressatildeo loacutegica sem contudo estarem ligados agrave representaccedilatildeo
semacircntica de algum item lexical especiacutefico Esses paracircmetros introduzem expressotildees
adjuntivas de modificaccedilatildeo temporal ou espacial Ex David dormiu cedo
3212 Estrutura de Evento
Essa estrutura para Pustejovsky (1991) refere-se a organizaccedilatildeo de um conjunto de eventos
no que tange agrave ordenaccedilatildeo temporal de seus subeventos e a designaccedilatildeo de qual deles seraacute
considerado o principal em relaccedilatildeo ao evento matriz
bull Evento de estado ndash aquele cujo(s) argumento(s) natildeo sofre(m) alteraccedilatildeo durante o
intervalo temporal do evento Ex Kaacutetia mora em Florianoacutepolis
bull Evento de processo ndash aquele cujo(s) argumento(s) sofre(m) alteraccedilatildeo de estado ou
indica(m) o iniacutecio de alguma atividade sem uma culminaccedilatildeo precisa Ex Heloisa canta
bem
bull Evento de transiccedilatildeo - aquele cujo(s) argumento(s) sofre(m) alguma accedilatildeo de
temporalidade determinada e resulta(m) em um estado diferente do inicial Ex Tereza fez
uma boneca
38
A estrutura a seguir apresenta os atributos semacircnticos essenciais dos itens lexicais
(como por exemplo a categoria a composiccedilatildeo a funccedilatildeo e a origem) atraveacutes dos papeacuteis
formal constitutivo teacutelico e agentivo Eacute a estrutura principal responsaacutevel pela explicaccedilatildeo da
polissemia loacutegica abordada no texto (Pustejovsky 1991)
3213 Estrutura de Qualia
Devido a sua proximidade com o SN visto que trabalha por conceitos (nomes) esta
estrutura foi utilizada no desenvolvimento do modelo proposto pela pesquisa Trata de um
conjunto formado por quatro qualia que visam guiar o processo de entendimento a respeito de
um objeto ou uma relaccedilatildeo no mundo dando por consequumlecircncia um modo de especificar a
denotaccedilatildeo de tal objeto ou relaccedilatildeo Eacute dividida em quatro papeacuteis os quais satildeo descritos na
sequumlecircncia
a) Quale formal - faz a distinccedilatildeo de determinado item dentro de um domiacutenio maior levando
em consideraccedilatildeo sua
bull orientaccedilatildeo
bull magnitude
bull forma
bull dimensatildeo
bull cor
bull posiccedilatildeo
b) Quale constitutivo - estabelece a relaccedilatildeo entre um objeto e suas partes constituintes ou
proacuteprias a partir das propriedades
bull material
bull peso
bull partes e elementos componentes
Aleacutem disso o quale constitutivo informa tambeacutem de que classe um item eacute parte caso
haja tal relaccedilatildeo ou seja ele informa tanto uma relaccedilatildeo de hiperoniacutemia15 quanto de
meroniacutemia16
15 Hiperoniacutemia ocorre quando o significado de um lexema (palavra) abrange o significado de outro lexema O significado de um eacute mais geneacuterico que o significado de outro Por exemplo ldquoaeronaverdquo eacute um hiperocircnimo de ldquoteco-tecordquo
39
Estas relaccedilotildees satildeo utilizadas na modelagem do protoacutetipo de Gonzalez (2005) Este
protoacutetipo foi pesquisado e apreendido como parte integrante da proposta desta dissertaccedilatildeo e
seraacute descrito na seccedilatildeo 33 do capiacutetulo 3
c) Quale teacutelico - explicita a finalidade e a funccedilatildeo de um objeto
bull Propoacutesito de um agente ao realizar um ato
bull Funccedilatildeo interna ou objetivo que descreve certas atividades
d) Quale agentivo - determina os fatores envolvidos na origem ou causa de um objeto
partindo de consideraccedilotildees sobre
bull criador
bull artefato
bull tipo natural
bull cadeia causal
Figura 11 Representaccedilatildeo da matriz de um item lexical Fonte ROSSI 2003
Figura 12 Matriz superficial da Estrutura de Qualia do item lexical ldquolivrordquo Fonte ROSSI 2003
16 Meroniacutemia ocorre quando o significado de um lexema (palavra) faz parte ou eacute uma porccedilatildeo do significado de outro lexema Por exemplo as palavras ldquocapardquo e ldquofolhasrdquo satildeo merocircnimos de ldquolivrordquo
40
Eacute importante salientar que segundo Neto (2003a) a Estrutura de Qualia natildeo deve ser
considerada apenas como uma lista de fatos interessantes sobre um item lexical e sim como
um conjunto de propriedades que leva a uma explicaccedilatildeo mais clara de tal item
Isto equivale dizer que o objetivo da Estrutura de Qualia eacute abarcar o significado de
uma palavra e explicitar como se relaciona com o uso da liacutengua Assim essa estrutura salienta
a explicaccedilatildeo do uso da criatividade linguumliacutestica contextual natildeo como uma estrutura isolada
mas em conjunto com os mecanismos gerativos que seratildeo apresentados mais adiante
Seguem alguns exemplos da Estrutura de Qualia
Figura 13 Exemplo da Estrutura de Qualia do item lexical ldquoromancerdquo Fonte PUSTEJOVSKY 1991
Figura 14 Exemplo da Estrutura de Qualia do item lexical ldquodicionaacuteriordquo Fonte PUSTEJOVSKY 1991
3214 Estrutura de Heranccedila Lexical
Esta estrutura tambeacutem eacute de fundamental importacircncia porque nesta ocorre a relaccedilatildeo das
qualias ou seja satildeo estruturas lexicais que podem se organizar com outras estruturas em uma
grade de tipo e assim ajudar na organizaccedilatildeo geral do leacutexico Por exemplo na figura abaixo o
LG relaciona ldquodicionaacuteriordquo ldquolivrordquo e ldquopeccedilardquo atraveacutes de suas estruturas de qualia em que se
observa que os trecircs itens lexicais satildeo diferentes entre si no entanto mantecircm relaccedilotildees
semacircnticas
41
Figura 15 Exemplo do LG relacionando ldquodicionaacuteriordquo ldquolivrordquo e peccedila atraveacutes de suas EQ Fonte NETO 2003a
322 Sistema de Tipos Semacircnticos
Um sistema de tipos semacircnticos analisa o comportamento polissecircmico e loacutegico de
nomes implicitamente relacionais como por exemplo porta janela Pustejovsky mostra como
o leacutexico gerativo faz uso de estruturas de aspectos tiacutepicos e afirma que esses nomes tecircm dois
sentidos relacionais (ldquoobjeto fiacutesicordquo e ldquoaberturardquo) que satildeo logicamente parte do significado do
nome Essa habilidade que um item lexical tem de agrupar vaacuterios sentidos eacute chamada
ldquoparadigma leacutexico-conceptual (plc ou lcp)rdquo O plc eacute como um construtor de tipo por exemplo
em palavras como ldquoportardquo e1 significa objeto_fiacutesico e2 abertura e o tipo resultante eacute
ldquoobjeto_fiacutesicoabertura_plc = objeto_fiacutesicoabertura objeto_fiacutesicoaberturardquo
Figura 16 Exemplo de polissemia loacutegica na representaccedilatildeo matricial da palavra ldquolivrordquo Fonte ROSSI 2003
42
Figura 17 Exemplo de polissemia loacutegica na representaccedilatildeo matricial da palavra ldquojornalrdquo Fonte ROSSI 2003
322 Mecanismos gerativos
O Leacutexico Gerativo apresenta ainda um conjunto de trecircs mecanismos que fazem uso
das estruturas ldquoeventordquo ldquoargumentordquo e ldquoqualiardquo os quais satildeo ditos gerativos pois relacionam
diferentes itens lexicais possibilitando a interpretaccedilatildeo composicional de palavras em contexto
3221 Coerccedilatildeo de tipo
Autoriza a mudanccedila de tipo e por extensatildeo de denotaccedilatildeo de nomes e expressotildees de
acordo com o contexto a que pertencem A coerccedilatildeo de tipo reconstroacutei a semacircntica do
complemento e soacute teraacute sucesso se o item lexical em questatildeo tiver um atalho para o tipo
desejado O exemplo claacutessico dado por Pustejovsky eacute ldquoJoatildeo comeccedilou um livrordquo em que o
predicado comeccedilar requer um tipo diferente do apresentado por livro ou seja o verbo requer
um complemento do tipo ldquoeventordquo que natildeo eacute satisfeito por ldquolivrordquo O termo ldquocomeccedilar um
livrordquo eacute interpretado como comeccedilar a ler (ou escrever) um livro
3222 Ligaccedilatildeo seletiva
Rege a relaccedilatildeo semacircntica que um modificador tem com o seu nuacutecleo ou seja ela
trata do problema da polissemia adjetival uma vez que os adjetivos satildeo interpretados a partir
da semacircntica do nuacutecleo Exemplos
(1) Um passeio raacutepido
(2) Um motorista raacutepido
43
(3) Um digitador raacutepido
(4) Um computador raacutepido
O primeiro problema estaacute claramente exemplificado com (1) em oposiccedilatildeo a (2) (3) e
(4) ou seja o primeiro trata de uma adjetivaccedilatildeo sobre um evento e os demais de uma
adjetivaccedilatildeo sobre indiviacuteduos Jaacute para o segundo problema diz-se que a interpretaccedilatildeo do
adjetivo vai ser selecionada por algum dos qualia do nuacutecleo do sintagma nominal ou seja
pela ligaccedilatildeo seletiva Esse mecanismo vai buscar a interpretaccedilatildeo de raacutepido para os exemplos
acima no quale teacutelico dos nuacutecleos
3223 Co-composiccedilatildeo
Os itens lexicais componentes de um determinado sintagma influenciam-se
mutuamente e um complemento pode adicionar um sentido ao seu nuacutecleo Pustejovsky
comeccedila exemplificando esse mecanismo com a polissemia de verbos como o ldquoassarrdquo que
apresenta dois sentidos uma mudanccedila de estado e outra de criaccedilatildeo do objeto Os exemplos
claacutessicos satildeo
(a) Letiacutecia assou as batatas
(b) Letiacutecia assou o bolo
Observa-se que em (1) houve apenas uma mudanccedila de estado pois as batatas jaacute
existiam antes de serem assadas em (2) um sentido de criaccedilatildeo de objeto eacute atribuiacutedo ao verbo
uma vez que antes da assadura o bolo natildeo existia Contudo Pustejovsky (1991) afirma que
ordinariamente soacute haacute um sentido para ldquoassarrdquo o de mudanccedila de estado pois tal verbo tem seu
tipo de evento modificado devido a informaccedilotildees que satildeo trazidas pelo complemento ou seja
essas leituras soacute satildeo possiacuteveis a partir de mecanismo de co-composiccedilatildeo em que os
complementos co-especificam o verbo
Por buscar formalizar a estrutura semacircntica de uma liacutengua o trabalho de Pustejovsky
eacute de grande importacircncia para a aacuterea de recuperaccedilatildeo de informaccedilatildeo Uma tentativa de
implementaccedilatildeo computacional da sua teoria foi realizada por Abrahatildeo (1997) envolvendo a
modelagem e a implementaccedilatildeo de um leacutexico semacircntico para a Liacutengua Portuguesa
Inicialmente este autor realizou um estudo de conceitos baacutesicos relacionados agrave semacircntica
Durante a sua pesquisa foram apresentadas teacutecnicas de representaccedilatildeo do conhecimento e do
significado que auxiliaram a seleccedilatildeo e o entendimento do modelo proposto por Pustejovsky
44
Como subsiacutedio para a implementaccedilatildeo de um leacutexico semacircntico para o portuguecircs
Abrahatildeo (1997) fez um estudo aprofundado da teoria de Pustejovsky onde salienta que os
problemas mais comuns agrave representaccedilatildeo do significado das palavras como ldquoambiguumlidade
lexical polissecircmicardquo por exemplo satildeo solucionados de forma eficiente e computacional
Como o modelo de Pustejovsky eacute voltado ao Inglecircs foram encontradas semelhanccedilas e
diferenccedilas entre a liacutengua origem do modelo e o Portuguecircs Variaccedilotildees verbais - facilita o mapeamento direto os verbos satildeo inseridos numa forma canocircnica (baacutesica ou infinitiva) no leacutexico variaccedilotildees de grau nos substantivos como alternativa de soluccedilatildeo satildeo armazenados em uma forma canocircnica palavras que se comportam como verbo e substantivo palavras que se comportam como adjetivo e substantivo tambeacutem satildeo mapeadas atraveacutes do uso da estrutura de lcps de Pustejovsky mapeamento de expressotildees - expressotildees devem ser inseridas no leacutexico pois expressam um significado especiacutefico substantivos compostos por mais de uma palavra acentuaccedilatildeo ndash itens lexicais do Inglecircs natildeo apresentam acentos Esta caracteriacutestica do Portuguecircs deve ser inserida no leacutexico pois diferencia o significado de suas palavras Deste modo esta informaccedilatildeo foi atribuiacuteda aos registros de informaccedilotildees semacircnticas atraveacutes de uma variaacutevel que conteacutem o tipo e a posiccedilatildeo na palavra em que o acento aparece (ABRAHAtildeO 1997 pgs 78-80)
Abrahatildeo (1997) construiu sua implementaccedilatildeo do leacutexico sobre uma estrutura em
aacutervore Trie17 que proporciona um maior poder de representaccedilatildeo na busca de informaccedilotildees e
baixa quantidade de dados armazenados As informaccedilotildees semacircnticas associadas aos itens
lexicais satildeo armazenadas em listas encadeadas a partir de uma estrutura denominada de
Descritor Semacircntico Um item lexical pertence ao leacutexico semacircntico se este item possui um
Descritor Semacircntico associado ao seu uacuteltimo caractere na aacutervore E ainda um Descritor
Semacircntico abrange os ponteiros essenciais para a busca das informaccedilotildees semacircnticas relativas
ao item lexical
De acordo com este autor as informaccedilotildees semacircnticas associadas aos itens lexicais
seguem o modelo de Pustejovsky (1991) sendo dividida em trecircs estruturas baacutesicas de
argumentos de eventos e de Qualia As estruturas de argumentos e de eventos satildeo
implementadas atraveacutes de uma lista de argumentos e uma lista de eventos A estrutura de
Qualia eacute composta de quatro listas de informaccedilotildees uma para cada papel (formal constitutivo
teacutelico e agentivo)
Segundo este autor todas as estruturas do leacutexico semacircntico foram desenvolvidas em
vetores A manipulaccedilatildeo destes vetores daacute-se sobre estruturas denominadas cabeccedilalhos Estes
cabeccedilalhos fornecem informaccedilotildees sobre a alocaccedilatildeo de vetores em memoacuteria ponteiros para os
vetores de informaccedilatildeo tamanhos dos vetores e os arquivos associados ao sistema O nuacutecleo de
17 Segundo Abrahatildeo (1997) ldquoeacute um tipo especial de estrutura onde cada caractere dos itens lexicais determina um nodo da aacutervorerdquo
45
dados do sistema eacute constituiacutedo de dois cabeccedilalhos cabeccedilalho da aacutervore Trie e o cabeccedilalho das
informaccedilotildees semacircnticas
A biblioteca de funccedilotildees conteacutem os procedimentos necessaacuterios para manutenccedilatildeo do
banco de dados lexical bem como procedimentos de busca de informaccedilotildees semacircnticas
Juntamente com a biblioteca uma interface graacutefica foi construiacuteda possibilitando a manutenccedilatildeo
do banco de dados e facilitando a visualizaccedilatildeo da semacircntica dos itens lexicais Esta interface
graacutefica eacute implementada na linguagem de programaccedilatildeo em C para as estaccedilotildees de trabalho SUN
sobre o sistema de janelas XVIEW18 (ABRAHAtildeO 1997)
Esta seccedilatildeo mostrou a importacircncia da teoria de Pustejovsky e suas possibilidades O
LG eacute fundamental para compreensatildeo semacircntica pois considera o contexto da palavra sendo
capaz de estruturar um domiacutenio especiacutefico atraveacutes da EQ e tambeacutem de identificar dentro de
um domiacutenio quando determinada palavra aparece em tal contexto Pelo desenvolvimento do
trabalho de Abrahatildeo pode-se perceber a dimensatildeo e os elementos necessaacuterios para o
significado de uma palavra reforccedilando-se assim o valor e a viabilidade da teoria de
Pustejovsky
A proacutexima seccedilatildeo apresenta o trabalho de Gonzalez (2005) que estudou Pustejovsky19
e posteriormente desenvolveu sua proacutepria concepccedilatildeo de uma estrutura de RI (toda
automatizada)
33 O Modelo TR+ de Gonzalez
O modelo TR+ eacute considerado um modelo para RI que utiliza duas fases para o
desenvolvimento de sua estrutura fase de indexaccedilatildeo e fase de busca
18 XVIEW ldquoeacute um sistema de janela orientado a objeto que permite ao programador criar e utilizar objetos tais como janelas textos paineacuteis iacutecones entre outros para construir uma aplicaccedilatildeo Seus objetos satildeo predefinidos e satildeo ricos em funcionalidade o que permite que o coacutedigo necessaacuterio para manipular essas janelas seja pequeno simples e muito faacutecil de se compreenderrdquo (ABRAHAtildeO 1997 p 86) 19 Realizou um trabalho individual no doutorado denominado ldquoO Leacutexico Gerativo de Pustejovsky sob o enfoque da Recuperaccedilatildeo de Informaccedilotildeesrdquo de 2000a
46
Indexaccedilatildeo de textos segundo Baeza-Yates e Ribeiro-Neto (1999) e Gonzalez (2005)
eacute o processo que estipula descritores20 dos conteuacutedos dos textos de uma coleccedilatildeo de
documentos com objetivo de busca e classificaccedilatildeo dos mesmos para atender consultas em
sistemas de RI Descritores podem descrever conceitos atocircmicos sendo lsquotermosrsquo ou conceitos
complexos sendo lsquorelacionamentosrsquo O conjunto de descritores concebido na indexaccedilatildeo
favorece uma visatildeo loacutegica dos documentos com o propoacutesito de unir esses descritores termos
e relacionamentos a conceitos presentes nos textos dos documentos
Para os relacionamentos este autor classifica trecircs tipos explicando-os atraveacutes do
exemplo ldquo tecircm preocupado os pesquisadoresrdquo O primeiro tipo eacute o par modificado-
modificador como lsquopesquisador-preocupadorsquo O segundo eacute o bigrama (preocupado
pesquisador) e o terceiro eacute o Sintagma Nominal que para ele significa lsquopesquisador
preocupadorsquo e que para a pesquisa de Gonzalez ficaria na sua forma natural lsquopreocupado os
pesquisadoresrsquo O autor ainda cita que haacute outros formatos de relacionamentos como a
expressatildeo ternaacuteria (preocupaccedilatildeo-de-pesquisador) e a relaccedilatildeo binaacuteria
(preocupaccedilatildeopesquisador)
Gonzalez (2005) aponta dois tipos de relacionamentos como problemas os bigramas
por natildeo poderem descrever o conceito (ldquoferro sopardquo para ldquopanela de ferro com sopardquo) e os
termos com palavras comuns mas coadjuvantes importantes (ldquosentar bancordquo e ldquodepositar
bancordquo) os sintagmas nominais que para o autor representam tanto o conceito atocircmico quanto
o complexo (ldquonoiterdquo e ldquoboca da noiterdquo) Eacute importante perceber que a partir dessas
caracteriacutesticas e aspectos acima definidos Gonzalez (2005) propocircs um novo modelo de
espaccedilo de descritores (uniatildeo do conjunto de termos com o conjunto de relacionamentos) Este
novo modelo surgiu a partir de outros cinco modelos de descritores jaacute existentes
1 Unigrama conjunto de termos natildeo relacionados
2 N-grama (NG) conjunto de relacionamentos estatiacutesticos
3 Termo-Termo (TT) conjunto de termos relacionados estatiacutestica ou
sintaticamente
4 Termo-Relacionamento (TR) conjunto de termos e relacionamentos sintaacuteticos
20 A palavra descritores eacute usada para se tratar dos termos e relacionamentos enquanto os iacutendices se referem apenas aos termos O descritor lsquotermorsquo significa uma unidade lexical formada por uma uacutenica palavra ou por mais de uma denominada de lsquotermo compostorsquo E o descritor lsquorelacionamentorsquo ocorre entre termos ou seja satildeo relaccedilotildees de construccedilotildees sintaticamente diferentes que tecircm o mesmo significado (semacircntica) Exemplo lsquodefesa eficientersquo eacute igual a lsquodefender eficientementersquo e lsquofeira de domingorsquo eacute igual a lsquofeira dominicalrsquo Alguns autores como Baeza-Yates e Ribeiro-Neto (1999) utilizam a palavra lsquoiacutendicersquo ao inveacutes de descritores contudo Gonzalez ressalta que esta palavra refere-se apenas aos lsquotermosrsquo natildeo dando conta da semacircntica que envolve os lsquorelacionamentosrsquo
47
5 Relacionamento-Termo (RT) conjunto de relacionamentos sintaacuteticos e seus
componentes ldquoOs Sintagmas Nominais constituem os principais descritores neste
casordquo (GONZALEZ 2005 p41)
O modelo TR+ proposto por este autor combina aspectos dos modelos TR e RT
A Figura 18 daacute uma visatildeo geral do modelo TR+ de Gonzalez (2005) na fase de
indexaccedilatildeo com suas etapas essenciais e na fase de busca para a classificaccedilatildeo por relevacircncia
dos documentos em relaccedilatildeo agrave consulta
g
f
e
da a
b b
c
Figura 18 Visatildeo Geral do modelo TR+ Fonte Gonzalez 2005
O espaccedilo de descritores do modelo TR+ construiacutedo na fase de indexaccedilatildeo eacute com
de quatro processos principais
a) Preacute-processamento (toquenizaccedilatildeo e etiquetagem)
b) Nominalizaccedilatildeo
c) Captura de RLBs
d) Termos e RLBs
Na etapa ldquoardquo de preacute-processamento ocorrem duas accedilotildees fundamentais Toquen
e Etiquetagem A toquenizaccedilatildeo eacute a identificaccedilatildeo de cada item lexical (palavra e pontu
Na etiquetagem existe um etiquetador gramatical (part-of-speech tagger - parser
identifica atraveacutes de uma etiqueta (tag) a categoria gramatical de cada palavra do
(adjetivo substantivo verbo entre outras) Geralmente eacute morfoloacutegico (identifica som
c
posto
izaccedilatildeo
accedilatildeo)
) que
texto
ente a
48
categoria morfoloacutegica) ou morfossintaacutetico (identifica tambeacutem as funccedilotildees sintaacuteticas) Estes
processos satildeo realizados de forma automatizada21
Antes da nominalizaccedilatildeo eacute realizada a geraccedilatildeo de espaccedilo dos descritores que se
constitui na seleccedilatildeo e normalizaccedilatildeo dos descritores e ainda a contagem de frequumlecircncia de
ocorrecircncia dos descritores - termos (para o caacutelculo de seus pesos) que seraacute usada na etapa
ldquodrdquo
Faz parte do processo de seleccedilatildeo de descritores a eliminaccedilatildeo de stopwords22 que
podem ser descartadas na fase de indexaccedilatildeo e na consulta Essa exclusatildeo justifica-se segundo
o autor porque as stopwords satildeo consideradas palavras com pouca representatividade A
seleccedilatildeo dos descritores a quantidade dos mesmos e o peso de cada um podem ser afetados
pela normalizaccedilatildeo linguumliacutestica
A normalizaccedilatildeo segundo Gonzalez (2005) apresenta trecircs tipos conhecidos como
bull Sintaacutetica - que transforma frases semanticamente equivalentes mas
sintaticamente diferentes (ldquoeficiente processo raacutepidordquo e ldquoprocesso raacutepido
eficienterdquo)
bull Leacutexico-semacircntico ndash que utiliza relacionamentos semacircnticos (como a sinoniacutemia)
para substituir palavras morfologicamente distintas por uma uacutenica forma que
representa o conceito evidenciado
bull Morfoloacutegica ndash reduz as formas flexionais de uma palavra por meio da
conflaccedilatildeo23
No modelo TR+ foi utilizada a normalizaccedilatildeo lexical para o processo de
nominalizaccedilatildeo Este processo de nominalizaccedilatildeo constitui a etapa ldquobrdquo e significa a
transformaccedilatildeo de uma palavra (adveacuterbio adjetivo ou verbo) existente no texto em um
substantivo semanticamente equivalente constituiacutedo com regras vaacutelidas de formaccedilatildeo de
palavras (GONZALEZ 2005)
A tabela abaixo mostra exemplos de termos nominalizados Nesta etapa de
nominalizaccedilatildeo eacute utilizada a ferramenta CHAMA24
21 A ferramenta FORMA (Toquenizaccedilatildeo e Etiquetagem Morfoloacutegica) foi utilizada por Gonzalez O autor cita o nome desta ferramenta no seu site httpwwwinfpucrsbr~gonzaleztr+ Acesso em 14 de fevereiro de 2006 22 Stopwords satildeo palavras como preposiccedilotildees artigos e conjunccedilotildees 23 Conflaccedilatildeo satildeo processos realizados por algoritmos que combinam a representaccedilatildeo de duas ou mais palavras em um uacutenico termo Haacute dois meacutetodos mais comuns stemming que reduz a palavra para a parte fundamental semelhante ao radical e lematizaccedilatildeo que reduz a palavra variaacutevel agrave correspondente forma ldquocanocircnicardquo 24 A ferramenta CHAMA (nominalizaccedilatildeo de adjetivos verbos e adveacuterbios) foi desenvolvida por Marco Antonio Insaurriaga Gonzalez (doutor em Ciecircncia da Computaccedilatildeo pela UFRGS) Em sua tese de doutorado intitulada ldquoTermos e Relacionamentos em Evidecircncia na Recuperaccedilatildeo de Informaccedilatildeordquo 2005
49
Tabela 1 Exemplos de nominalizaccedilatildeo Fonte Gonzalez 2005
Devido agraves diferentes variaccedilotildees que a nossa Liacutengua Portuguesa apresenta este autor
trabalha em seu modelo com palavras sem acentuaccedilatildeo e em letras minuacutesculas ocorrendo um
comprometimento do significado das palavras como por exemplo eacute citado por ele puacuteblica e
publica
A etapa ldquocrdquo de captura de Relaccedilotildees Lexicais Binaacuterias (RLBs) eacute segundo Gonzalez
(2005) o relacionamento entre termos nominalizados ou seja sintaticamente diferentes mas
semanticamente iguais25 Uma RLB pode ser classificada tambeacutem quanto agrave nominalizaccedilatildeo de
seus componentes Este autor sistematiza e classifica esta questatildeo conforme aparece em seus
exemplos abaixo (2005 p 47)
bull Original onde o termo natildeo recebeu o processo de nominalizaccedilatildeo
bull Derivada onde um dos termos pelo menos resulta do processo de
nominalizaccedilatildeo
Uma RLB de acordo com Gonzalez (2005) apresenta a seguinte aparecircncia
25 Gonzalez desenvolveu o software RELLEX para o reconhecimento de relaccedilotildees lexicais binaacuterias em sua tese de doutorado 2005
50
id (t1t2) onde
id significa o identificador de relaccedilatildeo e
t1 e t2 satildeo os termos nominalizados
Este autor aponta os trecircs tipos de RLBs quanto ao identificador id
bull Classificaccedilatildeo onde id eacute especificado com um sinal de igual (=) t1 representa
uma subclasse ou uma instacircncia de t2 e t2 representa uma classe
Exemplos =(caoanimal)
=(PET garrafa) Exemplo desenvolvido nesta dissertaccedilatildeo
bull Restriccedilatildeo onde id eacute uma preposiccedilatildeo t1 representa um elemento modificado e t2
representa um elemento modificador
Exemplos de(equipeatletismo)
com(supervisorexperiencia)
por(orientacaoministro)
bull Associaccedilatildeo onde id representa um evento t1 eacute um sujeito e t2 eacute um objeto
(direto ou indireto) ou um adjunto
Exemplos superacao(alunodificuldade)
interessea(propostanegociante)
moradiaem(presidentebrasilia)
As Relaccedilotildees Lexicais Binaacuterias conforme Gonzalez (2005) satildeo inseridas no espaccedilo
de descritores para ampliar o seu universo As RLBs descrevem relaccedilotildees semacircnticas lexicais
como as que satildeo apresentadas na estrutura de Qualia da teoria do Leacutexico Gerativo de
Pustejovsky (GONZALEZ 2000 PUSTEJOVSKY 1991) O estudo desta teoria motivou o
Gonzalez a desenvolver a proposta das RLBs como parte integrante de seu trabalho como um
modo de adequaacute-la a aplicaccedilotildees na aacuterea de RI
Como jaacute foi descrita na seccedilatildeo 32 a Estrutura de Qualia da teoria do Leacutexico
Gerativo descreve um item lexical atraveacutes de quatro papeacuteis formal constitutivo agentivo e
teacutelico O papel formal distingue um item lexical em um domiacutenio maior Em uma RLB
segundo Gonzalez (2005) do tipo classificaccedilatildeo como ldquo=(computadormaquina)rdquo por
exemplo o computador seria distinguido como uma maacutequina ou em ldquo=(ipmftributo)rdquo o ipmf
seria um tributo Portanto a RLB do tipo classificaccedilatildeo corresponde ao papel formal da
estrutura de Qualia
51
O papel constitutivo estabelece a relaccedilatildeo entre um item lexical X e suas partes
constituintes Em uma RLB do tipo restriccedilatildeo como ldquode(mesamadeira)rdquo por exemplo haveria
a indicaccedilatildeo de que a mesa eacute feita de madeira ou em ldquocom(massaalho)rdquo de que haacute alho na
massa O papel agentivo especifica os fatores envolvidos na origem ou causa de um item
lexical Em uma RLB para este autor do tipo restriccedilatildeo como ldquopor(publicacaoautor)rdquo por
exemplo seria especificado que a publicaccedilatildeo se deve ao autor ou em ldquopor(impedimentolei)rdquo
que a lei eacute a razatildeo do impedimento
O papel teacutelico explica qual a funccedilatildeo ou finalidade do item lexical Em uma RLB do
tipo associaccedilatildeo como ldquoconserto(encanadorvazamento)rdquo por exemplo explica que a funccedilatildeo
do encanador eacute o conserto do vazamento ou em uma RLB do tipo restriccedilatildeo como
ldquopara(leituraaprendizado)rdquo que a finalidade da leitura eacute o aprendizado (GONZALEZ 2005)
Este autor salienta que natildeo se quer que as RLBs ldquointerpretemrdquo o texto com
distinccedilotildees indicaccedilotildees especificaccedilotildees ou explicaccedilotildees dos tipos apresentados O propoacutesito eacute de
que as RLBs sejam descritores de tais fatos mas sem classificaccedilatildeo (etiquetas) Por isto os
identificadores de relaccedilatildeo natildeo satildeo rotulados com os papeacuteis descritos A uacutenica exceccedilatildeo eacute o
identificador das RLBs do tipo classificaccedilatildeo O indicador ldquo=rdquo eacute o roacutetulo inevitaacutevel para o
claacutessico ldquoeacute umrdquo porque natildeo haacute outro papel possiacutevel nesse tipo de relaccedilatildeo
No modelo TR+ estaacute envolvido aleacutem da coleccedilatildeo de documentos constituiacuteda por
descritores (termos e relacionamentos) tambeacutem os seus respectivos pesos que dependem de
uma formulaccedilatildeo matemaacutetica denominada de lsquocaacutelculo de representatividadersquo dos descritores
em cada documento que eacute um diferencial deste modelo e estaacute na fase ldquodrdquo onde os termos e
RLBs seratildeo armazenados
Para ocorrer o caacutelculo do peso dos descritores eacute aplicado o conceito de evidecircncia26
Este conceito natildeo depende apenas da frequumlecircncia de ocorrecircncia de um descritor mas de um
outro mecanismo ldquoa representatividade de um descritor depende aleacutem de sua frequumlecircncia de
ocorrecircncia no texto da ocorrecircncia de mecanismos de coesatildeo fraacutesicardquo (GONZALEZ 2005
p48) A coesatildeo fraacutesica determina uma junccedilatildeo significativa entre os componentes de uma
frase27 Esta junccedilatildeo aliada com a frequumlecircncia de ocorrecircncia constitui o conceito de evidecircncia
como um dos aspectos essenciais da Tese de Gonzalez (2005)
A evidecircncia dos termos eacute realizada de forma direta com a frequumlecircncia e a coesatildeo
fraacutesica mas a evidecircncia de um relacionamento natildeo pois esta eacute dependente primeiramente das
26 Evidecircncia significa qualidade daquilo que eacute evidente que eacute incontestaacutevel que todos vecircem ou podem ver e verificar (Dicionaacuterio Eletrocircnico Michaelis) Como descreve Gonzalez (2005) ldquoeacute aquilo natildeo oferece ou natildeo daacute margem agrave duacutevidardquo 27 Site httpacdufrjbr~peadtema09coesaogramaticalhtml
52
evidecircncias de seus termos Este conceito estaacute inserido no caacutelculo de representatividade de um
descritor
O caacutelculo da representatividade eacute um caacutelculo de relevacircncia do termo ou
relacionamento que varia de acordo com as abordagens (booleana vetorial e probabiliacutestica) e
pode ser realizado apenas com a frequumlecircncia da palavra no documento ou ainda com a
frequumlecircncia vinculada com a sua informaccedilatildeo morfoloacutegica ou sintaacutetica (GONZALEZ 2005)
Para realizar o caacutelculo da representatividade dos descritores haacute duas estrateacutegias de
determinaccedilatildeo que satildeo os modelos com unigramas que tratam os termos de forma
independente (abordagens vetorial e probabiliacutestica) e os modelos com dependecircncia entre
termos Estas dependecircncias envolvem conjuntos diferentes de conhecimentos que satildeo os
estatiacutesticos e os linguumliacutesticos28 Os conhecimentos linguumliacutesticos satildeo ldquoleacutexico morfoloacutegico
fonoloacutegico sintaacutetico semacircntico e pragmaacuteticordquo (ABRAHAtildeO 1997 p11)
Estes dois modelos descritos acima satildeo apresentados como mais significativos
poreacutem ainda utilizam a abordagem booleana Isto porque Gonzalez (2005) define como o
caminho mais promissor a combinaccedilatildeo da abordagem booleana (individualmente limitadora)
com a uniatildeo dos conhecimentos estatiacutesticos e linguumliacutesticos entre si que permitem mais
interaccedilatildeo com o usuaacuterio
O caacutelculo da representatividade ao mesmo tempo que eacute uma propriedade baacutesica de
um descritor apresenta diferentes formas de acordo com as abordagens vetorial e
probabiliacutestica (capiacutetulo 2) e gera diversas interpretaccedilotildees Por isto Gonzalez (2005) propotildee um
novo caacutelculo que compreenda a importacircncia do contexto nas foacutermulas inseridas no seu modelo
TR+
O outro momento de seu modelo (Figura 18) compreende a lsquofase de buscarsquo que inclui
Preacute-Processamento (toquenizaccedilatildeo e etiquetagem) Nominalizaccedilatildeo e Captura de RLBs Estas
etapas ocorrem da mesma maneira que na fase de indexaccedilatildeo Inclui tambeacutem as etapas
Formulaccedilatildeo de consulta booleana Busca e Classificaccedilatildeo
Na etapa ldquoerdquo (Formulaccedilatildeo de Consulta Booleana) Gonzalez (2005) explica que se a
consulta q em linguagem natural formulada pelo usuaacuterio for por exemplo ldquopintura
restauradardquo entatildeo seraacute formulada no formato Booleano conforme o modelo TR+ a seguinte
consulta qb
28 Estes conhecimentos envolvem niacuteveis leacutexico-morfoloacutegico e sintaacutetico sintagmas nominais (sujeito objeto direto e indireto e adjunto adnominal) A vantagem destes eacute a capacidade de identificar relacionamentos entre palavras natildeo adjacentes como ldquoalgoritmosrdquo e ldquoconcorrentesrdquo em ldquoalgoritmos sequumlenciais e concorrentesrdquo
53
r1 OU r2 OU ( (n1 (p1) OU n2(p1) ) E (n1 (p2) OU n2(p2) ) ) onde
r1 = de(restauracaopintura)
r2 = r1rsquo = diferente_de(restauracaopintura)
n1(p1) = (elemento vazio)
n2(p1) = pintura
n1(p2) = restauracao
n2(p2) = restaurador
p1 = pintura e
p2 = restaurada
Tabela 2 Exemplo de uma consulta qb Fonte Gonzalez 2005 p 51
Na fase de busca a etapa ldquofrdquo ocorre uma relaccedilatildeo entre a etapa ldquoerdquo e a etapa ldquodrdquo Esta
uacuteltima acontece ainda na fase de indexaccedilatildeo visto que ldquoestando os termos e as RLBs definidas
e calculados os pesos a classificaccedilatildeo dos documentos depende do valor de relevacircncia dos
mesmos e da formulaccedilatildeo Booleana da consultardquo (GONZALEZ 2005 p 50)
A etapa ldquogrdquo (Classificaccedilatildeo) eacute resultado de um caacutelculo sobre os dados obtidos no
procedimento anterior que identifica o valor de relevacircncia de cada documento recuperado-os
em ordem decrescente Um exemplo de classificaccedilatildeo eacute indicado por Gonzalez (2005) atraveacutes
da foacutermula de uma consulta denominada q Nesta consulta encontram-se os termos t1 e t2 e a
RLB r e se estes dois termos estatildeo relacionados atraveacutes de r em um documento d estes teratildeo
dupla contribuiccedilatildeo no caacutelculo do valor de relevacircncia de d poreacutem se t1 e t2 ocorrem em d mas
natildeo estatildeo relacionados atraveacutes de r o autor considera que esta contribuiccedilatildeo seraacute simples e
assim d tende a perder posiccedilotildees na classificaccedilatildeo por relevacircncia a q
Os documentos recuperados classificam-se em dois grupos (a) grupo superior de maior relevacircncia documentos que atendem agraves condiccedilotildees estabelecidas na consulta Booleana ou seja possuem pelo menos uma das RLBs da consulta ou na falta de todas elas possuem obrigatoriamente todos os termos conforme especificado (b) grupo inferior de menor relevacircncia documentos que natildeo atendem a todas as condiccedilotildees estabelecidas na consulta Booleana mas possuem pelo menos um dos termos da consulta Os documentos satildeo classificados em ordem decrescente do valor de relevacircncia tanto nos grupos superior como inferior (GONZALEZ 2005 p 51)
Eacute importante ressaltar que toda a proposta de Gonzalez (Modelo TR+) foi
automatizada testada e aprovada Foi utilizado o software FORMA para a etapa de preacute-
processamento e os demais softwares como CHAMA (nominalizaccedilatildeo) e RELLEX (regras de
54
identificaccedilatildeo de RLBs) foram desenvolvidos pelo autor Diversos algoritmos juntamente com
abordagens de RI (booleana probabiliacutestica e vetorial) foram desenvolvidos para as fases
posteriores do seu trabalho como o caacutelculo do peso dos descritores a busca e a classificaccedilatildeo
de documentos
As experimentaccedilotildees desenvolvidas por Gonzalez (2005) em seu trabalho lograram
comprovar que o processo de nominalizaccedilatildeo como processo de normalizaccedilatildeo lexical
proporciona melhores resultados de recuperaccedilatildeo que os produzidos pelos processos
tradicionais (lematizaccedilatildeo e stemming) a identificaccedilatildeo de RLBs (obtenccedilatildeo de informaccedilatildeo
linguumliacutestica) contribui de forma positiva para a descriccedilatildeo de dependecircncias de termos
ampliando o espaccedilo de descritores o caacutelculo da representatividade dos descritores baseado em
evidecircncia melhora a classificaccedilatildeo de relevacircncia dos documentos com vantagem sobre o
caacutelculo baseado em frequumlecircncia de ocorrecircncia o uso de consultas com operadores Booleanos
trata-se de uma forma eficaz de complementar a especificaccedilatildeo de dependecircncias de termos e
tambeacutem a inclusatildeo de conhecimento linguumliacutestico como a realizada no modelo proposto pelo
autor apresenta relaccedilatildeo custobenefiacutecio viaacutevel dentro do atual estaacutegio de desenvolvimento da
pesquisa em RI
O proacuteximo capiacutetulo descreve o novo modelo proposto para esta dissertaccedilatildeo baseado
na identificaccedilatildeo das possibilidades de ampliaccedilatildeo de siacutentese e de sistematizaccedilatildeo do modelo de
Kuramoto com a estrutura de Gonzalez Pode ser considerada uma soluccedilatildeo hiacutebrida de um
modelo de RI que une trecircs teorias Sintagmas Nominais de Kuramoto Leacutexico Gerativo de
Pustejovsky e Modelo TR+ de Gonzalez Apresentar-se-aacute os paracircmetros gerais norteadores e
justificadores do modelo a descriccedilatildeo narrativa da sua funcionalidade os resultados dos testes
e a descriccedilatildeo formal UML do modelo
55
4 APRESENTACcedilAtildeO E DISCUSSAtildeO DO MODELO PROPOSTO
A proposta desta dissertaccedilatildeo eacute de integrar a aplicaccedilatildeo praacutetica do projeto dos
Sintagmas Nominais de Kuramoto sistematizando e associando com o modelo TR+ de
Gonzalez (2005)
Na descriccedilatildeo do modelo do sistema proposto foi utilizado o meacutetodo denominado de
Processo Unificado (UP) que envolve as fases de concepccedilatildeo elaboraccedilatildeo construccedilatildeo e
transiccedilatildeo e utilizou-se a Linguagem de Modelagem Unificada (UML) que eacute fortemente
relacionada com a metodologia utilizada segundo Wazlawick (2004)
Neste capiacutetulo desenvolve-se o modelo conceitual da aplicaccedilatildeo proposta para a qual
foram realizadas as etapas de levantamento e anaacutelise de requisitos representada pelo
diagrama e pela descriccedilatildeo dos casos de uso e de construccedilatildeo dos diagramas de classes e de
sequumlecircncia relacionados
41 Procedimentos desenvolvidos utilizando o modelo de SN de Kuramoto e a proposta
Gonzalez - ldquoEstrutura SINTR+rdquo
Esta dissertaccedilatildeo optou por realizar uma relaccedilatildeo entre propostas diferenciadas utilizar
o modelo de SN de Kuramoto para a organizaccedilatildeo dos conceitos mais significativos dos
documentos e a proposta de Gonzalez para a busca dessas informaccedilotildees que estaratildeo
estruturadas atraveacutes da dependecircncia entre termos Esta relaccedilatildeo foi desenvolvida na criaccedilatildeo da
ldquoEstrutura SINTR+rdquo que tem como especificidade a busca nos documentos a partir do banco
de dados dos Sintagmas Nominais Esta escolha de unir em uma estrutura proacutepria os SN e o
Modelo TR+ pautou-se pelo intuito de orientar mais objetivamente o usuaacuterio na definiccedilatildeo da
sua query de busca atraveacutes de uma navegaccedilatildeo sobre a estrutura de SN presentes no
documento e de posterior apresentaccedilatildeo de lista de documentos efetivamente relevantes
O objetivo eacute trabalhar com os Sintagmas Nominais evidenciando e potencializando
uma uniatildeo com o modelo TR+ de Gonzalez (2005) O modelo abaixo (Figura 19) apresenta
uma nova proposta pautada na junccedilatildeo sistematizada e analiacutetica da extraccedilatildeo dos SN na
Estrutura de Kuramoto (1999) com o Modelo TR+ de Gonzalez (2005) ldquoEstrutura SINTR+rdquo
56
Documentos
Extraccedilatildeo de SN
Preacute-processamento
Nominalizaccedilatildeo
4
Captura de RLBs
Referecircncia aos
documentos classificados
Classificaccedilatildeo
Lista de SN de Niacutevel Requerido
Lista dos demais Preacute-
3
2
85
3
2
1
Consulta em
LN
7
6
(Fase d
O mo
extraccedilatildeo de tod
o preacute-processam
de acontecer co
de forma mais
foco de anaacutelise
subsequumlentes
Antes
descritores con
frequumlecircncia de o
Etapa 5
Em se
mudanccedila de um
concreto eou a
Te
R
e indexaccedilatildeo)
Figura
delo propost
os os seus Si
ento onde o
m todas as p
objetiva e raacute
somente so
do processo d
stituiacuteda na s
correcircncia dos
guida ocorre
a palavra (ad
bstrato Na E
rmos e
LBs
Busca
Formulaccedilatildeo de consulta Booleana
11
(Fase
19 Visatildeo Geral do Modelo Proposto ldquoEstr
o se inicia a partir dos document
ntagmas Nominais (Etapa 1) Extra
correm a Toquenizaccedilatildeo e a Etiquet
alavras do documento como ocorr
pida apenas diretamente sobre os
bre os termos inclusos nos SN pe
e nominalizaccedilatildeo na Etapa 3 eacute exec
eleccedilatildeo e normalizaccedilatildeo dos descrit
descritores - termos (para o caacutelculo
o processo de nominalizaccedilatildeo que c
veacuterbio adjetivo ou verbo) existen
tapa 4 ocorre a identificaccedilatildeo das
niacuteveis de SN processamento
Nomin
Captura
9
de busca)
utura SINTR+rdquo
os a serem inse
iacutedos os SN na E
agem que Essa e
e no modelo TR
termos constant
rmanece para to
utada a geraccedilatildeo
ores e ainda na
de seus pesos)
onstitui a Etapa
te nos SN em u
RLBs nos SN q
alizaccedilatildeo
de RLBs 0
ridos com a
tapa 2 eacute feito
tapa ao inveacutes
+ eacute realizada
es nos SN O
das as etapas
de espaccedilo dos
contagem da
a ser usada na
3 e significa a
m substantivo
ue significa o
1
1
1
57
relacionamento entre termos nominalizados Estas etapas acima satildeo constituiacutedas para a
geraccedilatildeo do espaccedilo de descritores (termos e RLBs) referentes agrave Etapa 5
Na lsquofase de buscarsquo primeiramente o usuaacuterio digita uma palavra por exemplo
ldquoplaacutesticosrdquo A resposta para o usuaacuterio ocorreraacute pois internamente foi feita uma programaccedilatildeo
(a ser implementada) para identificar o niacutevel do SN solicitado pelo usuaacuterio para que
posteriormente apareccedila para este a lista de todos os SN do niacutevel apresentado contendo a query
solicitada
No caso do exemplo ldquoplaacutesticosrdquo o processo avanccedila na Etapa 6 listando todos os
sintagmas nominais de primeiro niacutevel (SN1) dos documentos (uma vez que a solicitaccedilatildeo
referia-se ao niacutevel 1) Nesta etapa o usuaacuterio poderaacute escolher um dos sintagmas de primeiro
niacutevel ou confirmar a sua escolha (query) inicial O processo continua com a escolha de uma
dentre as opccedilotildees de i) ver a lista de documentos relacionados ao SN1 definido ou ii) solicitar
a relaccedilatildeo de sintagmas de seu segundo niacutevel A visualizaccedilatildeo da lista de sintagmas de niacutevel
superior permitiria ao usuaacuterio filtrar mais a sua consulta Para a determinaccedilatildeo da lista de SN
de segundo niacutevel como por exemplo ldquoa reciclagem de plaacutesticosrdquo ldquoa induacutestria de plaacutesticosrdquo
(Figura 20) tambeacutem foi feita uma programaccedilatildeo especiacutefica que seraacute descrita posteriormente
Na continuidade do processo o usuaacuterio pode prosseguir o refinamento da sua busca
atraveacutes da seleccedilatildeo de SN de maior niacutevel ou pode dar-se por satisfeito com o resultado (Etapa
7) solicitando diretamente a lista dos documentos associados ao SN definidos Nesse caso a
lista eacute apresentada na ordem de classificaccedilatildeo oportunizada pela Estrutura TR+ conforme o
descrito nas proacuteximas etapas
O processamento proposto para a determinaccedilatildeo da relaccedilatildeo dos sintagmas de um
determinado niacutevel foi pensado com vista a gerar economia de espaccedilo de memoacuteria utilizada
uma vez que seratildeo armazenados na base de dados os documentos e seus SN de uacuteltimos niacuteveis
e manipulados apenas os uacuteltimos niacuteveis da estrutura de SN Os niacuteveis anteriores relativos ao
SN seratildeo determinados na programaccedilatildeo desenvolvida a partir da identificaccedilatildeo do nuacutemero de
preposiccedilotildees que o SN apresenta Nesta programaccedilatildeo se houver apenas um termo (ou mesmo
apenas um termo composto) o SN eacute considerado um SN de 1ordm niacutevel A presenccedila de um termo
composto com mais uma preposiccedilatildeo indica a existecircncia de um SN de 2ordm niacutevel Jaacute trecircs termos
com duas preposiccedilotildees vatildeo indicar a presenccedila de um SN de 3ordm niacutevel e finalizando quatro ou
mais termos com 3 (ou mais) preposiccedilotildees remetem ao SN de 4ordm niacutevel
Ao optar pela apresentaccedilatildeo da lista de documentos seratildeo desenvolvidas
(internamente) na programaccedilatildeo conforme o proposto pela Estrutura TR+ de Gonzalez as
etapas de Preacute-processamento (toquenizaccedilatildeo e etiquetagem ndash Etapa 8) Nominalizaccedilatildeo (Etapa
58
9) Captura de RLBs (Etapa 10) Formulaccedilatildeo de consulta Booleana (Etapa 11) Busca (Etapa
12) e por fim Classificaccedilatildeo (Etapa 13)
Na Etapa 11 eacute trabalhado no formato Booleano uma consulta formulada pelo usuaacuterio
conforme o modelo TR+ A Etapa 12 ocorre uma relaccedilatildeo entre a Etapa 11 e a Etapa 5 (esta
etapa ocorre ainda na fase de indexaccedilatildeo) A Etapa 13 eacute a uacuteltima e resulta do caacutelculo que
identifica o valor de relevacircncia de cada documento recuperando-os em ordem decrescente
Eacute importante reforccedilar que o sistema iraacute verificar o preacute-processamento nominalizaccedilatildeo
e a captura de RLBs jaacute realizadas na fase de indexaccedilatildeo comparando-as Apoacutes esta
identificaccedilatildeo o sistema usa a formulaccedilatildeo de consulta Booleana para a busca chegando agrave
classificaccedilatildeo dos documentos de acordo com o peso dos descritores (termos e RLBs)
formulados na fase de indexaccedilatildeo e definidos na fase de busca (de acordo com o termo
escolhido e a coleccedilatildeo dos documentos)
Exemplificando o paraacutegrafo acima a Figura 20 mostra o funcionamento inicial desta
estrutura no que se refere aos Sintagmas Nominais
Pesquisa
Usuaacuterio escolha uma opccedilatildeo (Sintagma Nominal) que mais se identifique com a sua consulta Logo em seguida escolha se deseja ir para o Proacuteximo Niacutevel de Sintagma Nominal ou Estrutura TR+
Buscar (SN) Plaacutesticos
SN1 Os plaacutesticos
Proacuteximo niacutevel SN Estrutura TR+
SN2 A reciclagem de plaacutesticos A separaccedilatildeo de plaacutesticos A induacutestria de plaacutesticos
Proacuteximo niacutevel SN Estrutura TR+
SN3 A induacutestria de reciclagem de plaacutesticos
Estrutura TR+ Proacuteximo niacutevel SN
SN4 -----
Estrutura TR+
Figura 20 Descriccedilatildeo inicial do modelo proposto
59
Buscando analisar as vantagens que a proposta do modelo SINTR+ apresenta vale
lembrar que o modelo TR+ de Gonzalez jaacute apresenta benefiacutecios como
bull O processo de nominalizaccedilatildeo propicia melhores resultados de recuperaccedilatildeo do que
os produzidos pelos processos tradicionais (lematizaccedilatildeo e stemming)
bull A identificaccedilatildeo de RLBs colabora para a descriccedilatildeo de dependecircncia de termos que
ampliam o espaccedilo de descritores
bull O caacutelculo da representatividade dos descritores baseado em evidecircncia melhora a
classificaccedilatildeo da relevacircncia de documentos em relaccedilatildeo agravequela obtida atraveacutes da
extraccedilatildeo e do caacutelculo por frequumlecircncia de ocorrecircncia
bull O uso de consultas com operadores Booleanos oferece uma forma eficaz de
complementar a especificaccedilatildeo de co-dependecircncia semacircntica entre termos
As vantagens antevistas na elaboraccedilatildeo da proposta SINTR+ expandem as jaacute obtidas
pelo modelo de Gonzalez29 pois une a elas a vantagem do modelo de hierarquia de niacuteveis de
SN de Kuramoto Estas vantagens satildeo a ldquoEstrutura SINTR+rdquo executa em um menor tempo na
fase de indexaccedilatildeo dos documentos a ldquoEstrutura SINTR+rdquo conteacutem um tamanho menor de
arquivos de iacutendice e a ldquoEstrutura SINTR+rdquo proporciona facilidade na fase de nominalizaccedilatildeo
visto que os SN satildeo o nuacutecleo de maior significaccedilatildeo de um texto30
Os documentos (textos) usados como campo empiacuterico desta dissertaccedilatildeo foram artigos
retirados da Internet sobre o tema ldquoLixordquo Neste contexto fazem parte da coleccedilatildeo de
documentos temas como ldquoCuidados com o Lixordquo ldquoLixo Industrialrdquo ldquoO destino do lixo
quiacutemicordquo entre outros Como ainda natildeo havia disponiacuteveis extratores automaacuteticos de SN por
hierarquia em niacuteveis foi feita uma leitura dos textos dos quais se retirou manualmente seus
sintagmas Os SN significativos com o tema ldquoLixordquo foram extraiacutedos de dois (2) documentos
(que estatildeo nos ANEXOS A e B) e satildeo apresentados no Anexo C
Apoacutes esta etapa foram extraiacutedos todos os sintagmas nominais (somente do
documento1 - ANEXO A) que estatildeo sublinhados no texto independentes do tema para
exemplificar a extraccedilatildeo da consulta
Para avaliar preliminarmente a extensatildeo com que as vantagens antevistas no modelo
proposto realmente se verificariam foi realizado um teste com o documento1 (ANEXO A)
composto de 9 paraacutegrafos e 1006 palavras (Figura 21)
29 Este modelo foi testado e aprovado na sua proposta de doutorado que estaacute inserida no contexto do grupo de pesquisa da PUCRS no qual o autor participa de estudos na aacuterea haacute mais de uma deacutecada 30 Isto pode ser observado do Anexo A (Documento1) em que os SN satildeo destacados no texto
60
Figura 21 Nuacutemero de palavras do Documento1
O documento1 (ANEXO A) foi o escolhido para dimensionar a reduccedilatildeo no total de
palavrastermos a serem incluiacutedos na base de dados demonstrando a importacircncia do modelo
apresentado conforme tabela abaixo
Categorias Texto Total SNs Total de palavrastermos 1006 640
Substantivos 369 334 Adveacuterbios 41 04
Verbos 133 Ausecircncia de verbos Adjetivos 73 55
Figura 22 Tabela comparativa Texto Total e SNs
O texto possui um total de 1006 palavrastermos sendo destes 369 substantivos 41
adveacuterbios 133 verbos e 73 adjetivos (Figura 22) Do texto todo foi extraiacutedo um total de 139
sintagmas nominais E destes o nuacutemero total de palavrastermos eacute de 640 sendo 334
substantivos 04 adveacuterbios e 55 adjetivos
61
Documento1 - Cresce a induacutestria de reciclagem de plaacutesticos
369
41
133
7355
nordm de substantivos
nordm de adveacuterbios
nordm de verbos
nordm de adjetivos
nordm de adjetivosinseridos nos SN
Figura 22 Nuacutemero de substantivos adveacuterbios verbos e adjetivos do Documento1
Relacionando o nuacutemero de adjetivos do texto todo e os adjetivos inseridos nos SN
pode-se notar um ganho expressivo pois se tem uma reduccedilatildeo de 18 adjetivos Destes dados
133 verbos foram descartados (novamente afirma-se da importacircncia dos SN que representam a
unidade significativa do texto) Tambeacutem se observa que 37 adveacuterbios natildeo foram incluiacutedos
diminuindo assim o nuacutemero de descritores
Estes dados apontam aspectos positivos que consolidam a importacircncia da utilizaccedilatildeo
dos SN na diminuiccedilatildeo de descritores com consequumlente reduccedilatildeo do uso de memoacuteria e ainda
melhora na fase de busca pelo tempo de resposta
A Figura 23 apresenta o comparativo entre o percentual do nuacutemero de palavras do
texto com o percentual do nuacutemero de palavras dos Sintagmas Nominais Isto mostra que o
percentual de SN de 64 tem um valor reduzido colaborando para um nuacutemero menor de
descritores desta forma restringe-se tambeacutem o uso de memoacuteria (neste caso ocupado na fase
de indexaccedilatildeo) reduzem-se os descritores e diminui-se o tempo de resposta na fase de busca
Estes dados natildeo satildeo somente relevantes frente a um modelo de RI mas corroboram para a
manutenccedilatildeo do seu funcionamento
62
Dados Comparativos - Nordm de palavras restantes e dos SNs
64
36 Nordm de palavras dossintagmas nominaisNordm de palavras restantes
100 - nordm total de palavras
Figura 23 Nuacutemero de palavras restantes x Sintagmas Nominais
A Figura 24 mostra que existe um percentual de 28 de adjetivos inseridos nos
Sintagmas Nominais Esses adjetivos durante o processo de nominalizaccedilatildeo conforme
Gonzalez (2005) satildeo transformados em substantivos concretos eou abstratos (se houver) Isto
aponta um nuacutemero bem inferior comparado a um texto inteiro o que promove uma diminuiccedilatildeo
de substituiccedilotildees de um adjetivo por um substantivo concreto eou abstrato que pode inferir
no significado do documento e a reduccedilatildeo destas substituiccedilotildees evita possiacuteveis erros de
interpretaccedilatildeo
Dados Comparativos - Sintagmas Nominais e adjetivos
72
28nordm de sintagmas nominais
nordm de adjetivos inseridosnos SN
Figura 24 Sintagmas Nominais e adjetivos inseridos nos SN
A extraccedilatildeo dos Sintagmas Nominais corresponde agrave primeira etapa Depois desta
extraccedilatildeo manual se agrupou os SN em quatro niacuteveis 1 2 3 e 4 (ANEXO C)
Para o desenvolvimento das demais etapas (toquenizaccedilatildeo etiquetagem morfoloacutegica
nominalizaccedilatildeo e as relaccedilotildees lexicais binaacuterias) foi escolhido o paraacutegrafo 6 do documento1
(ANEXO A)
63
A induacutestria da reciclagem do plaacutestico no Brasil tem crescido bastante em funccedilatildeo do reaproveitamento do PET que eacute usado no segmento de monofilamentos em artigos como vassouras e na induacutestria tecircxtil Conforme Ana Flores a reciclagem gera 250 mil empregos no Paiacutes dos quais 70 satildeo informais Poreacutem a maior parte do potencial de mercado ainda estaacute sendo desperdiccedilada avalia ldquoCerca de 15 do total de plaacutestico que eacute industrializado no Paiacutes eacute reciclado Em dez anos poderiacuteamos chegar a 60 como nos Estados Unidos desde que fosse implementado um conjunto de medidas incentivando essa praacuteticardquo assegura
Tabela 3 Paraacutegrafo 6 do documento1
Na etapa de toquenizaccedilatildeo e etiquetagem satildeo identificadas classes de palavras como
substantivos adjetivos adveacuterbios preposiccedilotildees artigos conjunccedilotildees e inclusive ponto No
Anexo D eacute possiacutevel visualizar essas informaccedilotildees em duas ferramentas de extraccedilatildeo
disponiacuteveis nos sites do Projeto de Linguumliacutestica Computacional Hermes da Fundaccedilatildeo
Universidade Federal do Rio Grande (FURGBrasil) e do Programa de LAEL da PUC-SP -
Programa de Estudos Poacutes-Graduados em Linguumliacutestica Aplicada e Estudos da Linguagem da
Pontifiacutecia Universidade Catoacutelica de Satildeo Paulo31
A partir desta identificaccedilatildeo adjetivos adveacuterbios e verbos satildeo transformados em
substantivos (concreto eou abstrato) quando for possiacutevel Ou ateacute mesmo o adjetivo seja o
mesmo nome (grafia) para substantivos Esse processo de nominalizaccedilatildeo no trabalho de
Gonzalez (2005) foi realizado atraveacutes da ferramenta CHAMA desenvolvida por ele mesmo
Apoacutes o processo de nominalizaccedilatildeo satildeo identificadas as RLBs (Relaccedilotildees Lexicais
Binaacuterias) conforme descrito nesta seccedilatildeo Gonzalez (2005) desenvolveu tambeacutem a ferramenta
RELLEX para identificaccedilatildeo das RLBs Para o caso do teste optou-se por fazer manualmente32
(ANEXO E) devido agrave indisponibilidade destas duas ferramentas Esta etapa tem uma
importacircncia muito grande onde satildeo reconhecidos os relacionamentos das palavras no texto
atraveacutes de identificadores A tabela 4 mostra as RLBs identificadas do paraacutegrafo 6 do
documento1 (ANEXO A) de forma manual
RLBs classificaccedilatildeo =(textil industria)
RLBS restriccedilotildees
de (industria reciclagem) de (reciclagem plastico)
de (reaproveitamento PET) de (segmento monofilamento) de (mercado potencialidade)
de (plastico totalidade) de (conjunto medida)
Tabela 4 RLBs identificadas no paraacutegrafo 6 do documento1
31 As paacuteginas disponiacuteveis satildeo hermessourceforgenethermeswebhtml e httpwww2laelpucspbrcorporaetiquetagemindexhtml32 Dicionaacuterios consultados MICHAELIS Dicionaacuterio Eletrocircnico Acesso em mar de 2006 e FERREIRA Aureacutelio Buarque de Holanda Novo Aureacutelio Seacuteculo XXI o dicionaacuterio da liacutengua portuguesa 1999
64
42 Descriccedilatildeo Formal do Modelo Proposto SINTR+
Os Sintagmas Nominais de Kuramoto em conjunto com as abordagens utilizadas no
modelo TR+ de Gonzalez promovem a utilizaccedilatildeo de conceitos orientados a objetos (OO)
porque eacute considerada a melhor metodologia para projeto de software permite uma
organizaccedilatildeo aprimorada do coacutedigo tem uma proximidade com a UML (Linguagem de
Modelagem Unificada) proporciona uma facilidade de manutenccedilatildeo do coacutedigo apresenta
menor grau de replicaccedilatildeo do coacutedigo e possibilita uma aplicaccedilatildeo em camadas o MVC33 um
padratildeo de projeto atraveacutes da Linguagem Orientada a Objetos Para compreender estes
conceitos e o desenvolvimento da modelagem proposta ressaltaram-se alguns aspectos baacutesicos
de seus fundamentos
A Linguagem UML segundo Larman (2000) expressa a modelagem de sistemas e
utiliza os conceitos orientados a objetos Como na aplicaccedilatildeo proposta trabalhar-se-aacute
especificamente apenas nas etapas de anaacutelise e projeto considera-se importante o uso da
linguagem UML por ser esta uma linguagem poderosa para expressar de modo claro e preciso
o processo de geraccedilatildeo de projetos de software Para Wazlawick (2004) esta linguagem daacute
suporte a que esse processo gere uma estrutura faacutecil de ser compreendida Para o autor isto
ocorre quando se utiliza um software autodocumentado e de faacutecil entendimento tanto em niacutevel
macro quanto em detalhes
Este autor define que o Processo Unificado (UP) estaacute associado agrave notaccedilatildeo UML e
indica que suas fases satildeo concepccedilatildeo elaboraccedilatildeo construccedilatildeo e transiccedilatildeo Conforme
Wazlawick (2004) eacute na primeira fase que se faz o levantamento dos principais requisitos e
compreende-se o sistema de forma abrangente A fase de elaboraccedilatildeo eacute constituiacuteda de anaacutelise e
projeto e a fase de construccedilatildeo corresponde agrave implementaccedilatildeo e testes
A anaacutelise de requisitos ainda segundo este autor (2004 p 24) ldquoestaacute associada ao
processo de descobrir quais satildeo as operaccedilotildees que o sistema deve realizar e quais satildeo as
restriccedilotildees que existem sobre elasrdquo Jaacute a anaacutelise de domiacutenio ldquoestaacute relacionada agrave descoberta das
informaccedilotildees gerenciadas pelo sistema ou seja agrave representaccedilatildeo e transformaccedilatildeo da
informaccedilatildeordquo (2004 p 26)
No caso de um sistema de informaccedilotildees sobre uma instituiccedilatildeo de ensino (Moacutedulo
controle de alunos) por exemplo possivelmente a anaacutelise de requisitos permitiria descobrir
que o sistema deveria controlar a data o curso e a turma em que o aluno foi matriculado o
iniacutecio e teacutermino do curso calcular automaticamente os pagamentos gerar relatoacuterios de
65
contrato especificando as claacuteusulas legais de direito e dever do aluno na Instituiccedilatildeo etc Essas
operaccedilotildees satildeo chamadas de ldquorequisitos funcionaisrdquo
Haacute tambeacutem relacionados a um sistema em construccedilatildeo os requisitos natildeo funcionais
que dizem respeito agrave operaccedilatildeo e agrave usabilidade do sistema Um exemplo de requisito natildeo-
funcional seria a necessidade de fazer a matriacutecula via Internet Essa eacute uma restriccedilatildeo de
operaccedilatildeo Um outro exemplo seria uma central de acidentes de tracircnsito onde o registro de um
dado acidente devesse ser feito em no maacuteximo 10 segundos o que demandaria um
processamento e uma interface bastante eficiente constituindo-se esse em um requisito de
usabilidade
Para as etapas de levantamento e anaacutelise de requisitos costuma ser utilizado o
diagrama de casos de uso Segundo Guedes (2004) esse diagrama possibilita a compreensatildeo
do comportamento externo do sistema por qualquer pessoa Entendem-se aqui casos de uso
segundo Larman (2000) como um documento narrativo que descreve a sequumlecircncia de eventos
(accedilotildees) de um ator (um agente externo) que usa um sistema para completar um processo e
descreve tambeacutem as respostas do sistema Pode se dizer que caso de uso eacute um cenaacuterio com
atores e ambientes Criam-se as cenas e as narrativas das mesmas ajudando a entender o que
se quer do sistema O interessante dos casos de uso eacute que os mesmos permitem que o projeto
seja construiacutedo de forma participativa por um grupo de pessoas uma vez que sua descriccedilatildeo se
daacute em uma linguagem textual e diagramaacutetica
A partir dos casos de uso eacute possiacutevel construir o modelo conceitual Conforme Larman
(2000 p 99) ldquoo modelo conceitual ilustra os conceitos significativos em um domiacutenio de
problemardquo Para Wazlawick (2004 p 102) ldquoo modelo conceitual deve descrever a
informaccedilatildeo que o sistema vai gerenciar trata-se de um artefato do domiacutenio do problema e
natildeo do domiacutenio da soluccedilatildeordquo
Eacute importante ressaltar que o modelo conceitual representa somente o aspecto estaacutetico
da informaccedilatildeo Os elementos que representam informaccedilatildeo satildeo conceitos (representados por
classes) atributos (informaccedilotildees alfanumeacutericas ligadas diretamente aos conceitos) e
associaccedilotildees (tipo de informaccedilatildeo que liga diferentes conceitos entre si)
O diagrama de casos de uso do sistema proposto foi desenvolvido no software JUDE
Community Ferramenta de Modelagem UML Um software freeware muito utilizado para a
criaccedilatildeo deste tipo de diagramas Neste software podem tambeacutem ser desenvolvidos os outros
tipos de diagramas do UML tais como de classes sequumlecircncia colaboraccedilatildeo graacuteficos de
estados
33 A sigla significa Model View e Controller
66
Os casos de uso identificados para esta aplicaccedilatildeo foram descritos em duas situaccedilotildees
A primeira eacute referente agrave pesquisa do usuaacuterio e a segunda ao gerenciamento e operaccedilatildeo do
banco de dados (BD) no niacutevel de administrador Para descobrir estes casos de uso foi
necessaacuterio primeiramente identificar os atores envolvidos com o sistema (usuaacuterio e
administrador) E na sequumlecircncia a cada grande processo reconhecido correspondeu a um caso
de uso do sistema
As Figuras 25 e 26 satildeo diagramas na UML que representam casos de uso e seus
atores As elipses significam casos de uso e os bonecos representam atores Para cada uma das
situaccedilotildees (pesquisa e gerenciamento de operaccedilatildeo do BD no niacutevel de administrador) foram
identificados os seguintes casos de uso
Figura 25 Diagrama de casos de uso da UML do sistema proposto ndash Pesquisa do Usuaacuterio
67
Figura 26 Diagrama de casos de uso da UML do sistema proposto ndash Gerenciamento e Operaccedilatildeo do BD no
niacutevel de administrador
Deve-se lembrar que na proposta deste trabalho para economia de espaccedilo de
memoacuteria foram sistematizados dois momentos o 1ordm em um armazenamento na base de dados
do documento apenas para a lista final do usuaacuterio e outro com os Sintagmas Nominais que
seratildeo armazenados na base de dados no 4ordm ou no uacuteltimo niacutevel apresentado (Figura 19) Os
niacuteveis anteriores relativos ao SN seratildeo procurados por uma programaccedilatildeo desenvolvida
relacionada diretamente com os Sintagmas Com isto natildeo haveraacute necessidade de acesso agrave
memoacuteria da base de documentos em todas as accedilotildees e esta serviraacute somente na uacuteltima escolha
do usuaacuterio tendo um ganho significativo quanto agrave rapidez de acesso aos dados da base e a natildeo
existecircncia de duplicaccedilatildeo de dados
Os casos de uso costumam ser documentados conforme Guedes (2004) por meio de
uma linguagem bastante simples fornecendo a funccedilatildeo em linhas gerais dos casos de uso
quais atores interagem com os mesmos quais etapas devem ser executadas pelo ator e pelo
sistema quais paracircmetros devem ser fornecidos e quais restriccedilotildees o caso de uso deve possuir
As Tabelas abaixo (5 a 15) apresentam as descriccedilotildees dos casos de uso do sistema proposto
referente ao gerenciamento e operaccedilatildeo do BD no niacutevel de administrador
68
Nome do Caso de Uso Inserir novo documento Caso de Uso Geral natildeo possui Ator Principal Administrador Atores secundaacuterios natildeo possui Resumo Permite ao administrador do sistema inserir arquivos na base de dados de documentos iniciando o processo de alimentaccedilatildeo de todas as demais bases de dados Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema 1) Anexar um documento 2) Verificar se documento jaacute natildeo existe na base de dados 3) Inserir o documento Restriccedilotildeesvalidaccedilotildees Apenas documentos vaacutelidos34 deveratildeo ser aceitos
Tabela 5 Descriccedilatildeo do caso de uso ndash Inserir novo documento Nome do Caso de Uso Alimentar base de dados (Documentos) Caso de Uso Geral natildeo possui Ator Principal natildeo possui Atores secundaacuterios natildeo possui Resumo Armazenar em meio fiacutesico e com seguranccedila os documentos inseridos pelo Administrador atraveacutes do sistema Preacute-condiccedilotildees Administrador anexa um documento vaacutelido Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema 1) Armazenar em base de dados os documentos anexados Restriccedilotildeesvalidaccedilotildees natildeo possui
Tabela 6 Descriccedilatildeo do caso de uso ndash Alimentar base de dados (Documentos) Nome do Caso de Uso Extrair SN de 4ordm ou uacuteltimo niacutevel Caso de Uso Geral natildeo possui Ator Principal natildeo possui Atores secundaacuterios natildeo possui Resumo Extrair do documento inserido na base de dados todos os sintagmas nominais de 4ordm ou uacuteltimo niacutevel
Preacute-condiccedilotildees o documento estar devidamente validado e inserido na base de dados Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema
1) realizar a anaacutelise do documento inserido extraindo todos os sintagmas nominais de 4ordm ou uacuteltimo niacutevel enviando informaccedilotildees para alimentaccedilatildeo de base de dados de sintagmas
Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 7 Descriccedilatildeo do caso de uso ndash Extrair SN de 4ordm ou uacuteltimo niacutevel
34 Documentos vaacutelidos satildeo considerados aqui apenas os documentos em formato de texto (como doc txt)
69
As accedilotildees do sistema da tabela 7 seguem as regras estabelecidas na seccedilatildeo 41 da paacutegina 66 Nome do Caso de Uso Tratar regras verbais Caso de Uso Geral natildeo possui Ator Principal natildeo possui Atores secundaacuterios natildeo possui Resumo Realizar o tratamento de regras verbais dos sintagmas nominais de 4ordm ou uacuteltimo niacutevel extraiacutedos do documento Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema
1) aplicar rotinas de tratamento de regras verbais e palavras no infinitivo
Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 8 Descriccedilatildeo do caso de uso ndash Tratar regras verbais
Nome do Caso de Uso Extrair SN de niacuteveis 3 2 e 1 (niacuteveis anteriores) Caso de Uso Geral natildeo possui Ator Principal natildeo possui Atores secundaacuterios natildeo possui Resumo Aplicar regras de extraccedilatildeo de sintagmas de niacuteveis 3 2 e 1 (niacuteveis anteriores) Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema
1) Definir o niacutevel apropriado de cada sintagma a partir do 4ordm ou uacuteltimo niacutevel enviando informaccedilatildeo para o usuaacuterio
Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 9 Descriccedilatildeo do caso de uso ndash Extrair SN de niacuteveis 3 2 e 1 (niacuteveis anteriores)
A tabela 9 segue a mesma regra da tabela 7
Nome do Caso de Uso Alimentar base de dados (Sintagmas) Caso de Uso Geral natildeo possui Ator Principal natildeo possui Atores secundaacuterios natildeo possui Resumo Persistir as informaccedilotildees extraiacutedas nos casos de uso ldquoExtrair SN de 4ordm ou uacuteltimo niacutevelrdquo Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema
1) Armazenar na base de dados o 4ordm ou uacuteltimo niacutevel de sintagma extraiacutedo do documento inserido
Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 10 Descriccedilatildeo do caso de uso ndash Alimentar base de dados (Sintagmas)
70
Nome do Caso de Uso Toquenizar e etiquetar Caso de Uso Geral natildeo possui Ator Principal Software Forma Atores secundaacuterios natildeo possui Resumo Submeter os sintagmas extraiacutedos ao software Forma Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema
1) Aplicar o conceito de Toquenizaccedilatildeo e Etiquetagem dos sintagmas extraiacutedos e armazenados em base de dados
Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 11 Descriccedilatildeo do caso de uso ndash Toquenizar e etiquetar
Nome do Caso de Uso Nominalizar Caso de Uso Geral natildeo possui Ator Principal Software Chama Atores secundaacuterios natildeo possui Resumo Submeter as informaccedilotildees resultantes do processo de Toquenizaccedilatildeo e Etiquetagem ao software Chama Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema
1) Aplicar o conceito de Nominalizaccedilatildeo das informaccedilotildees do documento
Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 12 Descriccedilatildeo do caso de uso ndash Nominalizar
Nome do Caso de Uso Capturar RLBs Caso de Uso Geral natildeo possui Ator Principal Software Rellex Atores secundaacuterios natildeo possui Resumo Submeter as informaccedilotildees resultantes do processo de Nominalizaccedilatildeo ao software Rellex Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema
1) Realizar o processo de captura de RLBs a partir das informaccedilotildees extraiacutedas do documento
Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 13 Descriccedilatildeo do caso de uso ndash Capturar RLBs
71
Nome do Caso de Uso Calcular peso dos descritores Caso de Uso Geral natildeo possui Ator Principal Software Peso dos Descritores Atores secundaacuterios natildeo possui Resumo Submeter as informaccedilotildees resultantes do processo de Captura de RLBs ao software Peso de Descritores Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema
1) Calcular o peso dos descritores ao resultado obtido atraveacutes da captura de RLBs do documento
Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 14 Descriccedilatildeo do caso de uso ndash Calcular peso dos descritores
Nome do Caso de Uso Alimentar base de dados (Termos e RLBs) Caso de Uso Geral natildeo possui Ator Principal natildeo possui Atores secundaacuterios natildeo possui Resumo Persistir as informaccedilotildees obtidas nos casos de uso ldquoNominalizarrdquo ldquoCapturar RLBsrdquo e ldquoCalcular peso dos descritoresrdquo na base de dados de Termos e RLBs Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema
1) Armazenar as informaccedilotildees relativas aos Termos e RLBs extraiacutedos do documento em base de dados
Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 15 Descriccedilatildeo do caso de uso ndash Alimentar base de dados (Termos e RLBs)
Apoacutes a identificaccedilatildeo dos casos de uso e suas descriccedilotildees partiu-se para o modelo
conceitual da aplicaccedilatildeo proposta
72
Figura 27 Modelo Conceitual do sistema proposto
O diagrama de classes segundo Guedes (2004) eacute considerado o mais importante e o
mais utilizado diagrama da UML Eacute o diagrama de classes que permite a visualizaccedilatildeo das
classes que iratildeo compor o sistema com os seus respectivos atributos e meacutetodos Demonstra
como as classes se relacionam complementam e transmitem informaccedilotildees entre si Pode-se
dizer que esse diagrama serve ainda como base para a construccedilatildeo de outros diagramas da
linguagem UML
A Figura 28 apresenta o diagrama de classes do modelo proposto referente agrave Pesquisa
do usuaacuterio
Foi construiacutedo um diagrama de classes (Pesquisa de Usuaacuterio) seguindo estas
definiccedilotildeesaccedilotildees
Paacutegina de Consulta refere-se a uma paacutegina HTML de pesquisa (ou seja uma
linguagem para Web) ou tambeacutem a uma interface graacutefica (GUI) para computador
desktop (cliente)
Controlador da Paacutegina conteacutem a loacutegica de negoacutecio da aplicaccedilatildeo
Classe Sintagma bean responsaacutevel por instanciar e classificar sintagmas de
diferentes niacuteveis usa o meacutetodo setSintagma para receber informaccedilotildees vindas da
paacutegina passando pelo controlador
Classe ListaSintagma cria instacircncia de array de Sintagma associando-os a
instacircncias de Documento Realiza a busca e classificaccedilatildeo destes retornando ao
controlador e posteriormente agrave paacutegina atraveacutes do meacutetodo getDocumentos
73
Classe Documento instacircncia de Documento armazenado em base de dados de
documentos
Figura 28 Diagrama de classes do sistema proposto ndash Pesquisa de Usuaacuterio
A Figura 29 apresenta o diagrama de classes do modelo proposto referente ao
Gerenciamento e Operaccedilatildeo do BD no niacutevel de administrador
Foi construiacutedo um segundo diagrama de classes seguindo estas definiccedilotildeesaccedilotildees
Paacutegina de Consulta refere-se a uma paacutegina HTML de inclusatildeo de documentos
Controlador da Paacutegina conteacutem a loacutegica de negoacutecio da aplicaccedilatildeo
Classe DocumentoBase bean responsaacutevel por instanciar um objeto que iraacute conter
o documento a inserir bem como realizar os processos de toquenizaccedilatildeo e
etiquetagem (trocando mensagens com o software FORMA) nominalizaccedilatildeo
(trocando mensagens com o software CHAMA) gerando termos e RLBs
(trocando mensagens com o software RELLEX) e por fim inserindo as
informaccedilotildees nas bases de dados
Classes Termo e RLB indicam as instacircncias de objetos termos e RLBs e deveratildeo
ser modeladas conforme especificaccedilatildeo do software RELLEX
74
Figura 29 Diagrama de classes do sistema proposto ndash Gerenciamento e Operaccedilatildeo do BD no niacutevel de
administrador
O diagrama de sequumlecircncia segundo Guedes (2004) procura determinar a sequumlecircncia de
eventos que ocorrem em um determinado processo isto eacute quais meacutetodos devem ser disparados
entre os objetos envolvidos quais condiccedilotildees devem ser satisfeitas e em que ordem durante o
processo especiacutefico Foram construiacutedos os diagramas de sequumlecircncia abaixo (Figuras 30 e 31) da
aplicaccedilatildeo proposta
75
Figura 30 Diagrama de Sequumlecircncia do sistema proposto ndash Pesquisa de Usuaacuterio
76
Figura 31 Diagrama de Sequumlecircncia do sistema proposto ndash Gerenciamento e Operaccedilatildeo do BD no niacutevel de administrador
Na elaboraccedilatildeo dos diagramas e descriccedilotildees dos casos de uso e dos diagramas de
classes e de sequumlecircncia observou-se a importacircncia do modelo conceitual porque permitiu
orientar as etapas de desenvolvimento do modelo proposto Visto que no modelo conceitual
foram criados conceitos atributos e associaccedilotildees referentes agrave particularidade da pesquisa que
puderam ser utilizados para a construccedilatildeo das etapas dos diagramas
77
5 CONCLUSAtildeO
Neste capiacutetulo apresentam-se as consideraccedilotildees finais incluindo os aspectos relativos
agraves dificuldades aos progressos e limitaccedilotildees encontradas durante o desenvolvimento da
pesquisa bem como as sugestotildees para a continuidade deste trabalho
O objetivo geral que norteou este trabalho levou ao estudo dos modelos de busca e ao
desenvolvimento de uma proposta para a melhoria dos processos de recuperaccedilatildeo de
informaccedilotildees
Centrando-se no tema Recuperaccedilatildeo de Informaccedilatildeo foram analisados os modelos de
Kuramoto (1999) e posteriormente de Gonzalez (2005) O modelo de Kuramoto baseado
em uma estrutura hieraacuterquica de sintagmas nominais possibilita ao usuaacuterio definir melhor a
sua query de busca A Estrutura de Qualia do Leacutexico Gerativo de Pustejovsky contribuiu para
o entendimento das relaccedilotildees e da estrutura de construccedilatildeo de significado entre as palavras
permitindo o tratamento de questotildees semacircnticas como a polissemia loacutegica A proposta de
Gonzalez apropriando-se dos resultados de Pustejovsky evidencia caracteriacutesticas
morfoloacutegicas e relaccedilotildees de coesatildeo importantes na descriccedilatildeo de conceitos presentes em um
texto propiciando que um texto possa computacionalmente significar mais do que uma
sequumlecircncia de palavras
Buscou-se uma siacutentese dessas propostas identificando as possibilidades de ampliaccedilatildeo
do modelo de Kuramoto pela junccedilatildeo da teoria do Leacutexico Gerativo de Pustejovsky utilizadas
nesta dissertaccedilatildeo a partir do modelo de Gonzalez que se manteve adequado devido ao fato de
que o autor apresenta processos para as fases de indexaccedilatildeo busca e classificaccedilatildeo de RI Os
termos e relacionamentos inseridos na base de dados do modelo TR+ de Gonzalez estatildeo
implicitamente relacionados com a Estrutura de Qualia do LG
O novo modelo SINTR+ aleacutem do suporte ao usuaacuterio envolve a anaacutelise a
sistematizaccedilatildeo e a ampliaccedilatildeo do modelo de Kuramoto com a utilizaccedilatildeo da estrutura TR+ de
Gonzalez (2005) para a melhoria e a otimizaccedilatildeo do processo de seleccedilatildeo dos documentos
recuperados em uma busca
O estudo e a descriccedilatildeo do modelo em UML permitiu por ser uma linguagem
poderosa expressar de modo mais claro e preciso o modelo SINTR+ Foi construiacuteda a anaacutelise
de domiacutenio do sistema desejado incluindo o desenvolvimento de diagramas de casos de uso
bem como suas descriccedilotildees do modelo conceitual de diagramas de classes e de sequumlecircncia As
78
fases de anaacutelise e projeto desenvolvidas para a aplicaccedilatildeo proposta datildeo suporte agrave continuidade
do seu desenvolvimento
O novo modelo desenvolvido foi projetado como um sistema de recuperaccedilatildeo de
informaccedilatildeo (SRI) aplicaacutevel a bases de dados natildeo distribuiacutedas abrangendo a um determinado
domiacutenio de aplicaccedilatildeo a sua adequaccedilatildeo e expansatildeo para uso na Web constitui-se em uma
importante linha de continuidade de pesquisa
A principal contribuiccedilatildeo deste trabalho estaacute na sistematizaccedilatildeo e siacutentese das teorias de
Kuramoto com Gonzalez indicando o uso dessas teorias como uma nova alternativa para a
melhoria da busca de recuperaccedilatildeo de informaccedilotildees Os modelos de recuperaccedilatildeo simplesmente
buscavam as informaccedilotildees solicitadas pelo usuaacuterio O novo modelo proposto SINTR+ baseia-
se na interaccedilatildeo entre o usuaacuterio e a maacutequina atraveacutes de Sintagmas Nominais por niacuteveis e
tambeacutem nas relaccedilotildees das palavras conforme o modelo de Gonzalez
Com este trabalho natildeo se pretendeu desenvolver uma implementaccedilatildeo completa do
modelo construiacutedo Mas o trabalho conseguiu mostrar a exequumlibilidade desta implementaccedilatildeo
computacional descrevendo os diagramas e as descriccedilotildees dos casos de uso e a sua modelagem
conceitual culminando com a construccedilatildeo dos diagramas de classes e de sequumlecircncia A proacutexima
etapa que permitiria detalhar as potencialidades e limitaccedilotildees do modelo de forma ampla
poderia se constituir em amplos estudos de casos onde se determinaria a complexidade
computacional da implementaccedilatildeo requerida
Os dados apresentados no capiacutetulo 4 jaacute indicam aspectos positivos que consolidam a
importacircncia da utilizaccedilatildeo dos Sintagmas Nominais na diminuiccedilatildeo de descritores para
manipulaccedilatildeo com um ganho bastante significativo porque os iacutendices possuem informaccedilotildees
relevantes dos documentos (conceitos significativos de uma sentenccedila) e com isto agiliza-se a
pesquisa na base de dados Quer-se crer aqui e um estudo mais amplo poderia determinar que
essa reduccedilatildeo de descritores natildeo deve ter nenhum impacto na qualidade da busca realizada
Outro aspecto significativo eacute a reduccedilatildeo do uso de memoacuteria tanto na fase de indexaccedilatildeo
como na de busca tornando mais raacutepido o processo interno
Outro aspecto positivo se refere agrave melhoria de desempenho como um todo pois
quanto menor o traacutefego em uma rede menos informaccedilotildees o servidor vai processar e estaraacute
mais disponiacutevel E quanto melhor for o processo de indexaccedilatildeo menos memoacuteria o servidor vai
utilizar E com isto o tempo de resposta na fase de busca diminui e o resultado qualitativo da
pesquisa se amplia
79
Uma outra vantagem eacute que no modelo SINTR+ seratildeo armazenados na base de dados
os documentos e seus SN de uacuteltimos niacuteveis e manipulados apenas os uacuteltimos niacuteveis da
estrutura de SN Seraacute soacute atraveacutes de uma programaccedilatildeo que seratildeo classificados por niacuteveis
diminuindo assim o volume duplicado de dados na manipulaccedilatildeo
Os diagramas construiacutedos referentes ao gerenciamento e operaccedilatildeo do BD no niacutevel do
administrador satildeo fundamentais para o entendimento do funcionamento e da manutenccedilatildeo do
banco de dados facilitando processos como a inserccedilatildeo de novos documentos e outras accedilotildees
contribuindo tambeacutem para o diferencial deste trabalho
80
6 REFEREcircNCIAS BIBLIOGRAacuteFICAS
ABRAHAtildeO Paulo Ricardo Carneiro Modelagem e Implementaccedilatildeo de um Leacutexico Semacircntico para o Portuguecircs Dissertaccedilatildeo (Mestrado) Porto Alegre PUCRS 1997
ABREU Sandra C GOULART Rodrigo VIEIRA Renata (2004) Identificaccedilatildeo de Expressotildees Anafoacutericas e Natildeo Anafoacutericas com Base na Estrutura do Sintagma 2ordm Workshop em Tecnologia da Informaccedilatildeo e da Linguagem Humana (TIL 2004) - SalvadorBA - 05 e 06 de agosto de 2004 Disponiacutevel em httpwwwinfunisinosbr~renatalaboratoriopublicacoestilsandra04pdf Acesso em nov de 2004
BAEZA-YATES Ricardo RIBEIRO-NETO Berthier Modern Information Retrieval New York Addison-Wesley 1999
CARDOSO Olinda N P Recuperaccedilatildeo de Informaccedilotildees In Infocomp-Journal of Computer Science vol 2 n 1 Lavras MG 2000 p33-38 Disponiacutevel em httpwwwdccuflabrinfocompartigosv21olindapdf Acesso em mar de 2004
CHISHMAN Rove et al Extraccedilatildeo de Sintagmas Nominais para o Processamento de Co-Referecircncia In V Encontro para o processamento computacional do Portuguecircs escrito e falado (PROPOR 2000) Atibaia - Satildeo Paulo Anais do V Encontro para o processamento computacional do Portuguecircs escrito e falado Satildeo Carlos ICMCUSP 2000 Disponiacutevel em httpwwwinfunisinosbr~renatalaboratoriopublicacoespropor00pdf Acesso em jan de 2005
FERNEDA Edberto Recuperaccedilatildeo de Informaccedilatildeo anaacutelise sobre a contribuiccedilatildeo da ciecircncia da computaccedilatildeo para a ciecircncia da informaccedilatildeo Tese (Doutorado) Satildeo Paulo USP Escola de Comunicaccedilatildeo e Artes 2003 Disponiacutevel em httpwwwtesesuspbrtesesdisponiveis2727143tde-15032004-130230 Acesso em set de 2004
FERREIRA Aureacutelio Buarque de Holanda Novo Aureacutelio Seacuteculo XXI o dicionaacuterio da liacutengua portuguesa 3ed Rio de Janeiro Nova Fronteira 1999
GASPERIN C GOULART R VIEIRA R Uma ferramenta para Resoluccedilatildeo Automaacutetica de Co-referecircncia Anais do Encontro Nacional de Inteligecircncia Artificial (ENIA) Campinas SP 2003 Disponiacutevel em httpwwwexatecunisinosbr~renatalaboratoriopublicacoesart1pdf Acesso em set de 2004
81
GONZALEZ Marco Antocircnio Insaurriaga Representaccedilatildeo Semacircntica de Sentenccedilas em Linguagem Natural e sua aplicaccedilatildeo na Recuperaccedilatildeo de Informaccedilatildeo Trabalho Individual 2 Doutorado Porto Alegre PPCC da PUCRS 2000
________ O Leacutexico Gerativo de Pustejovsky sob o enfoque da Recuperaccedilatildeo de Informaccedilotildees Trabalho Individual 1 Doutorado Porto Alegre PPCC da PUCRS 2000a
________ Termos e Relacionamentos em Evidecircncia na Recuperaccedilatildeo de Informaccedilatildeo Tese (Doutorado) Porto Alegre PPGC da UFRGS 2005
GUEDES Gilleanes T A UML uma abordagem praacutetica Satildeo Paulo Novatec 2004
HILL Brad Pesquisa na Internet Rio de Janeiro Campus 1999
KURAMOTO Heacutelio Proposition drsquoum Systegraveme de Recherche drsquoInformation Assisteacutee par Ordinateur Tese (Doutorado) LrsquoUniversiteacute Lumiegravere ndash Lyon - Franccedila 1999
________ Uma abordagem alternativa para o tratamento e a recuperaccedilatildeo de informaccedilatildeo textual os sintagmas nominais Ciecircncia da Informaccedilatildeo (Brasiacutelia) v25 n2 1995 Disponiacutevel em httpdiciibictbrarchive0000016901Ci[1]Inf-2004-476pdf Acesso em mar de 2004
________ Sintagmas Nominais uma nova proposta para a recuperaccedilatildeo de informaccedilatildeo DataGramaZero Revista de Ciecircncia da Informaccedilatildeo v3 n1 fev 2002 Disponiacutevel em httpwwwdgzeroorgfev02Art_03htm Acesso em mar de 2004
LARMAN Craig Utilizando UML e Padrotildees uma introduccedilatildeo agrave anaacutelise e ao projeto orientado a objetos Porto Alegre Bookman 2000
MARTINS Dileta Silveira ZILBERKNOP Luacutebia Scliar Portuguecircs Instrumental 20ordf ed Porto Alegre Sagra Luzzatto 1999
MOURA Heronides M de M A determinaccedilatildeo de sentidos lexicais no contexto Cadernos de Estudos Linguumliacutesticos v 41 Campinas SP 2001 NETO Magdiel Medeiros Aragatildeo A polissemia em palavras designativas de objetos fiacutesicos e eventos 2003 Disponiacutevel em httpwwwabralinorgbranaishtm Acesso em mai de 2004
________A Polissemia de acordo com a Teoria do Leacutexico Gerativo Satildeo Miguel do Oeste SC Revista do Centro de Ciecircncias da Comunicaccedilatildeo e Artes n6 maiago 2003a
82
PUSTEJOVSKY James The Generative Lexicon Association for Computational Linguistics Computer Science Department Brandeis University Cambridge MA The MIT Press 1991 Disponiacutevel em httpportalacmorgcitationcfmid=176324 Acesso em set de 2004
ROSSI Albertina Palavras Polissecircmicas entre evento e informaccedilatildeo e seu tratamento nos dicionaacuterios Aureacutelio e Houaiss Tese (Doutorado) Florianoacutepolis USFC Centro de Comunicaccedilatildeo e Expressatildeo - Programa de Poacutes-Graduaccedilatildeo em LetrasLinguumliacutestica 2003
SILVA Edna Luacutecia da Metodologia da pesquisa e elaboraccedilatildeo de dissertaccedilatildeo Edna Luacutecia da Silva Estera Muszkat Menezes ndash 2a ed revndash Florianoacutepolis Laboratoacuterio de Ensino a Distacircncia da UFSC 2001 Disponiacutevel em httpprojetosinfufscbrarquivosMetodologia20da20Pesquisa203a20edicaopdf Acesso em mai de 2005
SILVA Maria C de S KOCH Ingedore V Linguumliacutestica aplicada ao portuguecircs sintaxe 5ed Satildeo Paulo Cortez 1993
WAZLAWICK Raul Sidnei Anaacutelise e Projeto de Sistemas de Informaccedilatildeo Orientados a Objetos Rio de Janeiro Elsevier 2004
61 Bibliografia Consultada
BRAumlSCHER Marisa A Ambiguumlidade na Recuperaccedilatildeo da Informaccedilatildeo Revista Ciecircncia da Informaccedilatildeo (Brasiacutelia) v3 n1 2002 Disponiacutevel em httpwwwdgzorgbrfev02Art_05htm Acesso em abr de 2004
CARVALHO Niacutevea M de Melo Recuperaccedilatildeo da informaccedilatildeo implementaccedilatildeo e avaliaccedilatildeo de sistema de recuperaccedilatildeo de informaccedilatildeo utilizando o modelo vetorial Dissertaccedilatildeo (Mestrado) Amazonas Universidade Federal do Amazonas Programa de Poacutes-Graduaccedilatildeo em Informaacutetica 2002 Disponiacutevel em httpposfacomufubr~reneacervosriRI-ModeloVetorial-NiveaCarvalhopdf Acesso em Ago de 2004
FODOR Jerry LEPORE Ernie The emptiness of the Lexicon Critical Reflections on J Pustejovskyrsquos The Generative Lexicon Rutgers University Center for Cognitive Science
83
GOMES Andreacuteia de Faacutetima R O singular nu e a sentenccedila geneacuterica no portuguecircs brasileiro Dissertaccedilatildeo (Mestrado) Florianoacutepolis UFSC Programa de Poacutes-Graduaccedilatildeo em Linguumliacutestica 2001
GONZALEZ Marco LIMA Vera L S de Sintagma Nominal em Estrutura Hieraacuterquica Temaacutetica na Recuperaccedilatildeo de Informaccedilatildeo Anais ENIA 2001 Fortaleza 2001 Disponiacutevel em httpwwwinfpucrsbr~gonzalezdocssnehtpdf Acesso em dez 2005
________ T-Lex Thesaurus com Estruturaccedilatildeo Semacircntica e Operaccedilotildees Gerativas XXVII Conferencia Latinoamericana de Informatica (CLEI2001) Ciudad de Meacuterida Venezuela 2001 Disponiacutevel em httpwwwinfpucrsbr~gonzalezdocsartigotlexpdf Acesso em jan de 2006 (httpwwwinfpucrsbr~gonzalezpesqqhtm)
________ Recuperaccedilatildeo de Informaccedilatildeo e Processamento da Linguagem Natural XXIII Congresso da Sociedade Brasileira de Computaccedilatildeo Campinas 2003 Anais do III Jornada de Mini-Cursos de Inteligecircncia Artificial Disponiacutevel em httpwwwinfpucrsbr~gonzalezdocsminicurso-jaia2003pdf Acesso em jan de 2006
HEIDE Ann Guia do Professor para a Internet completo e faacutecil 2ed Porto Alegre Artes Meacutedicas Sul 2000
MOURA Heronides M de M Linguagem e cogniccedilatildeo na interpretaccedilatildeo de metaacuteforas Universidade Federal de Juiz de Fora Editora UFJF 2003 Disponiacutevel em httpwwwrevistaveredasufjfbrvolumesv6n1cap11pdf Acesso em jan de 2006
PARREIRAS Fernando O uso de sintagmas nominais como fonte de descritores para textos de perioacutedicos cientiacuteficos Escola de Ciecircncia da Informaccedilatildeo Belo Horizonte 2003 Disponiacutevel em httpwwwfernandoparreirasnombrpublicacoessnpdf Acesso em set de 2004
PEacuteREZ Claacuteudia C C GASPERIN Caroline VIEIRA Renata Extraccedilatildeo Semi-Automaacutetica de Conhecimento a partir de Textos 2003 Disponiacutevel em httpwwwinfunisinosbr~renatalaboratorio publicacoesenia2003-submittedpdf Acesso em ago de 2005
PIZZATO Luiz A Estrutura Multitesauro para Recuperaccedilatildeo de Informaccedilotildees Dissertaccedilatildeo (Mestrado) Porto Alegre PUCRS Faculdade de Informaacutetica - Poacutes-Graduaccedilatildeo em Ciecircncia da Computaccedilatildeo 2003 Disponiacutevel em httpwwwpucrsbrunipoainfoposdissertacoesarquivospizzatopdf Acesso em ago de 2004
84
PUSTEJOVSKY James Type Construction and the logic of concepts Disponiacutevel em httpwwwcsbrandeisedu~jamesparticlesindexhtml Acesso em set de 2004
________ The Metaphysics of Words in Context (2000) Disponiacutevel em httpwwwcsbrandeisedu~jamesparticlesindexhtml Acesso em set de 2004
________ The Semantics of Agentive Nominals Disponiacutevel em httpwwwcsbrandeisedu~jamesparticlesindexhtml Acesso em set de 2004
WORDNET a lexical database for the English language Cognitive Science Laboratory Princeton University Disponiacutevel em httpwordnetprincetonedu Acesso em jan de 2006
85
ANEXOS
86
ANEXO A - DOCUMENTO1
Endereccedilo na Web http wwwreciclaveiscombranamghtm
Segunda-feira 28 de agosto de 2000 - Nuacutemero 599 Cresce a induacutestria de reciclagem de plaacutesticos Poreacutem potencial do lixo domeacutestico ainda eacute pouco aproveitado no estado A induacutestria de reciclagem foi a que mais cresceu no setor plaacutestico de Santa Catarina nos uacuteltimos cinco anos No periacuteodo o volume reprocessado no estado cresceu 1664 ao ano atingindo 169 mil toneladas em 1999 Isso equivale a 37 do total transformado pelo setor em Santa Catarina Os dados fazem parte de estudo elaborado pela empresa de consultoria MaxiQuim de Porto Alegre para o Sindicato da Induacutestria de Material Plaacutestico no Estado de Santa Catarina (Simpesc) Contudo esse crescimento reflete mais o reaproveitamento de resiacuteduos gerados em processos industriais do que a reciclagem de lixo domeacutestico como embalagens e garrafas o chamado plaacutestico ldquopoacutes-consumordquo Este segmento cresce de maneira menos acelerada devido a problemas como a necessidade de escala de produccedilatildeo falta de linhas de financiamento e ausecircncia de legislaccedilatildeo que estimule a atividade ldquoEmbora a reciclagem do material poacutes-consumo como sacos embalagens e garrafas esteja aumentando em Santa Catarina a maior parte do crescimento verificado entre 1995 e 1999 refere-se a empresas que utilizam resiacuteduos industriais como mateacuteria-primardquo explica o diretor da MaxiQuim Joatildeo Luiz Zuntildeeda Normalmente chamadas de aparas esses resiacuteduos incluem tambeacutem as peccedilas que natildeo atingiram a qualidade necessaacuteria para ir ao mercado As oito empresas catarinenses de reciclagem de plaacutestico tecircm 383 empregados sem considerar o pessoal que trabalha na coleta de lixo atividade que geralmente eacute informal O valor da produccedilatildeo atingiu R$ 4249 milhotildees em 1999 com crescimento meacutedio de 1526 ao ano nos uacuteltimos cinco anos jaacute descontando a inflaccedilatildeo As empresas de transformaccedilatildeo de plaacutestico estatildeo cada vez mais preocupadas em recuperar o material que antes era perdido devido ao alto custo da resina virgem diz Nelson Pradella proprietaacuterio da empresa Recicle-Ville ldquoIsso eacute fundamental para que elas sejam competitivas pois vendendo os resiacuteduos do processo industrial como sucata as empresas obtecircm menos de 20 do valor da resina virgemrdquo Cobrando 30 do preccedilo da resina virgem a Recicle-Ville devolve para a induacutestria seus resiacuteduos em condiccedilotildees de serem utilizados normalmente no processo produtivordquo explica A empresa de Joinville foi uma das firmas que ajudou a elevar os iacutendices desta induacutestria no estado Ateacute agora ela estava trabalhando apenas com mateacuteria-prima gerada nos processos industriais mas isso deve mudar a partir desta semana Criada haacute um ano a empresa reprocessa cerca de 220 toneladas de plaacutestico por mecircs e estaacute aumentando a sua capacidade para 310 toneladas Ela ainda opera basicamente como terceirizada de empresas de processamento de plaacutesticos reprocessando para elas os resiacuteduos que geram e devolvendo essa mateacuteria em forma granular mesmo estado da resina virgem Como a mateacuteria prima reciclada seraacute utilizada para fazer o mesmo produto que originou a
4
3
2
1
87
apara a qualidade final natildeo eacute afetada Mas a Recicle-Ville estaacute ingressando tambeacutem no segmento de reciclagem do plaacutestico poacutes-consumo A partir desta semana a empresa coloca em funcionamento um sistema de coleta junto a escolas do municiacutepio para recolher materiais plaacutesticos como sacos garrafas e tampinhas apostando principalmente no PET Com isso ela tem a vantagem de receber material mais limpo A contaminaccedilatildeo do plaacutestico pelo lixo orgacircnico eacute justamente um dos principais problemas para o crescimento da induacutestria da reciclagem do lixo domeacutestico A simples separaccedilatildeo do lixo orgacircnico do seco jaacute traria um impulso importante para o setor diz Ana Flores diretora do departamento de meio ambiente e desenvolvimento sustentado da Federaccedilatildeo das Induacutestrias do Estado de Satildeo Paulo (Fiesp) e autora do livro ldquoO dinheiro estaacute no lixo ndash recicle essa ideacuteiardquo ldquoDeveriam ser criados mecanismos de estiacutemulo para a reciclagem Na Holanda por exemplo uma Coca-Cola custa US$ 220 Devolvendo a garrafa acontece o reembolso de US$ 1 Vocecirc acha que algueacutem vai jogaacute-la no lixordquo diz A induacutestria da reciclagem do plaacutestico no Brasil tem crescido bastante em funccedilatildeo do reaproveitamento do PET que eacute usado no segmento de monofilamentos em artigos como vassouras e na induacutestria tecircxtil Conforme Ana Flores a reciclagem gera 250 mil empregos no Paiacutes dos quais 70 satildeo informais Poreacutem a maior parte do potencial de mercado ainda estaacute sendo desperdiccedilado avalia ldquoCerca de 15 do total de plaacutestico que eacute industrializado no Paiacutes eacute reciclado Em dez anos poderiacuteamos chegar a 60 como nos Estados Unidos desde que fosse implementado um conjunto de medidas incentivando essa praacuteticardquo assegura Para a diretora da Fiesc os principais entraves satildeo o aspecto cultural a tributaccedilatildeo incidente na reciclagem do plaacutestico a falta de linhas de financiamento e a ausecircncia de uma legislaccedilatildeo ambiental mais rigorosa ldquoHaacute um contra-senso ecoloacutegico que forccedila a clandestinidade no Brasil onde para fabricar garrafa PET virgem paga-se IPI de 10 e para a reciclagem 12rdquo critica Ana afirma que essa tributaccedilatildeo decorre do interesse governamental em incentivar a induacutestria quiacutemica Outro problema apontado eacute que ao contraacuterio da induacutestria do alumiacutenio que eacute concentrada o predomiacutenio das pequenas empresas na transformaccedilatildeo do plaacutestico dificulta que sejam criadas grandes empresas para reprocessar o lixo Para Flores o sucesso brasileiro na reciclagem do alumiacutenio (o iacutendice eacute de 65 um dos mais altos do mundo) decorre da existecircncia de poucas grandes empresas capitalizadas ldquoAs pequenas empresas natildeo tecircm acesso agraves linhas de creacutedito e isso dificulta a abertura de novas recicladorasrdquo diz Flores Mas haacute quem aponte outros desafios a superar ldquoEmbora seja um mercado que deve crescer muito a reciclagem de plaacutestico natildeo eacute tatildeo simples como normalmente aparece na televisatildeo O volume miacutenimo para que a atividade seja economicamente viaacutevel atendendo a todas as exigecircncias legais eacute de 100 toneladas mecircsrdquo diz Ronaldo Cerri soacutecio da Moinhos Rone de Satildeo Paulo que fabrica equipamentos utilizados na moagem do plaacutestico uma das primeiras etapas da reciclagem Aleacutem disso explica a coleta do plaacutestico eacute mais complicada porque ao contraacuterio das latas de alumiacutenio - que podem ser amassadas o volume fiacutesico eacute maior ldquoHoje entre 70 e 80 dos moinhos que vendemos satildeo para reciclagem de resiacuteduos industriaisrdquo informa (Elmar Meurer de Joinville)
copy GAZETA MERCANTIL
9
8
7
6
5
88
ANEXO B - DOCUMENTO2
Cuidados com o Lixo
Endereccedilo na Web httpwwwpoupetempocombrambientelixohtm
Todos os seres vivos quando morrem apodrecem plantas e animais se decompotildeem e satildeo destruiacutedos por larvas bacteacuterias e fungos e reabsorvidos pela terra pela aacutegua pelo ar Eacute o ciclo da natureza morte decomposiccedilatildeo nova vida e crescimento Tudo o que eacute fabricado pelo homem acaba virando lixo Muito desse lixo natildeo se decompotildee facilmente como a mateacuteria orgacircnica e passa a ser um problema Plaacutesticos latas e vidros demoram muitos anos para se decompor e poluem o meio-ambiente Por isso a importacircncia da reciclagem do lixo fabricado pelo ser humano O lixo eacute formado por resiacuteduos soacutelidos natildeo biodegradaacuteveis e que demoram para se decompor Restos de alimentos folhas e frutas satildeo chamados lixo orgacircnico Existem tambeacutem aleacutem do lixo domiciliar o lixo industrial o de vias puacuteblicas e o hospitalar que necessitam de tratamentos especiais pois oferece perigo agrave sauacutede das pessoas Devido ao aumento da populaccedilatildeo das grandes cidades e com o aumento do consumo de produtos a quantidade de lixo tambeacutem tem aumentado O acuacutemulo de lixo eacute um dos principais problemas nas grandes cidades Muitos materiais que vatildeo para o lixo natildeo podem ser desperdiccedilados podendo ser reaproveitados e reutilizados Material orgacircnico Tudo o que eacute resto de comida de animais de plantas e frutas eacute considerado lixo propriamente dito Ou seja vocecirc deve acondicionaacute-los num uacutenico recipiente Essa material eacute recolhido pela prefeitura e levado para aterros sanitaacuterios onde vatildeo sofrer a decomposiccedilatildeo natural Material reciclaacutevel Eacute praticamente tudo o que eacute fabricado pelo homem material plaacutestico latas de alumiacutenio e ferro garrafas de refrigerante de vidro e PET caixas de papel e papelatildeo jornais revistas livros aparas de papel etc Se vocecirc mora em casa reuacutena-se com sua famiacutelia e com seus funcionaacuterios para estabelecer um meacutetodo de separaccedilatildeo desse material Dependendo do seu volume diaacuterio de lixo escolha 4 recipientes coloridos para acondicionaacute-los azul para papel vermelho para plaacutestico verde para vidro e amarelo para metal ou nomeie cada um deles conforme sua classificaccedilatildeo Se vocecirc mora em condomiacutenio faccedila esse mesmo trabalho reunindo os moradores estabelecendo regras e instruindo os empregados Observaccedilatildeo o lixo orgacircnico deve estar separado daquilo que eacute reciclaacutevel Exemplos Providencie uma caixa resistente ou sacolas e fixe nelas um papel com a identificaccedilatildeo do tipo de lixo vidro e nela vaacute acumulando as garrafas Retire aneacuteis e roacutetulos e lave as garrafas para natildeo acumular insetos Na outra caixa vaacute juntando o lixo papel aparas embalagens de papelatildeo as perdas da impressora jornais e revistas velhas etc Latas de conserva satildeo de ferro e as de refrigerante satildeo de alumiacutenio Elas devem ser acumuladas limpas sem roacutetulo e em caixas separadas As de alumiacutenio podem ser amassadas como uma sanfoninha o que economizaraacute espaccedilo Quando as caixas estiverem cheias elas devem ser encaminhadas para entidades que trabalham com material reciclaacutevel ou simplesmente recolhida pela empresa de sua cidade responsaacutevel pela coleta seletiva Consulte a prefeitura local
89
A destinaccedilatildeo do material para reciclagem pode ser feita de vaacuterias formas Uma famiacutelia mais pobre pode utilizar esse material vendendo para cooperativas e empresas especializadas e conseguir um dinheiro extra Os condomiacutenios de melhor padratildeo econocircmico podem utilizar o resultado da separaccedilatildeo do lixo para reciclagem em benefiacutecio de seus funcionaacuterios propiciando a eles um ganho extra na ajuda da triagem desse material Uma outra forma eacute simplesmente entregar todo o material para as prefeituras que jaacute possuem o meacutetodo de coleta seletiva Ajude a melhorar o meio-ambiente Eacute simples pense antes de comprar Metade do que noacutes compramos eacute lixo Satildeo embalagens que quase sempre natildeo servem para nada e vatildeo direto para o lixo Evite embalagens plaacutesticas elas satildeo pouco reciclaacuteveis enquanto o vidro eacute totalmente reciclaacutevel e muito mais uacutetil no seu reaproveitamento Algumas informaccedilotildees sobre materiais produzidos pelo homem TEMPO DE DECOMPOSICcedilAtildeO DE ALGUNS MATERIAIS
Lenccedilo de papel 3 meses Palito de foacutesforo 6 meses Caroccedilo de maccedilatilde 6 a 12 meses Ponta de cigarro 1 a 2 anos Chiclete 5 anos Lata de accedilo 10 anos Garrafa de plaacutestico 100 anos Garrafa de vidro Mais de 1000 anos Lata de alumiacutenio Natildeo se corroacutei nunca
Plaacutestico riacutegido Leve resistente e praacutetico eacute o material que compotildee cerca de 60 das embalagens plaacutesticas como garrafas de refrigerantes recipientes para produtos de limpeza e higiene e potes de alimentos eacute tambeacutem mateacuteria-prima baacutesica de bombonas fibras tecircxteis tubos e conexotildees calccedilados eletrodomeacutesticos aleacutem de baldes utensiacutelios domeacutesticos e outros produtos Ele pode ser reprocessado gerando novos artefatos plaacutesticos e energia Papel ondulado eacute usado em caixas para transporte de produtos para faacutebricas depoacutesitos escritoacuterios e residecircncias Normalmente chamado de papelatildeo este material tem uma camada intermediaacuteria de papel entre suas partes exteriores disposta em ondulaccedilotildees na forma de uma sanfona O material eacute de faacutecil coleta em grandes volumes comerciais sendo facilmente identificadas quando misturadas com outros tipos de papel por isso seu susto de processamento eacute relativamente baixo Embalagens longa vida satildeo compostas de vaacuterias camadas de material dupleacutex polietileno e alumiacutenio As embalagens cartonadas precisam ser lavadas apoacutes o consumo porque os restos de alimentos contidos nelas dificultam o reprocessamento do material Para aproveitar melhor o espaccedilo as embalagens podem ser amassadas O papel existente nas embalagens cartonadas pode ser compostado para a produccedilatildeo de huacutemus utilizado em hortas e jardins Pneus a borracha e sua reciclagem eacute capaz de devolver ao processo de produccedilatildeo insumo regenerado por menos da metade do custo da borracha natural ou sinteacutetica aleacutem disso economiza energia e poupa petroacuteleo usado como mateacuteria-prima virgem e ateacute melhora as propriedades de materiais feitos com borracha Latas de alumiacutenio aleacutem de reduzir o lixo que vai para os aterros a reciclagem desse material proporciona significativo ganho energeacutetico Para reciclar uma tonelada de latas gasta-se 5 da
90
energia necessaacuteria para produzir a mesma quantidade de alumiacutenio pelo processo primaacuterio Isto significa que cada latinha reciclada equivale ao consumo de um aparelho de TV durante 3 horas A reciclagem evita a extraccedilatildeo da bauxita o mineral beneficiado para a fabricaccedilatildeo da alumina que eacute transformada em liga de alumiacutenio Vidro a metade dos recipientes de vidro eacute fabricados no Paiacutes eacute retornaacutevel Aleacutem disso o material eacute de faacutecil reciclagem pode voltar a produccedilatildeo de novas embalagens substituindo o produto virgem sem perda da qualidade Pet (polietileno tereftalato) as garrafas recicladas satildeo transformadas em cordas e fios de costura carpetes bandejas de frutas e ateacute mesmo novas garrafas Sua reciclagem aleacutem de desviar lixo plaacutestico dos aterros utiliza apenas 30 da energia necessaacuteria para a produccedilatildeo da resina virgem e tem a vantagem de poder ser reciclado vaacuterias vezes sem prejudicar a qualidade do produto final Latas de accedilo Quando reciclado o accedilo volta ao mercado em forma de automoacuteveis ferramentas vigas para construccedilatildeo civil arames vergalhotildees utensiacutelios domeacutesticos e inclusive novas latas Plaacutestico filme eacute uma peliacutecula plaacutestica normalmente usada como sacolas de supermercados sacos de lixo embalagens de leite lonas agriacutecolas e proteccedilatildeo de alimentos na geladeira ou microondas Cerca de 44 eacute papel e 4 eacute folha de alumiacutenio Ajude a melhorar o meio-ambiente
bull Reaproveite sobras e natildeo jogue fora o que puder aproveitar bull Doe roupas que possam ser reformadas ou consertadas bull Doe livros para bibliotecas ou instituiccedilotildees beneficentes bull Use produtos biodegradaacuteveis ou reciclaacuteveis bull Deixe o oacuteleo usado do motor no posto para ser reciclado bull Leve pneus sem uso para os borracheiros bull Evite jogar lixo na rua Jogue o lixo na lixeira bull Embale o lixo corretamente sempre que possiacutevel encaminhe plaacutesticos vidros e papel
para a reciclagem
91
ANEXO C - EXTRACcedilAtildeO MANUAL DE SN DOS DOCUMENTOS
DOCUMENTO1 Linha Sintagma Nominal Niacutevel
1 Plaacutesticos 1 1 Reciclagem de plaacutesticos 2 1 Induacutestria de reciclagem de plaacutesticos 3 2 Lixo 1 2 Lixo domeacutestico 1 2 Potencial do lixo domeacutestico 2 3 Reciclagem 1 3 Induacutestria de reciclagem 2 3 Plaacutestico 1 3 Setor Plaacutestico 1 3 Setor Plaacutestico de Santa Catarina 2 7 Plaacutestico 1 7 Material Plaacutestico 1 7 Induacutestria de Material Plaacutestico 2 7 Sindicato da Induacutestria de Material Plaacutestico 3 7 Sindicato da Induacutestria de Material Plaacutestico no Estado de Santa Catarina 4 8 Resiacuteduos 1 8 Reaproveitamento de resiacuteduos 2 9 Lixo 1 9 Lixo domeacutestico 1 9 Reciclagem do lixo domeacutestico 2 10 Embalagens 1 10 Garrafas 1 10 Embalagens e garrafas 2 10 Plaacutestico 1 10 Plaacutestico poacutes-consumo 1 13 Reciclagem 1 13 Reciclagem de material 2 13 Reciclagem de material poacutes-consumo 2 13 Sacos 1 13 Embalagens 1 13 Garrafas 1 13 Sacos embalagens e garrafas 2 15 Resiacuteduos 1
92
15 Resiacuteduos industriais 1 15 Resiacuteduos industriais como mateacuteria-prima 2 18 Reciclagem 1 18 Reciclagem de plaacutesticos 2 18 Empresas catarinenses de reciclagem de plaacutesticos 3 19 Lixo 1 19 Coleta de lixo 2 22 Plaacutestico 1 22 Transformaccedilatildeo de plaacutestico 2 22 As empresas de transformaccedilatildeo de plaacutestico 3 27 Resiacuteduos 1 32 Plaacutestico 1 34 Plaacutesticos 1 34 Processamento de plaacutesticos 2 34 Empresas de processamento de plaacutesticos 3 34 Terceirizada de empresas de processamento de plaacutesticos 4 34 Os resiacuteduos 1 36 Reciclada 1 36 Mateacuteria-prima reciclada 1 38 Reciclagem 1 38 Reciclagem de plaacutestico 2 38 Reciclagem de plaacutestico poacutes-consumo 2 38 Segmento de reciclagem de plaacutestico poacutes-consumo 3 39 Coleta 1 39 Coleta junto a escolas do municiacutepio 2 39 Um sistema de coleta junto a escolas do municiacutepio 3 40 Plaacutesticos 1 40 Materiais plaacutesticos 1 40 Materiais plaacutesticos como sacos garrafas e tampinhas 2 41 PET 1 43 Lixo 1 43 Lixo orgacircnico 1 43 A contaminaccedilatildeo do plaacutestico 2 43 A contaminaccedilatildeo do plaacutestico pelo lixo orgacircnico 3 44 Lixo 1
93
44 Lixo domeacutestico 1 44 Reciclagem de lixo domeacutestico 2 44 Induacutestria da reciclagem do lixo domeacutestico 3 44 O crescimento da induacutestria da reciclagem do lixo domeacutestico 4 44 Lixo 1 44 Lixo orgacircnico 1 44 A simples separaccedilatildeo do lixo orgacircnico 2 44 A simples separaccedilatildeo do lixo orgacircnico do seco 3 49 A garrafa 1 50 Lixo 1 51 Reciclagem 1 51 Reciclagem do plaacutestico 2 51 A induacutestria da reciclagem do plaacutestico 3 51 A induacutestria da reciclagem do plaacutestico no Brasil 4 52 Reaproveitamento 1 52 Reaproveitamento do PET 2 53 A reciclagem 1 55 Plaacutestico 1 56 Reciclado 1 58 Reciclagem 1 58 Reciclagem do plaacutestico 2 58 Tributaccedilatildeo incidente na reciclagem do plaacutestico 3 61 Garrafa 1 61 Garrafa PET 1 61 Reciclagem 1 63 Induacutestria Quiacutemica 1 64 Alumiacutenio 1 64 Induacutestria do alumiacutenio 2 65 Plaacutestico 1 65 Transformaccedilatildeo do plaacutestico 2 65 Empresas na transformaccedilatildeo do plaacutestico 3 65 Predomiacutenio das pequenas empresas na transformaccedilatildeo do plaacutestico 4 66 Lixo 1 69 Recicladoras 1 69 A abertura de novas recicladoras 2
94
71 Reciclagem 1 71 Reciclagem de Plaacutestico 2 74 Plaacutestico 1 74 Moagem do plaacutestico 2 74 Reciclagem 1 74 Primeiras etapas da reciclagem 2 75 Coleta 1 75 A coleta do plaacutestico 2 77 Reciclagem 1 77 Reciclagem de resiacuteduos 2 77 Reciclagem de resiacuteduos industriais 3
DOCUMENTO2
Linha Sintagma Nominal Niacutevel1 Lixo 1 1 Cuidados com o lixo 2 5 Lixo 1 5 Lixo 1 6 Mateacuteria Orgacircnica 1 6 Plaacutesticos latas e vidros 2 7 Lixo 1 7 Reciclagem do lixo 2 7 A importacircncia da reciclagem do lixo 3 9 O lixo 1 9 Resiacuteduos 1 9 Resiacuteduos soacutelidos 1 9 Resiacuteduos soacutelidos natildeo-biodegradaacuteveis 1 9 Restos de alimentos folhas e frutas 2 10 Lixo 1 10 Lixo orgacircnico 1 11 Lixo 1 11 Lixo domiciliar lixo industrial o de vias puacuteblicas e o hospitalar 3 13 Lixo 1 13 A quantidade de lixo 2
95
15 Lixo 1 15 O acuacutemulo de lixo 2 15 O lixo 1 17 Material orgacircnico 1 18 Restos de comida de animais de plantas e frutas 4 18 Lixo 1 20 Aterro sanitaacuterio 1 20 A decomposiccedilatildeo 1 20 A decomposiccedilatildeo natural 1 21 Reciclaacutevel 1 21 Material reciclaacutevel 1 22 Material plaacutestico latas de alumiacutenio e ferro garrafas de refrigerante de
vidro e PET caixas de papel e papelatildeo jornais revistas livros aparas de papel
4
24 Lixo 1 24 Volume diaacuterio de lixo 2 31 O lixo 1 31 O lixo orgacircnico 1 31 Reciclaacutevel 1 33 Lixo 1 33 Tipo de lixo 2 33 vidro 1 34 As garrafas 1 35 As garrafas 1 36 O lixo 1 36 O lixo papel aparas embalagens de papelatildeo as perdas da impressora
jornais e revistas velhas 3
38 Ferro 1 38 Alumiacutenio 1 42 Reciclaacutevel 1 42 Material reciclaacutevel 1 42 Coleta 1 42 Coleta seletiva 1 44 Reciclagem 1 44 Material para reciclagem 2 44 A destinaccedilatildeo do material para reciclagem 3
96
47 Lixo 1 47 Separaccedilatildeo do lixo 2 47 Separaccedilatildeo do lixo para reciclagem 3 47 O resultado da separaccedilatildeo do lixo para reciclagem 4 50 Coleta 1 50 Coleta seletiva 1 50 O meacutetodo de coleta seletiva 2 53 Lixo 1 53 Embalagens 1 53 O lixo 1 54 Embalagens plaacutesticas 1 54 Pouco reciclaacuteveis 1 54 O vidro 1 57 Decomposiccedilatildeo 1 57 Decomposiccedilatildeo de alguns materiais 2 57 Tempo de decomposiccedilatildeo de alguns materiais 3 67 Plaacutestico 1 67 Plaacutestico riacutegido 1 67 Embalagens plaacutesticas 1 67 Embalagens plaacutesticas como garrafas de refrigerantes recipientes para
produtos de limpeza e higiene e potes de alimentos 4
72 Papel ondulado 1 74 Coleta 1 74 Coleta em grandes volumes comerciais 2 74 Faacutecil coleta em grandes volumes comerciais 2 76 Processamento 1 76 Custo de processamento 2 77 Embalagens 1 77 Embalagens longa vida 1 79 reprocessamento 1 79 Reprocessamento do material 2 82 Hortas e jardins 2 83 Pneus 1 83 Reciclagem 1 83 A borracha e sua reciclagem 2
97
84 Borracha 1 84 Borracha natural ou sinteacutetica 1 84 O custo da borracha natural ou sinteacutetica 2 86 Latas de alumiacutenio 1 86 O lixo 1 86 A reciclagem 1 88 Reciclada 1 88 Latinha reciclada 1 89 A reciclagem 1 91 vidro 1 91 Vidro 1 91 Recipiente de vidro 2 91 Faacutecil reciclagem 1 94 PET 1 94 Recicladas 1 94 Garrafas recicladas 1 95 Reciclagem 1 95 Lixo 1 95 Lixo plaacutestico 1 95 Lixo plaacutestico dos aterros 2 97 Reciclado 1 97 Reciclado vaacuterias vezes 1 98 Latas de accedilo 2 98 Automoacuteveis ferramentas vigas para construccedilatildeo civil arames
vergalhotildees utensiacutelios domeacutesticos e inclusive novas latas 3
100 Plaacutestico filme 1 100 Sacolas de supermercado sacos de lixo embalagens de leite lonas
agriacutecolas e proteccedilatildeo de alimentos na geladeira ou microondas 3
102 Folha de alumiacutenio 2 107 Reciclaacuteveis 1 107 Produtos biodegradaacuteveis ou reciclaacuteveis 1 110 Lixo 1 110 Lixo na rua 2 110 O lixo 1 110 O lixo na lixeira 2
98
111 O lixo 111 Reciclagem 1 111 Plaacutesticos vidros e papel para reciclagem 3
99
ANEXO D - FERRAMENTA1 DE TOQUENIZACcedilAtildeO E ETIQUETAGEM
Endereccedilo na Web hermessourceforgenethermeswebhtml
Texto processado (Paraacutegrafo 6 do Documento1)
A induacutestria da reciclagem do plaacutestico no Brasil tem crescido bastante em funccedilatildeo do reaproveitamento do PET que eacute usado no segmento de monofilamentos em artigos como vassouras e na induacutestria tecircxtil Conforme Ana Flores a reciclagem gera 250 mil empregos no Paiacutes dos quais 70 satildeo informais Poreacutem a maior parte do potencial de mercado ainda estaacute sendo desperdiccedilado avalia ldquoCerca de 15 do total de plaacutestico que eacute industrializado no Paiacutes eacute reciclado Em dez anos poderiacuteamos chegar a 60 como nos Estados Unidos desde que fosse implementado um conjunto de medidas incentivando essa praacuteticardquo assegura
Resultado
A_ART induacutestria_N da_PREP+ART reciclagem_N do_PREP+ART plaacutestico_N no_PREP+ART Brasil_NP tem_VTD crescido_ADJ bastante_ADV em_PREP funccedilatildeo_N do_PREP+ART reaproveitamento_N do_PREP+ART PET_N _ que_PR eacute_VLIG usado_ADJ no_PREP+ART segmento_N de_PREP monofilamentos_N _ em_PREP artigos_N
100
como_CONJSUB vassouras_ADJ e_CONJCOORD na_PREP+ART induacutestria_N tecircxtil_NP _ Conforme_CONJSUB Ana_NP Flores_N _ a_ART reciclagem_N gera_N 250_NC mil_NC empregos_N no_PREP+ART Paiacutes_N _ dos_PREP+ART quais_PR 70_NC satildeo_VLIG informais_ADJ _ Poreacutem_VTD _ a_ART maior_ADJ parte_N do_PREP+ART potencial_N de_PREP mercado_N ainda_ADV estaacute_VLIG sendo_VLIG desperdiccedilado_VTD _ avalia_N _ Cerca_N de_PREP 15_NC do_PREP+ART total_ADJ de_PREP plaacutestico_N que_PR eacute_VLIG
101
industrializado_VTD no_PREP+ART Paiacutes_N eacute_VLIG reciclado_VTD _ Em_PREP dez_NC anos_N poderiacuteamos_VTD chegar_VTI a_ART 60_NC _ como_CONJSUB nos_PREP+ART Estados_NP Unidos_NP _ desde_PREP que_PR fosse_VLIG implementado_ADJ um_ART conjunto_N de_PREP medidas_N incentivando_VTD essa_PD praacutetica_N _ assegura_VTD _
102
ANEXO D - FERRAMENTA2 DE TOQUENIZACcedilAtildeO E ETIQUETAGEM
Endereccedilo na Web httplaelpucspbrcorporaetiquetagem
A ARTD induacutestria N da CPR reciclagem N do CPR plaacutestico N no CPR Brasil N tem V crescido PART bastante ADV em PRP funccedilatildeo N do CPR reaproveitamento N do CPR PET N PT que PRN eacute V usado PART no CPR segmento N de PRP monofilamentos N PT em PRP artigos N como ADV vassouras N e CJ na CPR induacutestria N tecircxtil ADJ PT Conforme ADJ Ana N Flores N PT a ARTD reciclagem N gera V 250 NUM mil N
103
empregos N no CPR Paiacutes N PT dos CPR quais PRN 70 NUM PT satildeo V informais ADJ PT Poreacutem CJ PT a ARTD maior ADJ parte N do CPR potencial N de PRP mercado N ainda ADV estaacute V sendo V desperdiccedilado PART PT avalia V PT ldquoCerca PRP de PRP 15 NUM PT do CPR total N de PRP plaacutestico N que PRN eacute V industrializado PART no CPR Paiacutes N eacute V reciclado PART PT Em PRP dez NUM anos N poderiacuteamos V chegar V a ARTD 60 NUM PT
104
PT como ADV nos CPR Estados N Unidos N PT desde PRP que PRN fosse V implementado PART um ARTI conjunto N de PRP medidas N incentivando V essa PRN praacuteticardquo N PT assegura V PT
105
ANEXO E - PROCESSO DE NOMINALIZACcedilAtildeO Palavra Original Classe Substantivo Abstrato Substantivo Concretotem Verbo E E crescido Verbo no particiacutepio crescimento E bastante Adveacuterbio E E eacute Verbo E E usado Verbo no particiacutepio uso usador tecircxtil Adjetivo E tecido informal Adjetivo informalidade E maior Adjetivo maioridade E potencial Adjetivo potencialidade E ainda Adveacuterbio E E estaacute Verbo E E sendo Verbo E E desperdiccedilado Verbo no particiacutepio desperdiacutecio desperdiccedilador total Adjetivo totalidade totalizador industrializado Verbo no particiacutepio industrial induacutestria reciclado Verbo no particiacutepio E reciclagem poderiacuteamos Verbo E E chegar Verbo E chegada fosse Verbo E E implementado Verbo no particiacutepio implemento implementador incentivando Verbo Incentivo incentivador
E = ausecircncia de nominalizaccedilatildeo
vi
IacuteNDICE DE TABELAS
Tabela 1 Exemplos de nominalizaccedilatildeo 49 Tabela 2 Exemplo de uma consulta qb53 Tabela 3 Paraacutegrafo 6 do documento163 Tabela 4 RLBs identificadas no paraacutegrafo 6 do documento1 63 Tabela 5 Descriccedilatildeo do caso de uso ndash Inserir novo documento68 Tabela 6 Descriccedilatildeo do caso de uso ndash Alimentar base de dados (Documentos) 68 Tabela 7 Descriccedilatildeo do caso de uso ndash Extrair SN de 4ordm ou uacuteltimo niacutevel 68 Tabela 8 Descriccedilatildeo do caso de uso ndash Tratar regras verbais69 Tabela 9 Descriccedilatildeo do caso de uso ndash Extrair SN de niacuteveis 3 2 e 1 (niacuteveis anteriores) 69 Tabela 10 Descriccedilatildeo do caso de uso ndash Alimentar base de dados (Sintagmas) 69 Tabela 11 Descriccedilatildeo do caso de uso ndash Toquenizar e etiquetar70 Tabela 12 Descriccedilatildeo do caso de uso ndash Nominalizar70 Tabela 13 Descriccedilatildeo do caso de uso ndash Capturar RLBs 70 Tabela 14 Descriccedilatildeo do caso de uso ndash Calcular peso dos descritores 71 Tabela 15 Descriccedilatildeo do caso de uso ndash Alimentar base de dados (Termos e RLBs) 71
vii
SIGLAS
RI Recuperaccedilatildeo de Informaccedilatildeo
SRI Sistemas de Recuperaccedilatildeo de Informaccedilatildeo
SN Sintagma Nominal
LG Leacutexico Gerativo
EQ Estrutura de Qualia
SMART System for the Manipulation and Retrieval of Text
SV Sintagma Verbal
SEL Leacutexico de Enumeraccedilatildeo de Sentidos
PLC Paradigma Leacutexico-Conceitual
XML Extensible Markup Language
UML Linguagem de Modelagem Unificada
UP Processo Unificado
OO Orientado a Objetos
NG N-Grama
TT Termo-Termo
TR Termo-Relacionamento
RT Relacionamento-Termo
TR+ Termo-RelacionamentoRelacionamento-Termo
SINTR+ Sintagma Nominal com TR+
BD Banco de Dados
viii
RESUMO
Este trabalho tem como objetivo apresentar um novo modelo de sistema informatizado de suporte ao usuaacuterio no processo de recuperaccedilatildeo de informaccedilotildees A proposta consiste em apoio durante a definiccedilatildeo da query de busca e baseia-se na identificaccedilatildeo das possibilidades de sistematizaccedilatildeo e junccedilatildeo do modelo de Kuramoto com a estrutura de Gonzalez Para a sua construccedilatildeo foi necessaacuterio analisar e sintetizar o modelo de suporte ao usuaacuterio de Kuramoto (baseado na determinaccedilatildeo dos Sintagmas Nominais) a estrutura de Qualia do Leacutexico Gerativo de Pustejovsky e termos e RLBs (relaccedilotildees lexicais binaacuterias) do modelo TR+ de Gonzalez O resultado que se espera alcanccedilar eacute possibilitar a realizaccedilatildeo de uma interaccedilatildeo que venha a proporcionar uma negociaccedilatildeo adequada dos significados entre o usuaacuterio e a maacutequina negociaccedilatildeo essa que deve resultar em fator fundamental na melhoria da eficiecircncia dos processos de busca O modelo de Kuramoto baseado em uma hierarquia de Sintagmas Nominais suporta inicialmente essa interaccedilatildeo Com a definiccedilatildeo da query de busca e da Estrutura de Qualia de Pustejovsky impliacutecita no modelo TR+ de Gonzalez foi possiacutevel obter uma maior relevacircncia dos documentos recuperados atraveacutes de um caacutelculo de peso de descritores (termos e relacionamentos) evidentes nos documentos As etapas gerais do modelo proposto satildeo a extraccedilatildeo de Sintagmas Nominais e a sua hierarquizaccedilatildeo automaacutetica em niacuteveis o preacute-processamento (toquenizaccedilatildeo e etiquetagem) o processo de nominalizaccedilatildeo e a captura de RLBs Delineado preliminarmente o modelo partiu-se para as etapas de levantamento e anaacutelise de requisitos representada pelos diagramas e pelas descriccedilotildees dos casos de uso chegando-se ao desenvolvimento do seu modelo conceitual que culminou a construccedilatildeo dos diagramas de classes e de sequumlecircncia para a aplicaccedilatildeo proposta Ao final conclui-se que a alternativa indicada neste trabalho aleacutem de ser exequumliacutevel apresenta ganhos qualitativos nos resultados de uma busca em recuperaccedilatildeo de informaccedilotildees e tambeacutem quantitativos no que se refere a um menor tempo na fase de indexaccedilatildeo (rapidez) e um tamanho menor de arquivos de iacutendice gerados (memoacuteria)
Palavras-chave Recuperaccedilatildeo de Informaccedilatildeo Sintagmas Nominais Estrutura de Qualia Termos e RLBs
ix
ABSTRACT
This work has the presentation of a new model of a support information system to the user in the process of information retrieval The proposal consists in the support during the definition of a search query based on the identification of the possibilities of informatization and junction of a Kuramoto model along with the Gonzalez structure For its construction it was necessary to analyze and synthesize the support model to the Kuramoto user (base don the determination of Nominal Syntagm) the Qualia structure of the Lexical Semantics of Pustejovsky and having the LBRs (lexical binary relations) of the Gonzalez TR+ model The result we expect to reach is the possibility of actually performing an interaction that may result in an adequate negotiation of meanings between the user and the machine knowing that this negotiation should result in a fundamental factor in order for the improvement on the efficiency of the search processes The Kuramoto model based on Nominal Syntagm hierarchy initially supports this interaction With the definition of the query search and the Pustejovsky Qualia structure implicit in the TR+ Gonzalez model it was possible to obtain a greater relevance of documents recovered through a calculus of weight of describers (terms and relationships) evident in the document The general stages of the proposed model are the extraction of Nominal Syntagm and their automatic placement into hierarchy the pre-processing (tokening and labeling) the naming and capture of the LRBs After the preliminary outlining of the model we went on to the gathering of stages and requisite analysis presented by diagrams and descriptions of the usage cases finally reaching the development of a conceptual model that culminated in the construction of class diagrams and of a sequence for the proposed application As we reach the end we can conclude that the indicated alternative in this work besides being executable presents qualitative gains in the results of a search for the retrieval of information and also quantitative gains when referring to a smaller amount of time spent in the index phase (speed) and a smaller amount of archives generated (memory)
Key-words Retrieval of Information Nominal Syntagm Qualia Structure Terms e LRBs
x
SUMAacuteRIO
AGRADECIMENTOS iv
IacuteNDICE DE FIGURAS v
IacuteNDICE DE TABELAS vi
IacuteNDICE DE TABELAS vi
SIGLAS vii
RESUMOviii
ABSTRACT ix
SUMAacuteRIOx
1 INTRODUCcedilAtildeO 12
11 Objetivos13 111 Objetivo Geral 13 112 Objetivos Especiacuteficos 13
12 Metodologia13
13 Resultados Esperados e Limitaccedilotildees do Trabalho 14
14 Estrutura da Dissertaccedilatildeo 15
2 RECUPERACcedilAtildeO DE INFORMACcedilAtildeO 16
21 Histoacuterico 16
22 Modelos Claacutessicos de Recuperaccedilatildeo de Informaccedilatildeo 18 221 Modelo Booleano 18
2211 Operadores Booleanos19 2212 Operadores de Proximidade 20
222 Modelo Vetorial21 223 Modelo Probabiliacutestico 23
3 FUNDAMENTACcedilAtildeO TEacuteORICA25
31 A Proposta de Kuramoto 25 311 Extraccedilatildeo dos Sintagmas Nominais 27
3111 Extraccedilatildeo Automaacutetica de Sintagmas Nominais 29 312 A determinaccedilatildeo de uma estrutura para os SN 29
xi
313 Protoacutetipo Desenho da Interface de Busca31 314 Organizaccedilatildeo dos Sintagmas Nominais como Estrutura de Busca 32
32 A Teoria do Leacutexico Gerativo de Pustejovsky34 321 Estruturas do Leacutexico Gerativo36
3211 Estrutura de Argumento 37 3212 Estrutura de Evento 37 3213 Estrutura de Qualia 38 3214 Estrutura de Heranccedila Lexical 40
322 Sistema de Tipos Semacircnticos 41 322 Mecanismos gerativos 42
3221 Coerccedilatildeo de tipo42 3222 Ligaccedilatildeo seletiva 42 3223 Co-composiccedilatildeo 43
33 O Modelo TR+ de Gonzalez45
4 APRESENTACcedilAtildeO E DISCUSSAtildeO DO MODELO PROPOSTO 55
41 Procedimentos desenvolvidos utilizando o modelo de SN de Kuramoto e a proposta Gonzalez - ldquoEstrutura SINTR+rdquo55
42 Descriccedilatildeo Formal do Modelo Proposto SINTR+ 64
5 CONCLUSAtildeO77
6 REFEREcircNCIAS BIBLIOGRAacuteFICAS 80
61 Bibliografia Consultada82
ANEXO A - DOCUMENTO186
ANEXO B - DOCUMENTO288
ANEXO C - EXTRACcedilAtildeO MANUAL DE SN DOS DOCUMENTOS91
ANEXO D - FERRAMENTA1 DE TOQUENIZACcedilAtildeO E ETIQUETAGEM99
ANEXO D - FERRAMENTA2 DE TOQUENIZACcedilAtildeO E ETIQUETAGEM102
ANEXO E - PROCESSO DE NOMINALIZACcedilAtildeO105
12
1 INTRODUCcedilAtildeO
O tema ldquoRecuperaccedilatildeo de Informaccedilatildeordquo (RI) eacute importante para diversas aacutereas tais
como Biblioteconomia Linguumliacutestica Ciecircncia da Computaccedilatildeo entre outras Segundo Baeza-
Yates e Ribeiro-Neto (1999) na Ciecircncia da Computaccedilatildeo esse tema diz respeito agrave recuperaccedilatildeo
de dados e agrave recuperaccedilatildeo de informaccedilatildeo sendo ambos processos importantes e significativos
para a aacuterea
De acordo com os autores os sistemas de recuperaccedilatildeo de informaccedilatildeo lidam com
objetos linguumliacutesticos (textos) e por isso herdam toda a problemaacutetica inerente ao tratamento da
linguagem natural Jaacute a recuperaccedilatildeo de dados estaacute associada a sistemas gerenciadores de
banco de dados (ou simplesmente banco de dados) que ao organizaacute-los jaacute especificam de
forma bem definida a sua estrutura e por conseguinte a sua semacircntica
Um dos desafios na recuperaccedilatildeo de informaccedilatildeo conforme Ferneda (2003) diz
respeito a melhorar a relevacircncia dos resultados de uma busca de maneira que o usuaacuterio possa
encontrar todos os documentos que atendam agraves suas necessidades de informaccedilatildeo Em outras
palavras isto quer dizer que a busca seraacute precisa se conseguir retornar eou listar somente
documentos relacionados ao que o usuaacuterio expressou na definiccedilatildeo da sua busca
Diversos modelos de RI vecircm proporcionando melhorias significativas na relevacircncia
dos resultados De acordo com Baeza-Yates e Ribeiro-Neto (1999) em uma visatildeo centrada no
computador o problema de RI consiste principalmente na construccedilatildeo de iacutendices mais
eficientes no processamento de querys de usuaacuterios com alta performance e no
desenvolvimento de algoritmos de classificaccedilatildeo que melhorem a ldquoqualidaderdquo do conjunto de
respostas Apesar disso os meacutetodos utilizados nesses modelos ainda deixam a desejar natildeo
sendo capazes de recuperar a contento os documentos relevantes a uma consulta do usuaacuterio
Na maioria dos modelos de recuperaccedilatildeo de informaccedilatildeo existentes hoje o processo de
indexaccedilatildeo extrai cada palavra do texto de um documento e insere uma lista de palavras
ordenadas pela frequumlecircncia da palavra no texto Isto desfaz o trabalho intelectual do autor do
documento
Observa-se que diversas pesquisas de RI se focalizam nos algoritmos de busca por
documentos relevantes a partir de querys estabelecidas O foco nesses casos eacute determinar a
relevacircncia de documentos Para isso haacute vaacuterias metodologias desde medir o tempo de
13
permanecircncia do usuaacuterio no acesso a um documento ateacute a determinaccedilatildeo da quantidade de
consultas com querys semelhantes entre outras
Outro aspecto problemaacutetico relaciona-se ao fato de que as informaccedilotildees recuperadas
dependem tambeacutem da clareza do usuaacuterio ao expressar o que necessita Ou seja a dificuldade
natildeo se trata apenas de identificar e definir a relevacircncia dos resultados atraveacutes dos modelos
computacionais de RI que datildeo suporte ao processo da busca mas da capacidade do usuaacuterio de
formular uma expressatildeo de busca utilizando as palavras ou expressotildees de forma clara de
modo a representar os documentos desejados satisfazendo assim a sua necessidade
As palavras utilizadas pelo usuaacuterio possuem um significado claro para ele mas isso
natildeo eacute suficiente para uma boa recuperaccedilatildeo de informaccedilatildeo pois a Liacutengua Portuguesa segundo
Rossi (2003) apresenta muitas palavras iguais com significados diferentes (polissemia) que
variam de acordo com o contexto E haacute tambeacutem palavras diferentes em escrita e pronuacutencia
embora com significados iguais (sinoniacutemia) Ocorre ainda a combinaccedilatildeo de palavras que
segundo Martins e Zilberknop (1999) diz respeito a duas ou mais palavras que podem
combinar-se em ordem diferente designando ideacuteias completamente diversas
Esses aspectos da linguagem natural satildeo obstaacuteculos na obtenccedilatildeo de bons resultados
em um procedimento de recuperaccedilatildeo de informaccedilatildeo No caso da polissemia e da combinaccedilatildeo
de palavras pode ocorrer o aumento da taxa de ruiacutedos1 ou o incremento da taxa de silecircncio2
que acontecem no caso de sinoniacutemia Isto pode levar a um resultado de busca de documentos
que natildeo atenda agraves necessidades de informaccedilatildeo do usuaacuterio Portanto a existecircncia de uma
negociaccedilatildeo de significados entre usuaacuterio e maacutequina levaria possivelmente a resultados mais
relevantes
O surgimento das novas tecnologias da informaccedilatildeo e da comunicaccedilatildeo fez crescer o
volume de publicaccedilotildees na Internet Esse crescimento segundo Cardoso (2000) tem
dificultado ainda mais a recuperaccedilatildeo de informaccedilotildees relevantes Um aspecto positivo eacute a
facilidade de acesso pela Web (World Wide Web) aos acervos bibliograacuteficos de diversas
universidades brasileiras e mesmo do mundo inteiro Visto que o aumento do acervo torna
ainda mais complexa a busca por isso esperava-se que esses meacutetodos acompanhassem tal
desenvolvimento mas isto ainda natildeo aconteceu de forma satisfatoacuteria
A dificuldade aparece rapidamente nos vaacuterios mecanismos da Web como ldquoGooglerdquo
ldquoCaderdquo entre outros que ao serem acionados para buscar uma determinada informaccedilatildeo
1 Taxa de ruiacutedos eacute definida como sendo a relaccedilatildeo entre a quantidade de documentos recuperados natildeo pertinentes e a quantidade total de documentos 2 Taxa de silecircncio eacute definida como sendo a relaccedilatildeo entre a quantidade de documentos recuperados pertinentes natildeo recuperados e a quantidade total de documentos pertinentes na base de dados
14
listam centenas ou mesmo milhares de referecircncias como resposta sendo normalmente destas
relevantes apenas as primeiras Aleacutem disso ao se utilizarem as mesmas palavras em diferentes
mecanismos (sites) de pesquisa os resultados variam segundo Hill (1999) devido agraves rotinas
automatizadas de pesquisa diferenciadas
O usuaacuterio precisa ainda utilizar palavras-chave para dar foco agrave sua pesquisa Segundo
Baeza-Yates e Ribeiro-Neto (1999) o interessante seria jaacute poder dizer ldquoDecirc-me dados
estatiacutesticos sobre a equipe da seleccedilatildeo brasileira de basquete no ano de 2004rdquo Mas apesar de a
tecnologia da Internet estar progredindo ainda se estaacute bastante distante desse estaacutegio
Uma linha de pesquisa que tem como representante o trabalho de Kuramoto (1999)
procura abordar a questatildeo da RI desde a perspectiva do apoio ao usuaacuterio na formulaccedilatildeo da
query de busca A expectativa eacute oferecer jaacute no momento da formulaccedilatildeo da query um apoio
interativo para o estabelecimento de uma chave mais adequada ao contexto real da busca A
proposta de Kuramoto eacute baseada na determinaccedilatildeo dos Sintagmas Nominais (SN) de um
domiacutenio de aplicaccedilatildeo
O uso de SN permite um processo de refinamento da busca A forma de navegar
pelos niacuteveis de SN intensifica a interaccedilatildeo entre o usuaacuterio e o computador (KURAMOTO
2002) A interface de busca passa a dar um suporte para o usuaacuterio na formulaccedilatildeo de sua query
antes de listar todos os documentos
A proposta de utilizaccedilatildeo de uma interface de apoio utilizando SN configura-se como
inovadora pois natildeo se tem conhecimento de outra proposiccedilatildeo que considere o fato de que nem
sempre o usuaacuterio eacute capaz de explicitar a sua necessidade de informaccedilatildeo em uma uacutenica
expressatildeo de busca
Segundo Kuramoto (2002) as palavras como unidades de um dicionaacuterio natildeo contecircm
qualquer substacircncia Elas adquirem essa substacircncia no momento em que se inserem no
universo do discurso ou seja as palavras inseridas no texto de um documento assumem um
significado especiacutefico
Percebe-se que essa linha de pesquisa eacute bastante promissora e que a aacuterea de
Linguumliacutestica pode oferecer alternativas interessantes uma delas foi vislumbrada na teoria do
Leacutexico Gerativo (LG) de Pustejovsky (1991) Nessa teoria Pustejovsky buscando dar conta
da polissemia loacutegica das palavras propondo uma estrutura para a semacircntica de uma liacutengua da
mesma forma que a sintaxe eacute estruturada Na estrutura proposta por Pustejovsky a
componente principal eacute a estrutura de dimensotildees de significados (denominada de Estrutura de
Qualia)
15
Uma palavra escrita pelo usuaacuterio pode ser utilizada pelos documentos de um acervo
e portanto identificada pela maacutequina atraveacutes de seus modelos de RI com um sentido
completamente diferente do contexto imaginado pelo usuaacuterio Para a palavra ldquojornalrdquo por
exemplo o usuaacuterio pode estar se referindo ao preacutedio onde fica o jornal ou ao objeto fiacutesico
propriamente dito ou ateacute mesmo ao conteuacutedo do jornal (informaccedilatildeo contida)
A Estrutura de Qualia auxilia a RI na identificaccedilatildeo de qual sentido mais especiacutefico o
usuaacuterio busca dessa forma esta estrutura poderia classificar os documentos contendo a palavra
ldquojornalrdquo segundo as diferentes qualia envolvidas Isso representaria um refinamento
importante na busca que poderia resultar em mais satisfaccedilatildeo para o usuaacuterio e portanto mais
eficiecircncia dos mecanismos de busca O reconhecimento da importacircncia da teoria de
Pustejovsky pode ser constatado na existecircncia de trabalhos relacionados na liacutengua portuguesa
como eacute o caso da pesquisa de Abrahatildeo (1997) que desenvolveu a modelagem e a
implementaccedilatildeo de um leacutexico semacircntico para a nossa Liacutengua a partir de um estudo
aprofundado da teoria de Pustejovsky
Aleacutem disso uma outra questatildeo importante a ressaltar eacute que existem problemas
ligados agrave definiccedilatildeo das palavras Essa criacutetica segundo Rossi (2003) se fundamenta no fato de
os lexicoacutegrafos3 parecerem atuar de maneira mais intuitiva do que propriamente fazer uso de
teorias semacircnticas que decircem o devido suporte agrave tarefa de definir um item lexical Rossi (2003)
reforccedila que muitos dicionaacuterios nem sempre prevecircem a polissemia subjacente aos itens
lexicais
Outro trabalho pesquisado que permitiu uma ampliaccedilatildeo do modelo proposto nesta
dissertaccedilatildeo foi o de Gonzalez (2005) com o seu modelo TR+ Este modelo natildeo utiliza
sistematicamente a Estrutura de Qualia aparecendo esta apenas impliacutecita principalmente a
parte formal das palavras As palavras e seus relacionamentos ganham em Gonzalez uma
importacircncia contextual pelo caacutelculo de um peso (peso de descritores) que busca manter sua
unidade significativa
A abordagem proposta para este trabalho orienta-se na melhoria da query de busca
dos usuaacuterios A pesquisa siacutentese e sistematizaccedilatildeo da proposta de Kuramoto (1999) e do
modelo de Gonzalez (2005) possibilitaram o desenvolvimento de um novo modelo chamado
3 Lexicoacutegrafos satildeo autores de dicionaacuterios ou seja dicionaristas
de SINTR+ Esse modelo utiliza a formulaccedilatildeo de consulta em RI apresentando os Sintagmas
Nominais referentes a esta consulta e com isto inicia a interaccedilatildeo com o usuaacuterio onde o mesmo
13
escolhe o SN de niacutevel apropriado e a partir daiacute haacute sistematizaccedilatildeo com o modelo TR+ de
Gonzalez
Pretende-se por um lado ajudar e apoiar o usuaacuterio a melhor especificar sua query no
contexto real da sua busca por outro lado potencializa-se o tempo tanto na fase de indexaccedilatildeo
como na de busca e reduz-se o espaccedilo utilizado de memoacuteria para dados na base
11 Objetivos
111 Objetivo Geral
Descrever a partir da identificaccedilatildeo das possibilidades de ampliaccedilatildeo de siacutentese e de
sistematizaccedilatildeo das propostas de Kuramoto e de Gonzalez um novo modelo para um sistema
informatizado de suporte ao usuaacuterio na definiccedilatildeo da sua query de busca durante um processo
de recuperaccedilatildeo de informaccedilatildeo
112 Objetivos Especiacuteficos
a) Analisar as propostas citadas buscando a sua sistematizaccedilatildeo e identificaccedilatildeo de alternativas
de implementaccedilatildeo e ampliaccedilatildeo
b) Definir o modelo conceitual do sistema desejado atraveacutes da sua anaacutelise de domiacutenio
representando-o a partir dos seus diagramas de classes e de sequumlecircncia
c) Avaliar exploratoriamente o modelo desenhado a partir da construccedilatildeo de exemplos
demonstrativos das suas principais propriedades
12 Metodologia
Para a construccedilatildeo deste trabalho inicialmente foi realizada uma revisatildeo bibliograacutefica
a partir de livros artigos e outros materiais disponiacuteveis referentes ao assunto em questatildeo
fundamentalmente sobre a aacuterea de Recuperaccedilatildeo de Informaccedilatildeo A metodologia utilizada para
desenvolver este trabalho baseou-se no cronograma de etapas a serem desenvolvidas descritas
a seguir
14
a) Estudo e identificaccedilatildeo das diferentes alternativas e abordagens atualmente desenvolvidas
para a aacuterea de recuperaccedilatildeo de informaccedilotildees
b) Formulaccedilatildeo da proposta de trabalho definiccedilatildeo do escopo e da fundamentaccedilatildeo da proposta
c) Estudo das teorias de base para a construccedilatildeo do modelo teoria do Leacutexico Gerativo de
James Pustejovsky e o modelo de Kuramoto E apoacutes um estudo de Abrahatildeo e Gonzalez
d) Esboccedilo do modelo para o sistema proposto
e) Especificaccedilatildeo dos requisitos do sistema proposto
f) Construccedilatildeo da anaacutelise de domiacutenio definiccedilatildeo do modelo conceitual
g) Construccedilatildeo dos diagramas de classes e de sequumlecircncia para o modelo
h) Construccedilatildeo de exemplos de aplicaccedilatildeo do modelo
i) Anaacutelise e conclusotildees finais
13 Resultados Esperados e Limitaccedilotildees do Trabalho
A principal contribuiccedilatildeo deste trabalho reside no fato de sistematizar as teorias de
Kuramoto Pustejovsky e Gonzalez construindo um novo modelo que amplia as
potencialidades das propostas de Kuramoto e Gonzalez melhorando os resultados do processo
de recuperaccedilatildeo de informaccedilotildees Esta melhoria ocorre em relaccedilatildeo agrave diminuiccedilatildeo do tempo de
busca dos documentos e agrave relevacircncia dos resultados encontrados por meio da junccedilatildeo de
diferentes modelos para os processos de indexaccedilatildeo e busca
A princiacutepio o modelo construiacutedo eacute antevisto como aplicaacutevel a bases de documentos
natildeo distribuiacutedas e contidas a um determinado domiacutenio de aplicaccedilatildeo mas jaacute eacute possiacutevel
perceber formas de adaptaacute-lo expandindo-o para seu uso na Web
Este trabalho natildeo tem o intuito de gerar uma implementaccedilatildeo computacional
completa do modelo proposto propotildee-se antes a demonstrar a viabilidade desta
implementaccedilatildeo descrevendo os diagramas e as descriccedilotildees dos casos de uso e a sua
modelagem conceitual culminando a construccedilatildeo dos diagramas de classes e de sequumlecircncia A
anaacutelise das potencialidades e limitaccedilotildees do modelo deveraacute ser possiacutevel a partir da realizaccedilatildeo
de estudos de casos onde se determine a complexidade computacional da implementaccedilatildeo
requerida
15
14 Estrutura da Dissertaccedilatildeo
O trabalho apresenta um capiacutetulo introdutoacuterio que orienta os toacutepicos do projeto e o
desenvolvimento da pesquisa aleacutem de sintetizar os resultados que seratildeo explorados na
conclusatildeo
O Capiacutetulo 2 a seguir aborda temas e definiccedilotildees da aacuterea de RI mostrando a sua
histoacuteria e tambeacutem discute o funcionamento e as vantagens e desvantagens dos modelos
claacutessicos de RI
No Capiacutetulo 3 apresenta-se a fundamentaccedilatildeo teoacuterica desta dissertaccedilatildeo onde satildeo
abordados trecircs autores Primeiramente apresenta-se a Proposta de Kuramoto que se baseia nos
niacuteveis de Sintagmas Nominais sendo exposto o protoacutetipo de interaccedilatildeo entre usuaacuterio e maacutequina
desenvolvido por este autor Na Teoria do Leacutexico Gerativo de Pustejovsky deu-se ecircnfase agrave
apresentaccedilatildeo da Estrutura de Qualia pois eacute a que foi julgada mais adequada para a aplicaccedilatildeo
no modelo proposto apresenta-se tambeacutem uma anaacutelise do estudo de Abrahatildeo Por fim
discute-se e apresenta-se o trabalho de Gonzalez e do seu modelo TR+ que possibilitou
juntamente com a proposta de Kuramoto sistematizar a proposta desta dissertaccedilatildeo
No Capiacutetulo 4 eacute desenvolvida a proposta do sistema SINTR+ atraveacutes dos diagramas e
das descriccedilotildees dos casos de uso do modelo o modelo conceitual os diagramas de classes e de
sequumlecircncia juntamente com exemplos demonstrativos das suas propriedades
No Capiacutetulo 5 tecircm-se as conclusotildees referentes ao trabalho bem como as sugestotildees
para continuidade desse foco de pesquisa
O Capiacutetulo 6 apresenta as referecircncias bibliograacuteficas utilizadas para a realizaccedilatildeo deste
trabalho bem como a bibliografia consultada para a compreensatildeo de conceitos abordados na
dissertaccedilatildeo finalizando com os anexos
16
2 RECUPERACcedilAtildeO DE INFORMACcedilAtildeO
Neste capiacutetulo apresentam-se o histoacuterico e os modelos claacutessicos da aacuterea de
recuperaccedilatildeo de informaccedilatildeo O objetivo ao abordar esses toacutepicos eacute delinear uma visatildeo geral da
aacuterea a partir de diversos modelos de RI apontando algumas de suas principais vantagens e
desvantagens Dar-se-aacute destaque ao fato de que os algoritmos de relevacircncia utilizados para
recuperar os documentos desconsideram o contexto da query de busca
21 Histoacuterico
Em 1951 segundo Baeza-Yates e Ribeiro-Neto (1999) Calvin Mooers criou o termo
ldquoInformation Retrievalrdquo (Recuperaccedilatildeo de Informaccedilatildeo) e definiu os problemas a serem
abordados por esta nova aacuterea de pesquisa a qual despertou o interesse principalmente de
bibliotecaacuterios e ldquoexpertsrdquo da informaccedilatildeo
No contexto da Ciecircncia da Informaccedilatildeo segundo Ferneda (2003 p 14)
o termo ldquoRecuperaccedilatildeo de Informaccedilatildeordquo significa para uns a operaccedilatildeo pela qual se seleciona documentos a partir do acervo em funccedilatildeo da demanda do usuaacuterio Para outros ldquoRecuperaccedilatildeo de Informaccedilatildeordquo consiste no fornecimento a partir de uma demanda definida pelo usuaacuterio dos elementos de informaccedilatildeo documentaacuteria correspondentes O termo pode ainda ser empregado para designar a operaccedilatildeo que fornece uma resposta mais ou menos elaborada a uma demanda e esta resposta eacute convertida num produto cujo formato eacute acordado com o usuaacuterio (bibliografia nota de siacutentese etc) Haacute ainda autores que conceituam a recuperaccedilatildeo de informaccedilatildeo de forma muito mais ampla ao subordinar agrave mesma o tratamento da informaccedilatildeo (catalogaccedilatildeo indexaccedilatildeo classificaccedilatildeo)
Para alguns autores segundo Cardoso (2000) RI eacute dita como uma subaacuterea da Ciecircncia
da Computaccedilatildeo que estuda o armazenamento e a recuperaccedilatildeo automaacutetica de documentos que
satildeo objetos de dados geralmente textos Para Baeza-Yates e Ribeiro-Neto (1999) o termo
ldquoRecuperaccedilatildeo de Informaccedilatildeordquo trata da representaccedilatildeo do armazenamento da organizaccedilatildeo e do
acesso aos itens da informaccedilatildeo
De acordo com Ferneda (2003) foi a partir dos experimentos de Hans Peter Luhn
(Engenheiro pesquisador da IBM) na indexaccedilatildeo automaacutetica e na elaboraccedilatildeo automaacutetica de
resumos que surgiram os primeiros resultados significativos no tratamento computacional da
informaccedilatildeo Com isto ldquoLuhn foi durante vaacuterios anos o criador de inuacutemeros projetos que
visavam modificar radicalmente meacutetodos tradicionais de armazenamento tratamento e
17
recuperaccedilatildeo de informaccedilatildeo Em 1961 jaacute acumulava cerca de 80 patentes nos Estados Unidosrdquo
(FERNEDA 2003 p 10-11) Estes dados mostram a importacircncia de Luhn no tratamento da
recuperaccedilatildeo de informaccedilotildees
Em 1960 segundo Ferneda (2003) foi desenvolvido os princiacutepios baacutesicos do modelo
probabiliacutestico para a Recuperaccedilatildeo de Informaccedilatildeo por Maron e Kuhns que foi mais tarde
definido por Robertson e Jones (1976) A deacutecada de 60 foi fundamental em experimentos
desta natureza ldquoem meados dos anos 60 inicia-se uma longa seacuterie de experimentos que
constitui um marco na Recuperaccedilatildeo de Informaccedilatildeo o projeto SMARTrdquo (FERNEDA 2003
p11) Este autor destaca que este projeto foi desenvolvido por Gerard Salton que se
especializou na pesquisa destas evoluccedilotildees na recuperaccedilatildeo de informaccedilotildees produzindo
inuacutemeros artigos cientiacuteficos um modelo de recuperaccedilatildeo de informaccedilatildeo a criaccedilatildeo e o
aprimoramento de diversas teacutecnicas computacionais aleacutem de o sistema SMART
Estes sistemas de recuperaccedilatildeo de informaccedilatildeo geralmente se baseiam na contagem de
frequumlecircncia das palavras do texto e na eliminaccedilatildeo de palavras reconhecidamente de pouca
relevacircncia (FERNEDA 2003) Um exemplo disso satildeo os meacutetodos automaacuteticos de indexaccedilatildeo
de recuperaccedilatildeo de informaccedilatildeo que utilizam ldquofiltrosrdquo para eliminar palavras de pouca
significaccedilatildeo (stopwords4 e noun groups5) aleacutem de normalizar os termos reduzindo-os a seus
radicais Esse processo eacute conhecido como stemming6
Ferneda evidencia que os trabalhos de Luhn e Salton inicialmente natildeo se
preocupavam com a anaacutelise semacircntica das palavras e que seus estudos colaboraram para com
a evoluccedilatildeo atual das pesquisas
Nos trabalhos de Luhn e Salton observa-se inicialmente uma crenccedila de que meacutetodos puramente estatiacutesticos seriam suficientes para tratar os problemas relacionados agrave recuperaccedilatildeo de informaccedilatildeo Poreacutem no transcorrer de suas pesquisas percebe-se uma busca por meacutetodos de anaacutelise semacircntica mais sofisticada Desde os seus primeiros trabalhos Salton se mostra interessado pela utilizaccedilatildeo de processos de tratamento da linguagem natural na recuperaccedilatildeo de informaccedilatildeo Em livro de 1983 Salton e McGill apresentam em um capiacutetulo intitulado Future directions in Information Retrieval a aplicaccedilatildeo do processamento da linguagem natural e da loacutegica fuzzy na recuperaccedilatildeo de informaccedilatildeo apontando a direccedilatildeo de futuras pesquisas para a Inteligecircncia Artificial (FERNEDA 2003 p 12)
Estas contribuiccedilotildees tecircm suas principais ideacuteias presentes ainda na maioria dos
sistemas de recuperaccedilatildeo atuais e nos mecanismos de busca da Web Como aparece na estrutura
de componentes de um sistema de recuperaccedilatildeo de informaccedilatildeo que seguem geralmente um
modelo de funcionamento como demonstrado por Cardoso (2000)
4 Stop Words eliminaccedilatildeo de artigos e conectivos 5 Noun Groups eliminaccedilatildeo de adjetivos adveacuterbios e verbos 6 Stemming reduccedilatildeo de uma palavra ao seu radical Exemplo Engineering Engineer
18
Figura 1 Componentes de um Sistema de Recuperaccedilatildeo de Informaccedilatildeo Fonte GEY apud CARDOSO 2000
22 Modelos Claacutessicos de Recuperaccedilatildeo de Informaccedilatildeo
221 Modelo Booleano
A aacutelgebra booleana eacute um sistema binaacuterio no qual existem somente dois valores
possiacuteveis para qualquer siacutembolo algeacutebrico ldquoverdadeirordquo ou ldquofalsordquo O modelo booleano eacute um
modelo de recuperaccedilatildeo simples baseado na teoria dos conjuntos e na aacutelgebra booleana Aleacutem
disso as querys satildeo especificadas atraveacutes de expressotildees booleanas que tecircm semacircnticas
precisa
Segundo Baeza-Yates e Ribeiro-Neto (1999) e Gonzalez (2000) a simplicidade e o
formalismo claro do modelo booleano recebiam grande atenccedilatildeo nos anos passados sendo
adotados por muitos sistemas comerciais bibliograacuteficos
A estrateacutegia de recuperaccedilatildeo desse modelo eacute baseada em um criteacuterio de decisatildeo
binaacuteria por exemplo um documento pode ser relevante ou natildeo relevante sem noccedilatildeo de escala
de classificaccedilatildeo que previna um bom desempenho na recuperaccedilatildeo Deste modo o modelo
booleano eacute na verdade muito mais um modelo de recuperaccedilatildeo de dados (em vez de
informaccedilatildeo)
19
Aleacutem disso conforme Baeza-Yates e Ribeiro-Neto (1999) enquanto expressotildees
booleanas tecircm semacircnticas precisas frequumlentemente natildeo eacute simples traduzir uma informaccedilatildeo
precisa dentro de uma expressatildeo booleana O modelo booleano prediz que cada documento eacute
relevante ou irrelevante Natildeo existe noccedilatildeo de um resultado (matching) parcial para as
condiccedilotildees da query
As principais vantagens do modelo booleano satildeo o formalismo claro oculto sobre o
modelo e sua simplicidade As principais desvantagens encontram-se no resultado exato que
pode recuperar poucos ou muitos documentos
Figura 2 Exemplo dos trecircs componentes conjuntivos para query Fonte BAEZA-YATES RIBEIRO-NETO 1999
2211 Operadores Booleanos
Os operadores booleanos funcionam atraveacutes de uma expressatildeo booleana para
formulaccedilatildeo de buscas Isto ocorre por meio de operadores loacutegicos AND OR e NOT (E OU e
NAtildeO) Conforme exemplo de Ferneda (2003) a recuperaccedilatildeo de informaccedilatildeo se daraacute em uma
expressatildeo conjuntiva de enunciado t1 AND t2 que recuperaraacute documentos indexados por
ambos os termos (t1 e t2) Isso equivale e permite aparecer agrave intersecccedilatildeo do conjunto dos
documentos indexados pelo termo t1 com o conjunto dos documentos indexados pelo termo
t2
Figura 3 Representaccedilatildeo do resultado de uma expressatildeo booleana conjuntiva (AND) Fonte FERNEDA 2003
20
O autor demonstra que uma expressatildeo disjuntiva t1 OR t2 recuperaraacute o conjunto dos
documentos indexados pelo termo t1 ou pelo termo t2 Isto equivale e possibilita agrave uniatildeo entre
o conjunto dos documentos indexados pelo termo t1 e o conjunto dos documentos indexados
pelo termo t2 (FERNEDA 2003)
Figura 4 Resultado de uma busca booleana disjuntiva (OR) Fonte FERNEDA 2003
2212 Operadores de Proximidade
No modelo booleano existem os operadores de proximidade que permitem
especificar condiccedilotildees relacionadas agrave distacircncia e agrave posiccedilatildeo dos termos no texto Um operador
de proximidade bastante comum nos sistemas de RI e nos mecanismos de busca da Web eacute o
operador ADJ (FERNEDA 2003) Esse operador permite pesquisar duas palavras adjacentes
no texto de um documento na ordem especificada na expressatildeo de busca por exemplo a
expressatildeo recuperaccedilatildeo ADJ informaccedilatildeo teraacute como resultado os documentos que tiverem a
palavra ldquorecuperaccedilatildeordquo seguida da palavra ldquoinformaccedilatildeordquo ou seja recuperaraacute documentos que
contecircm a expressatildeo ldquorecuperaccedilatildeo informaccedilatildeordquo Tambeacutem pode ser utilizado um termo
composto delimitando as suas palavras com aspas por exemplo ldquorecuperaccedilatildeo de
informaccedilatildeordquo
O modelo booleano de acordo com Ferneda (2003) possui limitaccedilotildees que o torna
pouco atrativo satildeo elas
bull O resultado de uma busca booleana se caracteriza por dois subconjuntos os que
atendem agrave expressatildeo de busca e aqueles que natildeo atendem Presume-se que todos
os documentos recuperados satildeo de igual utilidade para o usuaacuterio Natildeo haacute nenhum
mecanismo pelos quais os documentos possam ser ordenados
bull O usuaacuterio leigo se natildeo tiver um treinamento apropriado formularaacute somente
buscas simples Para buscas com expressotildees mais complexas eacute necessaacuterio um
conhecimento da loacutegica booleana
21
bull Natildeo existe uma forma de atribuir importacircncia relativa aos diferentes termos da
expressatildeo booleana Assume-se implicitamente que todos os termos tecircm o mesmo
peso
222 Modelo Vetorial
O modelo vetorial segundo Baeza-Yates e Ribeiro-Neto (1999) reconhece que o uso
de pesos binaacuterios eacute tambeacutem limitante e propotildee uma estrutura em que eacute possiacutevel a resposta
(matching) parcial Isto eacute feito atribuindo-se pesos natildeo binaacuterios aos termos indexados em
querys e em documentos Esses pesos de termos satildeo enfim utilizados para calcular o grau de
similaridade entre cada documento armazenado no sistema e a expressatildeo de busca formulada
pelo usuaacuterio (querys) Como a classificaccedilatildeo dos documentos recuperados eacute feita em ordem
decrescente desse grau de similaridade o modelo vetorial leva em consideraccedilatildeo documentos
que se igualem aos termos de querys somente parcialmente
O modelo vetorial de acordo com Cardoso (2000) e Gonzalez (2000) representa
documentos e consultas como vetores de termos Os termos satildeo ocorrecircncias uacutenicas nos
documentos Os documentos retornados como resultado para uma consulta satildeo representados
similarmente isto quer dizer que o vetor resultado para uma consulta eacute montado atraveacutes de um
caacutelculo de similaridade Aos termos das consultas e dos documentos satildeo atribuiacutedos pesos que
especificam o tamanho e a direccedilatildeo de seu vetor de representaccedilatildeo O acircngulo formado por esses
vetores determina a proximidade da ocorrecircncia E o caacutelculo da similaridade eacute baseado no
acircngulo entre os vetores que representam o documento e a consulta
Cardoso (2000) descreve ainda que os pesos quantificam a relevacircncia de cada termo
para as consultas (Wiq) e para os documentos (Wid) no espaccedilo vetorial Segundo Cardoso
(2000 p 03) ldquopara o caacutelculo dos pesos Wiq e Wid utiliza-se uma teacutecnica que faz o
balanceamento entre as caracteriacutesticas do documento utilizando o conceito de frequumlecircncia de
um termo num documentordquo Desta forma se uma coleccedilatildeo possui N documentos e teremos o nti
que eacute a quantidade de documentos que possuem o termo ti com isto o inverso da frequumlecircncia
do termo na coleccedilatildeo ou idf (inverse documento frequency) eacute dado pela foacutermula de Cardoso
(2000) abaixo
idfi = log (Nni)
22
Esse valor eacute possiacutevel usando a foacutermula para calcular o peso Wid = freq(tid) x idfi
que eacute o produto da frequumlecircncia do termo no documento pelo inverso da frequumlecircncia do termo na
coleccedilatildeo
No modelo vetorial um documento eacute representado por um vetor em que cada
elemento representa o peso ou a relevacircncia do respectivo termo de indexaccedilatildeo para o
documento Cada elemento do vetor (peso) eacute normalizado de forma a assumir valores entre
zero e um Os pesos mais proacuteximos de um (1) indicam termos com maior importacircncia para a
descriccedilatildeo do documento E termos que natildeo estatildeo presentes em um determinado documento
possuem peso igual a zero
Da mesma forma que os documentos no modelo vetorial uma expressatildeo de busca
conforme Baeza-Yates e Ribeiro-Neto (1999) tambeacutem eacute representada por um vetor numeacuterico
em que cada elemento representa a importacircncia (peso) do respectivo termo na expressatildeo de
busca
Diversos documentos e termos de indexaccedilatildeo podem ser representados atraveacutes de uma
matriz na qual cada linha representa um documento e cada coluna representa a associaccedilatildeo de
um determinado termo aos vaacuterios documentos
Figura 5 O co-seno do acircngulo adaptado como similar (dj q) Fonte BAEZA-YATES RIBEIRO-NETO 1999
Um exemplo de uso do modelo vetorial eacute o sistema SMART7 citado anteriormente
este sistema representa por valor numeacuterico cada documento e seu respectivo termo na
descriccedilatildeo do documento Segundo Ferneda (2003) o sistema SMART fornece um meacutetodo
automaacutetico que trata aleacutem do caacutelculo dos pesos dos vetores que representam os documentos
tambeacutem trata os vetores das expressotildees de busca
As principais vantagens do modelo vetorial segundo Baeza-Yates e Ribeiro-Neto
(1999) satildeo (1) esquema de pesos de termos melhora o desempenho da recuperaccedilatildeo (2)
estrateacutegias de resposta (matching) parcial permitem a recuperaccedilatildeo de documentos que se
aproximem de condiccedilotildees de query e (3) foacutermula de classificaccedilatildeo do co-seno ordena os
documentos de acordo com o grau de similaridade da query A desvantagem desse modelo de
23
acordo com os autores diz respeito agraves dependecircncias de termos prejudicando especialmente o
desempenho
Cardoso (2000) considera como principais vantagens do modelo vetorial a sua
simplicidade a facilidade de se computarem similaridades com eficiecircncia e o fato de que se
comporta bem com coleccedilotildees geneacutericas
223 Modelo Probabiliacutestico
O modelo probabiliacutestico foi introduzido de acordo com Baeza-Yates e Ribeiro-Neto
(1999) em 1976 por Roberston e Sparck Jones que mais tarde tornou-se como o modelo
Binary Independence Retrieval (BIR)
Na Matemaacutetica a teoria das probabilidades estuda os experimentos aleatoacuterios que
conforme Ferneda (2003 p 35) repetidos em condiccedilotildees idecircnticas podem apresentar resultados diferentes e imprevisiacuteveis Isso ocorre por exemplo quando se observa a face superior de um dado apoacutes o seu lanccedilamento ou quando se verifica o naipe de uma carta retirada de um baralho Por apresentarem resultados imprevisiacuteveis eacute possiacutevel apenas estimar a possibilidade ou a chance de um determinado evento ocorrer Para descrever matematicamente um experimento aleatoacuterio eacute necessaacuterio inicialmente identificar o conjunto de todos os seus possiacuteveis resultados A este conjunto daacute-se o nome de espaccedilo amostral
Entendendo-se uma busca como um experimento aleatoacuterio segundo Robertson e
Jones eacute possiacutevel descrever o seu espaccedilo amostral como composto de quatro possibilidades
pois dada uma expressatildeo de busca pode-se dividir a base de documentos em quatro
subconjuntos distintos o conjunto dos documentos relevantes (Rel) o conjunto dos
documentos recuperados (Rec) o conjunto dos documentos relevantes e recuperados (RR) e o
conjunto dos documentos natildeo relevantes e natildeo recuperados O conjunto dos documentos
relevantes e recuperados (RR) eacute resultante da intersecccedilatildeo dos conjuntos Rel e Rec
(FERNEDA 2003)
O conjunto de documentos resultantes da primeira busca eacute ordenado atraveacutes de uma
forma de ordenaccedilatildeo padratildeo tradicional Tendo esse conjunto de documentos o usuaacuterio
seleciona alguns deles que considera relevantes para a sua necessidade O sistema utiliza essa
informaccedilatildeo para tentar melhorar os resultados subsequumlentes
A principal virtude do modelo probabiliacutestico estaacute em reconhecer que a atribuiccedilatildeo de
relevacircncia eacute uma tarefa do usuaacuterio Eacute o uacutenico modelo que segundo Baeza-Yates e Ribeiro-
7 SMART (Sistem for the Manipulation and Retrieval of Text)
24
Neto (1999) e Gonzalez (2000) incorpora explicitamente o processo de Relevance Feedback
como base para a sua operacionalizaccedilatildeo
Uma simplificaccedilatildeo bastante questionaacutevel estaacute no fato de o modelo considerar os
pesos dos termos de indexaccedilatildeo como sendo binaacuterios ou seja no modelo probabiliacutestico natildeo eacute
considerada a frequumlecircncia com que os termos ocorrem no texto dos documentos
Em geral os modelos de RI desconsideram o contexto das palavras informadas pelo
usuaacuterio por isso tendem a retornar poucos documentos relevantes em uma consulta Para isso
pretende-se mostrar no capiacutetulo seguinte com a ajuda da Linguumliacutestica possiacuteveis abordagens
que podem apoiar o usuaacuterio considerando o seu contexto de busca e listando documentos
relevantes
25
3 FUNDAMENTACcedilAtildeO TEacuteORICA
Neste capiacutetulo buscou-se apresentar uma siacutentese dos trabalhos que datildeo base ao
modelo apresentado nesta dissertaccedilatildeo Satildeo eles a Proposta de Kuramoto a Teoria do Leacutexico
Gerativo e o Modelo de Gonzalez A Proposta de Kuramoto baseia-se em uma hierarquizaccedilatildeo
em niacuteveis de Sintagmas Nominais Na Teoria do Leacutexico Gerativo de Pustejovsky mostram-se
as estruturas compostas e deu-se destaque agrave Estrutura de Qualia julgada mais adequada para a
aplicaccedilatildeo no trabalho proposto Analisou-se o estudo de Abrahatildeo a partir de Pustejovsky A
terceira teoria de Gonzalez apresenta uma proposta automatizada com o modelo TR+
31 A Proposta de Kuramoto
Neste capiacutetulo apresentam-se os conceitos e as caracteriacutesticas da proposta de
Kuramoto que se baseia na determinaccedilatildeo de Sintagmas Nominais (SN) de uma query A sua
proposta preocupa-se em buscar os SN uma vez que satildeo considerados como importante
elemento de uma frase sendo entendidos como o nuacutecleo significativo (cerne) de uma oraccedilatildeo
Em sua tese de doutorado Kuramoto relata que todo o trabalho de reconhecimento e
extraccedilatildeo de SN dos documentos foi realizado de forma natildeo automatizada Isto auxiliou na
elaboraccedilatildeo de um modelo para reconhecimento extraccedilatildeo e indexaccedilatildeo de SN inseridos na
amostra do protoacutetipo desenvolvido
O modelo proposto por Kuramoto refere-se ao aproveitamento dos SN organizado
hierarquicamente em ldquoaacutervoresrdquo criando um novo conceito de indexaccedilatildeo que pode introduzir
inovaccedilatildeo em termos de uma interface de busca
Esse modelo de interface de acordo com Kuramoto (2002) permitiria que o usuaacuterio
navegasse no conjunto de SN ateacute encontrar o que melhor atendesse agrave sua necessidade de
informaccedilatildeo Somente apoacutes esse procedimento o usuaacuterio teria entatildeo acesso aos documentos de
onde foram extraiacutedos os SN Tal processo proporcionaria ao usuaacuterio um maior conhecimento
sobre a base de dados que estaacute sendo consultada uma vez que lhe permitiria reconhecer a
estrutura de sintagmas nominais presentes nos documentos pertencentes ao sistema
Os processos de indexaccedilatildeo automaacutetica utilizados em modelos de RI segundo Michel
Le Guern (1984 apud KURAMOTO 1995) deveriam extrair dos documentos informaccedilotildees
26
que facilitassem a recuperaccedilatildeo para o usuaacuterio e natildeo siacutembolos sem referecircncia como considera
que satildeo as palavras
Para Silva e Koch (1993) toda frase de uma liacutengua constitui uma organizaccedilatildeo ou
seja uma combinaccedilatildeo de elementos linguumliacutesticos agrupados conforme certos princiacutepios que a
caracterizam como uma estrutura Para Baeza-Yates e Ribeiro-Neto (1999) grande parte da
semacircntica do documento ou da requisiccedilatildeo do usuaacuterio eacute perdida quando se substitui o texto
completo por um conjunto de palavras
Aparentemente um conjunto de frases de nossa liacutengua de acordo com Silva e Koch
(1993) tem pouco em comum variando quanto agrave extensatildeo ao sentido agraves palavras de que se
compotildeem e agrave ordem em que essas se apresentam Apesar da aparente diversidade as frases
possuem uma organizaccedilatildeo interna que segue princiacutepios gerais bem definidos de modo que o
falante seraacute capaz de dizer se uma sequumlecircncia de palavras a) se estaacute de acordo com o sistema
gramatical da liacutengua b) se se apresenta completa ou incompleta c) se eacute passiacutevel de
interpretaccedilatildeo semacircntica
Conforme Silva e Koch (apud ABREU et al 2004 p03) ldquoo sintagma consiste num
conjunto de elementos que constituem uma unidade significativa dentro da oraccedilatildeo e que
mantecircm entre si relaccedilotildees de dependecircncia e de ordemrdquo As palavras se combinam em conjuntos
em torno de um nuacutecleo Esses conjuntos os sintagmas desempenham uma funccedilatildeo no conjunto
maior que eacute a frase Para Liberato (apud PARREIRAS 2003) o SN eacute a parte do enunciado
que representa um conceito ou referente
Assim por exemplo nos conjuntos de sintagmas ndash David o estudante a menina
doente e minha filha ndash o nuacutecleo eacute um elemento nominal (nome ou pronome) tratando-se
portanto de sintagmas nominais Nos conjuntos ndash viajou de carro dormiu e levaraacute a
encomenda ndash o elemento fundamental eacute o verbo de modo que se tecircm nesses casos sintagmas
verbais
A natureza do sintagma depende portanto do tipo de elemento que constitui o seu
nuacutecleo aleacutem do sintagma nominal (SN) e do sintagma verbal (SV) existem os sintagmas
adjetivais (SA) que tecircm por nuacutecleo um adjetivo e os sintagmas preposicionais (SP) formados
normalmente de preposiccedilatildeo mais sintagma nominal (SILVA KOCH 1993)
Na estrutura da oraccedilatildeo em sua forma de base aparecem como constituintes
obrigatoacuterios o SN e o SV Por exemplo Os garotos (SN) empinavam papagaios de papel
(SV) Pode-se dizer que as regras baacutesicas de estrutura frasal satildeo as seguintes O = SN + SV
(SP) (o elemento O significa Oraccedilatildeo)
27
311 Extraccedilatildeo dos Sintagmas Nominais
O trabalho de Kuramoto compreendeu o desenvolvimento de um protoacutetipo de
interface de busca utilizando os sintagmas nominais como forma de acesso agrave informaccedilatildeo Para
testar esse protoacutetipo foram examinados e extraiacutedos segundo Kuramoto (2002) cerca de 8800
sintagmas nominais de uma amostra de 15 artigos selecionados aleatoriamente da revista
Ciecircncia da Informaccedilatildeo
Kuramoto (1995 p 6) relata que a extraccedilatildeo dos sintagmas nominais foi realizada de forma manual simulando uma extraccedilatildeo automaacutetica Este procedimento foi adotado em funccedilatildeo da natildeo-existecircncia ainda de um sistema de extraccedilatildeo automaacutetica de SN em acervos contendo documentos em Liacutengua Portuguesa
Como os SN nem sempre se apresentam de forma clara Kuramoto aponta a
ocorrecircncia normal em todo texto em linguagem natural de anaacuteforas8 e de elipses9 que
dificultou a identificaccedilatildeo dos SN Essas dificuldades segundo Kuramoto (1995) aumentam
em um processo automatizado Algumas das dificuldades encontradas por Kuramoto no
procedimento de extraccedilatildeo dos SN satildeo descritas a seguir
a) SN escondidos em frases com fatoraccedilatildeo
Para Kuramoto (1995 p 06) as ldquofrases com fatoraccedilatildeo satildeo aquelas que contecircm uma
sequumlecircncia de palavras que precedem um outro conjunto de palavras coordenadas pelas
conjunccedilotildees eou por exemplo o processo de negociaccedilatildeo dos setores privado e puacuteblicordquo
Percebe-se nesse exemplo que o SN de niacutevel 1 compreende tanto os setores privado
e puacuteblico visto que a referecircncia dos dois adjetivos estaacute contida na palavra em plural ldquosetoresrdquo
Existem outros exemplos de frases com fatoraccedilatildeo nas quais as palavras coordenadas aparecem
entre parecircnteses significando um complemento combinatoacuterio do termo ou da frase que
precede o parecircntese por exemplo profundas transformaccedilotildees (poliacuteticas econocircmicas
sociais tecnoloacutegicas)
b) Artigo Zero
8 Em Linguumliacutestica segundo Ducrot e Todorov (1972 apud KURAMOTO 1995) um segmento do discurso eacute dito anafoacuterico quando para interpretaacute-lo (inclusive do ponto de vista literaacuterio) for necessaacuterio se reportar a um outro segmento do mesmo discurso 9 A figura de sintaxe ldquoelipserdquo eacute definida por Cunha e Cintra (1991 apud KURAMOTO 1995) como sendo a omissatildeo de um termo que o contexto ou a situaccedilatildeo permitem facilmente suprimir
28
Um outro fator de dificuldade na extraccedilatildeo dos SN eacute a frequumlente ausecircncia de
determinantes10 na liacutengua portuguesa diferente da liacutengua francesa na qual satildeo raros os SN
com ausecircncia de um determinante Motivo pelos quais algumas regras estabelecidas para a
liacutengua francesa natildeo foram utilizadas De acordo com Kuramoto (1995 p 7) ldquono
procedimento de extraccedilatildeo dos SN constatou-se que 2889 dos SN natildeo eram precedidos de
qualquer determinante Em uma amostra de 6010 SN 1736 SN natildeo satildeo precedidos por
nenhum determinanterdquo Estes nuacutemeros demonstram que o modelo necessaacuterio deve considerar
este fator
c) Caacutelculo das anaacuteforas
Quando uma entidade eacute referenciada pela primeira vez em um texto segundo
Gasperin Goulart e Vieira (2003) a expressatildeo que a descreve eacute dita nova no discurso
Quando tal entidade eacute retomada no texto a expressatildeo que a descreve eacute dita anafoacuterica sendo
considerado o seu antecedente a expressatildeo anterior correferente
Para Kuramoto (1995 p 7-8) ldquoos elementos anafoacutericos em portuguecircs aparecem
frequumlentemente mediante partiacuteculas como os pronomesrdquo No entanto na proposta do autor
natildeo foi possiacutevel resolver dois casos de anaacuteforas
Um primeiro caso de anaacutefora ocorre nas palavras sem fonte expliacutecita no texto tais
como ldquonesse sentidordquo (em que sentido) ldquonossa experiecircnciardquo (de quem do autor dos
teacutecnicos de informaccedilatildeo) etc Como a interpretaccedilatildeo das ideacuteias estaacute contida no documento natildeo
fica evidente a soluccedilatildeo desse tipo de anaacutefora
O segundo caso eacute constituiacutedo de termos cujas fontes se encontram como por exemplo
na histoacuteria dos acontecimentos como ldquoesse periacuteodo preacute-industrial esse sistema de
comunicaccedilatildeordquo etc Por este motivo os SN foram extraiacutedos da mesma forma como se
encontravam no texto
d) Caacutelculo das elipses
Outra questatildeo que necessita um entendimento do contexto de uma frase eacute o problema
ligado a este tipo de figura de sintaxe Visto que depende da capacidade de percepccedilatildeo da falta
de alguma palavra no contexto de uma frase Segundo Kuramoto (1995) eacute preciso para
identificaacute-la analisar natildeo somente as frases precedentes mas tambeacutem as frases seguintes
Como neste exemplo ldquouma visatildeo de longo prazo que assegure natildeo soacute a sobrevivecircncia ()
10 Segundo Silva e Koch (1993) o determinante quando simples eacute representado por um artigo numeral ou pronome adjetivo
29
como tambeacutem o crescimento da organizaccedilatildeordquo Que promove o questionamento de ldquoqual o
complemento do termo lsquosobrevivecircnciarsquo lsquoSobrevivecircnciarsquo de quemrdquo A soluccedilatildeo encontrada
poderia estar na frase seguinte ldquoo crescimento da organizaccedilatildeordquo
Para promover a extraccedilatildeo completa da frase o SN seria ldquouma visatildeo de longo prazo
que assegure natildeo soacute a sobrevivecircncia da organizaccedilatildeo como tambeacutem o crescimento da
organizaccedilatildeordquo
3111 Extraccedilatildeo Automaacutetica de Sintagmas Nominais
A extraccedilatildeo automaacutetica de SN eacute considerada importante para a aacuterea de RI pois
segundo Chishman et al (2000) agiliza este processo e gera um percentual baixo de erros Jaacute
foi desenvolvido um extrator automaacutetico de sintagmas nominais para a liacutengua portuguesa no
acircmbito do projeto VISL chamado ldquoPalavrasrdquo11 que vem sendo usado pelo grupo de pesquisa
da UNISINOS
Segundo Abreu Goulart e Vieira (2004) para obter a anaacutelise das sentenccedilas dos
textos utiliza-se o analisador sintaacutetico ldquoPalavrasrdquo que eacute considerada uma ferramenta robusta
para a anaacutelise sintaacutetica do portuguecircs
A partir da saiacuteda do analisador sintaacutetico segundo Gasperin Goulart e Vieira (2003)
a ferramenta ldquoXtractorrdquo gera trecircs arquivos XML O primeiro eacute o arquivo de palavras o
segundo inclui as categorias morfossintaacuteticas e o terceiro eacute o arquivo com as estruturas
sintaacuteticas das sentenccedilas
Assim apoacutes todo esse processo eacute possiacutevel extrair de modo automaacutetico os sintagmas
nominais das sentenccedilas de um texto ressaltando-se que estes natildeo estatildeo ainda organizados
segundo a estrutura de niacuteveis que propotildee Kuramoto
312 A determinaccedilatildeo de uma estrutura para os SN
A essecircncia da proposta de Kuramoto (1995) reside na percepccedilatildeo que o autor teve de
que os SN organizam-se naturalmente numa estrutura de niacuteveis encadeados Kuramoto
percebeu nessa organizaccedilatildeo em niacuteveis um caminho para propiciar ao usuaacuterio mais facilidade
11 O analisador Palavras faz parte de um grupo de analisadores sintaacuteticos (softwares) do projeto VISL - Visual Interactive Sintax Learning do Institute of Language and Communication da University of Southern Denmark Disponiacutevel em lthttpvislsdudkvislptparsingautomaticgt (ABREU GOULART VIEIRA 2004)
30
no uso de um SRI levando tambeacutem a resultados mais precisos Para compreender a estrutura
proposta pelo autor apresenta-se a seguir o exemplo usado pelo proacuteprio Kuramoto
As Caracteriacutesticas do Meio Ambiente do Mundo dos Negoacutecios SN1 os negoacutecios SN2 o mundo dos negoacutecios SN3 o meio ambiente do mundo dos negoacutecios SN4 as caracteriacutesticas do meio ambiente do mundo dos negoacutecios
Figura 6 Exemplo da estrutura de niacuteveis de Sintagmas Nominais Fonte KURAMOTO 1995
Esse exemplo mostra o potencial da estrutura de relaccedilotildees de encadeamento de um
conjunto de SN Para o autor a anaacutelise do sintagma nominal no exemplo permitiu a extraccedilatildeo do SN ndash o meio ambiente do mundo dos negoacutecios A partir desse SN pode-se visualizar um outro SN embutido ndash o mundo dos negoacutecios ndash que por sua vez possui um quarto SN ndash os negoacutecios ndash que representa o niacutevel mais inferior12 Percebe-se nesse exemplo a existecircncia de quatro SN encadeados que enumerados em ordem crescente (do SN mais simples ao mais complexo) levam agrave classificaccedilatildeo do SN original como sendo de niacutevel 4 (KURAMOTO 1995 p04)
Com base nessas caracteriacutesticas apresentadas por Kuramoto (1995) os SN podem ser
organizados sob uma estrutura de aacutervore Esta estrutura possibilita que o Sistema de
Recuperaccedilatildeo de Informaccedilatildeo (SRI) possa atender agraves necessidades de consultas do usuaacuterio
Para atender esta demanda eacute preciso fornecer um centro de SN de seu interesse (como o
exemplo do autor ldquonegoacuteciosrdquo)
Para isso apresentam-se todos os SN1 relativos a essa busca inclusive o SN ldquoos
negoacuteciosrdquo A partir da lista encontrada de SN1 o usuaacuterio poderaacute restringir o seu perfil de
busca escolhendo um SN1 por exemplo ldquoos negoacuteciosrdquo e solicitar os SN2 relacionados a esse
SN1 O SRI apresenta todos os SN2 inclusive o SN ldquoo mundo dos negoacuteciosrdquo e assim
sucessivamente (KURAMOTO 1995)
Este autor afirma que esta passagem por vaacuterios niacuteveis promove um refinamento no
processo O processo de refinamento eacute realizado por meio da passagem pelos vaacuterios niacuteveis de uma estrutura arborescente de SN13 dado que o SN vai se tornando mais especiacutefico
12 Segundo Kuramoto (1995) os sintagmas nominais agrave medida que satildeo extraiacutedos de um outro SN satildeo classificados por niacuteveis Assim o sintagma mais simples eacute denominado SN de niacutevel 1 Constitui SN de niacutevel 2 aquele a partir do qual foi extraiacutedo o de niacutevel 1 e assim sucessivamente 13 Constatou-se empiricamente utilizando a maquete desenvolvida nesta experimentaccedilatildeo de acordo com Kuramoto (1995) que a quantidade de SN de segundo niacutevel em relaccedilatildeo a um dado SN de primeiro niacutevel pode ser maior que o total de SN de primeiro niacutevel Por exemplo a resposta agrave demanda do centro de SN ldquoinformaccedilatildeordquo foi de 122 SN de primeiro niacutevel e a resposta agrave demanda do SN de primeiro niacutevel ldquoa informaccedilatildeordquo foi de 172 SN de segundo niacutevel Por outro lado verificou-se que
31
agrave medida que se atingem os niacuteveis mais elevados da estrutura Ao percorrecirc-la o usuaacuterio estaacute na realidade delimitando ou melhor qualificando a sua necessidade de informaccedilatildeo Cabe portanto ao usuaacuterio identificar o niacutevel em que as suas necessidades de informaccedilatildeo seratildeo atendidas (KURAMOTO 1995 p 04-05)
Esta possibilidade de hierarquia permite uma interaccedilatildeo entre o usuaacuterio e maacutequina e
uma escolha individual de refinamento
313 Protoacutetipo Desenho da Interface de Busca
A Figura 7 descreve de maneira esquemaacutetica a interaccedilatildeo entre o usuaacuterio e o protoacutetipo
de Kuramoto (1995)
O protoacutetipo viabiliza a primeira interaccedilatildeo pois haacute uma tela em que permite ao
usuaacuterio fazer a sua solicitaccedilatildeo de informaccedilatildeo fornecendo uma palavra (centro de SN1) A
partir dessa palavra surgem outras interaccedilotildees como mostra o esquema de Kuramoto (1995) na
Figura 7 que ocorrem nas accedilotildees abaixo
Figura 7 Procedimentos de interaccedilatildeo usuaacuteriominusprotoacutetipo Fonte KURAMOTO 1995
o SN ldquoa informaccedilatildeordquo indexava 15 documentos na base enquanto o SN de segundo niacutevel ldquoa anaacutelise da informaccedilatildeordquo indexava apenas 1 (um) documento Confirma-se nesse exemplo que a passagem de um dado niacutevel a um superior na aacutervore de SN proporciona maior refinamento no processo de seleccedilatildeo dos documentos
32
314 Organizaccedilatildeo dos Sintagmas Nominais como Estrutura de Busca
Na proposta de Kuramoto (1995) foram desenvolvidas as seguintes estruturas de busca
Figura 8 Estrutura de dados para acessar os Sintagmas Nominais de primeiro niacutevel a partir de uma palavra Fonte KURAMOTO 1995
Kuramoto (1995) mostra na Figura 8 a associaccedilatildeo das tabelas Palavras CS-SN1 e
SN1 Cada dado tem nomes dos elementos que estatildeo sublinhados e representam as chaves de
cada tabela Na tabela Palavras observa-se que o autor agrupa todas as palavras (centro) que
representam os centros de SN1 Haacute uma atribuiccedilatildeo de coacutedigo para cada ldquocentrordquo chamado
ldquocoacutedigo crdquo A tabela CS-SN1 eacute uma tabela de associaccedilatildeo dos coacutedigos dos centros de SN1 com
os coacutedigos dos SN1 Essa figura mostra que para cada centro de SN1 existem vaacuterios SN1 A indicaccedilatildeo na seta da associaccedilatildeo da tabela Palavras com a tabela CS-SN1 define que na tabela Palavras podem existir M ocorrecircncias de um coacutedigo de centro de SN1 O mesmo pode ocorrer na tabela CS-SN1 em que esse coacutedigo pode verificar-se N vezes Essa indicaccedilatildeo traduz a ideacuteia de que para cada SN1 pode existir mais de um centro de SN1 Isto se explica pela existecircncia no contexto de um SN de palavras que satildeo tatildeo importantes quanto o centro de sintagma (KURAMOTO 1995 p 11)
Observa-se o exemplo ldquoo sistema de informaccedilatildeordquo Nesse o autor define o SN1 de
ldquosistemardquo Todavia esta natildeo eacute a uacutenica palavra fundamental pois a palavra ldquoinformaccedilatildeordquo tem
tanta importacircncia quanto o proacuteprio centro de sintagma (sistema)
Kuramoto (1995 p 11) mostra ainda que existe associaccedilatildeo entre o centro de SN1 e a
vaacuterios SN de niacutevel 1 Cada centro de SN1 pode estar associado a mais de um SN1 Essa indicaccedilatildeo eacute dada pela seta que associa a tabela SN1 agrave tabela CS-SN1 onde o nuacutemero 1 significa que na tabela SN1 existe uma soacute ocorrecircncia de um determinado coacutedigo de SN1 enquanto na tabela CS-SN1 existem M ocorrecircncias desse coacutedigo
Outro elemento de dados importante na tabela SN1 eacute chamado ldquonuacutemerordquo que
segundo Kuramoto (1995 p 11-12) ldquoindica a quantidade de artigos de onde um determinado
33
SN1 foi extraiacutedordquo O nuacutemero de referecircncias de onde o SN foi extraiacutedo aparece para cada
apresentaccedilatildeo de SN1 relacionado com um centro de SN1 escolhido pelo usuaacuterio
Kuramoto (1995) ilustra numa outra figura (Figura 9) a estrutura de dados construiacuteda
para a busca dos SN2 a partir de um SN1 selecionado pelo usuaacuterio
Figura 9 Estrutura de dados para acessar os Sintagmas Nominais de segundo niacutevel a partir de Sintagmas Nominais de primeiro niacutevel Fonte KURAMOTO 1995
Nessa ilustraccedilatildeo observa-se que se manteacutem a estrutura da Figura 8 em uma
associaccedilatildeo de tabelas que busca facilitar a busca dos SN2 a partir de um SN1 escolhido pelo
usuaacuterio Segundo Kuramoto (1995 p 12) ldquopercebe-se analogamente que um dado SN1 pode
estar associado a vaacuterios SN2 e vice-versa Isto traduz a ideacuteia de que um SN2 pode ter
embutido mais de um SN1 Essa estrutura atende agraves caracteriacutesticas dos SN listados no iniacutecio
desta seccedilatildeordquo
A busca de informaccedilotildees se manteacutem na mesma estrutura para os SN de niacutevel 3 e 4 que
satildeo semelhantes agraves Figuras acima (SN1 e SN2) com diferenccedila apenas no nome de cada
elemento que eacute correspondente ao nuacutemero dos SN
O acesso aos documentos estaacute representado na Figura 10 que exemplifica uma
escolha no SN1
Figura 10 Estrutura de dados para o acesso aos tiacutetulos e textos dos artigos Fonte KURAMOTO 1995
34
Essa estrutura foi desenvolvida para que o protoacutetipo atenda a uma demanda do
usuaacuterio viabilizando a visualizaccedilatildeo de todos os tiacutetulos e textos de documentos de onde um
SN1 foi extraiacutedo Haacute outras associaccedilotildees semelhantes a essas da Figura 17 que servem para o
acessar os documentos a partir de SN de qualquer um dos quatro niacuteveis previstos no protoacutetipo
Kuramoto (1995 p 12-13) ressalta ainda as accedilotildees do coacutedigo numeacuterico Eacute importante observar que todas as tabelas contendo os SN nos seus vaacuterios niacuteveis tecircm como chave de acesso um coacutedigo numeacuterico uacutenico de SN Para tanto construiu-se uma tabela contendo os SN onde estes satildeo identificados por meio de um coacutedigo numeacuterico Natildeo existe nenhum impedimento teacutecnico por parte do sistema Access quanto ao uso do proacuteprio texto dos SN como chave de acesso agraves informaccedilotildees Deve-se ressaltar que apesar da lentidatildeo que este tipo de chave de acesso provoca as estruturas de dados seriam mais simples e faacuteceis de manusear Contudo optou-se pela utilizaccedilatildeo das chaves numeacutericas identificando cada SN com o intuito de obter maior velocidade de acesso aos SN e agraves informaccedilotildees
Finalizando esta apresentaccedilatildeo do modelo de Kuramoto cabe destacar que a utilizaccedilatildeo
da aacutervore de SN por niacuteveis permite uma visualizaccedilatildeo mais faacutecil do conteuacutedo da base de dados
e manteacutem o que haacute de mais significativo nos documentos sua semacircntica
As estruturas de Qualia e de Heranccedila Lexical do Leacutexico Gerativo de Pustejovsky a
serem apresentadas na proacutexima seccedilatildeo permitem tambeacutem da mesma forma considerar a
semacircntica dos itens lexicais atraveacutes da criaccedilatildeo de uma malharede de relaccedilotildees de palavras e
seus significados atraveacutes dos papeacuteis que compotildeem a EQ
32 A Teoria do Leacutexico Gerativo de Pustejovsky
Pustejovsky defende a ideacuteia de que assim como a gramaacutetica tem uma estrutura
(sintaxe) a semacircntica (significado) tambeacutem tem uma estrutura baacutesica Na estrutura baacutesica da
sintaxe das liacutenguas em geral segundo Souza e Silva (1993) as oraccedilotildees satildeo compostas de
Sintagma Nominal (SN) mais Sintagma Verbal (SV) basicamente Na busca da estrutura
semacircntica Pustejovsky (1991) delineia a teoria do Leacutexico Gerativo (LG) como uma
abordagem na aacuterea da semacircntica lexical que pretende dar conta da criatividade semacircntica do
uso das palavras em contexto
Segundo Rossi (2003) Ullmann concorda com essa dificuldade do uso das palavras
em contexto quando declara que ldquonatildeo satildeo raros os casos em que ocorre uma polivalecircncia das
palavras acarretando por consequumlecircncia fenocircmenos semacircnticos inerentes agraves liacutenguas naturais
entre eles a ambiguumlidade lexicalrdquo Essa ambiguumlidade eacute provocada em decorrecircncia de fatores
35
lexicais denominados de polissemia e de homoniacutemia ou na terminologia de Weinreich
conforme Rossi (2003) de ambiguumlidade complementar e ambiguumlidade contrastiva
respectivamente
No primeiro caso trata-se da polissemia que de um modo geral conforme Moura
(2001) ldquoeacute definida como um fenocircmeno que permite associar a um mesmo item lexical mais
de um sentido os quais mantecircm alguma relaccedilatildeo semacircntica entre sirdquo Assim a palavra ldquolivrordquo
por exemplo eacute polissecircmica pois expressa ao menos dois sentidos diferentes que possuem
entre si algum tipo de laccedilo semacircntico (a) objeto fiacutesico e (b) informaccedilatildeo
Jaacute no segundo caso o da ambiguumlidade contrastiva trata-se de homoniacutemia definida
por Pustejovsky como a situaccedilatildeo na qual um item lexical eacute associado com ao menos dois
sentidos diferentes e sem relaccedilatildeo entre si Desse modo a palavra ldquomangardquo por exemplo eacute
uma palavra homocircnima pois natildeo haacute nenhuma relaccedilatildeo semacircntica evidente entre os sentidos de
ldquofrutardquo e ldquoparte da blusardquo
Segundo Rossi (2003 p 14) Ullmann salienta que ldquoeacute difiacutecil em casos particulares
determinar onde termina a polissemia e onde comeccedila a homoniacutemia uma vez que natildeo eacute faacutecil e
nem sempre possiacutevel medir intuitivamente o grau de proximidade dos significadosrdquo
A polissemia loacutegica eacute denominada por Pustejovsky (1991) para restringir a
ambiguumlidade complementar abordada anteriormente nos casos em que ocorre uma relaccedilatildeo
loacutegica portanto previsiacutevel entre os sentidos de uma palavra polissecircmica Havendo mais de um
sentido eacute importante ressaltar que pode existir sobreposiccedilatildeo desses sentidos em um mesmo
contexto
Aleacutem de ter sido tratada como polissemia loacutegica por Pustejovsky segundo Rossi
(2003) desde Weinreich esse fenocircmeno da complementaridade dos sentidos tem sido
abordado como polissemia regular e polissemia sistemaacutetica
A teoria do Leacutexico Gerativo (LG) de Pustejovsky aponta o problema da
multiplicidade de significados das palavras e enfatiza um tratamento relacionado ao problema
da polissemia das palavras Segundo Neto (2003) nessa perspectiva Pustejovsky desenvolveu
o LG que eacute um modelo de processamento de liacutengua natural que trata da explicaccedilatildeo semacircntica
de itens lexicais tanto isolados quanto em contexto
Assim como a gramaacutetica caracteriza o comportamento sintaacutetico especiacutefico de uma
certa categoria de palavras Pustejovsky propotildee uma teoria gerativa do significado da palavra
E ainda pretende mostrar que seu modelo segundo Rossi (2003 p 47) ldquoeacute contraacuterio a
36
estaticidade presente em duas concepccedilotildees semacircnticas teoacutericas das deacutecadas de 60 e 70 as
baseadas em redes conexionistas e as baseadas em primitivos fixos14rdquo
Rossi (2003 p 47) afirma que a teoria de redes conexionistas organiza a semacircntica
das palavras atraveacutes de relaccedilotildees e elos para esta autora isso ldquodificulta a representaccedilatildeo de
sentidos que exibem polissemia regular haja vista a distacircncia na rede entre os sentidos que
mantecircm relaccedilatildeo sistemaacutetica entre sirdquo Por exemplo os sentidos de ldquoobjeto fiacutesicordquo e
ldquoinformaccedilatildeordquo satildeo naturalmente distantes no entanto mantecircm entre si relaccedilatildeo sistemaacutetica no
caso de ldquolivrordquo e de outras palavras
Jaacute no segundo caso o das teorias baseadas em primitivos semacircnticos fixos o leacutexico
eacute tratado como uma lista enumerativa de sentidos Por isso mesmo tais modelos satildeo
denominados por Pustejovsky (1991) de Sense Enumeration Lexicon (SEL) - leacutexico de
enumeraccedilatildeo de sentidos O problema segundo Pustejovsky (1991) eacute que essa caracterizaccedilatildeo
dos possiacuteveis sentidos de uma palavra postulada pelo modelo SEL eacute aplicada tanto para a
ambiguumlidade contrastiva como para a polissemia loacutegica
Fica evidente segundo Rossi (2003) que Pustejovsky se opotildee aos modelos SEL pois
apesar de eles proverem uma enumeraccedilatildeo exaustiva dos sentidos de um item lexical ainda se
mostram limitados natildeo dando conta dos objetivos baacutesicos da teoria semacircntico-lexical ou seja
o uso criativo de palavras a permeabilidade dos significados e as muacuteltiplas formas sintaacuteticas
das expressotildees
O objetivo principal do LG segundo Pustejovsky (1991) eacute prover uma descriccedilatildeo
formal da liacutengua que seja expressiva e flexiacutevel o suficiente para apreender a natureza gerativa
da criatividade lexical e extensatildeo de sentido Caracteriza assim o LG como um sistema
semacircntico de perspectiva loacutegica que envolve quatro niacuteveis de representaccedilatildeo um sistema de
tipos semacircnticos e trecircs tipos de mecanismos gerativos
No decorrer deste capiacutetulo seratildeo especificadas as noccedilotildees teoacutericas baacutesicas do modelo
gerativo de Pustejovsky que estruturam o leacutexico em quatro niacuteveis de representaccedilatildeo
(argumentos eventos qualia e heranccedila) sobre os quais atuam dispositivos gerativos (a
coerccedilatildeo de tipo a co-composiccedilatildeo e a ligaccedilatildeo seletiva)
321 Estruturas do Leacutexico Gerativo
14 Conforme Pustejovsky (1995) a teoria de primitivos fixos eacute defendida por autores como Lakoff (1971) Wilks (1975) Schank (1975) Katz (1977) Jaacute a teoria de redes conexionistas eacute defendida por Carnap (1956) Collins e Quillian (1969) Fodor (1975) Brachman (1979)
37
Para capturar o significado lexical estudou-se as estruturas de Pustejovsky (1991)
que propotildee quatro niacuteveis de representaccedilatildeo estrutura de argumento estrutura de evento
estrutura de qualia e estrutura de heranccedila lexical descritos abaixo
3211 Estrutura de Argumento
Para Pustejovsky (1991) essa estrutura eacute uma especificaccedilatildeo miacutenima que agrupa os
itens lexicais em quatro argumentos
bull verdadeiros ndash paracircmetros do item lexical que tecircm a necessidade de serem expressos
sintaticamente Ex Marta morou em Paris
bull apagados ndash paracircmetros que natildeo tecircm necessidade de serem realizados sintaticamente satildeo
argumentos opcionais Ex Joana coseu uma saia sem linha
bull sombreados ndash paracircmetros que jaacute estatildeo semanticamente presentes no item lexical e soacute
devem ser expressos atraveacutes de operaccedilotildees de subtipo ou especificaccedilatildeo de discurso Ex
Paulo salgou a carne com sal grosso
bull adjuntos verdadeiros ndash paracircmetros que mesmo sendo parte da interpretaccedilatildeo situacional
modificam uma expressatildeo loacutegica sem contudo estarem ligados agrave representaccedilatildeo
semacircntica de algum item lexical especiacutefico Esses paracircmetros introduzem expressotildees
adjuntivas de modificaccedilatildeo temporal ou espacial Ex David dormiu cedo
3212 Estrutura de Evento
Essa estrutura para Pustejovsky (1991) refere-se a organizaccedilatildeo de um conjunto de eventos
no que tange agrave ordenaccedilatildeo temporal de seus subeventos e a designaccedilatildeo de qual deles seraacute
considerado o principal em relaccedilatildeo ao evento matriz
bull Evento de estado ndash aquele cujo(s) argumento(s) natildeo sofre(m) alteraccedilatildeo durante o
intervalo temporal do evento Ex Kaacutetia mora em Florianoacutepolis
bull Evento de processo ndash aquele cujo(s) argumento(s) sofre(m) alteraccedilatildeo de estado ou
indica(m) o iniacutecio de alguma atividade sem uma culminaccedilatildeo precisa Ex Heloisa canta
bem
bull Evento de transiccedilatildeo - aquele cujo(s) argumento(s) sofre(m) alguma accedilatildeo de
temporalidade determinada e resulta(m) em um estado diferente do inicial Ex Tereza fez
uma boneca
38
A estrutura a seguir apresenta os atributos semacircnticos essenciais dos itens lexicais
(como por exemplo a categoria a composiccedilatildeo a funccedilatildeo e a origem) atraveacutes dos papeacuteis
formal constitutivo teacutelico e agentivo Eacute a estrutura principal responsaacutevel pela explicaccedilatildeo da
polissemia loacutegica abordada no texto (Pustejovsky 1991)
3213 Estrutura de Qualia
Devido a sua proximidade com o SN visto que trabalha por conceitos (nomes) esta
estrutura foi utilizada no desenvolvimento do modelo proposto pela pesquisa Trata de um
conjunto formado por quatro qualia que visam guiar o processo de entendimento a respeito de
um objeto ou uma relaccedilatildeo no mundo dando por consequumlecircncia um modo de especificar a
denotaccedilatildeo de tal objeto ou relaccedilatildeo Eacute dividida em quatro papeacuteis os quais satildeo descritos na
sequumlecircncia
a) Quale formal - faz a distinccedilatildeo de determinado item dentro de um domiacutenio maior levando
em consideraccedilatildeo sua
bull orientaccedilatildeo
bull magnitude
bull forma
bull dimensatildeo
bull cor
bull posiccedilatildeo
b) Quale constitutivo - estabelece a relaccedilatildeo entre um objeto e suas partes constituintes ou
proacuteprias a partir das propriedades
bull material
bull peso
bull partes e elementos componentes
Aleacutem disso o quale constitutivo informa tambeacutem de que classe um item eacute parte caso
haja tal relaccedilatildeo ou seja ele informa tanto uma relaccedilatildeo de hiperoniacutemia15 quanto de
meroniacutemia16
15 Hiperoniacutemia ocorre quando o significado de um lexema (palavra) abrange o significado de outro lexema O significado de um eacute mais geneacuterico que o significado de outro Por exemplo ldquoaeronaverdquo eacute um hiperocircnimo de ldquoteco-tecordquo
39
Estas relaccedilotildees satildeo utilizadas na modelagem do protoacutetipo de Gonzalez (2005) Este
protoacutetipo foi pesquisado e apreendido como parte integrante da proposta desta dissertaccedilatildeo e
seraacute descrito na seccedilatildeo 33 do capiacutetulo 3
c) Quale teacutelico - explicita a finalidade e a funccedilatildeo de um objeto
bull Propoacutesito de um agente ao realizar um ato
bull Funccedilatildeo interna ou objetivo que descreve certas atividades
d) Quale agentivo - determina os fatores envolvidos na origem ou causa de um objeto
partindo de consideraccedilotildees sobre
bull criador
bull artefato
bull tipo natural
bull cadeia causal
Figura 11 Representaccedilatildeo da matriz de um item lexical Fonte ROSSI 2003
Figura 12 Matriz superficial da Estrutura de Qualia do item lexical ldquolivrordquo Fonte ROSSI 2003
16 Meroniacutemia ocorre quando o significado de um lexema (palavra) faz parte ou eacute uma porccedilatildeo do significado de outro lexema Por exemplo as palavras ldquocapardquo e ldquofolhasrdquo satildeo merocircnimos de ldquolivrordquo
40
Eacute importante salientar que segundo Neto (2003a) a Estrutura de Qualia natildeo deve ser
considerada apenas como uma lista de fatos interessantes sobre um item lexical e sim como
um conjunto de propriedades que leva a uma explicaccedilatildeo mais clara de tal item
Isto equivale dizer que o objetivo da Estrutura de Qualia eacute abarcar o significado de
uma palavra e explicitar como se relaciona com o uso da liacutengua Assim essa estrutura salienta
a explicaccedilatildeo do uso da criatividade linguumliacutestica contextual natildeo como uma estrutura isolada
mas em conjunto com os mecanismos gerativos que seratildeo apresentados mais adiante
Seguem alguns exemplos da Estrutura de Qualia
Figura 13 Exemplo da Estrutura de Qualia do item lexical ldquoromancerdquo Fonte PUSTEJOVSKY 1991
Figura 14 Exemplo da Estrutura de Qualia do item lexical ldquodicionaacuteriordquo Fonte PUSTEJOVSKY 1991
3214 Estrutura de Heranccedila Lexical
Esta estrutura tambeacutem eacute de fundamental importacircncia porque nesta ocorre a relaccedilatildeo das
qualias ou seja satildeo estruturas lexicais que podem se organizar com outras estruturas em uma
grade de tipo e assim ajudar na organizaccedilatildeo geral do leacutexico Por exemplo na figura abaixo o
LG relaciona ldquodicionaacuteriordquo ldquolivrordquo e ldquopeccedilardquo atraveacutes de suas estruturas de qualia em que se
observa que os trecircs itens lexicais satildeo diferentes entre si no entanto mantecircm relaccedilotildees
semacircnticas
41
Figura 15 Exemplo do LG relacionando ldquodicionaacuteriordquo ldquolivrordquo e peccedila atraveacutes de suas EQ Fonte NETO 2003a
322 Sistema de Tipos Semacircnticos
Um sistema de tipos semacircnticos analisa o comportamento polissecircmico e loacutegico de
nomes implicitamente relacionais como por exemplo porta janela Pustejovsky mostra como
o leacutexico gerativo faz uso de estruturas de aspectos tiacutepicos e afirma que esses nomes tecircm dois
sentidos relacionais (ldquoobjeto fiacutesicordquo e ldquoaberturardquo) que satildeo logicamente parte do significado do
nome Essa habilidade que um item lexical tem de agrupar vaacuterios sentidos eacute chamada
ldquoparadigma leacutexico-conceptual (plc ou lcp)rdquo O plc eacute como um construtor de tipo por exemplo
em palavras como ldquoportardquo e1 significa objeto_fiacutesico e2 abertura e o tipo resultante eacute
ldquoobjeto_fiacutesicoabertura_plc = objeto_fiacutesicoabertura objeto_fiacutesicoaberturardquo
Figura 16 Exemplo de polissemia loacutegica na representaccedilatildeo matricial da palavra ldquolivrordquo Fonte ROSSI 2003
42
Figura 17 Exemplo de polissemia loacutegica na representaccedilatildeo matricial da palavra ldquojornalrdquo Fonte ROSSI 2003
322 Mecanismos gerativos
O Leacutexico Gerativo apresenta ainda um conjunto de trecircs mecanismos que fazem uso
das estruturas ldquoeventordquo ldquoargumentordquo e ldquoqualiardquo os quais satildeo ditos gerativos pois relacionam
diferentes itens lexicais possibilitando a interpretaccedilatildeo composicional de palavras em contexto
3221 Coerccedilatildeo de tipo
Autoriza a mudanccedila de tipo e por extensatildeo de denotaccedilatildeo de nomes e expressotildees de
acordo com o contexto a que pertencem A coerccedilatildeo de tipo reconstroacutei a semacircntica do
complemento e soacute teraacute sucesso se o item lexical em questatildeo tiver um atalho para o tipo
desejado O exemplo claacutessico dado por Pustejovsky eacute ldquoJoatildeo comeccedilou um livrordquo em que o
predicado comeccedilar requer um tipo diferente do apresentado por livro ou seja o verbo requer
um complemento do tipo ldquoeventordquo que natildeo eacute satisfeito por ldquolivrordquo O termo ldquocomeccedilar um
livrordquo eacute interpretado como comeccedilar a ler (ou escrever) um livro
3222 Ligaccedilatildeo seletiva
Rege a relaccedilatildeo semacircntica que um modificador tem com o seu nuacutecleo ou seja ela
trata do problema da polissemia adjetival uma vez que os adjetivos satildeo interpretados a partir
da semacircntica do nuacutecleo Exemplos
(1) Um passeio raacutepido
(2) Um motorista raacutepido
43
(3) Um digitador raacutepido
(4) Um computador raacutepido
O primeiro problema estaacute claramente exemplificado com (1) em oposiccedilatildeo a (2) (3) e
(4) ou seja o primeiro trata de uma adjetivaccedilatildeo sobre um evento e os demais de uma
adjetivaccedilatildeo sobre indiviacuteduos Jaacute para o segundo problema diz-se que a interpretaccedilatildeo do
adjetivo vai ser selecionada por algum dos qualia do nuacutecleo do sintagma nominal ou seja
pela ligaccedilatildeo seletiva Esse mecanismo vai buscar a interpretaccedilatildeo de raacutepido para os exemplos
acima no quale teacutelico dos nuacutecleos
3223 Co-composiccedilatildeo
Os itens lexicais componentes de um determinado sintagma influenciam-se
mutuamente e um complemento pode adicionar um sentido ao seu nuacutecleo Pustejovsky
comeccedila exemplificando esse mecanismo com a polissemia de verbos como o ldquoassarrdquo que
apresenta dois sentidos uma mudanccedila de estado e outra de criaccedilatildeo do objeto Os exemplos
claacutessicos satildeo
(a) Letiacutecia assou as batatas
(b) Letiacutecia assou o bolo
Observa-se que em (1) houve apenas uma mudanccedila de estado pois as batatas jaacute
existiam antes de serem assadas em (2) um sentido de criaccedilatildeo de objeto eacute atribuiacutedo ao verbo
uma vez que antes da assadura o bolo natildeo existia Contudo Pustejovsky (1991) afirma que
ordinariamente soacute haacute um sentido para ldquoassarrdquo o de mudanccedila de estado pois tal verbo tem seu
tipo de evento modificado devido a informaccedilotildees que satildeo trazidas pelo complemento ou seja
essas leituras soacute satildeo possiacuteveis a partir de mecanismo de co-composiccedilatildeo em que os
complementos co-especificam o verbo
Por buscar formalizar a estrutura semacircntica de uma liacutengua o trabalho de Pustejovsky
eacute de grande importacircncia para a aacuterea de recuperaccedilatildeo de informaccedilatildeo Uma tentativa de
implementaccedilatildeo computacional da sua teoria foi realizada por Abrahatildeo (1997) envolvendo a
modelagem e a implementaccedilatildeo de um leacutexico semacircntico para a Liacutengua Portuguesa
Inicialmente este autor realizou um estudo de conceitos baacutesicos relacionados agrave semacircntica
Durante a sua pesquisa foram apresentadas teacutecnicas de representaccedilatildeo do conhecimento e do
significado que auxiliaram a seleccedilatildeo e o entendimento do modelo proposto por Pustejovsky
44
Como subsiacutedio para a implementaccedilatildeo de um leacutexico semacircntico para o portuguecircs
Abrahatildeo (1997) fez um estudo aprofundado da teoria de Pustejovsky onde salienta que os
problemas mais comuns agrave representaccedilatildeo do significado das palavras como ldquoambiguumlidade
lexical polissecircmicardquo por exemplo satildeo solucionados de forma eficiente e computacional
Como o modelo de Pustejovsky eacute voltado ao Inglecircs foram encontradas semelhanccedilas e
diferenccedilas entre a liacutengua origem do modelo e o Portuguecircs Variaccedilotildees verbais - facilita o mapeamento direto os verbos satildeo inseridos numa forma canocircnica (baacutesica ou infinitiva) no leacutexico variaccedilotildees de grau nos substantivos como alternativa de soluccedilatildeo satildeo armazenados em uma forma canocircnica palavras que se comportam como verbo e substantivo palavras que se comportam como adjetivo e substantivo tambeacutem satildeo mapeadas atraveacutes do uso da estrutura de lcps de Pustejovsky mapeamento de expressotildees - expressotildees devem ser inseridas no leacutexico pois expressam um significado especiacutefico substantivos compostos por mais de uma palavra acentuaccedilatildeo ndash itens lexicais do Inglecircs natildeo apresentam acentos Esta caracteriacutestica do Portuguecircs deve ser inserida no leacutexico pois diferencia o significado de suas palavras Deste modo esta informaccedilatildeo foi atribuiacuteda aos registros de informaccedilotildees semacircnticas atraveacutes de uma variaacutevel que conteacutem o tipo e a posiccedilatildeo na palavra em que o acento aparece (ABRAHAtildeO 1997 pgs 78-80)
Abrahatildeo (1997) construiu sua implementaccedilatildeo do leacutexico sobre uma estrutura em
aacutervore Trie17 que proporciona um maior poder de representaccedilatildeo na busca de informaccedilotildees e
baixa quantidade de dados armazenados As informaccedilotildees semacircnticas associadas aos itens
lexicais satildeo armazenadas em listas encadeadas a partir de uma estrutura denominada de
Descritor Semacircntico Um item lexical pertence ao leacutexico semacircntico se este item possui um
Descritor Semacircntico associado ao seu uacuteltimo caractere na aacutervore E ainda um Descritor
Semacircntico abrange os ponteiros essenciais para a busca das informaccedilotildees semacircnticas relativas
ao item lexical
De acordo com este autor as informaccedilotildees semacircnticas associadas aos itens lexicais
seguem o modelo de Pustejovsky (1991) sendo dividida em trecircs estruturas baacutesicas de
argumentos de eventos e de Qualia As estruturas de argumentos e de eventos satildeo
implementadas atraveacutes de uma lista de argumentos e uma lista de eventos A estrutura de
Qualia eacute composta de quatro listas de informaccedilotildees uma para cada papel (formal constitutivo
teacutelico e agentivo)
Segundo este autor todas as estruturas do leacutexico semacircntico foram desenvolvidas em
vetores A manipulaccedilatildeo destes vetores daacute-se sobre estruturas denominadas cabeccedilalhos Estes
cabeccedilalhos fornecem informaccedilotildees sobre a alocaccedilatildeo de vetores em memoacuteria ponteiros para os
vetores de informaccedilatildeo tamanhos dos vetores e os arquivos associados ao sistema O nuacutecleo de
17 Segundo Abrahatildeo (1997) ldquoeacute um tipo especial de estrutura onde cada caractere dos itens lexicais determina um nodo da aacutervorerdquo
45
dados do sistema eacute constituiacutedo de dois cabeccedilalhos cabeccedilalho da aacutervore Trie e o cabeccedilalho das
informaccedilotildees semacircnticas
A biblioteca de funccedilotildees conteacutem os procedimentos necessaacuterios para manutenccedilatildeo do
banco de dados lexical bem como procedimentos de busca de informaccedilotildees semacircnticas
Juntamente com a biblioteca uma interface graacutefica foi construiacuteda possibilitando a manutenccedilatildeo
do banco de dados e facilitando a visualizaccedilatildeo da semacircntica dos itens lexicais Esta interface
graacutefica eacute implementada na linguagem de programaccedilatildeo em C para as estaccedilotildees de trabalho SUN
sobre o sistema de janelas XVIEW18 (ABRAHAtildeO 1997)
Esta seccedilatildeo mostrou a importacircncia da teoria de Pustejovsky e suas possibilidades O
LG eacute fundamental para compreensatildeo semacircntica pois considera o contexto da palavra sendo
capaz de estruturar um domiacutenio especiacutefico atraveacutes da EQ e tambeacutem de identificar dentro de
um domiacutenio quando determinada palavra aparece em tal contexto Pelo desenvolvimento do
trabalho de Abrahatildeo pode-se perceber a dimensatildeo e os elementos necessaacuterios para o
significado de uma palavra reforccedilando-se assim o valor e a viabilidade da teoria de
Pustejovsky
A proacutexima seccedilatildeo apresenta o trabalho de Gonzalez (2005) que estudou Pustejovsky19
e posteriormente desenvolveu sua proacutepria concepccedilatildeo de uma estrutura de RI (toda
automatizada)
33 O Modelo TR+ de Gonzalez
O modelo TR+ eacute considerado um modelo para RI que utiliza duas fases para o
desenvolvimento de sua estrutura fase de indexaccedilatildeo e fase de busca
18 XVIEW ldquoeacute um sistema de janela orientado a objeto que permite ao programador criar e utilizar objetos tais como janelas textos paineacuteis iacutecones entre outros para construir uma aplicaccedilatildeo Seus objetos satildeo predefinidos e satildeo ricos em funcionalidade o que permite que o coacutedigo necessaacuterio para manipular essas janelas seja pequeno simples e muito faacutecil de se compreenderrdquo (ABRAHAtildeO 1997 p 86) 19 Realizou um trabalho individual no doutorado denominado ldquoO Leacutexico Gerativo de Pustejovsky sob o enfoque da Recuperaccedilatildeo de Informaccedilotildeesrdquo de 2000a
46
Indexaccedilatildeo de textos segundo Baeza-Yates e Ribeiro-Neto (1999) e Gonzalez (2005)
eacute o processo que estipula descritores20 dos conteuacutedos dos textos de uma coleccedilatildeo de
documentos com objetivo de busca e classificaccedilatildeo dos mesmos para atender consultas em
sistemas de RI Descritores podem descrever conceitos atocircmicos sendo lsquotermosrsquo ou conceitos
complexos sendo lsquorelacionamentosrsquo O conjunto de descritores concebido na indexaccedilatildeo
favorece uma visatildeo loacutegica dos documentos com o propoacutesito de unir esses descritores termos
e relacionamentos a conceitos presentes nos textos dos documentos
Para os relacionamentos este autor classifica trecircs tipos explicando-os atraveacutes do
exemplo ldquo tecircm preocupado os pesquisadoresrdquo O primeiro tipo eacute o par modificado-
modificador como lsquopesquisador-preocupadorsquo O segundo eacute o bigrama (preocupado
pesquisador) e o terceiro eacute o Sintagma Nominal que para ele significa lsquopesquisador
preocupadorsquo e que para a pesquisa de Gonzalez ficaria na sua forma natural lsquopreocupado os
pesquisadoresrsquo O autor ainda cita que haacute outros formatos de relacionamentos como a
expressatildeo ternaacuteria (preocupaccedilatildeo-de-pesquisador) e a relaccedilatildeo binaacuteria
(preocupaccedilatildeopesquisador)
Gonzalez (2005) aponta dois tipos de relacionamentos como problemas os bigramas
por natildeo poderem descrever o conceito (ldquoferro sopardquo para ldquopanela de ferro com sopardquo) e os
termos com palavras comuns mas coadjuvantes importantes (ldquosentar bancordquo e ldquodepositar
bancordquo) os sintagmas nominais que para o autor representam tanto o conceito atocircmico quanto
o complexo (ldquonoiterdquo e ldquoboca da noiterdquo) Eacute importante perceber que a partir dessas
caracteriacutesticas e aspectos acima definidos Gonzalez (2005) propocircs um novo modelo de
espaccedilo de descritores (uniatildeo do conjunto de termos com o conjunto de relacionamentos) Este
novo modelo surgiu a partir de outros cinco modelos de descritores jaacute existentes
1 Unigrama conjunto de termos natildeo relacionados
2 N-grama (NG) conjunto de relacionamentos estatiacutesticos
3 Termo-Termo (TT) conjunto de termos relacionados estatiacutestica ou
sintaticamente
4 Termo-Relacionamento (TR) conjunto de termos e relacionamentos sintaacuteticos
20 A palavra descritores eacute usada para se tratar dos termos e relacionamentos enquanto os iacutendices se referem apenas aos termos O descritor lsquotermorsquo significa uma unidade lexical formada por uma uacutenica palavra ou por mais de uma denominada de lsquotermo compostorsquo E o descritor lsquorelacionamentorsquo ocorre entre termos ou seja satildeo relaccedilotildees de construccedilotildees sintaticamente diferentes que tecircm o mesmo significado (semacircntica) Exemplo lsquodefesa eficientersquo eacute igual a lsquodefender eficientementersquo e lsquofeira de domingorsquo eacute igual a lsquofeira dominicalrsquo Alguns autores como Baeza-Yates e Ribeiro-Neto (1999) utilizam a palavra lsquoiacutendicersquo ao inveacutes de descritores contudo Gonzalez ressalta que esta palavra refere-se apenas aos lsquotermosrsquo natildeo dando conta da semacircntica que envolve os lsquorelacionamentosrsquo
47
5 Relacionamento-Termo (RT) conjunto de relacionamentos sintaacuteticos e seus
componentes ldquoOs Sintagmas Nominais constituem os principais descritores neste
casordquo (GONZALEZ 2005 p41)
O modelo TR+ proposto por este autor combina aspectos dos modelos TR e RT
A Figura 18 daacute uma visatildeo geral do modelo TR+ de Gonzalez (2005) na fase de
indexaccedilatildeo com suas etapas essenciais e na fase de busca para a classificaccedilatildeo por relevacircncia
dos documentos em relaccedilatildeo agrave consulta
g
f
e
da a
b b
c
Figura 18 Visatildeo Geral do modelo TR+ Fonte Gonzalez 2005
O espaccedilo de descritores do modelo TR+ construiacutedo na fase de indexaccedilatildeo eacute com
de quatro processos principais
a) Preacute-processamento (toquenizaccedilatildeo e etiquetagem)
b) Nominalizaccedilatildeo
c) Captura de RLBs
d) Termos e RLBs
Na etapa ldquoardquo de preacute-processamento ocorrem duas accedilotildees fundamentais Toquen
e Etiquetagem A toquenizaccedilatildeo eacute a identificaccedilatildeo de cada item lexical (palavra e pontu
Na etiquetagem existe um etiquetador gramatical (part-of-speech tagger - parser
identifica atraveacutes de uma etiqueta (tag) a categoria gramatical de cada palavra do
(adjetivo substantivo verbo entre outras) Geralmente eacute morfoloacutegico (identifica som
c
posto
izaccedilatildeo
accedilatildeo)
) que
texto
ente a
48
categoria morfoloacutegica) ou morfossintaacutetico (identifica tambeacutem as funccedilotildees sintaacuteticas) Estes
processos satildeo realizados de forma automatizada21
Antes da nominalizaccedilatildeo eacute realizada a geraccedilatildeo de espaccedilo dos descritores que se
constitui na seleccedilatildeo e normalizaccedilatildeo dos descritores e ainda a contagem de frequumlecircncia de
ocorrecircncia dos descritores - termos (para o caacutelculo de seus pesos) que seraacute usada na etapa
ldquodrdquo
Faz parte do processo de seleccedilatildeo de descritores a eliminaccedilatildeo de stopwords22 que
podem ser descartadas na fase de indexaccedilatildeo e na consulta Essa exclusatildeo justifica-se segundo
o autor porque as stopwords satildeo consideradas palavras com pouca representatividade A
seleccedilatildeo dos descritores a quantidade dos mesmos e o peso de cada um podem ser afetados
pela normalizaccedilatildeo linguumliacutestica
A normalizaccedilatildeo segundo Gonzalez (2005) apresenta trecircs tipos conhecidos como
bull Sintaacutetica - que transforma frases semanticamente equivalentes mas
sintaticamente diferentes (ldquoeficiente processo raacutepidordquo e ldquoprocesso raacutepido
eficienterdquo)
bull Leacutexico-semacircntico ndash que utiliza relacionamentos semacircnticos (como a sinoniacutemia)
para substituir palavras morfologicamente distintas por uma uacutenica forma que
representa o conceito evidenciado
bull Morfoloacutegica ndash reduz as formas flexionais de uma palavra por meio da
conflaccedilatildeo23
No modelo TR+ foi utilizada a normalizaccedilatildeo lexical para o processo de
nominalizaccedilatildeo Este processo de nominalizaccedilatildeo constitui a etapa ldquobrdquo e significa a
transformaccedilatildeo de uma palavra (adveacuterbio adjetivo ou verbo) existente no texto em um
substantivo semanticamente equivalente constituiacutedo com regras vaacutelidas de formaccedilatildeo de
palavras (GONZALEZ 2005)
A tabela abaixo mostra exemplos de termos nominalizados Nesta etapa de
nominalizaccedilatildeo eacute utilizada a ferramenta CHAMA24
21 A ferramenta FORMA (Toquenizaccedilatildeo e Etiquetagem Morfoloacutegica) foi utilizada por Gonzalez O autor cita o nome desta ferramenta no seu site httpwwwinfpucrsbr~gonzaleztr+ Acesso em 14 de fevereiro de 2006 22 Stopwords satildeo palavras como preposiccedilotildees artigos e conjunccedilotildees 23 Conflaccedilatildeo satildeo processos realizados por algoritmos que combinam a representaccedilatildeo de duas ou mais palavras em um uacutenico termo Haacute dois meacutetodos mais comuns stemming que reduz a palavra para a parte fundamental semelhante ao radical e lematizaccedilatildeo que reduz a palavra variaacutevel agrave correspondente forma ldquocanocircnicardquo 24 A ferramenta CHAMA (nominalizaccedilatildeo de adjetivos verbos e adveacuterbios) foi desenvolvida por Marco Antonio Insaurriaga Gonzalez (doutor em Ciecircncia da Computaccedilatildeo pela UFRGS) Em sua tese de doutorado intitulada ldquoTermos e Relacionamentos em Evidecircncia na Recuperaccedilatildeo de Informaccedilatildeordquo 2005
49
Tabela 1 Exemplos de nominalizaccedilatildeo Fonte Gonzalez 2005
Devido agraves diferentes variaccedilotildees que a nossa Liacutengua Portuguesa apresenta este autor
trabalha em seu modelo com palavras sem acentuaccedilatildeo e em letras minuacutesculas ocorrendo um
comprometimento do significado das palavras como por exemplo eacute citado por ele puacuteblica e
publica
A etapa ldquocrdquo de captura de Relaccedilotildees Lexicais Binaacuterias (RLBs) eacute segundo Gonzalez
(2005) o relacionamento entre termos nominalizados ou seja sintaticamente diferentes mas
semanticamente iguais25 Uma RLB pode ser classificada tambeacutem quanto agrave nominalizaccedilatildeo de
seus componentes Este autor sistematiza e classifica esta questatildeo conforme aparece em seus
exemplos abaixo (2005 p 47)
bull Original onde o termo natildeo recebeu o processo de nominalizaccedilatildeo
bull Derivada onde um dos termos pelo menos resulta do processo de
nominalizaccedilatildeo
Uma RLB de acordo com Gonzalez (2005) apresenta a seguinte aparecircncia
25 Gonzalez desenvolveu o software RELLEX para o reconhecimento de relaccedilotildees lexicais binaacuterias em sua tese de doutorado 2005
50
id (t1t2) onde
id significa o identificador de relaccedilatildeo e
t1 e t2 satildeo os termos nominalizados
Este autor aponta os trecircs tipos de RLBs quanto ao identificador id
bull Classificaccedilatildeo onde id eacute especificado com um sinal de igual (=) t1 representa
uma subclasse ou uma instacircncia de t2 e t2 representa uma classe
Exemplos =(caoanimal)
=(PET garrafa) Exemplo desenvolvido nesta dissertaccedilatildeo
bull Restriccedilatildeo onde id eacute uma preposiccedilatildeo t1 representa um elemento modificado e t2
representa um elemento modificador
Exemplos de(equipeatletismo)
com(supervisorexperiencia)
por(orientacaoministro)
bull Associaccedilatildeo onde id representa um evento t1 eacute um sujeito e t2 eacute um objeto
(direto ou indireto) ou um adjunto
Exemplos superacao(alunodificuldade)
interessea(propostanegociante)
moradiaem(presidentebrasilia)
As Relaccedilotildees Lexicais Binaacuterias conforme Gonzalez (2005) satildeo inseridas no espaccedilo
de descritores para ampliar o seu universo As RLBs descrevem relaccedilotildees semacircnticas lexicais
como as que satildeo apresentadas na estrutura de Qualia da teoria do Leacutexico Gerativo de
Pustejovsky (GONZALEZ 2000 PUSTEJOVSKY 1991) O estudo desta teoria motivou o
Gonzalez a desenvolver a proposta das RLBs como parte integrante de seu trabalho como um
modo de adequaacute-la a aplicaccedilotildees na aacuterea de RI
Como jaacute foi descrita na seccedilatildeo 32 a Estrutura de Qualia da teoria do Leacutexico
Gerativo descreve um item lexical atraveacutes de quatro papeacuteis formal constitutivo agentivo e
teacutelico O papel formal distingue um item lexical em um domiacutenio maior Em uma RLB
segundo Gonzalez (2005) do tipo classificaccedilatildeo como ldquo=(computadormaquina)rdquo por
exemplo o computador seria distinguido como uma maacutequina ou em ldquo=(ipmftributo)rdquo o ipmf
seria um tributo Portanto a RLB do tipo classificaccedilatildeo corresponde ao papel formal da
estrutura de Qualia
51
O papel constitutivo estabelece a relaccedilatildeo entre um item lexical X e suas partes
constituintes Em uma RLB do tipo restriccedilatildeo como ldquode(mesamadeira)rdquo por exemplo haveria
a indicaccedilatildeo de que a mesa eacute feita de madeira ou em ldquocom(massaalho)rdquo de que haacute alho na
massa O papel agentivo especifica os fatores envolvidos na origem ou causa de um item
lexical Em uma RLB para este autor do tipo restriccedilatildeo como ldquopor(publicacaoautor)rdquo por
exemplo seria especificado que a publicaccedilatildeo se deve ao autor ou em ldquopor(impedimentolei)rdquo
que a lei eacute a razatildeo do impedimento
O papel teacutelico explica qual a funccedilatildeo ou finalidade do item lexical Em uma RLB do
tipo associaccedilatildeo como ldquoconserto(encanadorvazamento)rdquo por exemplo explica que a funccedilatildeo
do encanador eacute o conserto do vazamento ou em uma RLB do tipo restriccedilatildeo como
ldquopara(leituraaprendizado)rdquo que a finalidade da leitura eacute o aprendizado (GONZALEZ 2005)
Este autor salienta que natildeo se quer que as RLBs ldquointerpretemrdquo o texto com
distinccedilotildees indicaccedilotildees especificaccedilotildees ou explicaccedilotildees dos tipos apresentados O propoacutesito eacute de
que as RLBs sejam descritores de tais fatos mas sem classificaccedilatildeo (etiquetas) Por isto os
identificadores de relaccedilatildeo natildeo satildeo rotulados com os papeacuteis descritos A uacutenica exceccedilatildeo eacute o
identificador das RLBs do tipo classificaccedilatildeo O indicador ldquo=rdquo eacute o roacutetulo inevitaacutevel para o
claacutessico ldquoeacute umrdquo porque natildeo haacute outro papel possiacutevel nesse tipo de relaccedilatildeo
No modelo TR+ estaacute envolvido aleacutem da coleccedilatildeo de documentos constituiacuteda por
descritores (termos e relacionamentos) tambeacutem os seus respectivos pesos que dependem de
uma formulaccedilatildeo matemaacutetica denominada de lsquocaacutelculo de representatividadersquo dos descritores
em cada documento que eacute um diferencial deste modelo e estaacute na fase ldquodrdquo onde os termos e
RLBs seratildeo armazenados
Para ocorrer o caacutelculo do peso dos descritores eacute aplicado o conceito de evidecircncia26
Este conceito natildeo depende apenas da frequumlecircncia de ocorrecircncia de um descritor mas de um
outro mecanismo ldquoa representatividade de um descritor depende aleacutem de sua frequumlecircncia de
ocorrecircncia no texto da ocorrecircncia de mecanismos de coesatildeo fraacutesicardquo (GONZALEZ 2005
p48) A coesatildeo fraacutesica determina uma junccedilatildeo significativa entre os componentes de uma
frase27 Esta junccedilatildeo aliada com a frequumlecircncia de ocorrecircncia constitui o conceito de evidecircncia
como um dos aspectos essenciais da Tese de Gonzalez (2005)
A evidecircncia dos termos eacute realizada de forma direta com a frequumlecircncia e a coesatildeo
fraacutesica mas a evidecircncia de um relacionamento natildeo pois esta eacute dependente primeiramente das
26 Evidecircncia significa qualidade daquilo que eacute evidente que eacute incontestaacutevel que todos vecircem ou podem ver e verificar (Dicionaacuterio Eletrocircnico Michaelis) Como descreve Gonzalez (2005) ldquoeacute aquilo natildeo oferece ou natildeo daacute margem agrave duacutevidardquo 27 Site httpacdufrjbr~peadtema09coesaogramaticalhtml
52
evidecircncias de seus termos Este conceito estaacute inserido no caacutelculo de representatividade de um
descritor
O caacutelculo da representatividade eacute um caacutelculo de relevacircncia do termo ou
relacionamento que varia de acordo com as abordagens (booleana vetorial e probabiliacutestica) e
pode ser realizado apenas com a frequumlecircncia da palavra no documento ou ainda com a
frequumlecircncia vinculada com a sua informaccedilatildeo morfoloacutegica ou sintaacutetica (GONZALEZ 2005)
Para realizar o caacutelculo da representatividade dos descritores haacute duas estrateacutegias de
determinaccedilatildeo que satildeo os modelos com unigramas que tratam os termos de forma
independente (abordagens vetorial e probabiliacutestica) e os modelos com dependecircncia entre
termos Estas dependecircncias envolvem conjuntos diferentes de conhecimentos que satildeo os
estatiacutesticos e os linguumliacutesticos28 Os conhecimentos linguumliacutesticos satildeo ldquoleacutexico morfoloacutegico
fonoloacutegico sintaacutetico semacircntico e pragmaacuteticordquo (ABRAHAtildeO 1997 p11)
Estes dois modelos descritos acima satildeo apresentados como mais significativos
poreacutem ainda utilizam a abordagem booleana Isto porque Gonzalez (2005) define como o
caminho mais promissor a combinaccedilatildeo da abordagem booleana (individualmente limitadora)
com a uniatildeo dos conhecimentos estatiacutesticos e linguumliacutesticos entre si que permitem mais
interaccedilatildeo com o usuaacuterio
O caacutelculo da representatividade ao mesmo tempo que eacute uma propriedade baacutesica de
um descritor apresenta diferentes formas de acordo com as abordagens vetorial e
probabiliacutestica (capiacutetulo 2) e gera diversas interpretaccedilotildees Por isto Gonzalez (2005) propotildee um
novo caacutelculo que compreenda a importacircncia do contexto nas foacutermulas inseridas no seu modelo
TR+
O outro momento de seu modelo (Figura 18) compreende a lsquofase de buscarsquo que inclui
Preacute-Processamento (toquenizaccedilatildeo e etiquetagem) Nominalizaccedilatildeo e Captura de RLBs Estas
etapas ocorrem da mesma maneira que na fase de indexaccedilatildeo Inclui tambeacutem as etapas
Formulaccedilatildeo de consulta booleana Busca e Classificaccedilatildeo
Na etapa ldquoerdquo (Formulaccedilatildeo de Consulta Booleana) Gonzalez (2005) explica que se a
consulta q em linguagem natural formulada pelo usuaacuterio for por exemplo ldquopintura
restauradardquo entatildeo seraacute formulada no formato Booleano conforme o modelo TR+ a seguinte
consulta qb
28 Estes conhecimentos envolvem niacuteveis leacutexico-morfoloacutegico e sintaacutetico sintagmas nominais (sujeito objeto direto e indireto e adjunto adnominal) A vantagem destes eacute a capacidade de identificar relacionamentos entre palavras natildeo adjacentes como ldquoalgoritmosrdquo e ldquoconcorrentesrdquo em ldquoalgoritmos sequumlenciais e concorrentesrdquo
53
r1 OU r2 OU ( (n1 (p1) OU n2(p1) ) E (n1 (p2) OU n2(p2) ) ) onde
r1 = de(restauracaopintura)
r2 = r1rsquo = diferente_de(restauracaopintura)
n1(p1) = (elemento vazio)
n2(p1) = pintura
n1(p2) = restauracao
n2(p2) = restaurador
p1 = pintura e
p2 = restaurada
Tabela 2 Exemplo de uma consulta qb Fonte Gonzalez 2005 p 51
Na fase de busca a etapa ldquofrdquo ocorre uma relaccedilatildeo entre a etapa ldquoerdquo e a etapa ldquodrdquo Esta
uacuteltima acontece ainda na fase de indexaccedilatildeo visto que ldquoestando os termos e as RLBs definidas
e calculados os pesos a classificaccedilatildeo dos documentos depende do valor de relevacircncia dos
mesmos e da formulaccedilatildeo Booleana da consultardquo (GONZALEZ 2005 p 50)
A etapa ldquogrdquo (Classificaccedilatildeo) eacute resultado de um caacutelculo sobre os dados obtidos no
procedimento anterior que identifica o valor de relevacircncia de cada documento recuperado-os
em ordem decrescente Um exemplo de classificaccedilatildeo eacute indicado por Gonzalez (2005) atraveacutes
da foacutermula de uma consulta denominada q Nesta consulta encontram-se os termos t1 e t2 e a
RLB r e se estes dois termos estatildeo relacionados atraveacutes de r em um documento d estes teratildeo
dupla contribuiccedilatildeo no caacutelculo do valor de relevacircncia de d poreacutem se t1 e t2 ocorrem em d mas
natildeo estatildeo relacionados atraveacutes de r o autor considera que esta contribuiccedilatildeo seraacute simples e
assim d tende a perder posiccedilotildees na classificaccedilatildeo por relevacircncia a q
Os documentos recuperados classificam-se em dois grupos (a) grupo superior de maior relevacircncia documentos que atendem agraves condiccedilotildees estabelecidas na consulta Booleana ou seja possuem pelo menos uma das RLBs da consulta ou na falta de todas elas possuem obrigatoriamente todos os termos conforme especificado (b) grupo inferior de menor relevacircncia documentos que natildeo atendem a todas as condiccedilotildees estabelecidas na consulta Booleana mas possuem pelo menos um dos termos da consulta Os documentos satildeo classificados em ordem decrescente do valor de relevacircncia tanto nos grupos superior como inferior (GONZALEZ 2005 p 51)
Eacute importante ressaltar que toda a proposta de Gonzalez (Modelo TR+) foi
automatizada testada e aprovada Foi utilizado o software FORMA para a etapa de preacute-
processamento e os demais softwares como CHAMA (nominalizaccedilatildeo) e RELLEX (regras de
54
identificaccedilatildeo de RLBs) foram desenvolvidos pelo autor Diversos algoritmos juntamente com
abordagens de RI (booleana probabiliacutestica e vetorial) foram desenvolvidos para as fases
posteriores do seu trabalho como o caacutelculo do peso dos descritores a busca e a classificaccedilatildeo
de documentos
As experimentaccedilotildees desenvolvidas por Gonzalez (2005) em seu trabalho lograram
comprovar que o processo de nominalizaccedilatildeo como processo de normalizaccedilatildeo lexical
proporciona melhores resultados de recuperaccedilatildeo que os produzidos pelos processos
tradicionais (lematizaccedilatildeo e stemming) a identificaccedilatildeo de RLBs (obtenccedilatildeo de informaccedilatildeo
linguumliacutestica) contribui de forma positiva para a descriccedilatildeo de dependecircncias de termos
ampliando o espaccedilo de descritores o caacutelculo da representatividade dos descritores baseado em
evidecircncia melhora a classificaccedilatildeo de relevacircncia dos documentos com vantagem sobre o
caacutelculo baseado em frequumlecircncia de ocorrecircncia o uso de consultas com operadores Booleanos
trata-se de uma forma eficaz de complementar a especificaccedilatildeo de dependecircncias de termos e
tambeacutem a inclusatildeo de conhecimento linguumliacutestico como a realizada no modelo proposto pelo
autor apresenta relaccedilatildeo custobenefiacutecio viaacutevel dentro do atual estaacutegio de desenvolvimento da
pesquisa em RI
O proacuteximo capiacutetulo descreve o novo modelo proposto para esta dissertaccedilatildeo baseado
na identificaccedilatildeo das possibilidades de ampliaccedilatildeo de siacutentese e de sistematizaccedilatildeo do modelo de
Kuramoto com a estrutura de Gonzalez Pode ser considerada uma soluccedilatildeo hiacutebrida de um
modelo de RI que une trecircs teorias Sintagmas Nominais de Kuramoto Leacutexico Gerativo de
Pustejovsky e Modelo TR+ de Gonzalez Apresentar-se-aacute os paracircmetros gerais norteadores e
justificadores do modelo a descriccedilatildeo narrativa da sua funcionalidade os resultados dos testes
e a descriccedilatildeo formal UML do modelo
55
4 APRESENTACcedilAtildeO E DISCUSSAtildeO DO MODELO PROPOSTO
A proposta desta dissertaccedilatildeo eacute de integrar a aplicaccedilatildeo praacutetica do projeto dos
Sintagmas Nominais de Kuramoto sistematizando e associando com o modelo TR+ de
Gonzalez (2005)
Na descriccedilatildeo do modelo do sistema proposto foi utilizado o meacutetodo denominado de
Processo Unificado (UP) que envolve as fases de concepccedilatildeo elaboraccedilatildeo construccedilatildeo e
transiccedilatildeo e utilizou-se a Linguagem de Modelagem Unificada (UML) que eacute fortemente
relacionada com a metodologia utilizada segundo Wazlawick (2004)
Neste capiacutetulo desenvolve-se o modelo conceitual da aplicaccedilatildeo proposta para a qual
foram realizadas as etapas de levantamento e anaacutelise de requisitos representada pelo
diagrama e pela descriccedilatildeo dos casos de uso e de construccedilatildeo dos diagramas de classes e de
sequumlecircncia relacionados
41 Procedimentos desenvolvidos utilizando o modelo de SN de Kuramoto e a proposta
Gonzalez - ldquoEstrutura SINTR+rdquo
Esta dissertaccedilatildeo optou por realizar uma relaccedilatildeo entre propostas diferenciadas utilizar
o modelo de SN de Kuramoto para a organizaccedilatildeo dos conceitos mais significativos dos
documentos e a proposta de Gonzalez para a busca dessas informaccedilotildees que estaratildeo
estruturadas atraveacutes da dependecircncia entre termos Esta relaccedilatildeo foi desenvolvida na criaccedilatildeo da
ldquoEstrutura SINTR+rdquo que tem como especificidade a busca nos documentos a partir do banco
de dados dos Sintagmas Nominais Esta escolha de unir em uma estrutura proacutepria os SN e o
Modelo TR+ pautou-se pelo intuito de orientar mais objetivamente o usuaacuterio na definiccedilatildeo da
sua query de busca atraveacutes de uma navegaccedilatildeo sobre a estrutura de SN presentes no
documento e de posterior apresentaccedilatildeo de lista de documentos efetivamente relevantes
O objetivo eacute trabalhar com os Sintagmas Nominais evidenciando e potencializando
uma uniatildeo com o modelo TR+ de Gonzalez (2005) O modelo abaixo (Figura 19) apresenta
uma nova proposta pautada na junccedilatildeo sistematizada e analiacutetica da extraccedilatildeo dos SN na
Estrutura de Kuramoto (1999) com o Modelo TR+ de Gonzalez (2005) ldquoEstrutura SINTR+rdquo
56
Documentos
Extraccedilatildeo de SN
Preacute-processamento
Nominalizaccedilatildeo
4
Captura de RLBs
Referecircncia aos
documentos classificados
Classificaccedilatildeo
Lista de SN de Niacutevel Requerido
Lista dos demais Preacute-
3
2
85
3
2
1
Consulta em
LN
7
6
(Fase d
O mo
extraccedilatildeo de tod
o preacute-processam
de acontecer co
de forma mais
foco de anaacutelise
subsequumlentes
Antes
descritores con
frequumlecircncia de o
Etapa 5
Em se
mudanccedila de um
concreto eou a
Te
R
e indexaccedilatildeo)
Figura
delo propost
os os seus Si
ento onde o
m todas as p
objetiva e raacute
somente so
do processo d
stituiacuteda na s
correcircncia dos
guida ocorre
a palavra (ad
bstrato Na E
rmos e
LBs
Busca
Formulaccedilatildeo de consulta Booleana
11
(Fase
19 Visatildeo Geral do Modelo Proposto ldquoEstr
o se inicia a partir dos document
ntagmas Nominais (Etapa 1) Extra
correm a Toquenizaccedilatildeo e a Etiquet
alavras do documento como ocorr
pida apenas diretamente sobre os
bre os termos inclusos nos SN pe
e nominalizaccedilatildeo na Etapa 3 eacute exec
eleccedilatildeo e normalizaccedilatildeo dos descrit
descritores - termos (para o caacutelculo
o processo de nominalizaccedilatildeo que c
veacuterbio adjetivo ou verbo) existen
tapa 4 ocorre a identificaccedilatildeo das
niacuteveis de SN processamento
Nomin
Captura
9
de busca)
utura SINTR+rdquo
os a serem inse
iacutedos os SN na E
agem que Essa e
e no modelo TR
termos constant
rmanece para to
utada a geraccedilatildeo
ores e ainda na
de seus pesos)
onstitui a Etapa
te nos SN em u
RLBs nos SN q
alizaccedilatildeo
de RLBs 0
ridos com a
tapa 2 eacute feito
tapa ao inveacutes
+ eacute realizada
es nos SN O
das as etapas
de espaccedilo dos
contagem da
a ser usada na
3 e significa a
m substantivo
ue significa o
1
1
1
57
relacionamento entre termos nominalizados Estas etapas acima satildeo constituiacutedas para a
geraccedilatildeo do espaccedilo de descritores (termos e RLBs) referentes agrave Etapa 5
Na lsquofase de buscarsquo primeiramente o usuaacuterio digita uma palavra por exemplo
ldquoplaacutesticosrdquo A resposta para o usuaacuterio ocorreraacute pois internamente foi feita uma programaccedilatildeo
(a ser implementada) para identificar o niacutevel do SN solicitado pelo usuaacuterio para que
posteriormente apareccedila para este a lista de todos os SN do niacutevel apresentado contendo a query
solicitada
No caso do exemplo ldquoplaacutesticosrdquo o processo avanccedila na Etapa 6 listando todos os
sintagmas nominais de primeiro niacutevel (SN1) dos documentos (uma vez que a solicitaccedilatildeo
referia-se ao niacutevel 1) Nesta etapa o usuaacuterio poderaacute escolher um dos sintagmas de primeiro
niacutevel ou confirmar a sua escolha (query) inicial O processo continua com a escolha de uma
dentre as opccedilotildees de i) ver a lista de documentos relacionados ao SN1 definido ou ii) solicitar
a relaccedilatildeo de sintagmas de seu segundo niacutevel A visualizaccedilatildeo da lista de sintagmas de niacutevel
superior permitiria ao usuaacuterio filtrar mais a sua consulta Para a determinaccedilatildeo da lista de SN
de segundo niacutevel como por exemplo ldquoa reciclagem de plaacutesticosrdquo ldquoa induacutestria de plaacutesticosrdquo
(Figura 20) tambeacutem foi feita uma programaccedilatildeo especiacutefica que seraacute descrita posteriormente
Na continuidade do processo o usuaacuterio pode prosseguir o refinamento da sua busca
atraveacutes da seleccedilatildeo de SN de maior niacutevel ou pode dar-se por satisfeito com o resultado (Etapa
7) solicitando diretamente a lista dos documentos associados ao SN definidos Nesse caso a
lista eacute apresentada na ordem de classificaccedilatildeo oportunizada pela Estrutura TR+ conforme o
descrito nas proacuteximas etapas
O processamento proposto para a determinaccedilatildeo da relaccedilatildeo dos sintagmas de um
determinado niacutevel foi pensado com vista a gerar economia de espaccedilo de memoacuteria utilizada
uma vez que seratildeo armazenados na base de dados os documentos e seus SN de uacuteltimos niacuteveis
e manipulados apenas os uacuteltimos niacuteveis da estrutura de SN Os niacuteveis anteriores relativos ao
SN seratildeo determinados na programaccedilatildeo desenvolvida a partir da identificaccedilatildeo do nuacutemero de
preposiccedilotildees que o SN apresenta Nesta programaccedilatildeo se houver apenas um termo (ou mesmo
apenas um termo composto) o SN eacute considerado um SN de 1ordm niacutevel A presenccedila de um termo
composto com mais uma preposiccedilatildeo indica a existecircncia de um SN de 2ordm niacutevel Jaacute trecircs termos
com duas preposiccedilotildees vatildeo indicar a presenccedila de um SN de 3ordm niacutevel e finalizando quatro ou
mais termos com 3 (ou mais) preposiccedilotildees remetem ao SN de 4ordm niacutevel
Ao optar pela apresentaccedilatildeo da lista de documentos seratildeo desenvolvidas
(internamente) na programaccedilatildeo conforme o proposto pela Estrutura TR+ de Gonzalez as
etapas de Preacute-processamento (toquenizaccedilatildeo e etiquetagem ndash Etapa 8) Nominalizaccedilatildeo (Etapa
58
9) Captura de RLBs (Etapa 10) Formulaccedilatildeo de consulta Booleana (Etapa 11) Busca (Etapa
12) e por fim Classificaccedilatildeo (Etapa 13)
Na Etapa 11 eacute trabalhado no formato Booleano uma consulta formulada pelo usuaacuterio
conforme o modelo TR+ A Etapa 12 ocorre uma relaccedilatildeo entre a Etapa 11 e a Etapa 5 (esta
etapa ocorre ainda na fase de indexaccedilatildeo) A Etapa 13 eacute a uacuteltima e resulta do caacutelculo que
identifica o valor de relevacircncia de cada documento recuperando-os em ordem decrescente
Eacute importante reforccedilar que o sistema iraacute verificar o preacute-processamento nominalizaccedilatildeo
e a captura de RLBs jaacute realizadas na fase de indexaccedilatildeo comparando-as Apoacutes esta
identificaccedilatildeo o sistema usa a formulaccedilatildeo de consulta Booleana para a busca chegando agrave
classificaccedilatildeo dos documentos de acordo com o peso dos descritores (termos e RLBs)
formulados na fase de indexaccedilatildeo e definidos na fase de busca (de acordo com o termo
escolhido e a coleccedilatildeo dos documentos)
Exemplificando o paraacutegrafo acima a Figura 20 mostra o funcionamento inicial desta
estrutura no que se refere aos Sintagmas Nominais
Pesquisa
Usuaacuterio escolha uma opccedilatildeo (Sintagma Nominal) que mais se identifique com a sua consulta Logo em seguida escolha se deseja ir para o Proacuteximo Niacutevel de Sintagma Nominal ou Estrutura TR+
Buscar (SN) Plaacutesticos
SN1 Os plaacutesticos
Proacuteximo niacutevel SN Estrutura TR+
SN2 A reciclagem de plaacutesticos A separaccedilatildeo de plaacutesticos A induacutestria de plaacutesticos
Proacuteximo niacutevel SN Estrutura TR+
SN3 A induacutestria de reciclagem de plaacutesticos
Estrutura TR+ Proacuteximo niacutevel SN
SN4 -----
Estrutura TR+
Figura 20 Descriccedilatildeo inicial do modelo proposto
59
Buscando analisar as vantagens que a proposta do modelo SINTR+ apresenta vale
lembrar que o modelo TR+ de Gonzalez jaacute apresenta benefiacutecios como
bull O processo de nominalizaccedilatildeo propicia melhores resultados de recuperaccedilatildeo do que
os produzidos pelos processos tradicionais (lematizaccedilatildeo e stemming)
bull A identificaccedilatildeo de RLBs colabora para a descriccedilatildeo de dependecircncia de termos que
ampliam o espaccedilo de descritores
bull O caacutelculo da representatividade dos descritores baseado em evidecircncia melhora a
classificaccedilatildeo da relevacircncia de documentos em relaccedilatildeo agravequela obtida atraveacutes da
extraccedilatildeo e do caacutelculo por frequumlecircncia de ocorrecircncia
bull O uso de consultas com operadores Booleanos oferece uma forma eficaz de
complementar a especificaccedilatildeo de co-dependecircncia semacircntica entre termos
As vantagens antevistas na elaboraccedilatildeo da proposta SINTR+ expandem as jaacute obtidas
pelo modelo de Gonzalez29 pois une a elas a vantagem do modelo de hierarquia de niacuteveis de
SN de Kuramoto Estas vantagens satildeo a ldquoEstrutura SINTR+rdquo executa em um menor tempo na
fase de indexaccedilatildeo dos documentos a ldquoEstrutura SINTR+rdquo conteacutem um tamanho menor de
arquivos de iacutendice e a ldquoEstrutura SINTR+rdquo proporciona facilidade na fase de nominalizaccedilatildeo
visto que os SN satildeo o nuacutecleo de maior significaccedilatildeo de um texto30
Os documentos (textos) usados como campo empiacuterico desta dissertaccedilatildeo foram artigos
retirados da Internet sobre o tema ldquoLixordquo Neste contexto fazem parte da coleccedilatildeo de
documentos temas como ldquoCuidados com o Lixordquo ldquoLixo Industrialrdquo ldquoO destino do lixo
quiacutemicordquo entre outros Como ainda natildeo havia disponiacuteveis extratores automaacuteticos de SN por
hierarquia em niacuteveis foi feita uma leitura dos textos dos quais se retirou manualmente seus
sintagmas Os SN significativos com o tema ldquoLixordquo foram extraiacutedos de dois (2) documentos
(que estatildeo nos ANEXOS A e B) e satildeo apresentados no Anexo C
Apoacutes esta etapa foram extraiacutedos todos os sintagmas nominais (somente do
documento1 - ANEXO A) que estatildeo sublinhados no texto independentes do tema para
exemplificar a extraccedilatildeo da consulta
Para avaliar preliminarmente a extensatildeo com que as vantagens antevistas no modelo
proposto realmente se verificariam foi realizado um teste com o documento1 (ANEXO A)
composto de 9 paraacutegrafos e 1006 palavras (Figura 21)
29 Este modelo foi testado e aprovado na sua proposta de doutorado que estaacute inserida no contexto do grupo de pesquisa da PUCRS no qual o autor participa de estudos na aacuterea haacute mais de uma deacutecada 30 Isto pode ser observado do Anexo A (Documento1) em que os SN satildeo destacados no texto
60
Figura 21 Nuacutemero de palavras do Documento1
O documento1 (ANEXO A) foi o escolhido para dimensionar a reduccedilatildeo no total de
palavrastermos a serem incluiacutedos na base de dados demonstrando a importacircncia do modelo
apresentado conforme tabela abaixo
Categorias Texto Total SNs Total de palavrastermos 1006 640
Substantivos 369 334 Adveacuterbios 41 04
Verbos 133 Ausecircncia de verbos Adjetivos 73 55
Figura 22 Tabela comparativa Texto Total e SNs
O texto possui um total de 1006 palavrastermos sendo destes 369 substantivos 41
adveacuterbios 133 verbos e 73 adjetivos (Figura 22) Do texto todo foi extraiacutedo um total de 139
sintagmas nominais E destes o nuacutemero total de palavrastermos eacute de 640 sendo 334
substantivos 04 adveacuterbios e 55 adjetivos
61
Documento1 - Cresce a induacutestria de reciclagem de plaacutesticos
369
41
133
7355
nordm de substantivos
nordm de adveacuterbios
nordm de verbos
nordm de adjetivos
nordm de adjetivosinseridos nos SN
Figura 22 Nuacutemero de substantivos adveacuterbios verbos e adjetivos do Documento1
Relacionando o nuacutemero de adjetivos do texto todo e os adjetivos inseridos nos SN
pode-se notar um ganho expressivo pois se tem uma reduccedilatildeo de 18 adjetivos Destes dados
133 verbos foram descartados (novamente afirma-se da importacircncia dos SN que representam a
unidade significativa do texto) Tambeacutem se observa que 37 adveacuterbios natildeo foram incluiacutedos
diminuindo assim o nuacutemero de descritores
Estes dados apontam aspectos positivos que consolidam a importacircncia da utilizaccedilatildeo
dos SN na diminuiccedilatildeo de descritores com consequumlente reduccedilatildeo do uso de memoacuteria e ainda
melhora na fase de busca pelo tempo de resposta
A Figura 23 apresenta o comparativo entre o percentual do nuacutemero de palavras do
texto com o percentual do nuacutemero de palavras dos Sintagmas Nominais Isto mostra que o
percentual de SN de 64 tem um valor reduzido colaborando para um nuacutemero menor de
descritores desta forma restringe-se tambeacutem o uso de memoacuteria (neste caso ocupado na fase
de indexaccedilatildeo) reduzem-se os descritores e diminui-se o tempo de resposta na fase de busca
Estes dados natildeo satildeo somente relevantes frente a um modelo de RI mas corroboram para a
manutenccedilatildeo do seu funcionamento
62
Dados Comparativos - Nordm de palavras restantes e dos SNs
64
36 Nordm de palavras dossintagmas nominaisNordm de palavras restantes
100 - nordm total de palavras
Figura 23 Nuacutemero de palavras restantes x Sintagmas Nominais
A Figura 24 mostra que existe um percentual de 28 de adjetivos inseridos nos
Sintagmas Nominais Esses adjetivos durante o processo de nominalizaccedilatildeo conforme
Gonzalez (2005) satildeo transformados em substantivos concretos eou abstratos (se houver) Isto
aponta um nuacutemero bem inferior comparado a um texto inteiro o que promove uma diminuiccedilatildeo
de substituiccedilotildees de um adjetivo por um substantivo concreto eou abstrato que pode inferir
no significado do documento e a reduccedilatildeo destas substituiccedilotildees evita possiacuteveis erros de
interpretaccedilatildeo
Dados Comparativos - Sintagmas Nominais e adjetivos
72
28nordm de sintagmas nominais
nordm de adjetivos inseridosnos SN
Figura 24 Sintagmas Nominais e adjetivos inseridos nos SN
A extraccedilatildeo dos Sintagmas Nominais corresponde agrave primeira etapa Depois desta
extraccedilatildeo manual se agrupou os SN em quatro niacuteveis 1 2 3 e 4 (ANEXO C)
Para o desenvolvimento das demais etapas (toquenizaccedilatildeo etiquetagem morfoloacutegica
nominalizaccedilatildeo e as relaccedilotildees lexicais binaacuterias) foi escolhido o paraacutegrafo 6 do documento1
(ANEXO A)
63
A induacutestria da reciclagem do plaacutestico no Brasil tem crescido bastante em funccedilatildeo do reaproveitamento do PET que eacute usado no segmento de monofilamentos em artigos como vassouras e na induacutestria tecircxtil Conforme Ana Flores a reciclagem gera 250 mil empregos no Paiacutes dos quais 70 satildeo informais Poreacutem a maior parte do potencial de mercado ainda estaacute sendo desperdiccedilada avalia ldquoCerca de 15 do total de plaacutestico que eacute industrializado no Paiacutes eacute reciclado Em dez anos poderiacuteamos chegar a 60 como nos Estados Unidos desde que fosse implementado um conjunto de medidas incentivando essa praacuteticardquo assegura
Tabela 3 Paraacutegrafo 6 do documento1
Na etapa de toquenizaccedilatildeo e etiquetagem satildeo identificadas classes de palavras como
substantivos adjetivos adveacuterbios preposiccedilotildees artigos conjunccedilotildees e inclusive ponto No
Anexo D eacute possiacutevel visualizar essas informaccedilotildees em duas ferramentas de extraccedilatildeo
disponiacuteveis nos sites do Projeto de Linguumliacutestica Computacional Hermes da Fundaccedilatildeo
Universidade Federal do Rio Grande (FURGBrasil) e do Programa de LAEL da PUC-SP -
Programa de Estudos Poacutes-Graduados em Linguumliacutestica Aplicada e Estudos da Linguagem da
Pontifiacutecia Universidade Catoacutelica de Satildeo Paulo31
A partir desta identificaccedilatildeo adjetivos adveacuterbios e verbos satildeo transformados em
substantivos (concreto eou abstrato) quando for possiacutevel Ou ateacute mesmo o adjetivo seja o
mesmo nome (grafia) para substantivos Esse processo de nominalizaccedilatildeo no trabalho de
Gonzalez (2005) foi realizado atraveacutes da ferramenta CHAMA desenvolvida por ele mesmo
Apoacutes o processo de nominalizaccedilatildeo satildeo identificadas as RLBs (Relaccedilotildees Lexicais
Binaacuterias) conforme descrito nesta seccedilatildeo Gonzalez (2005) desenvolveu tambeacutem a ferramenta
RELLEX para identificaccedilatildeo das RLBs Para o caso do teste optou-se por fazer manualmente32
(ANEXO E) devido agrave indisponibilidade destas duas ferramentas Esta etapa tem uma
importacircncia muito grande onde satildeo reconhecidos os relacionamentos das palavras no texto
atraveacutes de identificadores A tabela 4 mostra as RLBs identificadas do paraacutegrafo 6 do
documento1 (ANEXO A) de forma manual
RLBs classificaccedilatildeo =(textil industria)
RLBS restriccedilotildees
de (industria reciclagem) de (reciclagem plastico)
de (reaproveitamento PET) de (segmento monofilamento) de (mercado potencialidade)
de (plastico totalidade) de (conjunto medida)
Tabela 4 RLBs identificadas no paraacutegrafo 6 do documento1
31 As paacuteginas disponiacuteveis satildeo hermessourceforgenethermeswebhtml e httpwww2laelpucspbrcorporaetiquetagemindexhtml32 Dicionaacuterios consultados MICHAELIS Dicionaacuterio Eletrocircnico Acesso em mar de 2006 e FERREIRA Aureacutelio Buarque de Holanda Novo Aureacutelio Seacuteculo XXI o dicionaacuterio da liacutengua portuguesa 1999
64
42 Descriccedilatildeo Formal do Modelo Proposto SINTR+
Os Sintagmas Nominais de Kuramoto em conjunto com as abordagens utilizadas no
modelo TR+ de Gonzalez promovem a utilizaccedilatildeo de conceitos orientados a objetos (OO)
porque eacute considerada a melhor metodologia para projeto de software permite uma
organizaccedilatildeo aprimorada do coacutedigo tem uma proximidade com a UML (Linguagem de
Modelagem Unificada) proporciona uma facilidade de manutenccedilatildeo do coacutedigo apresenta
menor grau de replicaccedilatildeo do coacutedigo e possibilita uma aplicaccedilatildeo em camadas o MVC33 um
padratildeo de projeto atraveacutes da Linguagem Orientada a Objetos Para compreender estes
conceitos e o desenvolvimento da modelagem proposta ressaltaram-se alguns aspectos baacutesicos
de seus fundamentos
A Linguagem UML segundo Larman (2000) expressa a modelagem de sistemas e
utiliza os conceitos orientados a objetos Como na aplicaccedilatildeo proposta trabalhar-se-aacute
especificamente apenas nas etapas de anaacutelise e projeto considera-se importante o uso da
linguagem UML por ser esta uma linguagem poderosa para expressar de modo claro e preciso
o processo de geraccedilatildeo de projetos de software Para Wazlawick (2004) esta linguagem daacute
suporte a que esse processo gere uma estrutura faacutecil de ser compreendida Para o autor isto
ocorre quando se utiliza um software autodocumentado e de faacutecil entendimento tanto em niacutevel
macro quanto em detalhes
Este autor define que o Processo Unificado (UP) estaacute associado agrave notaccedilatildeo UML e
indica que suas fases satildeo concepccedilatildeo elaboraccedilatildeo construccedilatildeo e transiccedilatildeo Conforme
Wazlawick (2004) eacute na primeira fase que se faz o levantamento dos principais requisitos e
compreende-se o sistema de forma abrangente A fase de elaboraccedilatildeo eacute constituiacuteda de anaacutelise e
projeto e a fase de construccedilatildeo corresponde agrave implementaccedilatildeo e testes
A anaacutelise de requisitos ainda segundo este autor (2004 p 24) ldquoestaacute associada ao
processo de descobrir quais satildeo as operaccedilotildees que o sistema deve realizar e quais satildeo as
restriccedilotildees que existem sobre elasrdquo Jaacute a anaacutelise de domiacutenio ldquoestaacute relacionada agrave descoberta das
informaccedilotildees gerenciadas pelo sistema ou seja agrave representaccedilatildeo e transformaccedilatildeo da
informaccedilatildeordquo (2004 p 26)
No caso de um sistema de informaccedilotildees sobre uma instituiccedilatildeo de ensino (Moacutedulo
controle de alunos) por exemplo possivelmente a anaacutelise de requisitos permitiria descobrir
que o sistema deveria controlar a data o curso e a turma em que o aluno foi matriculado o
iniacutecio e teacutermino do curso calcular automaticamente os pagamentos gerar relatoacuterios de
65
contrato especificando as claacuteusulas legais de direito e dever do aluno na Instituiccedilatildeo etc Essas
operaccedilotildees satildeo chamadas de ldquorequisitos funcionaisrdquo
Haacute tambeacutem relacionados a um sistema em construccedilatildeo os requisitos natildeo funcionais
que dizem respeito agrave operaccedilatildeo e agrave usabilidade do sistema Um exemplo de requisito natildeo-
funcional seria a necessidade de fazer a matriacutecula via Internet Essa eacute uma restriccedilatildeo de
operaccedilatildeo Um outro exemplo seria uma central de acidentes de tracircnsito onde o registro de um
dado acidente devesse ser feito em no maacuteximo 10 segundos o que demandaria um
processamento e uma interface bastante eficiente constituindo-se esse em um requisito de
usabilidade
Para as etapas de levantamento e anaacutelise de requisitos costuma ser utilizado o
diagrama de casos de uso Segundo Guedes (2004) esse diagrama possibilita a compreensatildeo
do comportamento externo do sistema por qualquer pessoa Entendem-se aqui casos de uso
segundo Larman (2000) como um documento narrativo que descreve a sequumlecircncia de eventos
(accedilotildees) de um ator (um agente externo) que usa um sistema para completar um processo e
descreve tambeacutem as respostas do sistema Pode se dizer que caso de uso eacute um cenaacuterio com
atores e ambientes Criam-se as cenas e as narrativas das mesmas ajudando a entender o que
se quer do sistema O interessante dos casos de uso eacute que os mesmos permitem que o projeto
seja construiacutedo de forma participativa por um grupo de pessoas uma vez que sua descriccedilatildeo se
daacute em uma linguagem textual e diagramaacutetica
A partir dos casos de uso eacute possiacutevel construir o modelo conceitual Conforme Larman
(2000 p 99) ldquoo modelo conceitual ilustra os conceitos significativos em um domiacutenio de
problemardquo Para Wazlawick (2004 p 102) ldquoo modelo conceitual deve descrever a
informaccedilatildeo que o sistema vai gerenciar trata-se de um artefato do domiacutenio do problema e
natildeo do domiacutenio da soluccedilatildeordquo
Eacute importante ressaltar que o modelo conceitual representa somente o aspecto estaacutetico
da informaccedilatildeo Os elementos que representam informaccedilatildeo satildeo conceitos (representados por
classes) atributos (informaccedilotildees alfanumeacutericas ligadas diretamente aos conceitos) e
associaccedilotildees (tipo de informaccedilatildeo que liga diferentes conceitos entre si)
O diagrama de casos de uso do sistema proposto foi desenvolvido no software JUDE
Community Ferramenta de Modelagem UML Um software freeware muito utilizado para a
criaccedilatildeo deste tipo de diagramas Neste software podem tambeacutem ser desenvolvidos os outros
tipos de diagramas do UML tais como de classes sequumlecircncia colaboraccedilatildeo graacuteficos de
estados
33 A sigla significa Model View e Controller
66
Os casos de uso identificados para esta aplicaccedilatildeo foram descritos em duas situaccedilotildees
A primeira eacute referente agrave pesquisa do usuaacuterio e a segunda ao gerenciamento e operaccedilatildeo do
banco de dados (BD) no niacutevel de administrador Para descobrir estes casos de uso foi
necessaacuterio primeiramente identificar os atores envolvidos com o sistema (usuaacuterio e
administrador) E na sequumlecircncia a cada grande processo reconhecido correspondeu a um caso
de uso do sistema
As Figuras 25 e 26 satildeo diagramas na UML que representam casos de uso e seus
atores As elipses significam casos de uso e os bonecos representam atores Para cada uma das
situaccedilotildees (pesquisa e gerenciamento de operaccedilatildeo do BD no niacutevel de administrador) foram
identificados os seguintes casos de uso
Figura 25 Diagrama de casos de uso da UML do sistema proposto ndash Pesquisa do Usuaacuterio
67
Figura 26 Diagrama de casos de uso da UML do sistema proposto ndash Gerenciamento e Operaccedilatildeo do BD no
niacutevel de administrador
Deve-se lembrar que na proposta deste trabalho para economia de espaccedilo de
memoacuteria foram sistematizados dois momentos o 1ordm em um armazenamento na base de dados
do documento apenas para a lista final do usuaacuterio e outro com os Sintagmas Nominais que
seratildeo armazenados na base de dados no 4ordm ou no uacuteltimo niacutevel apresentado (Figura 19) Os
niacuteveis anteriores relativos ao SN seratildeo procurados por uma programaccedilatildeo desenvolvida
relacionada diretamente com os Sintagmas Com isto natildeo haveraacute necessidade de acesso agrave
memoacuteria da base de documentos em todas as accedilotildees e esta serviraacute somente na uacuteltima escolha
do usuaacuterio tendo um ganho significativo quanto agrave rapidez de acesso aos dados da base e a natildeo
existecircncia de duplicaccedilatildeo de dados
Os casos de uso costumam ser documentados conforme Guedes (2004) por meio de
uma linguagem bastante simples fornecendo a funccedilatildeo em linhas gerais dos casos de uso
quais atores interagem com os mesmos quais etapas devem ser executadas pelo ator e pelo
sistema quais paracircmetros devem ser fornecidos e quais restriccedilotildees o caso de uso deve possuir
As Tabelas abaixo (5 a 15) apresentam as descriccedilotildees dos casos de uso do sistema proposto
referente ao gerenciamento e operaccedilatildeo do BD no niacutevel de administrador
68
Nome do Caso de Uso Inserir novo documento Caso de Uso Geral natildeo possui Ator Principal Administrador Atores secundaacuterios natildeo possui Resumo Permite ao administrador do sistema inserir arquivos na base de dados de documentos iniciando o processo de alimentaccedilatildeo de todas as demais bases de dados Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema 1) Anexar um documento 2) Verificar se documento jaacute natildeo existe na base de dados 3) Inserir o documento Restriccedilotildeesvalidaccedilotildees Apenas documentos vaacutelidos34 deveratildeo ser aceitos
Tabela 5 Descriccedilatildeo do caso de uso ndash Inserir novo documento Nome do Caso de Uso Alimentar base de dados (Documentos) Caso de Uso Geral natildeo possui Ator Principal natildeo possui Atores secundaacuterios natildeo possui Resumo Armazenar em meio fiacutesico e com seguranccedila os documentos inseridos pelo Administrador atraveacutes do sistema Preacute-condiccedilotildees Administrador anexa um documento vaacutelido Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema 1) Armazenar em base de dados os documentos anexados Restriccedilotildeesvalidaccedilotildees natildeo possui
Tabela 6 Descriccedilatildeo do caso de uso ndash Alimentar base de dados (Documentos) Nome do Caso de Uso Extrair SN de 4ordm ou uacuteltimo niacutevel Caso de Uso Geral natildeo possui Ator Principal natildeo possui Atores secundaacuterios natildeo possui Resumo Extrair do documento inserido na base de dados todos os sintagmas nominais de 4ordm ou uacuteltimo niacutevel
Preacute-condiccedilotildees o documento estar devidamente validado e inserido na base de dados Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema
1) realizar a anaacutelise do documento inserido extraindo todos os sintagmas nominais de 4ordm ou uacuteltimo niacutevel enviando informaccedilotildees para alimentaccedilatildeo de base de dados de sintagmas
Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 7 Descriccedilatildeo do caso de uso ndash Extrair SN de 4ordm ou uacuteltimo niacutevel
34 Documentos vaacutelidos satildeo considerados aqui apenas os documentos em formato de texto (como doc txt)
69
As accedilotildees do sistema da tabela 7 seguem as regras estabelecidas na seccedilatildeo 41 da paacutegina 66 Nome do Caso de Uso Tratar regras verbais Caso de Uso Geral natildeo possui Ator Principal natildeo possui Atores secundaacuterios natildeo possui Resumo Realizar o tratamento de regras verbais dos sintagmas nominais de 4ordm ou uacuteltimo niacutevel extraiacutedos do documento Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema
1) aplicar rotinas de tratamento de regras verbais e palavras no infinitivo
Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 8 Descriccedilatildeo do caso de uso ndash Tratar regras verbais
Nome do Caso de Uso Extrair SN de niacuteveis 3 2 e 1 (niacuteveis anteriores) Caso de Uso Geral natildeo possui Ator Principal natildeo possui Atores secundaacuterios natildeo possui Resumo Aplicar regras de extraccedilatildeo de sintagmas de niacuteveis 3 2 e 1 (niacuteveis anteriores) Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema
1) Definir o niacutevel apropriado de cada sintagma a partir do 4ordm ou uacuteltimo niacutevel enviando informaccedilatildeo para o usuaacuterio
Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 9 Descriccedilatildeo do caso de uso ndash Extrair SN de niacuteveis 3 2 e 1 (niacuteveis anteriores)
A tabela 9 segue a mesma regra da tabela 7
Nome do Caso de Uso Alimentar base de dados (Sintagmas) Caso de Uso Geral natildeo possui Ator Principal natildeo possui Atores secundaacuterios natildeo possui Resumo Persistir as informaccedilotildees extraiacutedas nos casos de uso ldquoExtrair SN de 4ordm ou uacuteltimo niacutevelrdquo Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema
1) Armazenar na base de dados o 4ordm ou uacuteltimo niacutevel de sintagma extraiacutedo do documento inserido
Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 10 Descriccedilatildeo do caso de uso ndash Alimentar base de dados (Sintagmas)
70
Nome do Caso de Uso Toquenizar e etiquetar Caso de Uso Geral natildeo possui Ator Principal Software Forma Atores secundaacuterios natildeo possui Resumo Submeter os sintagmas extraiacutedos ao software Forma Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema
1) Aplicar o conceito de Toquenizaccedilatildeo e Etiquetagem dos sintagmas extraiacutedos e armazenados em base de dados
Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 11 Descriccedilatildeo do caso de uso ndash Toquenizar e etiquetar
Nome do Caso de Uso Nominalizar Caso de Uso Geral natildeo possui Ator Principal Software Chama Atores secundaacuterios natildeo possui Resumo Submeter as informaccedilotildees resultantes do processo de Toquenizaccedilatildeo e Etiquetagem ao software Chama Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema
1) Aplicar o conceito de Nominalizaccedilatildeo das informaccedilotildees do documento
Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 12 Descriccedilatildeo do caso de uso ndash Nominalizar
Nome do Caso de Uso Capturar RLBs Caso de Uso Geral natildeo possui Ator Principal Software Rellex Atores secundaacuterios natildeo possui Resumo Submeter as informaccedilotildees resultantes do processo de Nominalizaccedilatildeo ao software Rellex Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema
1) Realizar o processo de captura de RLBs a partir das informaccedilotildees extraiacutedas do documento
Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 13 Descriccedilatildeo do caso de uso ndash Capturar RLBs
71
Nome do Caso de Uso Calcular peso dos descritores Caso de Uso Geral natildeo possui Ator Principal Software Peso dos Descritores Atores secundaacuterios natildeo possui Resumo Submeter as informaccedilotildees resultantes do processo de Captura de RLBs ao software Peso de Descritores Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema
1) Calcular o peso dos descritores ao resultado obtido atraveacutes da captura de RLBs do documento
Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 14 Descriccedilatildeo do caso de uso ndash Calcular peso dos descritores
Nome do Caso de Uso Alimentar base de dados (Termos e RLBs) Caso de Uso Geral natildeo possui Ator Principal natildeo possui Atores secundaacuterios natildeo possui Resumo Persistir as informaccedilotildees obtidas nos casos de uso ldquoNominalizarrdquo ldquoCapturar RLBsrdquo e ldquoCalcular peso dos descritoresrdquo na base de dados de Termos e RLBs Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema
1) Armazenar as informaccedilotildees relativas aos Termos e RLBs extraiacutedos do documento em base de dados
Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 15 Descriccedilatildeo do caso de uso ndash Alimentar base de dados (Termos e RLBs)
Apoacutes a identificaccedilatildeo dos casos de uso e suas descriccedilotildees partiu-se para o modelo
conceitual da aplicaccedilatildeo proposta
72
Figura 27 Modelo Conceitual do sistema proposto
O diagrama de classes segundo Guedes (2004) eacute considerado o mais importante e o
mais utilizado diagrama da UML Eacute o diagrama de classes que permite a visualizaccedilatildeo das
classes que iratildeo compor o sistema com os seus respectivos atributos e meacutetodos Demonstra
como as classes se relacionam complementam e transmitem informaccedilotildees entre si Pode-se
dizer que esse diagrama serve ainda como base para a construccedilatildeo de outros diagramas da
linguagem UML
A Figura 28 apresenta o diagrama de classes do modelo proposto referente agrave Pesquisa
do usuaacuterio
Foi construiacutedo um diagrama de classes (Pesquisa de Usuaacuterio) seguindo estas
definiccedilotildeesaccedilotildees
Paacutegina de Consulta refere-se a uma paacutegina HTML de pesquisa (ou seja uma
linguagem para Web) ou tambeacutem a uma interface graacutefica (GUI) para computador
desktop (cliente)
Controlador da Paacutegina conteacutem a loacutegica de negoacutecio da aplicaccedilatildeo
Classe Sintagma bean responsaacutevel por instanciar e classificar sintagmas de
diferentes niacuteveis usa o meacutetodo setSintagma para receber informaccedilotildees vindas da
paacutegina passando pelo controlador
Classe ListaSintagma cria instacircncia de array de Sintagma associando-os a
instacircncias de Documento Realiza a busca e classificaccedilatildeo destes retornando ao
controlador e posteriormente agrave paacutegina atraveacutes do meacutetodo getDocumentos
73
Classe Documento instacircncia de Documento armazenado em base de dados de
documentos
Figura 28 Diagrama de classes do sistema proposto ndash Pesquisa de Usuaacuterio
A Figura 29 apresenta o diagrama de classes do modelo proposto referente ao
Gerenciamento e Operaccedilatildeo do BD no niacutevel de administrador
Foi construiacutedo um segundo diagrama de classes seguindo estas definiccedilotildeesaccedilotildees
Paacutegina de Consulta refere-se a uma paacutegina HTML de inclusatildeo de documentos
Controlador da Paacutegina conteacutem a loacutegica de negoacutecio da aplicaccedilatildeo
Classe DocumentoBase bean responsaacutevel por instanciar um objeto que iraacute conter
o documento a inserir bem como realizar os processos de toquenizaccedilatildeo e
etiquetagem (trocando mensagens com o software FORMA) nominalizaccedilatildeo
(trocando mensagens com o software CHAMA) gerando termos e RLBs
(trocando mensagens com o software RELLEX) e por fim inserindo as
informaccedilotildees nas bases de dados
Classes Termo e RLB indicam as instacircncias de objetos termos e RLBs e deveratildeo
ser modeladas conforme especificaccedilatildeo do software RELLEX
74
Figura 29 Diagrama de classes do sistema proposto ndash Gerenciamento e Operaccedilatildeo do BD no niacutevel de
administrador
O diagrama de sequumlecircncia segundo Guedes (2004) procura determinar a sequumlecircncia de
eventos que ocorrem em um determinado processo isto eacute quais meacutetodos devem ser disparados
entre os objetos envolvidos quais condiccedilotildees devem ser satisfeitas e em que ordem durante o
processo especiacutefico Foram construiacutedos os diagramas de sequumlecircncia abaixo (Figuras 30 e 31) da
aplicaccedilatildeo proposta
75
Figura 30 Diagrama de Sequumlecircncia do sistema proposto ndash Pesquisa de Usuaacuterio
76
Figura 31 Diagrama de Sequumlecircncia do sistema proposto ndash Gerenciamento e Operaccedilatildeo do BD no niacutevel de administrador
Na elaboraccedilatildeo dos diagramas e descriccedilotildees dos casos de uso e dos diagramas de
classes e de sequumlecircncia observou-se a importacircncia do modelo conceitual porque permitiu
orientar as etapas de desenvolvimento do modelo proposto Visto que no modelo conceitual
foram criados conceitos atributos e associaccedilotildees referentes agrave particularidade da pesquisa que
puderam ser utilizados para a construccedilatildeo das etapas dos diagramas
77
5 CONCLUSAtildeO
Neste capiacutetulo apresentam-se as consideraccedilotildees finais incluindo os aspectos relativos
agraves dificuldades aos progressos e limitaccedilotildees encontradas durante o desenvolvimento da
pesquisa bem como as sugestotildees para a continuidade deste trabalho
O objetivo geral que norteou este trabalho levou ao estudo dos modelos de busca e ao
desenvolvimento de uma proposta para a melhoria dos processos de recuperaccedilatildeo de
informaccedilotildees
Centrando-se no tema Recuperaccedilatildeo de Informaccedilatildeo foram analisados os modelos de
Kuramoto (1999) e posteriormente de Gonzalez (2005) O modelo de Kuramoto baseado
em uma estrutura hieraacuterquica de sintagmas nominais possibilita ao usuaacuterio definir melhor a
sua query de busca A Estrutura de Qualia do Leacutexico Gerativo de Pustejovsky contribuiu para
o entendimento das relaccedilotildees e da estrutura de construccedilatildeo de significado entre as palavras
permitindo o tratamento de questotildees semacircnticas como a polissemia loacutegica A proposta de
Gonzalez apropriando-se dos resultados de Pustejovsky evidencia caracteriacutesticas
morfoloacutegicas e relaccedilotildees de coesatildeo importantes na descriccedilatildeo de conceitos presentes em um
texto propiciando que um texto possa computacionalmente significar mais do que uma
sequumlecircncia de palavras
Buscou-se uma siacutentese dessas propostas identificando as possibilidades de ampliaccedilatildeo
do modelo de Kuramoto pela junccedilatildeo da teoria do Leacutexico Gerativo de Pustejovsky utilizadas
nesta dissertaccedilatildeo a partir do modelo de Gonzalez que se manteve adequado devido ao fato de
que o autor apresenta processos para as fases de indexaccedilatildeo busca e classificaccedilatildeo de RI Os
termos e relacionamentos inseridos na base de dados do modelo TR+ de Gonzalez estatildeo
implicitamente relacionados com a Estrutura de Qualia do LG
O novo modelo SINTR+ aleacutem do suporte ao usuaacuterio envolve a anaacutelise a
sistematizaccedilatildeo e a ampliaccedilatildeo do modelo de Kuramoto com a utilizaccedilatildeo da estrutura TR+ de
Gonzalez (2005) para a melhoria e a otimizaccedilatildeo do processo de seleccedilatildeo dos documentos
recuperados em uma busca
O estudo e a descriccedilatildeo do modelo em UML permitiu por ser uma linguagem
poderosa expressar de modo mais claro e preciso o modelo SINTR+ Foi construiacuteda a anaacutelise
de domiacutenio do sistema desejado incluindo o desenvolvimento de diagramas de casos de uso
bem como suas descriccedilotildees do modelo conceitual de diagramas de classes e de sequumlecircncia As
78
fases de anaacutelise e projeto desenvolvidas para a aplicaccedilatildeo proposta datildeo suporte agrave continuidade
do seu desenvolvimento
O novo modelo desenvolvido foi projetado como um sistema de recuperaccedilatildeo de
informaccedilatildeo (SRI) aplicaacutevel a bases de dados natildeo distribuiacutedas abrangendo a um determinado
domiacutenio de aplicaccedilatildeo a sua adequaccedilatildeo e expansatildeo para uso na Web constitui-se em uma
importante linha de continuidade de pesquisa
A principal contribuiccedilatildeo deste trabalho estaacute na sistematizaccedilatildeo e siacutentese das teorias de
Kuramoto com Gonzalez indicando o uso dessas teorias como uma nova alternativa para a
melhoria da busca de recuperaccedilatildeo de informaccedilotildees Os modelos de recuperaccedilatildeo simplesmente
buscavam as informaccedilotildees solicitadas pelo usuaacuterio O novo modelo proposto SINTR+ baseia-
se na interaccedilatildeo entre o usuaacuterio e a maacutequina atraveacutes de Sintagmas Nominais por niacuteveis e
tambeacutem nas relaccedilotildees das palavras conforme o modelo de Gonzalez
Com este trabalho natildeo se pretendeu desenvolver uma implementaccedilatildeo completa do
modelo construiacutedo Mas o trabalho conseguiu mostrar a exequumlibilidade desta implementaccedilatildeo
computacional descrevendo os diagramas e as descriccedilotildees dos casos de uso e a sua modelagem
conceitual culminando com a construccedilatildeo dos diagramas de classes e de sequumlecircncia A proacutexima
etapa que permitiria detalhar as potencialidades e limitaccedilotildees do modelo de forma ampla
poderia se constituir em amplos estudos de casos onde se determinaria a complexidade
computacional da implementaccedilatildeo requerida
Os dados apresentados no capiacutetulo 4 jaacute indicam aspectos positivos que consolidam a
importacircncia da utilizaccedilatildeo dos Sintagmas Nominais na diminuiccedilatildeo de descritores para
manipulaccedilatildeo com um ganho bastante significativo porque os iacutendices possuem informaccedilotildees
relevantes dos documentos (conceitos significativos de uma sentenccedila) e com isto agiliza-se a
pesquisa na base de dados Quer-se crer aqui e um estudo mais amplo poderia determinar que
essa reduccedilatildeo de descritores natildeo deve ter nenhum impacto na qualidade da busca realizada
Outro aspecto significativo eacute a reduccedilatildeo do uso de memoacuteria tanto na fase de indexaccedilatildeo
como na de busca tornando mais raacutepido o processo interno
Outro aspecto positivo se refere agrave melhoria de desempenho como um todo pois
quanto menor o traacutefego em uma rede menos informaccedilotildees o servidor vai processar e estaraacute
mais disponiacutevel E quanto melhor for o processo de indexaccedilatildeo menos memoacuteria o servidor vai
utilizar E com isto o tempo de resposta na fase de busca diminui e o resultado qualitativo da
pesquisa se amplia
79
Uma outra vantagem eacute que no modelo SINTR+ seratildeo armazenados na base de dados
os documentos e seus SN de uacuteltimos niacuteveis e manipulados apenas os uacuteltimos niacuteveis da
estrutura de SN Seraacute soacute atraveacutes de uma programaccedilatildeo que seratildeo classificados por niacuteveis
diminuindo assim o volume duplicado de dados na manipulaccedilatildeo
Os diagramas construiacutedos referentes ao gerenciamento e operaccedilatildeo do BD no niacutevel do
administrador satildeo fundamentais para o entendimento do funcionamento e da manutenccedilatildeo do
banco de dados facilitando processos como a inserccedilatildeo de novos documentos e outras accedilotildees
contribuindo tambeacutem para o diferencial deste trabalho
80
6 REFEREcircNCIAS BIBLIOGRAacuteFICAS
ABRAHAtildeO Paulo Ricardo Carneiro Modelagem e Implementaccedilatildeo de um Leacutexico Semacircntico para o Portuguecircs Dissertaccedilatildeo (Mestrado) Porto Alegre PUCRS 1997
ABREU Sandra C GOULART Rodrigo VIEIRA Renata (2004) Identificaccedilatildeo de Expressotildees Anafoacutericas e Natildeo Anafoacutericas com Base na Estrutura do Sintagma 2ordm Workshop em Tecnologia da Informaccedilatildeo e da Linguagem Humana (TIL 2004) - SalvadorBA - 05 e 06 de agosto de 2004 Disponiacutevel em httpwwwinfunisinosbr~renatalaboratoriopublicacoestilsandra04pdf Acesso em nov de 2004
BAEZA-YATES Ricardo RIBEIRO-NETO Berthier Modern Information Retrieval New York Addison-Wesley 1999
CARDOSO Olinda N P Recuperaccedilatildeo de Informaccedilotildees In Infocomp-Journal of Computer Science vol 2 n 1 Lavras MG 2000 p33-38 Disponiacutevel em httpwwwdccuflabrinfocompartigosv21olindapdf Acesso em mar de 2004
CHISHMAN Rove et al Extraccedilatildeo de Sintagmas Nominais para o Processamento de Co-Referecircncia In V Encontro para o processamento computacional do Portuguecircs escrito e falado (PROPOR 2000) Atibaia - Satildeo Paulo Anais do V Encontro para o processamento computacional do Portuguecircs escrito e falado Satildeo Carlos ICMCUSP 2000 Disponiacutevel em httpwwwinfunisinosbr~renatalaboratoriopublicacoespropor00pdf Acesso em jan de 2005
FERNEDA Edberto Recuperaccedilatildeo de Informaccedilatildeo anaacutelise sobre a contribuiccedilatildeo da ciecircncia da computaccedilatildeo para a ciecircncia da informaccedilatildeo Tese (Doutorado) Satildeo Paulo USP Escola de Comunicaccedilatildeo e Artes 2003 Disponiacutevel em httpwwwtesesuspbrtesesdisponiveis2727143tde-15032004-130230 Acesso em set de 2004
FERREIRA Aureacutelio Buarque de Holanda Novo Aureacutelio Seacuteculo XXI o dicionaacuterio da liacutengua portuguesa 3ed Rio de Janeiro Nova Fronteira 1999
GASPERIN C GOULART R VIEIRA R Uma ferramenta para Resoluccedilatildeo Automaacutetica de Co-referecircncia Anais do Encontro Nacional de Inteligecircncia Artificial (ENIA) Campinas SP 2003 Disponiacutevel em httpwwwexatecunisinosbr~renatalaboratoriopublicacoesart1pdf Acesso em set de 2004
81
GONZALEZ Marco Antocircnio Insaurriaga Representaccedilatildeo Semacircntica de Sentenccedilas em Linguagem Natural e sua aplicaccedilatildeo na Recuperaccedilatildeo de Informaccedilatildeo Trabalho Individual 2 Doutorado Porto Alegre PPCC da PUCRS 2000
________ O Leacutexico Gerativo de Pustejovsky sob o enfoque da Recuperaccedilatildeo de Informaccedilotildees Trabalho Individual 1 Doutorado Porto Alegre PPCC da PUCRS 2000a
________ Termos e Relacionamentos em Evidecircncia na Recuperaccedilatildeo de Informaccedilatildeo Tese (Doutorado) Porto Alegre PPGC da UFRGS 2005
GUEDES Gilleanes T A UML uma abordagem praacutetica Satildeo Paulo Novatec 2004
HILL Brad Pesquisa na Internet Rio de Janeiro Campus 1999
KURAMOTO Heacutelio Proposition drsquoum Systegraveme de Recherche drsquoInformation Assisteacutee par Ordinateur Tese (Doutorado) LrsquoUniversiteacute Lumiegravere ndash Lyon - Franccedila 1999
________ Uma abordagem alternativa para o tratamento e a recuperaccedilatildeo de informaccedilatildeo textual os sintagmas nominais Ciecircncia da Informaccedilatildeo (Brasiacutelia) v25 n2 1995 Disponiacutevel em httpdiciibictbrarchive0000016901Ci[1]Inf-2004-476pdf Acesso em mar de 2004
________ Sintagmas Nominais uma nova proposta para a recuperaccedilatildeo de informaccedilatildeo DataGramaZero Revista de Ciecircncia da Informaccedilatildeo v3 n1 fev 2002 Disponiacutevel em httpwwwdgzeroorgfev02Art_03htm Acesso em mar de 2004
LARMAN Craig Utilizando UML e Padrotildees uma introduccedilatildeo agrave anaacutelise e ao projeto orientado a objetos Porto Alegre Bookman 2000
MARTINS Dileta Silveira ZILBERKNOP Luacutebia Scliar Portuguecircs Instrumental 20ordf ed Porto Alegre Sagra Luzzatto 1999
MOURA Heronides M de M A determinaccedilatildeo de sentidos lexicais no contexto Cadernos de Estudos Linguumliacutesticos v 41 Campinas SP 2001 NETO Magdiel Medeiros Aragatildeo A polissemia em palavras designativas de objetos fiacutesicos e eventos 2003 Disponiacutevel em httpwwwabralinorgbranaishtm Acesso em mai de 2004
________A Polissemia de acordo com a Teoria do Leacutexico Gerativo Satildeo Miguel do Oeste SC Revista do Centro de Ciecircncias da Comunicaccedilatildeo e Artes n6 maiago 2003a
82
PUSTEJOVSKY James The Generative Lexicon Association for Computational Linguistics Computer Science Department Brandeis University Cambridge MA The MIT Press 1991 Disponiacutevel em httpportalacmorgcitationcfmid=176324 Acesso em set de 2004
ROSSI Albertina Palavras Polissecircmicas entre evento e informaccedilatildeo e seu tratamento nos dicionaacuterios Aureacutelio e Houaiss Tese (Doutorado) Florianoacutepolis USFC Centro de Comunicaccedilatildeo e Expressatildeo - Programa de Poacutes-Graduaccedilatildeo em LetrasLinguumliacutestica 2003
SILVA Edna Luacutecia da Metodologia da pesquisa e elaboraccedilatildeo de dissertaccedilatildeo Edna Luacutecia da Silva Estera Muszkat Menezes ndash 2a ed revndash Florianoacutepolis Laboratoacuterio de Ensino a Distacircncia da UFSC 2001 Disponiacutevel em httpprojetosinfufscbrarquivosMetodologia20da20Pesquisa203a20edicaopdf Acesso em mai de 2005
SILVA Maria C de S KOCH Ingedore V Linguumliacutestica aplicada ao portuguecircs sintaxe 5ed Satildeo Paulo Cortez 1993
WAZLAWICK Raul Sidnei Anaacutelise e Projeto de Sistemas de Informaccedilatildeo Orientados a Objetos Rio de Janeiro Elsevier 2004
61 Bibliografia Consultada
BRAumlSCHER Marisa A Ambiguumlidade na Recuperaccedilatildeo da Informaccedilatildeo Revista Ciecircncia da Informaccedilatildeo (Brasiacutelia) v3 n1 2002 Disponiacutevel em httpwwwdgzorgbrfev02Art_05htm Acesso em abr de 2004
CARVALHO Niacutevea M de Melo Recuperaccedilatildeo da informaccedilatildeo implementaccedilatildeo e avaliaccedilatildeo de sistema de recuperaccedilatildeo de informaccedilatildeo utilizando o modelo vetorial Dissertaccedilatildeo (Mestrado) Amazonas Universidade Federal do Amazonas Programa de Poacutes-Graduaccedilatildeo em Informaacutetica 2002 Disponiacutevel em httpposfacomufubr~reneacervosriRI-ModeloVetorial-NiveaCarvalhopdf Acesso em Ago de 2004
FODOR Jerry LEPORE Ernie The emptiness of the Lexicon Critical Reflections on J Pustejovskyrsquos The Generative Lexicon Rutgers University Center for Cognitive Science
83
GOMES Andreacuteia de Faacutetima R O singular nu e a sentenccedila geneacuterica no portuguecircs brasileiro Dissertaccedilatildeo (Mestrado) Florianoacutepolis UFSC Programa de Poacutes-Graduaccedilatildeo em Linguumliacutestica 2001
GONZALEZ Marco LIMA Vera L S de Sintagma Nominal em Estrutura Hieraacuterquica Temaacutetica na Recuperaccedilatildeo de Informaccedilatildeo Anais ENIA 2001 Fortaleza 2001 Disponiacutevel em httpwwwinfpucrsbr~gonzalezdocssnehtpdf Acesso em dez 2005
________ T-Lex Thesaurus com Estruturaccedilatildeo Semacircntica e Operaccedilotildees Gerativas XXVII Conferencia Latinoamericana de Informatica (CLEI2001) Ciudad de Meacuterida Venezuela 2001 Disponiacutevel em httpwwwinfpucrsbr~gonzalezdocsartigotlexpdf Acesso em jan de 2006 (httpwwwinfpucrsbr~gonzalezpesqqhtm)
________ Recuperaccedilatildeo de Informaccedilatildeo e Processamento da Linguagem Natural XXIII Congresso da Sociedade Brasileira de Computaccedilatildeo Campinas 2003 Anais do III Jornada de Mini-Cursos de Inteligecircncia Artificial Disponiacutevel em httpwwwinfpucrsbr~gonzalezdocsminicurso-jaia2003pdf Acesso em jan de 2006
HEIDE Ann Guia do Professor para a Internet completo e faacutecil 2ed Porto Alegre Artes Meacutedicas Sul 2000
MOURA Heronides M de M Linguagem e cogniccedilatildeo na interpretaccedilatildeo de metaacuteforas Universidade Federal de Juiz de Fora Editora UFJF 2003 Disponiacutevel em httpwwwrevistaveredasufjfbrvolumesv6n1cap11pdf Acesso em jan de 2006
PARREIRAS Fernando O uso de sintagmas nominais como fonte de descritores para textos de perioacutedicos cientiacuteficos Escola de Ciecircncia da Informaccedilatildeo Belo Horizonte 2003 Disponiacutevel em httpwwwfernandoparreirasnombrpublicacoessnpdf Acesso em set de 2004
PEacuteREZ Claacuteudia C C GASPERIN Caroline VIEIRA Renata Extraccedilatildeo Semi-Automaacutetica de Conhecimento a partir de Textos 2003 Disponiacutevel em httpwwwinfunisinosbr~renatalaboratorio publicacoesenia2003-submittedpdf Acesso em ago de 2005
PIZZATO Luiz A Estrutura Multitesauro para Recuperaccedilatildeo de Informaccedilotildees Dissertaccedilatildeo (Mestrado) Porto Alegre PUCRS Faculdade de Informaacutetica - Poacutes-Graduaccedilatildeo em Ciecircncia da Computaccedilatildeo 2003 Disponiacutevel em httpwwwpucrsbrunipoainfoposdissertacoesarquivospizzatopdf Acesso em ago de 2004
84
PUSTEJOVSKY James Type Construction and the logic of concepts Disponiacutevel em httpwwwcsbrandeisedu~jamesparticlesindexhtml Acesso em set de 2004
________ The Metaphysics of Words in Context (2000) Disponiacutevel em httpwwwcsbrandeisedu~jamesparticlesindexhtml Acesso em set de 2004
________ The Semantics of Agentive Nominals Disponiacutevel em httpwwwcsbrandeisedu~jamesparticlesindexhtml Acesso em set de 2004
WORDNET a lexical database for the English language Cognitive Science Laboratory Princeton University Disponiacutevel em httpwordnetprincetonedu Acesso em jan de 2006
85
ANEXOS
86
ANEXO A - DOCUMENTO1
Endereccedilo na Web http wwwreciclaveiscombranamghtm
Segunda-feira 28 de agosto de 2000 - Nuacutemero 599 Cresce a induacutestria de reciclagem de plaacutesticos Poreacutem potencial do lixo domeacutestico ainda eacute pouco aproveitado no estado A induacutestria de reciclagem foi a que mais cresceu no setor plaacutestico de Santa Catarina nos uacuteltimos cinco anos No periacuteodo o volume reprocessado no estado cresceu 1664 ao ano atingindo 169 mil toneladas em 1999 Isso equivale a 37 do total transformado pelo setor em Santa Catarina Os dados fazem parte de estudo elaborado pela empresa de consultoria MaxiQuim de Porto Alegre para o Sindicato da Induacutestria de Material Plaacutestico no Estado de Santa Catarina (Simpesc) Contudo esse crescimento reflete mais o reaproveitamento de resiacuteduos gerados em processos industriais do que a reciclagem de lixo domeacutestico como embalagens e garrafas o chamado plaacutestico ldquopoacutes-consumordquo Este segmento cresce de maneira menos acelerada devido a problemas como a necessidade de escala de produccedilatildeo falta de linhas de financiamento e ausecircncia de legislaccedilatildeo que estimule a atividade ldquoEmbora a reciclagem do material poacutes-consumo como sacos embalagens e garrafas esteja aumentando em Santa Catarina a maior parte do crescimento verificado entre 1995 e 1999 refere-se a empresas que utilizam resiacuteduos industriais como mateacuteria-primardquo explica o diretor da MaxiQuim Joatildeo Luiz Zuntildeeda Normalmente chamadas de aparas esses resiacuteduos incluem tambeacutem as peccedilas que natildeo atingiram a qualidade necessaacuteria para ir ao mercado As oito empresas catarinenses de reciclagem de plaacutestico tecircm 383 empregados sem considerar o pessoal que trabalha na coleta de lixo atividade que geralmente eacute informal O valor da produccedilatildeo atingiu R$ 4249 milhotildees em 1999 com crescimento meacutedio de 1526 ao ano nos uacuteltimos cinco anos jaacute descontando a inflaccedilatildeo As empresas de transformaccedilatildeo de plaacutestico estatildeo cada vez mais preocupadas em recuperar o material que antes era perdido devido ao alto custo da resina virgem diz Nelson Pradella proprietaacuterio da empresa Recicle-Ville ldquoIsso eacute fundamental para que elas sejam competitivas pois vendendo os resiacuteduos do processo industrial como sucata as empresas obtecircm menos de 20 do valor da resina virgemrdquo Cobrando 30 do preccedilo da resina virgem a Recicle-Ville devolve para a induacutestria seus resiacuteduos em condiccedilotildees de serem utilizados normalmente no processo produtivordquo explica A empresa de Joinville foi uma das firmas que ajudou a elevar os iacutendices desta induacutestria no estado Ateacute agora ela estava trabalhando apenas com mateacuteria-prima gerada nos processos industriais mas isso deve mudar a partir desta semana Criada haacute um ano a empresa reprocessa cerca de 220 toneladas de plaacutestico por mecircs e estaacute aumentando a sua capacidade para 310 toneladas Ela ainda opera basicamente como terceirizada de empresas de processamento de plaacutesticos reprocessando para elas os resiacuteduos que geram e devolvendo essa mateacuteria em forma granular mesmo estado da resina virgem Como a mateacuteria prima reciclada seraacute utilizada para fazer o mesmo produto que originou a
4
3
2
1
87
apara a qualidade final natildeo eacute afetada Mas a Recicle-Ville estaacute ingressando tambeacutem no segmento de reciclagem do plaacutestico poacutes-consumo A partir desta semana a empresa coloca em funcionamento um sistema de coleta junto a escolas do municiacutepio para recolher materiais plaacutesticos como sacos garrafas e tampinhas apostando principalmente no PET Com isso ela tem a vantagem de receber material mais limpo A contaminaccedilatildeo do plaacutestico pelo lixo orgacircnico eacute justamente um dos principais problemas para o crescimento da induacutestria da reciclagem do lixo domeacutestico A simples separaccedilatildeo do lixo orgacircnico do seco jaacute traria um impulso importante para o setor diz Ana Flores diretora do departamento de meio ambiente e desenvolvimento sustentado da Federaccedilatildeo das Induacutestrias do Estado de Satildeo Paulo (Fiesp) e autora do livro ldquoO dinheiro estaacute no lixo ndash recicle essa ideacuteiardquo ldquoDeveriam ser criados mecanismos de estiacutemulo para a reciclagem Na Holanda por exemplo uma Coca-Cola custa US$ 220 Devolvendo a garrafa acontece o reembolso de US$ 1 Vocecirc acha que algueacutem vai jogaacute-la no lixordquo diz A induacutestria da reciclagem do plaacutestico no Brasil tem crescido bastante em funccedilatildeo do reaproveitamento do PET que eacute usado no segmento de monofilamentos em artigos como vassouras e na induacutestria tecircxtil Conforme Ana Flores a reciclagem gera 250 mil empregos no Paiacutes dos quais 70 satildeo informais Poreacutem a maior parte do potencial de mercado ainda estaacute sendo desperdiccedilado avalia ldquoCerca de 15 do total de plaacutestico que eacute industrializado no Paiacutes eacute reciclado Em dez anos poderiacuteamos chegar a 60 como nos Estados Unidos desde que fosse implementado um conjunto de medidas incentivando essa praacuteticardquo assegura Para a diretora da Fiesc os principais entraves satildeo o aspecto cultural a tributaccedilatildeo incidente na reciclagem do plaacutestico a falta de linhas de financiamento e a ausecircncia de uma legislaccedilatildeo ambiental mais rigorosa ldquoHaacute um contra-senso ecoloacutegico que forccedila a clandestinidade no Brasil onde para fabricar garrafa PET virgem paga-se IPI de 10 e para a reciclagem 12rdquo critica Ana afirma que essa tributaccedilatildeo decorre do interesse governamental em incentivar a induacutestria quiacutemica Outro problema apontado eacute que ao contraacuterio da induacutestria do alumiacutenio que eacute concentrada o predomiacutenio das pequenas empresas na transformaccedilatildeo do plaacutestico dificulta que sejam criadas grandes empresas para reprocessar o lixo Para Flores o sucesso brasileiro na reciclagem do alumiacutenio (o iacutendice eacute de 65 um dos mais altos do mundo) decorre da existecircncia de poucas grandes empresas capitalizadas ldquoAs pequenas empresas natildeo tecircm acesso agraves linhas de creacutedito e isso dificulta a abertura de novas recicladorasrdquo diz Flores Mas haacute quem aponte outros desafios a superar ldquoEmbora seja um mercado que deve crescer muito a reciclagem de plaacutestico natildeo eacute tatildeo simples como normalmente aparece na televisatildeo O volume miacutenimo para que a atividade seja economicamente viaacutevel atendendo a todas as exigecircncias legais eacute de 100 toneladas mecircsrdquo diz Ronaldo Cerri soacutecio da Moinhos Rone de Satildeo Paulo que fabrica equipamentos utilizados na moagem do plaacutestico uma das primeiras etapas da reciclagem Aleacutem disso explica a coleta do plaacutestico eacute mais complicada porque ao contraacuterio das latas de alumiacutenio - que podem ser amassadas o volume fiacutesico eacute maior ldquoHoje entre 70 e 80 dos moinhos que vendemos satildeo para reciclagem de resiacuteduos industriaisrdquo informa (Elmar Meurer de Joinville)
copy GAZETA MERCANTIL
9
8
7
6
5
88
ANEXO B - DOCUMENTO2
Cuidados com o Lixo
Endereccedilo na Web httpwwwpoupetempocombrambientelixohtm
Todos os seres vivos quando morrem apodrecem plantas e animais se decompotildeem e satildeo destruiacutedos por larvas bacteacuterias e fungos e reabsorvidos pela terra pela aacutegua pelo ar Eacute o ciclo da natureza morte decomposiccedilatildeo nova vida e crescimento Tudo o que eacute fabricado pelo homem acaba virando lixo Muito desse lixo natildeo se decompotildee facilmente como a mateacuteria orgacircnica e passa a ser um problema Plaacutesticos latas e vidros demoram muitos anos para se decompor e poluem o meio-ambiente Por isso a importacircncia da reciclagem do lixo fabricado pelo ser humano O lixo eacute formado por resiacuteduos soacutelidos natildeo biodegradaacuteveis e que demoram para se decompor Restos de alimentos folhas e frutas satildeo chamados lixo orgacircnico Existem tambeacutem aleacutem do lixo domiciliar o lixo industrial o de vias puacuteblicas e o hospitalar que necessitam de tratamentos especiais pois oferece perigo agrave sauacutede das pessoas Devido ao aumento da populaccedilatildeo das grandes cidades e com o aumento do consumo de produtos a quantidade de lixo tambeacutem tem aumentado O acuacutemulo de lixo eacute um dos principais problemas nas grandes cidades Muitos materiais que vatildeo para o lixo natildeo podem ser desperdiccedilados podendo ser reaproveitados e reutilizados Material orgacircnico Tudo o que eacute resto de comida de animais de plantas e frutas eacute considerado lixo propriamente dito Ou seja vocecirc deve acondicionaacute-los num uacutenico recipiente Essa material eacute recolhido pela prefeitura e levado para aterros sanitaacuterios onde vatildeo sofrer a decomposiccedilatildeo natural Material reciclaacutevel Eacute praticamente tudo o que eacute fabricado pelo homem material plaacutestico latas de alumiacutenio e ferro garrafas de refrigerante de vidro e PET caixas de papel e papelatildeo jornais revistas livros aparas de papel etc Se vocecirc mora em casa reuacutena-se com sua famiacutelia e com seus funcionaacuterios para estabelecer um meacutetodo de separaccedilatildeo desse material Dependendo do seu volume diaacuterio de lixo escolha 4 recipientes coloridos para acondicionaacute-los azul para papel vermelho para plaacutestico verde para vidro e amarelo para metal ou nomeie cada um deles conforme sua classificaccedilatildeo Se vocecirc mora em condomiacutenio faccedila esse mesmo trabalho reunindo os moradores estabelecendo regras e instruindo os empregados Observaccedilatildeo o lixo orgacircnico deve estar separado daquilo que eacute reciclaacutevel Exemplos Providencie uma caixa resistente ou sacolas e fixe nelas um papel com a identificaccedilatildeo do tipo de lixo vidro e nela vaacute acumulando as garrafas Retire aneacuteis e roacutetulos e lave as garrafas para natildeo acumular insetos Na outra caixa vaacute juntando o lixo papel aparas embalagens de papelatildeo as perdas da impressora jornais e revistas velhas etc Latas de conserva satildeo de ferro e as de refrigerante satildeo de alumiacutenio Elas devem ser acumuladas limpas sem roacutetulo e em caixas separadas As de alumiacutenio podem ser amassadas como uma sanfoninha o que economizaraacute espaccedilo Quando as caixas estiverem cheias elas devem ser encaminhadas para entidades que trabalham com material reciclaacutevel ou simplesmente recolhida pela empresa de sua cidade responsaacutevel pela coleta seletiva Consulte a prefeitura local
89
A destinaccedilatildeo do material para reciclagem pode ser feita de vaacuterias formas Uma famiacutelia mais pobre pode utilizar esse material vendendo para cooperativas e empresas especializadas e conseguir um dinheiro extra Os condomiacutenios de melhor padratildeo econocircmico podem utilizar o resultado da separaccedilatildeo do lixo para reciclagem em benefiacutecio de seus funcionaacuterios propiciando a eles um ganho extra na ajuda da triagem desse material Uma outra forma eacute simplesmente entregar todo o material para as prefeituras que jaacute possuem o meacutetodo de coleta seletiva Ajude a melhorar o meio-ambiente Eacute simples pense antes de comprar Metade do que noacutes compramos eacute lixo Satildeo embalagens que quase sempre natildeo servem para nada e vatildeo direto para o lixo Evite embalagens plaacutesticas elas satildeo pouco reciclaacuteveis enquanto o vidro eacute totalmente reciclaacutevel e muito mais uacutetil no seu reaproveitamento Algumas informaccedilotildees sobre materiais produzidos pelo homem TEMPO DE DECOMPOSICcedilAtildeO DE ALGUNS MATERIAIS
Lenccedilo de papel 3 meses Palito de foacutesforo 6 meses Caroccedilo de maccedilatilde 6 a 12 meses Ponta de cigarro 1 a 2 anos Chiclete 5 anos Lata de accedilo 10 anos Garrafa de plaacutestico 100 anos Garrafa de vidro Mais de 1000 anos Lata de alumiacutenio Natildeo se corroacutei nunca
Plaacutestico riacutegido Leve resistente e praacutetico eacute o material que compotildee cerca de 60 das embalagens plaacutesticas como garrafas de refrigerantes recipientes para produtos de limpeza e higiene e potes de alimentos eacute tambeacutem mateacuteria-prima baacutesica de bombonas fibras tecircxteis tubos e conexotildees calccedilados eletrodomeacutesticos aleacutem de baldes utensiacutelios domeacutesticos e outros produtos Ele pode ser reprocessado gerando novos artefatos plaacutesticos e energia Papel ondulado eacute usado em caixas para transporte de produtos para faacutebricas depoacutesitos escritoacuterios e residecircncias Normalmente chamado de papelatildeo este material tem uma camada intermediaacuteria de papel entre suas partes exteriores disposta em ondulaccedilotildees na forma de uma sanfona O material eacute de faacutecil coleta em grandes volumes comerciais sendo facilmente identificadas quando misturadas com outros tipos de papel por isso seu susto de processamento eacute relativamente baixo Embalagens longa vida satildeo compostas de vaacuterias camadas de material dupleacutex polietileno e alumiacutenio As embalagens cartonadas precisam ser lavadas apoacutes o consumo porque os restos de alimentos contidos nelas dificultam o reprocessamento do material Para aproveitar melhor o espaccedilo as embalagens podem ser amassadas O papel existente nas embalagens cartonadas pode ser compostado para a produccedilatildeo de huacutemus utilizado em hortas e jardins Pneus a borracha e sua reciclagem eacute capaz de devolver ao processo de produccedilatildeo insumo regenerado por menos da metade do custo da borracha natural ou sinteacutetica aleacutem disso economiza energia e poupa petroacuteleo usado como mateacuteria-prima virgem e ateacute melhora as propriedades de materiais feitos com borracha Latas de alumiacutenio aleacutem de reduzir o lixo que vai para os aterros a reciclagem desse material proporciona significativo ganho energeacutetico Para reciclar uma tonelada de latas gasta-se 5 da
90
energia necessaacuteria para produzir a mesma quantidade de alumiacutenio pelo processo primaacuterio Isto significa que cada latinha reciclada equivale ao consumo de um aparelho de TV durante 3 horas A reciclagem evita a extraccedilatildeo da bauxita o mineral beneficiado para a fabricaccedilatildeo da alumina que eacute transformada em liga de alumiacutenio Vidro a metade dos recipientes de vidro eacute fabricados no Paiacutes eacute retornaacutevel Aleacutem disso o material eacute de faacutecil reciclagem pode voltar a produccedilatildeo de novas embalagens substituindo o produto virgem sem perda da qualidade Pet (polietileno tereftalato) as garrafas recicladas satildeo transformadas em cordas e fios de costura carpetes bandejas de frutas e ateacute mesmo novas garrafas Sua reciclagem aleacutem de desviar lixo plaacutestico dos aterros utiliza apenas 30 da energia necessaacuteria para a produccedilatildeo da resina virgem e tem a vantagem de poder ser reciclado vaacuterias vezes sem prejudicar a qualidade do produto final Latas de accedilo Quando reciclado o accedilo volta ao mercado em forma de automoacuteveis ferramentas vigas para construccedilatildeo civil arames vergalhotildees utensiacutelios domeacutesticos e inclusive novas latas Plaacutestico filme eacute uma peliacutecula plaacutestica normalmente usada como sacolas de supermercados sacos de lixo embalagens de leite lonas agriacutecolas e proteccedilatildeo de alimentos na geladeira ou microondas Cerca de 44 eacute papel e 4 eacute folha de alumiacutenio Ajude a melhorar o meio-ambiente
bull Reaproveite sobras e natildeo jogue fora o que puder aproveitar bull Doe roupas que possam ser reformadas ou consertadas bull Doe livros para bibliotecas ou instituiccedilotildees beneficentes bull Use produtos biodegradaacuteveis ou reciclaacuteveis bull Deixe o oacuteleo usado do motor no posto para ser reciclado bull Leve pneus sem uso para os borracheiros bull Evite jogar lixo na rua Jogue o lixo na lixeira bull Embale o lixo corretamente sempre que possiacutevel encaminhe plaacutesticos vidros e papel
para a reciclagem
91
ANEXO C - EXTRACcedilAtildeO MANUAL DE SN DOS DOCUMENTOS
DOCUMENTO1 Linha Sintagma Nominal Niacutevel
1 Plaacutesticos 1 1 Reciclagem de plaacutesticos 2 1 Induacutestria de reciclagem de plaacutesticos 3 2 Lixo 1 2 Lixo domeacutestico 1 2 Potencial do lixo domeacutestico 2 3 Reciclagem 1 3 Induacutestria de reciclagem 2 3 Plaacutestico 1 3 Setor Plaacutestico 1 3 Setor Plaacutestico de Santa Catarina 2 7 Plaacutestico 1 7 Material Plaacutestico 1 7 Induacutestria de Material Plaacutestico 2 7 Sindicato da Induacutestria de Material Plaacutestico 3 7 Sindicato da Induacutestria de Material Plaacutestico no Estado de Santa Catarina 4 8 Resiacuteduos 1 8 Reaproveitamento de resiacuteduos 2 9 Lixo 1 9 Lixo domeacutestico 1 9 Reciclagem do lixo domeacutestico 2 10 Embalagens 1 10 Garrafas 1 10 Embalagens e garrafas 2 10 Plaacutestico 1 10 Plaacutestico poacutes-consumo 1 13 Reciclagem 1 13 Reciclagem de material 2 13 Reciclagem de material poacutes-consumo 2 13 Sacos 1 13 Embalagens 1 13 Garrafas 1 13 Sacos embalagens e garrafas 2 15 Resiacuteduos 1
92
15 Resiacuteduos industriais 1 15 Resiacuteduos industriais como mateacuteria-prima 2 18 Reciclagem 1 18 Reciclagem de plaacutesticos 2 18 Empresas catarinenses de reciclagem de plaacutesticos 3 19 Lixo 1 19 Coleta de lixo 2 22 Plaacutestico 1 22 Transformaccedilatildeo de plaacutestico 2 22 As empresas de transformaccedilatildeo de plaacutestico 3 27 Resiacuteduos 1 32 Plaacutestico 1 34 Plaacutesticos 1 34 Processamento de plaacutesticos 2 34 Empresas de processamento de plaacutesticos 3 34 Terceirizada de empresas de processamento de plaacutesticos 4 34 Os resiacuteduos 1 36 Reciclada 1 36 Mateacuteria-prima reciclada 1 38 Reciclagem 1 38 Reciclagem de plaacutestico 2 38 Reciclagem de plaacutestico poacutes-consumo 2 38 Segmento de reciclagem de plaacutestico poacutes-consumo 3 39 Coleta 1 39 Coleta junto a escolas do municiacutepio 2 39 Um sistema de coleta junto a escolas do municiacutepio 3 40 Plaacutesticos 1 40 Materiais plaacutesticos 1 40 Materiais plaacutesticos como sacos garrafas e tampinhas 2 41 PET 1 43 Lixo 1 43 Lixo orgacircnico 1 43 A contaminaccedilatildeo do plaacutestico 2 43 A contaminaccedilatildeo do plaacutestico pelo lixo orgacircnico 3 44 Lixo 1
93
44 Lixo domeacutestico 1 44 Reciclagem de lixo domeacutestico 2 44 Induacutestria da reciclagem do lixo domeacutestico 3 44 O crescimento da induacutestria da reciclagem do lixo domeacutestico 4 44 Lixo 1 44 Lixo orgacircnico 1 44 A simples separaccedilatildeo do lixo orgacircnico 2 44 A simples separaccedilatildeo do lixo orgacircnico do seco 3 49 A garrafa 1 50 Lixo 1 51 Reciclagem 1 51 Reciclagem do plaacutestico 2 51 A induacutestria da reciclagem do plaacutestico 3 51 A induacutestria da reciclagem do plaacutestico no Brasil 4 52 Reaproveitamento 1 52 Reaproveitamento do PET 2 53 A reciclagem 1 55 Plaacutestico 1 56 Reciclado 1 58 Reciclagem 1 58 Reciclagem do plaacutestico 2 58 Tributaccedilatildeo incidente na reciclagem do plaacutestico 3 61 Garrafa 1 61 Garrafa PET 1 61 Reciclagem 1 63 Induacutestria Quiacutemica 1 64 Alumiacutenio 1 64 Induacutestria do alumiacutenio 2 65 Plaacutestico 1 65 Transformaccedilatildeo do plaacutestico 2 65 Empresas na transformaccedilatildeo do plaacutestico 3 65 Predomiacutenio das pequenas empresas na transformaccedilatildeo do plaacutestico 4 66 Lixo 1 69 Recicladoras 1 69 A abertura de novas recicladoras 2
94
71 Reciclagem 1 71 Reciclagem de Plaacutestico 2 74 Plaacutestico 1 74 Moagem do plaacutestico 2 74 Reciclagem 1 74 Primeiras etapas da reciclagem 2 75 Coleta 1 75 A coleta do plaacutestico 2 77 Reciclagem 1 77 Reciclagem de resiacuteduos 2 77 Reciclagem de resiacuteduos industriais 3
DOCUMENTO2
Linha Sintagma Nominal Niacutevel1 Lixo 1 1 Cuidados com o lixo 2 5 Lixo 1 5 Lixo 1 6 Mateacuteria Orgacircnica 1 6 Plaacutesticos latas e vidros 2 7 Lixo 1 7 Reciclagem do lixo 2 7 A importacircncia da reciclagem do lixo 3 9 O lixo 1 9 Resiacuteduos 1 9 Resiacuteduos soacutelidos 1 9 Resiacuteduos soacutelidos natildeo-biodegradaacuteveis 1 9 Restos de alimentos folhas e frutas 2 10 Lixo 1 10 Lixo orgacircnico 1 11 Lixo 1 11 Lixo domiciliar lixo industrial o de vias puacuteblicas e o hospitalar 3 13 Lixo 1 13 A quantidade de lixo 2
95
15 Lixo 1 15 O acuacutemulo de lixo 2 15 O lixo 1 17 Material orgacircnico 1 18 Restos de comida de animais de plantas e frutas 4 18 Lixo 1 20 Aterro sanitaacuterio 1 20 A decomposiccedilatildeo 1 20 A decomposiccedilatildeo natural 1 21 Reciclaacutevel 1 21 Material reciclaacutevel 1 22 Material plaacutestico latas de alumiacutenio e ferro garrafas de refrigerante de
vidro e PET caixas de papel e papelatildeo jornais revistas livros aparas de papel
4
24 Lixo 1 24 Volume diaacuterio de lixo 2 31 O lixo 1 31 O lixo orgacircnico 1 31 Reciclaacutevel 1 33 Lixo 1 33 Tipo de lixo 2 33 vidro 1 34 As garrafas 1 35 As garrafas 1 36 O lixo 1 36 O lixo papel aparas embalagens de papelatildeo as perdas da impressora
jornais e revistas velhas 3
38 Ferro 1 38 Alumiacutenio 1 42 Reciclaacutevel 1 42 Material reciclaacutevel 1 42 Coleta 1 42 Coleta seletiva 1 44 Reciclagem 1 44 Material para reciclagem 2 44 A destinaccedilatildeo do material para reciclagem 3
96
47 Lixo 1 47 Separaccedilatildeo do lixo 2 47 Separaccedilatildeo do lixo para reciclagem 3 47 O resultado da separaccedilatildeo do lixo para reciclagem 4 50 Coleta 1 50 Coleta seletiva 1 50 O meacutetodo de coleta seletiva 2 53 Lixo 1 53 Embalagens 1 53 O lixo 1 54 Embalagens plaacutesticas 1 54 Pouco reciclaacuteveis 1 54 O vidro 1 57 Decomposiccedilatildeo 1 57 Decomposiccedilatildeo de alguns materiais 2 57 Tempo de decomposiccedilatildeo de alguns materiais 3 67 Plaacutestico 1 67 Plaacutestico riacutegido 1 67 Embalagens plaacutesticas 1 67 Embalagens plaacutesticas como garrafas de refrigerantes recipientes para
produtos de limpeza e higiene e potes de alimentos 4
72 Papel ondulado 1 74 Coleta 1 74 Coleta em grandes volumes comerciais 2 74 Faacutecil coleta em grandes volumes comerciais 2 76 Processamento 1 76 Custo de processamento 2 77 Embalagens 1 77 Embalagens longa vida 1 79 reprocessamento 1 79 Reprocessamento do material 2 82 Hortas e jardins 2 83 Pneus 1 83 Reciclagem 1 83 A borracha e sua reciclagem 2
97
84 Borracha 1 84 Borracha natural ou sinteacutetica 1 84 O custo da borracha natural ou sinteacutetica 2 86 Latas de alumiacutenio 1 86 O lixo 1 86 A reciclagem 1 88 Reciclada 1 88 Latinha reciclada 1 89 A reciclagem 1 91 vidro 1 91 Vidro 1 91 Recipiente de vidro 2 91 Faacutecil reciclagem 1 94 PET 1 94 Recicladas 1 94 Garrafas recicladas 1 95 Reciclagem 1 95 Lixo 1 95 Lixo plaacutestico 1 95 Lixo plaacutestico dos aterros 2 97 Reciclado 1 97 Reciclado vaacuterias vezes 1 98 Latas de accedilo 2 98 Automoacuteveis ferramentas vigas para construccedilatildeo civil arames
vergalhotildees utensiacutelios domeacutesticos e inclusive novas latas 3
100 Plaacutestico filme 1 100 Sacolas de supermercado sacos de lixo embalagens de leite lonas
agriacutecolas e proteccedilatildeo de alimentos na geladeira ou microondas 3
102 Folha de alumiacutenio 2 107 Reciclaacuteveis 1 107 Produtos biodegradaacuteveis ou reciclaacuteveis 1 110 Lixo 1 110 Lixo na rua 2 110 O lixo 1 110 O lixo na lixeira 2
98
111 O lixo 111 Reciclagem 1 111 Plaacutesticos vidros e papel para reciclagem 3
99
ANEXO D - FERRAMENTA1 DE TOQUENIZACcedilAtildeO E ETIQUETAGEM
Endereccedilo na Web hermessourceforgenethermeswebhtml
Texto processado (Paraacutegrafo 6 do Documento1)
A induacutestria da reciclagem do plaacutestico no Brasil tem crescido bastante em funccedilatildeo do reaproveitamento do PET que eacute usado no segmento de monofilamentos em artigos como vassouras e na induacutestria tecircxtil Conforme Ana Flores a reciclagem gera 250 mil empregos no Paiacutes dos quais 70 satildeo informais Poreacutem a maior parte do potencial de mercado ainda estaacute sendo desperdiccedilado avalia ldquoCerca de 15 do total de plaacutestico que eacute industrializado no Paiacutes eacute reciclado Em dez anos poderiacuteamos chegar a 60 como nos Estados Unidos desde que fosse implementado um conjunto de medidas incentivando essa praacuteticardquo assegura
Resultado
A_ART induacutestria_N da_PREP+ART reciclagem_N do_PREP+ART plaacutestico_N no_PREP+ART Brasil_NP tem_VTD crescido_ADJ bastante_ADV em_PREP funccedilatildeo_N do_PREP+ART reaproveitamento_N do_PREP+ART PET_N _ que_PR eacute_VLIG usado_ADJ no_PREP+ART segmento_N de_PREP monofilamentos_N _ em_PREP artigos_N
100
como_CONJSUB vassouras_ADJ e_CONJCOORD na_PREP+ART induacutestria_N tecircxtil_NP _ Conforme_CONJSUB Ana_NP Flores_N _ a_ART reciclagem_N gera_N 250_NC mil_NC empregos_N no_PREP+ART Paiacutes_N _ dos_PREP+ART quais_PR 70_NC satildeo_VLIG informais_ADJ _ Poreacutem_VTD _ a_ART maior_ADJ parte_N do_PREP+ART potencial_N de_PREP mercado_N ainda_ADV estaacute_VLIG sendo_VLIG desperdiccedilado_VTD _ avalia_N _ Cerca_N de_PREP 15_NC do_PREP+ART total_ADJ de_PREP plaacutestico_N que_PR eacute_VLIG
101
industrializado_VTD no_PREP+ART Paiacutes_N eacute_VLIG reciclado_VTD _ Em_PREP dez_NC anos_N poderiacuteamos_VTD chegar_VTI a_ART 60_NC _ como_CONJSUB nos_PREP+ART Estados_NP Unidos_NP _ desde_PREP que_PR fosse_VLIG implementado_ADJ um_ART conjunto_N de_PREP medidas_N incentivando_VTD essa_PD praacutetica_N _ assegura_VTD _
102
ANEXO D - FERRAMENTA2 DE TOQUENIZACcedilAtildeO E ETIQUETAGEM
Endereccedilo na Web httplaelpucspbrcorporaetiquetagem
A ARTD induacutestria N da CPR reciclagem N do CPR plaacutestico N no CPR Brasil N tem V crescido PART bastante ADV em PRP funccedilatildeo N do CPR reaproveitamento N do CPR PET N PT que PRN eacute V usado PART no CPR segmento N de PRP monofilamentos N PT em PRP artigos N como ADV vassouras N e CJ na CPR induacutestria N tecircxtil ADJ PT Conforme ADJ Ana N Flores N PT a ARTD reciclagem N gera V 250 NUM mil N
103
empregos N no CPR Paiacutes N PT dos CPR quais PRN 70 NUM PT satildeo V informais ADJ PT Poreacutem CJ PT a ARTD maior ADJ parte N do CPR potencial N de PRP mercado N ainda ADV estaacute V sendo V desperdiccedilado PART PT avalia V PT ldquoCerca PRP de PRP 15 NUM PT do CPR total N de PRP plaacutestico N que PRN eacute V industrializado PART no CPR Paiacutes N eacute V reciclado PART PT Em PRP dez NUM anos N poderiacuteamos V chegar V a ARTD 60 NUM PT
104
PT como ADV nos CPR Estados N Unidos N PT desde PRP que PRN fosse V implementado PART um ARTI conjunto N de PRP medidas N incentivando V essa PRN praacuteticardquo N PT assegura V PT
105
ANEXO E - PROCESSO DE NOMINALIZACcedilAtildeO Palavra Original Classe Substantivo Abstrato Substantivo Concretotem Verbo E E crescido Verbo no particiacutepio crescimento E bastante Adveacuterbio E E eacute Verbo E E usado Verbo no particiacutepio uso usador tecircxtil Adjetivo E tecido informal Adjetivo informalidade E maior Adjetivo maioridade E potencial Adjetivo potencialidade E ainda Adveacuterbio E E estaacute Verbo E E sendo Verbo E E desperdiccedilado Verbo no particiacutepio desperdiacutecio desperdiccedilador total Adjetivo totalidade totalizador industrializado Verbo no particiacutepio industrial induacutestria reciclado Verbo no particiacutepio E reciclagem poderiacuteamos Verbo E E chegar Verbo E chegada fosse Verbo E E implementado Verbo no particiacutepio implemento implementador incentivando Verbo Incentivo incentivador
E = ausecircncia de nominalizaccedilatildeo
vii
SIGLAS
RI Recuperaccedilatildeo de Informaccedilatildeo
SRI Sistemas de Recuperaccedilatildeo de Informaccedilatildeo
SN Sintagma Nominal
LG Leacutexico Gerativo
EQ Estrutura de Qualia
SMART System for the Manipulation and Retrieval of Text
SV Sintagma Verbal
SEL Leacutexico de Enumeraccedilatildeo de Sentidos
PLC Paradigma Leacutexico-Conceitual
XML Extensible Markup Language
UML Linguagem de Modelagem Unificada
UP Processo Unificado
OO Orientado a Objetos
NG N-Grama
TT Termo-Termo
TR Termo-Relacionamento
RT Relacionamento-Termo
TR+ Termo-RelacionamentoRelacionamento-Termo
SINTR+ Sintagma Nominal com TR+
BD Banco de Dados
viii
RESUMO
Este trabalho tem como objetivo apresentar um novo modelo de sistema informatizado de suporte ao usuaacuterio no processo de recuperaccedilatildeo de informaccedilotildees A proposta consiste em apoio durante a definiccedilatildeo da query de busca e baseia-se na identificaccedilatildeo das possibilidades de sistematizaccedilatildeo e junccedilatildeo do modelo de Kuramoto com a estrutura de Gonzalez Para a sua construccedilatildeo foi necessaacuterio analisar e sintetizar o modelo de suporte ao usuaacuterio de Kuramoto (baseado na determinaccedilatildeo dos Sintagmas Nominais) a estrutura de Qualia do Leacutexico Gerativo de Pustejovsky e termos e RLBs (relaccedilotildees lexicais binaacuterias) do modelo TR+ de Gonzalez O resultado que se espera alcanccedilar eacute possibilitar a realizaccedilatildeo de uma interaccedilatildeo que venha a proporcionar uma negociaccedilatildeo adequada dos significados entre o usuaacuterio e a maacutequina negociaccedilatildeo essa que deve resultar em fator fundamental na melhoria da eficiecircncia dos processos de busca O modelo de Kuramoto baseado em uma hierarquia de Sintagmas Nominais suporta inicialmente essa interaccedilatildeo Com a definiccedilatildeo da query de busca e da Estrutura de Qualia de Pustejovsky impliacutecita no modelo TR+ de Gonzalez foi possiacutevel obter uma maior relevacircncia dos documentos recuperados atraveacutes de um caacutelculo de peso de descritores (termos e relacionamentos) evidentes nos documentos As etapas gerais do modelo proposto satildeo a extraccedilatildeo de Sintagmas Nominais e a sua hierarquizaccedilatildeo automaacutetica em niacuteveis o preacute-processamento (toquenizaccedilatildeo e etiquetagem) o processo de nominalizaccedilatildeo e a captura de RLBs Delineado preliminarmente o modelo partiu-se para as etapas de levantamento e anaacutelise de requisitos representada pelos diagramas e pelas descriccedilotildees dos casos de uso chegando-se ao desenvolvimento do seu modelo conceitual que culminou a construccedilatildeo dos diagramas de classes e de sequumlecircncia para a aplicaccedilatildeo proposta Ao final conclui-se que a alternativa indicada neste trabalho aleacutem de ser exequumliacutevel apresenta ganhos qualitativos nos resultados de uma busca em recuperaccedilatildeo de informaccedilotildees e tambeacutem quantitativos no que se refere a um menor tempo na fase de indexaccedilatildeo (rapidez) e um tamanho menor de arquivos de iacutendice gerados (memoacuteria)
Palavras-chave Recuperaccedilatildeo de Informaccedilatildeo Sintagmas Nominais Estrutura de Qualia Termos e RLBs
ix
ABSTRACT
This work has the presentation of a new model of a support information system to the user in the process of information retrieval The proposal consists in the support during the definition of a search query based on the identification of the possibilities of informatization and junction of a Kuramoto model along with the Gonzalez structure For its construction it was necessary to analyze and synthesize the support model to the Kuramoto user (base don the determination of Nominal Syntagm) the Qualia structure of the Lexical Semantics of Pustejovsky and having the LBRs (lexical binary relations) of the Gonzalez TR+ model The result we expect to reach is the possibility of actually performing an interaction that may result in an adequate negotiation of meanings between the user and the machine knowing that this negotiation should result in a fundamental factor in order for the improvement on the efficiency of the search processes The Kuramoto model based on Nominal Syntagm hierarchy initially supports this interaction With the definition of the query search and the Pustejovsky Qualia structure implicit in the TR+ Gonzalez model it was possible to obtain a greater relevance of documents recovered through a calculus of weight of describers (terms and relationships) evident in the document The general stages of the proposed model are the extraction of Nominal Syntagm and their automatic placement into hierarchy the pre-processing (tokening and labeling) the naming and capture of the LRBs After the preliminary outlining of the model we went on to the gathering of stages and requisite analysis presented by diagrams and descriptions of the usage cases finally reaching the development of a conceptual model that culminated in the construction of class diagrams and of a sequence for the proposed application As we reach the end we can conclude that the indicated alternative in this work besides being executable presents qualitative gains in the results of a search for the retrieval of information and also quantitative gains when referring to a smaller amount of time spent in the index phase (speed) and a smaller amount of archives generated (memory)
Key-words Retrieval of Information Nominal Syntagm Qualia Structure Terms e LRBs
x
SUMAacuteRIO
AGRADECIMENTOS iv
IacuteNDICE DE FIGURAS v
IacuteNDICE DE TABELAS vi
IacuteNDICE DE TABELAS vi
SIGLAS vii
RESUMOviii
ABSTRACT ix
SUMAacuteRIOx
1 INTRODUCcedilAtildeO 12
11 Objetivos13 111 Objetivo Geral 13 112 Objetivos Especiacuteficos 13
12 Metodologia13
13 Resultados Esperados e Limitaccedilotildees do Trabalho 14
14 Estrutura da Dissertaccedilatildeo 15
2 RECUPERACcedilAtildeO DE INFORMACcedilAtildeO 16
21 Histoacuterico 16
22 Modelos Claacutessicos de Recuperaccedilatildeo de Informaccedilatildeo 18 221 Modelo Booleano 18
2211 Operadores Booleanos19 2212 Operadores de Proximidade 20
222 Modelo Vetorial21 223 Modelo Probabiliacutestico 23
3 FUNDAMENTACcedilAtildeO TEacuteORICA25
31 A Proposta de Kuramoto 25 311 Extraccedilatildeo dos Sintagmas Nominais 27
3111 Extraccedilatildeo Automaacutetica de Sintagmas Nominais 29 312 A determinaccedilatildeo de uma estrutura para os SN 29
xi
313 Protoacutetipo Desenho da Interface de Busca31 314 Organizaccedilatildeo dos Sintagmas Nominais como Estrutura de Busca 32
32 A Teoria do Leacutexico Gerativo de Pustejovsky34 321 Estruturas do Leacutexico Gerativo36
3211 Estrutura de Argumento 37 3212 Estrutura de Evento 37 3213 Estrutura de Qualia 38 3214 Estrutura de Heranccedila Lexical 40
322 Sistema de Tipos Semacircnticos 41 322 Mecanismos gerativos 42
3221 Coerccedilatildeo de tipo42 3222 Ligaccedilatildeo seletiva 42 3223 Co-composiccedilatildeo 43
33 O Modelo TR+ de Gonzalez45
4 APRESENTACcedilAtildeO E DISCUSSAtildeO DO MODELO PROPOSTO 55
41 Procedimentos desenvolvidos utilizando o modelo de SN de Kuramoto e a proposta Gonzalez - ldquoEstrutura SINTR+rdquo55
42 Descriccedilatildeo Formal do Modelo Proposto SINTR+ 64
5 CONCLUSAtildeO77
6 REFEREcircNCIAS BIBLIOGRAacuteFICAS 80
61 Bibliografia Consultada82
ANEXO A - DOCUMENTO186
ANEXO B - DOCUMENTO288
ANEXO C - EXTRACcedilAtildeO MANUAL DE SN DOS DOCUMENTOS91
ANEXO D - FERRAMENTA1 DE TOQUENIZACcedilAtildeO E ETIQUETAGEM99
ANEXO D - FERRAMENTA2 DE TOQUENIZACcedilAtildeO E ETIQUETAGEM102
ANEXO E - PROCESSO DE NOMINALIZACcedilAtildeO105
12
1 INTRODUCcedilAtildeO
O tema ldquoRecuperaccedilatildeo de Informaccedilatildeordquo (RI) eacute importante para diversas aacutereas tais
como Biblioteconomia Linguumliacutestica Ciecircncia da Computaccedilatildeo entre outras Segundo Baeza-
Yates e Ribeiro-Neto (1999) na Ciecircncia da Computaccedilatildeo esse tema diz respeito agrave recuperaccedilatildeo
de dados e agrave recuperaccedilatildeo de informaccedilatildeo sendo ambos processos importantes e significativos
para a aacuterea
De acordo com os autores os sistemas de recuperaccedilatildeo de informaccedilatildeo lidam com
objetos linguumliacutesticos (textos) e por isso herdam toda a problemaacutetica inerente ao tratamento da
linguagem natural Jaacute a recuperaccedilatildeo de dados estaacute associada a sistemas gerenciadores de
banco de dados (ou simplesmente banco de dados) que ao organizaacute-los jaacute especificam de
forma bem definida a sua estrutura e por conseguinte a sua semacircntica
Um dos desafios na recuperaccedilatildeo de informaccedilatildeo conforme Ferneda (2003) diz
respeito a melhorar a relevacircncia dos resultados de uma busca de maneira que o usuaacuterio possa
encontrar todos os documentos que atendam agraves suas necessidades de informaccedilatildeo Em outras
palavras isto quer dizer que a busca seraacute precisa se conseguir retornar eou listar somente
documentos relacionados ao que o usuaacuterio expressou na definiccedilatildeo da sua busca
Diversos modelos de RI vecircm proporcionando melhorias significativas na relevacircncia
dos resultados De acordo com Baeza-Yates e Ribeiro-Neto (1999) em uma visatildeo centrada no
computador o problema de RI consiste principalmente na construccedilatildeo de iacutendices mais
eficientes no processamento de querys de usuaacuterios com alta performance e no
desenvolvimento de algoritmos de classificaccedilatildeo que melhorem a ldquoqualidaderdquo do conjunto de
respostas Apesar disso os meacutetodos utilizados nesses modelos ainda deixam a desejar natildeo
sendo capazes de recuperar a contento os documentos relevantes a uma consulta do usuaacuterio
Na maioria dos modelos de recuperaccedilatildeo de informaccedilatildeo existentes hoje o processo de
indexaccedilatildeo extrai cada palavra do texto de um documento e insere uma lista de palavras
ordenadas pela frequumlecircncia da palavra no texto Isto desfaz o trabalho intelectual do autor do
documento
Observa-se que diversas pesquisas de RI se focalizam nos algoritmos de busca por
documentos relevantes a partir de querys estabelecidas O foco nesses casos eacute determinar a
relevacircncia de documentos Para isso haacute vaacuterias metodologias desde medir o tempo de
13
permanecircncia do usuaacuterio no acesso a um documento ateacute a determinaccedilatildeo da quantidade de
consultas com querys semelhantes entre outras
Outro aspecto problemaacutetico relaciona-se ao fato de que as informaccedilotildees recuperadas
dependem tambeacutem da clareza do usuaacuterio ao expressar o que necessita Ou seja a dificuldade
natildeo se trata apenas de identificar e definir a relevacircncia dos resultados atraveacutes dos modelos
computacionais de RI que datildeo suporte ao processo da busca mas da capacidade do usuaacuterio de
formular uma expressatildeo de busca utilizando as palavras ou expressotildees de forma clara de
modo a representar os documentos desejados satisfazendo assim a sua necessidade
As palavras utilizadas pelo usuaacuterio possuem um significado claro para ele mas isso
natildeo eacute suficiente para uma boa recuperaccedilatildeo de informaccedilatildeo pois a Liacutengua Portuguesa segundo
Rossi (2003) apresenta muitas palavras iguais com significados diferentes (polissemia) que
variam de acordo com o contexto E haacute tambeacutem palavras diferentes em escrita e pronuacutencia
embora com significados iguais (sinoniacutemia) Ocorre ainda a combinaccedilatildeo de palavras que
segundo Martins e Zilberknop (1999) diz respeito a duas ou mais palavras que podem
combinar-se em ordem diferente designando ideacuteias completamente diversas
Esses aspectos da linguagem natural satildeo obstaacuteculos na obtenccedilatildeo de bons resultados
em um procedimento de recuperaccedilatildeo de informaccedilatildeo No caso da polissemia e da combinaccedilatildeo
de palavras pode ocorrer o aumento da taxa de ruiacutedos1 ou o incremento da taxa de silecircncio2
que acontecem no caso de sinoniacutemia Isto pode levar a um resultado de busca de documentos
que natildeo atenda agraves necessidades de informaccedilatildeo do usuaacuterio Portanto a existecircncia de uma
negociaccedilatildeo de significados entre usuaacuterio e maacutequina levaria possivelmente a resultados mais
relevantes
O surgimento das novas tecnologias da informaccedilatildeo e da comunicaccedilatildeo fez crescer o
volume de publicaccedilotildees na Internet Esse crescimento segundo Cardoso (2000) tem
dificultado ainda mais a recuperaccedilatildeo de informaccedilotildees relevantes Um aspecto positivo eacute a
facilidade de acesso pela Web (World Wide Web) aos acervos bibliograacuteficos de diversas
universidades brasileiras e mesmo do mundo inteiro Visto que o aumento do acervo torna
ainda mais complexa a busca por isso esperava-se que esses meacutetodos acompanhassem tal
desenvolvimento mas isto ainda natildeo aconteceu de forma satisfatoacuteria
A dificuldade aparece rapidamente nos vaacuterios mecanismos da Web como ldquoGooglerdquo
ldquoCaderdquo entre outros que ao serem acionados para buscar uma determinada informaccedilatildeo
1 Taxa de ruiacutedos eacute definida como sendo a relaccedilatildeo entre a quantidade de documentos recuperados natildeo pertinentes e a quantidade total de documentos 2 Taxa de silecircncio eacute definida como sendo a relaccedilatildeo entre a quantidade de documentos recuperados pertinentes natildeo recuperados e a quantidade total de documentos pertinentes na base de dados
14
listam centenas ou mesmo milhares de referecircncias como resposta sendo normalmente destas
relevantes apenas as primeiras Aleacutem disso ao se utilizarem as mesmas palavras em diferentes
mecanismos (sites) de pesquisa os resultados variam segundo Hill (1999) devido agraves rotinas
automatizadas de pesquisa diferenciadas
O usuaacuterio precisa ainda utilizar palavras-chave para dar foco agrave sua pesquisa Segundo
Baeza-Yates e Ribeiro-Neto (1999) o interessante seria jaacute poder dizer ldquoDecirc-me dados
estatiacutesticos sobre a equipe da seleccedilatildeo brasileira de basquete no ano de 2004rdquo Mas apesar de a
tecnologia da Internet estar progredindo ainda se estaacute bastante distante desse estaacutegio
Uma linha de pesquisa que tem como representante o trabalho de Kuramoto (1999)
procura abordar a questatildeo da RI desde a perspectiva do apoio ao usuaacuterio na formulaccedilatildeo da
query de busca A expectativa eacute oferecer jaacute no momento da formulaccedilatildeo da query um apoio
interativo para o estabelecimento de uma chave mais adequada ao contexto real da busca A
proposta de Kuramoto eacute baseada na determinaccedilatildeo dos Sintagmas Nominais (SN) de um
domiacutenio de aplicaccedilatildeo
O uso de SN permite um processo de refinamento da busca A forma de navegar
pelos niacuteveis de SN intensifica a interaccedilatildeo entre o usuaacuterio e o computador (KURAMOTO
2002) A interface de busca passa a dar um suporte para o usuaacuterio na formulaccedilatildeo de sua query
antes de listar todos os documentos
A proposta de utilizaccedilatildeo de uma interface de apoio utilizando SN configura-se como
inovadora pois natildeo se tem conhecimento de outra proposiccedilatildeo que considere o fato de que nem
sempre o usuaacuterio eacute capaz de explicitar a sua necessidade de informaccedilatildeo em uma uacutenica
expressatildeo de busca
Segundo Kuramoto (2002) as palavras como unidades de um dicionaacuterio natildeo contecircm
qualquer substacircncia Elas adquirem essa substacircncia no momento em que se inserem no
universo do discurso ou seja as palavras inseridas no texto de um documento assumem um
significado especiacutefico
Percebe-se que essa linha de pesquisa eacute bastante promissora e que a aacuterea de
Linguumliacutestica pode oferecer alternativas interessantes uma delas foi vislumbrada na teoria do
Leacutexico Gerativo (LG) de Pustejovsky (1991) Nessa teoria Pustejovsky buscando dar conta
da polissemia loacutegica das palavras propondo uma estrutura para a semacircntica de uma liacutengua da
mesma forma que a sintaxe eacute estruturada Na estrutura proposta por Pustejovsky a
componente principal eacute a estrutura de dimensotildees de significados (denominada de Estrutura de
Qualia)
15
Uma palavra escrita pelo usuaacuterio pode ser utilizada pelos documentos de um acervo
e portanto identificada pela maacutequina atraveacutes de seus modelos de RI com um sentido
completamente diferente do contexto imaginado pelo usuaacuterio Para a palavra ldquojornalrdquo por
exemplo o usuaacuterio pode estar se referindo ao preacutedio onde fica o jornal ou ao objeto fiacutesico
propriamente dito ou ateacute mesmo ao conteuacutedo do jornal (informaccedilatildeo contida)
A Estrutura de Qualia auxilia a RI na identificaccedilatildeo de qual sentido mais especiacutefico o
usuaacuterio busca dessa forma esta estrutura poderia classificar os documentos contendo a palavra
ldquojornalrdquo segundo as diferentes qualia envolvidas Isso representaria um refinamento
importante na busca que poderia resultar em mais satisfaccedilatildeo para o usuaacuterio e portanto mais
eficiecircncia dos mecanismos de busca O reconhecimento da importacircncia da teoria de
Pustejovsky pode ser constatado na existecircncia de trabalhos relacionados na liacutengua portuguesa
como eacute o caso da pesquisa de Abrahatildeo (1997) que desenvolveu a modelagem e a
implementaccedilatildeo de um leacutexico semacircntico para a nossa Liacutengua a partir de um estudo
aprofundado da teoria de Pustejovsky
Aleacutem disso uma outra questatildeo importante a ressaltar eacute que existem problemas
ligados agrave definiccedilatildeo das palavras Essa criacutetica segundo Rossi (2003) se fundamenta no fato de
os lexicoacutegrafos3 parecerem atuar de maneira mais intuitiva do que propriamente fazer uso de
teorias semacircnticas que decircem o devido suporte agrave tarefa de definir um item lexical Rossi (2003)
reforccedila que muitos dicionaacuterios nem sempre prevecircem a polissemia subjacente aos itens
lexicais
Outro trabalho pesquisado que permitiu uma ampliaccedilatildeo do modelo proposto nesta
dissertaccedilatildeo foi o de Gonzalez (2005) com o seu modelo TR+ Este modelo natildeo utiliza
sistematicamente a Estrutura de Qualia aparecendo esta apenas impliacutecita principalmente a
parte formal das palavras As palavras e seus relacionamentos ganham em Gonzalez uma
importacircncia contextual pelo caacutelculo de um peso (peso de descritores) que busca manter sua
unidade significativa
A abordagem proposta para este trabalho orienta-se na melhoria da query de busca
dos usuaacuterios A pesquisa siacutentese e sistematizaccedilatildeo da proposta de Kuramoto (1999) e do
modelo de Gonzalez (2005) possibilitaram o desenvolvimento de um novo modelo chamado
3 Lexicoacutegrafos satildeo autores de dicionaacuterios ou seja dicionaristas
de SINTR+ Esse modelo utiliza a formulaccedilatildeo de consulta em RI apresentando os Sintagmas
Nominais referentes a esta consulta e com isto inicia a interaccedilatildeo com o usuaacuterio onde o mesmo
13
escolhe o SN de niacutevel apropriado e a partir daiacute haacute sistematizaccedilatildeo com o modelo TR+ de
Gonzalez
Pretende-se por um lado ajudar e apoiar o usuaacuterio a melhor especificar sua query no
contexto real da sua busca por outro lado potencializa-se o tempo tanto na fase de indexaccedilatildeo
como na de busca e reduz-se o espaccedilo utilizado de memoacuteria para dados na base
11 Objetivos
111 Objetivo Geral
Descrever a partir da identificaccedilatildeo das possibilidades de ampliaccedilatildeo de siacutentese e de
sistematizaccedilatildeo das propostas de Kuramoto e de Gonzalez um novo modelo para um sistema
informatizado de suporte ao usuaacuterio na definiccedilatildeo da sua query de busca durante um processo
de recuperaccedilatildeo de informaccedilatildeo
112 Objetivos Especiacuteficos
a) Analisar as propostas citadas buscando a sua sistematizaccedilatildeo e identificaccedilatildeo de alternativas
de implementaccedilatildeo e ampliaccedilatildeo
b) Definir o modelo conceitual do sistema desejado atraveacutes da sua anaacutelise de domiacutenio
representando-o a partir dos seus diagramas de classes e de sequumlecircncia
c) Avaliar exploratoriamente o modelo desenhado a partir da construccedilatildeo de exemplos
demonstrativos das suas principais propriedades
12 Metodologia
Para a construccedilatildeo deste trabalho inicialmente foi realizada uma revisatildeo bibliograacutefica
a partir de livros artigos e outros materiais disponiacuteveis referentes ao assunto em questatildeo
fundamentalmente sobre a aacuterea de Recuperaccedilatildeo de Informaccedilatildeo A metodologia utilizada para
desenvolver este trabalho baseou-se no cronograma de etapas a serem desenvolvidas descritas
a seguir
14
a) Estudo e identificaccedilatildeo das diferentes alternativas e abordagens atualmente desenvolvidas
para a aacuterea de recuperaccedilatildeo de informaccedilotildees
b) Formulaccedilatildeo da proposta de trabalho definiccedilatildeo do escopo e da fundamentaccedilatildeo da proposta
c) Estudo das teorias de base para a construccedilatildeo do modelo teoria do Leacutexico Gerativo de
James Pustejovsky e o modelo de Kuramoto E apoacutes um estudo de Abrahatildeo e Gonzalez
d) Esboccedilo do modelo para o sistema proposto
e) Especificaccedilatildeo dos requisitos do sistema proposto
f) Construccedilatildeo da anaacutelise de domiacutenio definiccedilatildeo do modelo conceitual
g) Construccedilatildeo dos diagramas de classes e de sequumlecircncia para o modelo
h) Construccedilatildeo de exemplos de aplicaccedilatildeo do modelo
i) Anaacutelise e conclusotildees finais
13 Resultados Esperados e Limitaccedilotildees do Trabalho
A principal contribuiccedilatildeo deste trabalho reside no fato de sistematizar as teorias de
Kuramoto Pustejovsky e Gonzalez construindo um novo modelo que amplia as
potencialidades das propostas de Kuramoto e Gonzalez melhorando os resultados do processo
de recuperaccedilatildeo de informaccedilotildees Esta melhoria ocorre em relaccedilatildeo agrave diminuiccedilatildeo do tempo de
busca dos documentos e agrave relevacircncia dos resultados encontrados por meio da junccedilatildeo de
diferentes modelos para os processos de indexaccedilatildeo e busca
A princiacutepio o modelo construiacutedo eacute antevisto como aplicaacutevel a bases de documentos
natildeo distribuiacutedas e contidas a um determinado domiacutenio de aplicaccedilatildeo mas jaacute eacute possiacutevel
perceber formas de adaptaacute-lo expandindo-o para seu uso na Web
Este trabalho natildeo tem o intuito de gerar uma implementaccedilatildeo computacional
completa do modelo proposto propotildee-se antes a demonstrar a viabilidade desta
implementaccedilatildeo descrevendo os diagramas e as descriccedilotildees dos casos de uso e a sua
modelagem conceitual culminando a construccedilatildeo dos diagramas de classes e de sequumlecircncia A
anaacutelise das potencialidades e limitaccedilotildees do modelo deveraacute ser possiacutevel a partir da realizaccedilatildeo
de estudos de casos onde se determine a complexidade computacional da implementaccedilatildeo
requerida
15
14 Estrutura da Dissertaccedilatildeo
O trabalho apresenta um capiacutetulo introdutoacuterio que orienta os toacutepicos do projeto e o
desenvolvimento da pesquisa aleacutem de sintetizar os resultados que seratildeo explorados na
conclusatildeo
O Capiacutetulo 2 a seguir aborda temas e definiccedilotildees da aacuterea de RI mostrando a sua
histoacuteria e tambeacutem discute o funcionamento e as vantagens e desvantagens dos modelos
claacutessicos de RI
No Capiacutetulo 3 apresenta-se a fundamentaccedilatildeo teoacuterica desta dissertaccedilatildeo onde satildeo
abordados trecircs autores Primeiramente apresenta-se a Proposta de Kuramoto que se baseia nos
niacuteveis de Sintagmas Nominais sendo exposto o protoacutetipo de interaccedilatildeo entre usuaacuterio e maacutequina
desenvolvido por este autor Na Teoria do Leacutexico Gerativo de Pustejovsky deu-se ecircnfase agrave
apresentaccedilatildeo da Estrutura de Qualia pois eacute a que foi julgada mais adequada para a aplicaccedilatildeo
no modelo proposto apresenta-se tambeacutem uma anaacutelise do estudo de Abrahatildeo Por fim
discute-se e apresenta-se o trabalho de Gonzalez e do seu modelo TR+ que possibilitou
juntamente com a proposta de Kuramoto sistematizar a proposta desta dissertaccedilatildeo
No Capiacutetulo 4 eacute desenvolvida a proposta do sistema SINTR+ atraveacutes dos diagramas e
das descriccedilotildees dos casos de uso do modelo o modelo conceitual os diagramas de classes e de
sequumlecircncia juntamente com exemplos demonstrativos das suas propriedades
No Capiacutetulo 5 tecircm-se as conclusotildees referentes ao trabalho bem como as sugestotildees
para continuidade desse foco de pesquisa
O Capiacutetulo 6 apresenta as referecircncias bibliograacuteficas utilizadas para a realizaccedilatildeo deste
trabalho bem como a bibliografia consultada para a compreensatildeo de conceitos abordados na
dissertaccedilatildeo finalizando com os anexos
16
2 RECUPERACcedilAtildeO DE INFORMACcedilAtildeO
Neste capiacutetulo apresentam-se o histoacuterico e os modelos claacutessicos da aacuterea de
recuperaccedilatildeo de informaccedilatildeo O objetivo ao abordar esses toacutepicos eacute delinear uma visatildeo geral da
aacuterea a partir de diversos modelos de RI apontando algumas de suas principais vantagens e
desvantagens Dar-se-aacute destaque ao fato de que os algoritmos de relevacircncia utilizados para
recuperar os documentos desconsideram o contexto da query de busca
21 Histoacuterico
Em 1951 segundo Baeza-Yates e Ribeiro-Neto (1999) Calvin Mooers criou o termo
ldquoInformation Retrievalrdquo (Recuperaccedilatildeo de Informaccedilatildeo) e definiu os problemas a serem
abordados por esta nova aacuterea de pesquisa a qual despertou o interesse principalmente de
bibliotecaacuterios e ldquoexpertsrdquo da informaccedilatildeo
No contexto da Ciecircncia da Informaccedilatildeo segundo Ferneda (2003 p 14)
o termo ldquoRecuperaccedilatildeo de Informaccedilatildeordquo significa para uns a operaccedilatildeo pela qual se seleciona documentos a partir do acervo em funccedilatildeo da demanda do usuaacuterio Para outros ldquoRecuperaccedilatildeo de Informaccedilatildeordquo consiste no fornecimento a partir de uma demanda definida pelo usuaacuterio dos elementos de informaccedilatildeo documentaacuteria correspondentes O termo pode ainda ser empregado para designar a operaccedilatildeo que fornece uma resposta mais ou menos elaborada a uma demanda e esta resposta eacute convertida num produto cujo formato eacute acordado com o usuaacuterio (bibliografia nota de siacutentese etc) Haacute ainda autores que conceituam a recuperaccedilatildeo de informaccedilatildeo de forma muito mais ampla ao subordinar agrave mesma o tratamento da informaccedilatildeo (catalogaccedilatildeo indexaccedilatildeo classificaccedilatildeo)
Para alguns autores segundo Cardoso (2000) RI eacute dita como uma subaacuterea da Ciecircncia
da Computaccedilatildeo que estuda o armazenamento e a recuperaccedilatildeo automaacutetica de documentos que
satildeo objetos de dados geralmente textos Para Baeza-Yates e Ribeiro-Neto (1999) o termo
ldquoRecuperaccedilatildeo de Informaccedilatildeordquo trata da representaccedilatildeo do armazenamento da organizaccedilatildeo e do
acesso aos itens da informaccedilatildeo
De acordo com Ferneda (2003) foi a partir dos experimentos de Hans Peter Luhn
(Engenheiro pesquisador da IBM) na indexaccedilatildeo automaacutetica e na elaboraccedilatildeo automaacutetica de
resumos que surgiram os primeiros resultados significativos no tratamento computacional da
informaccedilatildeo Com isto ldquoLuhn foi durante vaacuterios anos o criador de inuacutemeros projetos que
visavam modificar radicalmente meacutetodos tradicionais de armazenamento tratamento e
17
recuperaccedilatildeo de informaccedilatildeo Em 1961 jaacute acumulava cerca de 80 patentes nos Estados Unidosrdquo
(FERNEDA 2003 p 10-11) Estes dados mostram a importacircncia de Luhn no tratamento da
recuperaccedilatildeo de informaccedilotildees
Em 1960 segundo Ferneda (2003) foi desenvolvido os princiacutepios baacutesicos do modelo
probabiliacutestico para a Recuperaccedilatildeo de Informaccedilatildeo por Maron e Kuhns que foi mais tarde
definido por Robertson e Jones (1976) A deacutecada de 60 foi fundamental em experimentos
desta natureza ldquoem meados dos anos 60 inicia-se uma longa seacuterie de experimentos que
constitui um marco na Recuperaccedilatildeo de Informaccedilatildeo o projeto SMARTrdquo (FERNEDA 2003
p11) Este autor destaca que este projeto foi desenvolvido por Gerard Salton que se
especializou na pesquisa destas evoluccedilotildees na recuperaccedilatildeo de informaccedilotildees produzindo
inuacutemeros artigos cientiacuteficos um modelo de recuperaccedilatildeo de informaccedilatildeo a criaccedilatildeo e o
aprimoramento de diversas teacutecnicas computacionais aleacutem de o sistema SMART
Estes sistemas de recuperaccedilatildeo de informaccedilatildeo geralmente se baseiam na contagem de
frequumlecircncia das palavras do texto e na eliminaccedilatildeo de palavras reconhecidamente de pouca
relevacircncia (FERNEDA 2003) Um exemplo disso satildeo os meacutetodos automaacuteticos de indexaccedilatildeo
de recuperaccedilatildeo de informaccedilatildeo que utilizam ldquofiltrosrdquo para eliminar palavras de pouca
significaccedilatildeo (stopwords4 e noun groups5) aleacutem de normalizar os termos reduzindo-os a seus
radicais Esse processo eacute conhecido como stemming6
Ferneda evidencia que os trabalhos de Luhn e Salton inicialmente natildeo se
preocupavam com a anaacutelise semacircntica das palavras e que seus estudos colaboraram para com
a evoluccedilatildeo atual das pesquisas
Nos trabalhos de Luhn e Salton observa-se inicialmente uma crenccedila de que meacutetodos puramente estatiacutesticos seriam suficientes para tratar os problemas relacionados agrave recuperaccedilatildeo de informaccedilatildeo Poreacutem no transcorrer de suas pesquisas percebe-se uma busca por meacutetodos de anaacutelise semacircntica mais sofisticada Desde os seus primeiros trabalhos Salton se mostra interessado pela utilizaccedilatildeo de processos de tratamento da linguagem natural na recuperaccedilatildeo de informaccedilatildeo Em livro de 1983 Salton e McGill apresentam em um capiacutetulo intitulado Future directions in Information Retrieval a aplicaccedilatildeo do processamento da linguagem natural e da loacutegica fuzzy na recuperaccedilatildeo de informaccedilatildeo apontando a direccedilatildeo de futuras pesquisas para a Inteligecircncia Artificial (FERNEDA 2003 p 12)
Estas contribuiccedilotildees tecircm suas principais ideacuteias presentes ainda na maioria dos
sistemas de recuperaccedilatildeo atuais e nos mecanismos de busca da Web Como aparece na estrutura
de componentes de um sistema de recuperaccedilatildeo de informaccedilatildeo que seguem geralmente um
modelo de funcionamento como demonstrado por Cardoso (2000)
4 Stop Words eliminaccedilatildeo de artigos e conectivos 5 Noun Groups eliminaccedilatildeo de adjetivos adveacuterbios e verbos 6 Stemming reduccedilatildeo de uma palavra ao seu radical Exemplo Engineering Engineer
18
Figura 1 Componentes de um Sistema de Recuperaccedilatildeo de Informaccedilatildeo Fonte GEY apud CARDOSO 2000
22 Modelos Claacutessicos de Recuperaccedilatildeo de Informaccedilatildeo
221 Modelo Booleano
A aacutelgebra booleana eacute um sistema binaacuterio no qual existem somente dois valores
possiacuteveis para qualquer siacutembolo algeacutebrico ldquoverdadeirordquo ou ldquofalsordquo O modelo booleano eacute um
modelo de recuperaccedilatildeo simples baseado na teoria dos conjuntos e na aacutelgebra booleana Aleacutem
disso as querys satildeo especificadas atraveacutes de expressotildees booleanas que tecircm semacircnticas
precisa
Segundo Baeza-Yates e Ribeiro-Neto (1999) e Gonzalez (2000) a simplicidade e o
formalismo claro do modelo booleano recebiam grande atenccedilatildeo nos anos passados sendo
adotados por muitos sistemas comerciais bibliograacuteficos
A estrateacutegia de recuperaccedilatildeo desse modelo eacute baseada em um criteacuterio de decisatildeo
binaacuteria por exemplo um documento pode ser relevante ou natildeo relevante sem noccedilatildeo de escala
de classificaccedilatildeo que previna um bom desempenho na recuperaccedilatildeo Deste modo o modelo
booleano eacute na verdade muito mais um modelo de recuperaccedilatildeo de dados (em vez de
informaccedilatildeo)
19
Aleacutem disso conforme Baeza-Yates e Ribeiro-Neto (1999) enquanto expressotildees
booleanas tecircm semacircnticas precisas frequumlentemente natildeo eacute simples traduzir uma informaccedilatildeo
precisa dentro de uma expressatildeo booleana O modelo booleano prediz que cada documento eacute
relevante ou irrelevante Natildeo existe noccedilatildeo de um resultado (matching) parcial para as
condiccedilotildees da query
As principais vantagens do modelo booleano satildeo o formalismo claro oculto sobre o
modelo e sua simplicidade As principais desvantagens encontram-se no resultado exato que
pode recuperar poucos ou muitos documentos
Figura 2 Exemplo dos trecircs componentes conjuntivos para query Fonte BAEZA-YATES RIBEIRO-NETO 1999
2211 Operadores Booleanos
Os operadores booleanos funcionam atraveacutes de uma expressatildeo booleana para
formulaccedilatildeo de buscas Isto ocorre por meio de operadores loacutegicos AND OR e NOT (E OU e
NAtildeO) Conforme exemplo de Ferneda (2003) a recuperaccedilatildeo de informaccedilatildeo se daraacute em uma
expressatildeo conjuntiva de enunciado t1 AND t2 que recuperaraacute documentos indexados por
ambos os termos (t1 e t2) Isso equivale e permite aparecer agrave intersecccedilatildeo do conjunto dos
documentos indexados pelo termo t1 com o conjunto dos documentos indexados pelo termo
t2
Figura 3 Representaccedilatildeo do resultado de uma expressatildeo booleana conjuntiva (AND) Fonte FERNEDA 2003
20
O autor demonstra que uma expressatildeo disjuntiva t1 OR t2 recuperaraacute o conjunto dos
documentos indexados pelo termo t1 ou pelo termo t2 Isto equivale e possibilita agrave uniatildeo entre
o conjunto dos documentos indexados pelo termo t1 e o conjunto dos documentos indexados
pelo termo t2 (FERNEDA 2003)
Figura 4 Resultado de uma busca booleana disjuntiva (OR) Fonte FERNEDA 2003
2212 Operadores de Proximidade
No modelo booleano existem os operadores de proximidade que permitem
especificar condiccedilotildees relacionadas agrave distacircncia e agrave posiccedilatildeo dos termos no texto Um operador
de proximidade bastante comum nos sistemas de RI e nos mecanismos de busca da Web eacute o
operador ADJ (FERNEDA 2003) Esse operador permite pesquisar duas palavras adjacentes
no texto de um documento na ordem especificada na expressatildeo de busca por exemplo a
expressatildeo recuperaccedilatildeo ADJ informaccedilatildeo teraacute como resultado os documentos que tiverem a
palavra ldquorecuperaccedilatildeordquo seguida da palavra ldquoinformaccedilatildeordquo ou seja recuperaraacute documentos que
contecircm a expressatildeo ldquorecuperaccedilatildeo informaccedilatildeordquo Tambeacutem pode ser utilizado um termo
composto delimitando as suas palavras com aspas por exemplo ldquorecuperaccedilatildeo de
informaccedilatildeordquo
O modelo booleano de acordo com Ferneda (2003) possui limitaccedilotildees que o torna
pouco atrativo satildeo elas
bull O resultado de uma busca booleana se caracteriza por dois subconjuntos os que
atendem agrave expressatildeo de busca e aqueles que natildeo atendem Presume-se que todos
os documentos recuperados satildeo de igual utilidade para o usuaacuterio Natildeo haacute nenhum
mecanismo pelos quais os documentos possam ser ordenados
bull O usuaacuterio leigo se natildeo tiver um treinamento apropriado formularaacute somente
buscas simples Para buscas com expressotildees mais complexas eacute necessaacuterio um
conhecimento da loacutegica booleana
21
bull Natildeo existe uma forma de atribuir importacircncia relativa aos diferentes termos da
expressatildeo booleana Assume-se implicitamente que todos os termos tecircm o mesmo
peso
222 Modelo Vetorial
O modelo vetorial segundo Baeza-Yates e Ribeiro-Neto (1999) reconhece que o uso
de pesos binaacuterios eacute tambeacutem limitante e propotildee uma estrutura em que eacute possiacutevel a resposta
(matching) parcial Isto eacute feito atribuindo-se pesos natildeo binaacuterios aos termos indexados em
querys e em documentos Esses pesos de termos satildeo enfim utilizados para calcular o grau de
similaridade entre cada documento armazenado no sistema e a expressatildeo de busca formulada
pelo usuaacuterio (querys) Como a classificaccedilatildeo dos documentos recuperados eacute feita em ordem
decrescente desse grau de similaridade o modelo vetorial leva em consideraccedilatildeo documentos
que se igualem aos termos de querys somente parcialmente
O modelo vetorial de acordo com Cardoso (2000) e Gonzalez (2000) representa
documentos e consultas como vetores de termos Os termos satildeo ocorrecircncias uacutenicas nos
documentos Os documentos retornados como resultado para uma consulta satildeo representados
similarmente isto quer dizer que o vetor resultado para uma consulta eacute montado atraveacutes de um
caacutelculo de similaridade Aos termos das consultas e dos documentos satildeo atribuiacutedos pesos que
especificam o tamanho e a direccedilatildeo de seu vetor de representaccedilatildeo O acircngulo formado por esses
vetores determina a proximidade da ocorrecircncia E o caacutelculo da similaridade eacute baseado no
acircngulo entre os vetores que representam o documento e a consulta
Cardoso (2000) descreve ainda que os pesos quantificam a relevacircncia de cada termo
para as consultas (Wiq) e para os documentos (Wid) no espaccedilo vetorial Segundo Cardoso
(2000 p 03) ldquopara o caacutelculo dos pesos Wiq e Wid utiliza-se uma teacutecnica que faz o
balanceamento entre as caracteriacutesticas do documento utilizando o conceito de frequumlecircncia de
um termo num documentordquo Desta forma se uma coleccedilatildeo possui N documentos e teremos o nti
que eacute a quantidade de documentos que possuem o termo ti com isto o inverso da frequumlecircncia
do termo na coleccedilatildeo ou idf (inverse documento frequency) eacute dado pela foacutermula de Cardoso
(2000) abaixo
idfi = log (Nni)
22
Esse valor eacute possiacutevel usando a foacutermula para calcular o peso Wid = freq(tid) x idfi
que eacute o produto da frequumlecircncia do termo no documento pelo inverso da frequumlecircncia do termo na
coleccedilatildeo
No modelo vetorial um documento eacute representado por um vetor em que cada
elemento representa o peso ou a relevacircncia do respectivo termo de indexaccedilatildeo para o
documento Cada elemento do vetor (peso) eacute normalizado de forma a assumir valores entre
zero e um Os pesos mais proacuteximos de um (1) indicam termos com maior importacircncia para a
descriccedilatildeo do documento E termos que natildeo estatildeo presentes em um determinado documento
possuem peso igual a zero
Da mesma forma que os documentos no modelo vetorial uma expressatildeo de busca
conforme Baeza-Yates e Ribeiro-Neto (1999) tambeacutem eacute representada por um vetor numeacuterico
em que cada elemento representa a importacircncia (peso) do respectivo termo na expressatildeo de
busca
Diversos documentos e termos de indexaccedilatildeo podem ser representados atraveacutes de uma
matriz na qual cada linha representa um documento e cada coluna representa a associaccedilatildeo de
um determinado termo aos vaacuterios documentos
Figura 5 O co-seno do acircngulo adaptado como similar (dj q) Fonte BAEZA-YATES RIBEIRO-NETO 1999
Um exemplo de uso do modelo vetorial eacute o sistema SMART7 citado anteriormente
este sistema representa por valor numeacuterico cada documento e seu respectivo termo na
descriccedilatildeo do documento Segundo Ferneda (2003) o sistema SMART fornece um meacutetodo
automaacutetico que trata aleacutem do caacutelculo dos pesos dos vetores que representam os documentos
tambeacutem trata os vetores das expressotildees de busca
As principais vantagens do modelo vetorial segundo Baeza-Yates e Ribeiro-Neto
(1999) satildeo (1) esquema de pesos de termos melhora o desempenho da recuperaccedilatildeo (2)
estrateacutegias de resposta (matching) parcial permitem a recuperaccedilatildeo de documentos que se
aproximem de condiccedilotildees de query e (3) foacutermula de classificaccedilatildeo do co-seno ordena os
documentos de acordo com o grau de similaridade da query A desvantagem desse modelo de
23
acordo com os autores diz respeito agraves dependecircncias de termos prejudicando especialmente o
desempenho
Cardoso (2000) considera como principais vantagens do modelo vetorial a sua
simplicidade a facilidade de se computarem similaridades com eficiecircncia e o fato de que se
comporta bem com coleccedilotildees geneacutericas
223 Modelo Probabiliacutestico
O modelo probabiliacutestico foi introduzido de acordo com Baeza-Yates e Ribeiro-Neto
(1999) em 1976 por Roberston e Sparck Jones que mais tarde tornou-se como o modelo
Binary Independence Retrieval (BIR)
Na Matemaacutetica a teoria das probabilidades estuda os experimentos aleatoacuterios que
conforme Ferneda (2003 p 35) repetidos em condiccedilotildees idecircnticas podem apresentar resultados diferentes e imprevisiacuteveis Isso ocorre por exemplo quando se observa a face superior de um dado apoacutes o seu lanccedilamento ou quando se verifica o naipe de uma carta retirada de um baralho Por apresentarem resultados imprevisiacuteveis eacute possiacutevel apenas estimar a possibilidade ou a chance de um determinado evento ocorrer Para descrever matematicamente um experimento aleatoacuterio eacute necessaacuterio inicialmente identificar o conjunto de todos os seus possiacuteveis resultados A este conjunto daacute-se o nome de espaccedilo amostral
Entendendo-se uma busca como um experimento aleatoacuterio segundo Robertson e
Jones eacute possiacutevel descrever o seu espaccedilo amostral como composto de quatro possibilidades
pois dada uma expressatildeo de busca pode-se dividir a base de documentos em quatro
subconjuntos distintos o conjunto dos documentos relevantes (Rel) o conjunto dos
documentos recuperados (Rec) o conjunto dos documentos relevantes e recuperados (RR) e o
conjunto dos documentos natildeo relevantes e natildeo recuperados O conjunto dos documentos
relevantes e recuperados (RR) eacute resultante da intersecccedilatildeo dos conjuntos Rel e Rec
(FERNEDA 2003)
O conjunto de documentos resultantes da primeira busca eacute ordenado atraveacutes de uma
forma de ordenaccedilatildeo padratildeo tradicional Tendo esse conjunto de documentos o usuaacuterio
seleciona alguns deles que considera relevantes para a sua necessidade O sistema utiliza essa
informaccedilatildeo para tentar melhorar os resultados subsequumlentes
A principal virtude do modelo probabiliacutestico estaacute em reconhecer que a atribuiccedilatildeo de
relevacircncia eacute uma tarefa do usuaacuterio Eacute o uacutenico modelo que segundo Baeza-Yates e Ribeiro-
7 SMART (Sistem for the Manipulation and Retrieval of Text)
24
Neto (1999) e Gonzalez (2000) incorpora explicitamente o processo de Relevance Feedback
como base para a sua operacionalizaccedilatildeo
Uma simplificaccedilatildeo bastante questionaacutevel estaacute no fato de o modelo considerar os
pesos dos termos de indexaccedilatildeo como sendo binaacuterios ou seja no modelo probabiliacutestico natildeo eacute
considerada a frequumlecircncia com que os termos ocorrem no texto dos documentos
Em geral os modelos de RI desconsideram o contexto das palavras informadas pelo
usuaacuterio por isso tendem a retornar poucos documentos relevantes em uma consulta Para isso
pretende-se mostrar no capiacutetulo seguinte com a ajuda da Linguumliacutestica possiacuteveis abordagens
que podem apoiar o usuaacuterio considerando o seu contexto de busca e listando documentos
relevantes
25
3 FUNDAMENTACcedilAtildeO TEacuteORICA
Neste capiacutetulo buscou-se apresentar uma siacutentese dos trabalhos que datildeo base ao
modelo apresentado nesta dissertaccedilatildeo Satildeo eles a Proposta de Kuramoto a Teoria do Leacutexico
Gerativo e o Modelo de Gonzalez A Proposta de Kuramoto baseia-se em uma hierarquizaccedilatildeo
em niacuteveis de Sintagmas Nominais Na Teoria do Leacutexico Gerativo de Pustejovsky mostram-se
as estruturas compostas e deu-se destaque agrave Estrutura de Qualia julgada mais adequada para a
aplicaccedilatildeo no trabalho proposto Analisou-se o estudo de Abrahatildeo a partir de Pustejovsky A
terceira teoria de Gonzalez apresenta uma proposta automatizada com o modelo TR+
31 A Proposta de Kuramoto
Neste capiacutetulo apresentam-se os conceitos e as caracteriacutesticas da proposta de
Kuramoto que se baseia na determinaccedilatildeo de Sintagmas Nominais (SN) de uma query A sua
proposta preocupa-se em buscar os SN uma vez que satildeo considerados como importante
elemento de uma frase sendo entendidos como o nuacutecleo significativo (cerne) de uma oraccedilatildeo
Em sua tese de doutorado Kuramoto relata que todo o trabalho de reconhecimento e
extraccedilatildeo de SN dos documentos foi realizado de forma natildeo automatizada Isto auxiliou na
elaboraccedilatildeo de um modelo para reconhecimento extraccedilatildeo e indexaccedilatildeo de SN inseridos na
amostra do protoacutetipo desenvolvido
O modelo proposto por Kuramoto refere-se ao aproveitamento dos SN organizado
hierarquicamente em ldquoaacutervoresrdquo criando um novo conceito de indexaccedilatildeo que pode introduzir
inovaccedilatildeo em termos de uma interface de busca
Esse modelo de interface de acordo com Kuramoto (2002) permitiria que o usuaacuterio
navegasse no conjunto de SN ateacute encontrar o que melhor atendesse agrave sua necessidade de
informaccedilatildeo Somente apoacutes esse procedimento o usuaacuterio teria entatildeo acesso aos documentos de
onde foram extraiacutedos os SN Tal processo proporcionaria ao usuaacuterio um maior conhecimento
sobre a base de dados que estaacute sendo consultada uma vez que lhe permitiria reconhecer a
estrutura de sintagmas nominais presentes nos documentos pertencentes ao sistema
Os processos de indexaccedilatildeo automaacutetica utilizados em modelos de RI segundo Michel
Le Guern (1984 apud KURAMOTO 1995) deveriam extrair dos documentos informaccedilotildees
26
que facilitassem a recuperaccedilatildeo para o usuaacuterio e natildeo siacutembolos sem referecircncia como considera
que satildeo as palavras
Para Silva e Koch (1993) toda frase de uma liacutengua constitui uma organizaccedilatildeo ou
seja uma combinaccedilatildeo de elementos linguumliacutesticos agrupados conforme certos princiacutepios que a
caracterizam como uma estrutura Para Baeza-Yates e Ribeiro-Neto (1999) grande parte da
semacircntica do documento ou da requisiccedilatildeo do usuaacuterio eacute perdida quando se substitui o texto
completo por um conjunto de palavras
Aparentemente um conjunto de frases de nossa liacutengua de acordo com Silva e Koch
(1993) tem pouco em comum variando quanto agrave extensatildeo ao sentido agraves palavras de que se
compotildeem e agrave ordem em que essas se apresentam Apesar da aparente diversidade as frases
possuem uma organizaccedilatildeo interna que segue princiacutepios gerais bem definidos de modo que o
falante seraacute capaz de dizer se uma sequumlecircncia de palavras a) se estaacute de acordo com o sistema
gramatical da liacutengua b) se se apresenta completa ou incompleta c) se eacute passiacutevel de
interpretaccedilatildeo semacircntica
Conforme Silva e Koch (apud ABREU et al 2004 p03) ldquoo sintagma consiste num
conjunto de elementos que constituem uma unidade significativa dentro da oraccedilatildeo e que
mantecircm entre si relaccedilotildees de dependecircncia e de ordemrdquo As palavras se combinam em conjuntos
em torno de um nuacutecleo Esses conjuntos os sintagmas desempenham uma funccedilatildeo no conjunto
maior que eacute a frase Para Liberato (apud PARREIRAS 2003) o SN eacute a parte do enunciado
que representa um conceito ou referente
Assim por exemplo nos conjuntos de sintagmas ndash David o estudante a menina
doente e minha filha ndash o nuacutecleo eacute um elemento nominal (nome ou pronome) tratando-se
portanto de sintagmas nominais Nos conjuntos ndash viajou de carro dormiu e levaraacute a
encomenda ndash o elemento fundamental eacute o verbo de modo que se tecircm nesses casos sintagmas
verbais
A natureza do sintagma depende portanto do tipo de elemento que constitui o seu
nuacutecleo aleacutem do sintagma nominal (SN) e do sintagma verbal (SV) existem os sintagmas
adjetivais (SA) que tecircm por nuacutecleo um adjetivo e os sintagmas preposicionais (SP) formados
normalmente de preposiccedilatildeo mais sintagma nominal (SILVA KOCH 1993)
Na estrutura da oraccedilatildeo em sua forma de base aparecem como constituintes
obrigatoacuterios o SN e o SV Por exemplo Os garotos (SN) empinavam papagaios de papel
(SV) Pode-se dizer que as regras baacutesicas de estrutura frasal satildeo as seguintes O = SN + SV
(SP) (o elemento O significa Oraccedilatildeo)
27
311 Extraccedilatildeo dos Sintagmas Nominais
O trabalho de Kuramoto compreendeu o desenvolvimento de um protoacutetipo de
interface de busca utilizando os sintagmas nominais como forma de acesso agrave informaccedilatildeo Para
testar esse protoacutetipo foram examinados e extraiacutedos segundo Kuramoto (2002) cerca de 8800
sintagmas nominais de uma amostra de 15 artigos selecionados aleatoriamente da revista
Ciecircncia da Informaccedilatildeo
Kuramoto (1995 p 6) relata que a extraccedilatildeo dos sintagmas nominais foi realizada de forma manual simulando uma extraccedilatildeo automaacutetica Este procedimento foi adotado em funccedilatildeo da natildeo-existecircncia ainda de um sistema de extraccedilatildeo automaacutetica de SN em acervos contendo documentos em Liacutengua Portuguesa
Como os SN nem sempre se apresentam de forma clara Kuramoto aponta a
ocorrecircncia normal em todo texto em linguagem natural de anaacuteforas8 e de elipses9 que
dificultou a identificaccedilatildeo dos SN Essas dificuldades segundo Kuramoto (1995) aumentam
em um processo automatizado Algumas das dificuldades encontradas por Kuramoto no
procedimento de extraccedilatildeo dos SN satildeo descritas a seguir
a) SN escondidos em frases com fatoraccedilatildeo
Para Kuramoto (1995 p 06) as ldquofrases com fatoraccedilatildeo satildeo aquelas que contecircm uma
sequumlecircncia de palavras que precedem um outro conjunto de palavras coordenadas pelas
conjunccedilotildees eou por exemplo o processo de negociaccedilatildeo dos setores privado e puacuteblicordquo
Percebe-se nesse exemplo que o SN de niacutevel 1 compreende tanto os setores privado
e puacuteblico visto que a referecircncia dos dois adjetivos estaacute contida na palavra em plural ldquosetoresrdquo
Existem outros exemplos de frases com fatoraccedilatildeo nas quais as palavras coordenadas aparecem
entre parecircnteses significando um complemento combinatoacuterio do termo ou da frase que
precede o parecircntese por exemplo profundas transformaccedilotildees (poliacuteticas econocircmicas
sociais tecnoloacutegicas)
b) Artigo Zero
8 Em Linguumliacutestica segundo Ducrot e Todorov (1972 apud KURAMOTO 1995) um segmento do discurso eacute dito anafoacuterico quando para interpretaacute-lo (inclusive do ponto de vista literaacuterio) for necessaacuterio se reportar a um outro segmento do mesmo discurso 9 A figura de sintaxe ldquoelipserdquo eacute definida por Cunha e Cintra (1991 apud KURAMOTO 1995) como sendo a omissatildeo de um termo que o contexto ou a situaccedilatildeo permitem facilmente suprimir
28
Um outro fator de dificuldade na extraccedilatildeo dos SN eacute a frequumlente ausecircncia de
determinantes10 na liacutengua portuguesa diferente da liacutengua francesa na qual satildeo raros os SN
com ausecircncia de um determinante Motivo pelos quais algumas regras estabelecidas para a
liacutengua francesa natildeo foram utilizadas De acordo com Kuramoto (1995 p 7) ldquono
procedimento de extraccedilatildeo dos SN constatou-se que 2889 dos SN natildeo eram precedidos de
qualquer determinante Em uma amostra de 6010 SN 1736 SN natildeo satildeo precedidos por
nenhum determinanterdquo Estes nuacutemeros demonstram que o modelo necessaacuterio deve considerar
este fator
c) Caacutelculo das anaacuteforas
Quando uma entidade eacute referenciada pela primeira vez em um texto segundo
Gasperin Goulart e Vieira (2003) a expressatildeo que a descreve eacute dita nova no discurso
Quando tal entidade eacute retomada no texto a expressatildeo que a descreve eacute dita anafoacuterica sendo
considerado o seu antecedente a expressatildeo anterior correferente
Para Kuramoto (1995 p 7-8) ldquoos elementos anafoacutericos em portuguecircs aparecem
frequumlentemente mediante partiacuteculas como os pronomesrdquo No entanto na proposta do autor
natildeo foi possiacutevel resolver dois casos de anaacuteforas
Um primeiro caso de anaacutefora ocorre nas palavras sem fonte expliacutecita no texto tais
como ldquonesse sentidordquo (em que sentido) ldquonossa experiecircnciardquo (de quem do autor dos
teacutecnicos de informaccedilatildeo) etc Como a interpretaccedilatildeo das ideacuteias estaacute contida no documento natildeo
fica evidente a soluccedilatildeo desse tipo de anaacutefora
O segundo caso eacute constituiacutedo de termos cujas fontes se encontram como por exemplo
na histoacuteria dos acontecimentos como ldquoesse periacuteodo preacute-industrial esse sistema de
comunicaccedilatildeordquo etc Por este motivo os SN foram extraiacutedos da mesma forma como se
encontravam no texto
d) Caacutelculo das elipses
Outra questatildeo que necessita um entendimento do contexto de uma frase eacute o problema
ligado a este tipo de figura de sintaxe Visto que depende da capacidade de percepccedilatildeo da falta
de alguma palavra no contexto de uma frase Segundo Kuramoto (1995) eacute preciso para
identificaacute-la analisar natildeo somente as frases precedentes mas tambeacutem as frases seguintes
Como neste exemplo ldquouma visatildeo de longo prazo que assegure natildeo soacute a sobrevivecircncia ()
10 Segundo Silva e Koch (1993) o determinante quando simples eacute representado por um artigo numeral ou pronome adjetivo
29
como tambeacutem o crescimento da organizaccedilatildeordquo Que promove o questionamento de ldquoqual o
complemento do termo lsquosobrevivecircnciarsquo lsquoSobrevivecircnciarsquo de quemrdquo A soluccedilatildeo encontrada
poderia estar na frase seguinte ldquoo crescimento da organizaccedilatildeordquo
Para promover a extraccedilatildeo completa da frase o SN seria ldquouma visatildeo de longo prazo
que assegure natildeo soacute a sobrevivecircncia da organizaccedilatildeo como tambeacutem o crescimento da
organizaccedilatildeordquo
3111 Extraccedilatildeo Automaacutetica de Sintagmas Nominais
A extraccedilatildeo automaacutetica de SN eacute considerada importante para a aacuterea de RI pois
segundo Chishman et al (2000) agiliza este processo e gera um percentual baixo de erros Jaacute
foi desenvolvido um extrator automaacutetico de sintagmas nominais para a liacutengua portuguesa no
acircmbito do projeto VISL chamado ldquoPalavrasrdquo11 que vem sendo usado pelo grupo de pesquisa
da UNISINOS
Segundo Abreu Goulart e Vieira (2004) para obter a anaacutelise das sentenccedilas dos
textos utiliza-se o analisador sintaacutetico ldquoPalavrasrdquo que eacute considerada uma ferramenta robusta
para a anaacutelise sintaacutetica do portuguecircs
A partir da saiacuteda do analisador sintaacutetico segundo Gasperin Goulart e Vieira (2003)
a ferramenta ldquoXtractorrdquo gera trecircs arquivos XML O primeiro eacute o arquivo de palavras o
segundo inclui as categorias morfossintaacuteticas e o terceiro eacute o arquivo com as estruturas
sintaacuteticas das sentenccedilas
Assim apoacutes todo esse processo eacute possiacutevel extrair de modo automaacutetico os sintagmas
nominais das sentenccedilas de um texto ressaltando-se que estes natildeo estatildeo ainda organizados
segundo a estrutura de niacuteveis que propotildee Kuramoto
312 A determinaccedilatildeo de uma estrutura para os SN
A essecircncia da proposta de Kuramoto (1995) reside na percepccedilatildeo que o autor teve de
que os SN organizam-se naturalmente numa estrutura de niacuteveis encadeados Kuramoto
percebeu nessa organizaccedilatildeo em niacuteveis um caminho para propiciar ao usuaacuterio mais facilidade
11 O analisador Palavras faz parte de um grupo de analisadores sintaacuteticos (softwares) do projeto VISL - Visual Interactive Sintax Learning do Institute of Language and Communication da University of Southern Denmark Disponiacutevel em lthttpvislsdudkvislptparsingautomaticgt (ABREU GOULART VIEIRA 2004)
30
no uso de um SRI levando tambeacutem a resultados mais precisos Para compreender a estrutura
proposta pelo autor apresenta-se a seguir o exemplo usado pelo proacuteprio Kuramoto
As Caracteriacutesticas do Meio Ambiente do Mundo dos Negoacutecios SN1 os negoacutecios SN2 o mundo dos negoacutecios SN3 o meio ambiente do mundo dos negoacutecios SN4 as caracteriacutesticas do meio ambiente do mundo dos negoacutecios
Figura 6 Exemplo da estrutura de niacuteveis de Sintagmas Nominais Fonte KURAMOTO 1995
Esse exemplo mostra o potencial da estrutura de relaccedilotildees de encadeamento de um
conjunto de SN Para o autor a anaacutelise do sintagma nominal no exemplo permitiu a extraccedilatildeo do SN ndash o meio ambiente do mundo dos negoacutecios A partir desse SN pode-se visualizar um outro SN embutido ndash o mundo dos negoacutecios ndash que por sua vez possui um quarto SN ndash os negoacutecios ndash que representa o niacutevel mais inferior12 Percebe-se nesse exemplo a existecircncia de quatro SN encadeados que enumerados em ordem crescente (do SN mais simples ao mais complexo) levam agrave classificaccedilatildeo do SN original como sendo de niacutevel 4 (KURAMOTO 1995 p04)
Com base nessas caracteriacutesticas apresentadas por Kuramoto (1995) os SN podem ser
organizados sob uma estrutura de aacutervore Esta estrutura possibilita que o Sistema de
Recuperaccedilatildeo de Informaccedilatildeo (SRI) possa atender agraves necessidades de consultas do usuaacuterio
Para atender esta demanda eacute preciso fornecer um centro de SN de seu interesse (como o
exemplo do autor ldquonegoacuteciosrdquo)
Para isso apresentam-se todos os SN1 relativos a essa busca inclusive o SN ldquoos
negoacuteciosrdquo A partir da lista encontrada de SN1 o usuaacuterio poderaacute restringir o seu perfil de
busca escolhendo um SN1 por exemplo ldquoos negoacuteciosrdquo e solicitar os SN2 relacionados a esse
SN1 O SRI apresenta todos os SN2 inclusive o SN ldquoo mundo dos negoacuteciosrdquo e assim
sucessivamente (KURAMOTO 1995)
Este autor afirma que esta passagem por vaacuterios niacuteveis promove um refinamento no
processo O processo de refinamento eacute realizado por meio da passagem pelos vaacuterios niacuteveis de uma estrutura arborescente de SN13 dado que o SN vai se tornando mais especiacutefico
12 Segundo Kuramoto (1995) os sintagmas nominais agrave medida que satildeo extraiacutedos de um outro SN satildeo classificados por niacuteveis Assim o sintagma mais simples eacute denominado SN de niacutevel 1 Constitui SN de niacutevel 2 aquele a partir do qual foi extraiacutedo o de niacutevel 1 e assim sucessivamente 13 Constatou-se empiricamente utilizando a maquete desenvolvida nesta experimentaccedilatildeo de acordo com Kuramoto (1995) que a quantidade de SN de segundo niacutevel em relaccedilatildeo a um dado SN de primeiro niacutevel pode ser maior que o total de SN de primeiro niacutevel Por exemplo a resposta agrave demanda do centro de SN ldquoinformaccedilatildeordquo foi de 122 SN de primeiro niacutevel e a resposta agrave demanda do SN de primeiro niacutevel ldquoa informaccedilatildeordquo foi de 172 SN de segundo niacutevel Por outro lado verificou-se que
31
agrave medida que se atingem os niacuteveis mais elevados da estrutura Ao percorrecirc-la o usuaacuterio estaacute na realidade delimitando ou melhor qualificando a sua necessidade de informaccedilatildeo Cabe portanto ao usuaacuterio identificar o niacutevel em que as suas necessidades de informaccedilatildeo seratildeo atendidas (KURAMOTO 1995 p 04-05)
Esta possibilidade de hierarquia permite uma interaccedilatildeo entre o usuaacuterio e maacutequina e
uma escolha individual de refinamento
313 Protoacutetipo Desenho da Interface de Busca
A Figura 7 descreve de maneira esquemaacutetica a interaccedilatildeo entre o usuaacuterio e o protoacutetipo
de Kuramoto (1995)
O protoacutetipo viabiliza a primeira interaccedilatildeo pois haacute uma tela em que permite ao
usuaacuterio fazer a sua solicitaccedilatildeo de informaccedilatildeo fornecendo uma palavra (centro de SN1) A
partir dessa palavra surgem outras interaccedilotildees como mostra o esquema de Kuramoto (1995) na
Figura 7 que ocorrem nas accedilotildees abaixo
Figura 7 Procedimentos de interaccedilatildeo usuaacuteriominusprotoacutetipo Fonte KURAMOTO 1995
o SN ldquoa informaccedilatildeordquo indexava 15 documentos na base enquanto o SN de segundo niacutevel ldquoa anaacutelise da informaccedilatildeordquo indexava apenas 1 (um) documento Confirma-se nesse exemplo que a passagem de um dado niacutevel a um superior na aacutervore de SN proporciona maior refinamento no processo de seleccedilatildeo dos documentos
32
314 Organizaccedilatildeo dos Sintagmas Nominais como Estrutura de Busca
Na proposta de Kuramoto (1995) foram desenvolvidas as seguintes estruturas de busca
Figura 8 Estrutura de dados para acessar os Sintagmas Nominais de primeiro niacutevel a partir de uma palavra Fonte KURAMOTO 1995
Kuramoto (1995) mostra na Figura 8 a associaccedilatildeo das tabelas Palavras CS-SN1 e
SN1 Cada dado tem nomes dos elementos que estatildeo sublinhados e representam as chaves de
cada tabela Na tabela Palavras observa-se que o autor agrupa todas as palavras (centro) que
representam os centros de SN1 Haacute uma atribuiccedilatildeo de coacutedigo para cada ldquocentrordquo chamado
ldquocoacutedigo crdquo A tabela CS-SN1 eacute uma tabela de associaccedilatildeo dos coacutedigos dos centros de SN1 com
os coacutedigos dos SN1 Essa figura mostra que para cada centro de SN1 existem vaacuterios SN1 A indicaccedilatildeo na seta da associaccedilatildeo da tabela Palavras com a tabela CS-SN1 define que na tabela Palavras podem existir M ocorrecircncias de um coacutedigo de centro de SN1 O mesmo pode ocorrer na tabela CS-SN1 em que esse coacutedigo pode verificar-se N vezes Essa indicaccedilatildeo traduz a ideacuteia de que para cada SN1 pode existir mais de um centro de SN1 Isto se explica pela existecircncia no contexto de um SN de palavras que satildeo tatildeo importantes quanto o centro de sintagma (KURAMOTO 1995 p 11)
Observa-se o exemplo ldquoo sistema de informaccedilatildeordquo Nesse o autor define o SN1 de
ldquosistemardquo Todavia esta natildeo eacute a uacutenica palavra fundamental pois a palavra ldquoinformaccedilatildeordquo tem
tanta importacircncia quanto o proacuteprio centro de sintagma (sistema)
Kuramoto (1995 p 11) mostra ainda que existe associaccedilatildeo entre o centro de SN1 e a
vaacuterios SN de niacutevel 1 Cada centro de SN1 pode estar associado a mais de um SN1 Essa indicaccedilatildeo eacute dada pela seta que associa a tabela SN1 agrave tabela CS-SN1 onde o nuacutemero 1 significa que na tabela SN1 existe uma soacute ocorrecircncia de um determinado coacutedigo de SN1 enquanto na tabela CS-SN1 existem M ocorrecircncias desse coacutedigo
Outro elemento de dados importante na tabela SN1 eacute chamado ldquonuacutemerordquo que
segundo Kuramoto (1995 p 11-12) ldquoindica a quantidade de artigos de onde um determinado
33
SN1 foi extraiacutedordquo O nuacutemero de referecircncias de onde o SN foi extraiacutedo aparece para cada
apresentaccedilatildeo de SN1 relacionado com um centro de SN1 escolhido pelo usuaacuterio
Kuramoto (1995) ilustra numa outra figura (Figura 9) a estrutura de dados construiacuteda
para a busca dos SN2 a partir de um SN1 selecionado pelo usuaacuterio
Figura 9 Estrutura de dados para acessar os Sintagmas Nominais de segundo niacutevel a partir de Sintagmas Nominais de primeiro niacutevel Fonte KURAMOTO 1995
Nessa ilustraccedilatildeo observa-se que se manteacutem a estrutura da Figura 8 em uma
associaccedilatildeo de tabelas que busca facilitar a busca dos SN2 a partir de um SN1 escolhido pelo
usuaacuterio Segundo Kuramoto (1995 p 12) ldquopercebe-se analogamente que um dado SN1 pode
estar associado a vaacuterios SN2 e vice-versa Isto traduz a ideacuteia de que um SN2 pode ter
embutido mais de um SN1 Essa estrutura atende agraves caracteriacutesticas dos SN listados no iniacutecio
desta seccedilatildeordquo
A busca de informaccedilotildees se manteacutem na mesma estrutura para os SN de niacutevel 3 e 4 que
satildeo semelhantes agraves Figuras acima (SN1 e SN2) com diferenccedila apenas no nome de cada
elemento que eacute correspondente ao nuacutemero dos SN
O acesso aos documentos estaacute representado na Figura 10 que exemplifica uma
escolha no SN1
Figura 10 Estrutura de dados para o acesso aos tiacutetulos e textos dos artigos Fonte KURAMOTO 1995
34
Essa estrutura foi desenvolvida para que o protoacutetipo atenda a uma demanda do
usuaacuterio viabilizando a visualizaccedilatildeo de todos os tiacutetulos e textos de documentos de onde um
SN1 foi extraiacutedo Haacute outras associaccedilotildees semelhantes a essas da Figura 17 que servem para o
acessar os documentos a partir de SN de qualquer um dos quatro niacuteveis previstos no protoacutetipo
Kuramoto (1995 p 12-13) ressalta ainda as accedilotildees do coacutedigo numeacuterico Eacute importante observar que todas as tabelas contendo os SN nos seus vaacuterios niacuteveis tecircm como chave de acesso um coacutedigo numeacuterico uacutenico de SN Para tanto construiu-se uma tabela contendo os SN onde estes satildeo identificados por meio de um coacutedigo numeacuterico Natildeo existe nenhum impedimento teacutecnico por parte do sistema Access quanto ao uso do proacuteprio texto dos SN como chave de acesso agraves informaccedilotildees Deve-se ressaltar que apesar da lentidatildeo que este tipo de chave de acesso provoca as estruturas de dados seriam mais simples e faacuteceis de manusear Contudo optou-se pela utilizaccedilatildeo das chaves numeacutericas identificando cada SN com o intuito de obter maior velocidade de acesso aos SN e agraves informaccedilotildees
Finalizando esta apresentaccedilatildeo do modelo de Kuramoto cabe destacar que a utilizaccedilatildeo
da aacutervore de SN por niacuteveis permite uma visualizaccedilatildeo mais faacutecil do conteuacutedo da base de dados
e manteacutem o que haacute de mais significativo nos documentos sua semacircntica
As estruturas de Qualia e de Heranccedila Lexical do Leacutexico Gerativo de Pustejovsky a
serem apresentadas na proacutexima seccedilatildeo permitem tambeacutem da mesma forma considerar a
semacircntica dos itens lexicais atraveacutes da criaccedilatildeo de uma malharede de relaccedilotildees de palavras e
seus significados atraveacutes dos papeacuteis que compotildeem a EQ
32 A Teoria do Leacutexico Gerativo de Pustejovsky
Pustejovsky defende a ideacuteia de que assim como a gramaacutetica tem uma estrutura
(sintaxe) a semacircntica (significado) tambeacutem tem uma estrutura baacutesica Na estrutura baacutesica da
sintaxe das liacutenguas em geral segundo Souza e Silva (1993) as oraccedilotildees satildeo compostas de
Sintagma Nominal (SN) mais Sintagma Verbal (SV) basicamente Na busca da estrutura
semacircntica Pustejovsky (1991) delineia a teoria do Leacutexico Gerativo (LG) como uma
abordagem na aacuterea da semacircntica lexical que pretende dar conta da criatividade semacircntica do
uso das palavras em contexto
Segundo Rossi (2003) Ullmann concorda com essa dificuldade do uso das palavras
em contexto quando declara que ldquonatildeo satildeo raros os casos em que ocorre uma polivalecircncia das
palavras acarretando por consequumlecircncia fenocircmenos semacircnticos inerentes agraves liacutenguas naturais
entre eles a ambiguumlidade lexicalrdquo Essa ambiguumlidade eacute provocada em decorrecircncia de fatores
35
lexicais denominados de polissemia e de homoniacutemia ou na terminologia de Weinreich
conforme Rossi (2003) de ambiguumlidade complementar e ambiguumlidade contrastiva
respectivamente
No primeiro caso trata-se da polissemia que de um modo geral conforme Moura
(2001) ldquoeacute definida como um fenocircmeno que permite associar a um mesmo item lexical mais
de um sentido os quais mantecircm alguma relaccedilatildeo semacircntica entre sirdquo Assim a palavra ldquolivrordquo
por exemplo eacute polissecircmica pois expressa ao menos dois sentidos diferentes que possuem
entre si algum tipo de laccedilo semacircntico (a) objeto fiacutesico e (b) informaccedilatildeo
Jaacute no segundo caso o da ambiguumlidade contrastiva trata-se de homoniacutemia definida
por Pustejovsky como a situaccedilatildeo na qual um item lexical eacute associado com ao menos dois
sentidos diferentes e sem relaccedilatildeo entre si Desse modo a palavra ldquomangardquo por exemplo eacute
uma palavra homocircnima pois natildeo haacute nenhuma relaccedilatildeo semacircntica evidente entre os sentidos de
ldquofrutardquo e ldquoparte da blusardquo
Segundo Rossi (2003 p 14) Ullmann salienta que ldquoeacute difiacutecil em casos particulares
determinar onde termina a polissemia e onde comeccedila a homoniacutemia uma vez que natildeo eacute faacutecil e
nem sempre possiacutevel medir intuitivamente o grau de proximidade dos significadosrdquo
A polissemia loacutegica eacute denominada por Pustejovsky (1991) para restringir a
ambiguumlidade complementar abordada anteriormente nos casos em que ocorre uma relaccedilatildeo
loacutegica portanto previsiacutevel entre os sentidos de uma palavra polissecircmica Havendo mais de um
sentido eacute importante ressaltar que pode existir sobreposiccedilatildeo desses sentidos em um mesmo
contexto
Aleacutem de ter sido tratada como polissemia loacutegica por Pustejovsky segundo Rossi
(2003) desde Weinreich esse fenocircmeno da complementaridade dos sentidos tem sido
abordado como polissemia regular e polissemia sistemaacutetica
A teoria do Leacutexico Gerativo (LG) de Pustejovsky aponta o problema da
multiplicidade de significados das palavras e enfatiza um tratamento relacionado ao problema
da polissemia das palavras Segundo Neto (2003) nessa perspectiva Pustejovsky desenvolveu
o LG que eacute um modelo de processamento de liacutengua natural que trata da explicaccedilatildeo semacircntica
de itens lexicais tanto isolados quanto em contexto
Assim como a gramaacutetica caracteriza o comportamento sintaacutetico especiacutefico de uma
certa categoria de palavras Pustejovsky propotildee uma teoria gerativa do significado da palavra
E ainda pretende mostrar que seu modelo segundo Rossi (2003 p 47) ldquoeacute contraacuterio a
36
estaticidade presente em duas concepccedilotildees semacircnticas teoacutericas das deacutecadas de 60 e 70 as
baseadas em redes conexionistas e as baseadas em primitivos fixos14rdquo
Rossi (2003 p 47) afirma que a teoria de redes conexionistas organiza a semacircntica
das palavras atraveacutes de relaccedilotildees e elos para esta autora isso ldquodificulta a representaccedilatildeo de
sentidos que exibem polissemia regular haja vista a distacircncia na rede entre os sentidos que
mantecircm relaccedilatildeo sistemaacutetica entre sirdquo Por exemplo os sentidos de ldquoobjeto fiacutesicordquo e
ldquoinformaccedilatildeordquo satildeo naturalmente distantes no entanto mantecircm entre si relaccedilatildeo sistemaacutetica no
caso de ldquolivrordquo e de outras palavras
Jaacute no segundo caso o das teorias baseadas em primitivos semacircnticos fixos o leacutexico
eacute tratado como uma lista enumerativa de sentidos Por isso mesmo tais modelos satildeo
denominados por Pustejovsky (1991) de Sense Enumeration Lexicon (SEL) - leacutexico de
enumeraccedilatildeo de sentidos O problema segundo Pustejovsky (1991) eacute que essa caracterizaccedilatildeo
dos possiacuteveis sentidos de uma palavra postulada pelo modelo SEL eacute aplicada tanto para a
ambiguumlidade contrastiva como para a polissemia loacutegica
Fica evidente segundo Rossi (2003) que Pustejovsky se opotildee aos modelos SEL pois
apesar de eles proverem uma enumeraccedilatildeo exaustiva dos sentidos de um item lexical ainda se
mostram limitados natildeo dando conta dos objetivos baacutesicos da teoria semacircntico-lexical ou seja
o uso criativo de palavras a permeabilidade dos significados e as muacuteltiplas formas sintaacuteticas
das expressotildees
O objetivo principal do LG segundo Pustejovsky (1991) eacute prover uma descriccedilatildeo
formal da liacutengua que seja expressiva e flexiacutevel o suficiente para apreender a natureza gerativa
da criatividade lexical e extensatildeo de sentido Caracteriza assim o LG como um sistema
semacircntico de perspectiva loacutegica que envolve quatro niacuteveis de representaccedilatildeo um sistema de
tipos semacircnticos e trecircs tipos de mecanismos gerativos
No decorrer deste capiacutetulo seratildeo especificadas as noccedilotildees teoacutericas baacutesicas do modelo
gerativo de Pustejovsky que estruturam o leacutexico em quatro niacuteveis de representaccedilatildeo
(argumentos eventos qualia e heranccedila) sobre os quais atuam dispositivos gerativos (a
coerccedilatildeo de tipo a co-composiccedilatildeo e a ligaccedilatildeo seletiva)
321 Estruturas do Leacutexico Gerativo
14 Conforme Pustejovsky (1995) a teoria de primitivos fixos eacute defendida por autores como Lakoff (1971) Wilks (1975) Schank (1975) Katz (1977) Jaacute a teoria de redes conexionistas eacute defendida por Carnap (1956) Collins e Quillian (1969) Fodor (1975) Brachman (1979)
37
Para capturar o significado lexical estudou-se as estruturas de Pustejovsky (1991)
que propotildee quatro niacuteveis de representaccedilatildeo estrutura de argumento estrutura de evento
estrutura de qualia e estrutura de heranccedila lexical descritos abaixo
3211 Estrutura de Argumento
Para Pustejovsky (1991) essa estrutura eacute uma especificaccedilatildeo miacutenima que agrupa os
itens lexicais em quatro argumentos
bull verdadeiros ndash paracircmetros do item lexical que tecircm a necessidade de serem expressos
sintaticamente Ex Marta morou em Paris
bull apagados ndash paracircmetros que natildeo tecircm necessidade de serem realizados sintaticamente satildeo
argumentos opcionais Ex Joana coseu uma saia sem linha
bull sombreados ndash paracircmetros que jaacute estatildeo semanticamente presentes no item lexical e soacute
devem ser expressos atraveacutes de operaccedilotildees de subtipo ou especificaccedilatildeo de discurso Ex
Paulo salgou a carne com sal grosso
bull adjuntos verdadeiros ndash paracircmetros que mesmo sendo parte da interpretaccedilatildeo situacional
modificam uma expressatildeo loacutegica sem contudo estarem ligados agrave representaccedilatildeo
semacircntica de algum item lexical especiacutefico Esses paracircmetros introduzem expressotildees
adjuntivas de modificaccedilatildeo temporal ou espacial Ex David dormiu cedo
3212 Estrutura de Evento
Essa estrutura para Pustejovsky (1991) refere-se a organizaccedilatildeo de um conjunto de eventos
no que tange agrave ordenaccedilatildeo temporal de seus subeventos e a designaccedilatildeo de qual deles seraacute
considerado o principal em relaccedilatildeo ao evento matriz
bull Evento de estado ndash aquele cujo(s) argumento(s) natildeo sofre(m) alteraccedilatildeo durante o
intervalo temporal do evento Ex Kaacutetia mora em Florianoacutepolis
bull Evento de processo ndash aquele cujo(s) argumento(s) sofre(m) alteraccedilatildeo de estado ou
indica(m) o iniacutecio de alguma atividade sem uma culminaccedilatildeo precisa Ex Heloisa canta
bem
bull Evento de transiccedilatildeo - aquele cujo(s) argumento(s) sofre(m) alguma accedilatildeo de
temporalidade determinada e resulta(m) em um estado diferente do inicial Ex Tereza fez
uma boneca
38
A estrutura a seguir apresenta os atributos semacircnticos essenciais dos itens lexicais
(como por exemplo a categoria a composiccedilatildeo a funccedilatildeo e a origem) atraveacutes dos papeacuteis
formal constitutivo teacutelico e agentivo Eacute a estrutura principal responsaacutevel pela explicaccedilatildeo da
polissemia loacutegica abordada no texto (Pustejovsky 1991)
3213 Estrutura de Qualia
Devido a sua proximidade com o SN visto que trabalha por conceitos (nomes) esta
estrutura foi utilizada no desenvolvimento do modelo proposto pela pesquisa Trata de um
conjunto formado por quatro qualia que visam guiar o processo de entendimento a respeito de
um objeto ou uma relaccedilatildeo no mundo dando por consequumlecircncia um modo de especificar a
denotaccedilatildeo de tal objeto ou relaccedilatildeo Eacute dividida em quatro papeacuteis os quais satildeo descritos na
sequumlecircncia
a) Quale formal - faz a distinccedilatildeo de determinado item dentro de um domiacutenio maior levando
em consideraccedilatildeo sua
bull orientaccedilatildeo
bull magnitude
bull forma
bull dimensatildeo
bull cor
bull posiccedilatildeo
b) Quale constitutivo - estabelece a relaccedilatildeo entre um objeto e suas partes constituintes ou
proacuteprias a partir das propriedades
bull material
bull peso
bull partes e elementos componentes
Aleacutem disso o quale constitutivo informa tambeacutem de que classe um item eacute parte caso
haja tal relaccedilatildeo ou seja ele informa tanto uma relaccedilatildeo de hiperoniacutemia15 quanto de
meroniacutemia16
15 Hiperoniacutemia ocorre quando o significado de um lexema (palavra) abrange o significado de outro lexema O significado de um eacute mais geneacuterico que o significado de outro Por exemplo ldquoaeronaverdquo eacute um hiperocircnimo de ldquoteco-tecordquo
39
Estas relaccedilotildees satildeo utilizadas na modelagem do protoacutetipo de Gonzalez (2005) Este
protoacutetipo foi pesquisado e apreendido como parte integrante da proposta desta dissertaccedilatildeo e
seraacute descrito na seccedilatildeo 33 do capiacutetulo 3
c) Quale teacutelico - explicita a finalidade e a funccedilatildeo de um objeto
bull Propoacutesito de um agente ao realizar um ato
bull Funccedilatildeo interna ou objetivo que descreve certas atividades
d) Quale agentivo - determina os fatores envolvidos na origem ou causa de um objeto
partindo de consideraccedilotildees sobre
bull criador
bull artefato
bull tipo natural
bull cadeia causal
Figura 11 Representaccedilatildeo da matriz de um item lexical Fonte ROSSI 2003
Figura 12 Matriz superficial da Estrutura de Qualia do item lexical ldquolivrordquo Fonte ROSSI 2003
16 Meroniacutemia ocorre quando o significado de um lexema (palavra) faz parte ou eacute uma porccedilatildeo do significado de outro lexema Por exemplo as palavras ldquocapardquo e ldquofolhasrdquo satildeo merocircnimos de ldquolivrordquo
40
Eacute importante salientar que segundo Neto (2003a) a Estrutura de Qualia natildeo deve ser
considerada apenas como uma lista de fatos interessantes sobre um item lexical e sim como
um conjunto de propriedades que leva a uma explicaccedilatildeo mais clara de tal item
Isto equivale dizer que o objetivo da Estrutura de Qualia eacute abarcar o significado de
uma palavra e explicitar como se relaciona com o uso da liacutengua Assim essa estrutura salienta
a explicaccedilatildeo do uso da criatividade linguumliacutestica contextual natildeo como uma estrutura isolada
mas em conjunto com os mecanismos gerativos que seratildeo apresentados mais adiante
Seguem alguns exemplos da Estrutura de Qualia
Figura 13 Exemplo da Estrutura de Qualia do item lexical ldquoromancerdquo Fonte PUSTEJOVSKY 1991
Figura 14 Exemplo da Estrutura de Qualia do item lexical ldquodicionaacuteriordquo Fonte PUSTEJOVSKY 1991
3214 Estrutura de Heranccedila Lexical
Esta estrutura tambeacutem eacute de fundamental importacircncia porque nesta ocorre a relaccedilatildeo das
qualias ou seja satildeo estruturas lexicais que podem se organizar com outras estruturas em uma
grade de tipo e assim ajudar na organizaccedilatildeo geral do leacutexico Por exemplo na figura abaixo o
LG relaciona ldquodicionaacuteriordquo ldquolivrordquo e ldquopeccedilardquo atraveacutes de suas estruturas de qualia em que se
observa que os trecircs itens lexicais satildeo diferentes entre si no entanto mantecircm relaccedilotildees
semacircnticas
41
Figura 15 Exemplo do LG relacionando ldquodicionaacuteriordquo ldquolivrordquo e peccedila atraveacutes de suas EQ Fonte NETO 2003a
322 Sistema de Tipos Semacircnticos
Um sistema de tipos semacircnticos analisa o comportamento polissecircmico e loacutegico de
nomes implicitamente relacionais como por exemplo porta janela Pustejovsky mostra como
o leacutexico gerativo faz uso de estruturas de aspectos tiacutepicos e afirma que esses nomes tecircm dois
sentidos relacionais (ldquoobjeto fiacutesicordquo e ldquoaberturardquo) que satildeo logicamente parte do significado do
nome Essa habilidade que um item lexical tem de agrupar vaacuterios sentidos eacute chamada
ldquoparadigma leacutexico-conceptual (plc ou lcp)rdquo O plc eacute como um construtor de tipo por exemplo
em palavras como ldquoportardquo e1 significa objeto_fiacutesico e2 abertura e o tipo resultante eacute
ldquoobjeto_fiacutesicoabertura_plc = objeto_fiacutesicoabertura objeto_fiacutesicoaberturardquo
Figura 16 Exemplo de polissemia loacutegica na representaccedilatildeo matricial da palavra ldquolivrordquo Fonte ROSSI 2003
42
Figura 17 Exemplo de polissemia loacutegica na representaccedilatildeo matricial da palavra ldquojornalrdquo Fonte ROSSI 2003
322 Mecanismos gerativos
O Leacutexico Gerativo apresenta ainda um conjunto de trecircs mecanismos que fazem uso
das estruturas ldquoeventordquo ldquoargumentordquo e ldquoqualiardquo os quais satildeo ditos gerativos pois relacionam
diferentes itens lexicais possibilitando a interpretaccedilatildeo composicional de palavras em contexto
3221 Coerccedilatildeo de tipo
Autoriza a mudanccedila de tipo e por extensatildeo de denotaccedilatildeo de nomes e expressotildees de
acordo com o contexto a que pertencem A coerccedilatildeo de tipo reconstroacutei a semacircntica do
complemento e soacute teraacute sucesso se o item lexical em questatildeo tiver um atalho para o tipo
desejado O exemplo claacutessico dado por Pustejovsky eacute ldquoJoatildeo comeccedilou um livrordquo em que o
predicado comeccedilar requer um tipo diferente do apresentado por livro ou seja o verbo requer
um complemento do tipo ldquoeventordquo que natildeo eacute satisfeito por ldquolivrordquo O termo ldquocomeccedilar um
livrordquo eacute interpretado como comeccedilar a ler (ou escrever) um livro
3222 Ligaccedilatildeo seletiva
Rege a relaccedilatildeo semacircntica que um modificador tem com o seu nuacutecleo ou seja ela
trata do problema da polissemia adjetival uma vez que os adjetivos satildeo interpretados a partir
da semacircntica do nuacutecleo Exemplos
(1) Um passeio raacutepido
(2) Um motorista raacutepido
43
(3) Um digitador raacutepido
(4) Um computador raacutepido
O primeiro problema estaacute claramente exemplificado com (1) em oposiccedilatildeo a (2) (3) e
(4) ou seja o primeiro trata de uma adjetivaccedilatildeo sobre um evento e os demais de uma
adjetivaccedilatildeo sobre indiviacuteduos Jaacute para o segundo problema diz-se que a interpretaccedilatildeo do
adjetivo vai ser selecionada por algum dos qualia do nuacutecleo do sintagma nominal ou seja
pela ligaccedilatildeo seletiva Esse mecanismo vai buscar a interpretaccedilatildeo de raacutepido para os exemplos
acima no quale teacutelico dos nuacutecleos
3223 Co-composiccedilatildeo
Os itens lexicais componentes de um determinado sintagma influenciam-se
mutuamente e um complemento pode adicionar um sentido ao seu nuacutecleo Pustejovsky
comeccedila exemplificando esse mecanismo com a polissemia de verbos como o ldquoassarrdquo que
apresenta dois sentidos uma mudanccedila de estado e outra de criaccedilatildeo do objeto Os exemplos
claacutessicos satildeo
(a) Letiacutecia assou as batatas
(b) Letiacutecia assou o bolo
Observa-se que em (1) houve apenas uma mudanccedila de estado pois as batatas jaacute
existiam antes de serem assadas em (2) um sentido de criaccedilatildeo de objeto eacute atribuiacutedo ao verbo
uma vez que antes da assadura o bolo natildeo existia Contudo Pustejovsky (1991) afirma que
ordinariamente soacute haacute um sentido para ldquoassarrdquo o de mudanccedila de estado pois tal verbo tem seu
tipo de evento modificado devido a informaccedilotildees que satildeo trazidas pelo complemento ou seja
essas leituras soacute satildeo possiacuteveis a partir de mecanismo de co-composiccedilatildeo em que os
complementos co-especificam o verbo
Por buscar formalizar a estrutura semacircntica de uma liacutengua o trabalho de Pustejovsky
eacute de grande importacircncia para a aacuterea de recuperaccedilatildeo de informaccedilatildeo Uma tentativa de
implementaccedilatildeo computacional da sua teoria foi realizada por Abrahatildeo (1997) envolvendo a
modelagem e a implementaccedilatildeo de um leacutexico semacircntico para a Liacutengua Portuguesa
Inicialmente este autor realizou um estudo de conceitos baacutesicos relacionados agrave semacircntica
Durante a sua pesquisa foram apresentadas teacutecnicas de representaccedilatildeo do conhecimento e do
significado que auxiliaram a seleccedilatildeo e o entendimento do modelo proposto por Pustejovsky
44
Como subsiacutedio para a implementaccedilatildeo de um leacutexico semacircntico para o portuguecircs
Abrahatildeo (1997) fez um estudo aprofundado da teoria de Pustejovsky onde salienta que os
problemas mais comuns agrave representaccedilatildeo do significado das palavras como ldquoambiguumlidade
lexical polissecircmicardquo por exemplo satildeo solucionados de forma eficiente e computacional
Como o modelo de Pustejovsky eacute voltado ao Inglecircs foram encontradas semelhanccedilas e
diferenccedilas entre a liacutengua origem do modelo e o Portuguecircs Variaccedilotildees verbais - facilita o mapeamento direto os verbos satildeo inseridos numa forma canocircnica (baacutesica ou infinitiva) no leacutexico variaccedilotildees de grau nos substantivos como alternativa de soluccedilatildeo satildeo armazenados em uma forma canocircnica palavras que se comportam como verbo e substantivo palavras que se comportam como adjetivo e substantivo tambeacutem satildeo mapeadas atraveacutes do uso da estrutura de lcps de Pustejovsky mapeamento de expressotildees - expressotildees devem ser inseridas no leacutexico pois expressam um significado especiacutefico substantivos compostos por mais de uma palavra acentuaccedilatildeo ndash itens lexicais do Inglecircs natildeo apresentam acentos Esta caracteriacutestica do Portuguecircs deve ser inserida no leacutexico pois diferencia o significado de suas palavras Deste modo esta informaccedilatildeo foi atribuiacuteda aos registros de informaccedilotildees semacircnticas atraveacutes de uma variaacutevel que conteacutem o tipo e a posiccedilatildeo na palavra em que o acento aparece (ABRAHAtildeO 1997 pgs 78-80)
Abrahatildeo (1997) construiu sua implementaccedilatildeo do leacutexico sobre uma estrutura em
aacutervore Trie17 que proporciona um maior poder de representaccedilatildeo na busca de informaccedilotildees e
baixa quantidade de dados armazenados As informaccedilotildees semacircnticas associadas aos itens
lexicais satildeo armazenadas em listas encadeadas a partir de uma estrutura denominada de
Descritor Semacircntico Um item lexical pertence ao leacutexico semacircntico se este item possui um
Descritor Semacircntico associado ao seu uacuteltimo caractere na aacutervore E ainda um Descritor
Semacircntico abrange os ponteiros essenciais para a busca das informaccedilotildees semacircnticas relativas
ao item lexical
De acordo com este autor as informaccedilotildees semacircnticas associadas aos itens lexicais
seguem o modelo de Pustejovsky (1991) sendo dividida em trecircs estruturas baacutesicas de
argumentos de eventos e de Qualia As estruturas de argumentos e de eventos satildeo
implementadas atraveacutes de uma lista de argumentos e uma lista de eventos A estrutura de
Qualia eacute composta de quatro listas de informaccedilotildees uma para cada papel (formal constitutivo
teacutelico e agentivo)
Segundo este autor todas as estruturas do leacutexico semacircntico foram desenvolvidas em
vetores A manipulaccedilatildeo destes vetores daacute-se sobre estruturas denominadas cabeccedilalhos Estes
cabeccedilalhos fornecem informaccedilotildees sobre a alocaccedilatildeo de vetores em memoacuteria ponteiros para os
vetores de informaccedilatildeo tamanhos dos vetores e os arquivos associados ao sistema O nuacutecleo de
17 Segundo Abrahatildeo (1997) ldquoeacute um tipo especial de estrutura onde cada caractere dos itens lexicais determina um nodo da aacutervorerdquo
45
dados do sistema eacute constituiacutedo de dois cabeccedilalhos cabeccedilalho da aacutervore Trie e o cabeccedilalho das
informaccedilotildees semacircnticas
A biblioteca de funccedilotildees conteacutem os procedimentos necessaacuterios para manutenccedilatildeo do
banco de dados lexical bem como procedimentos de busca de informaccedilotildees semacircnticas
Juntamente com a biblioteca uma interface graacutefica foi construiacuteda possibilitando a manutenccedilatildeo
do banco de dados e facilitando a visualizaccedilatildeo da semacircntica dos itens lexicais Esta interface
graacutefica eacute implementada na linguagem de programaccedilatildeo em C para as estaccedilotildees de trabalho SUN
sobre o sistema de janelas XVIEW18 (ABRAHAtildeO 1997)
Esta seccedilatildeo mostrou a importacircncia da teoria de Pustejovsky e suas possibilidades O
LG eacute fundamental para compreensatildeo semacircntica pois considera o contexto da palavra sendo
capaz de estruturar um domiacutenio especiacutefico atraveacutes da EQ e tambeacutem de identificar dentro de
um domiacutenio quando determinada palavra aparece em tal contexto Pelo desenvolvimento do
trabalho de Abrahatildeo pode-se perceber a dimensatildeo e os elementos necessaacuterios para o
significado de uma palavra reforccedilando-se assim o valor e a viabilidade da teoria de
Pustejovsky
A proacutexima seccedilatildeo apresenta o trabalho de Gonzalez (2005) que estudou Pustejovsky19
e posteriormente desenvolveu sua proacutepria concepccedilatildeo de uma estrutura de RI (toda
automatizada)
33 O Modelo TR+ de Gonzalez
O modelo TR+ eacute considerado um modelo para RI que utiliza duas fases para o
desenvolvimento de sua estrutura fase de indexaccedilatildeo e fase de busca
18 XVIEW ldquoeacute um sistema de janela orientado a objeto que permite ao programador criar e utilizar objetos tais como janelas textos paineacuteis iacutecones entre outros para construir uma aplicaccedilatildeo Seus objetos satildeo predefinidos e satildeo ricos em funcionalidade o que permite que o coacutedigo necessaacuterio para manipular essas janelas seja pequeno simples e muito faacutecil de se compreenderrdquo (ABRAHAtildeO 1997 p 86) 19 Realizou um trabalho individual no doutorado denominado ldquoO Leacutexico Gerativo de Pustejovsky sob o enfoque da Recuperaccedilatildeo de Informaccedilotildeesrdquo de 2000a
46
Indexaccedilatildeo de textos segundo Baeza-Yates e Ribeiro-Neto (1999) e Gonzalez (2005)
eacute o processo que estipula descritores20 dos conteuacutedos dos textos de uma coleccedilatildeo de
documentos com objetivo de busca e classificaccedilatildeo dos mesmos para atender consultas em
sistemas de RI Descritores podem descrever conceitos atocircmicos sendo lsquotermosrsquo ou conceitos
complexos sendo lsquorelacionamentosrsquo O conjunto de descritores concebido na indexaccedilatildeo
favorece uma visatildeo loacutegica dos documentos com o propoacutesito de unir esses descritores termos
e relacionamentos a conceitos presentes nos textos dos documentos
Para os relacionamentos este autor classifica trecircs tipos explicando-os atraveacutes do
exemplo ldquo tecircm preocupado os pesquisadoresrdquo O primeiro tipo eacute o par modificado-
modificador como lsquopesquisador-preocupadorsquo O segundo eacute o bigrama (preocupado
pesquisador) e o terceiro eacute o Sintagma Nominal que para ele significa lsquopesquisador
preocupadorsquo e que para a pesquisa de Gonzalez ficaria na sua forma natural lsquopreocupado os
pesquisadoresrsquo O autor ainda cita que haacute outros formatos de relacionamentos como a
expressatildeo ternaacuteria (preocupaccedilatildeo-de-pesquisador) e a relaccedilatildeo binaacuteria
(preocupaccedilatildeopesquisador)
Gonzalez (2005) aponta dois tipos de relacionamentos como problemas os bigramas
por natildeo poderem descrever o conceito (ldquoferro sopardquo para ldquopanela de ferro com sopardquo) e os
termos com palavras comuns mas coadjuvantes importantes (ldquosentar bancordquo e ldquodepositar
bancordquo) os sintagmas nominais que para o autor representam tanto o conceito atocircmico quanto
o complexo (ldquonoiterdquo e ldquoboca da noiterdquo) Eacute importante perceber que a partir dessas
caracteriacutesticas e aspectos acima definidos Gonzalez (2005) propocircs um novo modelo de
espaccedilo de descritores (uniatildeo do conjunto de termos com o conjunto de relacionamentos) Este
novo modelo surgiu a partir de outros cinco modelos de descritores jaacute existentes
1 Unigrama conjunto de termos natildeo relacionados
2 N-grama (NG) conjunto de relacionamentos estatiacutesticos
3 Termo-Termo (TT) conjunto de termos relacionados estatiacutestica ou
sintaticamente
4 Termo-Relacionamento (TR) conjunto de termos e relacionamentos sintaacuteticos
20 A palavra descritores eacute usada para se tratar dos termos e relacionamentos enquanto os iacutendices se referem apenas aos termos O descritor lsquotermorsquo significa uma unidade lexical formada por uma uacutenica palavra ou por mais de uma denominada de lsquotermo compostorsquo E o descritor lsquorelacionamentorsquo ocorre entre termos ou seja satildeo relaccedilotildees de construccedilotildees sintaticamente diferentes que tecircm o mesmo significado (semacircntica) Exemplo lsquodefesa eficientersquo eacute igual a lsquodefender eficientementersquo e lsquofeira de domingorsquo eacute igual a lsquofeira dominicalrsquo Alguns autores como Baeza-Yates e Ribeiro-Neto (1999) utilizam a palavra lsquoiacutendicersquo ao inveacutes de descritores contudo Gonzalez ressalta que esta palavra refere-se apenas aos lsquotermosrsquo natildeo dando conta da semacircntica que envolve os lsquorelacionamentosrsquo
47
5 Relacionamento-Termo (RT) conjunto de relacionamentos sintaacuteticos e seus
componentes ldquoOs Sintagmas Nominais constituem os principais descritores neste
casordquo (GONZALEZ 2005 p41)
O modelo TR+ proposto por este autor combina aspectos dos modelos TR e RT
A Figura 18 daacute uma visatildeo geral do modelo TR+ de Gonzalez (2005) na fase de
indexaccedilatildeo com suas etapas essenciais e na fase de busca para a classificaccedilatildeo por relevacircncia
dos documentos em relaccedilatildeo agrave consulta
g
f
e
da a
b b
c
Figura 18 Visatildeo Geral do modelo TR+ Fonte Gonzalez 2005
O espaccedilo de descritores do modelo TR+ construiacutedo na fase de indexaccedilatildeo eacute com
de quatro processos principais
a) Preacute-processamento (toquenizaccedilatildeo e etiquetagem)
b) Nominalizaccedilatildeo
c) Captura de RLBs
d) Termos e RLBs
Na etapa ldquoardquo de preacute-processamento ocorrem duas accedilotildees fundamentais Toquen
e Etiquetagem A toquenizaccedilatildeo eacute a identificaccedilatildeo de cada item lexical (palavra e pontu
Na etiquetagem existe um etiquetador gramatical (part-of-speech tagger - parser
identifica atraveacutes de uma etiqueta (tag) a categoria gramatical de cada palavra do
(adjetivo substantivo verbo entre outras) Geralmente eacute morfoloacutegico (identifica som
c
posto
izaccedilatildeo
accedilatildeo)
) que
texto
ente a
48
categoria morfoloacutegica) ou morfossintaacutetico (identifica tambeacutem as funccedilotildees sintaacuteticas) Estes
processos satildeo realizados de forma automatizada21
Antes da nominalizaccedilatildeo eacute realizada a geraccedilatildeo de espaccedilo dos descritores que se
constitui na seleccedilatildeo e normalizaccedilatildeo dos descritores e ainda a contagem de frequumlecircncia de
ocorrecircncia dos descritores - termos (para o caacutelculo de seus pesos) que seraacute usada na etapa
ldquodrdquo
Faz parte do processo de seleccedilatildeo de descritores a eliminaccedilatildeo de stopwords22 que
podem ser descartadas na fase de indexaccedilatildeo e na consulta Essa exclusatildeo justifica-se segundo
o autor porque as stopwords satildeo consideradas palavras com pouca representatividade A
seleccedilatildeo dos descritores a quantidade dos mesmos e o peso de cada um podem ser afetados
pela normalizaccedilatildeo linguumliacutestica
A normalizaccedilatildeo segundo Gonzalez (2005) apresenta trecircs tipos conhecidos como
bull Sintaacutetica - que transforma frases semanticamente equivalentes mas
sintaticamente diferentes (ldquoeficiente processo raacutepidordquo e ldquoprocesso raacutepido
eficienterdquo)
bull Leacutexico-semacircntico ndash que utiliza relacionamentos semacircnticos (como a sinoniacutemia)
para substituir palavras morfologicamente distintas por uma uacutenica forma que
representa o conceito evidenciado
bull Morfoloacutegica ndash reduz as formas flexionais de uma palavra por meio da
conflaccedilatildeo23
No modelo TR+ foi utilizada a normalizaccedilatildeo lexical para o processo de
nominalizaccedilatildeo Este processo de nominalizaccedilatildeo constitui a etapa ldquobrdquo e significa a
transformaccedilatildeo de uma palavra (adveacuterbio adjetivo ou verbo) existente no texto em um
substantivo semanticamente equivalente constituiacutedo com regras vaacutelidas de formaccedilatildeo de
palavras (GONZALEZ 2005)
A tabela abaixo mostra exemplos de termos nominalizados Nesta etapa de
nominalizaccedilatildeo eacute utilizada a ferramenta CHAMA24
21 A ferramenta FORMA (Toquenizaccedilatildeo e Etiquetagem Morfoloacutegica) foi utilizada por Gonzalez O autor cita o nome desta ferramenta no seu site httpwwwinfpucrsbr~gonzaleztr+ Acesso em 14 de fevereiro de 2006 22 Stopwords satildeo palavras como preposiccedilotildees artigos e conjunccedilotildees 23 Conflaccedilatildeo satildeo processos realizados por algoritmos que combinam a representaccedilatildeo de duas ou mais palavras em um uacutenico termo Haacute dois meacutetodos mais comuns stemming que reduz a palavra para a parte fundamental semelhante ao radical e lematizaccedilatildeo que reduz a palavra variaacutevel agrave correspondente forma ldquocanocircnicardquo 24 A ferramenta CHAMA (nominalizaccedilatildeo de adjetivos verbos e adveacuterbios) foi desenvolvida por Marco Antonio Insaurriaga Gonzalez (doutor em Ciecircncia da Computaccedilatildeo pela UFRGS) Em sua tese de doutorado intitulada ldquoTermos e Relacionamentos em Evidecircncia na Recuperaccedilatildeo de Informaccedilatildeordquo 2005
49
Tabela 1 Exemplos de nominalizaccedilatildeo Fonte Gonzalez 2005
Devido agraves diferentes variaccedilotildees que a nossa Liacutengua Portuguesa apresenta este autor
trabalha em seu modelo com palavras sem acentuaccedilatildeo e em letras minuacutesculas ocorrendo um
comprometimento do significado das palavras como por exemplo eacute citado por ele puacuteblica e
publica
A etapa ldquocrdquo de captura de Relaccedilotildees Lexicais Binaacuterias (RLBs) eacute segundo Gonzalez
(2005) o relacionamento entre termos nominalizados ou seja sintaticamente diferentes mas
semanticamente iguais25 Uma RLB pode ser classificada tambeacutem quanto agrave nominalizaccedilatildeo de
seus componentes Este autor sistematiza e classifica esta questatildeo conforme aparece em seus
exemplos abaixo (2005 p 47)
bull Original onde o termo natildeo recebeu o processo de nominalizaccedilatildeo
bull Derivada onde um dos termos pelo menos resulta do processo de
nominalizaccedilatildeo
Uma RLB de acordo com Gonzalez (2005) apresenta a seguinte aparecircncia
25 Gonzalez desenvolveu o software RELLEX para o reconhecimento de relaccedilotildees lexicais binaacuterias em sua tese de doutorado 2005
50
id (t1t2) onde
id significa o identificador de relaccedilatildeo e
t1 e t2 satildeo os termos nominalizados
Este autor aponta os trecircs tipos de RLBs quanto ao identificador id
bull Classificaccedilatildeo onde id eacute especificado com um sinal de igual (=) t1 representa
uma subclasse ou uma instacircncia de t2 e t2 representa uma classe
Exemplos =(caoanimal)
=(PET garrafa) Exemplo desenvolvido nesta dissertaccedilatildeo
bull Restriccedilatildeo onde id eacute uma preposiccedilatildeo t1 representa um elemento modificado e t2
representa um elemento modificador
Exemplos de(equipeatletismo)
com(supervisorexperiencia)
por(orientacaoministro)
bull Associaccedilatildeo onde id representa um evento t1 eacute um sujeito e t2 eacute um objeto
(direto ou indireto) ou um adjunto
Exemplos superacao(alunodificuldade)
interessea(propostanegociante)
moradiaem(presidentebrasilia)
As Relaccedilotildees Lexicais Binaacuterias conforme Gonzalez (2005) satildeo inseridas no espaccedilo
de descritores para ampliar o seu universo As RLBs descrevem relaccedilotildees semacircnticas lexicais
como as que satildeo apresentadas na estrutura de Qualia da teoria do Leacutexico Gerativo de
Pustejovsky (GONZALEZ 2000 PUSTEJOVSKY 1991) O estudo desta teoria motivou o
Gonzalez a desenvolver a proposta das RLBs como parte integrante de seu trabalho como um
modo de adequaacute-la a aplicaccedilotildees na aacuterea de RI
Como jaacute foi descrita na seccedilatildeo 32 a Estrutura de Qualia da teoria do Leacutexico
Gerativo descreve um item lexical atraveacutes de quatro papeacuteis formal constitutivo agentivo e
teacutelico O papel formal distingue um item lexical em um domiacutenio maior Em uma RLB
segundo Gonzalez (2005) do tipo classificaccedilatildeo como ldquo=(computadormaquina)rdquo por
exemplo o computador seria distinguido como uma maacutequina ou em ldquo=(ipmftributo)rdquo o ipmf
seria um tributo Portanto a RLB do tipo classificaccedilatildeo corresponde ao papel formal da
estrutura de Qualia
51
O papel constitutivo estabelece a relaccedilatildeo entre um item lexical X e suas partes
constituintes Em uma RLB do tipo restriccedilatildeo como ldquode(mesamadeira)rdquo por exemplo haveria
a indicaccedilatildeo de que a mesa eacute feita de madeira ou em ldquocom(massaalho)rdquo de que haacute alho na
massa O papel agentivo especifica os fatores envolvidos na origem ou causa de um item
lexical Em uma RLB para este autor do tipo restriccedilatildeo como ldquopor(publicacaoautor)rdquo por
exemplo seria especificado que a publicaccedilatildeo se deve ao autor ou em ldquopor(impedimentolei)rdquo
que a lei eacute a razatildeo do impedimento
O papel teacutelico explica qual a funccedilatildeo ou finalidade do item lexical Em uma RLB do
tipo associaccedilatildeo como ldquoconserto(encanadorvazamento)rdquo por exemplo explica que a funccedilatildeo
do encanador eacute o conserto do vazamento ou em uma RLB do tipo restriccedilatildeo como
ldquopara(leituraaprendizado)rdquo que a finalidade da leitura eacute o aprendizado (GONZALEZ 2005)
Este autor salienta que natildeo se quer que as RLBs ldquointerpretemrdquo o texto com
distinccedilotildees indicaccedilotildees especificaccedilotildees ou explicaccedilotildees dos tipos apresentados O propoacutesito eacute de
que as RLBs sejam descritores de tais fatos mas sem classificaccedilatildeo (etiquetas) Por isto os
identificadores de relaccedilatildeo natildeo satildeo rotulados com os papeacuteis descritos A uacutenica exceccedilatildeo eacute o
identificador das RLBs do tipo classificaccedilatildeo O indicador ldquo=rdquo eacute o roacutetulo inevitaacutevel para o
claacutessico ldquoeacute umrdquo porque natildeo haacute outro papel possiacutevel nesse tipo de relaccedilatildeo
No modelo TR+ estaacute envolvido aleacutem da coleccedilatildeo de documentos constituiacuteda por
descritores (termos e relacionamentos) tambeacutem os seus respectivos pesos que dependem de
uma formulaccedilatildeo matemaacutetica denominada de lsquocaacutelculo de representatividadersquo dos descritores
em cada documento que eacute um diferencial deste modelo e estaacute na fase ldquodrdquo onde os termos e
RLBs seratildeo armazenados
Para ocorrer o caacutelculo do peso dos descritores eacute aplicado o conceito de evidecircncia26
Este conceito natildeo depende apenas da frequumlecircncia de ocorrecircncia de um descritor mas de um
outro mecanismo ldquoa representatividade de um descritor depende aleacutem de sua frequumlecircncia de
ocorrecircncia no texto da ocorrecircncia de mecanismos de coesatildeo fraacutesicardquo (GONZALEZ 2005
p48) A coesatildeo fraacutesica determina uma junccedilatildeo significativa entre os componentes de uma
frase27 Esta junccedilatildeo aliada com a frequumlecircncia de ocorrecircncia constitui o conceito de evidecircncia
como um dos aspectos essenciais da Tese de Gonzalez (2005)
A evidecircncia dos termos eacute realizada de forma direta com a frequumlecircncia e a coesatildeo
fraacutesica mas a evidecircncia de um relacionamento natildeo pois esta eacute dependente primeiramente das
26 Evidecircncia significa qualidade daquilo que eacute evidente que eacute incontestaacutevel que todos vecircem ou podem ver e verificar (Dicionaacuterio Eletrocircnico Michaelis) Como descreve Gonzalez (2005) ldquoeacute aquilo natildeo oferece ou natildeo daacute margem agrave duacutevidardquo 27 Site httpacdufrjbr~peadtema09coesaogramaticalhtml
52
evidecircncias de seus termos Este conceito estaacute inserido no caacutelculo de representatividade de um
descritor
O caacutelculo da representatividade eacute um caacutelculo de relevacircncia do termo ou
relacionamento que varia de acordo com as abordagens (booleana vetorial e probabiliacutestica) e
pode ser realizado apenas com a frequumlecircncia da palavra no documento ou ainda com a
frequumlecircncia vinculada com a sua informaccedilatildeo morfoloacutegica ou sintaacutetica (GONZALEZ 2005)
Para realizar o caacutelculo da representatividade dos descritores haacute duas estrateacutegias de
determinaccedilatildeo que satildeo os modelos com unigramas que tratam os termos de forma
independente (abordagens vetorial e probabiliacutestica) e os modelos com dependecircncia entre
termos Estas dependecircncias envolvem conjuntos diferentes de conhecimentos que satildeo os
estatiacutesticos e os linguumliacutesticos28 Os conhecimentos linguumliacutesticos satildeo ldquoleacutexico morfoloacutegico
fonoloacutegico sintaacutetico semacircntico e pragmaacuteticordquo (ABRAHAtildeO 1997 p11)
Estes dois modelos descritos acima satildeo apresentados como mais significativos
poreacutem ainda utilizam a abordagem booleana Isto porque Gonzalez (2005) define como o
caminho mais promissor a combinaccedilatildeo da abordagem booleana (individualmente limitadora)
com a uniatildeo dos conhecimentos estatiacutesticos e linguumliacutesticos entre si que permitem mais
interaccedilatildeo com o usuaacuterio
O caacutelculo da representatividade ao mesmo tempo que eacute uma propriedade baacutesica de
um descritor apresenta diferentes formas de acordo com as abordagens vetorial e
probabiliacutestica (capiacutetulo 2) e gera diversas interpretaccedilotildees Por isto Gonzalez (2005) propotildee um
novo caacutelculo que compreenda a importacircncia do contexto nas foacutermulas inseridas no seu modelo
TR+
O outro momento de seu modelo (Figura 18) compreende a lsquofase de buscarsquo que inclui
Preacute-Processamento (toquenizaccedilatildeo e etiquetagem) Nominalizaccedilatildeo e Captura de RLBs Estas
etapas ocorrem da mesma maneira que na fase de indexaccedilatildeo Inclui tambeacutem as etapas
Formulaccedilatildeo de consulta booleana Busca e Classificaccedilatildeo
Na etapa ldquoerdquo (Formulaccedilatildeo de Consulta Booleana) Gonzalez (2005) explica que se a
consulta q em linguagem natural formulada pelo usuaacuterio for por exemplo ldquopintura
restauradardquo entatildeo seraacute formulada no formato Booleano conforme o modelo TR+ a seguinte
consulta qb
28 Estes conhecimentos envolvem niacuteveis leacutexico-morfoloacutegico e sintaacutetico sintagmas nominais (sujeito objeto direto e indireto e adjunto adnominal) A vantagem destes eacute a capacidade de identificar relacionamentos entre palavras natildeo adjacentes como ldquoalgoritmosrdquo e ldquoconcorrentesrdquo em ldquoalgoritmos sequumlenciais e concorrentesrdquo
53
r1 OU r2 OU ( (n1 (p1) OU n2(p1) ) E (n1 (p2) OU n2(p2) ) ) onde
r1 = de(restauracaopintura)
r2 = r1rsquo = diferente_de(restauracaopintura)
n1(p1) = (elemento vazio)
n2(p1) = pintura
n1(p2) = restauracao
n2(p2) = restaurador
p1 = pintura e
p2 = restaurada
Tabela 2 Exemplo de uma consulta qb Fonte Gonzalez 2005 p 51
Na fase de busca a etapa ldquofrdquo ocorre uma relaccedilatildeo entre a etapa ldquoerdquo e a etapa ldquodrdquo Esta
uacuteltima acontece ainda na fase de indexaccedilatildeo visto que ldquoestando os termos e as RLBs definidas
e calculados os pesos a classificaccedilatildeo dos documentos depende do valor de relevacircncia dos
mesmos e da formulaccedilatildeo Booleana da consultardquo (GONZALEZ 2005 p 50)
A etapa ldquogrdquo (Classificaccedilatildeo) eacute resultado de um caacutelculo sobre os dados obtidos no
procedimento anterior que identifica o valor de relevacircncia de cada documento recuperado-os
em ordem decrescente Um exemplo de classificaccedilatildeo eacute indicado por Gonzalez (2005) atraveacutes
da foacutermula de uma consulta denominada q Nesta consulta encontram-se os termos t1 e t2 e a
RLB r e se estes dois termos estatildeo relacionados atraveacutes de r em um documento d estes teratildeo
dupla contribuiccedilatildeo no caacutelculo do valor de relevacircncia de d poreacutem se t1 e t2 ocorrem em d mas
natildeo estatildeo relacionados atraveacutes de r o autor considera que esta contribuiccedilatildeo seraacute simples e
assim d tende a perder posiccedilotildees na classificaccedilatildeo por relevacircncia a q
Os documentos recuperados classificam-se em dois grupos (a) grupo superior de maior relevacircncia documentos que atendem agraves condiccedilotildees estabelecidas na consulta Booleana ou seja possuem pelo menos uma das RLBs da consulta ou na falta de todas elas possuem obrigatoriamente todos os termos conforme especificado (b) grupo inferior de menor relevacircncia documentos que natildeo atendem a todas as condiccedilotildees estabelecidas na consulta Booleana mas possuem pelo menos um dos termos da consulta Os documentos satildeo classificados em ordem decrescente do valor de relevacircncia tanto nos grupos superior como inferior (GONZALEZ 2005 p 51)
Eacute importante ressaltar que toda a proposta de Gonzalez (Modelo TR+) foi
automatizada testada e aprovada Foi utilizado o software FORMA para a etapa de preacute-
processamento e os demais softwares como CHAMA (nominalizaccedilatildeo) e RELLEX (regras de
54
identificaccedilatildeo de RLBs) foram desenvolvidos pelo autor Diversos algoritmos juntamente com
abordagens de RI (booleana probabiliacutestica e vetorial) foram desenvolvidos para as fases
posteriores do seu trabalho como o caacutelculo do peso dos descritores a busca e a classificaccedilatildeo
de documentos
As experimentaccedilotildees desenvolvidas por Gonzalez (2005) em seu trabalho lograram
comprovar que o processo de nominalizaccedilatildeo como processo de normalizaccedilatildeo lexical
proporciona melhores resultados de recuperaccedilatildeo que os produzidos pelos processos
tradicionais (lematizaccedilatildeo e stemming) a identificaccedilatildeo de RLBs (obtenccedilatildeo de informaccedilatildeo
linguumliacutestica) contribui de forma positiva para a descriccedilatildeo de dependecircncias de termos
ampliando o espaccedilo de descritores o caacutelculo da representatividade dos descritores baseado em
evidecircncia melhora a classificaccedilatildeo de relevacircncia dos documentos com vantagem sobre o
caacutelculo baseado em frequumlecircncia de ocorrecircncia o uso de consultas com operadores Booleanos
trata-se de uma forma eficaz de complementar a especificaccedilatildeo de dependecircncias de termos e
tambeacutem a inclusatildeo de conhecimento linguumliacutestico como a realizada no modelo proposto pelo
autor apresenta relaccedilatildeo custobenefiacutecio viaacutevel dentro do atual estaacutegio de desenvolvimento da
pesquisa em RI
O proacuteximo capiacutetulo descreve o novo modelo proposto para esta dissertaccedilatildeo baseado
na identificaccedilatildeo das possibilidades de ampliaccedilatildeo de siacutentese e de sistematizaccedilatildeo do modelo de
Kuramoto com a estrutura de Gonzalez Pode ser considerada uma soluccedilatildeo hiacutebrida de um
modelo de RI que une trecircs teorias Sintagmas Nominais de Kuramoto Leacutexico Gerativo de
Pustejovsky e Modelo TR+ de Gonzalez Apresentar-se-aacute os paracircmetros gerais norteadores e
justificadores do modelo a descriccedilatildeo narrativa da sua funcionalidade os resultados dos testes
e a descriccedilatildeo formal UML do modelo
55
4 APRESENTACcedilAtildeO E DISCUSSAtildeO DO MODELO PROPOSTO
A proposta desta dissertaccedilatildeo eacute de integrar a aplicaccedilatildeo praacutetica do projeto dos
Sintagmas Nominais de Kuramoto sistematizando e associando com o modelo TR+ de
Gonzalez (2005)
Na descriccedilatildeo do modelo do sistema proposto foi utilizado o meacutetodo denominado de
Processo Unificado (UP) que envolve as fases de concepccedilatildeo elaboraccedilatildeo construccedilatildeo e
transiccedilatildeo e utilizou-se a Linguagem de Modelagem Unificada (UML) que eacute fortemente
relacionada com a metodologia utilizada segundo Wazlawick (2004)
Neste capiacutetulo desenvolve-se o modelo conceitual da aplicaccedilatildeo proposta para a qual
foram realizadas as etapas de levantamento e anaacutelise de requisitos representada pelo
diagrama e pela descriccedilatildeo dos casos de uso e de construccedilatildeo dos diagramas de classes e de
sequumlecircncia relacionados
41 Procedimentos desenvolvidos utilizando o modelo de SN de Kuramoto e a proposta
Gonzalez - ldquoEstrutura SINTR+rdquo
Esta dissertaccedilatildeo optou por realizar uma relaccedilatildeo entre propostas diferenciadas utilizar
o modelo de SN de Kuramoto para a organizaccedilatildeo dos conceitos mais significativos dos
documentos e a proposta de Gonzalez para a busca dessas informaccedilotildees que estaratildeo
estruturadas atraveacutes da dependecircncia entre termos Esta relaccedilatildeo foi desenvolvida na criaccedilatildeo da
ldquoEstrutura SINTR+rdquo que tem como especificidade a busca nos documentos a partir do banco
de dados dos Sintagmas Nominais Esta escolha de unir em uma estrutura proacutepria os SN e o
Modelo TR+ pautou-se pelo intuito de orientar mais objetivamente o usuaacuterio na definiccedilatildeo da
sua query de busca atraveacutes de uma navegaccedilatildeo sobre a estrutura de SN presentes no
documento e de posterior apresentaccedilatildeo de lista de documentos efetivamente relevantes
O objetivo eacute trabalhar com os Sintagmas Nominais evidenciando e potencializando
uma uniatildeo com o modelo TR+ de Gonzalez (2005) O modelo abaixo (Figura 19) apresenta
uma nova proposta pautada na junccedilatildeo sistematizada e analiacutetica da extraccedilatildeo dos SN na
Estrutura de Kuramoto (1999) com o Modelo TR+ de Gonzalez (2005) ldquoEstrutura SINTR+rdquo
56
Documentos
Extraccedilatildeo de SN
Preacute-processamento
Nominalizaccedilatildeo
4
Captura de RLBs
Referecircncia aos
documentos classificados
Classificaccedilatildeo
Lista de SN de Niacutevel Requerido
Lista dos demais Preacute-
3
2
85
3
2
1
Consulta em
LN
7
6
(Fase d
O mo
extraccedilatildeo de tod
o preacute-processam
de acontecer co
de forma mais
foco de anaacutelise
subsequumlentes
Antes
descritores con
frequumlecircncia de o
Etapa 5
Em se
mudanccedila de um
concreto eou a
Te
R
e indexaccedilatildeo)
Figura
delo propost
os os seus Si
ento onde o
m todas as p
objetiva e raacute
somente so
do processo d
stituiacuteda na s
correcircncia dos
guida ocorre
a palavra (ad
bstrato Na E
rmos e
LBs
Busca
Formulaccedilatildeo de consulta Booleana
11
(Fase
19 Visatildeo Geral do Modelo Proposto ldquoEstr
o se inicia a partir dos document
ntagmas Nominais (Etapa 1) Extra
correm a Toquenizaccedilatildeo e a Etiquet
alavras do documento como ocorr
pida apenas diretamente sobre os
bre os termos inclusos nos SN pe
e nominalizaccedilatildeo na Etapa 3 eacute exec
eleccedilatildeo e normalizaccedilatildeo dos descrit
descritores - termos (para o caacutelculo
o processo de nominalizaccedilatildeo que c
veacuterbio adjetivo ou verbo) existen
tapa 4 ocorre a identificaccedilatildeo das
niacuteveis de SN processamento
Nomin
Captura
9
de busca)
utura SINTR+rdquo
os a serem inse
iacutedos os SN na E
agem que Essa e
e no modelo TR
termos constant
rmanece para to
utada a geraccedilatildeo
ores e ainda na
de seus pesos)
onstitui a Etapa
te nos SN em u
RLBs nos SN q
alizaccedilatildeo
de RLBs 0
ridos com a
tapa 2 eacute feito
tapa ao inveacutes
+ eacute realizada
es nos SN O
das as etapas
de espaccedilo dos
contagem da
a ser usada na
3 e significa a
m substantivo
ue significa o
1
1
1
57
relacionamento entre termos nominalizados Estas etapas acima satildeo constituiacutedas para a
geraccedilatildeo do espaccedilo de descritores (termos e RLBs) referentes agrave Etapa 5
Na lsquofase de buscarsquo primeiramente o usuaacuterio digita uma palavra por exemplo
ldquoplaacutesticosrdquo A resposta para o usuaacuterio ocorreraacute pois internamente foi feita uma programaccedilatildeo
(a ser implementada) para identificar o niacutevel do SN solicitado pelo usuaacuterio para que
posteriormente apareccedila para este a lista de todos os SN do niacutevel apresentado contendo a query
solicitada
No caso do exemplo ldquoplaacutesticosrdquo o processo avanccedila na Etapa 6 listando todos os
sintagmas nominais de primeiro niacutevel (SN1) dos documentos (uma vez que a solicitaccedilatildeo
referia-se ao niacutevel 1) Nesta etapa o usuaacuterio poderaacute escolher um dos sintagmas de primeiro
niacutevel ou confirmar a sua escolha (query) inicial O processo continua com a escolha de uma
dentre as opccedilotildees de i) ver a lista de documentos relacionados ao SN1 definido ou ii) solicitar
a relaccedilatildeo de sintagmas de seu segundo niacutevel A visualizaccedilatildeo da lista de sintagmas de niacutevel
superior permitiria ao usuaacuterio filtrar mais a sua consulta Para a determinaccedilatildeo da lista de SN
de segundo niacutevel como por exemplo ldquoa reciclagem de plaacutesticosrdquo ldquoa induacutestria de plaacutesticosrdquo
(Figura 20) tambeacutem foi feita uma programaccedilatildeo especiacutefica que seraacute descrita posteriormente
Na continuidade do processo o usuaacuterio pode prosseguir o refinamento da sua busca
atraveacutes da seleccedilatildeo de SN de maior niacutevel ou pode dar-se por satisfeito com o resultado (Etapa
7) solicitando diretamente a lista dos documentos associados ao SN definidos Nesse caso a
lista eacute apresentada na ordem de classificaccedilatildeo oportunizada pela Estrutura TR+ conforme o
descrito nas proacuteximas etapas
O processamento proposto para a determinaccedilatildeo da relaccedilatildeo dos sintagmas de um
determinado niacutevel foi pensado com vista a gerar economia de espaccedilo de memoacuteria utilizada
uma vez que seratildeo armazenados na base de dados os documentos e seus SN de uacuteltimos niacuteveis
e manipulados apenas os uacuteltimos niacuteveis da estrutura de SN Os niacuteveis anteriores relativos ao
SN seratildeo determinados na programaccedilatildeo desenvolvida a partir da identificaccedilatildeo do nuacutemero de
preposiccedilotildees que o SN apresenta Nesta programaccedilatildeo se houver apenas um termo (ou mesmo
apenas um termo composto) o SN eacute considerado um SN de 1ordm niacutevel A presenccedila de um termo
composto com mais uma preposiccedilatildeo indica a existecircncia de um SN de 2ordm niacutevel Jaacute trecircs termos
com duas preposiccedilotildees vatildeo indicar a presenccedila de um SN de 3ordm niacutevel e finalizando quatro ou
mais termos com 3 (ou mais) preposiccedilotildees remetem ao SN de 4ordm niacutevel
Ao optar pela apresentaccedilatildeo da lista de documentos seratildeo desenvolvidas
(internamente) na programaccedilatildeo conforme o proposto pela Estrutura TR+ de Gonzalez as
etapas de Preacute-processamento (toquenizaccedilatildeo e etiquetagem ndash Etapa 8) Nominalizaccedilatildeo (Etapa
58
9) Captura de RLBs (Etapa 10) Formulaccedilatildeo de consulta Booleana (Etapa 11) Busca (Etapa
12) e por fim Classificaccedilatildeo (Etapa 13)
Na Etapa 11 eacute trabalhado no formato Booleano uma consulta formulada pelo usuaacuterio
conforme o modelo TR+ A Etapa 12 ocorre uma relaccedilatildeo entre a Etapa 11 e a Etapa 5 (esta
etapa ocorre ainda na fase de indexaccedilatildeo) A Etapa 13 eacute a uacuteltima e resulta do caacutelculo que
identifica o valor de relevacircncia de cada documento recuperando-os em ordem decrescente
Eacute importante reforccedilar que o sistema iraacute verificar o preacute-processamento nominalizaccedilatildeo
e a captura de RLBs jaacute realizadas na fase de indexaccedilatildeo comparando-as Apoacutes esta
identificaccedilatildeo o sistema usa a formulaccedilatildeo de consulta Booleana para a busca chegando agrave
classificaccedilatildeo dos documentos de acordo com o peso dos descritores (termos e RLBs)
formulados na fase de indexaccedilatildeo e definidos na fase de busca (de acordo com o termo
escolhido e a coleccedilatildeo dos documentos)
Exemplificando o paraacutegrafo acima a Figura 20 mostra o funcionamento inicial desta
estrutura no que se refere aos Sintagmas Nominais
Pesquisa
Usuaacuterio escolha uma opccedilatildeo (Sintagma Nominal) que mais se identifique com a sua consulta Logo em seguida escolha se deseja ir para o Proacuteximo Niacutevel de Sintagma Nominal ou Estrutura TR+
Buscar (SN) Plaacutesticos
SN1 Os plaacutesticos
Proacuteximo niacutevel SN Estrutura TR+
SN2 A reciclagem de plaacutesticos A separaccedilatildeo de plaacutesticos A induacutestria de plaacutesticos
Proacuteximo niacutevel SN Estrutura TR+
SN3 A induacutestria de reciclagem de plaacutesticos
Estrutura TR+ Proacuteximo niacutevel SN
SN4 -----
Estrutura TR+
Figura 20 Descriccedilatildeo inicial do modelo proposto
59
Buscando analisar as vantagens que a proposta do modelo SINTR+ apresenta vale
lembrar que o modelo TR+ de Gonzalez jaacute apresenta benefiacutecios como
bull O processo de nominalizaccedilatildeo propicia melhores resultados de recuperaccedilatildeo do que
os produzidos pelos processos tradicionais (lematizaccedilatildeo e stemming)
bull A identificaccedilatildeo de RLBs colabora para a descriccedilatildeo de dependecircncia de termos que
ampliam o espaccedilo de descritores
bull O caacutelculo da representatividade dos descritores baseado em evidecircncia melhora a
classificaccedilatildeo da relevacircncia de documentos em relaccedilatildeo agravequela obtida atraveacutes da
extraccedilatildeo e do caacutelculo por frequumlecircncia de ocorrecircncia
bull O uso de consultas com operadores Booleanos oferece uma forma eficaz de
complementar a especificaccedilatildeo de co-dependecircncia semacircntica entre termos
As vantagens antevistas na elaboraccedilatildeo da proposta SINTR+ expandem as jaacute obtidas
pelo modelo de Gonzalez29 pois une a elas a vantagem do modelo de hierarquia de niacuteveis de
SN de Kuramoto Estas vantagens satildeo a ldquoEstrutura SINTR+rdquo executa em um menor tempo na
fase de indexaccedilatildeo dos documentos a ldquoEstrutura SINTR+rdquo conteacutem um tamanho menor de
arquivos de iacutendice e a ldquoEstrutura SINTR+rdquo proporciona facilidade na fase de nominalizaccedilatildeo
visto que os SN satildeo o nuacutecleo de maior significaccedilatildeo de um texto30
Os documentos (textos) usados como campo empiacuterico desta dissertaccedilatildeo foram artigos
retirados da Internet sobre o tema ldquoLixordquo Neste contexto fazem parte da coleccedilatildeo de
documentos temas como ldquoCuidados com o Lixordquo ldquoLixo Industrialrdquo ldquoO destino do lixo
quiacutemicordquo entre outros Como ainda natildeo havia disponiacuteveis extratores automaacuteticos de SN por
hierarquia em niacuteveis foi feita uma leitura dos textos dos quais se retirou manualmente seus
sintagmas Os SN significativos com o tema ldquoLixordquo foram extraiacutedos de dois (2) documentos
(que estatildeo nos ANEXOS A e B) e satildeo apresentados no Anexo C
Apoacutes esta etapa foram extraiacutedos todos os sintagmas nominais (somente do
documento1 - ANEXO A) que estatildeo sublinhados no texto independentes do tema para
exemplificar a extraccedilatildeo da consulta
Para avaliar preliminarmente a extensatildeo com que as vantagens antevistas no modelo
proposto realmente se verificariam foi realizado um teste com o documento1 (ANEXO A)
composto de 9 paraacutegrafos e 1006 palavras (Figura 21)
29 Este modelo foi testado e aprovado na sua proposta de doutorado que estaacute inserida no contexto do grupo de pesquisa da PUCRS no qual o autor participa de estudos na aacuterea haacute mais de uma deacutecada 30 Isto pode ser observado do Anexo A (Documento1) em que os SN satildeo destacados no texto
60
Figura 21 Nuacutemero de palavras do Documento1
O documento1 (ANEXO A) foi o escolhido para dimensionar a reduccedilatildeo no total de
palavrastermos a serem incluiacutedos na base de dados demonstrando a importacircncia do modelo
apresentado conforme tabela abaixo
Categorias Texto Total SNs Total de palavrastermos 1006 640
Substantivos 369 334 Adveacuterbios 41 04
Verbos 133 Ausecircncia de verbos Adjetivos 73 55
Figura 22 Tabela comparativa Texto Total e SNs
O texto possui um total de 1006 palavrastermos sendo destes 369 substantivos 41
adveacuterbios 133 verbos e 73 adjetivos (Figura 22) Do texto todo foi extraiacutedo um total de 139
sintagmas nominais E destes o nuacutemero total de palavrastermos eacute de 640 sendo 334
substantivos 04 adveacuterbios e 55 adjetivos
61
Documento1 - Cresce a induacutestria de reciclagem de plaacutesticos
369
41
133
7355
nordm de substantivos
nordm de adveacuterbios
nordm de verbos
nordm de adjetivos
nordm de adjetivosinseridos nos SN
Figura 22 Nuacutemero de substantivos adveacuterbios verbos e adjetivos do Documento1
Relacionando o nuacutemero de adjetivos do texto todo e os adjetivos inseridos nos SN
pode-se notar um ganho expressivo pois se tem uma reduccedilatildeo de 18 adjetivos Destes dados
133 verbos foram descartados (novamente afirma-se da importacircncia dos SN que representam a
unidade significativa do texto) Tambeacutem se observa que 37 adveacuterbios natildeo foram incluiacutedos
diminuindo assim o nuacutemero de descritores
Estes dados apontam aspectos positivos que consolidam a importacircncia da utilizaccedilatildeo
dos SN na diminuiccedilatildeo de descritores com consequumlente reduccedilatildeo do uso de memoacuteria e ainda
melhora na fase de busca pelo tempo de resposta
A Figura 23 apresenta o comparativo entre o percentual do nuacutemero de palavras do
texto com o percentual do nuacutemero de palavras dos Sintagmas Nominais Isto mostra que o
percentual de SN de 64 tem um valor reduzido colaborando para um nuacutemero menor de
descritores desta forma restringe-se tambeacutem o uso de memoacuteria (neste caso ocupado na fase
de indexaccedilatildeo) reduzem-se os descritores e diminui-se o tempo de resposta na fase de busca
Estes dados natildeo satildeo somente relevantes frente a um modelo de RI mas corroboram para a
manutenccedilatildeo do seu funcionamento
62
Dados Comparativos - Nordm de palavras restantes e dos SNs
64
36 Nordm de palavras dossintagmas nominaisNordm de palavras restantes
100 - nordm total de palavras
Figura 23 Nuacutemero de palavras restantes x Sintagmas Nominais
A Figura 24 mostra que existe um percentual de 28 de adjetivos inseridos nos
Sintagmas Nominais Esses adjetivos durante o processo de nominalizaccedilatildeo conforme
Gonzalez (2005) satildeo transformados em substantivos concretos eou abstratos (se houver) Isto
aponta um nuacutemero bem inferior comparado a um texto inteiro o que promove uma diminuiccedilatildeo
de substituiccedilotildees de um adjetivo por um substantivo concreto eou abstrato que pode inferir
no significado do documento e a reduccedilatildeo destas substituiccedilotildees evita possiacuteveis erros de
interpretaccedilatildeo
Dados Comparativos - Sintagmas Nominais e adjetivos
72
28nordm de sintagmas nominais
nordm de adjetivos inseridosnos SN
Figura 24 Sintagmas Nominais e adjetivos inseridos nos SN
A extraccedilatildeo dos Sintagmas Nominais corresponde agrave primeira etapa Depois desta
extraccedilatildeo manual se agrupou os SN em quatro niacuteveis 1 2 3 e 4 (ANEXO C)
Para o desenvolvimento das demais etapas (toquenizaccedilatildeo etiquetagem morfoloacutegica
nominalizaccedilatildeo e as relaccedilotildees lexicais binaacuterias) foi escolhido o paraacutegrafo 6 do documento1
(ANEXO A)
63
A induacutestria da reciclagem do plaacutestico no Brasil tem crescido bastante em funccedilatildeo do reaproveitamento do PET que eacute usado no segmento de monofilamentos em artigos como vassouras e na induacutestria tecircxtil Conforme Ana Flores a reciclagem gera 250 mil empregos no Paiacutes dos quais 70 satildeo informais Poreacutem a maior parte do potencial de mercado ainda estaacute sendo desperdiccedilada avalia ldquoCerca de 15 do total de plaacutestico que eacute industrializado no Paiacutes eacute reciclado Em dez anos poderiacuteamos chegar a 60 como nos Estados Unidos desde que fosse implementado um conjunto de medidas incentivando essa praacuteticardquo assegura
Tabela 3 Paraacutegrafo 6 do documento1
Na etapa de toquenizaccedilatildeo e etiquetagem satildeo identificadas classes de palavras como
substantivos adjetivos adveacuterbios preposiccedilotildees artigos conjunccedilotildees e inclusive ponto No
Anexo D eacute possiacutevel visualizar essas informaccedilotildees em duas ferramentas de extraccedilatildeo
disponiacuteveis nos sites do Projeto de Linguumliacutestica Computacional Hermes da Fundaccedilatildeo
Universidade Federal do Rio Grande (FURGBrasil) e do Programa de LAEL da PUC-SP -
Programa de Estudos Poacutes-Graduados em Linguumliacutestica Aplicada e Estudos da Linguagem da
Pontifiacutecia Universidade Catoacutelica de Satildeo Paulo31
A partir desta identificaccedilatildeo adjetivos adveacuterbios e verbos satildeo transformados em
substantivos (concreto eou abstrato) quando for possiacutevel Ou ateacute mesmo o adjetivo seja o
mesmo nome (grafia) para substantivos Esse processo de nominalizaccedilatildeo no trabalho de
Gonzalez (2005) foi realizado atraveacutes da ferramenta CHAMA desenvolvida por ele mesmo
Apoacutes o processo de nominalizaccedilatildeo satildeo identificadas as RLBs (Relaccedilotildees Lexicais
Binaacuterias) conforme descrito nesta seccedilatildeo Gonzalez (2005) desenvolveu tambeacutem a ferramenta
RELLEX para identificaccedilatildeo das RLBs Para o caso do teste optou-se por fazer manualmente32
(ANEXO E) devido agrave indisponibilidade destas duas ferramentas Esta etapa tem uma
importacircncia muito grande onde satildeo reconhecidos os relacionamentos das palavras no texto
atraveacutes de identificadores A tabela 4 mostra as RLBs identificadas do paraacutegrafo 6 do
documento1 (ANEXO A) de forma manual
RLBs classificaccedilatildeo =(textil industria)
RLBS restriccedilotildees
de (industria reciclagem) de (reciclagem plastico)
de (reaproveitamento PET) de (segmento monofilamento) de (mercado potencialidade)
de (plastico totalidade) de (conjunto medida)
Tabela 4 RLBs identificadas no paraacutegrafo 6 do documento1
31 As paacuteginas disponiacuteveis satildeo hermessourceforgenethermeswebhtml e httpwww2laelpucspbrcorporaetiquetagemindexhtml32 Dicionaacuterios consultados MICHAELIS Dicionaacuterio Eletrocircnico Acesso em mar de 2006 e FERREIRA Aureacutelio Buarque de Holanda Novo Aureacutelio Seacuteculo XXI o dicionaacuterio da liacutengua portuguesa 1999
64
42 Descriccedilatildeo Formal do Modelo Proposto SINTR+
Os Sintagmas Nominais de Kuramoto em conjunto com as abordagens utilizadas no
modelo TR+ de Gonzalez promovem a utilizaccedilatildeo de conceitos orientados a objetos (OO)
porque eacute considerada a melhor metodologia para projeto de software permite uma
organizaccedilatildeo aprimorada do coacutedigo tem uma proximidade com a UML (Linguagem de
Modelagem Unificada) proporciona uma facilidade de manutenccedilatildeo do coacutedigo apresenta
menor grau de replicaccedilatildeo do coacutedigo e possibilita uma aplicaccedilatildeo em camadas o MVC33 um
padratildeo de projeto atraveacutes da Linguagem Orientada a Objetos Para compreender estes
conceitos e o desenvolvimento da modelagem proposta ressaltaram-se alguns aspectos baacutesicos
de seus fundamentos
A Linguagem UML segundo Larman (2000) expressa a modelagem de sistemas e
utiliza os conceitos orientados a objetos Como na aplicaccedilatildeo proposta trabalhar-se-aacute
especificamente apenas nas etapas de anaacutelise e projeto considera-se importante o uso da
linguagem UML por ser esta uma linguagem poderosa para expressar de modo claro e preciso
o processo de geraccedilatildeo de projetos de software Para Wazlawick (2004) esta linguagem daacute
suporte a que esse processo gere uma estrutura faacutecil de ser compreendida Para o autor isto
ocorre quando se utiliza um software autodocumentado e de faacutecil entendimento tanto em niacutevel
macro quanto em detalhes
Este autor define que o Processo Unificado (UP) estaacute associado agrave notaccedilatildeo UML e
indica que suas fases satildeo concepccedilatildeo elaboraccedilatildeo construccedilatildeo e transiccedilatildeo Conforme
Wazlawick (2004) eacute na primeira fase que se faz o levantamento dos principais requisitos e
compreende-se o sistema de forma abrangente A fase de elaboraccedilatildeo eacute constituiacuteda de anaacutelise e
projeto e a fase de construccedilatildeo corresponde agrave implementaccedilatildeo e testes
A anaacutelise de requisitos ainda segundo este autor (2004 p 24) ldquoestaacute associada ao
processo de descobrir quais satildeo as operaccedilotildees que o sistema deve realizar e quais satildeo as
restriccedilotildees que existem sobre elasrdquo Jaacute a anaacutelise de domiacutenio ldquoestaacute relacionada agrave descoberta das
informaccedilotildees gerenciadas pelo sistema ou seja agrave representaccedilatildeo e transformaccedilatildeo da
informaccedilatildeordquo (2004 p 26)
No caso de um sistema de informaccedilotildees sobre uma instituiccedilatildeo de ensino (Moacutedulo
controle de alunos) por exemplo possivelmente a anaacutelise de requisitos permitiria descobrir
que o sistema deveria controlar a data o curso e a turma em que o aluno foi matriculado o
iniacutecio e teacutermino do curso calcular automaticamente os pagamentos gerar relatoacuterios de
65
contrato especificando as claacuteusulas legais de direito e dever do aluno na Instituiccedilatildeo etc Essas
operaccedilotildees satildeo chamadas de ldquorequisitos funcionaisrdquo
Haacute tambeacutem relacionados a um sistema em construccedilatildeo os requisitos natildeo funcionais
que dizem respeito agrave operaccedilatildeo e agrave usabilidade do sistema Um exemplo de requisito natildeo-
funcional seria a necessidade de fazer a matriacutecula via Internet Essa eacute uma restriccedilatildeo de
operaccedilatildeo Um outro exemplo seria uma central de acidentes de tracircnsito onde o registro de um
dado acidente devesse ser feito em no maacuteximo 10 segundos o que demandaria um
processamento e uma interface bastante eficiente constituindo-se esse em um requisito de
usabilidade
Para as etapas de levantamento e anaacutelise de requisitos costuma ser utilizado o
diagrama de casos de uso Segundo Guedes (2004) esse diagrama possibilita a compreensatildeo
do comportamento externo do sistema por qualquer pessoa Entendem-se aqui casos de uso
segundo Larman (2000) como um documento narrativo que descreve a sequumlecircncia de eventos
(accedilotildees) de um ator (um agente externo) que usa um sistema para completar um processo e
descreve tambeacutem as respostas do sistema Pode se dizer que caso de uso eacute um cenaacuterio com
atores e ambientes Criam-se as cenas e as narrativas das mesmas ajudando a entender o que
se quer do sistema O interessante dos casos de uso eacute que os mesmos permitem que o projeto
seja construiacutedo de forma participativa por um grupo de pessoas uma vez que sua descriccedilatildeo se
daacute em uma linguagem textual e diagramaacutetica
A partir dos casos de uso eacute possiacutevel construir o modelo conceitual Conforme Larman
(2000 p 99) ldquoo modelo conceitual ilustra os conceitos significativos em um domiacutenio de
problemardquo Para Wazlawick (2004 p 102) ldquoo modelo conceitual deve descrever a
informaccedilatildeo que o sistema vai gerenciar trata-se de um artefato do domiacutenio do problema e
natildeo do domiacutenio da soluccedilatildeordquo
Eacute importante ressaltar que o modelo conceitual representa somente o aspecto estaacutetico
da informaccedilatildeo Os elementos que representam informaccedilatildeo satildeo conceitos (representados por
classes) atributos (informaccedilotildees alfanumeacutericas ligadas diretamente aos conceitos) e
associaccedilotildees (tipo de informaccedilatildeo que liga diferentes conceitos entre si)
O diagrama de casos de uso do sistema proposto foi desenvolvido no software JUDE
Community Ferramenta de Modelagem UML Um software freeware muito utilizado para a
criaccedilatildeo deste tipo de diagramas Neste software podem tambeacutem ser desenvolvidos os outros
tipos de diagramas do UML tais como de classes sequumlecircncia colaboraccedilatildeo graacuteficos de
estados
33 A sigla significa Model View e Controller
66
Os casos de uso identificados para esta aplicaccedilatildeo foram descritos em duas situaccedilotildees
A primeira eacute referente agrave pesquisa do usuaacuterio e a segunda ao gerenciamento e operaccedilatildeo do
banco de dados (BD) no niacutevel de administrador Para descobrir estes casos de uso foi
necessaacuterio primeiramente identificar os atores envolvidos com o sistema (usuaacuterio e
administrador) E na sequumlecircncia a cada grande processo reconhecido correspondeu a um caso
de uso do sistema
As Figuras 25 e 26 satildeo diagramas na UML que representam casos de uso e seus
atores As elipses significam casos de uso e os bonecos representam atores Para cada uma das
situaccedilotildees (pesquisa e gerenciamento de operaccedilatildeo do BD no niacutevel de administrador) foram
identificados os seguintes casos de uso
Figura 25 Diagrama de casos de uso da UML do sistema proposto ndash Pesquisa do Usuaacuterio
67
Figura 26 Diagrama de casos de uso da UML do sistema proposto ndash Gerenciamento e Operaccedilatildeo do BD no
niacutevel de administrador
Deve-se lembrar que na proposta deste trabalho para economia de espaccedilo de
memoacuteria foram sistematizados dois momentos o 1ordm em um armazenamento na base de dados
do documento apenas para a lista final do usuaacuterio e outro com os Sintagmas Nominais que
seratildeo armazenados na base de dados no 4ordm ou no uacuteltimo niacutevel apresentado (Figura 19) Os
niacuteveis anteriores relativos ao SN seratildeo procurados por uma programaccedilatildeo desenvolvida
relacionada diretamente com os Sintagmas Com isto natildeo haveraacute necessidade de acesso agrave
memoacuteria da base de documentos em todas as accedilotildees e esta serviraacute somente na uacuteltima escolha
do usuaacuterio tendo um ganho significativo quanto agrave rapidez de acesso aos dados da base e a natildeo
existecircncia de duplicaccedilatildeo de dados
Os casos de uso costumam ser documentados conforme Guedes (2004) por meio de
uma linguagem bastante simples fornecendo a funccedilatildeo em linhas gerais dos casos de uso
quais atores interagem com os mesmos quais etapas devem ser executadas pelo ator e pelo
sistema quais paracircmetros devem ser fornecidos e quais restriccedilotildees o caso de uso deve possuir
As Tabelas abaixo (5 a 15) apresentam as descriccedilotildees dos casos de uso do sistema proposto
referente ao gerenciamento e operaccedilatildeo do BD no niacutevel de administrador
68
Nome do Caso de Uso Inserir novo documento Caso de Uso Geral natildeo possui Ator Principal Administrador Atores secundaacuterios natildeo possui Resumo Permite ao administrador do sistema inserir arquivos na base de dados de documentos iniciando o processo de alimentaccedilatildeo de todas as demais bases de dados Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema 1) Anexar um documento 2) Verificar se documento jaacute natildeo existe na base de dados 3) Inserir o documento Restriccedilotildeesvalidaccedilotildees Apenas documentos vaacutelidos34 deveratildeo ser aceitos
Tabela 5 Descriccedilatildeo do caso de uso ndash Inserir novo documento Nome do Caso de Uso Alimentar base de dados (Documentos) Caso de Uso Geral natildeo possui Ator Principal natildeo possui Atores secundaacuterios natildeo possui Resumo Armazenar em meio fiacutesico e com seguranccedila os documentos inseridos pelo Administrador atraveacutes do sistema Preacute-condiccedilotildees Administrador anexa um documento vaacutelido Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema 1) Armazenar em base de dados os documentos anexados Restriccedilotildeesvalidaccedilotildees natildeo possui
Tabela 6 Descriccedilatildeo do caso de uso ndash Alimentar base de dados (Documentos) Nome do Caso de Uso Extrair SN de 4ordm ou uacuteltimo niacutevel Caso de Uso Geral natildeo possui Ator Principal natildeo possui Atores secundaacuterios natildeo possui Resumo Extrair do documento inserido na base de dados todos os sintagmas nominais de 4ordm ou uacuteltimo niacutevel
Preacute-condiccedilotildees o documento estar devidamente validado e inserido na base de dados Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema
1) realizar a anaacutelise do documento inserido extraindo todos os sintagmas nominais de 4ordm ou uacuteltimo niacutevel enviando informaccedilotildees para alimentaccedilatildeo de base de dados de sintagmas
Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 7 Descriccedilatildeo do caso de uso ndash Extrair SN de 4ordm ou uacuteltimo niacutevel
34 Documentos vaacutelidos satildeo considerados aqui apenas os documentos em formato de texto (como doc txt)
69
As accedilotildees do sistema da tabela 7 seguem as regras estabelecidas na seccedilatildeo 41 da paacutegina 66 Nome do Caso de Uso Tratar regras verbais Caso de Uso Geral natildeo possui Ator Principal natildeo possui Atores secundaacuterios natildeo possui Resumo Realizar o tratamento de regras verbais dos sintagmas nominais de 4ordm ou uacuteltimo niacutevel extraiacutedos do documento Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema
1) aplicar rotinas de tratamento de regras verbais e palavras no infinitivo
Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 8 Descriccedilatildeo do caso de uso ndash Tratar regras verbais
Nome do Caso de Uso Extrair SN de niacuteveis 3 2 e 1 (niacuteveis anteriores) Caso de Uso Geral natildeo possui Ator Principal natildeo possui Atores secundaacuterios natildeo possui Resumo Aplicar regras de extraccedilatildeo de sintagmas de niacuteveis 3 2 e 1 (niacuteveis anteriores) Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema
1) Definir o niacutevel apropriado de cada sintagma a partir do 4ordm ou uacuteltimo niacutevel enviando informaccedilatildeo para o usuaacuterio
Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 9 Descriccedilatildeo do caso de uso ndash Extrair SN de niacuteveis 3 2 e 1 (niacuteveis anteriores)
A tabela 9 segue a mesma regra da tabela 7
Nome do Caso de Uso Alimentar base de dados (Sintagmas) Caso de Uso Geral natildeo possui Ator Principal natildeo possui Atores secundaacuterios natildeo possui Resumo Persistir as informaccedilotildees extraiacutedas nos casos de uso ldquoExtrair SN de 4ordm ou uacuteltimo niacutevelrdquo Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema
1) Armazenar na base de dados o 4ordm ou uacuteltimo niacutevel de sintagma extraiacutedo do documento inserido
Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 10 Descriccedilatildeo do caso de uso ndash Alimentar base de dados (Sintagmas)
70
Nome do Caso de Uso Toquenizar e etiquetar Caso de Uso Geral natildeo possui Ator Principal Software Forma Atores secundaacuterios natildeo possui Resumo Submeter os sintagmas extraiacutedos ao software Forma Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema
1) Aplicar o conceito de Toquenizaccedilatildeo e Etiquetagem dos sintagmas extraiacutedos e armazenados em base de dados
Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 11 Descriccedilatildeo do caso de uso ndash Toquenizar e etiquetar
Nome do Caso de Uso Nominalizar Caso de Uso Geral natildeo possui Ator Principal Software Chama Atores secundaacuterios natildeo possui Resumo Submeter as informaccedilotildees resultantes do processo de Toquenizaccedilatildeo e Etiquetagem ao software Chama Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema
1) Aplicar o conceito de Nominalizaccedilatildeo das informaccedilotildees do documento
Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 12 Descriccedilatildeo do caso de uso ndash Nominalizar
Nome do Caso de Uso Capturar RLBs Caso de Uso Geral natildeo possui Ator Principal Software Rellex Atores secundaacuterios natildeo possui Resumo Submeter as informaccedilotildees resultantes do processo de Nominalizaccedilatildeo ao software Rellex Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema
1) Realizar o processo de captura de RLBs a partir das informaccedilotildees extraiacutedas do documento
Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 13 Descriccedilatildeo do caso de uso ndash Capturar RLBs
71
Nome do Caso de Uso Calcular peso dos descritores Caso de Uso Geral natildeo possui Ator Principal Software Peso dos Descritores Atores secundaacuterios natildeo possui Resumo Submeter as informaccedilotildees resultantes do processo de Captura de RLBs ao software Peso de Descritores Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema
1) Calcular o peso dos descritores ao resultado obtido atraveacutes da captura de RLBs do documento
Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 14 Descriccedilatildeo do caso de uso ndash Calcular peso dos descritores
Nome do Caso de Uso Alimentar base de dados (Termos e RLBs) Caso de Uso Geral natildeo possui Ator Principal natildeo possui Atores secundaacuterios natildeo possui Resumo Persistir as informaccedilotildees obtidas nos casos de uso ldquoNominalizarrdquo ldquoCapturar RLBsrdquo e ldquoCalcular peso dos descritoresrdquo na base de dados de Termos e RLBs Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema
1) Armazenar as informaccedilotildees relativas aos Termos e RLBs extraiacutedos do documento em base de dados
Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 15 Descriccedilatildeo do caso de uso ndash Alimentar base de dados (Termos e RLBs)
Apoacutes a identificaccedilatildeo dos casos de uso e suas descriccedilotildees partiu-se para o modelo
conceitual da aplicaccedilatildeo proposta
72
Figura 27 Modelo Conceitual do sistema proposto
O diagrama de classes segundo Guedes (2004) eacute considerado o mais importante e o
mais utilizado diagrama da UML Eacute o diagrama de classes que permite a visualizaccedilatildeo das
classes que iratildeo compor o sistema com os seus respectivos atributos e meacutetodos Demonstra
como as classes se relacionam complementam e transmitem informaccedilotildees entre si Pode-se
dizer que esse diagrama serve ainda como base para a construccedilatildeo de outros diagramas da
linguagem UML
A Figura 28 apresenta o diagrama de classes do modelo proposto referente agrave Pesquisa
do usuaacuterio
Foi construiacutedo um diagrama de classes (Pesquisa de Usuaacuterio) seguindo estas
definiccedilotildeesaccedilotildees
Paacutegina de Consulta refere-se a uma paacutegina HTML de pesquisa (ou seja uma
linguagem para Web) ou tambeacutem a uma interface graacutefica (GUI) para computador
desktop (cliente)
Controlador da Paacutegina conteacutem a loacutegica de negoacutecio da aplicaccedilatildeo
Classe Sintagma bean responsaacutevel por instanciar e classificar sintagmas de
diferentes niacuteveis usa o meacutetodo setSintagma para receber informaccedilotildees vindas da
paacutegina passando pelo controlador
Classe ListaSintagma cria instacircncia de array de Sintagma associando-os a
instacircncias de Documento Realiza a busca e classificaccedilatildeo destes retornando ao
controlador e posteriormente agrave paacutegina atraveacutes do meacutetodo getDocumentos
73
Classe Documento instacircncia de Documento armazenado em base de dados de
documentos
Figura 28 Diagrama de classes do sistema proposto ndash Pesquisa de Usuaacuterio
A Figura 29 apresenta o diagrama de classes do modelo proposto referente ao
Gerenciamento e Operaccedilatildeo do BD no niacutevel de administrador
Foi construiacutedo um segundo diagrama de classes seguindo estas definiccedilotildeesaccedilotildees
Paacutegina de Consulta refere-se a uma paacutegina HTML de inclusatildeo de documentos
Controlador da Paacutegina conteacutem a loacutegica de negoacutecio da aplicaccedilatildeo
Classe DocumentoBase bean responsaacutevel por instanciar um objeto que iraacute conter
o documento a inserir bem como realizar os processos de toquenizaccedilatildeo e
etiquetagem (trocando mensagens com o software FORMA) nominalizaccedilatildeo
(trocando mensagens com o software CHAMA) gerando termos e RLBs
(trocando mensagens com o software RELLEX) e por fim inserindo as
informaccedilotildees nas bases de dados
Classes Termo e RLB indicam as instacircncias de objetos termos e RLBs e deveratildeo
ser modeladas conforme especificaccedilatildeo do software RELLEX
74
Figura 29 Diagrama de classes do sistema proposto ndash Gerenciamento e Operaccedilatildeo do BD no niacutevel de
administrador
O diagrama de sequumlecircncia segundo Guedes (2004) procura determinar a sequumlecircncia de
eventos que ocorrem em um determinado processo isto eacute quais meacutetodos devem ser disparados
entre os objetos envolvidos quais condiccedilotildees devem ser satisfeitas e em que ordem durante o
processo especiacutefico Foram construiacutedos os diagramas de sequumlecircncia abaixo (Figuras 30 e 31) da
aplicaccedilatildeo proposta
75
Figura 30 Diagrama de Sequumlecircncia do sistema proposto ndash Pesquisa de Usuaacuterio
76
Figura 31 Diagrama de Sequumlecircncia do sistema proposto ndash Gerenciamento e Operaccedilatildeo do BD no niacutevel de administrador
Na elaboraccedilatildeo dos diagramas e descriccedilotildees dos casos de uso e dos diagramas de
classes e de sequumlecircncia observou-se a importacircncia do modelo conceitual porque permitiu
orientar as etapas de desenvolvimento do modelo proposto Visto que no modelo conceitual
foram criados conceitos atributos e associaccedilotildees referentes agrave particularidade da pesquisa que
puderam ser utilizados para a construccedilatildeo das etapas dos diagramas
77
5 CONCLUSAtildeO
Neste capiacutetulo apresentam-se as consideraccedilotildees finais incluindo os aspectos relativos
agraves dificuldades aos progressos e limitaccedilotildees encontradas durante o desenvolvimento da
pesquisa bem como as sugestotildees para a continuidade deste trabalho
O objetivo geral que norteou este trabalho levou ao estudo dos modelos de busca e ao
desenvolvimento de uma proposta para a melhoria dos processos de recuperaccedilatildeo de
informaccedilotildees
Centrando-se no tema Recuperaccedilatildeo de Informaccedilatildeo foram analisados os modelos de
Kuramoto (1999) e posteriormente de Gonzalez (2005) O modelo de Kuramoto baseado
em uma estrutura hieraacuterquica de sintagmas nominais possibilita ao usuaacuterio definir melhor a
sua query de busca A Estrutura de Qualia do Leacutexico Gerativo de Pustejovsky contribuiu para
o entendimento das relaccedilotildees e da estrutura de construccedilatildeo de significado entre as palavras
permitindo o tratamento de questotildees semacircnticas como a polissemia loacutegica A proposta de
Gonzalez apropriando-se dos resultados de Pustejovsky evidencia caracteriacutesticas
morfoloacutegicas e relaccedilotildees de coesatildeo importantes na descriccedilatildeo de conceitos presentes em um
texto propiciando que um texto possa computacionalmente significar mais do que uma
sequumlecircncia de palavras
Buscou-se uma siacutentese dessas propostas identificando as possibilidades de ampliaccedilatildeo
do modelo de Kuramoto pela junccedilatildeo da teoria do Leacutexico Gerativo de Pustejovsky utilizadas
nesta dissertaccedilatildeo a partir do modelo de Gonzalez que se manteve adequado devido ao fato de
que o autor apresenta processos para as fases de indexaccedilatildeo busca e classificaccedilatildeo de RI Os
termos e relacionamentos inseridos na base de dados do modelo TR+ de Gonzalez estatildeo
implicitamente relacionados com a Estrutura de Qualia do LG
O novo modelo SINTR+ aleacutem do suporte ao usuaacuterio envolve a anaacutelise a
sistematizaccedilatildeo e a ampliaccedilatildeo do modelo de Kuramoto com a utilizaccedilatildeo da estrutura TR+ de
Gonzalez (2005) para a melhoria e a otimizaccedilatildeo do processo de seleccedilatildeo dos documentos
recuperados em uma busca
O estudo e a descriccedilatildeo do modelo em UML permitiu por ser uma linguagem
poderosa expressar de modo mais claro e preciso o modelo SINTR+ Foi construiacuteda a anaacutelise
de domiacutenio do sistema desejado incluindo o desenvolvimento de diagramas de casos de uso
bem como suas descriccedilotildees do modelo conceitual de diagramas de classes e de sequumlecircncia As
78
fases de anaacutelise e projeto desenvolvidas para a aplicaccedilatildeo proposta datildeo suporte agrave continuidade
do seu desenvolvimento
O novo modelo desenvolvido foi projetado como um sistema de recuperaccedilatildeo de
informaccedilatildeo (SRI) aplicaacutevel a bases de dados natildeo distribuiacutedas abrangendo a um determinado
domiacutenio de aplicaccedilatildeo a sua adequaccedilatildeo e expansatildeo para uso na Web constitui-se em uma
importante linha de continuidade de pesquisa
A principal contribuiccedilatildeo deste trabalho estaacute na sistematizaccedilatildeo e siacutentese das teorias de
Kuramoto com Gonzalez indicando o uso dessas teorias como uma nova alternativa para a
melhoria da busca de recuperaccedilatildeo de informaccedilotildees Os modelos de recuperaccedilatildeo simplesmente
buscavam as informaccedilotildees solicitadas pelo usuaacuterio O novo modelo proposto SINTR+ baseia-
se na interaccedilatildeo entre o usuaacuterio e a maacutequina atraveacutes de Sintagmas Nominais por niacuteveis e
tambeacutem nas relaccedilotildees das palavras conforme o modelo de Gonzalez
Com este trabalho natildeo se pretendeu desenvolver uma implementaccedilatildeo completa do
modelo construiacutedo Mas o trabalho conseguiu mostrar a exequumlibilidade desta implementaccedilatildeo
computacional descrevendo os diagramas e as descriccedilotildees dos casos de uso e a sua modelagem
conceitual culminando com a construccedilatildeo dos diagramas de classes e de sequumlecircncia A proacutexima
etapa que permitiria detalhar as potencialidades e limitaccedilotildees do modelo de forma ampla
poderia se constituir em amplos estudos de casos onde se determinaria a complexidade
computacional da implementaccedilatildeo requerida
Os dados apresentados no capiacutetulo 4 jaacute indicam aspectos positivos que consolidam a
importacircncia da utilizaccedilatildeo dos Sintagmas Nominais na diminuiccedilatildeo de descritores para
manipulaccedilatildeo com um ganho bastante significativo porque os iacutendices possuem informaccedilotildees
relevantes dos documentos (conceitos significativos de uma sentenccedila) e com isto agiliza-se a
pesquisa na base de dados Quer-se crer aqui e um estudo mais amplo poderia determinar que
essa reduccedilatildeo de descritores natildeo deve ter nenhum impacto na qualidade da busca realizada
Outro aspecto significativo eacute a reduccedilatildeo do uso de memoacuteria tanto na fase de indexaccedilatildeo
como na de busca tornando mais raacutepido o processo interno
Outro aspecto positivo se refere agrave melhoria de desempenho como um todo pois
quanto menor o traacutefego em uma rede menos informaccedilotildees o servidor vai processar e estaraacute
mais disponiacutevel E quanto melhor for o processo de indexaccedilatildeo menos memoacuteria o servidor vai
utilizar E com isto o tempo de resposta na fase de busca diminui e o resultado qualitativo da
pesquisa se amplia
79
Uma outra vantagem eacute que no modelo SINTR+ seratildeo armazenados na base de dados
os documentos e seus SN de uacuteltimos niacuteveis e manipulados apenas os uacuteltimos niacuteveis da
estrutura de SN Seraacute soacute atraveacutes de uma programaccedilatildeo que seratildeo classificados por niacuteveis
diminuindo assim o volume duplicado de dados na manipulaccedilatildeo
Os diagramas construiacutedos referentes ao gerenciamento e operaccedilatildeo do BD no niacutevel do
administrador satildeo fundamentais para o entendimento do funcionamento e da manutenccedilatildeo do
banco de dados facilitando processos como a inserccedilatildeo de novos documentos e outras accedilotildees
contribuindo tambeacutem para o diferencial deste trabalho
80
6 REFEREcircNCIAS BIBLIOGRAacuteFICAS
ABRAHAtildeO Paulo Ricardo Carneiro Modelagem e Implementaccedilatildeo de um Leacutexico Semacircntico para o Portuguecircs Dissertaccedilatildeo (Mestrado) Porto Alegre PUCRS 1997
ABREU Sandra C GOULART Rodrigo VIEIRA Renata (2004) Identificaccedilatildeo de Expressotildees Anafoacutericas e Natildeo Anafoacutericas com Base na Estrutura do Sintagma 2ordm Workshop em Tecnologia da Informaccedilatildeo e da Linguagem Humana (TIL 2004) - SalvadorBA - 05 e 06 de agosto de 2004 Disponiacutevel em httpwwwinfunisinosbr~renatalaboratoriopublicacoestilsandra04pdf Acesso em nov de 2004
BAEZA-YATES Ricardo RIBEIRO-NETO Berthier Modern Information Retrieval New York Addison-Wesley 1999
CARDOSO Olinda N P Recuperaccedilatildeo de Informaccedilotildees In Infocomp-Journal of Computer Science vol 2 n 1 Lavras MG 2000 p33-38 Disponiacutevel em httpwwwdccuflabrinfocompartigosv21olindapdf Acesso em mar de 2004
CHISHMAN Rove et al Extraccedilatildeo de Sintagmas Nominais para o Processamento de Co-Referecircncia In V Encontro para o processamento computacional do Portuguecircs escrito e falado (PROPOR 2000) Atibaia - Satildeo Paulo Anais do V Encontro para o processamento computacional do Portuguecircs escrito e falado Satildeo Carlos ICMCUSP 2000 Disponiacutevel em httpwwwinfunisinosbr~renatalaboratoriopublicacoespropor00pdf Acesso em jan de 2005
FERNEDA Edberto Recuperaccedilatildeo de Informaccedilatildeo anaacutelise sobre a contribuiccedilatildeo da ciecircncia da computaccedilatildeo para a ciecircncia da informaccedilatildeo Tese (Doutorado) Satildeo Paulo USP Escola de Comunicaccedilatildeo e Artes 2003 Disponiacutevel em httpwwwtesesuspbrtesesdisponiveis2727143tde-15032004-130230 Acesso em set de 2004
FERREIRA Aureacutelio Buarque de Holanda Novo Aureacutelio Seacuteculo XXI o dicionaacuterio da liacutengua portuguesa 3ed Rio de Janeiro Nova Fronteira 1999
GASPERIN C GOULART R VIEIRA R Uma ferramenta para Resoluccedilatildeo Automaacutetica de Co-referecircncia Anais do Encontro Nacional de Inteligecircncia Artificial (ENIA) Campinas SP 2003 Disponiacutevel em httpwwwexatecunisinosbr~renatalaboratoriopublicacoesart1pdf Acesso em set de 2004
81
GONZALEZ Marco Antocircnio Insaurriaga Representaccedilatildeo Semacircntica de Sentenccedilas em Linguagem Natural e sua aplicaccedilatildeo na Recuperaccedilatildeo de Informaccedilatildeo Trabalho Individual 2 Doutorado Porto Alegre PPCC da PUCRS 2000
________ O Leacutexico Gerativo de Pustejovsky sob o enfoque da Recuperaccedilatildeo de Informaccedilotildees Trabalho Individual 1 Doutorado Porto Alegre PPCC da PUCRS 2000a
________ Termos e Relacionamentos em Evidecircncia na Recuperaccedilatildeo de Informaccedilatildeo Tese (Doutorado) Porto Alegre PPGC da UFRGS 2005
GUEDES Gilleanes T A UML uma abordagem praacutetica Satildeo Paulo Novatec 2004
HILL Brad Pesquisa na Internet Rio de Janeiro Campus 1999
KURAMOTO Heacutelio Proposition drsquoum Systegraveme de Recherche drsquoInformation Assisteacutee par Ordinateur Tese (Doutorado) LrsquoUniversiteacute Lumiegravere ndash Lyon - Franccedila 1999
________ Uma abordagem alternativa para o tratamento e a recuperaccedilatildeo de informaccedilatildeo textual os sintagmas nominais Ciecircncia da Informaccedilatildeo (Brasiacutelia) v25 n2 1995 Disponiacutevel em httpdiciibictbrarchive0000016901Ci[1]Inf-2004-476pdf Acesso em mar de 2004
________ Sintagmas Nominais uma nova proposta para a recuperaccedilatildeo de informaccedilatildeo DataGramaZero Revista de Ciecircncia da Informaccedilatildeo v3 n1 fev 2002 Disponiacutevel em httpwwwdgzeroorgfev02Art_03htm Acesso em mar de 2004
LARMAN Craig Utilizando UML e Padrotildees uma introduccedilatildeo agrave anaacutelise e ao projeto orientado a objetos Porto Alegre Bookman 2000
MARTINS Dileta Silveira ZILBERKNOP Luacutebia Scliar Portuguecircs Instrumental 20ordf ed Porto Alegre Sagra Luzzatto 1999
MOURA Heronides M de M A determinaccedilatildeo de sentidos lexicais no contexto Cadernos de Estudos Linguumliacutesticos v 41 Campinas SP 2001 NETO Magdiel Medeiros Aragatildeo A polissemia em palavras designativas de objetos fiacutesicos e eventos 2003 Disponiacutevel em httpwwwabralinorgbranaishtm Acesso em mai de 2004
________A Polissemia de acordo com a Teoria do Leacutexico Gerativo Satildeo Miguel do Oeste SC Revista do Centro de Ciecircncias da Comunicaccedilatildeo e Artes n6 maiago 2003a
82
PUSTEJOVSKY James The Generative Lexicon Association for Computational Linguistics Computer Science Department Brandeis University Cambridge MA The MIT Press 1991 Disponiacutevel em httpportalacmorgcitationcfmid=176324 Acesso em set de 2004
ROSSI Albertina Palavras Polissecircmicas entre evento e informaccedilatildeo e seu tratamento nos dicionaacuterios Aureacutelio e Houaiss Tese (Doutorado) Florianoacutepolis USFC Centro de Comunicaccedilatildeo e Expressatildeo - Programa de Poacutes-Graduaccedilatildeo em LetrasLinguumliacutestica 2003
SILVA Edna Luacutecia da Metodologia da pesquisa e elaboraccedilatildeo de dissertaccedilatildeo Edna Luacutecia da Silva Estera Muszkat Menezes ndash 2a ed revndash Florianoacutepolis Laboratoacuterio de Ensino a Distacircncia da UFSC 2001 Disponiacutevel em httpprojetosinfufscbrarquivosMetodologia20da20Pesquisa203a20edicaopdf Acesso em mai de 2005
SILVA Maria C de S KOCH Ingedore V Linguumliacutestica aplicada ao portuguecircs sintaxe 5ed Satildeo Paulo Cortez 1993
WAZLAWICK Raul Sidnei Anaacutelise e Projeto de Sistemas de Informaccedilatildeo Orientados a Objetos Rio de Janeiro Elsevier 2004
61 Bibliografia Consultada
BRAumlSCHER Marisa A Ambiguumlidade na Recuperaccedilatildeo da Informaccedilatildeo Revista Ciecircncia da Informaccedilatildeo (Brasiacutelia) v3 n1 2002 Disponiacutevel em httpwwwdgzorgbrfev02Art_05htm Acesso em abr de 2004
CARVALHO Niacutevea M de Melo Recuperaccedilatildeo da informaccedilatildeo implementaccedilatildeo e avaliaccedilatildeo de sistema de recuperaccedilatildeo de informaccedilatildeo utilizando o modelo vetorial Dissertaccedilatildeo (Mestrado) Amazonas Universidade Federal do Amazonas Programa de Poacutes-Graduaccedilatildeo em Informaacutetica 2002 Disponiacutevel em httpposfacomufubr~reneacervosriRI-ModeloVetorial-NiveaCarvalhopdf Acesso em Ago de 2004
FODOR Jerry LEPORE Ernie The emptiness of the Lexicon Critical Reflections on J Pustejovskyrsquos The Generative Lexicon Rutgers University Center for Cognitive Science
83
GOMES Andreacuteia de Faacutetima R O singular nu e a sentenccedila geneacuterica no portuguecircs brasileiro Dissertaccedilatildeo (Mestrado) Florianoacutepolis UFSC Programa de Poacutes-Graduaccedilatildeo em Linguumliacutestica 2001
GONZALEZ Marco LIMA Vera L S de Sintagma Nominal em Estrutura Hieraacuterquica Temaacutetica na Recuperaccedilatildeo de Informaccedilatildeo Anais ENIA 2001 Fortaleza 2001 Disponiacutevel em httpwwwinfpucrsbr~gonzalezdocssnehtpdf Acesso em dez 2005
________ T-Lex Thesaurus com Estruturaccedilatildeo Semacircntica e Operaccedilotildees Gerativas XXVII Conferencia Latinoamericana de Informatica (CLEI2001) Ciudad de Meacuterida Venezuela 2001 Disponiacutevel em httpwwwinfpucrsbr~gonzalezdocsartigotlexpdf Acesso em jan de 2006 (httpwwwinfpucrsbr~gonzalezpesqqhtm)
________ Recuperaccedilatildeo de Informaccedilatildeo e Processamento da Linguagem Natural XXIII Congresso da Sociedade Brasileira de Computaccedilatildeo Campinas 2003 Anais do III Jornada de Mini-Cursos de Inteligecircncia Artificial Disponiacutevel em httpwwwinfpucrsbr~gonzalezdocsminicurso-jaia2003pdf Acesso em jan de 2006
HEIDE Ann Guia do Professor para a Internet completo e faacutecil 2ed Porto Alegre Artes Meacutedicas Sul 2000
MOURA Heronides M de M Linguagem e cogniccedilatildeo na interpretaccedilatildeo de metaacuteforas Universidade Federal de Juiz de Fora Editora UFJF 2003 Disponiacutevel em httpwwwrevistaveredasufjfbrvolumesv6n1cap11pdf Acesso em jan de 2006
PARREIRAS Fernando O uso de sintagmas nominais como fonte de descritores para textos de perioacutedicos cientiacuteficos Escola de Ciecircncia da Informaccedilatildeo Belo Horizonte 2003 Disponiacutevel em httpwwwfernandoparreirasnombrpublicacoessnpdf Acesso em set de 2004
PEacuteREZ Claacuteudia C C GASPERIN Caroline VIEIRA Renata Extraccedilatildeo Semi-Automaacutetica de Conhecimento a partir de Textos 2003 Disponiacutevel em httpwwwinfunisinosbr~renatalaboratorio publicacoesenia2003-submittedpdf Acesso em ago de 2005
PIZZATO Luiz A Estrutura Multitesauro para Recuperaccedilatildeo de Informaccedilotildees Dissertaccedilatildeo (Mestrado) Porto Alegre PUCRS Faculdade de Informaacutetica - Poacutes-Graduaccedilatildeo em Ciecircncia da Computaccedilatildeo 2003 Disponiacutevel em httpwwwpucrsbrunipoainfoposdissertacoesarquivospizzatopdf Acesso em ago de 2004
84
PUSTEJOVSKY James Type Construction and the logic of concepts Disponiacutevel em httpwwwcsbrandeisedu~jamesparticlesindexhtml Acesso em set de 2004
________ The Metaphysics of Words in Context (2000) Disponiacutevel em httpwwwcsbrandeisedu~jamesparticlesindexhtml Acesso em set de 2004
________ The Semantics of Agentive Nominals Disponiacutevel em httpwwwcsbrandeisedu~jamesparticlesindexhtml Acesso em set de 2004
WORDNET a lexical database for the English language Cognitive Science Laboratory Princeton University Disponiacutevel em httpwordnetprincetonedu Acesso em jan de 2006
85
ANEXOS
86
ANEXO A - DOCUMENTO1
Endereccedilo na Web http wwwreciclaveiscombranamghtm
Segunda-feira 28 de agosto de 2000 - Nuacutemero 599 Cresce a induacutestria de reciclagem de plaacutesticos Poreacutem potencial do lixo domeacutestico ainda eacute pouco aproveitado no estado A induacutestria de reciclagem foi a que mais cresceu no setor plaacutestico de Santa Catarina nos uacuteltimos cinco anos No periacuteodo o volume reprocessado no estado cresceu 1664 ao ano atingindo 169 mil toneladas em 1999 Isso equivale a 37 do total transformado pelo setor em Santa Catarina Os dados fazem parte de estudo elaborado pela empresa de consultoria MaxiQuim de Porto Alegre para o Sindicato da Induacutestria de Material Plaacutestico no Estado de Santa Catarina (Simpesc) Contudo esse crescimento reflete mais o reaproveitamento de resiacuteduos gerados em processos industriais do que a reciclagem de lixo domeacutestico como embalagens e garrafas o chamado plaacutestico ldquopoacutes-consumordquo Este segmento cresce de maneira menos acelerada devido a problemas como a necessidade de escala de produccedilatildeo falta de linhas de financiamento e ausecircncia de legislaccedilatildeo que estimule a atividade ldquoEmbora a reciclagem do material poacutes-consumo como sacos embalagens e garrafas esteja aumentando em Santa Catarina a maior parte do crescimento verificado entre 1995 e 1999 refere-se a empresas que utilizam resiacuteduos industriais como mateacuteria-primardquo explica o diretor da MaxiQuim Joatildeo Luiz Zuntildeeda Normalmente chamadas de aparas esses resiacuteduos incluem tambeacutem as peccedilas que natildeo atingiram a qualidade necessaacuteria para ir ao mercado As oito empresas catarinenses de reciclagem de plaacutestico tecircm 383 empregados sem considerar o pessoal que trabalha na coleta de lixo atividade que geralmente eacute informal O valor da produccedilatildeo atingiu R$ 4249 milhotildees em 1999 com crescimento meacutedio de 1526 ao ano nos uacuteltimos cinco anos jaacute descontando a inflaccedilatildeo As empresas de transformaccedilatildeo de plaacutestico estatildeo cada vez mais preocupadas em recuperar o material que antes era perdido devido ao alto custo da resina virgem diz Nelson Pradella proprietaacuterio da empresa Recicle-Ville ldquoIsso eacute fundamental para que elas sejam competitivas pois vendendo os resiacuteduos do processo industrial como sucata as empresas obtecircm menos de 20 do valor da resina virgemrdquo Cobrando 30 do preccedilo da resina virgem a Recicle-Ville devolve para a induacutestria seus resiacuteduos em condiccedilotildees de serem utilizados normalmente no processo produtivordquo explica A empresa de Joinville foi uma das firmas que ajudou a elevar os iacutendices desta induacutestria no estado Ateacute agora ela estava trabalhando apenas com mateacuteria-prima gerada nos processos industriais mas isso deve mudar a partir desta semana Criada haacute um ano a empresa reprocessa cerca de 220 toneladas de plaacutestico por mecircs e estaacute aumentando a sua capacidade para 310 toneladas Ela ainda opera basicamente como terceirizada de empresas de processamento de plaacutesticos reprocessando para elas os resiacuteduos que geram e devolvendo essa mateacuteria em forma granular mesmo estado da resina virgem Como a mateacuteria prima reciclada seraacute utilizada para fazer o mesmo produto que originou a
4
3
2
1
87
apara a qualidade final natildeo eacute afetada Mas a Recicle-Ville estaacute ingressando tambeacutem no segmento de reciclagem do plaacutestico poacutes-consumo A partir desta semana a empresa coloca em funcionamento um sistema de coleta junto a escolas do municiacutepio para recolher materiais plaacutesticos como sacos garrafas e tampinhas apostando principalmente no PET Com isso ela tem a vantagem de receber material mais limpo A contaminaccedilatildeo do plaacutestico pelo lixo orgacircnico eacute justamente um dos principais problemas para o crescimento da induacutestria da reciclagem do lixo domeacutestico A simples separaccedilatildeo do lixo orgacircnico do seco jaacute traria um impulso importante para o setor diz Ana Flores diretora do departamento de meio ambiente e desenvolvimento sustentado da Federaccedilatildeo das Induacutestrias do Estado de Satildeo Paulo (Fiesp) e autora do livro ldquoO dinheiro estaacute no lixo ndash recicle essa ideacuteiardquo ldquoDeveriam ser criados mecanismos de estiacutemulo para a reciclagem Na Holanda por exemplo uma Coca-Cola custa US$ 220 Devolvendo a garrafa acontece o reembolso de US$ 1 Vocecirc acha que algueacutem vai jogaacute-la no lixordquo diz A induacutestria da reciclagem do plaacutestico no Brasil tem crescido bastante em funccedilatildeo do reaproveitamento do PET que eacute usado no segmento de monofilamentos em artigos como vassouras e na induacutestria tecircxtil Conforme Ana Flores a reciclagem gera 250 mil empregos no Paiacutes dos quais 70 satildeo informais Poreacutem a maior parte do potencial de mercado ainda estaacute sendo desperdiccedilado avalia ldquoCerca de 15 do total de plaacutestico que eacute industrializado no Paiacutes eacute reciclado Em dez anos poderiacuteamos chegar a 60 como nos Estados Unidos desde que fosse implementado um conjunto de medidas incentivando essa praacuteticardquo assegura Para a diretora da Fiesc os principais entraves satildeo o aspecto cultural a tributaccedilatildeo incidente na reciclagem do plaacutestico a falta de linhas de financiamento e a ausecircncia de uma legislaccedilatildeo ambiental mais rigorosa ldquoHaacute um contra-senso ecoloacutegico que forccedila a clandestinidade no Brasil onde para fabricar garrafa PET virgem paga-se IPI de 10 e para a reciclagem 12rdquo critica Ana afirma que essa tributaccedilatildeo decorre do interesse governamental em incentivar a induacutestria quiacutemica Outro problema apontado eacute que ao contraacuterio da induacutestria do alumiacutenio que eacute concentrada o predomiacutenio das pequenas empresas na transformaccedilatildeo do plaacutestico dificulta que sejam criadas grandes empresas para reprocessar o lixo Para Flores o sucesso brasileiro na reciclagem do alumiacutenio (o iacutendice eacute de 65 um dos mais altos do mundo) decorre da existecircncia de poucas grandes empresas capitalizadas ldquoAs pequenas empresas natildeo tecircm acesso agraves linhas de creacutedito e isso dificulta a abertura de novas recicladorasrdquo diz Flores Mas haacute quem aponte outros desafios a superar ldquoEmbora seja um mercado que deve crescer muito a reciclagem de plaacutestico natildeo eacute tatildeo simples como normalmente aparece na televisatildeo O volume miacutenimo para que a atividade seja economicamente viaacutevel atendendo a todas as exigecircncias legais eacute de 100 toneladas mecircsrdquo diz Ronaldo Cerri soacutecio da Moinhos Rone de Satildeo Paulo que fabrica equipamentos utilizados na moagem do plaacutestico uma das primeiras etapas da reciclagem Aleacutem disso explica a coleta do plaacutestico eacute mais complicada porque ao contraacuterio das latas de alumiacutenio - que podem ser amassadas o volume fiacutesico eacute maior ldquoHoje entre 70 e 80 dos moinhos que vendemos satildeo para reciclagem de resiacuteduos industriaisrdquo informa (Elmar Meurer de Joinville)
copy GAZETA MERCANTIL
9
8
7
6
5
88
ANEXO B - DOCUMENTO2
Cuidados com o Lixo
Endereccedilo na Web httpwwwpoupetempocombrambientelixohtm
Todos os seres vivos quando morrem apodrecem plantas e animais se decompotildeem e satildeo destruiacutedos por larvas bacteacuterias e fungos e reabsorvidos pela terra pela aacutegua pelo ar Eacute o ciclo da natureza morte decomposiccedilatildeo nova vida e crescimento Tudo o que eacute fabricado pelo homem acaba virando lixo Muito desse lixo natildeo se decompotildee facilmente como a mateacuteria orgacircnica e passa a ser um problema Plaacutesticos latas e vidros demoram muitos anos para se decompor e poluem o meio-ambiente Por isso a importacircncia da reciclagem do lixo fabricado pelo ser humano O lixo eacute formado por resiacuteduos soacutelidos natildeo biodegradaacuteveis e que demoram para se decompor Restos de alimentos folhas e frutas satildeo chamados lixo orgacircnico Existem tambeacutem aleacutem do lixo domiciliar o lixo industrial o de vias puacuteblicas e o hospitalar que necessitam de tratamentos especiais pois oferece perigo agrave sauacutede das pessoas Devido ao aumento da populaccedilatildeo das grandes cidades e com o aumento do consumo de produtos a quantidade de lixo tambeacutem tem aumentado O acuacutemulo de lixo eacute um dos principais problemas nas grandes cidades Muitos materiais que vatildeo para o lixo natildeo podem ser desperdiccedilados podendo ser reaproveitados e reutilizados Material orgacircnico Tudo o que eacute resto de comida de animais de plantas e frutas eacute considerado lixo propriamente dito Ou seja vocecirc deve acondicionaacute-los num uacutenico recipiente Essa material eacute recolhido pela prefeitura e levado para aterros sanitaacuterios onde vatildeo sofrer a decomposiccedilatildeo natural Material reciclaacutevel Eacute praticamente tudo o que eacute fabricado pelo homem material plaacutestico latas de alumiacutenio e ferro garrafas de refrigerante de vidro e PET caixas de papel e papelatildeo jornais revistas livros aparas de papel etc Se vocecirc mora em casa reuacutena-se com sua famiacutelia e com seus funcionaacuterios para estabelecer um meacutetodo de separaccedilatildeo desse material Dependendo do seu volume diaacuterio de lixo escolha 4 recipientes coloridos para acondicionaacute-los azul para papel vermelho para plaacutestico verde para vidro e amarelo para metal ou nomeie cada um deles conforme sua classificaccedilatildeo Se vocecirc mora em condomiacutenio faccedila esse mesmo trabalho reunindo os moradores estabelecendo regras e instruindo os empregados Observaccedilatildeo o lixo orgacircnico deve estar separado daquilo que eacute reciclaacutevel Exemplos Providencie uma caixa resistente ou sacolas e fixe nelas um papel com a identificaccedilatildeo do tipo de lixo vidro e nela vaacute acumulando as garrafas Retire aneacuteis e roacutetulos e lave as garrafas para natildeo acumular insetos Na outra caixa vaacute juntando o lixo papel aparas embalagens de papelatildeo as perdas da impressora jornais e revistas velhas etc Latas de conserva satildeo de ferro e as de refrigerante satildeo de alumiacutenio Elas devem ser acumuladas limpas sem roacutetulo e em caixas separadas As de alumiacutenio podem ser amassadas como uma sanfoninha o que economizaraacute espaccedilo Quando as caixas estiverem cheias elas devem ser encaminhadas para entidades que trabalham com material reciclaacutevel ou simplesmente recolhida pela empresa de sua cidade responsaacutevel pela coleta seletiva Consulte a prefeitura local
89
A destinaccedilatildeo do material para reciclagem pode ser feita de vaacuterias formas Uma famiacutelia mais pobre pode utilizar esse material vendendo para cooperativas e empresas especializadas e conseguir um dinheiro extra Os condomiacutenios de melhor padratildeo econocircmico podem utilizar o resultado da separaccedilatildeo do lixo para reciclagem em benefiacutecio de seus funcionaacuterios propiciando a eles um ganho extra na ajuda da triagem desse material Uma outra forma eacute simplesmente entregar todo o material para as prefeituras que jaacute possuem o meacutetodo de coleta seletiva Ajude a melhorar o meio-ambiente Eacute simples pense antes de comprar Metade do que noacutes compramos eacute lixo Satildeo embalagens que quase sempre natildeo servem para nada e vatildeo direto para o lixo Evite embalagens plaacutesticas elas satildeo pouco reciclaacuteveis enquanto o vidro eacute totalmente reciclaacutevel e muito mais uacutetil no seu reaproveitamento Algumas informaccedilotildees sobre materiais produzidos pelo homem TEMPO DE DECOMPOSICcedilAtildeO DE ALGUNS MATERIAIS
Lenccedilo de papel 3 meses Palito de foacutesforo 6 meses Caroccedilo de maccedilatilde 6 a 12 meses Ponta de cigarro 1 a 2 anos Chiclete 5 anos Lata de accedilo 10 anos Garrafa de plaacutestico 100 anos Garrafa de vidro Mais de 1000 anos Lata de alumiacutenio Natildeo se corroacutei nunca
Plaacutestico riacutegido Leve resistente e praacutetico eacute o material que compotildee cerca de 60 das embalagens plaacutesticas como garrafas de refrigerantes recipientes para produtos de limpeza e higiene e potes de alimentos eacute tambeacutem mateacuteria-prima baacutesica de bombonas fibras tecircxteis tubos e conexotildees calccedilados eletrodomeacutesticos aleacutem de baldes utensiacutelios domeacutesticos e outros produtos Ele pode ser reprocessado gerando novos artefatos plaacutesticos e energia Papel ondulado eacute usado em caixas para transporte de produtos para faacutebricas depoacutesitos escritoacuterios e residecircncias Normalmente chamado de papelatildeo este material tem uma camada intermediaacuteria de papel entre suas partes exteriores disposta em ondulaccedilotildees na forma de uma sanfona O material eacute de faacutecil coleta em grandes volumes comerciais sendo facilmente identificadas quando misturadas com outros tipos de papel por isso seu susto de processamento eacute relativamente baixo Embalagens longa vida satildeo compostas de vaacuterias camadas de material dupleacutex polietileno e alumiacutenio As embalagens cartonadas precisam ser lavadas apoacutes o consumo porque os restos de alimentos contidos nelas dificultam o reprocessamento do material Para aproveitar melhor o espaccedilo as embalagens podem ser amassadas O papel existente nas embalagens cartonadas pode ser compostado para a produccedilatildeo de huacutemus utilizado em hortas e jardins Pneus a borracha e sua reciclagem eacute capaz de devolver ao processo de produccedilatildeo insumo regenerado por menos da metade do custo da borracha natural ou sinteacutetica aleacutem disso economiza energia e poupa petroacuteleo usado como mateacuteria-prima virgem e ateacute melhora as propriedades de materiais feitos com borracha Latas de alumiacutenio aleacutem de reduzir o lixo que vai para os aterros a reciclagem desse material proporciona significativo ganho energeacutetico Para reciclar uma tonelada de latas gasta-se 5 da
90
energia necessaacuteria para produzir a mesma quantidade de alumiacutenio pelo processo primaacuterio Isto significa que cada latinha reciclada equivale ao consumo de um aparelho de TV durante 3 horas A reciclagem evita a extraccedilatildeo da bauxita o mineral beneficiado para a fabricaccedilatildeo da alumina que eacute transformada em liga de alumiacutenio Vidro a metade dos recipientes de vidro eacute fabricados no Paiacutes eacute retornaacutevel Aleacutem disso o material eacute de faacutecil reciclagem pode voltar a produccedilatildeo de novas embalagens substituindo o produto virgem sem perda da qualidade Pet (polietileno tereftalato) as garrafas recicladas satildeo transformadas em cordas e fios de costura carpetes bandejas de frutas e ateacute mesmo novas garrafas Sua reciclagem aleacutem de desviar lixo plaacutestico dos aterros utiliza apenas 30 da energia necessaacuteria para a produccedilatildeo da resina virgem e tem a vantagem de poder ser reciclado vaacuterias vezes sem prejudicar a qualidade do produto final Latas de accedilo Quando reciclado o accedilo volta ao mercado em forma de automoacuteveis ferramentas vigas para construccedilatildeo civil arames vergalhotildees utensiacutelios domeacutesticos e inclusive novas latas Plaacutestico filme eacute uma peliacutecula plaacutestica normalmente usada como sacolas de supermercados sacos de lixo embalagens de leite lonas agriacutecolas e proteccedilatildeo de alimentos na geladeira ou microondas Cerca de 44 eacute papel e 4 eacute folha de alumiacutenio Ajude a melhorar o meio-ambiente
bull Reaproveite sobras e natildeo jogue fora o que puder aproveitar bull Doe roupas que possam ser reformadas ou consertadas bull Doe livros para bibliotecas ou instituiccedilotildees beneficentes bull Use produtos biodegradaacuteveis ou reciclaacuteveis bull Deixe o oacuteleo usado do motor no posto para ser reciclado bull Leve pneus sem uso para os borracheiros bull Evite jogar lixo na rua Jogue o lixo na lixeira bull Embale o lixo corretamente sempre que possiacutevel encaminhe plaacutesticos vidros e papel
para a reciclagem
91
ANEXO C - EXTRACcedilAtildeO MANUAL DE SN DOS DOCUMENTOS
DOCUMENTO1 Linha Sintagma Nominal Niacutevel
1 Plaacutesticos 1 1 Reciclagem de plaacutesticos 2 1 Induacutestria de reciclagem de plaacutesticos 3 2 Lixo 1 2 Lixo domeacutestico 1 2 Potencial do lixo domeacutestico 2 3 Reciclagem 1 3 Induacutestria de reciclagem 2 3 Plaacutestico 1 3 Setor Plaacutestico 1 3 Setor Plaacutestico de Santa Catarina 2 7 Plaacutestico 1 7 Material Plaacutestico 1 7 Induacutestria de Material Plaacutestico 2 7 Sindicato da Induacutestria de Material Plaacutestico 3 7 Sindicato da Induacutestria de Material Plaacutestico no Estado de Santa Catarina 4 8 Resiacuteduos 1 8 Reaproveitamento de resiacuteduos 2 9 Lixo 1 9 Lixo domeacutestico 1 9 Reciclagem do lixo domeacutestico 2 10 Embalagens 1 10 Garrafas 1 10 Embalagens e garrafas 2 10 Plaacutestico 1 10 Plaacutestico poacutes-consumo 1 13 Reciclagem 1 13 Reciclagem de material 2 13 Reciclagem de material poacutes-consumo 2 13 Sacos 1 13 Embalagens 1 13 Garrafas 1 13 Sacos embalagens e garrafas 2 15 Resiacuteduos 1
92
15 Resiacuteduos industriais 1 15 Resiacuteduos industriais como mateacuteria-prima 2 18 Reciclagem 1 18 Reciclagem de plaacutesticos 2 18 Empresas catarinenses de reciclagem de plaacutesticos 3 19 Lixo 1 19 Coleta de lixo 2 22 Plaacutestico 1 22 Transformaccedilatildeo de plaacutestico 2 22 As empresas de transformaccedilatildeo de plaacutestico 3 27 Resiacuteduos 1 32 Plaacutestico 1 34 Plaacutesticos 1 34 Processamento de plaacutesticos 2 34 Empresas de processamento de plaacutesticos 3 34 Terceirizada de empresas de processamento de plaacutesticos 4 34 Os resiacuteduos 1 36 Reciclada 1 36 Mateacuteria-prima reciclada 1 38 Reciclagem 1 38 Reciclagem de plaacutestico 2 38 Reciclagem de plaacutestico poacutes-consumo 2 38 Segmento de reciclagem de plaacutestico poacutes-consumo 3 39 Coleta 1 39 Coleta junto a escolas do municiacutepio 2 39 Um sistema de coleta junto a escolas do municiacutepio 3 40 Plaacutesticos 1 40 Materiais plaacutesticos 1 40 Materiais plaacutesticos como sacos garrafas e tampinhas 2 41 PET 1 43 Lixo 1 43 Lixo orgacircnico 1 43 A contaminaccedilatildeo do plaacutestico 2 43 A contaminaccedilatildeo do plaacutestico pelo lixo orgacircnico 3 44 Lixo 1
93
44 Lixo domeacutestico 1 44 Reciclagem de lixo domeacutestico 2 44 Induacutestria da reciclagem do lixo domeacutestico 3 44 O crescimento da induacutestria da reciclagem do lixo domeacutestico 4 44 Lixo 1 44 Lixo orgacircnico 1 44 A simples separaccedilatildeo do lixo orgacircnico 2 44 A simples separaccedilatildeo do lixo orgacircnico do seco 3 49 A garrafa 1 50 Lixo 1 51 Reciclagem 1 51 Reciclagem do plaacutestico 2 51 A induacutestria da reciclagem do plaacutestico 3 51 A induacutestria da reciclagem do plaacutestico no Brasil 4 52 Reaproveitamento 1 52 Reaproveitamento do PET 2 53 A reciclagem 1 55 Plaacutestico 1 56 Reciclado 1 58 Reciclagem 1 58 Reciclagem do plaacutestico 2 58 Tributaccedilatildeo incidente na reciclagem do plaacutestico 3 61 Garrafa 1 61 Garrafa PET 1 61 Reciclagem 1 63 Induacutestria Quiacutemica 1 64 Alumiacutenio 1 64 Induacutestria do alumiacutenio 2 65 Plaacutestico 1 65 Transformaccedilatildeo do plaacutestico 2 65 Empresas na transformaccedilatildeo do plaacutestico 3 65 Predomiacutenio das pequenas empresas na transformaccedilatildeo do plaacutestico 4 66 Lixo 1 69 Recicladoras 1 69 A abertura de novas recicladoras 2
94
71 Reciclagem 1 71 Reciclagem de Plaacutestico 2 74 Plaacutestico 1 74 Moagem do plaacutestico 2 74 Reciclagem 1 74 Primeiras etapas da reciclagem 2 75 Coleta 1 75 A coleta do plaacutestico 2 77 Reciclagem 1 77 Reciclagem de resiacuteduos 2 77 Reciclagem de resiacuteduos industriais 3
DOCUMENTO2
Linha Sintagma Nominal Niacutevel1 Lixo 1 1 Cuidados com o lixo 2 5 Lixo 1 5 Lixo 1 6 Mateacuteria Orgacircnica 1 6 Plaacutesticos latas e vidros 2 7 Lixo 1 7 Reciclagem do lixo 2 7 A importacircncia da reciclagem do lixo 3 9 O lixo 1 9 Resiacuteduos 1 9 Resiacuteduos soacutelidos 1 9 Resiacuteduos soacutelidos natildeo-biodegradaacuteveis 1 9 Restos de alimentos folhas e frutas 2 10 Lixo 1 10 Lixo orgacircnico 1 11 Lixo 1 11 Lixo domiciliar lixo industrial o de vias puacuteblicas e o hospitalar 3 13 Lixo 1 13 A quantidade de lixo 2
95
15 Lixo 1 15 O acuacutemulo de lixo 2 15 O lixo 1 17 Material orgacircnico 1 18 Restos de comida de animais de plantas e frutas 4 18 Lixo 1 20 Aterro sanitaacuterio 1 20 A decomposiccedilatildeo 1 20 A decomposiccedilatildeo natural 1 21 Reciclaacutevel 1 21 Material reciclaacutevel 1 22 Material plaacutestico latas de alumiacutenio e ferro garrafas de refrigerante de
vidro e PET caixas de papel e papelatildeo jornais revistas livros aparas de papel
4
24 Lixo 1 24 Volume diaacuterio de lixo 2 31 O lixo 1 31 O lixo orgacircnico 1 31 Reciclaacutevel 1 33 Lixo 1 33 Tipo de lixo 2 33 vidro 1 34 As garrafas 1 35 As garrafas 1 36 O lixo 1 36 O lixo papel aparas embalagens de papelatildeo as perdas da impressora
jornais e revistas velhas 3
38 Ferro 1 38 Alumiacutenio 1 42 Reciclaacutevel 1 42 Material reciclaacutevel 1 42 Coleta 1 42 Coleta seletiva 1 44 Reciclagem 1 44 Material para reciclagem 2 44 A destinaccedilatildeo do material para reciclagem 3
96
47 Lixo 1 47 Separaccedilatildeo do lixo 2 47 Separaccedilatildeo do lixo para reciclagem 3 47 O resultado da separaccedilatildeo do lixo para reciclagem 4 50 Coleta 1 50 Coleta seletiva 1 50 O meacutetodo de coleta seletiva 2 53 Lixo 1 53 Embalagens 1 53 O lixo 1 54 Embalagens plaacutesticas 1 54 Pouco reciclaacuteveis 1 54 O vidro 1 57 Decomposiccedilatildeo 1 57 Decomposiccedilatildeo de alguns materiais 2 57 Tempo de decomposiccedilatildeo de alguns materiais 3 67 Plaacutestico 1 67 Plaacutestico riacutegido 1 67 Embalagens plaacutesticas 1 67 Embalagens plaacutesticas como garrafas de refrigerantes recipientes para
produtos de limpeza e higiene e potes de alimentos 4
72 Papel ondulado 1 74 Coleta 1 74 Coleta em grandes volumes comerciais 2 74 Faacutecil coleta em grandes volumes comerciais 2 76 Processamento 1 76 Custo de processamento 2 77 Embalagens 1 77 Embalagens longa vida 1 79 reprocessamento 1 79 Reprocessamento do material 2 82 Hortas e jardins 2 83 Pneus 1 83 Reciclagem 1 83 A borracha e sua reciclagem 2
97
84 Borracha 1 84 Borracha natural ou sinteacutetica 1 84 O custo da borracha natural ou sinteacutetica 2 86 Latas de alumiacutenio 1 86 O lixo 1 86 A reciclagem 1 88 Reciclada 1 88 Latinha reciclada 1 89 A reciclagem 1 91 vidro 1 91 Vidro 1 91 Recipiente de vidro 2 91 Faacutecil reciclagem 1 94 PET 1 94 Recicladas 1 94 Garrafas recicladas 1 95 Reciclagem 1 95 Lixo 1 95 Lixo plaacutestico 1 95 Lixo plaacutestico dos aterros 2 97 Reciclado 1 97 Reciclado vaacuterias vezes 1 98 Latas de accedilo 2 98 Automoacuteveis ferramentas vigas para construccedilatildeo civil arames
vergalhotildees utensiacutelios domeacutesticos e inclusive novas latas 3
100 Plaacutestico filme 1 100 Sacolas de supermercado sacos de lixo embalagens de leite lonas
agriacutecolas e proteccedilatildeo de alimentos na geladeira ou microondas 3
102 Folha de alumiacutenio 2 107 Reciclaacuteveis 1 107 Produtos biodegradaacuteveis ou reciclaacuteveis 1 110 Lixo 1 110 Lixo na rua 2 110 O lixo 1 110 O lixo na lixeira 2
98
111 O lixo 111 Reciclagem 1 111 Plaacutesticos vidros e papel para reciclagem 3
99
ANEXO D - FERRAMENTA1 DE TOQUENIZACcedilAtildeO E ETIQUETAGEM
Endereccedilo na Web hermessourceforgenethermeswebhtml
Texto processado (Paraacutegrafo 6 do Documento1)
A induacutestria da reciclagem do plaacutestico no Brasil tem crescido bastante em funccedilatildeo do reaproveitamento do PET que eacute usado no segmento de monofilamentos em artigos como vassouras e na induacutestria tecircxtil Conforme Ana Flores a reciclagem gera 250 mil empregos no Paiacutes dos quais 70 satildeo informais Poreacutem a maior parte do potencial de mercado ainda estaacute sendo desperdiccedilado avalia ldquoCerca de 15 do total de plaacutestico que eacute industrializado no Paiacutes eacute reciclado Em dez anos poderiacuteamos chegar a 60 como nos Estados Unidos desde que fosse implementado um conjunto de medidas incentivando essa praacuteticardquo assegura
Resultado
A_ART induacutestria_N da_PREP+ART reciclagem_N do_PREP+ART plaacutestico_N no_PREP+ART Brasil_NP tem_VTD crescido_ADJ bastante_ADV em_PREP funccedilatildeo_N do_PREP+ART reaproveitamento_N do_PREP+ART PET_N _ que_PR eacute_VLIG usado_ADJ no_PREP+ART segmento_N de_PREP monofilamentos_N _ em_PREP artigos_N
100
como_CONJSUB vassouras_ADJ e_CONJCOORD na_PREP+ART induacutestria_N tecircxtil_NP _ Conforme_CONJSUB Ana_NP Flores_N _ a_ART reciclagem_N gera_N 250_NC mil_NC empregos_N no_PREP+ART Paiacutes_N _ dos_PREP+ART quais_PR 70_NC satildeo_VLIG informais_ADJ _ Poreacutem_VTD _ a_ART maior_ADJ parte_N do_PREP+ART potencial_N de_PREP mercado_N ainda_ADV estaacute_VLIG sendo_VLIG desperdiccedilado_VTD _ avalia_N _ Cerca_N de_PREP 15_NC do_PREP+ART total_ADJ de_PREP plaacutestico_N que_PR eacute_VLIG
101
industrializado_VTD no_PREP+ART Paiacutes_N eacute_VLIG reciclado_VTD _ Em_PREP dez_NC anos_N poderiacuteamos_VTD chegar_VTI a_ART 60_NC _ como_CONJSUB nos_PREP+ART Estados_NP Unidos_NP _ desde_PREP que_PR fosse_VLIG implementado_ADJ um_ART conjunto_N de_PREP medidas_N incentivando_VTD essa_PD praacutetica_N _ assegura_VTD _
102
ANEXO D - FERRAMENTA2 DE TOQUENIZACcedilAtildeO E ETIQUETAGEM
Endereccedilo na Web httplaelpucspbrcorporaetiquetagem
A ARTD induacutestria N da CPR reciclagem N do CPR plaacutestico N no CPR Brasil N tem V crescido PART bastante ADV em PRP funccedilatildeo N do CPR reaproveitamento N do CPR PET N PT que PRN eacute V usado PART no CPR segmento N de PRP monofilamentos N PT em PRP artigos N como ADV vassouras N e CJ na CPR induacutestria N tecircxtil ADJ PT Conforme ADJ Ana N Flores N PT a ARTD reciclagem N gera V 250 NUM mil N
103
empregos N no CPR Paiacutes N PT dos CPR quais PRN 70 NUM PT satildeo V informais ADJ PT Poreacutem CJ PT a ARTD maior ADJ parte N do CPR potencial N de PRP mercado N ainda ADV estaacute V sendo V desperdiccedilado PART PT avalia V PT ldquoCerca PRP de PRP 15 NUM PT do CPR total N de PRP plaacutestico N que PRN eacute V industrializado PART no CPR Paiacutes N eacute V reciclado PART PT Em PRP dez NUM anos N poderiacuteamos V chegar V a ARTD 60 NUM PT
104
PT como ADV nos CPR Estados N Unidos N PT desde PRP que PRN fosse V implementado PART um ARTI conjunto N de PRP medidas N incentivando V essa PRN praacuteticardquo N PT assegura V PT
105
ANEXO E - PROCESSO DE NOMINALIZACcedilAtildeO Palavra Original Classe Substantivo Abstrato Substantivo Concretotem Verbo E E crescido Verbo no particiacutepio crescimento E bastante Adveacuterbio E E eacute Verbo E E usado Verbo no particiacutepio uso usador tecircxtil Adjetivo E tecido informal Adjetivo informalidade E maior Adjetivo maioridade E potencial Adjetivo potencialidade E ainda Adveacuterbio E E estaacute Verbo E E sendo Verbo E E desperdiccedilado Verbo no particiacutepio desperdiacutecio desperdiccedilador total Adjetivo totalidade totalizador industrializado Verbo no particiacutepio industrial induacutestria reciclado Verbo no particiacutepio E reciclagem poderiacuteamos Verbo E E chegar Verbo E chegada fosse Verbo E E implementado Verbo no particiacutepio implemento implementador incentivando Verbo Incentivo incentivador
E = ausecircncia de nominalizaccedilatildeo
viii
RESUMO
Este trabalho tem como objetivo apresentar um novo modelo de sistema informatizado de suporte ao usuaacuterio no processo de recuperaccedilatildeo de informaccedilotildees A proposta consiste em apoio durante a definiccedilatildeo da query de busca e baseia-se na identificaccedilatildeo das possibilidades de sistematizaccedilatildeo e junccedilatildeo do modelo de Kuramoto com a estrutura de Gonzalez Para a sua construccedilatildeo foi necessaacuterio analisar e sintetizar o modelo de suporte ao usuaacuterio de Kuramoto (baseado na determinaccedilatildeo dos Sintagmas Nominais) a estrutura de Qualia do Leacutexico Gerativo de Pustejovsky e termos e RLBs (relaccedilotildees lexicais binaacuterias) do modelo TR+ de Gonzalez O resultado que se espera alcanccedilar eacute possibilitar a realizaccedilatildeo de uma interaccedilatildeo que venha a proporcionar uma negociaccedilatildeo adequada dos significados entre o usuaacuterio e a maacutequina negociaccedilatildeo essa que deve resultar em fator fundamental na melhoria da eficiecircncia dos processos de busca O modelo de Kuramoto baseado em uma hierarquia de Sintagmas Nominais suporta inicialmente essa interaccedilatildeo Com a definiccedilatildeo da query de busca e da Estrutura de Qualia de Pustejovsky impliacutecita no modelo TR+ de Gonzalez foi possiacutevel obter uma maior relevacircncia dos documentos recuperados atraveacutes de um caacutelculo de peso de descritores (termos e relacionamentos) evidentes nos documentos As etapas gerais do modelo proposto satildeo a extraccedilatildeo de Sintagmas Nominais e a sua hierarquizaccedilatildeo automaacutetica em niacuteveis o preacute-processamento (toquenizaccedilatildeo e etiquetagem) o processo de nominalizaccedilatildeo e a captura de RLBs Delineado preliminarmente o modelo partiu-se para as etapas de levantamento e anaacutelise de requisitos representada pelos diagramas e pelas descriccedilotildees dos casos de uso chegando-se ao desenvolvimento do seu modelo conceitual que culminou a construccedilatildeo dos diagramas de classes e de sequumlecircncia para a aplicaccedilatildeo proposta Ao final conclui-se que a alternativa indicada neste trabalho aleacutem de ser exequumliacutevel apresenta ganhos qualitativos nos resultados de uma busca em recuperaccedilatildeo de informaccedilotildees e tambeacutem quantitativos no que se refere a um menor tempo na fase de indexaccedilatildeo (rapidez) e um tamanho menor de arquivos de iacutendice gerados (memoacuteria)
Palavras-chave Recuperaccedilatildeo de Informaccedilatildeo Sintagmas Nominais Estrutura de Qualia Termos e RLBs
ix
ABSTRACT
This work has the presentation of a new model of a support information system to the user in the process of information retrieval The proposal consists in the support during the definition of a search query based on the identification of the possibilities of informatization and junction of a Kuramoto model along with the Gonzalez structure For its construction it was necessary to analyze and synthesize the support model to the Kuramoto user (base don the determination of Nominal Syntagm) the Qualia structure of the Lexical Semantics of Pustejovsky and having the LBRs (lexical binary relations) of the Gonzalez TR+ model The result we expect to reach is the possibility of actually performing an interaction that may result in an adequate negotiation of meanings between the user and the machine knowing that this negotiation should result in a fundamental factor in order for the improvement on the efficiency of the search processes The Kuramoto model based on Nominal Syntagm hierarchy initially supports this interaction With the definition of the query search and the Pustejovsky Qualia structure implicit in the TR+ Gonzalez model it was possible to obtain a greater relevance of documents recovered through a calculus of weight of describers (terms and relationships) evident in the document The general stages of the proposed model are the extraction of Nominal Syntagm and their automatic placement into hierarchy the pre-processing (tokening and labeling) the naming and capture of the LRBs After the preliminary outlining of the model we went on to the gathering of stages and requisite analysis presented by diagrams and descriptions of the usage cases finally reaching the development of a conceptual model that culminated in the construction of class diagrams and of a sequence for the proposed application As we reach the end we can conclude that the indicated alternative in this work besides being executable presents qualitative gains in the results of a search for the retrieval of information and also quantitative gains when referring to a smaller amount of time spent in the index phase (speed) and a smaller amount of archives generated (memory)
Key-words Retrieval of Information Nominal Syntagm Qualia Structure Terms e LRBs
x
SUMAacuteRIO
AGRADECIMENTOS iv
IacuteNDICE DE FIGURAS v
IacuteNDICE DE TABELAS vi
IacuteNDICE DE TABELAS vi
SIGLAS vii
RESUMOviii
ABSTRACT ix
SUMAacuteRIOx
1 INTRODUCcedilAtildeO 12
11 Objetivos13 111 Objetivo Geral 13 112 Objetivos Especiacuteficos 13
12 Metodologia13
13 Resultados Esperados e Limitaccedilotildees do Trabalho 14
14 Estrutura da Dissertaccedilatildeo 15
2 RECUPERACcedilAtildeO DE INFORMACcedilAtildeO 16
21 Histoacuterico 16
22 Modelos Claacutessicos de Recuperaccedilatildeo de Informaccedilatildeo 18 221 Modelo Booleano 18
2211 Operadores Booleanos19 2212 Operadores de Proximidade 20
222 Modelo Vetorial21 223 Modelo Probabiliacutestico 23
3 FUNDAMENTACcedilAtildeO TEacuteORICA25
31 A Proposta de Kuramoto 25 311 Extraccedilatildeo dos Sintagmas Nominais 27
3111 Extraccedilatildeo Automaacutetica de Sintagmas Nominais 29 312 A determinaccedilatildeo de uma estrutura para os SN 29
xi
313 Protoacutetipo Desenho da Interface de Busca31 314 Organizaccedilatildeo dos Sintagmas Nominais como Estrutura de Busca 32
32 A Teoria do Leacutexico Gerativo de Pustejovsky34 321 Estruturas do Leacutexico Gerativo36
3211 Estrutura de Argumento 37 3212 Estrutura de Evento 37 3213 Estrutura de Qualia 38 3214 Estrutura de Heranccedila Lexical 40
322 Sistema de Tipos Semacircnticos 41 322 Mecanismos gerativos 42
3221 Coerccedilatildeo de tipo42 3222 Ligaccedilatildeo seletiva 42 3223 Co-composiccedilatildeo 43
33 O Modelo TR+ de Gonzalez45
4 APRESENTACcedilAtildeO E DISCUSSAtildeO DO MODELO PROPOSTO 55
41 Procedimentos desenvolvidos utilizando o modelo de SN de Kuramoto e a proposta Gonzalez - ldquoEstrutura SINTR+rdquo55
42 Descriccedilatildeo Formal do Modelo Proposto SINTR+ 64
5 CONCLUSAtildeO77
6 REFEREcircNCIAS BIBLIOGRAacuteFICAS 80
61 Bibliografia Consultada82
ANEXO A - DOCUMENTO186
ANEXO B - DOCUMENTO288
ANEXO C - EXTRACcedilAtildeO MANUAL DE SN DOS DOCUMENTOS91
ANEXO D - FERRAMENTA1 DE TOQUENIZACcedilAtildeO E ETIQUETAGEM99
ANEXO D - FERRAMENTA2 DE TOQUENIZACcedilAtildeO E ETIQUETAGEM102
ANEXO E - PROCESSO DE NOMINALIZACcedilAtildeO105
12
1 INTRODUCcedilAtildeO
O tema ldquoRecuperaccedilatildeo de Informaccedilatildeordquo (RI) eacute importante para diversas aacutereas tais
como Biblioteconomia Linguumliacutestica Ciecircncia da Computaccedilatildeo entre outras Segundo Baeza-
Yates e Ribeiro-Neto (1999) na Ciecircncia da Computaccedilatildeo esse tema diz respeito agrave recuperaccedilatildeo
de dados e agrave recuperaccedilatildeo de informaccedilatildeo sendo ambos processos importantes e significativos
para a aacuterea
De acordo com os autores os sistemas de recuperaccedilatildeo de informaccedilatildeo lidam com
objetos linguumliacutesticos (textos) e por isso herdam toda a problemaacutetica inerente ao tratamento da
linguagem natural Jaacute a recuperaccedilatildeo de dados estaacute associada a sistemas gerenciadores de
banco de dados (ou simplesmente banco de dados) que ao organizaacute-los jaacute especificam de
forma bem definida a sua estrutura e por conseguinte a sua semacircntica
Um dos desafios na recuperaccedilatildeo de informaccedilatildeo conforme Ferneda (2003) diz
respeito a melhorar a relevacircncia dos resultados de uma busca de maneira que o usuaacuterio possa
encontrar todos os documentos que atendam agraves suas necessidades de informaccedilatildeo Em outras
palavras isto quer dizer que a busca seraacute precisa se conseguir retornar eou listar somente
documentos relacionados ao que o usuaacuterio expressou na definiccedilatildeo da sua busca
Diversos modelos de RI vecircm proporcionando melhorias significativas na relevacircncia
dos resultados De acordo com Baeza-Yates e Ribeiro-Neto (1999) em uma visatildeo centrada no
computador o problema de RI consiste principalmente na construccedilatildeo de iacutendices mais
eficientes no processamento de querys de usuaacuterios com alta performance e no
desenvolvimento de algoritmos de classificaccedilatildeo que melhorem a ldquoqualidaderdquo do conjunto de
respostas Apesar disso os meacutetodos utilizados nesses modelos ainda deixam a desejar natildeo
sendo capazes de recuperar a contento os documentos relevantes a uma consulta do usuaacuterio
Na maioria dos modelos de recuperaccedilatildeo de informaccedilatildeo existentes hoje o processo de
indexaccedilatildeo extrai cada palavra do texto de um documento e insere uma lista de palavras
ordenadas pela frequumlecircncia da palavra no texto Isto desfaz o trabalho intelectual do autor do
documento
Observa-se que diversas pesquisas de RI se focalizam nos algoritmos de busca por
documentos relevantes a partir de querys estabelecidas O foco nesses casos eacute determinar a
relevacircncia de documentos Para isso haacute vaacuterias metodologias desde medir o tempo de
13
permanecircncia do usuaacuterio no acesso a um documento ateacute a determinaccedilatildeo da quantidade de
consultas com querys semelhantes entre outras
Outro aspecto problemaacutetico relaciona-se ao fato de que as informaccedilotildees recuperadas
dependem tambeacutem da clareza do usuaacuterio ao expressar o que necessita Ou seja a dificuldade
natildeo se trata apenas de identificar e definir a relevacircncia dos resultados atraveacutes dos modelos
computacionais de RI que datildeo suporte ao processo da busca mas da capacidade do usuaacuterio de
formular uma expressatildeo de busca utilizando as palavras ou expressotildees de forma clara de
modo a representar os documentos desejados satisfazendo assim a sua necessidade
As palavras utilizadas pelo usuaacuterio possuem um significado claro para ele mas isso
natildeo eacute suficiente para uma boa recuperaccedilatildeo de informaccedilatildeo pois a Liacutengua Portuguesa segundo
Rossi (2003) apresenta muitas palavras iguais com significados diferentes (polissemia) que
variam de acordo com o contexto E haacute tambeacutem palavras diferentes em escrita e pronuacutencia
embora com significados iguais (sinoniacutemia) Ocorre ainda a combinaccedilatildeo de palavras que
segundo Martins e Zilberknop (1999) diz respeito a duas ou mais palavras que podem
combinar-se em ordem diferente designando ideacuteias completamente diversas
Esses aspectos da linguagem natural satildeo obstaacuteculos na obtenccedilatildeo de bons resultados
em um procedimento de recuperaccedilatildeo de informaccedilatildeo No caso da polissemia e da combinaccedilatildeo
de palavras pode ocorrer o aumento da taxa de ruiacutedos1 ou o incremento da taxa de silecircncio2
que acontecem no caso de sinoniacutemia Isto pode levar a um resultado de busca de documentos
que natildeo atenda agraves necessidades de informaccedilatildeo do usuaacuterio Portanto a existecircncia de uma
negociaccedilatildeo de significados entre usuaacuterio e maacutequina levaria possivelmente a resultados mais
relevantes
O surgimento das novas tecnologias da informaccedilatildeo e da comunicaccedilatildeo fez crescer o
volume de publicaccedilotildees na Internet Esse crescimento segundo Cardoso (2000) tem
dificultado ainda mais a recuperaccedilatildeo de informaccedilotildees relevantes Um aspecto positivo eacute a
facilidade de acesso pela Web (World Wide Web) aos acervos bibliograacuteficos de diversas
universidades brasileiras e mesmo do mundo inteiro Visto que o aumento do acervo torna
ainda mais complexa a busca por isso esperava-se que esses meacutetodos acompanhassem tal
desenvolvimento mas isto ainda natildeo aconteceu de forma satisfatoacuteria
A dificuldade aparece rapidamente nos vaacuterios mecanismos da Web como ldquoGooglerdquo
ldquoCaderdquo entre outros que ao serem acionados para buscar uma determinada informaccedilatildeo
1 Taxa de ruiacutedos eacute definida como sendo a relaccedilatildeo entre a quantidade de documentos recuperados natildeo pertinentes e a quantidade total de documentos 2 Taxa de silecircncio eacute definida como sendo a relaccedilatildeo entre a quantidade de documentos recuperados pertinentes natildeo recuperados e a quantidade total de documentos pertinentes na base de dados
14
listam centenas ou mesmo milhares de referecircncias como resposta sendo normalmente destas
relevantes apenas as primeiras Aleacutem disso ao se utilizarem as mesmas palavras em diferentes
mecanismos (sites) de pesquisa os resultados variam segundo Hill (1999) devido agraves rotinas
automatizadas de pesquisa diferenciadas
O usuaacuterio precisa ainda utilizar palavras-chave para dar foco agrave sua pesquisa Segundo
Baeza-Yates e Ribeiro-Neto (1999) o interessante seria jaacute poder dizer ldquoDecirc-me dados
estatiacutesticos sobre a equipe da seleccedilatildeo brasileira de basquete no ano de 2004rdquo Mas apesar de a
tecnologia da Internet estar progredindo ainda se estaacute bastante distante desse estaacutegio
Uma linha de pesquisa que tem como representante o trabalho de Kuramoto (1999)
procura abordar a questatildeo da RI desde a perspectiva do apoio ao usuaacuterio na formulaccedilatildeo da
query de busca A expectativa eacute oferecer jaacute no momento da formulaccedilatildeo da query um apoio
interativo para o estabelecimento de uma chave mais adequada ao contexto real da busca A
proposta de Kuramoto eacute baseada na determinaccedilatildeo dos Sintagmas Nominais (SN) de um
domiacutenio de aplicaccedilatildeo
O uso de SN permite um processo de refinamento da busca A forma de navegar
pelos niacuteveis de SN intensifica a interaccedilatildeo entre o usuaacuterio e o computador (KURAMOTO
2002) A interface de busca passa a dar um suporte para o usuaacuterio na formulaccedilatildeo de sua query
antes de listar todos os documentos
A proposta de utilizaccedilatildeo de uma interface de apoio utilizando SN configura-se como
inovadora pois natildeo se tem conhecimento de outra proposiccedilatildeo que considere o fato de que nem
sempre o usuaacuterio eacute capaz de explicitar a sua necessidade de informaccedilatildeo em uma uacutenica
expressatildeo de busca
Segundo Kuramoto (2002) as palavras como unidades de um dicionaacuterio natildeo contecircm
qualquer substacircncia Elas adquirem essa substacircncia no momento em que se inserem no
universo do discurso ou seja as palavras inseridas no texto de um documento assumem um
significado especiacutefico
Percebe-se que essa linha de pesquisa eacute bastante promissora e que a aacuterea de
Linguumliacutestica pode oferecer alternativas interessantes uma delas foi vislumbrada na teoria do
Leacutexico Gerativo (LG) de Pustejovsky (1991) Nessa teoria Pustejovsky buscando dar conta
da polissemia loacutegica das palavras propondo uma estrutura para a semacircntica de uma liacutengua da
mesma forma que a sintaxe eacute estruturada Na estrutura proposta por Pustejovsky a
componente principal eacute a estrutura de dimensotildees de significados (denominada de Estrutura de
Qualia)
15
Uma palavra escrita pelo usuaacuterio pode ser utilizada pelos documentos de um acervo
e portanto identificada pela maacutequina atraveacutes de seus modelos de RI com um sentido
completamente diferente do contexto imaginado pelo usuaacuterio Para a palavra ldquojornalrdquo por
exemplo o usuaacuterio pode estar se referindo ao preacutedio onde fica o jornal ou ao objeto fiacutesico
propriamente dito ou ateacute mesmo ao conteuacutedo do jornal (informaccedilatildeo contida)
A Estrutura de Qualia auxilia a RI na identificaccedilatildeo de qual sentido mais especiacutefico o
usuaacuterio busca dessa forma esta estrutura poderia classificar os documentos contendo a palavra
ldquojornalrdquo segundo as diferentes qualia envolvidas Isso representaria um refinamento
importante na busca que poderia resultar em mais satisfaccedilatildeo para o usuaacuterio e portanto mais
eficiecircncia dos mecanismos de busca O reconhecimento da importacircncia da teoria de
Pustejovsky pode ser constatado na existecircncia de trabalhos relacionados na liacutengua portuguesa
como eacute o caso da pesquisa de Abrahatildeo (1997) que desenvolveu a modelagem e a
implementaccedilatildeo de um leacutexico semacircntico para a nossa Liacutengua a partir de um estudo
aprofundado da teoria de Pustejovsky
Aleacutem disso uma outra questatildeo importante a ressaltar eacute que existem problemas
ligados agrave definiccedilatildeo das palavras Essa criacutetica segundo Rossi (2003) se fundamenta no fato de
os lexicoacutegrafos3 parecerem atuar de maneira mais intuitiva do que propriamente fazer uso de
teorias semacircnticas que decircem o devido suporte agrave tarefa de definir um item lexical Rossi (2003)
reforccedila que muitos dicionaacuterios nem sempre prevecircem a polissemia subjacente aos itens
lexicais
Outro trabalho pesquisado que permitiu uma ampliaccedilatildeo do modelo proposto nesta
dissertaccedilatildeo foi o de Gonzalez (2005) com o seu modelo TR+ Este modelo natildeo utiliza
sistematicamente a Estrutura de Qualia aparecendo esta apenas impliacutecita principalmente a
parte formal das palavras As palavras e seus relacionamentos ganham em Gonzalez uma
importacircncia contextual pelo caacutelculo de um peso (peso de descritores) que busca manter sua
unidade significativa
A abordagem proposta para este trabalho orienta-se na melhoria da query de busca
dos usuaacuterios A pesquisa siacutentese e sistematizaccedilatildeo da proposta de Kuramoto (1999) e do
modelo de Gonzalez (2005) possibilitaram o desenvolvimento de um novo modelo chamado
3 Lexicoacutegrafos satildeo autores de dicionaacuterios ou seja dicionaristas
de SINTR+ Esse modelo utiliza a formulaccedilatildeo de consulta em RI apresentando os Sintagmas
Nominais referentes a esta consulta e com isto inicia a interaccedilatildeo com o usuaacuterio onde o mesmo
13
escolhe o SN de niacutevel apropriado e a partir daiacute haacute sistematizaccedilatildeo com o modelo TR+ de
Gonzalez
Pretende-se por um lado ajudar e apoiar o usuaacuterio a melhor especificar sua query no
contexto real da sua busca por outro lado potencializa-se o tempo tanto na fase de indexaccedilatildeo
como na de busca e reduz-se o espaccedilo utilizado de memoacuteria para dados na base
11 Objetivos
111 Objetivo Geral
Descrever a partir da identificaccedilatildeo das possibilidades de ampliaccedilatildeo de siacutentese e de
sistematizaccedilatildeo das propostas de Kuramoto e de Gonzalez um novo modelo para um sistema
informatizado de suporte ao usuaacuterio na definiccedilatildeo da sua query de busca durante um processo
de recuperaccedilatildeo de informaccedilatildeo
112 Objetivos Especiacuteficos
a) Analisar as propostas citadas buscando a sua sistematizaccedilatildeo e identificaccedilatildeo de alternativas
de implementaccedilatildeo e ampliaccedilatildeo
b) Definir o modelo conceitual do sistema desejado atraveacutes da sua anaacutelise de domiacutenio
representando-o a partir dos seus diagramas de classes e de sequumlecircncia
c) Avaliar exploratoriamente o modelo desenhado a partir da construccedilatildeo de exemplos
demonstrativos das suas principais propriedades
12 Metodologia
Para a construccedilatildeo deste trabalho inicialmente foi realizada uma revisatildeo bibliograacutefica
a partir de livros artigos e outros materiais disponiacuteveis referentes ao assunto em questatildeo
fundamentalmente sobre a aacuterea de Recuperaccedilatildeo de Informaccedilatildeo A metodologia utilizada para
desenvolver este trabalho baseou-se no cronograma de etapas a serem desenvolvidas descritas
a seguir
14
a) Estudo e identificaccedilatildeo das diferentes alternativas e abordagens atualmente desenvolvidas
para a aacuterea de recuperaccedilatildeo de informaccedilotildees
b) Formulaccedilatildeo da proposta de trabalho definiccedilatildeo do escopo e da fundamentaccedilatildeo da proposta
c) Estudo das teorias de base para a construccedilatildeo do modelo teoria do Leacutexico Gerativo de
James Pustejovsky e o modelo de Kuramoto E apoacutes um estudo de Abrahatildeo e Gonzalez
d) Esboccedilo do modelo para o sistema proposto
e) Especificaccedilatildeo dos requisitos do sistema proposto
f) Construccedilatildeo da anaacutelise de domiacutenio definiccedilatildeo do modelo conceitual
g) Construccedilatildeo dos diagramas de classes e de sequumlecircncia para o modelo
h) Construccedilatildeo de exemplos de aplicaccedilatildeo do modelo
i) Anaacutelise e conclusotildees finais
13 Resultados Esperados e Limitaccedilotildees do Trabalho
A principal contribuiccedilatildeo deste trabalho reside no fato de sistematizar as teorias de
Kuramoto Pustejovsky e Gonzalez construindo um novo modelo que amplia as
potencialidades das propostas de Kuramoto e Gonzalez melhorando os resultados do processo
de recuperaccedilatildeo de informaccedilotildees Esta melhoria ocorre em relaccedilatildeo agrave diminuiccedilatildeo do tempo de
busca dos documentos e agrave relevacircncia dos resultados encontrados por meio da junccedilatildeo de
diferentes modelos para os processos de indexaccedilatildeo e busca
A princiacutepio o modelo construiacutedo eacute antevisto como aplicaacutevel a bases de documentos
natildeo distribuiacutedas e contidas a um determinado domiacutenio de aplicaccedilatildeo mas jaacute eacute possiacutevel
perceber formas de adaptaacute-lo expandindo-o para seu uso na Web
Este trabalho natildeo tem o intuito de gerar uma implementaccedilatildeo computacional
completa do modelo proposto propotildee-se antes a demonstrar a viabilidade desta
implementaccedilatildeo descrevendo os diagramas e as descriccedilotildees dos casos de uso e a sua
modelagem conceitual culminando a construccedilatildeo dos diagramas de classes e de sequumlecircncia A
anaacutelise das potencialidades e limitaccedilotildees do modelo deveraacute ser possiacutevel a partir da realizaccedilatildeo
de estudos de casos onde se determine a complexidade computacional da implementaccedilatildeo
requerida
15
14 Estrutura da Dissertaccedilatildeo
O trabalho apresenta um capiacutetulo introdutoacuterio que orienta os toacutepicos do projeto e o
desenvolvimento da pesquisa aleacutem de sintetizar os resultados que seratildeo explorados na
conclusatildeo
O Capiacutetulo 2 a seguir aborda temas e definiccedilotildees da aacuterea de RI mostrando a sua
histoacuteria e tambeacutem discute o funcionamento e as vantagens e desvantagens dos modelos
claacutessicos de RI
No Capiacutetulo 3 apresenta-se a fundamentaccedilatildeo teoacuterica desta dissertaccedilatildeo onde satildeo
abordados trecircs autores Primeiramente apresenta-se a Proposta de Kuramoto que se baseia nos
niacuteveis de Sintagmas Nominais sendo exposto o protoacutetipo de interaccedilatildeo entre usuaacuterio e maacutequina
desenvolvido por este autor Na Teoria do Leacutexico Gerativo de Pustejovsky deu-se ecircnfase agrave
apresentaccedilatildeo da Estrutura de Qualia pois eacute a que foi julgada mais adequada para a aplicaccedilatildeo
no modelo proposto apresenta-se tambeacutem uma anaacutelise do estudo de Abrahatildeo Por fim
discute-se e apresenta-se o trabalho de Gonzalez e do seu modelo TR+ que possibilitou
juntamente com a proposta de Kuramoto sistematizar a proposta desta dissertaccedilatildeo
No Capiacutetulo 4 eacute desenvolvida a proposta do sistema SINTR+ atraveacutes dos diagramas e
das descriccedilotildees dos casos de uso do modelo o modelo conceitual os diagramas de classes e de
sequumlecircncia juntamente com exemplos demonstrativos das suas propriedades
No Capiacutetulo 5 tecircm-se as conclusotildees referentes ao trabalho bem como as sugestotildees
para continuidade desse foco de pesquisa
O Capiacutetulo 6 apresenta as referecircncias bibliograacuteficas utilizadas para a realizaccedilatildeo deste
trabalho bem como a bibliografia consultada para a compreensatildeo de conceitos abordados na
dissertaccedilatildeo finalizando com os anexos
16
2 RECUPERACcedilAtildeO DE INFORMACcedilAtildeO
Neste capiacutetulo apresentam-se o histoacuterico e os modelos claacutessicos da aacuterea de
recuperaccedilatildeo de informaccedilatildeo O objetivo ao abordar esses toacutepicos eacute delinear uma visatildeo geral da
aacuterea a partir de diversos modelos de RI apontando algumas de suas principais vantagens e
desvantagens Dar-se-aacute destaque ao fato de que os algoritmos de relevacircncia utilizados para
recuperar os documentos desconsideram o contexto da query de busca
21 Histoacuterico
Em 1951 segundo Baeza-Yates e Ribeiro-Neto (1999) Calvin Mooers criou o termo
ldquoInformation Retrievalrdquo (Recuperaccedilatildeo de Informaccedilatildeo) e definiu os problemas a serem
abordados por esta nova aacuterea de pesquisa a qual despertou o interesse principalmente de
bibliotecaacuterios e ldquoexpertsrdquo da informaccedilatildeo
No contexto da Ciecircncia da Informaccedilatildeo segundo Ferneda (2003 p 14)
o termo ldquoRecuperaccedilatildeo de Informaccedilatildeordquo significa para uns a operaccedilatildeo pela qual se seleciona documentos a partir do acervo em funccedilatildeo da demanda do usuaacuterio Para outros ldquoRecuperaccedilatildeo de Informaccedilatildeordquo consiste no fornecimento a partir de uma demanda definida pelo usuaacuterio dos elementos de informaccedilatildeo documentaacuteria correspondentes O termo pode ainda ser empregado para designar a operaccedilatildeo que fornece uma resposta mais ou menos elaborada a uma demanda e esta resposta eacute convertida num produto cujo formato eacute acordado com o usuaacuterio (bibliografia nota de siacutentese etc) Haacute ainda autores que conceituam a recuperaccedilatildeo de informaccedilatildeo de forma muito mais ampla ao subordinar agrave mesma o tratamento da informaccedilatildeo (catalogaccedilatildeo indexaccedilatildeo classificaccedilatildeo)
Para alguns autores segundo Cardoso (2000) RI eacute dita como uma subaacuterea da Ciecircncia
da Computaccedilatildeo que estuda o armazenamento e a recuperaccedilatildeo automaacutetica de documentos que
satildeo objetos de dados geralmente textos Para Baeza-Yates e Ribeiro-Neto (1999) o termo
ldquoRecuperaccedilatildeo de Informaccedilatildeordquo trata da representaccedilatildeo do armazenamento da organizaccedilatildeo e do
acesso aos itens da informaccedilatildeo
De acordo com Ferneda (2003) foi a partir dos experimentos de Hans Peter Luhn
(Engenheiro pesquisador da IBM) na indexaccedilatildeo automaacutetica e na elaboraccedilatildeo automaacutetica de
resumos que surgiram os primeiros resultados significativos no tratamento computacional da
informaccedilatildeo Com isto ldquoLuhn foi durante vaacuterios anos o criador de inuacutemeros projetos que
visavam modificar radicalmente meacutetodos tradicionais de armazenamento tratamento e
17
recuperaccedilatildeo de informaccedilatildeo Em 1961 jaacute acumulava cerca de 80 patentes nos Estados Unidosrdquo
(FERNEDA 2003 p 10-11) Estes dados mostram a importacircncia de Luhn no tratamento da
recuperaccedilatildeo de informaccedilotildees
Em 1960 segundo Ferneda (2003) foi desenvolvido os princiacutepios baacutesicos do modelo
probabiliacutestico para a Recuperaccedilatildeo de Informaccedilatildeo por Maron e Kuhns que foi mais tarde
definido por Robertson e Jones (1976) A deacutecada de 60 foi fundamental em experimentos
desta natureza ldquoem meados dos anos 60 inicia-se uma longa seacuterie de experimentos que
constitui um marco na Recuperaccedilatildeo de Informaccedilatildeo o projeto SMARTrdquo (FERNEDA 2003
p11) Este autor destaca que este projeto foi desenvolvido por Gerard Salton que se
especializou na pesquisa destas evoluccedilotildees na recuperaccedilatildeo de informaccedilotildees produzindo
inuacutemeros artigos cientiacuteficos um modelo de recuperaccedilatildeo de informaccedilatildeo a criaccedilatildeo e o
aprimoramento de diversas teacutecnicas computacionais aleacutem de o sistema SMART
Estes sistemas de recuperaccedilatildeo de informaccedilatildeo geralmente se baseiam na contagem de
frequumlecircncia das palavras do texto e na eliminaccedilatildeo de palavras reconhecidamente de pouca
relevacircncia (FERNEDA 2003) Um exemplo disso satildeo os meacutetodos automaacuteticos de indexaccedilatildeo
de recuperaccedilatildeo de informaccedilatildeo que utilizam ldquofiltrosrdquo para eliminar palavras de pouca
significaccedilatildeo (stopwords4 e noun groups5) aleacutem de normalizar os termos reduzindo-os a seus
radicais Esse processo eacute conhecido como stemming6
Ferneda evidencia que os trabalhos de Luhn e Salton inicialmente natildeo se
preocupavam com a anaacutelise semacircntica das palavras e que seus estudos colaboraram para com
a evoluccedilatildeo atual das pesquisas
Nos trabalhos de Luhn e Salton observa-se inicialmente uma crenccedila de que meacutetodos puramente estatiacutesticos seriam suficientes para tratar os problemas relacionados agrave recuperaccedilatildeo de informaccedilatildeo Poreacutem no transcorrer de suas pesquisas percebe-se uma busca por meacutetodos de anaacutelise semacircntica mais sofisticada Desde os seus primeiros trabalhos Salton se mostra interessado pela utilizaccedilatildeo de processos de tratamento da linguagem natural na recuperaccedilatildeo de informaccedilatildeo Em livro de 1983 Salton e McGill apresentam em um capiacutetulo intitulado Future directions in Information Retrieval a aplicaccedilatildeo do processamento da linguagem natural e da loacutegica fuzzy na recuperaccedilatildeo de informaccedilatildeo apontando a direccedilatildeo de futuras pesquisas para a Inteligecircncia Artificial (FERNEDA 2003 p 12)
Estas contribuiccedilotildees tecircm suas principais ideacuteias presentes ainda na maioria dos
sistemas de recuperaccedilatildeo atuais e nos mecanismos de busca da Web Como aparece na estrutura
de componentes de um sistema de recuperaccedilatildeo de informaccedilatildeo que seguem geralmente um
modelo de funcionamento como demonstrado por Cardoso (2000)
4 Stop Words eliminaccedilatildeo de artigos e conectivos 5 Noun Groups eliminaccedilatildeo de adjetivos adveacuterbios e verbos 6 Stemming reduccedilatildeo de uma palavra ao seu radical Exemplo Engineering Engineer
18
Figura 1 Componentes de um Sistema de Recuperaccedilatildeo de Informaccedilatildeo Fonte GEY apud CARDOSO 2000
22 Modelos Claacutessicos de Recuperaccedilatildeo de Informaccedilatildeo
221 Modelo Booleano
A aacutelgebra booleana eacute um sistema binaacuterio no qual existem somente dois valores
possiacuteveis para qualquer siacutembolo algeacutebrico ldquoverdadeirordquo ou ldquofalsordquo O modelo booleano eacute um
modelo de recuperaccedilatildeo simples baseado na teoria dos conjuntos e na aacutelgebra booleana Aleacutem
disso as querys satildeo especificadas atraveacutes de expressotildees booleanas que tecircm semacircnticas
precisa
Segundo Baeza-Yates e Ribeiro-Neto (1999) e Gonzalez (2000) a simplicidade e o
formalismo claro do modelo booleano recebiam grande atenccedilatildeo nos anos passados sendo
adotados por muitos sistemas comerciais bibliograacuteficos
A estrateacutegia de recuperaccedilatildeo desse modelo eacute baseada em um criteacuterio de decisatildeo
binaacuteria por exemplo um documento pode ser relevante ou natildeo relevante sem noccedilatildeo de escala
de classificaccedilatildeo que previna um bom desempenho na recuperaccedilatildeo Deste modo o modelo
booleano eacute na verdade muito mais um modelo de recuperaccedilatildeo de dados (em vez de
informaccedilatildeo)
19
Aleacutem disso conforme Baeza-Yates e Ribeiro-Neto (1999) enquanto expressotildees
booleanas tecircm semacircnticas precisas frequumlentemente natildeo eacute simples traduzir uma informaccedilatildeo
precisa dentro de uma expressatildeo booleana O modelo booleano prediz que cada documento eacute
relevante ou irrelevante Natildeo existe noccedilatildeo de um resultado (matching) parcial para as
condiccedilotildees da query
As principais vantagens do modelo booleano satildeo o formalismo claro oculto sobre o
modelo e sua simplicidade As principais desvantagens encontram-se no resultado exato que
pode recuperar poucos ou muitos documentos
Figura 2 Exemplo dos trecircs componentes conjuntivos para query Fonte BAEZA-YATES RIBEIRO-NETO 1999
2211 Operadores Booleanos
Os operadores booleanos funcionam atraveacutes de uma expressatildeo booleana para
formulaccedilatildeo de buscas Isto ocorre por meio de operadores loacutegicos AND OR e NOT (E OU e
NAtildeO) Conforme exemplo de Ferneda (2003) a recuperaccedilatildeo de informaccedilatildeo se daraacute em uma
expressatildeo conjuntiva de enunciado t1 AND t2 que recuperaraacute documentos indexados por
ambos os termos (t1 e t2) Isso equivale e permite aparecer agrave intersecccedilatildeo do conjunto dos
documentos indexados pelo termo t1 com o conjunto dos documentos indexados pelo termo
t2
Figura 3 Representaccedilatildeo do resultado de uma expressatildeo booleana conjuntiva (AND) Fonte FERNEDA 2003
20
O autor demonstra que uma expressatildeo disjuntiva t1 OR t2 recuperaraacute o conjunto dos
documentos indexados pelo termo t1 ou pelo termo t2 Isto equivale e possibilita agrave uniatildeo entre
o conjunto dos documentos indexados pelo termo t1 e o conjunto dos documentos indexados
pelo termo t2 (FERNEDA 2003)
Figura 4 Resultado de uma busca booleana disjuntiva (OR) Fonte FERNEDA 2003
2212 Operadores de Proximidade
No modelo booleano existem os operadores de proximidade que permitem
especificar condiccedilotildees relacionadas agrave distacircncia e agrave posiccedilatildeo dos termos no texto Um operador
de proximidade bastante comum nos sistemas de RI e nos mecanismos de busca da Web eacute o
operador ADJ (FERNEDA 2003) Esse operador permite pesquisar duas palavras adjacentes
no texto de um documento na ordem especificada na expressatildeo de busca por exemplo a
expressatildeo recuperaccedilatildeo ADJ informaccedilatildeo teraacute como resultado os documentos que tiverem a
palavra ldquorecuperaccedilatildeordquo seguida da palavra ldquoinformaccedilatildeordquo ou seja recuperaraacute documentos que
contecircm a expressatildeo ldquorecuperaccedilatildeo informaccedilatildeordquo Tambeacutem pode ser utilizado um termo
composto delimitando as suas palavras com aspas por exemplo ldquorecuperaccedilatildeo de
informaccedilatildeordquo
O modelo booleano de acordo com Ferneda (2003) possui limitaccedilotildees que o torna
pouco atrativo satildeo elas
bull O resultado de uma busca booleana se caracteriza por dois subconjuntos os que
atendem agrave expressatildeo de busca e aqueles que natildeo atendem Presume-se que todos
os documentos recuperados satildeo de igual utilidade para o usuaacuterio Natildeo haacute nenhum
mecanismo pelos quais os documentos possam ser ordenados
bull O usuaacuterio leigo se natildeo tiver um treinamento apropriado formularaacute somente
buscas simples Para buscas com expressotildees mais complexas eacute necessaacuterio um
conhecimento da loacutegica booleana
21
bull Natildeo existe uma forma de atribuir importacircncia relativa aos diferentes termos da
expressatildeo booleana Assume-se implicitamente que todos os termos tecircm o mesmo
peso
222 Modelo Vetorial
O modelo vetorial segundo Baeza-Yates e Ribeiro-Neto (1999) reconhece que o uso
de pesos binaacuterios eacute tambeacutem limitante e propotildee uma estrutura em que eacute possiacutevel a resposta
(matching) parcial Isto eacute feito atribuindo-se pesos natildeo binaacuterios aos termos indexados em
querys e em documentos Esses pesos de termos satildeo enfim utilizados para calcular o grau de
similaridade entre cada documento armazenado no sistema e a expressatildeo de busca formulada
pelo usuaacuterio (querys) Como a classificaccedilatildeo dos documentos recuperados eacute feita em ordem
decrescente desse grau de similaridade o modelo vetorial leva em consideraccedilatildeo documentos
que se igualem aos termos de querys somente parcialmente
O modelo vetorial de acordo com Cardoso (2000) e Gonzalez (2000) representa
documentos e consultas como vetores de termos Os termos satildeo ocorrecircncias uacutenicas nos
documentos Os documentos retornados como resultado para uma consulta satildeo representados
similarmente isto quer dizer que o vetor resultado para uma consulta eacute montado atraveacutes de um
caacutelculo de similaridade Aos termos das consultas e dos documentos satildeo atribuiacutedos pesos que
especificam o tamanho e a direccedilatildeo de seu vetor de representaccedilatildeo O acircngulo formado por esses
vetores determina a proximidade da ocorrecircncia E o caacutelculo da similaridade eacute baseado no
acircngulo entre os vetores que representam o documento e a consulta
Cardoso (2000) descreve ainda que os pesos quantificam a relevacircncia de cada termo
para as consultas (Wiq) e para os documentos (Wid) no espaccedilo vetorial Segundo Cardoso
(2000 p 03) ldquopara o caacutelculo dos pesos Wiq e Wid utiliza-se uma teacutecnica que faz o
balanceamento entre as caracteriacutesticas do documento utilizando o conceito de frequumlecircncia de
um termo num documentordquo Desta forma se uma coleccedilatildeo possui N documentos e teremos o nti
que eacute a quantidade de documentos que possuem o termo ti com isto o inverso da frequumlecircncia
do termo na coleccedilatildeo ou idf (inverse documento frequency) eacute dado pela foacutermula de Cardoso
(2000) abaixo
idfi = log (Nni)
22
Esse valor eacute possiacutevel usando a foacutermula para calcular o peso Wid = freq(tid) x idfi
que eacute o produto da frequumlecircncia do termo no documento pelo inverso da frequumlecircncia do termo na
coleccedilatildeo
No modelo vetorial um documento eacute representado por um vetor em que cada
elemento representa o peso ou a relevacircncia do respectivo termo de indexaccedilatildeo para o
documento Cada elemento do vetor (peso) eacute normalizado de forma a assumir valores entre
zero e um Os pesos mais proacuteximos de um (1) indicam termos com maior importacircncia para a
descriccedilatildeo do documento E termos que natildeo estatildeo presentes em um determinado documento
possuem peso igual a zero
Da mesma forma que os documentos no modelo vetorial uma expressatildeo de busca
conforme Baeza-Yates e Ribeiro-Neto (1999) tambeacutem eacute representada por um vetor numeacuterico
em que cada elemento representa a importacircncia (peso) do respectivo termo na expressatildeo de
busca
Diversos documentos e termos de indexaccedilatildeo podem ser representados atraveacutes de uma
matriz na qual cada linha representa um documento e cada coluna representa a associaccedilatildeo de
um determinado termo aos vaacuterios documentos
Figura 5 O co-seno do acircngulo adaptado como similar (dj q) Fonte BAEZA-YATES RIBEIRO-NETO 1999
Um exemplo de uso do modelo vetorial eacute o sistema SMART7 citado anteriormente
este sistema representa por valor numeacuterico cada documento e seu respectivo termo na
descriccedilatildeo do documento Segundo Ferneda (2003) o sistema SMART fornece um meacutetodo
automaacutetico que trata aleacutem do caacutelculo dos pesos dos vetores que representam os documentos
tambeacutem trata os vetores das expressotildees de busca
As principais vantagens do modelo vetorial segundo Baeza-Yates e Ribeiro-Neto
(1999) satildeo (1) esquema de pesos de termos melhora o desempenho da recuperaccedilatildeo (2)
estrateacutegias de resposta (matching) parcial permitem a recuperaccedilatildeo de documentos que se
aproximem de condiccedilotildees de query e (3) foacutermula de classificaccedilatildeo do co-seno ordena os
documentos de acordo com o grau de similaridade da query A desvantagem desse modelo de
23
acordo com os autores diz respeito agraves dependecircncias de termos prejudicando especialmente o
desempenho
Cardoso (2000) considera como principais vantagens do modelo vetorial a sua
simplicidade a facilidade de se computarem similaridades com eficiecircncia e o fato de que se
comporta bem com coleccedilotildees geneacutericas
223 Modelo Probabiliacutestico
O modelo probabiliacutestico foi introduzido de acordo com Baeza-Yates e Ribeiro-Neto
(1999) em 1976 por Roberston e Sparck Jones que mais tarde tornou-se como o modelo
Binary Independence Retrieval (BIR)
Na Matemaacutetica a teoria das probabilidades estuda os experimentos aleatoacuterios que
conforme Ferneda (2003 p 35) repetidos em condiccedilotildees idecircnticas podem apresentar resultados diferentes e imprevisiacuteveis Isso ocorre por exemplo quando se observa a face superior de um dado apoacutes o seu lanccedilamento ou quando se verifica o naipe de uma carta retirada de um baralho Por apresentarem resultados imprevisiacuteveis eacute possiacutevel apenas estimar a possibilidade ou a chance de um determinado evento ocorrer Para descrever matematicamente um experimento aleatoacuterio eacute necessaacuterio inicialmente identificar o conjunto de todos os seus possiacuteveis resultados A este conjunto daacute-se o nome de espaccedilo amostral
Entendendo-se uma busca como um experimento aleatoacuterio segundo Robertson e
Jones eacute possiacutevel descrever o seu espaccedilo amostral como composto de quatro possibilidades
pois dada uma expressatildeo de busca pode-se dividir a base de documentos em quatro
subconjuntos distintos o conjunto dos documentos relevantes (Rel) o conjunto dos
documentos recuperados (Rec) o conjunto dos documentos relevantes e recuperados (RR) e o
conjunto dos documentos natildeo relevantes e natildeo recuperados O conjunto dos documentos
relevantes e recuperados (RR) eacute resultante da intersecccedilatildeo dos conjuntos Rel e Rec
(FERNEDA 2003)
O conjunto de documentos resultantes da primeira busca eacute ordenado atraveacutes de uma
forma de ordenaccedilatildeo padratildeo tradicional Tendo esse conjunto de documentos o usuaacuterio
seleciona alguns deles que considera relevantes para a sua necessidade O sistema utiliza essa
informaccedilatildeo para tentar melhorar os resultados subsequumlentes
A principal virtude do modelo probabiliacutestico estaacute em reconhecer que a atribuiccedilatildeo de
relevacircncia eacute uma tarefa do usuaacuterio Eacute o uacutenico modelo que segundo Baeza-Yates e Ribeiro-
7 SMART (Sistem for the Manipulation and Retrieval of Text)
24
Neto (1999) e Gonzalez (2000) incorpora explicitamente o processo de Relevance Feedback
como base para a sua operacionalizaccedilatildeo
Uma simplificaccedilatildeo bastante questionaacutevel estaacute no fato de o modelo considerar os
pesos dos termos de indexaccedilatildeo como sendo binaacuterios ou seja no modelo probabiliacutestico natildeo eacute
considerada a frequumlecircncia com que os termos ocorrem no texto dos documentos
Em geral os modelos de RI desconsideram o contexto das palavras informadas pelo
usuaacuterio por isso tendem a retornar poucos documentos relevantes em uma consulta Para isso
pretende-se mostrar no capiacutetulo seguinte com a ajuda da Linguumliacutestica possiacuteveis abordagens
que podem apoiar o usuaacuterio considerando o seu contexto de busca e listando documentos
relevantes
25
3 FUNDAMENTACcedilAtildeO TEacuteORICA
Neste capiacutetulo buscou-se apresentar uma siacutentese dos trabalhos que datildeo base ao
modelo apresentado nesta dissertaccedilatildeo Satildeo eles a Proposta de Kuramoto a Teoria do Leacutexico
Gerativo e o Modelo de Gonzalez A Proposta de Kuramoto baseia-se em uma hierarquizaccedilatildeo
em niacuteveis de Sintagmas Nominais Na Teoria do Leacutexico Gerativo de Pustejovsky mostram-se
as estruturas compostas e deu-se destaque agrave Estrutura de Qualia julgada mais adequada para a
aplicaccedilatildeo no trabalho proposto Analisou-se o estudo de Abrahatildeo a partir de Pustejovsky A
terceira teoria de Gonzalez apresenta uma proposta automatizada com o modelo TR+
31 A Proposta de Kuramoto
Neste capiacutetulo apresentam-se os conceitos e as caracteriacutesticas da proposta de
Kuramoto que se baseia na determinaccedilatildeo de Sintagmas Nominais (SN) de uma query A sua
proposta preocupa-se em buscar os SN uma vez que satildeo considerados como importante
elemento de uma frase sendo entendidos como o nuacutecleo significativo (cerne) de uma oraccedilatildeo
Em sua tese de doutorado Kuramoto relata que todo o trabalho de reconhecimento e
extraccedilatildeo de SN dos documentos foi realizado de forma natildeo automatizada Isto auxiliou na
elaboraccedilatildeo de um modelo para reconhecimento extraccedilatildeo e indexaccedilatildeo de SN inseridos na
amostra do protoacutetipo desenvolvido
O modelo proposto por Kuramoto refere-se ao aproveitamento dos SN organizado
hierarquicamente em ldquoaacutervoresrdquo criando um novo conceito de indexaccedilatildeo que pode introduzir
inovaccedilatildeo em termos de uma interface de busca
Esse modelo de interface de acordo com Kuramoto (2002) permitiria que o usuaacuterio
navegasse no conjunto de SN ateacute encontrar o que melhor atendesse agrave sua necessidade de
informaccedilatildeo Somente apoacutes esse procedimento o usuaacuterio teria entatildeo acesso aos documentos de
onde foram extraiacutedos os SN Tal processo proporcionaria ao usuaacuterio um maior conhecimento
sobre a base de dados que estaacute sendo consultada uma vez que lhe permitiria reconhecer a
estrutura de sintagmas nominais presentes nos documentos pertencentes ao sistema
Os processos de indexaccedilatildeo automaacutetica utilizados em modelos de RI segundo Michel
Le Guern (1984 apud KURAMOTO 1995) deveriam extrair dos documentos informaccedilotildees
26
que facilitassem a recuperaccedilatildeo para o usuaacuterio e natildeo siacutembolos sem referecircncia como considera
que satildeo as palavras
Para Silva e Koch (1993) toda frase de uma liacutengua constitui uma organizaccedilatildeo ou
seja uma combinaccedilatildeo de elementos linguumliacutesticos agrupados conforme certos princiacutepios que a
caracterizam como uma estrutura Para Baeza-Yates e Ribeiro-Neto (1999) grande parte da
semacircntica do documento ou da requisiccedilatildeo do usuaacuterio eacute perdida quando se substitui o texto
completo por um conjunto de palavras
Aparentemente um conjunto de frases de nossa liacutengua de acordo com Silva e Koch
(1993) tem pouco em comum variando quanto agrave extensatildeo ao sentido agraves palavras de que se
compotildeem e agrave ordem em que essas se apresentam Apesar da aparente diversidade as frases
possuem uma organizaccedilatildeo interna que segue princiacutepios gerais bem definidos de modo que o
falante seraacute capaz de dizer se uma sequumlecircncia de palavras a) se estaacute de acordo com o sistema
gramatical da liacutengua b) se se apresenta completa ou incompleta c) se eacute passiacutevel de
interpretaccedilatildeo semacircntica
Conforme Silva e Koch (apud ABREU et al 2004 p03) ldquoo sintagma consiste num
conjunto de elementos que constituem uma unidade significativa dentro da oraccedilatildeo e que
mantecircm entre si relaccedilotildees de dependecircncia e de ordemrdquo As palavras se combinam em conjuntos
em torno de um nuacutecleo Esses conjuntos os sintagmas desempenham uma funccedilatildeo no conjunto
maior que eacute a frase Para Liberato (apud PARREIRAS 2003) o SN eacute a parte do enunciado
que representa um conceito ou referente
Assim por exemplo nos conjuntos de sintagmas ndash David o estudante a menina
doente e minha filha ndash o nuacutecleo eacute um elemento nominal (nome ou pronome) tratando-se
portanto de sintagmas nominais Nos conjuntos ndash viajou de carro dormiu e levaraacute a
encomenda ndash o elemento fundamental eacute o verbo de modo que se tecircm nesses casos sintagmas
verbais
A natureza do sintagma depende portanto do tipo de elemento que constitui o seu
nuacutecleo aleacutem do sintagma nominal (SN) e do sintagma verbal (SV) existem os sintagmas
adjetivais (SA) que tecircm por nuacutecleo um adjetivo e os sintagmas preposicionais (SP) formados
normalmente de preposiccedilatildeo mais sintagma nominal (SILVA KOCH 1993)
Na estrutura da oraccedilatildeo em sua forma de base aparecem como constituintes
obrigatoacuterios o SN e o SV Por exemplo Os garotos (SN) empinavam papagaios de papel
(SV) Pode-se dizer que as regras baacutesicas de estrutura frasal satildeo as seguintes O = SN + SV
(SP) (o elemento O significa Oraccedilatildeo)
27
311 Extraccedilatildeo dos Sintagmas Nominais
O trabalho de Kuramoto compreendeu o desenvolvimento de um protoacutetipo de
interface de busca utilizando os sintagmas nominais como forma de acesso agrave informaccedilatildeo Para
testar esse protoacutetipo foram examinados e extraiacutedos segundo Kuramoto (2002) cerca de 8800
sintagmas nominais de uma amostra de 15 artigos selecionados aleatoriamente da revista
Ciecircncia da Informaccedilatildeo
Kuramoto (1995 p 6) relata que a extraccedilatildeo dos sintagmas nominais foi realizada de forma manual simulando uma extraccedilatildeo automaacutetica Este procedimento foi adotado em funccedilatildeo da natildeo-existecircncia ainda de um sistema de extraccedilatildeo automaacutetica de SN em acervos contendo documentos em Liacutengua Portuguesa
Como os SN nem sempre se apresentam de forma clara Kuramoto aponta a
ocorrecircncia normal em todo texto em linguagem natural de anaacuteforas8 e de elipses9 que
dificultou a identificaccedilatildeo dos SN Essas dificuldades segundo Kuramoto (1995) aumentam
em um processo automatizado Algumas das dificuldades encontradas por Kuramoto no
procedimento de extraccedilatildeo dos SN satildeo descritas a seguir
a) SN escondidos em frases com fatoraccedilatildeo
Para Kuramoto (1995 p 06) as ldquofrases com fatoraccedilatildeo satildeo aquelas que contecircm uma
sequumlecircncia de palavras que precedem um outro conjunto de palavras coordenadas pelas
conjunccedilotildees eou por exemplo o processo de negociaccedilatildeo dos setores privado e puacuteblicordquo
Percebe-se nesse exemplo que o SN de niacutevel 1 compreende tanto os setores privado
e puacuteblico visto que a referecircncia dos dois adjetivos estaacute contida na palavra em plural ldquosetoresrdquo
Existem outros exemplos de frases com fatoraccedilatildeo nas quais as palavras coordenadas aparecem
entre parecircnteses significando um complemento combinatoacuterio do termo ou da frase que
precede o parecircntese por exemplo profundas transformaccedilotildees (poliacuteticas econocircmicas
sociais tecnoloacutegicas)
b) Artigo Zero
8 Em Linguumliacutestica segundo Ducrot e Todorov (1972 apud KURAMOTO 1995) um segmento do discurso eacute dito anafoacuterico quando para interpretaacute-lo (inclusive do ponto de vista literaacuterio) for necessaacuterio se reportar a um outro segmento do mesmo discurso 9 A figura de sintaxe ldquoelipserdquo eacute definida por Cunha e Cintra (1991 apud KURAMOTO 1995) como sendo a omissatildeo de um termo que o contexto ou a situaccedilatildeo permitem facilmente suprimir
28
Um outro fator de dificuldade na extraccedilatildeo dos SN eacute a frequumlente ausecircncia de
determinantes10 na liacutengua portuguesa diferente da liacutengua francesa na qual satildeo raros os SN
com ausecircncia de um determinante Motivo pelos quais algumas regras estabelecidas para a
liacutengua francesa natildeo foram utilizadas De acordo com Kuramoto (1995 p 7) ldquono
procedimento de extraccedilatildeo dos SN constatou-se que 2889 dos SN natildeo eram precedidos de
qualquer determinante Em uma amostra de 6010 SN 1736 SN natildeo satildeo precedidos por
nenhum determinanterdquo Estes nuacutemeros demonstram que o modelo necessaacuterio deve considerar
este fator
c) Caacutelculo das anaacuteforas
Quando uma entidade eacute referenciada pela primeira vez em um texto segundo
Gasperin Goulart e Vieira (2003) a expressatildeo que a descreve eacute dita nova no discurso
Quando tal entidade eacute retomada no texto a expressatildeo que a descreve eacute dita anafoacuterica sendo
considerado o seu antecedente a expressatildeo anterior correferente
Para Kuramoto (1995 p 7-8) ldquoos elementos anafoacutericos em portuguecircs aparecem
frequumlentemente mediante partiacuteculas como os pronomesrdquo No entanto na proposta do autor
natildeo foi possiacutevel resolver dois casos de anaacuteforas
Um primeiro caso de anaacutefora ocorre nas palavras sem fonte expliacutecita no texto tais
como ldquonesse sentidordquo (em que sentido) ldquonossa experiecircnciardquo (de quem do autor dos
teacutecnicos de informaccedilatildeo) etc Como a interpretaccedilatildeo das ideacuteias estaacute contida no documento natildeo
fica evidente a soluccedilatildeo desse tipo de anaacutefora
O segundo caso eacute constituiacutedo de termos cujas fontes se encontram como por exemplo
na histoacuteria dos acontecimentos como ldquoesse periacuteodo preacute-industrial esse sistema de
comunicaccedilatildeordquo etc Por este motivo os SN foram extraiacutedos da mesma forma como se
encontravam no texto
d) Caacutelculo das elipses
Outra questatildeo que necessita um entendimento do contexto de uma frase eacute o problema
ligado a este tipo de figura de sintaxe Visto que depende da capacidade de percepccedilatildeo da falta
de alguma palavra no contexto de uma frase Segundo Kuramoto (1995) eacute preciso para
identificaacute-la analisar natildeo somente as frases precedentes mas tambeacutem as frases seguintes
Como neste exemplo ldquouma visatildeo de longo prazo que assegure natildeo soacute a sobrevivecircncia ()
10 Segundo Silva e Koch (1993) o determinante quando simples eacute representado por um artigo numeral ou pronome adjetivo
29
como tambeacutem o crescimento da organizaccedilatildeordquo Que promove o questionamento de ldquoqual o
complemento do termo lsquosobrevivecircnciarsquo lsquoSobrevivecircnciarsquo de quemrdquo A soluccedilatildeo encontrada
poderia estar na frase seguinte ldquoo crescimento da organizaccedilatildeordquo
Para promover a extraccedilatildeo completa da frase o SN seria ldquouma visatildeo de longo prazo
que assegure natildeo soacute a sobrevivecircncia da organizaccedilatildeo como tambeacutem o crescimento da
organizaccedilatildeordquo
3111 Extraccedilatildeo Automaacutetica de Sintagmas Nominais
A extraccedilatildeo automaacutetica de SN eacute considerada importante para a aacuterea de RI pois
segundo Chishman et al (2000) agiliza este processo e gera um percentual baixo de erros Jaacute
foi desenvolvido um extrator automaacutetico de sintagmas nominais para a liacutengua portuguesa no
acircmbito do projeto VISL chamado ldquoPalavrasrdquo11 que vem sendo usado pelo grupo de pesquisa
da UNISINOS
Segundo Abreu Goulart e Vieira (2004) para obter a anaacutelise das sentenccedilas dos
textos utiliza-se o analisador sintaacutetico ldquoPalavrasrdquo que eacute considerada uma ferramenta robusta
para a anaacutelise sintaacutetica do portuguecircs
A partir da saiacuteda do analisador sintaacutetico segundo Gasperin Goulart e Vieira (2003)
a ferramenta ldquoXtractorrdquo gera trecircs arquivos XML O primeiro eacute o arquivo de palavras o
segundo inclui as categorias morfossintaacuteticas e o terceiro eacute o arquivo com as estruturas
sintaacuteticas das sentenccedilas
Assim apoacutes todo esse processo eacute possiacutevel extrair de modo automaacutetico os sintagmas
nominais das sentenccedilas de um texto ressaltando-se que estes natildeo estatildeo ainda organizados
segundo a estrutura de niacuteveis que propotildee Kuramoto
312 A determinaccedilatildeo de uma estrutura para os SN
A essecircncia da proposta de Kuramoto (1995) reside na percepccedilatildeo que o autor teve de
que os SN organizam-se naturalmente numa estrutura de niacuteveis encadeados Kuramoto
percebeu nessa organizaccedilatildeo em niacuteveis um caminho para propiciar ao usuaacuterio mais facilidade
11 O analisador Palavras faz parte de um grupo de analisadores sintaacuteticos (softwares) do projeto VISL - Visual Interactive Sintax Learning do Institute of Language and Communication da University of Southern Denmark Disponiacutevel em lthttpvislsdudkvislptparsingautomaticgt (ABREU GOULART VIEIRA 2004)
30
no uso de um SRI levando tambeacutem a resultados mais precisos Para compreender a estrutura
proposta pelo autor apresenta-se a seguir o exemplo usado pelo proacuteprio Kuramoto
As Caracteriacutesticas do Meio Ambiente do Mundo dos Negoacutecios SN1 os negoacutecios SN2 o mundo dos negoacutecios SN3 o meio ambiente do mundo dos negoacutecios SN4 as caracteriacutesticas do meio ambiente do mundo dos negoacutecios
Figura 6 Exemplo da estrutura de niacuteveis de Sintagmas Nominais Fonte KURAMOTO 1995
Esse exemplo mostra o potencial da estrutura de relaccedilotildees de encadeamento de um
conjunto de SN Para o autor a anaacutelise do sintagma nominal no exemplo permitiu a extraccedilatildeo do SN ndash o meio ambiente do mundo dos negoacutecios A partir desse SN pode-se visualizar um outro SN embutido ndash o mundo dos negoacutecios ndash que por sua vez possui um quarto SN ndash os negoacutecios ndash que representa o niacutevel mais inferior12 Percebe-se nesse exemplo a existecircncia de quatro SN encadeados que enumerados em ordem crescente (do SN mais simples ao mais complexo) levam agrave classificaccedilatildeo do SN original como sendo de niacutevel 4 (KURAMOTO 1995 p04)
Com base nessas caracteriacutesticas apresentadas por Kuramoto (1995) os SN podem ser
organizados sob uma estrutura de aacutervore Esta estrutura possibilita que o Sistema de
Recuperaccedilatildeo de Informaccedilatildeo (SRI) possa atender agraves necessidades de consultas do usuaacuterio
Para atender esta demanda eacute preciso fornecer um centro de SN de seu interesse (como o
exemplo do autor ldquonegoacuteciosrdquo)
Para isso apresentam-se todos os SN1 relativos a essa busca inclusive o SN ldquoos
negoacuteciosrdquo A partir da lista encontrada de SN1 o usuaacuterio poderaacute restringir o seu perfil de
busca escolhendo um SN1 por exemplo ldquoos negoacuteciosrdquo e solicitar os SN2 relacionados a esse
SN1 O SRI apresenta todos os SN2 inclusive o SN ldquoo mundo dos negoacuteciosrdquo e assim
sucessivamente (KURAMOTO 1995)
Este autor afirma que esta passagem por vaacuterios niacuteveis promove um refinamento no
processo O processo de refinamento eacute realizado por meio da passagem pelos vaacuterios niacuteveis de uma estrutura arborescente de SN13 dado que o SN vai se tornando mais especiacutefico
12 Segundo Kuramoto (1995) os sintagmas nominais agrave medida que satildeo extraiacutedos de um outro SN satildeo classificados por niacuteveis Assim o sintagma mais simples eacute denominado SN de niacutevel 1 Constitui SN de niacutevel 2 aquele a partir do qual foi extraiacutedo o de niacutevel 1 e assim sucessivamente 13 Constatou-se empiricamente utilizando a maquete desenvolvida nesta experimentaccedilatildeo de acordo com Kuramoto (1995) que a quantidade de SN de segundo niacutevel em relaccedilatildeo a um dado SN de primeiro niacutevel pode ser maior que o total de SN de primeiro niacutevel Por exemplo a resposta agrave demanda do centro de SN ldquoinformaccedilatildeordquo foi de 122 SN de primeiro niacutevel e a resposta agrave demanda do SN de primeiro niacutevel ldquoa informaccedilatildeordquo foi de 172 SN de segundo niacutevel Por outro lado verificou-se que
31
agrave medida que se atingem os niacuteveis mais elevados da estrutura Ao percorrecirc-la o usuaacuterio estaacute na realidade delimitando ou melhor qualificando a sua necessidade de informaccedilatildeo Cabe portanto ao usuaacuterio identificar o niacutevel em que as suas necessidades de informaccedilatildeo seratildeo atendidas (KURAMOTO 1995 p 04-05)
Esta possibilidade de hierarquia permite uma interaccedilatildeo entre o usuaacuterio e maacutequina e
uma escolha individual de refinamento
313 Protoacutetipo Desenho da Interface de Busca
A Figura 7 descreve de maneira esquemaacutetica a interaccedilatildeo entre o usuaacuterio e o protoacutetipo
de Kuramoto (1995)
O protoacutetipo viabiliza a primeira interaccedilatildeo pois haacute uma tela em que permite ao
usuaacuterio fazer a sua solicitaccedilatildeo de informaccedilatildeo fornecendo uma palavra (centro de SN1) A
partir dessa palavra surgem outras interaccedilotildees como mostra o esquema de Kuramoto (1995) na
Figura 7 que ocorrem nas accedilotildees abaixo
Figura 7 Procedimentos de interaccedilatildeo usuaacuteriominusprotoacutetipo Fonte KURAMOTO 1995
o SN ldquoa informaccedilatildeordquo indexava 15 documentos na base enquanto o SN de segundo niacutevel ldquoa anaacutelise da informaccedilatildeordquo indexava apenas 1 (um) documento Confirma-se nesse exemplo que a passagem de um dado niacutevel a um superior na aacutervore de SN proporciona maior refinamento no processo de seleccedilatildeo dos documentos
32
314 Organizaccedilatildeo dos Sintagmas Nominais como Estrutura de Busca
Na proposta de Kuramoto (1995) foram desenvolvidas as seguintes estruturas de busca
Figura 8 Estrutura de dados para acessar os Sintagmas Nominais de primeiro niacutevel a partir de uma palavra Fonte KURAMOTO 1995
Kuramoto (1995) mostra na Figura 8 a associaccedilatildeo das tabelas Palavras CS-SN1 e
SN1 Cada dado tem nomes dos elementos que estatildeo sublinhados e representam as chaves de
cada tabela Na tabela Palavras observa-se que o autor agrupa todas as palavras (centro) que
representam os centros de SN1 Haacute uma atribuiccedilatildeo de coacutedigo para cada ldquocentrordquo chamado
ldquocoacutedigo crdquo A tabela CS-SN1 eacute uma tabela de associaccedilatildeo dos coacutedigos dos centros de SN1 com
os coacutedigos dos SN1 Essa figura mostra que para cada centro de SN1 existem vaacuterios SN1 A indicaccedilatildeo na seta da associaccedilatildeo da tabela Palavras com a tabela CS-SN1 define que na tabela Palavras podem existir M ocorrecircncias de um coacutedigo de centro de SN1 O mesmo pode ocorrer na tabela CS-SN1 em que esse coacutedigo pode verificar-se N vezes Essa indicaccedilatildeo traduz a ideacuteia de que para cada SN1 pode existir mais de um centro de SN1 Isto se explica pela existecircncia no contexto de um SN de palavras que satildeo tatildeo importantes quanto o centro de sintagma (KURAMOTO 1995 p 11)
Observa-se o exemplo ldquoo sistema de informaccedilatildeordquo Nesse o autor define o SN1 de
ldquosistemardquo Todavia esta natildeo eacute a uacutenica palavra fundamental pois a palavra ldquoinformaccedilatildeordquo tem
tanta importacircncia quanto o proacuteprio centro de sintagma (sistema)
Kuramoto (1995 p 11) mostra ainda que existe associaccedilatildeo entre o centro de SN1 e a
vaacuterios SN de niacutevel 1 Cada centro de SN1 pode estar associado a mais de um SN1 Essa indicaccedilatildeo eacute dada pela seta que associa a tabela SN1 agrave tabela CS-SN1 onde o nuacutemero 1 significa que na tabela SN1 existe uma soacute ocorrecircncia de um determinado coacutedigo de SN1 enquanto na tabela CS-SN1 existem M ocorrecircncias desse coacutedigo
Outro elemento de dados importante na tabela SN1 eacute chamado ldquonuacutemerordquo que
segundo Kuramoto (1995 p 11-12) ldquoindica a quantidade de artigos de onde um determinado
33
SN1 foi extraiacutedordquo O nuacutemero de referecircncias de onde o SN foi extraiacutedo aparece para cada
apresentaccedilatildeo de SN1 relacionado com um centro de SN1 escolhido pelo usuaacuterio
Kuramoto (1995) ilustra numa outra figura (Figura 9) a estrutura de dados construiacuteda
para a busca dos SN2 a partir de um SN1 selecionado pelo usuaacuterio
Figura 9 Estrutura de dados para acessar os Sintagmas Nominais de segundo niacutevel a partir de Sintagmas Nominais de primeiro niacutevel Fonte KURAMOTO 1995
Nessa ilustraccedilatildeo observa-se que se manteacutem a estrutura da Figura 8 em uma
associaccedilatildeo de tabelas que busca facilitar a busca dos SN2 a partir de um SN1 escolhido pelo
usuaacuterio Segundo Kuramoto (1995 p 12) ldquopercebe-se analogamente que um dado SN1 pode
estar associado a vaacuterios SN2 e vice-versa Isto traduz a ideacuteia de que um SN2 pode ter
embutido mais de um SN1 Essa estrutura atende agraves caracteriacutesticas dos SN listados no iniacutecio
desta seccedilatildeordquo
A busca de informaccedilotildees se manteacutem na mesma estrutura para os SN de niacutevel 3 e 4 que
satildeo semelhantes agraves Figuras acima (SN1 e SN2) com diferenccedila apenas no nome de cada
elemento que eacute correspondente ao nuacutemero dos SN
O acesso aos documentos estaacute representado na Figura 10 que exemplifica uma
escolha no SN1
Figura 10 Estrutura de dados para o acesso aos tiacutetulos e textos dos artigos Fonte KURAMOTO 1995
34
Essa estrutura foi desenvolvida para que o protoacutetipo atenda a uma demanda do
usuaacuterio viabilizando a visualizaccedilatildeo de todos os tiacutetulos e textos de documentos de onde um
SN1 foi extraiacutedo Haacute outras associaccedilotildees semelhantes a essas da Figura 17 que servem para o
acessar os documentos a partir de SN de qualquer um dos quatro niacuteveis previstos no protoacutetipo
Kuramoto (1995 p 12-13) ressalta ainda as accedilotildees do coacutedigo numeacuterico Eacute importante observar que todas as tabelas contendo os SN nos seus vaacuterios niacuteveis tecircm como chave de acesso um coacutedigo numeacuterico uacutenico de SN Para tanto construiu-se uma tabela contendo os SN onde estes satildeo identificados por meio de um coacutedigo numeacuterico Natildeo existe nenhum impedimento teacutecnico por parte do sistema Access quanto ao uso do proacuteprio texto dos SN como chave de acesso agraves informaccedilotildees Deve-se ressaltar que apesar da lentidatildeo que este tipo de chave de acesso provoca as estruturas de dados seriam mais simples e faacuteceis de manusear Contudo optou-se pela utilizaccedilatildeo das chaves numeacutericas identificando cada SN com o intuito de obter maior velocidade de acesso aos SN e agraves informaccedilotildees
Finalizando esta apresentaccedilatildeo do modelo de Kuramoto cabe destacar que a utilizaccedilatildeo
da aacutervore de SN por niacuteveis permite uma visualizaccedilatildeo mais faacutecil do conteuacutedo da base de dados
e manteacutem o que haacute de mais significativo nos documentos sua semacircntica
As estruturas de Qualia e de Heranccedila Lexical do Leacutexico Gerativo de Pustejovsky a
serem apresentadas na proacutexima seccedilatildeo permitem tambeacutem da mesma forma considerar a
semacircntica dos itens lexicais atraveacutes da criaccedilatildeo de uma malharede de relaccedilotildees de palavras e
seus significados atraveacutes dos papeacuteis que compotildeem a EQ
32 A Teoria do Leacutexico Gerativo de Pustejovsky
Pustejovsky defende a ideacuteia de que assim como a gramaacutetica tem uma estrutura
(sintaxe) a semacircntica (significado) tambeacutem tem uma estrutura baacutesica Na estrutura baacutesica da
sintaxe das liacutenguas em geral segundo Souza e Silva (1993) as oraccedilotildees satildeo compostas de
Sintagma Nominal (SN) mais Sintagma Verbal (SV) basicamente Na busca da estrutura
semacircntica Pustejovsky (1991) delineia a teoria do Leacutexico Gerativo (LG) como uma
abordagem na aacuterea da semacircntica lexical que pretende dar conta da criatividade semacircntica do
uso das palavras em contexto
Segundo Rossi (2003) Ullmann concorda com essa dificuldade do uso das palavras
em contexto quando declara que ldquonatildeo satildeo raros os casos em que ocorre uma polivalecircncia das
palavras acarretando por consequumlecircncia fenocircmenos semacircnticos inerentes agraves liacutenguas naturais
entre eles a ambiguumlidade lexicalrdquo Essa ambiguumlidade eacute provocada em decorrecircncia de fatores
35
lexicais denominados de polissemia e de homoniacutemia ou na terminologia de Weinreich
conforme Rossi (2003) de ambiguumlidade complementar e ambiguumlidade contrastiva
respectivamente
No primeiro caso trata-se da polissemia que de um modo geral conforme Moura
(2001) ldquoeacute definida como um fenocircmeno que permite associar a um mesmo item lexical mais
de um sentido os quais mantecircm alguma relaccedilatildeo semacircntica entre sirdquo Assim a palavra ldquolivrordquo
por exemplo eacute polissecircmica pois expressa ao menos dois sentidos diferentes que possuem
entre si algum tipo de laccedilo semacircntico (a) objeto fiacutesico e (b) informaccedilatildeo
Jaacute no segundo caso o da ambiguumlidade contrastiva trata-se de homoniacutemia definida
por Pustejovsky como a situaccedilatildeo na qual um item lexical eacute associado com ao menos dois
sentidos diferentes e sem relaccedilatildeo entre si Desse modo a palavra ldquomangardquo por exemplo eacute
uma palavra homocircnima pois natildeo haacute nenhuma relaccedilatildeo semacircntica evidente entre os sentidos de
ldquofrutardquo e ldquoparte da blusardquo
Segundo Rossi (2003 p 14) Ullmann salienta que ldquoeacute difiacutecil em casos particulares
determinar onde termina a polissemia e onde comeccedila a homoniacutemia uma vez que natildeo eacute faacutecil e
nem sempre possiacutevel medir intuitivamente o grau de proximidade dos significadosrdquo
A polissemia loacutegica eacute denominada por Pustejovsky (1991) para restringir a
ambiguumlidade complementar abordada anteriormente nos casos em que ocorre uma relaccedilatildeo
loacutegica portanto previsiacutevel entre os sentidos de uma palavra polissecircmica Havendo mais de um
sentido eacute importante ressaltar que pode existir sobreposiccedilatildeo desses sentidos em um mesmo
contexto
Aleacutem de ter sido tratada como polissemia loacutegica por Pustejovsky segundo Rossi
(2003) desde Weinreich esse fenocircmeno da complementaridade dos sentidos tem sido
abordado como polissemia regular e polissemia sistemaacutetica
A teoria do Leacutexico Gerativo (LG) de Pustejovsky aponta o problema da
multiplicidade de significados das palavras e enfatiza um tratamento relacionado ao problema
da polissemia das palavras Segundo Neto (2003) nessa perspectiva Pustejovsky desenvolveu
o LG que eacute um modelo de processamento de liacutengua natural que trata da explicaccedilatildeo semacircntica
de itens lexicais tanto isolados quanto em contexto
Assim como a gramaacutetica caracteriza o comportamento sintaacutetico especiacutefico de uma
certa categoria de palavras Pustejovsky propotildee uma teoria gerativa do significado da palavra
E ainda pretende mostrar que seu modelo segundo Rossi (2003 p 47) ldquoeacute contraacuterio a
36
estaticidade presente em duas concepccedilotildees semacircnticas teoacutericas das deacutecadas de 60 e 70 as
baseadas em redes conexionistas e as baseadas em primitivos fixos14rdquo
Rossi (2003 p 47) afirma que a teoria de redes conexionistas organiza a semacircntica
das palavras atraveacutes de relaccedilotildees e elos para esta autora isso ldquodificulta a representaccedilatildeo de
sentidos que exibem polissemia regular haja vista a distacircncia na rede entre os sentidos que
mantecircm relaccedilatildeo sistemaacutetica entre sirdquo Por exemplo os sentidos de ldquoobjeto fiacutesicordquo e
ldquoinformaccedilatildeordquo satildeo naturalmente distantes no entanto mantecircm entre si relaccedilatildeo sistemaacutetica no
caso de ldquolivrordquo e de outras palavras
Jaacute no segundo caso o das teorias baseadas em primitivos semacircnticos fixos o leacutexico
eacute tratado como uma lista enumerativa de sentidos Por isso mesmo tais modelos satildeo
denominados por Pustejovsky (1991) de Sense Enumeration Lexicon (SEL) - leacutexico de
enumeraccedilatildeo de sentidos O problema segundo Pustejovsky (1991) eacute que essa caracterizaccedilatildeo
dos possiacuteveis sentidos de uma palavra postulada pelo modelo SEL eacute aplicada tanto para a
ambiguumlidade contrastiva como para a polissemia loacutegica
Fica evidente segundo Rossi (2003) que Pustejovsky se opotildee aos modelos SEL pois
apesar de eles proverem uma enumeraccedilatildeo exaustiva dos sentidos de um item lexical ainda se
mostram limitados natildeo dando conta dos objetivos baacutesicos da teoria semacircntico-lexical ou seja
o uso criativo de palavras a permeabilidade dos significados e as muacuteltiplas formas sintaacuteticas
das expressotildees
O objetivo principal do LG segundo Pustejovsky (1991) eacute prover uma descriccedilatildeo
formal da liacutengua que seja expressiva e flexiacutevel o suficiente para apreender a natureza gerativa
da criatividade lexical e extensatildeo de sentido Caracteriza assim o LG como um sistema
semacircntico de perspectiva loacutegica que envolve quatro niacuteveis de representaccedilatildeo um sistema de
tipos semacircnticos e trecircs tipos de mecanismos gerativos
No decorrer deste capiacutetulo seratildeo especificadas as noccedilotildees teoacutericas baacutesicas do modelo
gerativo de Pustejovsky que estruturam o leacutexico em quatro niacuteveis de representaccedilatildeo
(argumentos eventos qualia e heranccedila) sobre os quais atuam dispositivos gerativos (a
coerccedilatildeo de tipo a co-composiccedilatildeo e a ligaccedilatildeo seletiva)
321 Estruturas do Leacutexico Gerativo
14 Conforme Pustejovsky (1995) a teoria de primitivos fixos eacute defendida por autores como Lakoff (1971) Wilks (1975) Schank (1975) Katz (1977) Jaacute a teoria de redes conexionistas eacute defendida por Carnap (1956) Collins e Quillian (1969) Fodor (1975) Brachman (1979)
37
Para capturar o significado lexical estudou-se as estruturas de Pustejovsky (1991)
que propotildee quatro niacuteveis de representaccedilatildeo estrutura de argumento estrutura de evento
estrutura de qualia e estrutura de heranccedila lexical descritos abaixo
3211 Estrutura de Argumento
Para Pustejovsky (1991) essa estrutura eacute uma especificaccedilatildeo miacutenima que agrupa os
itens lexicais em quatro argumentos
bull verdadeiros ndash paracircmetros do item lexical que tecircm a necessidade de serem expressos
sintaticamente Ex Marta morou em Paris
bull apagados ndash paracircmetros que natildeo tecircm necessidade de serem realizados sintaticamente satildeo
argumentos opcionais Ex Joana coseu uma saia sem linha
bull sombreados ndash paracircmetros que jaacute estatildeo semanticamente presentes no item lexical e soacute
devem ser expressos atraveacutes de operaccedilotildees de subtipo ou especificaccedilatildeo de discurso Ex
Paulo salgou a carne com sal grosso
bull adjuntos verdadeiros ndash paracircmetros que mesmo sendo parte da interpretaccedilatildeo situacional
modificam uma expressatildeo loacutegica sem contudo estarem ligados agrave representaccedilatildeo
semacircntica de algum item lexical especiacutefico Esses paracircmetros introduzem expressotildees
adjuntivas de modificaccedilatildeo temporal ou espacial Ex David dormiu cedo
3212 Estrutura de Evento
Essa estrutura para Pustejovsky (1991) refere-se a organizaccedilatildeo de um conjunto de eventos
no que tange agrave ordenaccedilatildeo temporal de seus subeventos e a designaccedilatildeo de qual deles seraacute
considerado o principal em relaccedilatildeo ao evento matriz
bull Evento de estado ndash aquele cujo(s) argumento(s) natildeo sofre(m) alteraccedilatildeo durante o
intervalo temporal do evento Ex Kaacutetia mora em Florianoacutepolis
bull Evento de processo ndash aquele cujo(s) argumento(s) sofre(m) alteraccedilatildeo de estado ou
indica(m) o iniacutecio de alguma atividade sem uma culminaccedilatildeo precisa Ex Heloisa canta
bem
bull Evento de transiccedilatildeo - aquele cujo(s) argumento(s) sofre(m) alguma accedilatildeo de
temporalidade determinada e resulta(m) em um estado diferente do inicial Ex Tereza fez
uma boneca
38
A estrutura a seguir apresenta os atributos semacircnticos essenciais dos itens lexicais
(como por exemplo a categoria a composiccedilatildeo a funccedilatildeo e a origem) atraveacutes dos papeacuteis
formal constitutivo teacutelico e agentivo Eacute a estrutura principal responsaacutevel pela explicaccedilatildeo da
polissemia loacutegica abordada no texto (Pustejovsky 1991)
3213 Estrutura de Qualia
Devido a sua proximidade com o SN visto que trabalha por conceitos (nomes) esta
estrutura foi utilizada no desenvolvimento do modelo proposto pela pesquisa Trata de um
conjunto formado por quatro qualia que visam guiar o processo de entendimento a respeito de
um objeto ou uma relaccedilatildeo no mundo dando por consequumlecircncia um modo de especificar a
denotaccedilatildeo de tal objeto ou relaccedilatildeo Eacute dividida em quatro papeacuteis os quais satildeo descritos na
sequumlecircncia
a) Quale formal - faz a distinccedilatildeo de determinado item dentro de um domiacutenio maior levando
em consideraccedilatildeo sua
bull orientaccedilatildeo
bull magnitude
bull forma
bull dimensatildeo
bull cor
bull posiccedilatildeo
b) Quale constitutivo - estabelece a relaccedilatildeo entre um objeto e suas partes constituintes ou
proacuteprias a partir das propriedades
bull material
bull peso
bull partes e elementos componentes
Aleacutem disso o quale constitutivo informa tambeacutem de que classe um item eacute parte caso
haja tal relaccedilatildeo ou seja ele informa tanto uma relaccedilatildeo de hiperoniacutemia15 quanto de
meroniacutemia16
15 Hiperoniacutemia ocorre quando o significado de um lexema (palavra) abrange o significado de outro lexema O significado de um eacute mais geneacuterico que o significado de outro Por exemplo ldquoaeronaverdquo eacute um hiperocircnimo de ldquoteco-tecordquo
39
Estas relaccedilotildees satildeo utilizadas na modelagem do protoacutetipo de Gonzalez (2005) Este
protoacutetipo foi pesquisado e apreendido como parte integrante da proposta desta dissertaccedilatildeo e
seraacute descrito na seccedilatildeo 33 do capiacutetulo 3
c) Quale teacutelico - explicita a finalidade e a funccedilatildeo de um objeto
bull Propoacutesito de um agente ao realizar um ato
bull Funccedilatildeo interna ou objetivo que descreve certas atividades
d) Quale agentivo - determina os fatores envolvidos na origem ou causa de um objeto
partindo de consideraccedilotildees sobre
bull criador
bull artefato
bull tipo natural
bull cadeia causal
Figura 11 Representaccedilatildeo da matriz de um item lexical Fonte ROSSI 2003
Figura 12 Matriz superficial da Estrutura de Qualia do item lexical ldquolivrordquo Fonte ROSSI 2003
16 Meroniacutemia ocorre quando o significado de um lexema (palavra) faz parte ou eacute uma porccedilatildeo do significado de outro lexema Por exemplo as palavras ldquocapardquo e ldquofolhasrdquo satildeo merocircnimos de ldquolivrordquo
40
Eacute importante salientar que segundo Neto (2003a) a Estrutura de Qualia natildeo deve ser
considerada apenas como uma lista de fatos interessantes sobre um item lexical e sim como
um conjunto de propriedades que leva a uma explicaccedilatildeo mais clara de tal item
Isto equivale dizer que o objetivo da Estrutura de Qualia eacute abarcar o significado de
uma palavra e explicitar como se relaciona com o uso da liacutengua Assim essa estrutura salienta
a explicaccedilatildeo do uso da criatividade linguumliacutestica contextual natildeo como uma estrutura isolada
mas em conjunto com os mecanismos gerativos que seratildeo apresentados mais adiante
Seguem alguns exemplos da Estrutura de Qualia
Figura 13 Exemplo da Estrutura de Qualia do item lexical ldquoromancerdquo Fonte PUSTEJOVSKY 1991
Figura 14 Exemplo da Estrutura de Qualia do item lexical ldquodicionaacuteriordquo Fonte PUSTEJOVSKY 1991
3214 Estrutura de Heranccedila Lexical
Esta estrutura tambeacutem eacute de fundamental importacircncia porque nesta ocorre a relaccedilatildeo das
qualias ou seja satildeo estruturas lexicais que podem se organizar com outras estruturas em uma
grade de tipo e assim ajudar na organizaccedilatildeo geral do leacutexico Por exemplo na figura abaixo o
LG relaciona ldquodicionaacuteriordquo ldquolivrordquo e ldquopeccedilardquo atraveacutes de suas estruturas de qualia em que se
observa que os trecircs itens lexicais satildeo diferentes entre si no entanto mantecircm relaccedilotildees
semacircnticas
41
Figura 15 Exemplo do LG relacionando ldquodicionaacuteriordquo ldquolivrordquo e peccedila atraveacutes de suas EQ Fonte NETO 2003a
322 Sistema de Tipos Semacircnticos
Um sistema de tipos semacircnticos analisa o comportamento polissecircmico e loacutegico de
nomes implicitamente relacionais como por exemplo porta janela Pustejovsky mostra como
o leacutexico gerativo faz uso de estruturas de aspectos tiacutepicos e afirma que esses nomes tecircm dois
sentidos relacionais (ldquoobjeto fiacutesicordquo e ldquoaberturardquo) que satildeo logicamente parte do significado do
nome Essa habilidade que um item lexical tem de agrupar vaacuterios sentidos eacute chamada
ldquoparadigma leacutexico-conceptual (plc ou lcp)rdquo O plc eacute como um construtor de tipo por exemplo
em palavras como ldquoportardquo e1 significa objeto_fiacutesico e2 abertura e o tipo resultante eacute
ldquoobjeto_fiacutesicoabertura_plc = objeto_fiacutesicoabertura objeto_fiacutesicoaberturardquo
Figura 16 Exemplo de polissemia loacutegica na representaccedilatildeo matricial da palavra ldquolivrordquo Fonte ROSSI 2003
42
Figura 17 Exemplo de polissemia loacutegica na representaccedilatildeo matricial da palavra ldquojornalrdquo Fonte ROSSI 2003
322 Mecanismos gerativos
O Leacutexico Gerativo apresenta ainda um conjunto de trecircs mecanismos que fazem uso
das estruturas ldquoeventordquo ldquoargumentordquo e ldquoqualiardquo os quais satildeo ditos gerativos pois relacionam
diferentes itens lexicais possibilitando a interpretaccedilatildeo composicional de palavras em contexto
3221 Coerccedilatildeo de tipo
Autoriza a mudanccedila de tipo e por extensatildeo de denotaccedilatildeo de nomes e expressotildees de
acordo com o contexto a que pertencem A coerccedilatildeo de tipo reconstroacutei a semacircntica do
complemento e soacute teraacute sucesso se o item lexical em questatildeo tiver um atalho para o tipo
desejado O exemplo claacutessico dado por Pustejovsky eacute ldquoJoatildeo comeccedilou um livrordquo em que o
predicado comeccedilar requer um tipo diferente do apresentado por livro ou seja o verbo requer
um complemento do tipo ldquoeventordquo que natildeo eacute satisfeito por ldquolivrordquo O termo ldquocomeccedilar um
livrordquo eacute interpretado como comeccedilar a ler (ou escrever) um livro
3222 Ligaccedilatildeo seletiva
Rege a relaccedilatildeo semacircntica que um modificador tem com o seu nuacutecleo ou seja ela
trata do problema da polissemia adjetival uma vez que os adjetivos satildeo interpretados a partir
da semacircntica do nuacutecleo Exemplos
(1) Um passeio raacutepido
(2) Um motorista raacutepido
43
(3) Um digitador raacutepido
(4) Um computador raacutepido
O primeiro problema estaacute claramente exemplificado com (1) em oposiccedilatildeo a (2) (3) e
(4) ou seja o primeiro trata de uma adjetivaccedilatildeo sobre um evento e os demais de uma
adjetivaccedilatildeo sobre indiviacuteduos Jaacute para o segundo problema diz-se que a interpretaccedilatildeo do
adjetivo vai ser selecionada por algum dos qualia do nuacutecleo do sintagma nominal ou seja
pela ligaccedilatildeo seletiva Esse mecanismo vai buscar a interpretaccedilatildeo de raacutepido para os exemplos
acima no quale teacutelico dos nuacutecleos
3223 Co-composiccedilatildeo
Os itens lexicais componentes de um determinado sintagma influenciam-se
mutuamente e um complemento pode adicionar um sentido ao seu nuacutecleo Pustejovsky
comeccedila exemplificando esse mecanismo com a polissemia de verbos como o ldquoassarrdquo que
apresenta dois sentidos uma mudanccedila de estado e outra de criaccedilatildeo do objeto Os exemplos
claacutessicos satildeo
(a) Letiacutecia assou as batatas
(b) Letiacutecia assou o bolo
Observa-se que em (1) houve apenas uma mudanccedila de estado pois as batatas jaacute
existiam antes de serem assadas em (2) um sentido de criaccedilatildeo de objeto eacute atribuiacutedo ao verbo
uma vez que antes da assadura o bolo natildeo existia Contudo Pustejovsky (1991) afirma que
ordinariamente soacute haacute um sentido para ldquoassarrdquo o de mudanccedila de estado pois tal verbo tem seu
tipo de evento modificado devido a informaccedilotildees que satildeo trazidas pelo complemento ou seja
essas leituras soacute satildeo possiacuteveis a partir de mecanismo de co-composiccedilatildeo em que os
complementos co-especificam o verbo
Por buscar formalizar a estrutura semacircntica de uma liacutengua o trabalho de Pustejovsky
eacute de grande importacircncia para a aacuterea de recuperaccedilatildeo de informaccedilatildeo Uma tentativa de
implementaccedilatildeo computacional da sua teoria foi realizada por Abrahatildeo (1997) envolvendo a
modelagem e a implementaccedilatildeo de um leacutexico semacircntico para a Liacutengua Portuguesa
Inicialmente este autor realizou um estudo de conceitos baacutesicos relacionados agrave semacircntica
Durante a sua pesquisa foram apresentadas teacutecnicas de representaccedilatildeo do conhecimento e do
significado que auxiliaram a seleccedilatildeo e o entendimento do modelo proposto por Pustejovsky
44
Como subsiacutedio para a implementaccedilatildeo de um leacutexico semacircntico para o portuguecircs
Abrahatildeo (1997) fez um estudo aprofundado da teoria de Pustejovsky onde salienta que os
problemas mais comuns agrave representaccedilatildeo do significado das palavras como ldquoambiguumlidade
lexical polissecircmicardquo por exemplo satildeo solucionados de forma eficiente e computacional
Como o modelo de Pustejovsky eacute voltado ao Inglecircs foram encontradas semelhanccedilas e
diferenccedilas entre a liacutengua origem do modelo e o Portuguecircs Variaccedilotildees verbais - facilita o mapeamento direto os verbos satildeo inseridos numa forma canocircnica (baacutesica ou infinitiva) no leacutexico variaccedilotildees de grau nos substantivos como alternativa de soluccedilatildeo satildeo armazenados em uma forma canocircnica palavras que se comportam como verbo e substantivo palavras que se comportam como adjetivo e substantivo tambeacutem satildeo mapeadas atraveacutes do uso da estrutura de lcps de Pustejovsky mapeamento de expressotildees - expressotildees devem ser inseridas no leacutexico pois expressam um significado especiacutefico substantivos compostos por mais de uma palavra acentuaccedilatildeo ndash itens lexicais do Inglecircs natildeo apresentam acentos Esta caracteriacutestica do Portuguecircs deve ser inserida no leacutexico pois diferencia o significado de suas palavras Deste modo esta informaccedilatildeo foi atribuiacuteda aos registros de informaccedilotildees semacircnticas atraveacutes de uma variaacutevel que conteacutem o tipo e a posiccedilatildeo na palavra em que o acento aparece (ABRAHAtildeO 1997 pgs 78-80)
Abrahatildeo (1997) construiu sua implementaccedilatildeo do leacutexico sobre uma estrutura em
aacutervore Trie17 que proporciona um maior poder de representaccedilatildeo na busca de informaccedilotildees e
baixa quantidade de dados armazenados As informaccedilotildees semacircnticas associadas aos itens
lexicais satildeo armazenadas em listas encadeadas a partir de uma estrutura denominada de
Descritor Semacircntico Um item lexical pertence ao leacutexico semacircntico se este item possui um
Descritor Semacircntico associado ao seu uacuteltimo caractere na aacutervore E ainda um Descritor
Semacircntico abrange os ponteiros essenciais para a busca das informaccedilotildees semacircnticas relativas
ao item lexical
De acordo com este autor as informaccedilotildees semacircnticas associadas aos itens lexicais
seguem o modelo de Pustejovsky (1991) sendo dividida em trecircs estruturas baacutesicas de
argumentos de eventos e de Qualia As estruturas de argumentos e de eventos satildeo
implementadas atraveacutes de uma lista de argumentos e uma lista de eventos A estrutura de
Qualia eacute composta de quatro listas de informaccedilotildees uma para cada papel (formal constitutivo
teacutelico e agentivo)
Segundo este autor todas as estruturas do leacutexico semacircntico foram desenvolvidas em
vetores A manipulaccedilatildeo destes vetores daacute-se sobre estruturas denominadas cabeccedilalhos Estes
cabeccedilalhos fornecem informaccedilotildees sobre a alocaccedilatildeo de vetores em memoacuteria ponteiros para os
vetores de informaccedilatildeo tamanhos dos vetores e os arquivos associados ao sistema O nuacutecleo de
17 Segundo Abrahatildeo (1997) ldquoeacute um tipo especial de estrutura onde cada caractere dos itens lexicais determina um nodo da aacutervorerdquo
45
dados do sistema eacute constituiacutedo de dois cabeccedilalhos cabeccedilalho da aacutervore Trie e o cabeccedilalho das
informaccedilotildees semacircnticas
A biblioteca de funccedilotildees conteacutem os procedimentos necessaacuterios para manutenccedilatildeo do
banco de dados lexical bem como procedimentos de busca de informaccedilotildees semacircnticas
Juntamente com a biblioteca uma interface graacutefica foi construiacuteda possibilitando a manutenccedilatildeo
do banco de dados e facilitando a visualizaccedilatildeo da semacircntica dos itens lexicais Esta interface
graacutefica eacute implementada na linguagem de programaccedilatildeo em C para as estaccedilotildees de trabalho SUN
sobre o sistema de janelas XVIEW18 (ABRAHAtildeO 1997)
Esta seccedilatildeo mostrou a importacircncia da teoria de Pustejovsky e suas possibilidades O
LG eacute fundamental para compreensatildeo semacircntica pois considera o contexto da palavra sendo
capaz de estruturar um domiacutenio especiacutefico atraveacutes da EQ e tambeacutem de identificar dentro de
um domiacutenio quando determinada palavra aparece em tal contexto Pelo desenvolvimento do
trabalho de Abrahatildeo pode-se perceber a dimensatildeo e os elementos necessaacuterios para o
significado de uma palavra reforccedilando-se assim o valor e a viabilidade da teoria de
Pustejovsky
A proacutexima seccedilatildeo apresenta o trabalho de Gonzalez (2005) que estudou Pustejovsky19
e posteriormente desenvolveu sua proacutepria concepccedilatildeo de uma estrutura de RI (toda
automatizada)
33 O Modelo TR+ de Gonzalez
O modelo TR+ eacute considerado um modelo para RI que utiliza duas fases para o
desenvolvimento de sua estrutura fase de indexaccedilatildeo e fase de busca
18 XVIEW ldquoeacute um sistema de janela orientado a objeto que permite ao programador criar e utilizar objetos tais como janelas textos paineacuteis iacutecones entre outros para construir uma aplicaccedilatildeo Seus objetos satildeo predefinidos e satildeo ricos em funcionalidade o que permite que o coacutedigo necessaacuterio para manipular essas janelas seja pequeno simples e muito faacutecil de se compreenderrdquo (ABRAHAtildeO 1997 p 86) 19 Realizou um trabalho individual no doutorado denominado ldquoO Leacutexico Gerativo de Pustejovsky sob o enfoque da Recuperaccedilatildeo de Informaccedilotildeesrdquo de 2000a
46
Indexaccedilatildeo de textos segundo Baeza-Yates e Ribeiro-Neto (1999) e Gonzalez (2005)
eacute o processo que estipula descritores20 dos conteuacutedos dos textos de uma coleccedilatildeo de
documentos com objetivo de busca e classificaccedilatildeo dos mesmos para atender consultas em
sistemas de RI Descritores podem descrever conceitos atocircmicos sendo lsquotermosrsquo ou conceitos
complexos sendo lsquorelacionamentosrsquo O conjunto de descritores concebido na indexaccedilatildeo
favorece uma visatildeo loacutegica dos documentos com o propoacutesito de unir esses descritores termos
e relacionamentos a conceitos presentes nos textos dos documentos
Para os relacionamentos este autor classifica trecircs tipos explicando-os atraveacutes do
exemplo ldquo tecircm preocupado os pesquisadoresrdquo O primeiro tipo eacute o par modificado-
modificador como lsquopesquisador-preocupadorsquo O segundo eacute o bigrama (preocupado
pesquisador) e o terceiro eacute o Sintagma Nominal que para ele significa lsquopesquisador
preocupadorsquo e que para a pesquisa de Gonzalez ficaria na sua forma natural lsquopreocupado os
pesquisadoresrsquo O autor ainda cita que haacute outros formatos de relacionamentos como a
expressatildeo ternaacuteria (preocupaccedilatildeo-de-pesquisador) e a relaccedilatildeo binaacuteria
(preocupaccedilatildeopesquisador)
Gonzalez (2005) aponta dois tipos de relacionamentos como problemas os bigramas
por natildeo poderem descrever o conceito (ldquoferro sopardquo para ldquopanela de ferro com sopardquo) e os
termos com palavras comuns mas coadjuvantes importantes (ldquosentar bancordquo e ldquodepositar
bancordquo) os sintagmas nominais que para o autor representam tanto o conceito atocircmico quanto
o complexo (ldquonoiterdquo e ldquoboca da noiterdquo) Eacute importante perceber que a partir dessas
caracteriacutesticas e aspectos acima definidos Gonzalez (2005) propocircs um novo modelo de
espaccedilo de descritores (uniatildeo do conjunto de termos com o conjunto de relacionamentos) Este
novo modelo surgiu a partir de outros cinco modelos de descritores jaacute existentes
1 Unigrama conjunto de termos natildeo relacionados
2 N-grama (NG) conjunto de relacionamentos estatiacutesticos
3 Termo-Termo (TT) conjunto de termos relacionados estatiacutestica ou
sintaticamente
4 Termo-Relacionamento (TR) conjunto de termos e relacionamentos sintaacuteticos
20 A palavra descritores eacute usada para se tratar dos termos e relacionamentos enquanto os iacutendices se referem apenas aos termos O descritor lsquotermorsquo significa uma unidade lexical formada por uma uacutenica palavra ou por mais de uma denominada de lsquotermo compostorsquo E o descritor lsquorelacionamentorsquo ocorre entre termos ou seja satildeo relaccedilotildees de construccedilotildees sintaticamente diferentes que tecircm o mesmo significado (semacircntica) Exemplo lsquodefesa eficientersquo eacute igual a lsquodefender eficientementersquo e lsquofeira de domingorsquo eacute igual a lsquofeira dominicalrsquo Alguns autores como Baeza-Yates e Ribeiro-Neto (1999) utilizam a palavra lsquoiacutendicersquo ao inveacutes de descritores contudo Gonzalez ressalta que esta palavra refere-se apenas aos lsquotermosrsquo natildeo dando conta da semacircntica que envolve os lsquorelacionamentosrsquo
47
5 Relacionamento-Termo (RT) conjunto de relacionamentos sintaacuteticos e seus
componentes ldquoOs Sintagmas Nominais constituem os principais descritores neste
casordquo (GONZALEZ 2005 p41)
O modelo TR+ proposto por este autor combina aspectos dos modelos TR e RT
A Figura 18 daacute uma visatildeo geral do modelo TR+ de Gonzalez (2005) na fase de
indexaccedilatildeo com suas etapas essenciais e na fase de busca para a classificaccedilatildeo por relevacircncia
dos documentos em relaccedilatildeo agrave consulta
g
f
e
da a
b b
c
Figura 18 Visatildeo Geral do modelo TR+ Fonte Gonzalez 2005
O espaccedilo de descritores do modelo TR+ construiacutedo na fase de indexaccedilatildeo eacute com
de quatro processos principais
a) Preacute-processamento (toquenizaccedilatildeo e etiquetagem)
b) Nominalizaccedilatildeo
c) Captura de RLBs
d) Termos e RLBs
Na etapa ldquoardquo de preacute-processamento ocorrem duas accedilotildees fundamentais Toquen
e Etiquetagem A toquenizaccedilatildeo eacute a identificaccedilatildeo de cada item lexical (palavra e pontu
Na etiquetagem existe um etiquetador gramatical (part-of-speech tagger - parser
identifica atraveacutes de uma etiqueta (tag) a categoria gramatical de cada palavra do
(adjetivo substantivo verbo entre outras) Geralmente eacute morfoloacutegico (identifica som
c
posto
izaccedilatildeo
accedilatildeo)
) que
texto
ente a
48
categoria morfoloacutegica) ou morfossintaacutetico (identifica tambeacutem as funccedilotildees sintaacuteticas) Estes
processos satildeo realizados de forma automatizada21
Antes da nominalizaccedilatildeo eacute realizada a geraccedilatildeo de espaccedilo dos descritores que se
constitui na seleccedilatildeo e normalizaccedilatildeo dos descritores e ainda a contagem de frequumlecircncia de
ocorrecircncia dos descritores - termos (para o caacutelculo de seus pesos) que seraacute usada na etapa
ldquodrdquo
Faz parte do processo de seleccedilatildeo de descritores a eliminaccedilatildeo de stopwords22 que
podem ser descartadas na fase de indexaccedilatildeo e na consulta Essa exclusatildeo justifica-se segundo
o autor porque as stopwords satildeo consideradas palavras com pouca representatividade A
seleccedilatildeo dos descritores a quantidade dos mesmos e o peso de cada um podem ser afetados
pela normalizaccedilatildeo linguumliacutestica
A normalizaccedilatildeo segundo Gonzalez (2005) apresenta trecircs tipos conhecidos como
bull Sintaacutetica - que transforma frases semanticamente equivalentes mas
sintaticamente diferentes (ldquoeficiente processo raacutepidordquo e ldquoprocesso raacutepido
eficienterdquo)
bull Leacutexico-semacircntico ndash que utiliza relacionamentos semacircnticos (como a sinoniacutemia)
para substituir palavras morfologicamente distintas por uma uacutenica forma que
representa o conceito evidenciado
bull Morfoloacutegica ndash reduz as formas flexionais de uma palavra por meio da
conflaccedilatildeo23
No modelo TR+ foi utilizada a normalizaccedilatildeo lexical para o processo de
nominalizaccedilatildeo Este processo de nominalizaccedilatildeo constitui a etapa ldquobrdquo e significa a
transformaccedilatildeo de uma palavra (adveacuterbio adjetivo ou verbo) existente no texto em um
substantivo semanticamente equivalente constituiacutedo com regras vaacutelidas de formaccedilatildeo de
palavras (GONZALEZ 2005)
A tabela abaixo mostra exemplos de termos nominalizados Nesta etapa de
nominalizaccedilatildeo eacute utilizada a ferramenta CHAMA24
21 A ferramenta FORMA (Toquenizaccedilatildeo e Etiquetagem Morfoloacutegica) foi utilizada por Gonzalez O autor cita o nome desta ferramenta no seu site httpwwwinfpucrsbr~gonzaleztr+ Acesso em 14 de fevereiro de 2006 22 Stopwords satildeo palavras como preposiccedilotildees artigos e conjunccedilotildees 23 Conflaccedilatildeo satildeo processos realizados por algoritmos que combinam a representaccedilatildeo de duas ou mais palavras em um uacutenico termo Haacute dois meacutetodos mais comuns stemming que reduz a palavra para a parte fundamental semelhante ao radical e lematizaccedilatildeo que reduz a palavra variaacutevel agrave correspondente forma ldquocanocircnicardquo 24 A ferramenta CHAMA (nominalizaccedilatildeo de adjetivos verbos e adveacuterbios) foi desenvolvida por Marco Antonio Insaurriaga Gonzalez (doutor em Ciecircncia da Computaccedilatildeo pela UFRGS) Em sua tese de doutorado intitulada ldquoTermos e Relacionamentos em Evidecircncia na Recuperaccedilatildeo de Informaccedilatildeordquo 2005
49
Tabela 1 Exemplos de nominalizaccedilatildeo Fonte Gonzalez 2005
Devido agraves diferentes variaccedilotildees que a nossa Liacutengua Portuguesa apresenta este autor
trabalha em seu modelo com palavras sem acentuaccedilatildeo e em letras minuacutesculas ocorrendo um
comprometimento do significado das palavras como por exemplo eacute citado por ele puacuteblica e
publica
A etapa ldquocrdquo de captura de Relaccedilotildees Lexicais Binaacuterias (RLBs) eacute segundo Gonzalez
(2005) o relacionamento entre termos nominalizados ou seja sintaticamente diferentes mas
semanticamente iguais25 Uma RLB pode ser classificada tambeacutem quanto agrave nominalizaccedilatildeo de
seus componentes Este autor sistematiza e classifica esta questatildeo conforme aparece em seus
exemplos abaixo (2005 p 47)
bull Original onde o termo natildeo recebeu o processo de nominalizaccedilatildeo
bull Derivada onde um dos termos pelo menos resulta do processo de
nominalizaccedilatildeo
Uma RLB de acordo com Gonzalez (2005) apresenta a seguinte aparecircncia
25 Gonzalez desenvolveu o software RELLEX para o reconhecimento de relaccedilotildees lexicais binaacuterias em sua tese de doutorado 2005
50
id (t1t2) onde
id significa o identificador de relaccedilatildeo e
t1 e t2 satildeo os termos nominalizados
Este autor aponta os trecircs tipos de RLBs quanto ao identificador id
bull Classificaccedilatildeo onde id eacute especificado com um sinal de igual (=) t1 representa
uma subclasse ou uma instacircncia de t2 e t2 representa uma classe
Exemplos =(caoanimal)
=(PET garrafa) Exemplo desenvolvido nesta dissertaccedilatildeo
bull Restriccedilatildeo onde id eacute uma preposiccedilatildeo t1 representa um elemento modificado e t2
representa um elemento modificador
Exemplos de(equipeatletismo)
com(supervisorexperiencia)
por(orientacaoministro)
bull Associaccedilatildeo onde id representa um evento t1 eacute um sujeito e t2 eacute um objeto
(direto ou indireto) ou um adjunto
Exemplos superacao(alunodificuldade)
interessea(propostanegociante)
moradiaem(presidentebrasilia)
As Relaccedilotildees Lexicais Binaacuterias conforme Gonzalez (2005) satildeo inseridas no espaccedilo
de descritores para ampliar o seu universo As RLBs descrevem relaccedilotildees semacircnticas lexicais
como as que satildeo apresentadas na estrutura de Qualia da teoria do Leacutexico Gerativo de
Pustejovsky (GONZALEZ 2000 PUSTEJOVSKY 1991) O estudo desta teoria motivou o
Gonzalez a desenvolver a proposta das RLBs como parte integrante de seu trabalho como um
modo de adequaacute-la a aplicaccedilotildees na aacuterea de RI
Como jaacute foi descrita na seccedilatildeo 32 a Estrutura de Qualia da teoria do Leacutexico
Gerativo descreve um item lexical atraveacutes de quatro papeacuteis formal constitutivo agentivo e
teacutelico O papel formal distingue um item lexical em um domiacutenio maior Em uma RLB
segundo Gonzalez (2005) do tipo classificaccedilatildeo como ldquo=(computadormaquina)rdquo por
exemplo o computador seria distinguido como uma maacutequina ou em ldquo=(ipmftributo)rdquo o ipmf
seria um tributo Portanto a RLB do tipo classificaccedilatildeo corresponde ao papel formal da
estrutura de Qualia
51
O papel constitutivo estabelece a relaccedilatildeo entre um item lexical X e suas partes
constituintes Em uma RLB do tipo restriccedilatildeo como ldquode(mesamadeira)rdquo por exemplo haveria
a indicaccedilatildeo de que a mesa eacute feita de madeira ou em ldquocom(massaalho)rdquo de que haacute alho na
massa O papel agentivo especifica os fatores envolvidos na origem ou causa de um item
lexical Em uma RLB para este autor do tipo restriccedilatildeo como ldquopor(publicacaoautor)rdquo por
exemplo seria especificado que a publicaccedilatildeo se deve ao autor ou em ldquopor(impedimentolei)rdquo
que a lei eacute a razatildeo do impedimento
O papel teacutelico explica qual a funccedilatildeo ou finalidade do item lexical Em uma RLB do
tipo associaccedilatildeo como ldquoconserto(encanadorvazamento)rdquo por exemplo explica que a funccedilatildeo
do encanador eacute o conserto do vazamento ou em uma RLB do tipo restriccedilatildeo como
ldquopara(leituraaprendizado)rdquo que a finalidade da leitura eacute o aprendizado (GONZALEZ 2005)
Este autor salienta que natildeo se quer que as RLBs ldquointerpretemrdquo o texto com
distinccedilotildees indicaccedilotildees especificaccedilotildees ou explicaccedilotildees dos tipos apresentados O propoacutesito eacute de
que as RLBs sejam descritores de tais fatos mas sem classificaccedilatildeo (etiquetas) Por isto os
identificadores de relaccedilatildeo natildeo satildeo rotulados com os papeacuteis descritos A uacutenica exceccedilatildeo eacute o
identificador das RLBs do tipo classificaccedilatildeo O indicador ldquo=rdquo eacute o roacutetulo inevitaacutevel para o
claacutessico ldquoeacute umrdquo porque natildeo haacute outro papel possiacutevel nesse tipo de relaccedilatildeo
No modelo TR+ estaacute envolvido aleacutem da coleccedilatildeo de documentos constituiacuteda por
descritores (termos e relacionamentos) tambeacutem os seus respectivos pesos que dependem de
uma formulaccedilatildeo matemaacutetica denominada de lsquocaacutelculo de representatividadersquo dos descritores
em cada documento que eacute um diferencial deste modelo e estaacute na fase ldquodrdquo onde os termos e
RLBs seratildeo armazenados
Para ocorrer o caacutelculo do peso dos descritores eacute aplicado o conceito de evidecircncia26
Este conceito natildeo depende apenas da frequumlecircncia de ocorrecircncia de um descritor mas de um
outro mecanismo ldquoa representatividade de um descritor depende aleacutem de sua frequumlecircncia de
ocorrecircncia no texto da ocorrecircncia de mecanismos de coesatildeo fraacutesicardquo (GONZALEZ 2005
p48) A coesatildeo fraacutesica determina uma junccedilatildeo significativa entre os componentes de uma
frase27 Esta junccedilatildeo aliada com a frequumlecircncia de ocorrecircncia constitui o conceito de evidecircncia
como um dos aspectos essenciais da Tese de Gonzalez (2005)
A evidecircncia dos termos eacute realizada de forma direta com a frequumlecircncia e a coesatildeo
fraacutesica mas a evidecircncia de um relacionamento natildeo pois esta eacute dependente primeiramente das
26 Evidecircncia significa qualidade daquilo que eacute evidente que eacute incontestaacutevel que todos vecircem ou podem ver e verificar (Dicionaacuterio Eletrocircnico Michaelis) Como descreve Gonzalez (2005) ldquoeacute aquilo natildeo oferece ou natildeo daacute margem agrave duacutevidardquo 27 Site httpacdufrjbr~peadtema09coesaogramaticalhtml
52
evidecircncias de seus termos Este conceito estaacute inserido no caacutelculo de representatividade de um
descritor
O caacutelculo da representatividade eacute um caacutelculo de relevacircncia do termo ou
relacionamento que varia de acordo com as abordagens (booleana vetorial e probabiliacutestica) e
pode ser realizado apenas com a frequumlecircncia da palavra no documento ou ainda com a
frequumlecircncia vinculada com a sua informaccedilatildeo morfoloacutegica ou sintaacutetica (GONZALEZ 2005)
Para realizar o caacutelculo da representatividade dos descritores haacute duas estrateacutegias de
determinaccedilatildeo que satildeo os modelos com unigramas que tratam os termos de forma
independente (abordagens vetorial e probabiliacutestica) e os modelos com dependecircncia entre
termos Estas dependecircncias envolvem conjuntos diferentes de conhecimentos que satildeo os
estatiacutesticos e os linguumliacutesticos28 Os conhecimentos linguumliacutesticos satildeo ldquoleacutexico morfoloacutegico
fonoloacutegico sintaacutetico semacircntico e pragmaacuteticordquo (ABRAHAtildeO 1997 p11)
Estes dois modelos descritos acima satildeo apresentados como mais significativos
poreacutem ainda utilizam a abordagem booleana Isto porque Gonzalez (2005) define como o
caminho mais promissor a combinaccedilatildeo da abordagem booleana (individualmente limitadora)
com a uniatildeo dos conhecimentos estatiacutesticos e linguumliacutesticos entre si que permitem mais
interaccedilatildeo com o usuaacuterio
O caacutelculo da representatividade ao mesmo tempo que eacute uma propriedade baacutesica de
um descritor apresenta diferentes formas de acordo com as abordagens vetorial e
probabiliacutestica (capiacutetulo 2) e gera diversas interpretaccedilotildees Por isto Gonzalez (2005) propotildee um
novo caacutelculo que compreenda a importacircncia do contexto nas foacutermulas inseridas no seu modelo
TR+
O outro momento de seu modelo (Figura 18) compreende a lsquofase de buscarsquo que inclui
Preacute-Processamento (toquenizaccedilatildeo e etiquetagem) Nominalizaccedilatildeo e Captura de RLBs Estas
etapas ocorrem da mesma maneira que na fase de indexaccedilatildeo Inclui tambeacutem as etapas
Formulaccedilatildeo de consulta booleana Busca e Classificaccedilatildeo
Na etapa ldquoerdquo (Formulaccedilatildeo de Consulta Booleana) Gonzalez (2005) explica que se a
consulta q em linguagem natural formulada pelo usuaacuterio for por exemplo ldquopintura
restauradardquo entatildeo seraacute formulada no formato Booleano conforme o modelo TR+ a seguinte
consulta qb
28 Estes conhecimentos envolvem niacuteveis leacutexico-morfoloacutegico e sintaacutetico sintagmas nominais (sujeito objeto direto e indireto e adjunto adnominal) A vantagem destes eacute a capacidade de identificar relacionamentos entre palavras natildeo adjacentes como ldquoalgoritmosrdquo e ldquoconcorrentesrdquo em ldquoalgoritmos sequumlenciais e concorrentesrdquo
53
r1 OU r2 OU ( (n1 (p1) OU n2(p1) ) E (n1 (p2) OU n2(p2) ) ) onde
r1 = de(restauracaopintura)
r2 = r1rsquo = diferente_de(restauracaopintura)
n1(p1) = (elemento vazio)
n2(p1) = pintura
n1(p2) = restauracao
n2(p2) = restaurador
p1 = pintura e
p2 = restaurada
Tabela 2 Exemplo de uma consulta qb Fonte Gonzalez 2005 p 51
Na fase de busca a etapa ldquofrdquo ocorre uma relaccedilatildeo entre a etapa ldquoerdquo e a etapa ldquodrdquo Esta
uacuteltima acontece ainda na fase de indexaccedilatildeo visto que ldquoestando os termos e as RLBs definidas
e calculados os pesos a classificaccedilatildeo dos documentos depende do valor de relevacircncia dos
mesmos e da formulaccedilatildeo Booleana da consultardquo (GONZALEZ 2005 p 50)
A etapa ldquogrdquo (Classificaccedilatildeo) eacute resultado de um caacutelculo sobre os dados obtidos no
procedimento anterior que identifica o valor de relevacircncia de cada documento recuperado-os
em ordem decrescente Um exemplo de classificaccedilatildeo eacute indicado por Gonzalez (2005) atraveacutes
da foacutermula de uma consulta denominada q Nesta consulta encontram-se os termos t1 e t2 e a
RLB r e se estes dois termos estatildeo relacionados atraveacutes de r em um documento d estes teratildeo
dupla contribuiccedilatildeo no caacutelculo do valor de relevacircncia de d poreacutem se t1 e t2 ocorrem em d mas
natildeo estatildeo relacionados atraveacutes de r o autor considera que esta contribuiccedilatildeo seraacute simples e
assim d tende a perder posiccedilotildees na classificaccedilatildeo por relevacircncia a q
Os documentos recuperados classificam-se em dois grupos (a) grupo superior de maior relevacircncia documentos que atendem agraves condiccedilotildees estabelecidas na consulta Booleana ou seja possuem pelo menos uma das RLBs da consulta ou na falta de todas elas possuem obrigatoriamente todos os termos conforme especificado (b) grupo inferior de menor relevacircncia documentos que natildeo atendem a todas as condiccedilotildees estabelecidas na consulta Booleana mas possuem pelo menos um dos termos da consulta Os documentos satildeo classificados em ordem decrescente do valor de relevacircncia tanto nos grupos superior como inferior (GONZALEZ 2005 p 51)
Eacute importante ressaltar que toda a proposta de Gonzalez (Modelo TR+) foi
automatizada testada e aprovada Foi utilizado o software FORMA para a etapa de preacute-
processamento e os demais softwares como CHAMA (nominalizaccedilatildeo) e RELLEX (regras de
54
identificaccedilatildeo de RLBs) foram desenvolvidos pelo autor Diversos algoritmos juntamente com
abordagens de RI (booleana probabiliacutestica e vetorial) foram desenvolvidos para as fases
posteriores do seu trabalho como o caacutelculo do peso dos descritores a busca e a classificaccedilatildeo
de documentos
As experimentaccedilotildees desenvolvidas por Gonzalez (2005) em seu trabalho lograram
comprovar que o processo de nominalizaccedilatildeo como processo de normalizaccedilatildeo lexical
proporciona melhores resultados de recuperaccedilatildeo que os produzidos pelos processos
tradicionais (lematizaccedilatildeo e stemming) a identificaccedilatildeo de RLBs (obtenccedilatildeo de informaccedilatildeo
linguumliacutestica) contribui de forma positiva para a descriccedilatildeo de dependecircncias de termos
ampliando o espaccedilo de descritores o caacutelculo da representatividade dos descritores baseado em
evidecircncia melhora a classificaccedilatildeo de relevacircncia dos documentos com vantagem sobre o
caacutelculo baseado em frequumlecircncia de ocorrecircncia o uso de consultas com operadores Booleanos
trata-se de uma forma eficaz de complementar a especificaccedilatildeo de dependecircncias de termos e
tambeacutem a inclusatildeo de conhecimento linguumliacutestico como a realizada no modelo proposto pelo
autor apresenta relaccedilatildeo custobenefiacutecio viaacutevel dentro do atual estaacutegio de desenvolvimento da
pesquisa em RI
O proacuteximo capiacutetulo descreve o novo modelo proposto para esta dissertaccedilatildeo baseado
na identificaccedilatildeo das possibilidades de ampliaccedilatildeo de siacutentese e de sistematizaccedilatildeo do modelo de
Kuramoto com a estrutura de Gonzalez Pode ser considerada uma soluccedilatildeo hiacutebrida de um
modelo de RI que une trecircs teorias Sintagmas Nominais de Kuramoto Leacutexico Gerativo de
Pustejovsky e Modelo TR+ de Gonzalez Apresentar-se-aacute os paracircmetros gerais norteadores e
justificadores do modelo a descriccedilatildeo narrativa da sua funcionalidade os resultados dos testes
e a descriccedilatildeo formal UML do modelo
55
4 APRESENTACcedilAtildeO E DISCUSSAtildeO DO MODELO PROPOSTO
A proposta desta dissertaccedilatildeo eacute de integrar a aplicaccedilatildeo praacutetica do projeto dos
Sintagmas Nominais de Kuramoto sistematizando e associando com o modelo TR+ de
Gonzalez (2005)
Na descriccedilatildeo do modelo do sistema proposto foi utilizado o meacutetodo denominado de
Processo Unificado (UP) que envolve as fases de concepccedilatildeo elaboraccedilatildeo construccedilatildeo e
transiccedilatildeo e utilizou-se a Linguagem de Modelagem Unificada (UML) que eacute fortemente
relacionada com a metodologia utilizada segundo Wazlawick (2004)
Neste capiacutetulo desenvolve-se o modelo conceitual da aplicaccedilatildeo proposta para a qual
foram realizadas as etapas de levantamento e anaacutelise de requisitos representada pelo
diagrama e pela descriccedilatildeo dos casos de uso e de construccedilatildeo dos diagramas de classes e de
sequumlecircncia relacionados
41 Procedimentos desenvolvidos utilizando o modelo de SN de Kuramoto e a proposta
Gonzalez - ldquoEstrutura SINTR+rdquo
Esta dissertaccedilatildeo optou por realizar uma relaccedilatildeo entre propostas diferenciadas utilizar
o modelo de SN de Kuramoto para a organizaccedilatildeo dos conceitos mais significativos dos
documentos e a proposta de Gonzalez para a busca dessas informaccedilotildees que estaratildeo
estruturadas atraveacutes da dependecircncia entre termos Esta relaccedilatildeo foi desenvolvida na criaccedilatildeo da
ldquoEstrutura SINTR+rdquo que tem como especificidade a busca nos documentos a partir do banco
de dados dos Sintagmas Nominais Esta escolha de unir em uma estrutura proacutepria os SN e o
Modelo TR+ pautou-se pelo intuito de orientar mais objetivamente o usuaacuterio na definiccedilatildeo da
sua query de busca atraveacutes de uma navegaccedilatildeo sobre a estrutura de SN presentes no
documento e de posterior apresentaccedilatildeo de lista de documentos efetivamente relevantes
O objetivo eacute trabalhar com os Sintagmas Nominais evidenciando e potencializando
uma uniatildeo com o modelo TR+ de Gonzalez (2005) O modelo abaixo (Figura 19) apresenta
uma nova proposta pautada na junccedilatildeo sistematizada e analiacutetica da extraccedilatildeo dos SN na
Estrutura de Kuramoto (1999) com o Modelo TR+ de Gonzalez (2005) ldquoEstrutura SINTR+rdquo
56
Documentos
Extraccedilatildeo de SN
Preacute-processamento
Nominalizaccedilatildeo
4
Captura de RLBs
Referecircncia aos
documentos classificados
Classificaccedilatildeo
Lista de SN de Niacutevel Requerido
Lista dos demais Preacute-
3
2
85
3
2
1
Consulta em
LN
7
6
(Fase d
O mo
extraccedilatildeo de tod
o preacute-processam
de acontecer co
de forma mais
foco de anaacutelise
subsequumlentes
Antes
descritores con
frequumlecircncia de o
Etapa 5
Em se
mudanccedila de um
concreto eou a
Te
R
e indexaccedilatildeo)
Figura
delo propost
os os seus Si
ento onde o
m todas as p
objetiva e raacute
somente so
do processo d
stituiacuteda na s
correcircncia dos
guida ocorre
a palavra (ad
bstrato Na E
rmos e
LBs
Busca
Formulaccedilatildeo de consulta Booleana
11
(Fase
19 Visatildeo Geral do Modelo Proposto ldquoEstr
o se inicia a partir dos document
ntagmas Nominais (Etapa 1) Extra
correm a Toquenizaccedilatildeo e a Etiquet
alavras do documento como ocorr
pida apenas diretamente sobre os
bre os termos inclusos nos SN pe
e nominalizaccedilatildeo na Etapa 3 eacute exec
eleccedilatildeo e normalizaccedilatildeo dos descrit
descritores - termos (para o caacutelculo
o processo de nominalizaccedilatildeo que c
veacuterbio adjetivo ou verbo) existen
tapa 4 ocorre a identificaccedilatildeo das
niacuteveis de SN processamento
Nomin
Captura
9
de busca)
utura SINTR+rdquo
os a serem inse
iacutedos os SN na E
agem que Essa e
e no modelo TR
termos constant
rmanece para to
utada a geraccedilatildeo
ores e ainda na
de seus pesos)
onstitui a Etapa
te nos SN em u
RLBs nos SN q
alizaccedilatildeo
de RLBs 0
ridos com a
tapa 2 eacute feito
tapa ao inveacutes
+ eacute realizada
es nos SN O
das as etapas
de espaccedilo dos
contagem da
a ser usada na
3 e significa a
m substantivo
ue significa o
1
1
1
57
relacionamento entre termos nominalizados Estas etapas acima satildeo constituiacutedas para a
geraccedilatildeo do espaccedilo de descritores (termos e RLBs) referentes agrave Etapa 5
Na lsquofase de buscarsquo primeiramente o usuaacuterio digita uma palavra por exemplo
ldquoplaacutesticosrdquo A resposta para o usuaacuterio ocorreraacute pois internamente foi feita uma programaccedilatildeo
(a ser implementada) para identificar o niacutevel do SN solicitado pelo usuaacuterio para que
posteriormente apareccedila para este a lista de todos os SN do niacutevel apresentado contendo a query
solicitada
No caso do exemplo ldquoplaacutesticosrdquo o processo avanccedila na Etapa 6 listando todos os
sintagmas nominais de primeiro niacutevel (SN1) dos documentos (uma vez que a solicitaccedilatildeo
referia-se ao niacutevel 1) Nesta etapa o usuaacuterio poderaacute escolher um dos sintagmas de primeiro
niacutevel ou confirmar a sua escolha (query) inicial O processo continua com a escolha de uma
dentre as opccedilotildees de i) ver a lista de documentos relacionados ao SN1 definido ou ii) solicitar
a relaccedilatildeo de sintagmas de seu segundo niacutevel A visualizaccedilatildeo da lista de sintagmas de niacutevel
superior permitiria ao usuaacuterio filtrar mais a sua consulta Para a determinaccedilatildeo da lista de SN
de segundo niacutevel como por exemplo ldquoa reciclagem de plaacutesticosrdquo ldquoa induacutestria de plaacutesticosrdquo
(Figura 20) tambeacutem foi feita uma programaccedilatildeo especiacutefica que seraacute descrita posteriormente
Na continuidade do processo o usuaacuterio pode prosseguir o refinamento da sua busca
atraveacutes da seleccedilatildeo de SN de maior niacutevel ou pode dar-se por satisfeito com o resultado (Etapa
7) solicitando diretamente a lista dos documentos associados ao SN definidos Nesse caso a
lista eacute apresentada na ordem de classificaccedilatildeo oportunizada pela Estrutura TR+ conforme o
descrito nas proacuteximas etapas
O processamento proposto para a determinaccedilatildeo da relaccedilatildeo dos sintagmas de um
determinado niacutevel foi pensado com vista a gerar economia de espaccedilo de memoacuteria utilizada
uma vez que seratildeo armazenados na base de dados os documentos e seus SN de uacuteltimos niacuteveis
e manipulados apenas os uacuteltimos niacuteveis da estrutura de SN Os niacuteveis anteriores relativos ao
SN seratildeo determinados na programaccedilatildeo desenvolvida a partir da identificaccedilatildeo do nuacutemero de
preposiccedilotildees que o SN apresenta Nesta programaccedilatildeo se houver apenas um termo (ou mesmo
apenas um termo composto) o SN eacute considerado um SN de 1ordm niacutevel A presenccedila de um termo
composto com mais uma preposiccedilatildeo indica a existecircncia de um SN de 2ordm niacutevel Jaacute trecircs termos
com duas preposiccedilotildees vatildeo indicar a presenccedila de um SN de 3ordm niacutevel e finalizando quatro ou
mais termos com 3 (ou mais) preposiccedilotildees remetem ao SN de 4ordm niacutevel
Ao optar pela apresentaccedilatildeo da lista de documentos seratildeo desenvolvidas
(internamente) na programaccedilatildeo conforme o proposto pela Estrutura TR+ de Gonzalez as
etapas de Preacute-processamento (toquenizaccedilatildeo e etiquetagem ndash Etapa 8) Nominalizaccedilatildeo (Etapa
58
9) Captura de RLBs (Etapa 10) Formulaccedilatildeo de consulta Booleana (Etapa 11) Busca (Etapa
12) e por fim Classificaccedilatildeo (Etapa 13)
Na Etapa 11 eacute trabalhado no formato Booleano uma consulta formulada pelo usuaacuterio
conforme o modelo TR+ A Etapa 12 ocorre uma relaccedilatildeo entre a Etapa 11 e a Etapa 5 (esta
etapa ocorre ainda na fase de indexaccedilatildeo) A Etapa 13 eacute a uacuteltima e resulta do caacutelculo que
identifica o valor de relevacircncia de cada documento recuperando-os em ordem decrescente
Eacute importante reforccedilar que o sistema iraacute verificar o preacute-processamento nominalizaccedilatildeo
e a captura de RLBs jaacute realizadas na fase de indexaccedilatildeo comparando-as Apoacutes esta
identificaccedilatildeo o sistema usa a formulaccedilatildeo de consulta Booleana para a busca chegando agrave
classificaccedilatildeo dos documentos de acordo com o peso dos descritores (termos e RLBs)
formulados na fase de indexaccedilatildeo e definidos na fase de busca (de acordo com o termo
escolhido e a coleccedilatildeo dos documentos)
Exemplificando o paraacutegrafo acima a Figura 20 mostra o funcionamento inicial desta
estrutura no que se refere aos Sintagmas Nominais
Pesquisa
Usuaacuterio escolha uma opccedilatildeo (Sintagma Nominal) que mais se identifique com a sua consulta Logo em seguida escolha se deseja ir para o Proacuteximo Niacutevel de Sintagma Nominal ou Estrutura TR+
Buscar (SN) Plaacutesticos
SN1 Os plaacutesticos
Proacuteximo niacutevel SN Estrutura TR+
SN2 A reciclagem de plaacutesticos A separaccedilatildeo de plaacutesticos A induacutestria de plaacutesticos
Proacuteximo niacutevel SN Estrutura TR+
SN3 A induacutestria de reciclagem de plaacutesticos
Estrutura TR+ Proacuteximo niacutevel SN
SN4 -----
Estrutura TR+
Figura 20 Descriccedilatildeo inicial do modelo proposto
59
Buscando analisar as vantagens que a proposta do modelo SINTR+ apresenta vale
lembrar que o modelo TR+ de Gonzalez jaacute apresenta benefiacutecios como
bull O processo de nominalizaccedilatildeo propicia melhores resultados de recuperaccedilatildeo do que
os produzidos pelos processos tradicionais (lematizaccedilatildeo e stemming)
bull A identificaccedilatildeo de RLBs colabora para a descriccedilatildeo de dependecircncia de termos que
ampliam o espaccedilo de descritores
bull O caacutelculo da representatividade dos descritores baseado em evidecircncia melhora a
classificaccedilatildeo da relevacircncia de documentos em relaccedilatildeo agravequela obtida atraveacutes da
extraccedilatildeo e do caacutelculo por frequumlecircncia de ocorrecircncia
bull O uso de consultas com operadores Booleanos oferece uma forma eficaz de
complementar a especificaccedilatildeo de co-dependecircncia semacircntica entre termos
As vantagens antevistas na elaboraccedilatildeo da proposta SINTR+ expandem as jaacute obtidas
pelo modelo de Gonzalez29 pois une a elas a vantagem do modelo de hierarquia de niacuteveis de
SN de Kuramoto Estas vantagens satildeo a ldquoEstrutura SINTR+rdquo executa em um menor tempo na
fase de indexaccedilatildeo dos documentos a ldquoEstrutura SINTR+rdquo conteacutem um tamanho menor de
arquivos de iacutendice e a ldquoEstrutura SINTR+rdquo proporciona facilidade na fase de nominalizaccedilatildeo
visto que os SN satildeo o nuacutecleo de maior significaccedilatildeo de um texto30
Os documentos (textos) usados como campo empiacuterico desta dissertaccedilatildeo foram artigos
retirados da Internet sobre o tema ldquoLixordquo Neste contexto fazem parte da coleccedilatildeo de
documentos temas como ldquoCuidados com o Lixordquo ldquoLixo Industrialrdquo ldquoO destino do lixo
quiacutemicordquo entre outros Como ainda natildeo havia disponiacuteveis extratores automaacuteticos de SN por
hierarquia em niacuteveis foi feita uma leitura dos textos dos quais se retirou manualmente seus
sintagmas Os SN significativos com o tema ldquoLixordquo foram extraiacutedos de dois (2) documentos
(que estatildeo nos ANEXOS A e B) e satildeo apresentados no Anexo C
Apoacutes esta etapa foram extraiacutedos todos os sintagmas nominais (somente do
documento1 - ANEXO A) que estatildeo sublinhados no texto independentes do tema para
exemplificar a extraccedilatildeo da consulta
Para avaliar preliminarmente a extensatildeo com que as vantagens antevistas no modelo
proposto realmente se verificariam foi realizado um teste com o documento1 (ANEXO A)
composto de 9 paraacutegrafos e 1006 palavras (Figura 21)
29 Este modelo foi testado e aprovado na sua proposta de doutorado que estaacute inserida no contexto do grupo de pesquisa da PUCRS no qual o autor participa de estudos na aacuterea haacute mais de uma deacutecada 30 Isto pode ser observado do Anexo A (Documento1) em que os SN satildeo destacados no texto
60
Figura 21 Nuacutemero de palavras do Documento1
O documento1 (ANEXO A) foi o escolhido para dimensionar a reduccedilatildeo no total de
palavrastermos a serem incluiacutedos na base de dados demonstrando a importacircncia do modelo
apresentado conforme tabela abaixo
Categorias Texto Total SNs Total de palavrastermos 1006 640
Substantivos 369 334 Adveacuterbios 41 04
Verbos 133 Ausecircncia de verbos Adjetivos 73 55
Figura 22 Tabela comparativa Texto Total e SNs
O texto possui um total de 1006 palavrastermos sendo destes 369 substantivos 41
adveacuterbios 133 verbos e 73 adjetivos (Figura 22) Do texto todo foi extraiacutedo um total de 139
sintagmas nominais E destes o nuacutemero total de palavrastermos eacute de 640 sendo 334
substantivos 04 adveacuterbios e 55 adjetivos
61
Documento1 - Cresce a induacutestria de reciclagem de plaacutesticos
369
41
133
7355
nordm de substantivos
nordm de adveacuterbios
nordm de verbos
nordm de adjetivos
nordm de adjetivosinseridos nos SN
Figura 22 Nuacutemero de substantivos adveacuterbios verbos e adjetivos do Documento1
Relacionando o nuacutemero de adjetivos do texto todo e os adjetivos inseridos nos SN
pode-se notar um ganho expressivo pois se tem uma reduccedilatildeo de 18 adjetivos Destes dados
133 verbos foram descartados (novamente afirma-se da importacircncia dos SN que representam a
unidade significativa do texto) Tambeacutem se observa que 37 adveacuterbios natildeo foram incluiacutedos
diminuindo assim o nuacutemero de descritores
Estes dados apontam aspectos positivos que consolidam a importacircncia da utilizaccedilatildeo
dos SN na diminuiccedilatildeo de descritores com consequumlente reduccedilatildeo do uso de memoacuteria e ainda
melhora na fase de busca pelo tempo de resposta
A Figura 23 apresenta o comparativo entre o percentual do nuacutemero de palavras do
texto com o percentual do nuacutemero de palavras dos Sintagmas Nominais Isto mostra que o
percentual de SN de 64 tem um valor reduzido colaborando para um nuacutemero menor de
descritores desta forma restringe-se tambeacutem o uso de memoacuteria (neste caso ocupado na fase
de indexaccedilatildeo) reduzem-se os descritores e diminui-se o tempo de resposta na fase de busca
Estes dados natildeo satildeo somente relevantes frente a um modelo de RI mas corroboram para a
manutenccedilatildeo do seu funcionamento
62
Dados Comparativos - Nordm de palavras restantes e dos SNs
64
36 Nordm de palavras dossintagmas nominaisNordm de palavras restantes
100 - nordm total de palavras
Figura 23 Nuacutemero de palavras restantes x Sintagmas Nominais
A Figura 24 mostra que existe um percentual de 28 de adjetivos inseridos nos
Sintagmas Nominais Esses adjetivos durante o processo de nominalizaccedilatildeo conforme
Gonzalez (2005) satildeo transformados em substantivos concretos eou abstratos (se houver) Isto
aponta um nuacutemero bem inferior comparado a um texto inteiro o que promove uma diminuiccedilatildeo
de substituiccedilotildees de um adjetivo por um substantivo concreto eou abstrato que pode inferir
no significado do documento e a reduccedilatildeo destas substituiccedilotildees evita possiacuteveis erros de
interpretaccedilatildeo
Dados Comparativos - Sintagmas Nominais e adjetivos
72
28nordm de sintagmas nominais
nordm de adjetivos inseridosnos SN
Figura 24 Sintagmas Nominais e adjetivos inseridos nos SN
A extraccedilatildeo dos Sintagmas Nominais corresponde agrave primeira etapa Depois desta
extraccedilatildeo manual se agrupou os SN em quatro niacuteveis 1 2 3 e 4 (ANEXO C)
Para o desenvolvimento das demais etapas (toquenizaccedilatildeo etiquetagem morfoloacutegica
nominalizaccedilatildeo e as relaccedilotildees lexicais binaacuterias) foi escolhido o paraacutegrafo 6 do documento1
(ANEXO A)
63
A induacutestria da reciclagem do plaacutestico no Brasil tem crescido bastante em funccedilatildeo do reaproveitamento do PET que eacute usado no segmento de monofilamentos em artigos como vassouras e na induacutestria tecircxtil Conforme Ana Flores a reciclagem gera 250 mil empregos no Paiacutes dos quais 70 satildeo informais Poreacutem a maior parte do potencial de mercado ainda estaacute sendo desperdiccedilada avalia ldquoCerca de 15 do total de plaacutestico que eacute industrializado no Paiacutes eacute reciclado Em dez anos poderiacuteamos chegar a 60 como nos Estados Unidos desde que fosse implementado um conjunto de medidas incentivando essa praacuteticardquo assegura
Tabela 3 Paraacutegrafo 6 do documento1
Na etapa de toquenizaccedilatildeo e etiquetagem satildeo identificadas classes de palavras como
substantivos adjetivos adveacuterbios preposiccedilotildees artigos conjunccedilotildees e inclusive ponto No
Anexo D eacute possiacutevel visualizar essas informaccedilotildees em duas ferramentas de extraccedilatildeo
disponiacuteveis nos sites do Projeto de Linguumliacutestica Computacional Hermes da Fundaccedilatildeo
Universidade Federal do Rio Grande (FURGBrasil) e do Programa de LAEL da PUC-SP -
Programa de Estudos Poacutes-Graduados em Linguumliacutestica Aplicada e Estudos da Linguagem da
Pontifiacutecia Universidade Catoacutelica de Satildeo Paulo31
A partir desta identificaccedilatildeo adjetivos adveacuterbios e verbos satildeo transformados em
substantivos (concreto eou abstrato) quando for possiacutevel Ou ateacute mesmo o adjetivo seja o
mesmo nome (grafia) para substantivos Esse processo de nominalizaccedilatildeo no trabalho de
Gonzalez (2005) foi realizado atraveacutes da ferramenta CHAMA desenvolvida por ele mesmo
Apoacutes o processo de nominalizaccedilatildeo satildeo identificadas as RLBs (Relaccedilotildees Lexicais
Binaacuterias) conforme descrito nesta seccedilatildeo Gonzalez (2005) desenvolveu tambeacutem a ferramenta
RELLEX para identificaccedilatildeo das RLBs Para o caso do teste optou-se por fazer manualmente32
(ANEXO E) devido agrave indisponibilidade destas duas ferramentas Esta etapa tem uma
importacircncia muito grande onde satildeo reconhecidos os relacionamentos das palavras no texto
atraveacutes de identificadores A tabela 4 mostra as RLBs identificadas do paraacutegrafo 6 do
documento1 (ANEXO A) de forma manual
RLBs classificaccedilatildeo =(textil industria)
RLBS restriccedilotildees
de (industria reciclagem) de (reciclagem plastico)
de (reaproveitamento PET) de (segmento monofilamento) de (mercado potencialidade)
de (plastico totalidade) de (conjunto medida)
Tabela 4 RLBs identificadas no paraacutegrafo 6 do documento1
31 As paacuteginas disponiacuteveis satildeo hermessourceforgenethermeswebhtml e httpwww2laelpucspbrcorporaetiquetagemindexhtml32 Dicionaacuterios consultados MICHAELIS Dicionaacuterio Eletrocircnico Acesso em mar de 2006 e FERREIRA Aureacutelio Buarque de Holanda Novo Aureacutelio Seacuteculo XXI o dicionaacuterio da liacutengua portuguesa 1999
64
42 Descriccedilatildeo Formal do Modelo Proposto SINTR+
Os Sintagmas Nominais de Kuramoto em conjunto com as abordagens utilizadas no
modelo TR+ de Gonzalez promovem a utilizaccedilatildeo de conceitos orientados a objetos (OO)
porque eacute considerada a melhor metodologia para projeto de software permite uma
organizaccedilatildeo aprimorada do coacutedigo tem uma proximidade com a UML (Linguagem de
Modelagem Unificada) proporciona uma facilidade de manutenccedilatildeo do coacutedigo apresenta
menor grau de replicaccedilatildeo do coacutedigo e possibilita uma aplicaccedilatildeo em camadas o MVC33 um
padratildeo de projeto atraveacutes da Linguagem Orientada a Objetos Para compreender estes
conceitos e o desenvolvimento da modelagem proposta ressaltaram-se alguns aspectos baacutesicos
de seus fundamentos
A Linguagem UML segundo Larman (2000) expressa a modelagem de sistemas e
utiliza os conceitos orientados a objetos Como na aplicaccedilatildeo proposta trabalhar-se-aacute
especificamente apenas nas etapas de anaacutelise e projeto considera-se importante o uso da
linguagem UML por ser esta uma linguagem poderosa para expressar de modo claro e preciso
o processo de geraccedilatildeo de projetos de software Para Wazlawick (2004) esta linguagem daacute
suporte a que esse processo gere uma estrutura faacutecil de ser compreendida Para o autor isto
ocorre quando se utiliza um software autodocumentado e de faacutecil entendimento tanto em niacutevel
macro quanto em detalhes
Este autor define que o Processo Unificado (UP) estaacute associado agrave notaccedilatildeo UML e
indica que suas fases satildeo concepccedilatildeo elaboraccedilatildeo construccedilatildeo e transiccedilatildeo Conforme
Wazlawick (2004) eacute na primeira fase que se faz o levantamento dos principais requisitos e
compreende-se o sistema de forma abrangente A fase de elaboraccedilatildeo eacute constituiacuteda de anaacutelise e
projeto e a fase de construccedilatildeo corresponde agrave implementaccedilatildeo e testes
A anaacutelise de requisitos ainda segundo este autor (2004 p 24) ldquoestaacute associada ao
processo de descobrir quais satildeo as operaccedilotildees que o sistema deve realizar e quais satildeo as
restriccedilotildees que existem sobre elasrdquo Jaacute a anaacutelise de domiacutenio ldquoestaacute relacionada agrave descoberta das
informaccedilotildees gerenciadas pelo sistema ou seja agrave representaccedilatildeo e transformaccedilatildeo da
informaccedilatildeordquo (2004 p 26)
No caso de um sistema de informaccedilotildees sobre uma instituiccedilatildeo de ensino (Moacutedulo
controle de alunos) por exemplo possivelmente a anaacutelise de requisitos permitiria descobrir
que o sistema deveria controlar a data o curso e a turma em que o aluno foi matriculado o
iniacutecio e teacutermino do curso calcular automaticamente os pagamentos gerar relatoacuterios de
65
contrato especificando as claacuteusulas legais de direito e dever do aluno na Instituiccedilatildeo etc Essas
operaccedilotildees satildeo chamadas de ldquorequisitos funcionaisrdquo
Haacute tambeacutem relacionados a um sistema em construccedilatildeo os requisitos natildeo funcionais
que dizem respeito agrave operaccedilatildeo e agrave usabilidade do sistema Um exemplo de requisito natildeo-
funcional seria a necessidade de fazer a matriacutecula via Internet Essa eacute uma restriccedilatildeo de
operaccedilatildeo Um outro exemplo seria uma central de acidentes de tracircnsito onde o registro de um
dado acidente devesse ser feito em no maacuteximo 10 segundos o que demandaria um
processamento e uma interface bastante eficiente constituindo-se esse em um requisito de
usabilidade
Para as etapas de levantamento e anaacutelise de requisitos costuma ser utilizado o
diagrama de casos de uso Segundo Guedes (2004) esse diagrama possibilita a compreensatildeo
do comportamento externo do sistema por qualquer pessoa Entendem-se aqui casos de uso
segundo Larman (2000) como um documento narrativo que descreve a sequumlecircncia de eventos
(accedilotildees) de um ator (um agente externo) que usa um sistema para completar um processo e
descreve tambeacutem as respostas do sistema Pode se dizer que caso de uso eacute um cenaacuterio com
atores e ambientes Criam-se as cenas e as narrativas das mesmas ajudando a entender o que
se quer do sistema O interessante dos casos de uso eacute que os mesmos permitem que o projeto
seja construiacutedo de forma participativa por um grupo de pessoas uma vez que sua descriccedilatildeo se
daacute em uma linguagem textual e diagramaacutetica
A partir dos casos de uso eacute possiacutevel construir o modelo conceitual Conforme Larman
(2000 p 99) ldquoo modelo conceitual ilustra os conceitos significativos em um domiacutenio de
problemardquo Para Wazlawick (2004 p 102) ldquoo modelo conceitual deve descrever a
informaccedilatildeo que o sistema vai gerenciar trata-se de um artefato do domiacutenio do problema e
natildeo do domiacutenio da soluccedilatildeordquo
Eacute importante ressaltar que o modelo conceitual representa somente o aspecto estaacutetico
da informaccedilatildeo Os elementos que representam informaccedilatildeo satildeo conceitos (representados por
classes) atributos (informaccedilotildees alfanumeacutericas ligadas diretamente aos conceitos) e
associaccedilotildees (tipo de informaccedilatildeo que liga diferentes conceitos entre si)
O diagrama de casos de uso do sistema proposto foi desenvolvido no software JUDE
Community Ferramenta de Modelagem UML Um software freeware muito utilizado para a
criaccedilatildeo deste tipo de diagramas Neste software podem tambeacutem ser desenvolvidos os outros
tipos de diagramas do UML tais como de classes sequumlecircncia colaboraccedilatildeo graacuteficos de
estados
33 A sigla significa Model View e Controller
66
Os casos de uso identificados para esta aplicaccedilatildeo foram descritos em duas situaccedilotildees
A primeira eacute referente agrave pesquisa do usuaacuterio e a segunda ao gerenciamento e operaccedilatildeo do
banco de dados (BD) no niacutevel de administrador Para descobrir estes casos de uso foi
necessaacuterio primeiramente identificar os atores envolvidos com o sistema (usuaacuterio e
administrador) E na sequumlecircncia a cada grande processo reconhecido correspondeu a um caso
de uso do sistema
As Figuras 25 e 26 satildeo diagramas na UML que representam casos de uso e seus
atores As elipses significam casos de uso e os bonecos representam atores Para cada uma das
situaccedilotildees (pesquisa e gerenciamento de operaccedilatildeo do BD no niacutevel de administrador) foram
identificados os seguintes casos de uso
Figura 25 Diagrama de casos de uso da UML do sistema proposto ndash Pesquisa do Usuaacuterio
67
Figura 26 Diagrama de casos de uso da UML do sistema proposto ndash Gerenciamento e Operaccedilatildeo do BD no
niacutevel de administrador
Deve-se lembrar que na proposta deste trabalho para economia de espaccedilo de
memoacuteria foram sistematizados dois momentos o 1ordm em um armazenamento na base de dados
do documento apenas para a lista final do usuaacuterio e outro com os Sintagmas Nominais que
seratildeo armazenados na base de dados no 4ordm ou no uacuteltimo niacutevel apresentado (Figura 19) Os
niacuteveis anteriores relativos ao SN seratildeo procurados por uma programaccedilatildeo desenvolvida
relacionada diretamente com os Sintagmas Com isto natildeo haveraacute necessidade de acesso agrave
memoacuteria da base de documentos em todas as accedilotildees e esta serviraacute somente na uacuteltima escolha
do usuaacuterio tendo um ganho significativo quanto agrave rapidez de acesso aos dados da base e a natildeo
existecircncia de duplicaccedilatildeo de dados
Os casos de uso costumam ser documentados conforme Guedes (2004) por meio de
uma linguagem bastante simples fornecendo a funccedilatildeo em linhas gerais dos casos de uso
quais atores interagem com os mesmos quais etapas devem ser executadas pelo ator e pelo
sistema quais paracircmetros devem ser fornecidos e quais restriccedilotildees o caso de uso deve possuir
As Tabelas abaixo (5 a 15) apresentam as descriccedilotildees dos casos de uso do sistema proposto
referente ao gerenciamento e operaccedilatildeo do BD no niacutevel de administrador
68
Nome do Caso de Uso Inserir novo documento Caso de Uso Geral natildeo possui Ator Principal Administrador Atores secundaacuterios natildeo possui Resumo Permite ao administrador do sistema inserir arquivos na base de dados de documentos iniciando o processo de alimentaccedilatildeo de todas as demais bases de dados Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema 1) Anexar um documento 2) Verificar se documento jaacute natildeo existe na base de dados 3) Inserir o documento Restriccedilotildeesvalidaccedilotildees Apenas documentos vaacutelidos34 deveratildeo ser aceitos
Tabela 5 Descriccedilatildeo do caso de uso ndash Inserir novo documento Nome do Caso de Uso Alimentar base de dados (Documentos) Caso de Uso Geral natildeo possui Ator Principal natildeo possui Atores secundaacuterios natildeo possui Resumo Armazenar em meio fiacutesico e com seguranccedila os documentos inseridos pelo Administrador atraveacutes do sistema Preacute-condiccedilotildees Administrador anexa um documento vaacutelido Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema 1) Armazenar em base de dados os documentos anexados Restriccedilotildeesvalidaccedilotildees natildeo possui
Tabela 6 Descriccedilatildeo do caso de uso ndash Alimentar base de dados (Documentos) Nome do Caso de Uso Extrair SN de 4ordm ou uacuteltimo niacutevel Caso de Uso Geral natildeo possui Ator Principal natildeo possui Atores secundaacuterios natildeo possui Resumo Extrair do documento inserido na base de dados todos os sintagmas nominais de 4ordm ou uacuteltimo niacutevel
Preacute-condiccedilotildees o documento estar devidamente validado e inserido na base de dados Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema
1) realizar a anaacutelise do documento inserido extraindo todos os sintagmas nominais de 4ordm ou uacuteltimo niacutevel enviando informaccedilotildees para alimentaccedilatildeo de base de dados de sintagmas
Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 7 Descriccedilatildeo do caso de uso ndash Extrair SN de 4ordm ou uacuteltimo niacutevel
34 Documentos vaacutelidos satildeo considerados aqui apenas os documentos em formato de texto (como doc txt)
69
As accedilotildees do sistema da tabela 7 seguem as regras estabelecidas na seccedilatildeo 41 da paacutegina 66 Nome do Caso de Uso Tratar regras verbais Caso de Uso Geral natildeo possui Ator Principal natildeo possui Atores secundaacuterios natildeo possui Resumo Realizar o tratamento de regras verbais dos sintagmas nominais de 4ordm ou uacuteltimo niacutevel extraiacutedos do documento Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema
1) aplicar rotinas de tratamento de regras verbais e palavras no infinitivo
Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 8 Descriccedilatildeo do caso de uso ndash Tratar regras verbais
Nome do Caso de Uso Extrair SN de niacuteveis 3 2 e 1 (niacuteveis anteriores) Caso de Uso Geral natildeo possui Ator Principal natildeo possui Atores secundaacuterios natildeo possui Resumo Aplicar regras de extraccedilatildeo de sintagmas de niacuteveis 3 2 e 1 (niacuteveis anteriores) Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema
1) Definir o niacutevel apropriado de cada sintagma a partir do 4ordm ou uacuteltimo niacutevel enviando informaccedilatildeo para o usuaacuterio
Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 9 Descriccedilatildeo do caso de uso ndash Extrair SN de niacuteveis 3 2 e 1 (niacuteveis anteriores)
A tabela 9 segue a mesma regra da tabela 7
Nome do Caso de Uso Alimentar base de dados (Sintagmas) Caso de Uso Geral natildeo possui Ator Principal natildeo possui Atores secundaacuterios natildeo possui Resumo Persistir as informaccedilotildees extraiacutedas nos casos de uso ldquoExtrair SN de 4ordm ou uacuteltimo niacutevelrdquo Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema
1) Armazenar na base de dados o 4ordm ou uacuteltimo niacutevel de sintagma extraiacutedo do documento inserido
Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 10 Descriccedilatildeo do caso de uso ndash Alimentar base de dados (Sintagmas)
70
Nome do Caso de Uso Toquenizar e etiquetar Caso de Uso Geral natildeo possui Ator Principal Software Forma Atores secundaacuterios natildeo possui Resumo Submeter os sintagmas extraiacutedos ao software Forma Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema
1) Aplicar o conceito de Toquenizaccedilatildeo e Etiquetagem dos sintagmas extraiacutedos e armazenados em base de dados
Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 11 Descriccedilatildeo do caso de uso ndash Toquenizar e etiquetar
Nome do Caso de Uso Nominalizar Caso de Uso Geral natildeo possui Ator Principal Software Chama Atores secundaacuterios natildeo possui Resumo Submeter as informaccedilotildees resultantes do processo de Toquenizaccedilatildeo e Etiquetagem ao software Chama Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema
1) Aplicar o conceito de Nominalizaccedilatildeo das informaccedilotildees do documento
Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 12 Descriccedilatildeo do caso de uso ndash Nominalizar
Nome do Caso de Uso Capturar RLBs Caso de Uso Geral natildeo possui Ator Principal Software Rellex Atores secundaacuterios natildeo possui Resumo Submeter as informaccedilotildees resultantes do processo de Nominalizaccedilatildeo ao software Rellex Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema
1) Realizar o processo de captura de RLBs a partir das informaccedilotildees extraiacutedas do documento
Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 13 Descriccedilatildeo do caso de uso ndash Capturar RLBs
71
Nome do Caso de Uso Calcular peso dos descritores Caso de Uso Geral natildeo possui Ator Principal Software Peso dos Descritores Atores secundaacuterios natildeo possui Resumo Submeter as informaccedilotildees resultantes do processo de Captura de RLBs ao software Peso de Descritores Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema
1) Calcular o peso dos descritores ao resultado obtido atraveacutes da captura de RLBs do documento
Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 14 Descriccedilatildeo do caso de uso ndash Calcular peso dos descritores
Nome do Caso de Uso Alimentar base de dados (Termos e RLBs) Caso de Uso Geral natildeo possui Ator Principal natildeo possui Atores secundaacuterios natildeo possui Resumo Persistir as informaccedilotildees obtidas nos casos de uso ldquoNominalizarrdquo ldquoCapturar RLBsrdquo e ldquoCalcular peso dos descritoresrdquo na base de dados de Termos e RLBs Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema
1) Armazenar as informaccedilotildees relativas aos Termos e RLBs extraiacutedos do documento em base de dados
Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 15 Descriccedilatildeo do caso de uso ndash Alimentar base de dados (Termos e RLBs)
Apoacutes a identificaccedilatildeo dos casos de uso e suas descriccedilotildees partiu-se para o modelo
conceitual da aplicaccedilatildeo proposta
72
Figura 27 Modelo Conceitual do sistema proposto
O diagrama de classes segundo Guedes (2004) eacute considerado o mais importante e o
mais utilizado diagrama da UML Eacute o diagrama de classes que permite a visualizaccedilatildeo das
classes que iratildeo compor o sistema com os seus respectivos atributos e meacutetodos Demonstra
como as classes se relacionam complementam e transmitem informaccedilotildees entre si Pode-se
dizer que esse diagrama serve ainda como base para a construccedilatildeo de outros diagramas da
linguagem UML
A Figura 28 apresenta o diagrama de classes do modelo proposto referente agrave Pesquisa
do usuaacuterio
Foi construiacutedo um diagrama de classes (Pesquisa de Usuaacuterio) seguindo estas
definiccedilotildeesaccedilotildees
Paacutegina de Consulta refere-se a uma paacutegina HTML de pesquisa (ou seja uma
linguagem para Web) ou tambeacutem a uma interface graacutefica (GUI) para computador
desktop (cliente)
Controlador da Paacutegina conteacutem a loacutegica de negoacutecio da aplicaccedilatildeo
Classe Sintagma bean responsaacutevel por instanciar e classificar sintagmas de
diferentes niacuteveis usa o meacutetodo setSintagma para receber informaccedilotildees vindas da
paacutegina passando pelo controlador
Classe ListaSintagma cria instacircncia de array de Sintagma associando-os a
instacircncias de Documento Realiza a busca e classificaccedilatildeo destes retornando ao
controlador e posteriormente agrave paacutegina atraveacutes do meacutetodo getDocumentos
73
Classe Documento instacircncia de Documento armazenado em base de dados de
documentos
Figura 28 Diagrama de classes do sistema proposto ndash Pesquisa de Usuaacuterio
A Figura 29 apresenta o diagrama de classes do modelo proposto referente ao
Gerenciamento e Operaccedilatildeo do BD no niacutevel de administrador
Foi construiacutedo um segundo diagrama de classes seguindo estas definiccedilotildeesaccedilotildees
Paacutegina de Consulta refere-se a uma paacutegina HTML de inclusatildeo de documentos
Controlador da Paacutegina conteacutem a loacutegica de negoacutecio da aplicaccedilatildeo
Classe DocumentoBase bean responsaacutevel por instanciar um objeto que iraacute conter
o documento a inserir bem como realizar os processos de toquenizaccedilatildeo e
etiquetagem (trocando mensagens com o software FORMA) nominalizaccedilatildeo
(trocando mensagens com o software CHAMA) gerando termos e RLBs
(trocando mensagens com o software RELLEX) e por fim inserindo as
informaccedilotildees nas bases de dados
Classes Termo e RLB indicam as instacircncias de objetos termos e RLBs e deveratildeo
ser modeladas conforme especificaccedilatildeo do software RELLEX
74
Figura 29 Diagrama de classes do sistema proposto ndash Gerenciamento e Operaccedilatildeo do BD no niacutevel de
administrador
O diagrama de sequumlecircncia segundo Guedes (2004) procura determinar a sequumlecircncia de
eventos que ocorrem em um determinado processo isto eacute quais meacutetodos devem ser disparados
entre os objetos envolvidos quais condiccedilotildees devem ser satisfeitas e em que ordem durante o
processo especiacutefico Foram construiacutedos os diagramas de sequumlecircncia abaixo (Figuras 30 e 31) da
aplicaccedilatildeo proposta
75
Figura 30 Diagrama de Sequumlecircncia do sistema proposto ndash Pesquisa de Usuaacuterio
76
Figura 31 Diagrama de Sequumlecircncia do sistema proposto ndash Gerenciamento e Operaccedilatildeo do BD no niacutevel de administrador
Na elaboraccedilatildeo dos diagramas e descriccedilotildees dos casos de uso e dos diagramas de
classes e de sequumlecircncia observou-se a importacircncia do modelo conceitual porque permitiu
orientar as etapas de desenvolvimento do modelo proposto Visto que no modelo conceitual
foram criados conceitos atributos e associaccedilotildees referentes agrave particularidade da pesquisa que
puderam ser utilizados para a construccedilatildeo das etapas dos diagramas
77
5 CONCLUSAtildeO
Neste capiacutetulo apresentam-se as consideraccedilotildees finais incluindo os aspectos relativos
agraves dificuldades aos progressos e limitaccedilotildees encontradas durante o desenvolvimento da
pesquisa bem como as sugestotildees para a continuidade deste trabalho
O objetivo geral que norteou este trabalho levou ao estudo dos modelos de busca e ao
desenvolvimento de uma proposta para a melhoria dos processos de recuperaccedilatildeo de
informaccedilotildees
Centrando-se no tema Recuperaccedilatildeo de Informaccedilatildeo foram analisados os modelos de
Kuramoto (1999) e posteriormente de Gonzalez (2005) O modelo de Kuramoto baseado
em uma estrutura hieraacuterquica de sintagmas nominais possibilita ao usuaacuterio definir melhor a
sua query de busca A Estrutura de Qualia do Leacutexico Gerativo de Pustejovsky contribuiu para
o entendimento das relaccedilotildees e da estrutura de construccedilatildeo de significado entre as palavras
permitindo o tratamento de questotildees semacircnticas como a polissemia loacutegica A proposta de
Gonzalez apropriando-se dos resultados de Pustejovsky evidencia caracteriacutesticas
morfoloacutegicas e relaccedilotildees de coesatildeo importantes na descriccedilatildeo de conceitos presentes em um
texto propiciando que um texto possa computacionalmente significar mais do que uma
sequumlecircncia de palavras
Buscou-se uma siacutentese dessas propostas identificando as possibilidades de ampliaccedilatildeo
do modelo de Kuramoto pela junccedilatildeo da teoria do Leacutexico Gerativo de Pustejovsky utilizadas
nesta dissertaccedilatildeo a partir do modelo de Gonzalez que se manteve adequado devido ao fato de
que o autor apresenta processos para as fases de indexaccedilatildeo busca e classificaccedilatildeo de RI Os
termos e relacionamentos inseridos na base de dados do modelo TR+ de Gonzalez estatildeo
implicitamente relacionados com a Estrutura de Qualia do LG
O novo modelo SINTR+ aleacutem do suporte ao usuaacuterio envolve a anaacutelise a
sistematizaccedilatildeo e a ampliaccedilatildeo do modelo de Kuramoto com a utilizaccedilatildeo da estrutura TR+ de
Gonzalez (2005) para a melhoria e a otimizaccedilatildeo do processo de seleccedilatildeo dos documentos
recuperados em uma busca
O estudo e a descriccedilatildeo do modelo em UML permitiu por ser uma linguagem
poderosa expressar de modo mais claro e preciso o modelo SINTR+ Foi construiacuteda a anaacutelise
de domiacutenio do sistema desejado incluindo o desenvolvimento de diagramas de casos de uso
bem como suas descriccedilotildees do modelo conceitual de diagramas de classes e de sequumlecircncia As
78
fases de anaacutelise e projeto desenvolvidas para a aplicaccedilatildeo proposta datildeo suporte agrave continuidade
do seu desenvolvimento
O novo modelo desenvolvido foi projetado como um sistema de recuperaccedilatildeo de
informaccedilatildeo (SRI) aplicaacutevel a bases de dados natildeo distribuiacutedas abrangendo a um determinado
domiacutenio de aplicaccedilatildeo a sua adequaccedilatildeo e expansatildeo para uso na Web constitui-se em uma
importante linha de continuidade de pesquisa
A principal contribuiccedilatildeo deste trabalho estaacute na sistematizaccedilatildeo e siacutentese das teorias de
Kuramoto com Gonzalez indicando o uso dessas teorias como uma nova alternativa para a
melhoria da busca de recuperaccedilatildeo de informaccedilotildees Os modelos de recuperaccedilatildeo simplesmente
buscavam as informaccedilotildees solicitadas pelo usuaacuterio O novo modelo proposto SINTR+ baseia-
se na interaccedilatildeo entre o usuaacuterio e a maacutequina atraveacutes de Sintagmas Nominais por niacuteveis e
tambeacutem nas relaccedilotildees das palavras conforme o modelo de Gonzalez
Com este trabalho natildeo se pretendeu desenvolver uma implementaccedilatildeo completa do
modelo construiacutedo Mas o trabalho conseguiu mostrar a exequumlibilidade desta implementaccedilatildeo
computacional descrevendo os diagramas e as descriccedilotildees dos casos de uso e a sua modelagem
conceitual culminando com a construccedilatildeo dos diagramas de classes e de sequumlecircncia A proacutexima
etapa que permitiria detalhar as potencialidades e limitaccedilotildees do modelo de forma ampla
poderia se constituir em amplos estudos de casos onde se determinaria a complexidade
computacional da implementaccedilatildeo requerida
Os dados apresentados no capiacutetulo 4 jaacute indicam aspectos positivos que consolidam a
importacircncia da utilizaccedilatildeo dos Sintagmas Nominais na diminuiccedilatildeo de descritores para
manipulaccedilatildeo com um ganho bastante significativo porque os iacutendices possuem informaccedilotildees
relevantes dos documentos (conceitos significativos de uma sentenccedila) e com isto agiliza-se a
pesquisa na base de dados Quer-se crer aqui e um estudo mais amplo poderia determinar que
essa reduccedilatildeo de descritores natildeo deve ter nenhum impacto na qualidade da busca realizada
Outro aspecto significativo eacute a reduccedilatildeo do uso de memoacuteria tanto na fase de indexaccedilatildeo
como na de busca tornando mais raacutepido o processo interno
Outro aspecto positivo se refere agrave melhoria de desempenho como um todo pois
quanto menor o traacutefego em uma rede menos informaccedilotildees o servidor vai processar e estaraacute
mais disponiacutevel E quanto melhor for o processo de indexaccedilatildeo menos memoacuteria o servidor vai
utilizar E com isto o tempo de resposta na fase de busca diminui e o resultado qualitativo da
pesquisa se amplia
79
Uma outra vantagem eacute que no modelo SINTR+ seratildeo armazenados na base de dados
os documentos e seus SN de uacuteltimos niacuteveis e manipulados apenas os uacuteltimos niacuteveis da
estrutura de SN Seraacute soacute atraveacutes de uma programaccedilatildeo que seratildeo classificados por niacuteveis
diminuindo assim o volume duplicado de dados na manipulaccedilatildeo
Os diagramas construiacutedos referentes ao gerenciamento e operaccedilatildeo do BD no niacutevel do
administrador satildeo fundamentais para o entendimento do funcionamento e da manutenccedilatildeo do
banco de dados facilitando processos como a inserccedilatildeo de novos documentos e outras accedilotildees
contribuindo tambeacutem para o diferencial deste trabalho
80
6 REFEREcircNCIAS BIBLIOGRAacuteFICAS
ABRAHAtildeO Paulo Ricardo Carneiro Modelagem e Implementaccedilatildeo de um Leacutexico Semacircntico para o Portuguecircs Dissertaccedilatildeo (Mestrado) Porto Alegre PUCRS 1997
ABREU Sandra C GOULART Rodrigo VIEIRA Renata (2004) Identificaccedilatildeo de Expressotildees Anafoacutericas e Natildeo Anafoacutericas com Base na Estrutura do Sintagma 2ordm Workshop em Tecnologia da Informaccedilatildeo e da Linguagem Humana (TIL 2004) - SalvadorBA - 05 e 06 de agosto de 2004 Disponiacutevel em httpwwwinfunisinosbr~renatalaboratoriopublicacoestilsandra04pdf Acesso em nov de 2004
BAEZA-YATES Ricardo RIBEIRO-NETO Berthier Modern Information Retrieval New York Addison-Wesley 1999
CARDOSO Olinda N P Recuperaccedilatildeo de Informaccedilotildees In Infocomp-Journal of Computer Science vol 2 n 1 Lavras MG 2000 p33-38 Disponiacutevel em httpwwwdccuflabrinfocompartigosv21olindapdf Acesso em mar de 2004
CHISHMAN Rove et al Extraccedilatildeo de Sintagmas Nominais para o Processamento de Co-Referecircncia In V Encontro para o processamento computacional do Portuguecircs escrito e falado (PROPOR 2000) Atibaia - Satildeo Paulo Anais do V Encontro para o processamento computacional do Portuguecircs escrito e falado Satildeo Carlos ICMCUSP 2000 Disponiacutevel em httpwwwinfunisinosbr~renatalaboratoriopublicacoespropor00pdf Acesso em jan de 2005
FERNEDA Edberto Recuperaccedilatildeo de Informaccedilatildeo anaacutelise sobre a contribuiccedilatildeo da ciecircncia da computaccedilatildeo para a ciecircncia da informaccedilatildeo Tese (Doutorado) Satildeo Paulo USP Escola de Comunicaccedilatildeo e Artes 2003 Disponiacutevel em httpwwwtesesuspbrtesesdisponiveis2727143tde-15032004-130230 Acesso em set de 2004
FERREIRA Aureacutelio Buarque de Holanda Novo Aureacutelio Seacuteculo XXI o dicionaacuterio da liacutengua portuguesa 3ed Rio de Janeiro Nova Fronteira 1999
GASPERIN C GOULART R VIEIRA R Uma ferramenta para Resoluccedilatildeo Automaacutetica de Co-referecircncia Anais do Encontro Nacional de Inteligecircncia Artificial (ENIA) Campinas SP 2003 Disponiacutevel em httpwwwexatecunisinosbr~renatalaboratoriopublicacoesart1pdf Acesso em set de 2004
81
GONZALEZ Marco Antocircnio Insaurriaga Representaccedilatildeo Semacircntica de Sentenccedilas em Linguagem Natural e sua aplicaccedilatildeo na Recuperaccedilatildeo de Informaccedilatildeo Trabalho Individual 2 Doutorado Porto Alegre PPCC da PUCRS 2000
________ O Leacutexico Gerativo de Pustejovsky sob o enfoque da Recuperaccedilatildeo de Informaccedilotildees Trabalho Individual 1 Doutorado Porto Alegre PPCC da PUCRS 2000a
________ Termos e Relacionamentos em Evidecircncia na Recuperaccedilatildeo de Informaccedilatildeo Tese (Doutorado) Porto Alegre PPGC da UFRGS 2005
GUEDES Gilleanes T A UML uma abordagem praacutetica Satildeo Paulo Novatec 2004
HILL Brad Pesquisa na Internet Rio de Janeiro Campus 1999
KURAMOTO Heacutelio Proposition drsquoum Systegraveme de Recherche drsquoInformation Assisteacutee par Ordinateur Tese (Doutorado) LrsquoUniversiteacute Lumiegravere ndash Lyon - Franccedila 1999
________ Uma abordagem alternativa para o tratamento e a recuperaccedilatildeo de informaccedilatildeo textual os sintagmas nominais Ciecircncia da Informaccedilatildeo (Brasiacutelia) v25 n2 1995 Disponiacutevel em httpdiciibictbrarchive0000016901Ci[1]Inf-2004-476pdf Acesso em mar de 2004
________ Sintagmas Nominais uma nova proposta para a recuperaccedilatildeo de informaccedilatildeo DataGramaZero Revista de Ciecircncia da Informaccedilatildeo v3 n1 fev 2002 Disponiacutevel em httpwwwdgzeroorgfev02Art_03htm Acesso em mar de 2004
LARMAN Craig Utilizando UML e Padrotildees uma introduccedilatildeo agrave anaacutelise e ao projeto orientado a objetos Porto Alegre Bookman 2000
MARTINS Dileta Silveira ZILBERKNOP Luacutebia Scliar Portuguecircs Instrumental 20ordf ed Porto Alegre Sagra Luzzatto 1999
MOURA Heronides M de M A determinaccedilatildeo de sentidos lexicais no contexto Cadernos de Estudos Linguumliacutesticos v 41 Campinas SP 2001 NETO Magdiel Medeiros Aragatildeo A polissemia em palavras designativas de objetos fiacutesicos e eventos 2003 Disponiacutevel em httpwwwabralinorgbranaishtm Acesso em mai de 2004
________A Polissemia de acordo com a Teoria do Leacutexico Gerativo Satildeo Miguel do Oeste SC Revista do Centro de Ciecircncias da Comunicaccedilatildeo e Artes n6 maiago 2003a
82
PUSTEJOVSKY James The Generative Lexicon Association for Computational Linguistics Computer Science Department Brandeis University Cambridge MA The MIT Press 1991 Disponiacutevel em httpportalacmorgcitationcfmid=176324 Acesso em set de 2004
ROSSI Albertina Palavras Polissecircmicas entre evento e informaccedilatildeo e seu tratamento nos dicionaacuterios Aureacutelio e Houaiss Tese (Doutorado) Florianoacutepolis USFC Centro de Comunicaccedilatildeo e Expressatildeo - Programa de Poacutes-Graduaccedilatildeo em LetrasLinguumliacutestica 2003
SILVA Edna Luacutecia da Metodologia da pesquisa e elaboraccedilatildeo de dissertaccedilatildeo Edna Luacutecia da Silva Estera Muszkat Menezes ndash 2a ed revndash Florianoacutepolis Laboratoacuterio de Ensino a Distacircncia da UFSC 2001 Disponiacutevel em httpprojetosinfufscbrarquivosMetodologia20da20Pesquisa203a20edicaopdf Acesso em mai de 2005
SILVA Maria C de S KOCH Ingedore V Linguumliacutestica aplicada ao portuguecircs sintaxe 5ed Satildeo Paulo Cortez 1993
WAZLAWICK Raul Sidnei Anaacutelise e Projeto de Sistemas de Informaccedilatildeo Orientados a Objetos Rio de Janeiro Elsevier 2004
61 Bibliografia Consultada
BRAumlSCHER Marisa A Ambiguumlidade na Recuperaccedilatildeo da Informaccedilatildeo Revista Ciecircncia da Informaccedilatildeo (Brasiacutelia) v3 n1 2002 Disponiacutevel em httpwwwdgzorgbrfev02Art_05htm Acesso em abr de 2004
CARVALHO Niacutevea M de Melo Recuperaccedilatildeo da informaccedilatildeo implementaccedilatildeo e avaliaccedilatildeo de sistema de recuperaccedilatildeo de informaccedilatildeo utilizando o modelo vetorial Dissertaccedilatildeo (Mestrado) Amazonas Universidade Federal do Amazonas Programa de Poacutes-Graduaccedilatildeo em Informaacutetica 2002 Disponiacutevel em httpposfacomufubr~reneacervosriRI-ModeloVetorial-NiveaCarvalhopdf Acesso em Ago de 2004
FODOR Jerry LEPORE Ernie The emptiness of the Lexicon Critical Reflections on J Pustejovskyrsquos The Generative Lexicon Rutgers University Center for Cognitive Science
83
GOMES Andreacuteia de Faacutetima R O singular nu e a sentenccedila geneacuterica no portuguecircs brasileiro Dissertaccedilatildeo (Mestrado) Florianoacutepolis UFSC Programa de Poacutes-Graduaccedilatildeo em Linguumliacutestica 2001
GONZALEZ Marco LIMA Vera L S de Sintagma Nominal em Estrutura Hieraacuterquica Temaacutetica na Recuperaccedilatildeo de Informaccedilatildeo Anais ENIA 2001 Fortaleza 2001 Disponiacutevel em httpwwwinfpucrsbr~gonzalezdocssnehtpdf Acesso em dez 2005
________ T-Lex Thesaurus com Estruturaccedilatildeo Semacircntica e Operaccedilotildees Gerativas XXVII Conferencia Latinoamericana de Informatica (CLEI2001) Ciudad de Meacuterida Venezuela 2001 Disponiacutevel em httpwwwinfpucrsbr~gonzalezdocsartigotlexpdf Acesso em jan de 2006 (httpwwwinfpucrsbr~gonzalezpesqqhtm)
________ Recuperaccedilatildeo de Informaccedilatildeo e Processamento da Linguagem Natural XXIII Congresso da Sociedade Brasileira de Computaccedilatildeo Campinas 2003 Anais do III Jornada de Mini-Cursos de Inteligecircncia Artificial Disponiacutevel em httpwwwinfpucrsbr~gonzalezdocsminicurso-jaia2003pdf Acesso em jan de 2006
HEIDE Ann Guia do Professor para a Internet completo e faacutecil 2ed Porto Alegre Artes Meacutedicas Sul 2000
MOURA Heronides M de M Linguagem e cogniccedilatildeo na interpretaccedilatildeo de metaacuteforas Universidade Federal de Juiz de Fora Editora UFJF 2003 Disponiacutevel em httpwwwrevistaveredasufjfbrvolumesv6n1cap11pdf Acesso em jan de 2006
PARREIRAS Fernando O uso de sintagmas nominais como fonte de descritores para textos de perioacutedicos cientiacuteficos Escola de Ciecircncia da Informaccedilatildeo Belo Horizonte 2003 Disponiacutevel em httpwwwfernandoparreirasnombrpublicacoessnpdf Acesso em set de 2004
PEacuteREZ Claacuteudia C C GASPERIN Caroline VIEIRA Renata Extraccedilatildeo Semi-Automaacutetica de Conhecimento a partir de Textos 2003 Disponiacutevel em httpwwwinfunisinosbr~renatalaboratorio publicacoesenia2003-submittedpdf Acesso em ago de 2005
PIZZATO Luiz A Estrutura Multitesauro para Recuperaccedilatildeo de Informaccedilotildees Dissertaccedilatildeo (Mestrado) Porto Alegre PUCRS Faculdade de Informaacutetica - Poacutes-Graduaccedilatildeo em Ciecircncia da Computaccedilatildeo 2003 Disponiacutevel em httpwwwpucrsbrunipoainfoposdissertacoesarquivospizzatopdf Acesso em ago de 2004
84
PUSTEJOVSKY James Type Construction and the logic of concepts Disponiacutevel em httpwwwcsbrandeisedu~jamesparticlesindexhtml Acesso em set de 2004
________ The Metaphysics of Words in Context (2000) Disponiacutevel em httpwwwcsbrandeisedu~jamesparticlesindexhtml Acesso em set de 2004
________ The Semantics of Agentive Nominals Disponiacutevel em httpwwwcsbrandeisedu~jamesparticlesindexhtml Acesso em set de 2004
WORDNET a lexical database for the English language Cognitive Science Laboratory Princeton University Disponiacutevel em httpwordnetprincetonedu Acesso em jan de 2006
85
ANEXOS
86
ANEXO A - DOCUMENTO1
Endereccedilo na Web http wwwreciclaveiscombranamghtm
Segunda-feira 28 de agosto de 2000 - Nuacutemero 599 Cresce a induacutestria de reciclagem de plaacutesticos Poreacutem potencial do lixo domeacutestico ainda eacute pouco aproveitado no estado A induacutestria de reciclagem foi a que mais cresceu no setor plaacutestico de Santa Catarina nos uacuteltimos cinco anos No periacuteodo o volume reprocessado no estado cresceu 1664 ao ano atingindo 169 mil toneladas em 1999 Isso equivale a 37 do total transformado pelo setor em Santa Catarina Os dados fazem parte de estudo elaborado pela empresa de consultoria MaxiQuim de Porto Alegre para o Sindicato da Induacutestria de Material Plaacutestico no Estado de Santa Catarina (Simpesc) Contudo esse crescimento reflete mais o reaproveitamento de resiacuteduos gerados em processos industriais do que a reciclagem de lixo domeacutestico como embalagens e garrafas o chamado plaacutestico ldquopoacutes-consumordquo Este segmento cresce de maneira menos acelerada devido a problemas como a necessidade de escala de produccedilatildeo falta de linhas de financiamento e ausecircncia de legislaccedilatildeo que estimule a atividade ldquoEmbora a reciclagem do material poacutes-consumo como sacos embalagens e garrafas esteja aumentando em Santa Catarina a maior parte do crescimento verificado entre 1995 e 1999 refere-se a empresas que utilizam resiacuteduos industriais como mateacuteria-primardquo explica o diretor da MaxiQuim Joatildeo Luiz Zuntildeeda Normalmente chamadas de aparas esses resiacuteduos incluem tambeacutem as peccedilas que natildeo atingiram a qualidade necessaacuteria para ir ao mercado As oito empresas catarinenses de reciclagem de plaacutestico tecircm 383 empregados sem considerar o pessoal que trabalha na coleta de lixo atividade que geralmente eacute informal O valor da produccedilatildeo atingiu R$ 4249 milhotildees em 1999 com crescimento meacutedio de 1526 ao ano nos uacuteltimos cinco anos jaacute descontando a inflaccedilatildeo As empresas de transformaccedilatildeo de plaacutestico estatildeo cada vez mais preocupadas em recuperar o material que antes era perdido devido ao alto custo da resina virgem diz Nelson Pradella proprietaacuterio da empresa Recicle-Ville ldquoIsso eacute fundamental para que elas sejam competitivas pois vendendo os resiacuteduos do processo industrial como sucata as empresas obtecircm menos de 20 do valor da resina virgemrdquo Cobrando 30 do preccedilo da resina virgem a Recicle-Ville devolve para a induacutestria seus resiacuteduos em condiccedilotildees de serem utilizados normalmente no processo produtivordquo explica A empresa de Joinville foi uma das firmas que ajudou a elevar os iacutendices desta induacutestria no estado Ateacute agora ela estava trabalhando apenas com mateacuteria-prima gerada nos processos industriais mas isso deve mudar a partir desta semana Criada haacute um ano a empresa reprocessa cerca de 220 toneladas de plaacutestico por mecircs e estaacute aumentando a sua capacidade para 310 toneladas Ela ainda opera basicamente como terceirizada de empresas de processamento de plaacutesticos reprocessando para elas os resiacuteduos que geram e devolvendo essa mateacuteria em forma granular mesmo estado da resina virgem Como a mateacuteria prima reciclada seraacute utilizada para fazer o mesmo produto que originou a
4
3
2
1
87
apara a qualidade final natildeo eacute afetada Mas a Recicle-Ville estaacute ingressando tambeacutem no segmento de reciclagem do plaacutestico poacutes-consumo A partir desta semana a empresa coloca em funcionamento um sistema de coleta junto a escolas do municiacutepio para recolher materiais plaacutesticos como sacos garrafas e tampinhas apostando principalmente no PET Com isso ela tem a vantagem de receber material mais limpo A contaminaccedilatildeo do plaacutestico pelo lixo orgacircnico eacute justamente um dos principais problemas para o crescimento da induacutestria da reciclagem do lixo domeacutestico A simples separaccedilatildeo do lixo orgacircnico do seco jaacute traria um impulso importante para o setor diz Ana Flores diretora do departamento de meio ambiente e desenvolvimento sustentado da Federaccedilatildeo das Induacutestrias do Estado de Satildeo Paulo (Fiesp) e autora do livro ldquoO dinheiro estaacute no lixo ndash recicle essa ideacuteiardquo ldquoDeveriam ser criados mecanismos de estiacutemulo para a reciclagem Na Holanda por exemplo uma Coca-Cola custa US$ 220 Devolvendo a garrafa acontece o reembolso de US$ 1 Vocecirc acha que algueacutem vai jogaacute-la no lixordquo diz A induacutestria da reciclagem do plaacutestico no Brasil tem crescido bastante em funccedilatildeo do reaproveitamento do PET que eacute usado no segmento de monofilamentos em artigos como vassouras e na induacutestria tecircxtil Conforme Ana Flores a reciclagem gera 250 mil empregos no Paiacutes dos quais 70 satildeo informais Poreacutem a maior parte do potencial de mercado ainda estaacute sendo desperdiccedilado avalia ldquoCerca de 15 do total de plaacutestico que eacute industrializado no Paiacutes eacute reciclado Em dez anos poderiacuteamos chegar a 60 como nos Estados Unidos desde que fosse implementado um conjunto de medidas incentivando essa praacuteticardquo assegura Para a diretora da Fiesc os principais entraves satildeo o aspecto cultural a tributaccedilatildeo incidente na reciclagem do plaacutestico a falta de linhas de financiamento e a ausecircncia de uma legislaccedilatildeo ambiental mais rigorosa ldquoHaacute um contra-senso ecoloacutegico que forccedila a clandestinidade no Brasil onde para fabricar garrafa PET virgem paga-se IPI de 10 e para a reciclagem 12rdquo critica Ana afirma que essa tributaccedilatildeo decorre do interesse governamental em incentivar a induacutestria quiacutemica Outro problema apontado eacute que ao contraacuterio da induacutestria do alumiacutenio que eacute concentrada o predomiacutenio das pequenas empresas na transformaccedilatildeo do plaacutestico dificulta que sejam criadas grandes empresas para reprocessar o lixo Para Flores o sucesso brasileiro na reciclagem do alumiacutenio (o iacutendice eacute de 65 um dos mais altos do mundo) decorre da existecircncia de poucas grandes empresas capitalizadas ldquoAs pequenas empresas natildeo tecircm acesso agraves linhas de creacutedito e isso dificulta a abertura de novas recicladorasrdquo diz Flores Mas haacute quem aponte outros desafios a superar ldquoEmbora seja um mercado que deve crescer muito a reciclagem de plaacutestico natildeo eacute tatildeo simples como normalmente aparece na televisatildeo O volume miacutenimo para que a atividade seja economicamente viaacutevel atendendo a todas as exigecircncias legais eacute de 100 toneladas mecircsrdquo diz Ronaldo Cerri soacutecio da Moinhos Rone de Satildeo Paulo que fabrica equipamentos utilizados na moagem do plaacutestico uma das primeiras etapas da reciclagem Aleacutem disso explica a coleta do plaacutestico eacute mais complicada porque ao contraacuterio das latas de alumiacutenio - que podem ser amassadas o volume fiacutesico eacute maior ldquoHoje entre 70 e 80 dos moinhos que vendemos satildeo para reciclagem de resiacuteduos industriaisrdquo informa (Elmar Meurer de Joinville)
copy GAZETA MERCANTIL
9
8
7
6
5
88
ANEXO B - DOCUMENTO2
Cuidados com o Lixo
Endereccedilo na Web httpwwwpoupetempocombrambientelixohtm
Todos os seres vivos quando morrem apodrecem plantas e animais se decompotildeem e satildeo destruiacutedos por larvas bacteacuterias e fungos e reabsorvidos pela terra pela aacutegua pelo ar Eacute o ciclo da natureza morte decomposiccedilatildeo nova vida e crescimento Tudo o que eacute fabricado pelo homem acaba virando lixo Muito desse lixo natildeo se decompotildee facilmente como a mateacuteria orgacircnica e passa a ser um problema Plaacutesticos latas e vidros demoram muitos anos para se decompor e poluem o meio-ambiente Por isso a importacircncia da reciclagem do lixo fabricado pelo ser humano O lixo eacute formado por resiacuteduos soacutelidos natildeo biodegradaacuteveis e que demoram para se decompor Restos de alimentos folhas e frutas satildeo chamados lixo orgacircnico Existem tambeacutem aleacutem do lixo domiciliar o lixo industrial o de vias puacuteblicas e o hospitalar que necessitam de tratamentos especiais pois oferece perigo agrave sauacutede das pessoas Devido ao aumento da populaccedilatildeo das grandes cidades e com o aumento do consumo de produtos a quantidade de lixo tambeacutem tem aumentado O acuacutemulo de lixo eacute um dos principais problemas nas grandes cidades Muitos materiais que vatildeo para o lixo natildeo podem ser desperdiccedilados podendo ser reaproveitados e reutilizados Material orgacircnico Tudo o que eacute resto de comida de animais de plantas e frutas eacute considerado lixo propriamente dito Ou seja vocecirc deve acondicionaacute-los num uacutenico recipiente Essa material eacute recolhido pela prefeitura e levado para aterros sanitaacuterios onde vatildeo sofrer a decomposiccedilatildeo natural Material reciclaacutevel Eacute praticamente tudo o que eacute fabricado pelo homem material plaacutestico latas de alumiacutenio e ferro garrafas de refrigerante de vidro e PET caixas de papel e papelatildeo jornais revistas livros aparas de papel etc Se vocecirc mora em casa reuacutena-se com sua famiacutelia e com seus funcionaacuterios para estabelecer um meacutetodo de separaccedilatildeo desse material Dependendo do seu volume diaacuterio de lixo escolha 4 recipientes coloridos para acondicionaacute-los azul para papel vermelho para plaacutestico verde para vidro e amarelo para metal ou nomeie cada um deles conforme sua classificaccedilatildeo Se vocecirc mora em condomiacutenio faccedila esse mesmo trabalho reunindo os moradores estabelecendo regras e instruindo os empregados Observaccedilatildeo o lixo orgacircnico deve estar separado daquilo que eacute reciclaacutevel Exemplos Providencie uma caixa resistente ou sacolas e fixe nelas um papel com a identificaccedilatildeo do tipo de lixo vidro e nela vaacute acumulando as garrafas Retire aneacuteis e roacutetulos e lave as garrafas para natildeo acumular insetos Na outra caixa vaacute juntando o lixo papel aparas embalagens de papelatildeo as perdas da impressora jornais e revistas velhas etc Latas de conserva satildeo de ferro e as de refrigerante satildeo de alumiacutenio Elas devem ser acumuladas limpas sem roacutetulo e em caixas separadas As de alumiacutenio podem ser amassadas como uma sanfoninha o que economizaraacute espaccedilo Quando as caixas estiverem cheias elas devem ser encaminhadas para entidades que trabalham com material reciclaacutevel ou simplesmente recolhida pela empresa de sua cidade responsaacutevel pela coleta seletiva Consulte a prefeitura local
89
A destinaccedilatildeo do material para reciclagem pode ser feita de vaacuterias formas Uma famiacutelia mais pobre pode utilizar esse material vendendo para cooperativas e empresas especializadas e conseguir um dinheiro extra Os condomiacutenios de melhor padratildeo econocircmico podem utilizar o resultado da separaccedilatildeo do lixo para reciclagem em benefiacutecio de seus funcionaacuterios propiciando a eles um ganho extra na ajuda da triagem desse material Uma outra forma eacute simplesmente entregar todo o material para as prefeituras que jaacute possuem o meacutetodo de coleta seletiva Ajude a melhorar o meio-ambiente Eacute simples pense antes de comprar Metade do que noacutes compramos eacute lixo Satildeo embalagens que quase sempre natildeo servem para nada e vatildeo direto para o lixo Evite embalagens plaacutesticas elas satildeo pouco reciclaacuteveis enquanto o vidro eacute totalmente reciclaacutevel e muito mais uacutetil no seu reaproveitamento Algumas informaccedilotildees sobre materiais produzidos pelo homem TEMPO DE DECOMPOSICcedilAtildeO DE ALGUNS MATERIAIS
Lenccedilo de papel 3 meses Palito de foacutesforo 6 meses Caroccedilo de maccedilatilde 6 a 12 meses Ponta de cigarro 1 a 2 anos Chiclete 5 anos Lata de accedilo 10 anos Garrafa de plaacutestico 100 anos Garrafa de vidro Mais de 1000 anos Lata de alumiacutenio Natildeo se corroacutei nunca
Plaacutestico riacutegido Leve resistente e praacutetico eacute o material que compotildee cerca de 60 das embalagens plaacutesticas como garrafas de refrigerantes recipientes para produtos de limpeza e higiene e potes de alimentos eacute tambeacutem mateacuteria-prima baacutesica de bombonas fibras tecircxteis tubos e conexotildees calccedilados eletrodomeacutesticos aleacutem de baldes utensiacutelios domeacutesticos e outros produtos Ele pode ser reprocessado gerando novos artefatos plaacutesticos e energia Papel ondulado eacute usado em caixas para transporte de produtos para faacutebricas depoacutesitos escritoacuterios e residecircncias Normalmente chamado de papelatildeo este material tem uma camada intermediaacuteria de papel entre suas partes exteriores disposta em ondulaccedilotildees na forma de uma sanfona O material eacute de faacutecil coleta em grandes volumes comerciais sendo facilmente identificadas quando misturadas com outros tipos de papel por isso seu susto de processamento eacute relativamente baixo Embalagens longa vida satildeo compostas de vaacuterias camadas de material dupleacutex polietileno e alumiacutenio As embalagens cartonadas precisam ser lavadas apoacutes o consumo porque os restos de alimentos contidos nelas dificultam o reprocessamento do material Para aproveitar melhor o espaccedilo as embalagens podem ser amassadas O papel existente nas embalagens cartonadas pode ser compostado para a produccedilatildeo de huacutemus utilizado em hortas e jardins Pneus a borracha e sua reciclagem eacute capaz de devolver ao processo de produccedilatildeo insumo regenerado por menos da metade do custo da borracha natural ou sinteacutetica aleacutem disso economiza energia e poupa petroacuteleo usado como mateacuteria-prima virgem e ateacute melhora as propriedades de materiais feitos com borracha Latas de alumiacutenio aleacutem de reduzir o lixo que vai para os aterros a reciclagem desse material proporciona significativo ganho energeacutetico Para reciclar uma tonelada de latas gasta-se 5 da
90
energia necessaacuteria para produzir a mesma quantidade de alumiacutenio pelo processo primaacuterio Isto significa que cada latinha reciclada equivale ao consumo de um aparelho de TV durante 3 horas A reciclagem evita a extraccedilatildeo da bauxita o mineral beneficiado para a fabricaccedilatildeo da alumina que eacute transformada em liga de alumiacutenio Vidro a metade dos recipientes de vidro eacute fabricados no Paiacutes eacute retornaacutevel Aleacutem disso o material eacute de faacutecil reciclagem pode voltar a produccedilatildeo de novas embalagens substituindo o produto virgem sem perda da qualidade Pet (polietileno tereftalato) as garrafas recicladas satildeo transformadas em cordas e fios de costura carpetes bandejas de frutas e ateacute mesmo novas garrafas Sua reciclagem aleacutem de desviar lixo plaacutestico dos aterros utiliza apenas 30 da energia necessaacuteria para a produccedilatildeo da resina virgem e tem a vantagem de poder ser reciclado vaacuterias vezes sem prejudicar a qualidade do produto final Latas de accedilo Quando reciclado o accedilo volta ao mercado em forma de automoacuteveis ferramentas vigas para construccedilatildeo civil arames vergalhotildees utensiacutelios domeacutesticos e inclusive novas latas Plaacutestico filme eacute uma peliacutecula plaacutestica normalmente usada como sacolas de supermercados sacos de lixo embalagens de leite lonas agriacutecolas e proteccedilatildeo de alimentos na geladeira ou microondas Cerca de 44 eacute papel e 4 eacute folha de alumiacutenio Ajude a melhorar o meio-ambiente
bull Reaproveite sobras e natildeo jogue fora o que puder aproveitar bull Doe roupas que possam ser reformadas ou consertadas bull Doe livros para bibliotecas ou instituiccedilotildees beneficentes bull Use produtos biodegradaacuteveis ou reciclaacuteveis bull Deixe o oacuteleo usado do motor no posto para ser reciclado bull Leve pneus sem uso para os borracheiros bull Evite jogar lixo na rua Jogue o lixo na lixeira bull Embale o lixo corretamente sempre que possiacutevel encaminhe plaacutesticos vidros e papel
para a reciclagem
91
ANEXO C - EXTRACcedilAtildeO MANUAL DE SN DOS DOCUMENTOS
DOCUMENTO1 Linha Sintagma Nominal Niacutevel
1 Plaacutesticos 1 1 Reciclagem de plaacutesticos 2 1 Induacutestria de reciclagem de plaacutesticos 3 2 Lixo 1 2 Lixo domeacutestico 1 2 Potencial do lixo domeacutestico 2 3 Reciclagem 1 3 Induacutestria de reciclagem 2 3 Plaacutestico 1 3 Setor Plaacutestico 1 3 Setor Plaacutestico de Santa Catarina 2 7 Plaacutestico 1 7 Material Plaacutestico 1 7 Induacutestria de Material Plaacutestico 2 7 Sindicato da Induacutestria de Material Plaacutestico 3 7 Sindicato da Induacutestria de Material Plaacutestico no Estado de Santa Catarina 4 8 Resiacuteduos 1 8 Reaproveitamento de resiacuteduos 2 9 Lixo 1 9 Lixo domeacutestico 1 9 Reciclagem do lixo domeacutestico 2 10 Embalagens 1 10 Garrafas 1 10 Embalagens e garrafas 2 10 Plaacutestico 1 10 Plaacutestico poacutes-consumo 1 13 Reciclagem 1 13 Reciclagem de material 2 13 Reciclagem de material poacutes-consumo 2 13 Sacos 1 13 Embalagens 1 13 Garrafas 1 13 Sacos embalagens e garrafas 2 15 Resiacuteduos 1
92
15 Resiacuteduos industriais 1 15 Resiacuteduos industriais como mateacuteria-prima 2 18 Reciclagem 1 18 Reciclagem de plaacutesticos 2 18 Empresas catarinenses de reciclagem de plaacutesticos 3 19 Lixo 1 19 Coleta de lixo 2 22 Plaacutestico 1 22 Transformaccedilatildeo de plaacutestico 2 22 As empresas de transformaccedilatildeo de plaacutestico 3 27 Resiacuteduos 1 32 Plaacutestico 1 34 Plaacutesticos 1 34 Processamento de plaacutesticos 2 34 Empresas de processamento de plaacutesticos 3 34 Terceirizada de empresas de processamento de plaacutesticos 4 34 Os resiacuteduos 1 36 Reciclada 1 36 Mateacuteria-prima reciclada 1 38 Reciclagem 1 38 Reciclagem de plaacutestico 2 38 Reciclagem de plaacutestico poacutes-consumo 2 38 Segmento de reciclagem de plaacutestico poacutes-consumo 3 39 Coleta 1 39 Coleta junto a escolas do municiacutepio 2 39 Um sistema de coleta junto a escolas do municiacutepio 3 40 Plaacutesticos 1 40 Materiais plaacutesticos 1 40 Materiais plaacutesticos como sacos garrafas e tampinhas 2 41 PET 1 43 Lixo 1 43 Lixo orgacircnico 1 43 A contaminaccedilatildeo do plaacutestico 2 43 A contaminaccedilatildeo do plaacutestico pelo lixo orgacircnico 3 44 Lixo 1
93
44 Lixo domeacutestico 1 44 Reciclagem de lixo domeacutestico 2 44 Induacutestria da reciclagem do lixo domeacutestico 3 44 O crescimento da induacutestria da reciclagem do lixo domeacutestico 4 44 Lixo 1 44 Lixo orgacircnico 1 44 A simples separaccedilatildeo do lixo orgacircnico 2 44 A simples separaccedilatildeo do lixo orgacircnico do seco 3 49 A garrafa 1 50 Lixo 1 51 Reciclagem 1 51 Reciclagem do plaacutestico 2 51 A induacutestria da reciclagem do plaacutestico 3 51 A induacutestria da reciclagem do plaacutestico no Brasil 4 52 Reaproveitamento 1 52 Reaproveitamento do PET 2 53 A reciclagem 1 55 Plaacutestico 1 56 Reciclado 1 58 Reciclagem 1 58 Reciclagem do plaacutestico 2 58 Tributaccedilatildeo incidente na reciclagem do plaacutestico 3 61 Garrafa 1 61 Garrafa PET 1 61 Reciclagem 1 63 Induacutestria Quiacutemica 1 64 Alumiacutenio 1 64 Induacutestria do alumiacutenio 2 65 Plaacutestico 1 65 Transformaccedilatildeo do plaacutestico 2 65 Empresas na transformaccedilatildeo do plaacutestico 3 65 Predomiacutenio das pequenas empresas na transformaccedilatildeo do plaacutestico 4 66 Lixo 1 69 Recicladoras 1 69 A abertura de novas recicladoras 2
94
71 Reciclagem 1 71 Reciclagem de Plaacutestico 2 74 Plaacutestico 1 74 Moagem do plaacutestico 2 74 Reciclagem 1 74 Primeiras etapas da reciclagem 2 75 Coleta 1 75 A coleta do plaacutestico 2 77 Reciclagem 1 77 Reciclagem de resiacuteduos 2 77 Reciclagem de resiacuteduos industriais 3
DOCUMENTO2
Linha Sintagma Nominal Niacutevel1 Lixo 1 1 Cuidados com o lixo 2 5 Lixo 1 5 Lixo 1 6 Mateacuteria Orgacircnica 1 6 Plaacutesticos latas e vidros 2 7 Lixo 1 7 Reciclagem do lixo 2 7 A importacircncia da reciclagem do lixo 3 9 O lixo 1 9 Resiacuteduos 1 9 Resiacuteduos soacutelidos 1 9 Resiacuteduos soacutelidos natildeo-biodegradaacuteveis 1 9 Restos de alimentos folhas e frutas 2 10 Lixo 1 10 Lixo orgacircnico 1 11 Lixo 1 11 Lixo domiciliar lixo industrial o de vias puacuteblicas e o hospitalar 3 13 Lixo 1 13 A quantidade de lixo 2
95
15 Lixo 1 15 O acuacutemulo de lixo 2 15 O lixo 1 17 Material orgacircnico 1 18 Restos de comida de animais de plantas e frutas 4 18 Lixo 1 20 Aterro sanitaacuterio 1 20 A decomposiccedilatildeo 1 20 A decomposiccedilatildeo natural 1 21 Reciclaacutevel 1 21 Material reciclaacutevel 1 22 Material plaacutestico latas de alumiacutenio e ferro garrafas de refrigerante de
vidro e PET caixas de papel e papelatildeo jornais revistas livros aparas de papel
4
24 Lixo 1 24 Volume diaacuterio de lixo 2 31 O lixo 1 31 O lixo orgacircnico 1 31 Reciclaacutevel 1 33 Lixo 1 33 Tipo de lixo 2 33 vidro 1 34 As garrafas 1 35 As garrafas 1 36 O lixo 1 36 O lixo papel aparas embalagens de papelatildeo as perdas da impressora
jornais e revistas velhas 3
38 Ferro 1 38 Alumiacutenio 1 42 Reciclaacutevel 1 42 Material reciclaacutevel 1 42 Coleta 1 42 Coleta seletiva 1 44 Reciclagem 1 44 Material para reciclagem 2 44 A destinaccedilatildeo do material para reciclagem 3
96
47 Lixo 1 47 Separaccedilatildeo do lixo 2 47 Separaccedilatildeo do lixo para reciclagem 3 47 O resultado da separaccedilatildeo do lixo para reciclagem 4 50 Coleta 1 50 Coleta seletiva 1 50 O meacutetodo de coleta seletiva 2 53 Lixo 1 53 Embalagens 1 53 O lixo 1 54 Embalagens plaacutesticas 1 54 Pouco reciclaacuteveis 1 54 O vidro 1 57 Decomposiccedilatildeo 1 57 Decomposiccedilatildeo de alguns materiais 2 57 Tempo de decomposiccedilatildeo de alguns materiais 3 67 Plaacutestico 1 67 Plaacutestico riacutegido 1 67 Embalagens plaacutesticas 1 67 Embalagens plaacutesticas como garrafas de refrigerantes recipientes para
produtos de limpeza e higiene e potes de alimentos 4
72 Papel ondulado 1 74 Coleta 1 74 Coleta em grandes volumes comerciais 2 74 Faacutecil coleta em grandes volumes comerciais 2 76 Processamento 1 76 Custo de processamento 2 77 Embalagens 1 77 Embalagens longa vida 1 79 reprocessamento 1 79 Reprocessamento do material 2 82 Hortas e jardins 2 83 Pneus 1 83 Reciclagem 1 83 A borracha e sua reciclagem 2
97
84 Borracha 1 84 Borracha natural ou sinteacutetica 1 84 O custo da borracha natural ou sinteacutetica 2 86 Latas de alumiacutenio 1 86 O lixo 1 86 A reciclagem 1 88 Reciclada 1 88 Latinha reciclada 1 89 A reciclagem 1 91 vidro 1 91 Vidro 1 91 Recipiente de vidro 2 91 Faacutecil reciclagem 1 94 PET 1 94 Recicladas 1 94 Garrafas recicladas 1 95 Reciclagem 1 95 Lixo 1 95 Lixo plaacutestico 1 95 Lixo plaacutestico dos aterros 2 97 Reciclado 1 97 Reciclado vaacuterias vezes 1 98 Latas de accedilo 2 98 Automoacuteveis ferramentas vigas para construccedilatildeo civil arames
vergalhotildees utensiacutelios domeacutesticos e inclusive novas latas 3
100 Plaacutestico filme 1 100 Sacolas de supermercado sacos de lixo embalagens de leite lonas
agriacutecolas e proteccedilatildeo de alimentos na geladeira ou microondas 3
102 Folha de alumiacutenio 2 107 Reciclaacuteveis 1 107 Produtos biodegradaacuteveis ou reciclaacuteveis 1 110 Lixo 1 110 Lixo na rua 2 110 O lixo 1 110 O lixo na lixeira 2
98
111 O lixo 111 Reciclagem 1 111 Plaacutesticos vidros e papel para reciclagem 3
99
ANEXO D - FERRAMENTA1 DE TOQUENIZACcedilAtildeO E ETIQUETAGEM
Endereccedilo na Web hermessourceforgenethermeswebhtml
Texto processado (Paraacutegrafo 6 do Documento1)
A induacutestria da reciclagem do plaacutestico no Brasil tem crescido bastante em funccedilatildeo do reaproveitamento do PET que eacute usado no segmento de monofilamentos em artigos como vassouras e na induacutestria tecircxtil Conforme Ana Flores a reciclagem gera 250 mil empregos no Paiacutes dos quais 70 satildeo informais Poreacutem a maior parte do potencial de mercado ainda estaacute sendo desperdiccedilado avalia ldquoCerca de 15 do total de plaacutestico que eacute industrializado no Paiacutes eacute reciclado Em dez anos poderiacuteamos chegar a 60 como nos Estados Unidos desde que fosse implementado um conjunto de medidas incentivando essa praacuteticardquo assegura
Resultado
A_ART induacutestria_N da_PREP+ART reciclagem_N do_PREP+ART plaacutestico_N no_PREP+ART Brasil_NP tem_VTD crescido_ADJ bastante_ADV em_PREP funccedilatildeo_N do_PREP+ART reaproveitamento_N do_PREP+ART PET_N _ que_PR eacute_VLIG usado_ADJ no_PREP+ART segmento_N de_PREP monofilamentos_N _ em_PREP artigos_N
100
como_CONJSUB vassouras_ADJ e_CONJCOORD na_PREP+ART induacutestria_N tecircxtil_NP _ Conforme_CONJSUB Ana_NP Flores_N _ a_ART reciclagem_N gera_N 250_NC mil_NC empregos_N no_PREP+ART Paiacutes_N _ dos_PREP+ART quais_PR 70_NC satildeo_VLIG informais_ADJ _ Poreacutem_VTD _ a_ART maior_ADJ parte_N do_PREP+ART potencial_N de_PREP mercado_N ainda_ADV estaacute_VLIG sendo_VLIG desperdiccedilado_VTD _ avalia_N _ Cerca_N de_PREP 15_NC do_PREP+ART total_ADJ de_PREP plaacutestico_N que_PR eacute_VLIG
101
industrializado_VTD no_PREP+ART Paiacutes_N eacute_VLIG reciclado_VTD _ Em_PREP dez_NC anos_N poderiacuteamos_VTD chegar_VTI a_ART 60_NC _ como_CONJSUB nos_PREP+ART Estados_NP Unidos_NP _ desde_PREP que_PR fosse_VLIG implementado_ADJ um_ART conjunto_N de_PREP medidas_N incentivando_VTD essa_PD praacutetica_N _ assegura_VTD _
102
ANEXO D - FERRAMENTA2 DE TOQUENIZACcedilAtildeO E ETIQUETAGEM
Endereccedilo na Web httplaelpucspbrcorporaetiquetagem
A ARTD induacutestria N da CPR reciclagem N do CPR plaacutestico N no CPR Brasil N tem V crescido PART bastante ADV em PRP funccedilatildeo N do CPR reaproveitamento N do CPR PET N PT que PRN eacute V usado PART no CPR segmento N de PRP monofilamentos N PT em PRP artigos N como ADV vassouras N e CJ na CPR induacutestria N tecircxtil ADJ PT Conforme ADJ Ana N Flores N PT a ARTD reciclagem N gera V 250 NUM mil N
103
empregos N no CPR Paiacutes N PT dos CPR quais PRN 70 NUM PT satildeo V informais ADJ PT Poreacutem CJ PT a ARTD maior ADJ parte N do CPR potencial N de PRP mercado N ainda ADV estaacute V sendo V desperdiccedilado PART PT avalia V PT ldquoCerca PRP de PRP 15 NUM PT do CPR total N de PRP plaacutestico N que PRN eacute V industrializado PART no CPR Paiacutes N eacute V reciclado PART PT Em PRP dez NUM anos N poderiacuteamos V chegar V a ARTD 60 NUM PT
104
PT como ADV nos CPR Estados N Unidos N PT desde PRP que PRN fosse V implementado PART um ARTI conjunto N de PRP medidas N incentivando V essa PRN praacuteticardquo N PT assegura V PT
105
ANEXO E - PROCESSO DE NOMINALIZACcedilAtildeO Palavra Original Classe Substantivo Abstrato Substantivo Concretotem Verbo E E crescido Verbo no particiacutepio crescimento E bastante Adveacuterbio E E eacute Verbo E E usado Verbo no particiacutepio uso usador tecircxtil Adjetivo E tecido informal Adjetivo informalidade E maior Adjetivo maioridade E potencial Adjetivo potencialidade E ainda Adveacuterbio E E estaacute Verbo E E sendo Verbo E E desperdiccedilado Verbo no particiacutepio desperdiacutecio desperdiccedilador total Adjetivo totalidade totalizador industrializado Verbo no particiacutepio industrial induacutestria reciclado Verbo no particiacutepio E reciclagem poderiacuteamos Verbo E E chegar Verbo E chegada fosse Verbo E E implementado Verbo no particiacutepio implemento implementador incentivando Verbo Incentivo incentivador
E = ausecircncia de nominalizaccedilatildeo
ix
ABSTRACT
This work has the presentation of a new model of a support information system to the user in the process of information retrieval The proposal consists in the support during the definition of a search query based on the identification of the possibilities of informatization and junction of a Kuramoto model along with the Gonzalez structure For its construction it was necessary to analyze and synthesize the support model to the Kuramoto user (base don the determination of Nominal Syntagm) the Qualia structure of the Lexical Semantics of Pustejovsky and having the LBRs (lexical binary relations) of the Gonzalez TR+ model The result we expect to reach is the possibility of actually performing an interaction that may result in an adequate negotiation of meanings between the user and the machine knowing that this negotiation should result in a fundamental factor in order for the improvement on the efficiency of the search processes The Kuramoto model based on Nominal Syntagm hierarchy initially supports this interaction With the definition of the query search and the Pustejovsky Qualia structure implicit in the TR+ Gonzalez model it was possible to obtain a greater relevance of documents recovered through a calculus of weight of describers (terms and relationships) evident in the document The general stages of the proposed model are the extraction of Nominal Syntagm and their automatic placement into hierarchy the pre-processing (tokening and labeling) the naming and capture of the LRBs After the preliminary outlining of the model we went on to the gathering of stages and requisite analysis presented by diagrams and descriptions of the usage cases finally reaching the development of a conceptual model that culminated in the construction of class diagrams and of a sequence for the proposed application As we reach the end we can conclude that the indicated alternative in this work besides being executable presents qualitative gains in the results of a search for the retrieval of information and also quantitative gains when referring to a smaller amount of time spent in the index phase (speed) and a smaller amount of archives generated (memory)
Key-words Retrieval of Information Nominal Syntagm Qualia Structure Terms e LRBs
x
SUMAacuteRIO
AGRADECIMENTOS iv
IacuteNDICE DE FIGURAS v
IacuteNDICE DE TABELAS vi
IacuteNDICE DE TABELAS vi
SIGLAS vii
RESUMOviii
ABSTRACT ix
SUMAacuteRIOx
1 INTRODUCcedilAtildeO 12
11 Objetivos13 111 Objetivo Geral 13 112 Objetivos Especiacuteficos 13
12 Metodologia13
13 Resultados Esperados e Limitaccedilotildees do Trabalho 14
14 Estrutura da Dissertaccedilatildeo 15
2 RECUPERACcedilAtildeO DE INFORMACcedilAtildeO 16
21 Histoacuterico 16
22 Modelos Claacutessicos de Recuperaccedilatildeo de Informaccedilatildeo 18 221 Modelo Booleano 18
2211 Operadores Booleanos19 2212 Operadores de Proximidade 20
222 Modelo Vetorial21 223 Modelo Probabiliacutestico 23
3 FUNDAMENTACcedilAtildeO TEacuteORICA25
31 A Proposta de Kuramoto 25 311 Extraccedilatildeo dos Sintagmas Nominais 27
3111 Extraccedilatildeo Automaacutetica de Sintagmas Nominais 29 312 A determinaccedilatildeo de uma estrutura para os SN 29
xi
313 Protoacutetipo Desenho da Interface de Busca31 314 Organizaccedilatildeo dos Sintagmas Nominais como Estrutura de Busca 32
32 A Teoria do Leacutexico Gerativo de Pustejovsky34 321 Estruturas do Leacutexico Gerativo36
3211 Estrutura de Argumento 37 3212 Estrutura de Evento 37 3213 Estrutura de Qualia 38 3214 Estrutura de Heranccedila Lexical 40
322 Sistema de Tipos Semacircnticos 41 322 Mecanismos gerativos 42
3221 Coerccedilatildeo de tipo42 3222 Ligaccedilatildeo seletiva 42 3223 Co-composiccedilatildeo 43
33 O Modelo TR+ de Gonzalez45
4 APRESENTACcedilAtildeO E DISCUSSAtildeO DO MODELO PROPOSTO 55
41 Procedimentos desenvolvidos utilizando o modelo de SN de Kuramoto e a proposta Gonzalez - ldquoEstrutura SINTR+rdquo55
42 Descriccedilatildeo Formal do Modelo Proposto SINTR+ 64
5 CONCLUSAtildeO77
6 REFEREcircNCIAS BIBLIOGRAacuteFICAS 80
61 Bibliografia Consultada82
ANEXO A - DOCUMENTO186
ANEXO B - DOCUMENTO288
ANEXO C - EXTRACcedilAtildeO MANUAL DE SN DOS DOCUMENTOS91
ANEXO D - FERRAMENTA1 DE TOQUENIZACcedilAtildeO E ETIQUETAGEM99
ANEXO D - FERRAMENTA2 DE TOQUENIZACcedilAtildeO E ETIQUETAGEM102
ANEXO E - PROCESSO DE NOMINALIZACcedilAtildeO105
12
1 INTRODUCcedilAtildeO
O tema ldquoRecuperaccedilatildeo de Informaccedilatildeordquo (RI) eacute importante para diversas aacutereas tais
como Biblioteconomia Linguumliacutestica Ciecircncia da Computaccedilatildeo entre outras Segundo Baeza-
Yates e Ribeiro-Neto (1999) na Ciecircncia da Computaccedilatildeo esse tema diz respeito agrave recuperaccedilatildeo
de dados e agrave recuperaccedilatildeo de informaccedilatildeo sendo ambos processos importantes e significativos
para a aacuterea
De acordo com os autores os sistemas de recuperaccedilatildeo de informaccedilatildeo lidam com
objetos linguumliacutesticos (textos) e por isso herdam toda a problemaacutetica inerente ao tratamento da
linguagem natural Jaacute a recuperaccedilatildeo de dados estaacute associada a sistemas gerenciadores de
banco de dados (ou simplesmente banco de dados) que ao organizaacute-los jaacute especificam de
forma bem definida a sua estrutura e por conseguinte a sua semacircntica
Um dos desafios na recuperaccedilatildeo de informaccedilatildeo conforme Ferneda (2003) diz
respeito a melhorar a relevacircncia dos resultados de uma busca de maneira que o usuaacuterio possa
encontrar todos os documentos que atendam agraves suas necessidades de informaccedilatildeo Em outras
palavras isto quer dizer que a busca seraacute precisa se conseguir retornar eou listar somente
documentos relacionados ao que o usuaacuterio expressou na definiccedilatildeo da sua busca
Diversos modelos de RI vecircm proporcionando melhorias significativas na relevacircncia
dos resultados De acordo com Baeza-Yates e Ribeiro-Neto (1999) em uma visatildeo centrada no
computador o problema de RI consiste principalmente na construccedilatildeo de iacutendices mais
eficientes no processamento de querys de usuaacuterios com alta performance e no
desenvolvimento de algoritmos de classificaccedilatildeo que melhorem a ldquoqualidaderdquo do conjunto de
respostas Apesar disso os meacutetodos utilizados nesses modelos ainda deixam a desejar natildeo
sendo capazes de recuperar a contento os documentos relevantes a uma consulta do usuaacuterio
Na maioria dos modelos de recuperaccedilatildeo de informaccedilatildeo existentes hoje o processo de
indexaccedilatildeo extrai cada palavra do texto de um documento e insere uma lista de palavras
ordenadas pela frequumlecircncia da palavra no texto Isto desfaz o trabalho intelectual do autor do
documento
Observa-se que diversas pesquisas de RI se focalizam nos algoritmos de busca por
documentos relevantes a partir de querys estabelecidas O foco nesses casos eacute determinar a
relevacircncia de documentos Para isso haacute vaacuterias metodologias desde medir o tempo de
13
permanecircncia do usuaacuterio no acesso a um documento ateacute a determinaccedilatildeo da quantidade de
consultas com querys semelhantes entre outras
Outro aspecto problemaacutetico relaciona-se ao fato de que as informaccedilotildees recuperadas
dependem tambeacutem da clareza do usuaacuterio ao expressar o que necessita Ou seja a dificuldade
natildeo se trata apenas de identificar e definir a relevacircncia dos resultados atraveacutes dos modelos
computacionais de RI que datildeo suporte ao processo da busca mas da capacidade do usuaacuterio de
formular uma expressatildeo de busca utilizando as palavras ou expressotildees de forma clara de
modo a representar os documentos desejados satisfazendo assim a sua necessidade
As palavras utilizadas pelo usuaacuterio possuem um significado claro para ele mas isso
natildeo eacute suficiente para uma boa recuperaccedilatildeo de informaccedilatildeo pois a Liacutengua Portuguesa segundo
Rossi (2003) apresenta muitas palavras iguais com significados diferentes (polissemia) que
variam de acordo com o contexto E haacute tambeacutem palavras diferentes em escrita e pronuacutencia
embora com significados iguais (sinoniacutemia) Ocorre ainda a combinaccedilatildeo de palavras que
segundo Martins e Zilberknop (1999) diz respeito a duas ou mais palavras que podem
combinar-se em ordem diferente designando ideacuteias completamente diversas
Esses aspectos da linguagem natural satildeo obstaacuteculos na obtenccedilatildeo de bons resultados
em um procedimento de recuperaccedilatildeo de informaccedilatildeo No caso da polissemia e da combinaccedilatildeo
de palavras pode ocorrer o aumento da taxa de ruiacutedos1 ou o incremento da taxa de silecircncio2
que acontecem no caso de sinoniacutemia Isto pode levar a um resultado de busca de documentos
que natildeo atenda agraves necessidades de informaccedilatildeo do usuaacuterio Portanto a existecircncia de uma
negociaccedilatildeo de significados entre usuaacuterio e maacutequina levaria possivelmente a resultados mais
relevantes
O surgimento das novas tecnologias da informaccedilatildeo e da comunicaccedilatildeo fez crescer o
volume de publicaccedilotildees na Internet Esse crescimento segundo Cardoso (2000) tem
dificultado ainda mais a recuperaccedilatildeo de informaccedilotildees relevantes Um aspecto positivo eacute a
facilidade de acesso pela Web (World Wide Web) aos acervos bibliograacuteficos de diversas
universidades brasileiras e mesmo do mundo inteiro Visto que o aumento do acervo torna
ainda mais complexa a busca por isso esperava-se que esses meacutetodos acompanhassem tal
desenvolvimento mas isto ainda natildeo aconteceu de forma satisfatoacuteria
A dificuldade aparece rapidamente nos vaacuterios mecanismos da Web como ldquoGooglerdquo
ldquoCaderdquo entre outros que ao serem acionados para buscar uma determinada informaccedilatildeo
1 Taxa de ruiacutedos eacute definida como sendo a relaccedilatildeo entre a quantidade de documentos recuperados natildeo pertinentes e a quantidade total de documentos 2 Taxa de silecircncio eacute definida como sendo a relaccedilatildeo entre a quantidade de documentos recuperados pertinentes natildeo recuperados e a quantidade total de documentos pertinentes na base de dados
14
listam centenas ou mesmo milhares de referecircncias como resposta sendo normalmente destas
relevantes apenas as primeiras Aleacutem disso ao se utilizarem as mesmas palavras em diferentes
mecanismos (sites) de pesquisa os resultados variam segundo Hill (1999) devido agraves rotinas
automatizadas de pesquisa diferenciadas
O usuaacuterio precisa ainda utilizar palavras-chave para dar foco agrave sua pesquisa Segundo
Baeza-Yates e Ribeiro-Neto (1999) o interessante seria jaacute poder dizer ldquoDecirc-me dados
estatiacutesticos sobre a equipe da seleccedilatildeo brasileira de basquete no ano de 2004rdquo Mas apesar de a
tecnologia da Internet estar progredindo ainda se estaacute bastante distante desse estaacutegio
Uma linha de pesquisa que tem como representante o trabalho de Kuramoto (1999)
procura abordar a questatildeo da RI desde a perspectiva do apoio ao usuaacuterio na formulaccedilatildeo da
query de busca A expectativa eacute oferecer jaacute no momento da formulaccedilatildeo da query um apoio
interativo para o estabelecimento de uma chave mais adequada ao contexto real da busca A
proposta de Kuramoto eacute baseada na determinaccedilatildeo dos Sintagmas Nominais (SN) de um
domiacutenio de aplicaccedilatildeo
O uso de SN permite um processo de refinamento da busca A forma de navegar
pelos niacuteveis de SN intensifica a interaccedilatildeo entre o usuaacuterio e o computador (KURAMOTO
2002) A interface de busca passa a dar um suporte para o usuaacuterio na formulaccedilatildeo de sua query
antes de listar todos os documentos
A proposta de utilizaccedilatildeo de uma interface de apoio utilizando SN configura-se como
inovadora pois natildeo se tem conhecimento de outra proposiccedilatildeo que considere o fato de que nem
sempre o usuaacuterio eacute capaz de explicitar a sua necessidade de informaccedilatildeo em uma uacutenica
expressatildeo de busca
Segundo Kuramoto (2002) as palavras como unidades de um dicionaacuterio natildeo contecircm
qualquer substacircncia Elas adquirem essa substacircncia no momento em que se inserem no
universo do discurso ou seja as palavras inseridas no texto de um documento assumem um
significado especiacutefico
Percebe-se que essa linha de pesquisa eacute bastante promissora e que a aacuterea de
Linguumliacutestica pode oferecer alternativas interessantes uma delas foi vislumbrada na teoria do
Leacutexico Gerativo (LG) de Pustejovsky (1991) Nessa teoria Pustejovsky buscando dar conta
da polissemia loacutegica das palavras propondo uma estrutura para a semacircntica de uma liacutengua da
mesma forma que a sintaxe eacute estruturada Na estrutura proposta por Pustejovsky a
componente principal eacute a estrutura de dimensotildees de significados (denominada de Estrutura de
Qualia)
15
Uma palavra escrita pelo usuaacuterio pode ser utilizada pelos documentos de um acervo
e portanto identificada pela maacutequina atraveacutes de seus modelos de RI com um sentido
completamente diferente do contexto imaginado pelo usuaacuterio Para a palavra ldquojornalrdquo por
exemplo o usuaacuterio pode estar se referindo ao preacutedio onde fica o jornal ou ao objeto fiacutesico
propriamente dito ou ateacute mesmo ao conteuacutedo do jornal (informaccedilatildeo contida)
A Estrutura de Qualia auxilia a RI na identificaccedilatildeo de qual sentido mais especiacutefico o
usuaacuterio busca dessa forma esta estrutura poderia classificar os documentos contendo a palavra
ldquojornalrdquo segundo as diferentes qualia envolvidas Isso representaria um refinamento
importante na busca que poderia resultar em mais satisfaccedilatildeo para o usuaacuterio e portanto mais
eficiecircncia dos mecanismos de busca O reconhecimento da importacircncia da teoria de
Pustejovsky pode ser constatado na existecircncia de trabalhos relacionados na liacutengua portuguesa
como eacute o caso da pesquisa de Abrahatildeo (1997) que desenvolveu a modelagem e a
implementaccedilatildeo de um leacutexico semacircntico para a nossa Liacutengua a partir de um estudo
aprofundado da teoria de Pustejovsky
Aleacutem disso uma outra questatildeo importante a ressaltar eacute que existem problemas
ligados agrave definiccedilatildeo das palavras Essa criacutetica segundo Rossi (2003) se fundamenta no fato de
os lexicoacutegrafos3 parecerem atuar de maneira mais intuitiva do que propriamente fazer uso de
teorias semacircnticas que decircem o devido suporte agrave tarefa de definir um item lexical Rossi (2003)
reforccedila que muitos dicionaacuterios nem sempre prevecircem a polissemia subjacente aos itens
lexicais
Outro trabalho pesquisado que permitiu uma ampliaccedilatildeo do modelo proposto nesta
dissertaccedilatildeo foi o de Gonzalez (2005) com o seu modelo TR+ Este modelo natildeo utiliza
sistematicamente a Estrutura de Qualia aparecendo esta apenas impliacutecita principalmente a
parte formal das palavras As palavras e seus relacionamentos ganham em Gonzalez uma
importacircncia contextual pelo caacutelculo de um peso (peso de descritores) que busca manter sua
unidade significativa
A abordagem proposta para este trabalho orienta-se na melhoria da query de busca
dos usuaacuterios A pesquisa siacutentese e sistematizaccedilatildeo da proposta de Kuramoto (1999) e do
modelo de Gonzalez (2005) possibilitaram o desenvolvimento de um novo modelo chamado
3 Lexicoacutegrafos satildeo autores de dicionaacuterios ou seja dicionaristas
de SINTR+ Esse modelo utiliza a formulaccedilatildeo de consulta em RI apresentando os Sintagmas
Nominais referentes a esta consulta e com isto inicia a interaccedilatildeo com o usuaacuterio onde o mesmo
13
escolhe o SN de niacutevel apropriado e a partir daiacute haacute sistematizaccedilatildeo com o modelo TR+ de
Gonzalez
Pretende-se por um lado ajudar e apoiar o usuaacuterio a melhor especificar sua query no
contexto real da sua busca por outro lado potencializa-se o tempo tanto na fase de indexaccedilatildeo
como na de busca e reduz-se o espaccedilo utilizado de memoacuteria para dados na base
11 Objetivos
111 Objetivo Geral
Descrever a partir da identificaccedilatildeo das possibilidades de ampliaccedilatildeo de siacutentese e de
sistematizaccedilatildeo das propostas de Kuramoto e de Gonzalez um novo modelo para um sistema
informatizado de suporte ao usuaacuterio na definiccedilatildeo da sua query de busca durante um processo
de recuperaccedilatildeo de informaccedilatildeo
112 Objetivos Especiacuteficos
a) Analisar as propostas citadas buscando a sua sistematizaccedilatildeo e identificaccedilatildeo de alternativas
de implementaccedilatildeo e ampliaccedilatildeo
b) Definir o modelo conceitual do sistema desejado atraveacutes da sua anaacutelise de domiacutenio
representando-o a partir dos seus diagramas de classes e de sequumlecircncia
c) Avaliar exploratoriamente o modelo desenhado a partir da construccedilatildeo de exemplos
demonstrativos das suas principais propriedades
12 Metodologia
Para a construccedilatildeo deste trabalho inicialmente foi realizada uma revisatildeo bibliograacutefica
a partir de livros artigos e outros materiais disponiacuteveis referentes ao assunto em questatildeo
fundamentalmente sobre a aacuterea de Recuperaccedilatildeo de Informaccedilatildeo A metodologia utilizada para
desenvolver este trabalho baseou-se no cronograma de etapas a serem desenvolvidas descritas
a seguir
14
a) Estudo e identificaccedilatildeo das diferentes alternativas e abordagens atualmente desenvolvidas
para a aacuterea de recuperaccedilatildeo de informaccedilotildees
b) Formulaccedilatildeo da proposta de trabalho definiccedilatildeo do escopo e da fundamentaccedilatildeo da proposta
c) Estudo das teorias de base para a construccedilatildeo do modelo teoria do Leacutexico Gerativo de
James Pustejovsky e o modelo de Kuramoto E apoacutes um estudo de Abrahatildeo e Gonzalez
d) Esboccedilo do modelo para o sistema proposto
e) Especificaccedilatildeo dos requisitos do sistema proposto
f) Construccedilatildeo da anaacutelise de domiacutenio definiccedilatildeo do modelo conceitual
g) Construccedilatildeo dos diagramas de classes e de sequumlecircncia para o modelo
h) Construccedilatildeo de exemplos de aplicaccedilatildeo do modelo
i) Anaacutelise e conclusotildees finais
13 Resultados Esperados e Limitaccedilotildees do Trabalho
A principal contribuiccedilatildeo deste trabalho reside no fato de sistematizar as teorias de
Kuramoto Pustejovsky e Gonzalez construindo um novo modelo que amplia as
potencialidades das propostas de Kuramoto e Gonzalez melhorando os resultados do processo
de recuperaccedilatildeo de informaccedilotildees Esta melhoria ocorre em relaccedilatildeo agrave diminuiccedilatildeo do tempo de
busca dos documentos e agrave relevacircncia dos resultados encontrados por meio da junccedilatildeo de
diferentes modelos para os processos de indexaccedilatildeo e busca
A princiacutepio o modelo construiacutedo eacute antevisto como aplicaacutevel a bases de documentos
natildeo distribuiacutedas e contidas a um determinado domiacutenio de aplicaccedilatildeo mas jaacute eacute possiacutevel
perceber formas de adaptaacute-lo expandindo-o para seu uso na Web
Este trabalho natildeo tem o intuito de gerar uma implementaccedilatildeo computacional
completa do modelo proposto propotildee-se antes a demonstrar a viabilidade desta
implementaccedilatildeo descrevendo os diagramas e as descriccedilotildees dos casos de uso e a sua
modelagem conceitual culminando a construccedilatildeo dos diagramas de classes e de sequumlecircncia A
anaacutelise das potencialidades e limitaccedilotildees do modelo deveraacute ser possiacutevel a partir da realizaccedilatildeo
de estudos de casos onde se determine a complexidade computacional da implementaccedilatildeo
requerida
15
14 Estrutura da Dissertaccedilatildeo
O trabalho apresenta um capiacutetulo introdutoacuterio que orienta os toacutepicos do projeto e o
desenvolvimento da pesquisa aleacutem de sintetizar os resultados que seratildeo explorados na
conclusatildeo
O Capiacutetulo 2 a seguir aborda temas e definiccedilotildees da aacuterea de RI mostrando a sua
histoacuteria e tambeacutem discute o funcionamento e as vantagens e desvantagens dos modelos
claacutessicos de RI
No Capiacutetulo 3 apresenta-se a fundamentaccedilatildeo teoacuterica desta dissertaccedilatildeo onde satildeo
abordados trecircs autores Primeiramente apresenta-se a Proposta de Kuramoto que se baseia nos
niacuteveis de Sintagmas Nominais sendo exposto o protoacutetipo de interaccedilatildeo entre usuaacuterio e maacutequina
desenvolvido por este autor Na Teoria do Leacutexico Gerativo de Pustejovsky deu-se ecircnfase agrave
apresentaccedilatildeo da Estrutura de Qualia pois eacute a que foi julgada mais adequada para a aplicaccedilatildeo
no modelo proposto apresenta-se tambeacutem uma anaacutelise do estudo de Abrahatildeo Por fim
discute-se e apresenta-se o trabalho de Gonzalez e do seu modelo TR+ que possibilitou
juntamente com a proposta de Kuramoto sistematizar a proposta desta dissertaccedilatildeo
No Capiacutetulo 4 eacute desenvolvida a proposta do sistema SINTR+ atraveacutes dos diagramas e
das descriccedilotildees dos casos de uso do modelo o modelo conceitual os diagramas de classes e de
sequumlecircncia juntamente com exemplos demonstrativos das suas propriedades
No Capiacutetulo 5 tecircm-se as conclusotildees referentes ao trabalho bem como as sugestotildees
para continuidade desse foco de pesquisa
O Capiacutetulo 6 apresenta as referecircncias bibliograacuteficas utilizadas para a realizaccedilatildeo deste
trabalho bem como a bibliografia consultada para a compreensatildeo de conceitos abordados na
dissertaccedilatildeo finalizando com os anexos
16
2 RECUPERACcedilAtildeO DE INFORMACcedilAtildeO
Neste capiacutetulo apresentam-se o histoacuterico e os modelos claacutessicos da aacuterea de
recuperaccedilatildeo de informaccedilatildeo O objetivo ao abordar esses toacutepicos eacute delinear uma visatildeo geral da
aacuterea a partir de diversos modelos de RI apontando algumas de suas principais vantagens e
desvantagens Dar-se-aacute destaque ao fato de que os algoritmos de relevacircncia utilizados para
recuperar os documentos desconsideram o contexto da query de busca
21 Histoacuterico
Em 1951 segundo Baeza-Yates e Ribeiro-Neto (1999) Calvin Mooers criou o termo
ldquoInformation Retrievalrdquo (Recuperaccedilatildeo de Informaccedilatildeo) e definiu os problemas a serem
abordados por esta nova aacuterea de pesquisa a qual despertou o interesse principalmente de
bibliotecaacuterios e ldquoexpertsrdquo da informaccedilatildeo
No contexto da Ciecircncia da Informaccedilatildeo segundo Ferneda (2003 p 14)
o termo ldquoRecuperaccedilatildeo de Informaccedilatildeordquo significa para uns a operaccedilatildeo pela qual se seleciona documentos a partir do acervo em funccedilatildeo da demanda do usuaacuterio Para outros ldquoRecuperaccedilatildeo de Informaccedilatildeordquo consiste no fornecimento a partir de uma demanda definida pelo usuaacuterio dos elementos de informaccedilatildeo documentaacuteria correspondentes O termo pode ainda ser empregado para designar a operaccedilatildeo que fornece uma resposta mais ou menos elaborada a uma demanda e esta resposta eacute convertida num produto cujo formato eacute acordado com o usuaacuterio (bibliografia nota de siacutentese etc) Haacute ainda autores que conceituam a recuperaccedilatildeo de informaccedilatildeo de forma muito mais ampla ao subordinar agrave mesma o tratamento da informaccedilatildeo (catalogaccedilatildeo indexaccedilatildeo classificaccedilatildeo)
Para alguns autores segundo Cardoso (2000) RI eacute dita como uma subaacuterea da Ciecircncia
da Computaccedilatildeo que estuda o armazenamento e a recuperaccedilatildeo automaacutetica de documentos que
satildeo objetos de dados geralmente textos Para Baeza-Yates e Ribeiro-Neto (1999) o termo
ldquoRecuperaccedilatildeo de Informaccedilatildeordquo trata da representaccedilatildeo do armazenamento da organizaccedilatildeo e do
acesso aos itens da informaccedilatildeo
De acordo com Ferneda (2003) foi a partir dos experimentos de Hans Peter Luhn
(Engenheiro pesquisador da IBM) na indexaccedilatildeo automaacutetica e na elaboraccedilatildeo automaacutetica de
resumos que surgiram os primeiros resultados significativos no tratamento computacional da
informaccedilatildeo Com isto ldquoLuhn foi durante vaacuterios anos o criador de inuacutemeros projetos que
visavam modificar radicalmente meacutetodos tradicionais de armazenamento tratamento e
17
recuperaccedilatildeo de informaccedilatildeo Em 1961 jaacute acumulava cerca de 80 patentes nos Estados Unidosrdquo
(FERNEDA 2003 p 10-11) Estes dados mostram a importacircncia de Luhn no tratamento da
recuperaccedilatildeo de informaccedilotildees
Em 1960 segundo Ferneda (2003) foi desenvolvido os princiacutepios baacutesicos do modelo
probabiliacutestico para a Recuperaccedilatildeo de Informaccedilatildeo por Maron e Kuhns que foi mais tarde
definido por Robertson e Jones (1976) A deacutecada de 60 foi fundamental em experimentos
desta natureza ldquoem meados dos anos 60 inicia-se uma longa seacuterie de experimentos que
constitui um marco na Recuperaccedilatildeo de Informaccedilatildeo o projeto SMARTrdquo (FERNEDA 2003
p11) Este autor destaca que este projeto foi desenvolvido por Gerard Salton que se
especializou na pesquisa destas evoluccedilotildees na recuperaccedilatildeo de informaccedilotildees produzindo
inuacutemeros artigos cientiacuteficos um modelo de recuperaccedilatildeo de informaccedilatildeo a criaccedilatildeo e o
aprimoramento de diversas teacutecnicas computacionais aleacutem de o sistema SMART
Estes sistemas de recuperaccedilatildeo de informaccedilatildeo geralmente se baseiam na contagem de
frequumlecircncia das palavras do texto e na eliminaccedilatildeo de palavras reconhecidamente de pouca
relevacircncia (FERNEDA 2003) Um exemplo disso satildeo os meacutetodos automaacuteticos de indexaccedilatildeo
de recuperaccedilatildeo de informaccedilatildeo que utilizam ldquofiltrosrdquo para eliminar palavras de pouca
significaccedilatildeo (stopwords4 e noun groups5) aleacutem de normalizar os termos reduzindo-os a seus
radicais Esse processo eacute conhecido como stemming6
Ferneda evidencia que os trabalhos de Luhn e Salton inicialmente natildeo se
preocupavam com a anaacutelise semacircntica das palavras e que seus estudos colaboraram para com
a evoluccedilatildeo atual das pesquisas
Nos trabalhos de Luhn e Salton observa-se inicialmente uma crenccedila de que meacutetodos puramente estatiacutesticos seriam suficientes para tratar os problemas relacionados agrave recuperaccedilatildeo de informaccedilatildeo Poreacutem no transcorrer de suas pesquisas percebe-se uma busca por meacutetodos de anaacutelise semacircntica mais sofisticada Desde os seus primeiros trabalhos Salton se mostra interessado pela utilizaccedilatildeo de processos de tratamento da linguagem natural na recuperaccedilatildeo de informaccedilatildeo Em livro de 1983 Salton e McGill apresentam em um capiacutetulo intitulado Future directions in Information Retrieval a aplicaccedilatildeo do processamento da linguagem natural e da loacutegica fuzzy na recuperaccedilatildeo de informaccedilatildeo apontando a direccedilatildeo de futuras pesquisas para a Inteligecircncia Artificial (FERNEDA 2003 p 12)
Estas contribuiccedilotildees tecircm suas principais ideacuteias presentes ainda na maioria dos
sistemas de recuperaccedilatildeo atuais e nos mecanismos de busca da Web Como aparece na estrutura
de componentes de um sistema de recuperaccedilatildeo de informaccedilatildeo que seguem geralmente um
modelo de funcionamento como demonstrado por Cardoso (2000)
4 Stop Words eliminaccedilatildeo de artigos e conectivos 5 Noun Groups eliminaccedilatildeo de adjetivos adveacuterbios e verbos 6 Stemming reduccedilatildeo de uma palavra ao seu radical Exemplo Engineering Engineer
18
Figura 1 Componentes de um Sistema de Recuperaccedilatildeo de Informaccedilatildeo Fonte GEY apud CARDOSO 2000
22 Modelos Claacutessicos de Recuperaccedilatildeo de Informaccedilatildeo
221 Modelo Booleano
A aacutelgebra booleana eacute um sistema binaacuterio no qual existem somente dois valores
possiacuteveis para qualquer siacutembolo algeacutebrico ldquoverdadeirordquo ou ldquofalsordquo O modelo booleano eacute um
modelo de recuperaccedilatildeo simples baseado na teoria dos conjuntos e na aacutelgebra booleana Aleacutem
disso as querys satildeo especificadas atraveacutes de expressotildees booleanas que tecircm semacircnticas
precisa
Segundo Baeza-Yates e Ribeiro-Neto (1999) e Gonzalez (2000) a simplicidade e o
formalismo claro do modelo booleano recebiam grande atenccedilatildeo nos anos passados sendo
adotados por muitos sistemas comerciais bibliograacuteficos
A estrateacutegia de recuperaccedilatildeo desse modelo eacute baseada em um criteacuterio de decisatildeo
binaacuteria por exemplo um documento pode ser relevante ou natildeo relevante sem noccedilatildeo de escala
de classificaccedilatildeo que previna um bom desempenho na recuperaccedilatildeo Deste modo o modelo
booleano eacute na verdade muito mais um modelo de recuperaccedilatildeo de dados (em vez de
informaccedilatildeo)
19
Aleacutem disso conforme Baeza-Yates e Ribeiro-Neto (1999) enquanto expressotildees
booleanas tecircm semacircnticas precisas frequumlentemente natildeo eacute simples traduzir uma informaccedilatildeo
precisa dentro de uma expressatildeo booleana O modelo booleano prediz que cada documento eacute
relevante ou irrelevante Natildeo existe noccedilatildeo de um resultado (matching) parcial para as
condiccedilotildees da query
As principais vantagens do modelo booleano satildeo o formalismo claro oculto sobre o
modelo e sua simplicidade As principais desvantagens encontram-se no resultado exato que
pode recuperar poucos ou muitos documentos
Figura 2 Exemplo dos trecircs componentes conjuntivos para query Fonte BAEZA-YATES RIBEIRO-NETO 1999
2211 Operadores Booleanos
Os operadores booleanos funcionam atraveacutes de uma expressatildeo booleana para
formulaccedilatildeo de buscas Isto ocorre por meio de operadores loacutegicos AND OR e NOT (E OU e
NAtildeO) Conforme exemplo de Ferneda (2003) a recuperaccedilatildeo de informaccedilatildeo se daraacute em uma
expressatildeo conjuntiva de enunciado t1 AND t2 que recuperaraacute documentos indexados por
ambos os termos (t1 e t2) Isso equivale e permite aparecer agrave intersecccedilatildeo do conjunto dos
documentos indexados pelo termo t1 com o conjunto dos documentos indexados pelo termo
t2
Figura 3 Representaccedilatildeo do resultado de uma expressatildeo booleana conjuntiva (AND) Fonte FERNEDA 2003
20
O autor demonstra que uma expressatildeo disjuntiva t1 OR t2 recuperaraacute o conjunto dos
documentos indexados pelo termo t1 ou pelo termo t2 Isto equivale e possibilita agrave uniatildeo entre
o conjunto dos documentos indexados pelo termo t1 e o conjunto dos documentos indexados
pelo termo t2 (FERNEDA 2003)
Figura 4 Resultado de uma busca booleana disjuntiva (OR) Fonte FERNEDA 2003
2212 Operadores de Proximidade
No modelo booleano existem os operadores de proximidade que permitem
especificar condiccedilotildees relacionadas agrave distacircncia e agrave posiccedilatildeo dos termos no texto Um operador
de proximidade bastante comum nos sistemas de RI e nos mecanismos de busca da Web eacute o
operador ADJ (FERNEDA 2003) Esse operador permite pesquisar duas palavras adjacentes
no texto de um documento na ordem especificada na expressatildeo de busca por exemplo a
expressatildeo recuperaccedilatildeo ADJ informaccedilatildeo teraacute como resultado os documentos que tiverem a
palavra ldquorecuperaccedilatildeordquo seguida da palavra ldquoinformaccedilatildeordquo ou seja recuperaraacute documentos que
contecircm a expressatildeo ldquorecuperaccedilatildeo informaccedilatildeordquo Tambeacutem pode ser utilizado um termo
composto delimitando as suas palavras com aspas por exemplo ldquorecuperaccedilatildeo de
informaccedilatildeordquo
O modelo booleano de acordo com Ferneda (2003) possui limitaccedilotildees que o torna
pouco atrativo satildeo elas
bull O resultado de uma busca booleana se caracteriza por dois subconjuntos os que
atendem agrave expressatildeo de busca e aqueles que natildeo atendem Presume-se que todos
os documentos recuperados satildeo de igual utilidade para o usuaacuterio Natildeo haacute nenhum
mecanismo pelos quais os documentos possam ser ordenados
bull O usuaacuterio leigo se natildeo tiver um treinamento apropriado formularaacute somente
buscas simples Para buscas com expressotildees mais complexas eacute necessaacuterio um
conhecimento da loacutegica booleana
21
bull Natildeo existe uma forma de atribuir importacircncia relativa aos diferentes termos da
expressatildeo booleana Assume-se implicitamente que todos os termos tecircm o mesmo
peso
222 Modelo Vetorial
O modelo vetorial segundo Baeza-Yates e Ribeiro-Neto (1999) reconhece que o uso
de pesos binaacuterios eacute tambeacutem limitante e propotildee uma estrutura em que eacute possiacutevel a resposta
(matching) parcial Isto eacute feito atribuindo-se pesos natildeo binaacuterios aos termos indexados em
querys e em documentos Esses pesos de termos satildeo enfim utilizados para calcular o grau de
similaridade entre cada documento armazenado no sistema e a expressatildeo de busca formulada
pelo usuaacuterio (querys) Como a classificaccedilatildeo dos documentos recuperados eacute feita em ordem
decrescente desse grau de similaridade o modelo vetorial leva em consideraccedilatildeo documentos
que se igualem aos termos de querys somente parcialmente
O modelo vetorial de acordo com Cardoso (2000) e Gonzalez (2000) representa
documentos e consultas como vetores de termos Os termos satildeo ocorrecircncias uacutenicas nos
documentos Os documentos retornados como resultado para uma consulta satildeo representados
similarmente isto quer dizer que o vetor resultado para uma consulta eacute montado atraveacutes de um
caacutelculo de similaridade Aos termos das consultas e dos documentos satildeo atribuiacutedos pesos que
especificam o tamanho e a direccedilatildeo de seu vetor de representaccedilatildeo O acircngulo formado por esses
vetores determina a proximidade da ocorrecircncia E o caacutelculo da similaridade eacute baseado no
acircngulo entre os vetores que representam o documento e a consulta
Cardoso (2000) descreve ainda que os pesos quantificam a relevacircncia de cada termo
para as consultas (Wiq) e para os documentos (Wid) no espaccedilo vetorial Segundo Cardoso
(2000 p 03) ldquopara o caacutelculo dos pesos Wiq e Wid utiliza-se uma teacutecnica que faz o
balanceamento entre as caracteriacutesticas do documento utilizando o conceito de frequumlecircncia de
um termo num documentordquo Desta forma se uma coleccedilatildeo possui N documentos e teremos o nti
que eacute a quantidade de documentos que possuem o termo ti com isto o inverso da frequumlecircncia
do termo na coleccedilatildeo ou idf (inverse documento frequency) eacute dado pela foacutermula de Cardoso
(2000) abaixo
idfi = log (Nni)
22
Esse valor eacute possiacutevel usando a foacutermula para calcular o peso Wid = freq(tid) x idfi
que eacute o produto da frequumlecircncia do termo no documento pelo inverso da frequumlecircncia do termo na
coleccedilatildeo
No modelo vetorial um documento eacute representado por um vetor em que cada
elemento representa o peso ou a relevacircncia do respectivo termo de indexaccedilatildeo para o
documento Cada elemento do vetor (peso) eacute normalizado de forma a assumir valores entre
zero e um Os pesos mais proacuteximos de um (1) indicam termos com maior importacircncia para a
descriccedilatildeo do documento E termos que natildeo estatildeo presentes em um determinado documento
possuem peso igual a zero
Da mesma forma que os documentos no modelo vetorial uma expressatildeo de busca
conforme Baeza-Yates e Ribeiro-Neto (1999) tambeacutem eacute representada por um vetor numeacuterico
em que cada elemento representa a importacircncia (peso) do respectivo termo na expressatildeo de
busca
Diversos documentos e termos de indexaccedilatildeo podem ser representados atraveacutes de uma
matriz na qual cada linha representa um documento e cada coluna representa a associaccedilatildeo de
um determinado termo aos vaacuterios documentos
Figura 5 O co-seno do acircngulo adaptado como similar (dj q) Fonte BAEZA-YATES RIBEIRO-NETO 1999
Um exemplo de uso do modelo vetorial eacute o sistema SMART7 citado anteriormente
este sistema representa por valor numeacuterico cada documento e seu respectivo termo na
descriccedilatildeo do documento Segundo Ferneda (2003) o sistema SMART fornece um meacutetodo
automaacutetico que trata aleacutem do caacutelculo dos pesos dos vetores que representam os documentos
tambeacutem trata os vetores das expressotildees de busca
As principais vantagens do modelo vetorial segundo Baeza-Yates e Ribeiro-Neto
(1999) satildeo (1) esquema de pesos de termos melhora o desempenho da recuperaccedilatildeo (2)
estrateacutegias de resposta (matching) parcial permitem a recuperaccedilatildeo de documentos que se
aproximem de condiccedilotildees de query e (3) foacutermula de classificaccedilatildeo do co-seno ordena os
documentos de acordo com o grau de similaridade da query A desvantagem desse modelo de
23
acordo com os autores diz respeito agraves dependecircncias de termos prejudicando especialmente o
desempenho
Cardoso (2000) considera como principais vantagens do modelo vetorial a sua
simplicidade a facilidade de se computarem similaridades com eficiecircncia e o fato de que se
comporta bem com coleccedilotildees geneacutericas
223 Modelo Probabiliacutestico
O modelo probabiliacutestico foi introduzido de acordo com Baeza-Yates e Ribeiro-Neto
(1999) em 1976 por Roberston e Sparck Jones que mais tarde tornou-se como o modelo
Binary Independence Retrieval (BIR)
Na Matemaacutetica a teoria das probabilidades estuda os experimentos aleatoacuterios que
conforme Ferneda (2003 p 35) repetidos em condiccedilotildees idecircnticas podem apresentar resultados diferentes e imprevisiacuteveis Isso ocorre por exemplo quando se observa a face superior de um dado apoacutes o seu lanccedilamento ou quando se verifica o naipe de uma carta retirada de um baralho Por apresentarem resultados imprevisiacuteveis eacute possiacutevel apenas estimar a possibilidade ou a chance de um determinado evento ocorrer Para descrever matematicamente um experimento aleatoacuterio eacute necessaacuterio inicialmente identificar o conjunto de todos os seus possiacuteveis resultados A este conjunto daacute-se o nome de espaccedilo amostral
Entendendo-se uma busca como um experimento aleatoacuterio segundo Robertson e
Jones eacute possiacutevel descrever o seu espaccedilo amostral como composto de quatro possibilidades
pois dada uma expressatildeo de busca pode-se dividir a base de documentos em quatro
subconjuntos distintos o conjunto dos documentos relevantes (Rel) o conjunto dos
documentos recuperados (Rec) o conjunto dos documentos relevantes e recuperados (RR) e o
conjunto dos documentos natildeo relevantes e natildeo recuperados O conjunto dos documentos
relevantes e recuperados (RR) eacute resultante da intersecccedilatildeo dos conjuntos Rel e Rec
(FERNEDA 2003)
O conjunto de documentos resultantes da primeira busca eacute ordenado atraveacutes de uma
forma de ordenaccedilatildeo padratildeo tradicional Tendo esse conjunto de documentos o usuaacuterio
seleciona alguns deles que considera relevantes para a sua necessidade O sistema utiliza essa
informaccedilatildeo para tentar melhorar os resultados subsequumlentes
A principal virtude do modelo probabiliacutestico estaacute em reconhecer que a atribuiccedilatildeo de
relevacircncia eacute uma tarefa do usuaacuterio Eacute o uacutenico modelo que segundo Baeza-Yates e Ribeiro-
7 SMART (Sistem for the Manipulation and Retrieval of Text)
24
Neto (1999) e Gonzalez (2000) incorpora explicitamente o processo de Relevance Feedback
como base para a sua operacionalizaccedilatildeo
Uma simplificaccedilatildeo bastante questionaacutevel estaacute no fato de o modelo considerar os
pesos dos termos de indexaccedilatildeo como sendo binaacuterios ou seja no modelo probabiliacutestico natildeo eacute
considerada a frequumlecircncia com que os termos ocorrem no texto dos documentos
Em geral os modelos de RI desconsideram o contexto das palavras informadas pelo
usuaacuterio por isso tendem a retornar poucos documentos relevantes em uma consulta Para isso
pretende-se mostrar no capiacutetulo seguinte com a ajuda da Linguumliacutestica possiacuteveis abordagens
que podem apoiar o usuaacuterio considerando o seu contexto de busca e listando documentos
relevantes
25
3 FUNDAMENTACcedilAtildeO TEacuteORICA
Neste capiacutetulo buscou-se apresentar uma siacutentese dos trabalhos que datildeo base ao
modelo apresentado nesta dissertaccedilatildeo Satildeo eles a Proposta de Kuramoto a Teoria do Leacutexico
Gerativo e o Modelo de Gonzalez A Proposta de Kuramoto baseia-se em uma hierarquizaccedilatildeo
em niacuteveis de Sintagmas Nominais Na Teoria do Leacutexico Gerativo de Pustejovsky mostram-se
as estruturas compostas e deu-se destaque agrave Estrutura de Qualia julgada mais adequada para a
aplicaccedilatildeo no trabalho proposto Analisou-se o estudo de Abrahatildeo a partir de Pustejovsky A
terceira teoria de Gonzalez apresenta uma proposta automatizada com o modelo TR+
31 A Proposta de Kuramoto
Neste capiacutetulo apresentam-se os conceitos e as caracteriacutesticas da proposta de
Kuramoto que se baseia na determinaccedilatildeo de Sintagmas Nominais (SN) de uma query A sua
proposta preocupa-se em buscar os SN uma vez que satildeo considerados como importante
elemento de uma frase sendo entendidos como o nuacutecleo significativo (cerne) de uma oraccedilatildeo
Em sua tese de doutorado Kuramoto relata que todo o trabalho de reconhecimento e
extraccedilatildeo de SN dos documentos foi realizado de forma natildeo automatizada Isto auxiliou na
elaboraccedilatildeo de um modelo para reconhecimento extraccedilatildeo e indexaccedilatildeo de SN inseridos na
amostra do protoacutetipo desenvolvido
O modelo proposto por Kuramoto refere-se ao aproveitamento dos SN organizado
hierarquicamente em ldquoaacutervoresrdquo criando um novo conceito de indexaccedilatildeo que pode introduzir
inovaccedilatildeo em termos de uma interface de busca
Esse modelo de interface de acordo com Kuramoto (2002) permitiria que o usuaacuterio
navegasse no conjunto de SN ateacute encontrar o que melhor atendesse agrave sua necessidade de
informaccedilatildeo Somente apoacutes esse procedimento o usuaacuterio teria entatildeo acesso aos documentos de
onde foram extraiacutedos os SN Tal processo proporcionaria ao usuaacuterio um maior conhecimento
sobre a base de dados que estaacute sendo consultada uma vez que lhe permitiria reconhecer a
estrutura de sintagmas nominais presentes nos documentos pertencentes ao sistema
Os processos de indexaccedilatildeo automaacutetica utilizados em modelos de RI segundo Michel
Le Guern (1984 apud KURAMOTO 1995) deveriam extrair dos documentos informaccedilotildees
26
que facilitassem a recuperaccedilatildeo para o usuaacuterio e natildeo siacutembolos sem referecircncia como considera
que satildeo as palavras
Para Silva e Koch (1993) toda frase de uma liacutengua constitui uma organizaccedilatildeo ou
seja uma combinaccedilatildeo de elementos linguumliacutesticos agrupados conforme certos princiacutepios que a
caracterizam como uma estrutura Para Baeza-Yates e Ribeiro-Neto (1999) grande parte da
semacircntica do documento ou da requisiccedilatildeo do usuaacuterio eacute perdida quando se substitui o texto
completo por um conjunto de palavras
Aparentemente um conjunto de frases de nossa liacutengua de acordo com Silva e Koch
(1993) tem pouco em comum variando quanto agrave extensatildeo ao sentido agraves palavras de que se
compotildeem e agrave ordem em que essas se apresentam Apesar da aparente diversidade as frases
possuem uma organizaccedilatildeo interna que segue princiacutepios gerais bem definidos de modo que o
falante seraacute capaz de dizer se uma sequumlecircncia de palavras a) se estaacute de acordo com o sistema
gramatical da liacutengua b) se se apresenta completa ou incompleta c) se eacute passiacutevel de
interpretaccedilatildeo semacircntica
Conforme Silva e Koch (apud ABREU et al 2004 p03) ldquoo sintagma consiste num
conjunto de elementos que constituem uma unidade significativa dentro da oraccedilatildeo e que
mantecircm entre si relaccedilotildees de dependecircncia e de ordemrdquo As palavras se combinam em conjuntos
em torno de um nuacutecleo Esses conjuntos os sintagmas desempenham uma funccedilatildeo no conjunto
maior que eacute a frase Para Liberato (apud PARREIRAS 2003) o SN eacute a parte do enunciado
que representa um conceito ou referente
Assim por exemplo nos conjuntos de sintagmas ndash David o estudante a menina
doente e minha filha ndash o nuacutecleo eacute um elemento nominal (nome ou pronome) tratando-se
portanto de sintagmas nominais Nos conjuntos ndash viajou de carro dormiu e levaraacute a
encomenda ndash o elemento fundamental eacute o verbo de modo que se tecircm nesses casos sintagmas
verbais
A natureza do sintagma depende portanto do tipo de elemento que constitui o seu
nuacutecleo aleacutem do sintagma nominal (SN) e do sintagma verbal (SV) existem os sintagmas
adjetivais (SA) que tecircm por nuacutecleo um adjetivo e os sintagmas preposicionais (SP) formados
normalmente de preposiccedilatildeo mais sintagma nominal (SILVA KOCH 1993)
Na estrutura da oraccedilatildeo em sua forma de base aparecem como constituintes
obrigatoacuterios o SN e o SV Por exemplo Os garotos (SN) empinavam papagaios de papel
(SV) Pode-se dizer que as regras baacutesicas de estrutura frasal satildeo as seguintes O = SN + SV
(SP) (o elemento O significa Oraccedilatildeo)
27
311 Extraccedilatildeo dos Sintagmas Nominais
O trabalho de Kuramoto compreendeu o desenvolvimento de um protoacutetipo de
interface de busca utilizando os sintagmas nominais como forma de acesso agrave informaccedilatildeo Para
testar esse protoacutetipo foram examinados e extraiacutedos segundo Kuramoto (2002) cerca de 8800
sintagmas nominais de uma amostra de 15 artigos selecionados aleatoriamente da revista
Ciecircncia da Informaccedilatildeo
Kuramoto (1995 p 6) relata que a extraccedilatildeo dos sintagmas nominais foi realizada de forma manual simulando uma extraccedilatildeo automaacutetica Este procedimento foi adotado em funccedilatildeo da natildeo-existecircncia ainda de um sistema de extraccedilatildeo automaacutetica de SN em acervos contendo documentos em Liacutengua Portuguesa
Como os SN nem sempre se apresentam de forma clara Kuramoto aponta a
ocorrecircncia normal em todo texto em linguagem natural de anaacuteforas8 e de elipses9 que
dificultou a identificaccedilatildeo dos SN Essas dificuldades segundo Kuramoto (1995) aumentam
em um processo automatizado Algumas das dificuldades encontradas por Kuramoto no
procedimento de extraccedilatildeo dos SN satildeo descritas a seguir
a) SN escondidos em frases com fatoraccedilatildeo
Para Kuramoto (1995 p 06) as ldquofrases com fatoraccedilatildeo satildeo aquelas que contecircm uma
sequumlecircncia de palavras que precedem um outro conjunto de palavras coordenadas pelas
conjunccedilotildees eou por exemplo o processo de negociaccedilatildeo dos setores privado e puacuteblicordquo
Percebe-se nesse exemplo que o SN de niacutevel 1 compreende tanto os setores privado
e puacuteblico visto que a referecircncia dos dois adjetivos estaacute contida na palavra em plural ldquosetoresrdquo
Existem outros exemplos de frases com fatoraccedilatildeo nas quais as palavras coordenadas aparecem
entre parecircnteses significando um complemento combinatoacuterio do termo ou da frase que
precede o parecircntese por exemplo profundas transformaccedilotildees (poliacuteticas econocircmicas
sociais tecnoloacutegicas)
b) Artigo Zero
8 Em Linguumliacutestica segundo Ducrot e Todorov (1972 apud KURAMOTO 1995) um segmento do discurso eacute dito anafoacuterico quando para interpretaacute-lo (inclusive do ponto de vista literaacuterio) for necessaacuterio se reportar a um outro segmento do mesmo discurso 9 A figura de sintaxe ldquoelipserdquo eacute definida por Cunha e Cintra (1991 apud KURAMOTO 1995) como sendo a omissatildeo de um termo que o contexto ou a situaccedilatildeo permitem facilmente suprimir
28
Um outro fator de dificuldade na extraccedilatildeo dos SN eacute a frequumlente ausecircncia de
determinantes10 na liacutengua portuguesa diferente da liacutengua francesa na qual satildeo raros os SN
com ausecircncia de um determinante Motivo pelos quais algumas regras estabelecidas para a
liacutengua francesa natildeo foram utilizadas De acordo com Kuramoto (1995 p 7) ldquono
procedimento de extraccedilatildeo dos SN constatou-se que 2889 dos SN natildeo eram precedidos de
qualquer determinante Em uma amostra de 6010 SN 1736 SN natildeo satildeo precedidos por
nenhum determinanterdquo Estes nuacutemeros demonstram que o modelo necessaacuterio deve considerar
este fator
c) Caacutelculo das anaacuteforas
Quando uma entidade eacute referenciada pela primeira vez em um texto segundo
Gasperin Goulart e Vieira (2003) a expressatildeo que a descreve eacute dita nova no discurso
Quando tal entidade eacute retomada no texto a expressatildeo que a descreve eacute dita anafoacuterica sendo
considerado o seu antecedente a expressatildeo anterior correferente
Para Kuramoto (1995 p 7-8) ldquoos elementos anafoacutericos em portuguecircs aparecem
frequumlentemente mediante partiacuteculas como os pronomesrdquo No entanto na proposta do autor
natildeo foi possiacutevel resolver dois casos de anaacuteforas
Um primeiro caso de anaacutefora ocorre nas palavras sem fonte expliacutecita no texto tais
como ldquonesse sentidordquo (em que sentido) ldquonossa experiecircnciardquo (de quem do autor dos
teacutecnicos de informaccedilatildeo) etc Como a interpretaccedilatildeo das ideacuteias estaacute contida no documento natildeo
fica evidente a soluccedilatildeo desse tipo de anaacutefora
O segundo caso eacute constituiacutedo de termos cujas fontes se encontram como por exemplo
na histoacuteria dos acontecimentos como ldquoesse periacuteodo preacute-industrial esse sistema de
comunicaccedilatildeordquo etc Por este motivo os SN foram extraiacutedos da mesma forma como se
encontravam no texto
d) Caacutelculo das elipses
Outra questatildeo que necessita um entendimento do contexto de uma frase eacute o problema
ligado a este tipo de figura de sintaxe Visto que depende da capacidade de percepccedilatildeo da falta
de alguma palavra no contexto de uma frase Segundo Kuramoto (1995) eacute preciso para
identificaacute-la analisar natildeo somente as frases precedentes mas tambeacutem as frases seguintes
Como neste exemplo ldquouma visatildeo de longo prazo que assegure natildeo soacute a sobrevivecircncia ()
10 Segundo Silva e Koch (1993) o determinante quando simples eacute representado por um artigo numeral ou pronome adjetivo
29
como tambeacutem o crescimento da organizaccedilatildeordquo Que promove o questionamento de ldquoqual o
complemento do termo lsquosobrevivecircnciarsquo lsquoSobrevivecircnciarsquo de quemrdquo A soluccedilatildeo encontrada
poderia estar na frase seguinte ldquoo crescimento da organizaccedilatildeordquo
Para promover a extraccedilatildeo completa da frase o SN seria ldquouma visatildeo de longo prazo
que assegure natildeo soacute a sobrevivecircncia da organizaccedilatildeo como tambeacutem o crescimento da
organizaccedilatildeordquo
3111 Extraccedilatildeo Automaacutetica de Sintagmas Nominais
A extraccedilatildeo automaacutetica de SN eacute considerada importante para a aacuterea de RI pois
segundo Chishman et al (2000) agiliza este processo e gera um percentual baixo de erros Jaacute
foi desenvolvido um extrator automaacutetico de sintagmas nominais para a liacutengua portuguesa no
acircmbito do projeto VISL chamado ldquoPalavrasrdquo11 que vem sendo usado pelo grupo de pesquisa
da UNISINOS
Segundo Abreu Goulart e Vieira (2004) para obter a anaacutelise das sentenccedilas dos
textos utiliza-se o analisador sintaacutetico ldquoPalavrasrdquo que eacute considerada uma ferramenta robusta
para a anaacutelise sintaacutetica do portuguecircs
A partir da saiacuteda do analisador sintaacutetico segundo Gasperin Goulart e Vieira (2003)
a ferramenta ldquoXtractorrdquo gera trecircs arquivos XML O primeiro eacute o arquivo de palavras o
segundo inclui as categorias morfossintaacuteticas e o terceiro eacute o arquivo com as estruturas
sintaacuteticas das sentenccedilas
Assim apoacutes todo esse processo eacute possiacutevel extrair de modo automaacutetico os sintagmas
nominais das sentenccedilas de um texto ressaltando-se que estes natildeo estatildeo ainda organizados
segundo a estrutura de niacuteveis que propotildee Kuramoto
312 A determinaccedilatildeo de uma estrutura para os SN
A essecircncia da proposta de Kuramoto (1995) reside na percepccedilatildeo que o autor teve de
que os SN organizam-se naturalmente numa estrutura de niacuteveis encadeados Kuramoto
percebeu nessa organizaccedilatildeo em niacuteveis um caminho para propiciar ao usuaacuterio mais facilidade
11 O analisador Palavras faz parte de um grupo de analisadores sintaacuteticos (softwares) do projeto VISL - Visual Interactive Sintax Learning do Institute of Language and Communication da University of Southern Denmark Disponiacutevel em lthttpvislsdudkvislptparsingautomaticgt (ABREU GOULART VIEIRA 2004)
30
no uso de um SRI levando tambeacutem a resultados mais precisos Para compreender a estrutura
proposta pelo autor apresenta-se a seguir o exemplo usado pelo proacuteprio Kuramoto
As Caracteriacutesticas do Meio Ambiente do Mundo dos Negoacutecios SN1 os negoacutecios SN2 o mundo dos negoacutecios SN3 o meio ambiente do mundo dos negoacutecios SN4 as caracteriacutesticas do meio ambiente do mundo dos negoacutecios
Figura 6 Exemplo da estrutura de niacuteveis de Sintagmas Nominais Fonte KURAMOTO 1995
Esse exemplo mostra o potencial da estrutura de relaccedilotildees de encadeamento de um
conjunto de SN Para o autor a anaacutelise do sintagma nominal no exemplo permitiu a extraccedilatildeo do SN ndash o meio ambiente do mundo dos negoacutecios A partir desse SN pode-se visualizar um outro SN embutido ndash o mundo dos negoacutecios ndash que por sua vez possui um quarto SN ndash os negoacutecios ndash que representa o niacutevel mais inferior12 Percebe-se nesse exemplo a existecircncia de quatro SN encadeados que enumerados em ordem crescente (do SN mais simples ao mais complexo) levam agrave classificaccedilatildeo do SN original como sendo de niacutevel 4 (KURAMOTO 1995 p04)
Com base nessas caracteriacutesticas apresentadas por Kuramoto (1995) os SN podem ser
organizados sob uma estrutura de aacutervore Esta estrutura possibilita que o Sistema de
Recuperaccedilatildeo de Informaccedilatildeo (SRI) possa atender agraves necessidades de consultas do usuaacuterio
Para atender esta demanda eacute preciso fornecer um centro de SN de seu interesse (como o
exemplo do autor ldquonegoacuteciosrdquo)
Para isso apresentam-se todos os SN1 relativos a essa busca inclusive o SN ldquoos
negoacuteciosrdquo A partir da lista encontrada de SN1 o usuaacuterio poderaacute restringir o seu perfil de
busca escolhendo um SN1 por exemplo ldquoos negoacuteciosrdquo e solicitar os SN2 relacionados a esse
SN1 O SRI apresenta todos os SN2 inclusive o SN ldquoo mundo dos negoacuteciosrdquo e assim
sucessivamente (KURAMOTO 1995)
Este autor afirma que esta passagem por vaacuterios niacuteveis promove um refinamento no
processo O processo de refinamento eacute realizado por meio da passagem pelos vaacuterios niacuteveis de uma estrutura arborescente de SN13 dado que o SN vai se tornando mais especiacutefico
12 Segundo Kuramoto (1995) os sintagmas nominais agrave medida que satildeo extraiacutedos de um outro SN satildeo classificados por niacuteveis Assim o sintagma mais simples eacute denominado SN de niacutevel 1 Constitui SN de niacutevel 2 aquele a partir do qual foi extraiacutedo o de niacutevel 1 e assim sucessivamente 13 Constatou-se empiricamente utilizando a maquete desenvolvida nesta experimentaccedilatildeo de acordo com Kuramoto (1995) que a quantidade de SN de segundo niacutevel em relaccedilatildeo a um dado SN de primeiro niacutevel pode ser maior que o total de SN de primeiro niacutevel Por exemplo a resposta agrave demanda do centro de SN ldquoinformaccedilatildeordquo foi de 122 SN de primeiro niacutevel e a resposta agrave demanda do SN de primeiro niacutevel ldquoa informaccedilatildeordquo foi de 172 SN de segundo niacutevel Por outro lado verificou-se que
31
agrave medida que se atingem os niacuteveis mais elevados da estrutura Ao percorrecirc-la o usuaacuterio estaacute na realidade delimitando ou melhor qualificando a sua necessidade de informaccedilatildeo Cabe portanto ao usuaacuterio identificar o niacutevel em que as suas necessidades de informaccedilatildeo seratildeo atendidas (KURAMOTO 1995 p 04-05)
Esta possibilidade de hierarquia permite uma interaccedilatildeo entre o usuaacuterio e maacutequina e
uma escolha individual de refinamento
313 Protoacutetipo Desenho da Interface de Busca
A Figura 7 descreve de maneira esquemaacutetica a interaccedilatildeo entre o usuaacuterio e o protoacutetipo
de Kuramoto (1995)
O protoacutetipo viabiliza a primeira interaccedilatildeo pois haacute uma tela em que permite ao
usuaacuterio fazer a sua solicitaccedilatildeo de informaccedilatildeo fornecendo uma palavra (centro de SN1) A
partir dessa palavra surgem outras interaccedilotildees como mostra o esquema de Kuramoto (1995) na
Figura 7 que ocorrem nas accedilotildees abaixo
Figura 7 Procedimentos de interaccedilatildeo usuaacuteriominusprotoacutetipo Fonte KURAMOTO 1995
o SN ldquoa informaccedilatildeordquo indexava 15 documentos na base enquanto o SN de segundo niacutevel ldquoa anaacutelise da informaccedilatildeordquo indexava apenas 1 (um) documento Confirma-se nesse exemplo que a passagem de um dado niacutevel a um superior na aacutervore de SN proporciona maior refinamento no processo de seleccedilatildeo dos documentos
32
314 Organizaccedilatildeo dos Sintagmas Nominais como Estrutura de Busca
Na proposta de Kuramoto (1995) foram desenvolvidas as seguintes estruturas de busca
Figura 8 Estrutura de dados para acessar os Sintagmas Nominais de primeiro niacutevel a partir de uma palavra Fonte KURAMOTO 1995
Kuramoto (1995) mostra na Figura 8 a associaccedilatildeo das tabelas Palavras CS-SN1 e
SN1 Cada dado tem nomes dos elementos que estatildeo sublinhados e representam as chaves de
cada tabela Na tabela Palavras observa-se que o autor agrupa todas as palavras (centro) que
representam os centros de SN1 Haacute uma atribuiccedilatildeo de coacutedigo para cada ldquocentrordquo chamado
ldquocoacutedigo crdquo A tabela CS-SN1 eacute uma tabela de associaccedilatildeo dos coacutedigos dos centros de SN1 com
os coacutedigos dos SN1 Essa figura mostra que para cada centro de SN1 existem vaacuterios SN1 A indicaccedilatildeo na seta da associaccedilatildeo da tabela Palavras com a tabela CS-SN1 define que na tabela Palavras podem existir M ocorrecircncias de um coacutedigo de centro de SN1 O mesmo pode ocorrer na tabela CS-SN1 em que esse coacutedigo pode verificar-se N vezes Essa indicaccedilatildeo traduz a ideacuteia de que para cada SN1 pode existir mais de um centro de SN1 Isto se explica pela existecircncia no contexto de um SN de palavras que satildeo tatildeo importantes quanto o centro de sintagma (KURAMOTO 1995 p 11)
Observa-se o exemplo ldquoo sistema de informaccedilatildeordquo Nesse o autor define o SN1 de
ldquosistemardquo Todavia esta natildeo eacute a uacutenica palavra fundamental pois a palavra ldquoinformaccedilatildeordquo tem
tanta importacircncia quanto o proacuteprio centro de sintagma (sistema)
Kuramoto (1995 p 11) mostra ainda que existe associaccedilatildeo entre o centro de SN1 e a
vaacuterios SN de niacutevel 1 Cada centro de SN1 pode estar associado a mais de um SN1 Essa indicaccedilatildeo eacute dada pela seta que associa a tabela SN1 agrave tabela CS-SN1 onde o nuacutemero 1 significa que na tabela SN1 existe uma soacute ocorrecircncia de um determinado coacutedigo de SN1 enquanto na tabela CS-SN1 existem M ocorrecircncias desse coacutedigo
Outro elemento de dados importante na tabela SN1 eacute chamado ldquonuacutemerordquo que
segundo Kuramoto (1995 p 11-12) ldquoindica a quantidade de artigos de onde um determinado
33
SN1 foi extraiacutedordquo O nuacutemero de referecircncias de onde o SN foi extraiacutedo aparece para cada
apresentaccedilatildeo de SN1 relacionado com um centro de SN1 escolhido pelo usuaacuterio
Kuramoto (1995) ilustra numa outra figura (Figura 9) a estrutura de dados construiacuteda
para a busca dos SN2 a partir de um SN1 selecionado pelo usuaacuterio
Figura 9 Estrutura de dados para acessar os Sintagmas Nominais de segundo niacutevel a partir de Sintagmas Nominais de primeiro niacutevel Fonte KURAMOTO 1995
Nessa ilustraccedilatildeo observa-se que se manteacutem a estrutura da Figura 8 em uma
associaccedilatildeo de tabelas que busca facilitar a busca dos SN2 a partir de um SN1 escolhido pelo
usuaacuterio Segundo Kuramoto (1995 p 12) ldquopercebe-se analogamente que um dado SN1 pode
estar associado a vaacuterios SN2 e vice-versa Isto traduz a ideacuteia de que um SN2 pode ter
embutido mais de um SN1 Essa estrutura atende agraves caracteriacutesticas dos SN listados no iniacutecio
desta seccedilatildeordquo
A busca de informaccedilotildees se manteacutem na mesma estrutura para os SN de niacutevel 3 e 4 que
satildeo semelhantes agraves Figuras acima (SN1 e SN2) com diferenccedila apenas no nome de cada
elemento que eacute correspondente ao nuacutemero dos SN
O acesso aos documentos estaacute representado na Figura 10 que exemplifica uma
escolha no SN1
Figura 10 Estrutura de dados para o acesso aos tiacutetulos e textos dos artigos Fonte KURAMOTO 1995
34
Essa estrutura foi desenvolvida para que o protoacutetipo atenda a uma demanda do
usuaacuterio viabilizando a visualizaccedilatildeo de todos os tiacutetulos e textos de documentos de onde um
SN1 foi extraiacutedo Haacute outras associaccedilotildees semelhantes a essas da Figura 17 que servem para o
acessar os documentos a partir de SN de qualquer um dos quatro niacuteveis previstos no protoacutetipo
Kuramoto (1995 p 12-13) ressalta ainda as accedilotildees do coacutedigo numeacuterico Eacute importante observar que todas as tabelas contendo os SN nos seus vaacuterios niacuteveis tecircm como chave de acesso um coacutedigo numeacuterico uacutenico de SN Para tanto construiu-se uma tabela contendo os SN onde estes satildeo identificados por meio de um coacutedigo numeacuterico Natildeo existe nenhum impedimento teacutecnico por parte do sistema Access quanto ao uso do proacuteprio texto dos SN como chave de acesso agraves informaccedilotildees Deve-se ressaltar que apesar da lentidatildeo que este tipo de chave de acesso provoca as estruturas de dados seriam mais simples e faacuteceis de manusear Contudo optou-se pela utilizaccedilatildeo das chaves numeacutericas identificando cada SN com o intuito de obter maior velocidade de acesso aos SN e agraves informaccedilotildees
Finalizando esta apresentaccedilatildeo do modelo de Kuramoto cabe destacar que a utilizaccedilatildeo
da aacutervore de SN por niacuteveis permite uma visualizaccedilatildeo mais faacutecil do conteuacutedo da base de dados
e manteacutem o que haacute de mais significativo nos documentos sua semacircntica
As estruturas de Qualia e de Heranccedila Lexical do Leacutexico Gerativo de Pustejovsky a
serem apresentadas na proacutexima seccedilatildeo permitem tambeacutem da mesma forma considerar a
semacircntica dos itens lexicais atraveacutes da criaccedilatildeo de uma malharede de relaccedilotildees de palavras e
seus significados atraveacutes dos papeacuteis que compotildeem a EQ
32 A Teoria do Leacutexico Gerativo de Pustejovsky
Pustejovsky defende a ideacuteia de que assim como a gramaacutetica tem uma estrutura
(sintaxe) a semacircntica (significado) tambeacutem tem uma estrutura baacutesica Na estrutura baacutesica da
sintaxe das liacutenguas em geral segundo Souza e Silva (1993) as oraccedilotildees satildeo compostas de
Sintagma Nominal (SN) mais Sintagma Verbal (SV) basicamente Na busca da estrutura
semacircntica Pustejovsky (1991) delineia a teoria do Leacutexico Gerativo (LG) como uma
abordagem na aacuterea da semacircntica lexical que pretende dar conta da criatividade semacircntica do
uso das palavras em contexto
Segundo Rossi (2003) Ullmann concorda com essa dificuldade do uso das palavras
em contexto quando declara que ldquonatildeo satildeo raros os casos em que ocorre uma polivalecircncia das
palavras acarretando por consequumlecircncia fenocircmenos semacircnticos inerentes agraves liacutenguas naturais
entre eles a ambiguumlidade lexicalrdquo Essa ambiguumlidade eacute provocada em decorrecircncia de fatores
35
lexicais denominados de polissemia e de homoniacutemia ou na terminologia de Weinreich
conforme Rossi (2003) de ambiguumlidade complementar e ambiguumlidade contrastiva
respectivamente
No primeiro caso trata-se da polissemia que de um modo geral conforme Moura
(2001) ldquoeacute definida como um fenocircmeno que permite associar a um mesmo item lexical mais
de um sentido os quais mantecircm alguma relaccedilatildeo semacircntica entre sirdquo Assim a palavra ldquolivrordquo
por exemplo eacute polissecircmica pois expressa ao menos dois sentidos diferentes que possuem
entre si algum tipo de laccedilo semacircntico (a) objeto fiacutesico e (b) informaccedilatildeo
Jaacute no segundo caso o da ambiguumlidade contrastiva trata-se de homoniacutemia definida
por Pustejovsky como a situaccedilatildeo na qual um item lexical eacute associado com ao menos dois
sentidos diferentes e sem relaccedilatildeo entre si Desse modo a palavra ldquomangardquo por exemplo eacute
uma palavra homocircnima pois natildeo haacute nenhuma relaccedilatildeo semacircntica evidente entre os sentidos de
ldquofrutardquo e ldquoparte da blusardquo
Segundo Rossi (2003 p 14) Ullmann salienta que ldquoeacute difiacutecil em casos particulares
determinar onde termina a polissemia e onde comeccedila a homoniacutemia uma vez que natildeo eacute faacutecil e
nem sempre possiacutevel medir intuitivamente o grau de proximidade dos significadosrdquo
A polissemia loacutegica eacute denominada por Pustejovsky (1991) para restringir a
ambiguumlidade complementar abordada anteriormente nos casos em que ocorre uma relaccedilatildeo
loacutegica portanto previsiacutevel entre os sentidos de uma palavra polissecircmica Havendo mais de um
sentido eacute importante ressaltar que pode existir sobreposiccedilatildeo desses sentidos em um mesmo
contexto
Aleacutem de ter sido tratada como polissemia loacutegica por Pustejovsky segundo Rossi
(2003) desde Weinreich esse fenocircmeno da complementaridade dos sentidos tem sido
abordado como polissemia regular e polissemia sistemaacutetica
A teoria do Leacutexico Gerativo (LG) de Pustejovsky aponta o problema da
multiplicidade de significados das palavras e enfatiza um tratamento relacionado ao problema
da polissemia das palavras Segundo Neto (2003) nessa perspectiva Pustejovsky desenvolveu
o LG que eacute um modelo de processamento de liacutengua natural que trata da explicaccedilatildeo semacircntica
de itens lexicais tanto isolados quanto em contexto
Assim como a gramaacutetica caracteriza o comportamento sintaacutetico especiacutefico de uma
certa categoria de palavras Pustejovsky propotildee uma teoria gerativa do significado da palavra
E ainda pretende mostrar que seu modelo segundo Rossi (2003 p 47) ldquoeacute contraacuterio a
36
estaticidade presente em duas concepccedilotildees semacircnticas teoacutericas das deacutecadas de 60 e 70 as
baseadas em redes conexionistas e as baseadas em primitivos fixos14rdquo
Rossi (2003 p 47) afirma que a teoria de redes conexionistas organiza a semacircntica
das palavras atraveacutes de relaccedilotildees e elos para esta autora isso ldquodificulta a representaccedilatildeo de
sentidos que exibem polissemia regular haja vista a distacircncia na rede entre os sentidos que
mantecircm relaccedilatildeo sistemaacutetica entre sirdquo Por exemplo os sentidos de ldquoobjeto fiacutesicordquo e
ldquoinformaccedilatildeordquo satildeo naturalmente distantes no entanto mantecircm entre si relaccedilatildeo sistemaacutetica no
caso de ldquolivrordquo e de outras palavras
Jaacute no segundo caso o das teorias baseadas em primitivos semacircnticos fixos o leacutexico
eacute tratado como uma lista enumerativa de sentidos Por isso mesmo tais modelos satildeo
denominados por Pustejovsky (1991) de Sense Enumeration Lexicon (SEL) - leacutexico de
enumeraccedilatildeo de sentidos O problema segundo Pustejovsky (1991) eacute que essa caracterizaccedilatildeo
dos possiacuteveis sentidos de uma palavra postulada pelo modelo SEL eacute aplicada tanto para a
ambiguumlidade contrastiva como para a polissemia loacutegica
Fica evidente segundo Rossi (2003) que Pustejovsky se opotildee aos modelos SEL pois
apesar de eles proverem uma enumeraccedilatildeo exaustiva dos sentidos de um item lexical ainda se
mostram limitados natildeo dando conta dos objetivos baacutesicos da teoria semacircntico-lexical ou seja
o uso criativo de palavras a permeabilidade dos significados e as muacuteltiplas formas sintaacuteticas
das expressotildees
O objetivo principal do LG segundo Pustejovsky (1991) eacute prover uma descriccedilatildeo
formal da liacutengua que seja expressiva e flexiacutevel o suficiente para apreender a natureza gerativa
da criatividade lexical e extensatildeo de sentido Caracteriza assim o LG como um sistema
semacircntico de perspectiva loacutegica que envolve quatro niacuteveis de representaccedilatildeo um sistema de
tipos semacircnticos e trecircs tipos de mecanismos gerativos
No decorrer deste capiacutetulo seratildeo especificadas as noccedilotildees teoacutericas baacutesicas do modelo
gerativo de Pustejovsky que estruturam o leacutexico em quatro niacuteveis de representaccedilatildeo
(argumentos eventos qualia e heranccedila) sobre os quais atuam dispositivos gerativos (a
coerccedilatildeo de tipo a co-composiccedilatildeo e a ligaccedilatildeo seletiva)
321 Estruturas do Leacutexico Gerativo
14 Conforme Pustejovsky (1995) a teoria de primitivos fixos eacute defendida por autores como Lakoff (1971) Wilks (1975) Schank (1975) Katz (1977) Jaacute a teoria de redes conexionistas eacute defendida por Carnap (1956) Collins e Quillian (1969) Fodor (1975) Brachman (1979)
37
Para capturar o significado lexical estudou-se as estruturas de Pustejovsky (1991)
que propotildee quatro niacuteveis de representaccedilatildeo estrutura de argumento estrutura de evento
estrutura de qualia e estrutura de heranccedila lexical descritos abaixo
3211 Estrutura de Argumento
Para Pustejovsky (1991) essa estrutura eacute uma especificaccedilatildeo miacutenima que agrupa os
itens lexicais em quatro argumentos
bull verdadeiros ndash paracircmetros do item lexical que tecircm a necessidade de serem expressos
sintaticamente Ex Marta morou em Paris
bull apagados ndash paracircmetros que natildeo tecircm necessidade de serem realizados sintaticamente satildeo
argumentos opcionais Ex Joana coseu uma saia sem linha
bull sombreados ndash paracircmetros que jaacute estatildeo semanticamente presentes no item lexical e soacute
devem ser expressos atraveacutes de operaccedilotildees de subtipo ou especificaccedilatildeo de discurso Ex
Paulo salgou a carne com sal grosso
bull adjuntos verdadeiros ndash paracircmetros que mesmo sendo parte da interpretaccedilatildeo situacional
modificam uma expressatildeo loacutegica sem contudo estarem ligados agrave representaccedilatildeo
semacircntica de algum item lexical especiacutefico Esses paracircmetros introduzem expressotildees
adjuntivas de modificaccedilatildeo temporal ou espacial Ex David dormiu cedo
3212 Estrutura de Evento
Essa estrutura para Pustejovsky (1991) refere-se a organizaccedilatildeo de um conjunto de eventos
no que tange agrave ordenaccedilatildeo temporal de seus subeventos e a designaccedilatildeo de qual deles seraacute
considerado o principal em relaccedilatildeo ao evento matriz
bull Evento de estado ndash aquele cujo(s) argumento(s) natildeo sofre(m) alteraccedilatildeo durante o
intervalo temporal do evento Ex Kaacutetia mora em Florianoacutepolis
bull Evento de processo ndash aquele cujo(s) argumento(s) sofre(m) alteraccedilatildeo de estado ou
indica(m) o iniacutecio de alguma atividade sem uma culminaccedilatildeo precisa Ex Heloisa canta
bem
bull Evento de transiccedilatildeo - aquele cujo(s) argumento(s) sofre(m) alguma accedilatildeo de
temporalidade determinada e resulta(m) em um estado diferente do inicial Ex Tereza fez
uma boneca
38
A estrutura a seguir apresenta os atributos semacircnticos essenciais dos itens lexicais
(como por exemplo a categoria a composiccedilatildeo a funccedilatildeo e a origem) atraveacutes dos papeacuteis
formal constitutivo teacutelico e agentivo Eacute a estrutura principal responsaacutevel pela explicaccedilatildeo da
polissemia loacutegica abordada no texto (Pustejovsky 1991)
3213 Estrutura de Qualia
Devido a sua proximidade com o SN visto que trabalha por conceitos (nomes) esta
estrutura foi utilizada no desenvolvimento do modelo proposto pela pesquisa Trata de um
conjunto formado por quatro qualia que visam guiar o processo de entendimento a respeito de
um objeto ou uma relaccedilatildeo no mundo dando por consequumlecircncia um modo de especificar a
denotaccedilatildeo de tal objeto ou relaccedilatildeo Eacute dividida em quatro papeacuteis os quais satildeo descritos na
sequumlecircncia
a) Quale formal - faz a distinccedilatildeo de determinado item dentro de um domiacutenio maior levando
em consideraccedilatildeo sua
bull orientaccedilatildeo
bull magnitude
bull forma
bull dimensatildeo
bull cor
bull posiccedilatildeo
b) Quale constitutivo - estabelece a relaccedilatildeo entre um objeto e suas partes constituintes ou
proacuteprias a partir das propriedades
bull material
bull peso
bull partes e elementos componentes
Aleacutem disso o quale constitutivo informa tambeacutem de que classe um item eacute parte caso
haja tal relaccedilatildeo ou seja ele informa tanto uma relaccedilatildeo de hiperoniacutemia15 quanto de
meroniacutemia16
15 Hiperoniacutemia ocorre quando o significado de um lexema (palavra) abrange o significado de outro lexema O significado de um eacute mais geneacuterico que o significado de outro Por exemplo ldquoaeronaverdquo eacute um hiperocircnimo de ldquoteco-tecordquo
39
Estas relaccedilotildees satildeo utilizadas na modelagem do protoacutetipo de Gonzalez (2005) Este
protoacutetipo foi pesquisado e apreendido como parte integrante da proposta desta dissertaccedilatildeo e
seraacute descrito na seccedilatildeo 33 do capiacutetulo 3
c) Quale teacutelico - explicita a finalidade e a funccedilatildeo de um objeto
bull Propoacutesito de um agente ao realizar um ato
bull Funccedilatildeo interna ou objetivo que descreve certas atividades
d) Quale agentivo - determina os fatores envolvidos na origem ou causa de um objeto
partindo de consideraccedilotildees sobre
bull criador
bull artefato
bull tipo natural
bull cadeia causal
Figura 11 Representaccedilatildeo da matriz de um item lexical Fonte ROSSI 2003
Figura 12 Matriz superficial da Estrutura de Qualia do item lexical ldquolivrordquo Fonte ROSSI 2003
16 Meroniacutemia ocorre quando o significado de um lexema (palavra) faz parte ou eacute uma porccedilatildeo do significado de outro lexema Por exemplo as palavras ldquocapardquo e ldquofolhasrdquo satildeo merocircnimos de ldquolivrordquo
40
Eacute importante salientar que segundo Neto (2003a) a Estrutura de Qualia natildeo deve ser
considerada apenas como uma lista de fatos interessantes sobre um item lexical e sim como
um conjunto de propriedades que leva a uma explicaccedilatildeo mais clara de tal item
Isto equivale dizer que o objetivo da Estrutura de Qualia eacute abarcar o significado de
uma palavra e explicitar como se relaciona com o uso da liacutengua Assim essa estrutura salienta
a explicaccedilatildeo do uso da criatividade linguumliacutestica contextual natildeo como uma estrutura isolada
mas em conjunto com os mecanismos gerativos que seratildeo apresentados mais adiante
Seguem alguns exemplos da Estrutura de Qualia
Figura 13 Exemplo da Estrutura de Qualia do item lexical ldquoromancerdquo Fonte PUSTEJOVSKY 1991
Figura 14 Exemplo da Estrutura de Qualia do item lexical ldquodicionaacuteriordquo Fonte PUSTEJOVSKY 1991
3214 Estrutura de Heranccedila Lexical
Esta estrutura tambeacutem eacute de fundamental importacircncia porque nesta ocorre a relaccedilatildeo das
qualias ou seja satildeo estruturas lexicais que podem se organizar com outras estruturas em uma
grade de tipo e assim ajudar na organizaccedilatildeo geral do leacutexico Por exemplo na figura abaixo o
LG relaciona ldquodicionaacuteriordquo ldquolivrordquo e ldquopeccedilardquo atraveacutes de suas estruturas de qualia em que se
observa que os trecircs itens lexicais satildeo diferentes entre si no entanto mantecircm relaccedilotildees
semacircnticas
41
Figura 15 Exemplo do LG relacionando ldquodicionaacuteriordquo ldquolivrordquo e peccedila atraveacutes de suas EQ Fonte NETO 2003a
322 Sistema de Tipos Semacircnticos
Um sistema de tipos semacircnticos analisa o comportamento polissecircmico e loacutegico de
nomes implicitamente relacionais como por exemplo porta janela Pustejovsky mostra como
o leacutexico gerativo faz uso de estruturas de aspectos tiacutepicos e afirma que esses nomes tecircm dois
sentidos relacionais (ldquoobjeto fiacutesicordquo e ldquoaberturardquo) que satildeo logicamente parte do significado do
nome Essa habilidade que um item lexical tem de agrupar vaacuterios sentidos eacute chamada
ldquoparadigma leacutexico-conceptual (plc ou lcp)rdquo O plc eacute como um construtor de tipo por exemplo
em palavras como ldquoportardquo e1 significa objeto_fiacutesico e2 abertura e o tipo resultante eacute
ldquoobjeto_fiacutesicoabertura_plc = objeto_fiacutesicoabertura objeto_fiacutesicoaberturardquo
Figura 16 Exemplo de polissemia loacutegica na representaccedilatildeo matricial da palavra ldquolivrordquo Fonte ROSSI 2003
42
Figura 17 Exemplo de polissemia loacutegica na representaccedilatildeo matricial da palavra ldquojornalrdquo Fonte ROSSI 2003
322 Mecanismos gerativos
O Leacutexico Gerativo apresenta ainda um conjunto de trecircs mecanismos que fazem uso
das estruturas ldquoeventordquo ldquoargumentordquo e ldquoqualiardquo os quais satildeo ditos gerativos pois relacionam
diferentes itens lexicais possibilitando a interpretaccedilatildeo composicional de palavras em contexto
3221 Coerccedilatildeo de tipo
Autoriza a mudanccedila de tipo e por extensatildeo de denotaccedilatildeo de nomes e expressotildees de
acordo com o contexto a que pertencem A coerccedilatildeo de tipo reconstroacutei a semacircntica do
complemento e soacute teraacute sucesso se o item lexical em questatildeo tiver um atalho para o tipo
desejado O exemplo claacutessico dado por Pustejovsky eacute ldquoJoatildeo comeccedilou um livrordquo em que o
predicado comeccedilar requer um tipo diferente do apresentado por livro ou seja o verbo requer
um complemento do tipo ldquoeventordquo que natildeo eacute satisfeito por ldquolivrordquo O termo ldquocomeccedilar um
livrordquo eacute interpretado como comeccedilar a ler (ou escrever) um livro
3222 Ligaccedilatildeo seletiva
Rege a relaccedilatildeo semacircntica que um modificador tem com o seu nuacutecleo ou seja ela
trata do problema da polissemia adjetival uma vez que os adjetivos satildeo interpretados a partir
da semacircntica do nuacutecleo Exemplos
(1) Um passeio raacutepido
(2) Um motorista raacutepido
43
(3) Um digitador raacutepido
(4) Um computador raacutepido
O primeiro problema estaacute claramente exemplificado com (1) em oposiccedilatildeo a (2) (3) e
(4) ou seja o primeiro trata de uma adjetivaccedilatildeo sobre um evento e os demais de uma
adjetivaccedilatildeo sobre indiviacuteduos Jaacute para o segundo problema diz-se que a interpretaccedilatildeo do
adjetivo vai ser selecionada por algum dos qualia do nuacutecleo do sintagma nominal ou seja
pela ligaccedilatildeo seletiva Esse mecanismo vai buscar a interpretaccedilatildeo de raacutepido para os exemplos
acima no quale teacutelico dos nuacutecleos
3223 Co-composiccedilatildeo
Os itens lexicais componentes de um determinado sintagma influenciam-se
mutuamente e um complemento pode adicionar um sentido ao seu nuacutecleo Pustejovsky
comeccedila exemplificando esse mecanismo com a polissemia de verbos como o ldquoassarrdquo que
apresenta dois sentidos uma mudanccedila de estado e outra de criaccedilatildeo do objeto Os exemplos
claacutessicos satildeo
(a) Letiacutecia assou as batatas
(b) Letiacutecia assou o bolo
Observa-se que em (1) houve apenas uma mudanccedila de estado pois as batatas jaacute
existiam antes de serem assadas em (2) um sentido de criaccedilatildeo de objeto eacute atribuiacutedo ao verbo
uma vez que antes da assadura o bolo natildeo existia Contudo Pustejovsky (1991) afirma que
ordinariamente soacute haacute um sentido para ldquoassarrdquo o de mudanccedila de estado pois tal verbo tem seu
tipo de evento modificado devido a informaccedilotildees que satildeo trazidas pelo complemento ou seja
essas leituras soacute satildeo possiacuteveis a partir de mecanismo de co-composiccedilatildeo em que os
complementos co-especificam o verbo
Por buscar formalizar a estrutura semacircntica de uma liacutengua o trabalho de Pustejovsky
eacute de grande importacircncia para a aacuterea de recuperaccedilatildeo de informaccedilatildeo Uma tentativa de
implementaccedilatildeo computacional da sua teoria foi realizada por Abrahatildeo (1997) envolvendo a
modelagem e a implementaccedilatildeo de um leacutexico semacircntico para a Liacutengua Portuguesa
Inicialmente este autor realizou um estudo de conceitos baacutesicos relacionados agrave semacircntica
Durante a sua pesquisa foram apresentadas teacutecnicas de representaccedilatildeo do conhecimento e do
significado que auxiliaram a seleccedilatildeo e o entendimento do modelo proposto por Pustejovsky
44
Como subsiacutedio para a implementaccedilatildeo de um leacutexico semacircntico para o portuguecircs
Abrahatildeo (1997) fez um estudo aprofundado da teoria de Pustejovsky onde salienta que os
problemas mais comuns agrave representaccedilatildeo do significado das palavras como ldquoambiguumlidade
lexical polissecircmicardquo por exemplo satildeo solucionados de forma eficiente e computacional
Como o modelo de Pustejovsky eacute voltado ao Inglecircs foram encontradas semelhanccedilas e
diferenccedilas entre a liacutengua origem do modelo e o Portuguecircs Variaccedilotildees verbais - facilita o mapeamento direto os verbos satildeo inseridos numa forma canocircnica (baacutesica ou infinitiva) no leacutexico variaccedilotildees de grau nos substantivos como alternativa de soluccedilatildeo satildeo armazenados em uma forma canocircnica palavras que se comportam como verbo e substantivo palavras que se comportam como adjetivo e substantivo tambeacutem satildeo mapeadas atraveacutes do uso da estrutura de lcps de Pustejovsky mapeamento de expressotildees - expressotildees devem ser inseridas no leacutexico pois expressam um significado especiacutefico substantivos compostos por mais de uma palavra acentuaccedilatildeo ndash itens lexicais do Inglecircs natildeo apresentam acentos Esta caracteriacutestica do Portuguecircs deve ser inserida no leacutexico pois diferencia o significado de suas palavras Deste modo esta informaccedilatildeo foi atribuiacuteda aos registros de informaccedilotildees semacircnticas atraveacutes de uma variaacutevel que conteacutem o tipo e a posiccedilatildeo na palavra em que o acento aparece (ABRAHAtildeO 1997 pgs 78-80)
Abrahatildeo (1997) construiu sua implementaccedilatildeo do leacutexico sobre uma estrutura em
aacutervore Trie17 que proporciona um maior poder de representaccedilatildeo na busca de informaccedilotildees e
baixa quantidade de dados armazenados As informaccedilotildees semacircnticas associadas aos itens
lexicais satildeo armazenadas em listas encadeadas a partir de uma estrutura denominada de
Descritor Semacircntico Um item lexical pertence ao leacutexico semacircntico se este item possui um
Descritor Semacircntico associado ao seu uacuteltimo caractere na aacutervore E ainda um Descritor
Semacircntico abrange os ponteiros essenciais para a busca das informaccedilotildees semacircnticas relativas
ao item lexical
De acordo com este autor as informaccedilotildees semacircnticas associadas aos itens lexicais
seguem o modelo de Pustejovsky (1991) sendo dividida em trecircs estruturas baacutesicas de
argumentos de eventos e de Qualia As estruturas de argumentos e de eventos satildeo
implementadas atraveacutes de uma lista de argumentos e uma lista de eventos A estrutura de
Qualia eacute composta de quatro listas de informaccedilotildees uma para cada papel (formal constitutivo
teacutelico e agentivo)
Segundo este autor todas as estruturas do leacutexico semacircntico foram desenvolvidas em
vetores A manipulaccedilatildeo destes vetores daacute-se sobre estruturas denominadas cabeccedilalhos Estes
cabeccedilalhos fornecem informaccedilotildees sobre a alocaccedilatildeo de vetores em memoacuteria ponteiros para os
vetores de informaccedilatildeo tamanhos dos vetores e os arquivos associados ao sistema O nuacutecleo de
17 Segundo Abrahatildeo (1997) ldquoeacute um tipo especial de estrutura onde cada caractere dos itens lexicais determina um nodo da aacutervorerdquo
45
dados do sistema eacute constituiacutedo de dois cabeccedilalhos cabeccedilalho da aacutervore Trie e o cabeccedilalho das
informaccedilotildees semacircnticas
A biblioteca de funccedilotildees conteacutem os procedimentos necessaacuterios para manutenccedilatildeo do
banco de dados lexical bem como procedimentos de busca de informaccedilotildees semacircnticas
Juntamente com a biblioteca uma interface graacutefica foi construiacuteda possibilitando a manutenccedilatildeo
do banco de dados e facilitando a visualizaccedilatildeo da semacircntica dos itens lexicais Esta interface
graacutefica eacute implementada na linguagem de programaccedilatildeo em C para as estaccedilotildees de trabalho SUN
sobre o sistema de janelas XVIEW18 (ABRAHAtildeO 1997)
Esta seccedilatildeo mostrou a importacircncia da teoria de Pustejovsky e suas possibilidades O
LG eacute fundamental para compreensatildeo semacircntica pois considera o contexto da palavra sendo
capaz de estruturar um domiacutenio especiacutefico atraveacutes da EQ e tambeacutem de identificar dentro de
um domiacutenio quando determinada palavra aparece em tal contexto Pelo desenvolvimento do
trabalho de Abrahatildeo pode-se perceber a dimensatildeo e os elementos necessaacuterios para o
significado de uma palavra reforccedilando-se assim o valor e a viabilidade da teoria de
Pustejovsky
A proacutexima seccedilatildeo apresenta o trabalho de Gonzalez (2005) que estudou Pustejovsky19
e posteriormente desenvolveu sua proacutepria concepccedilatildeo de uma estrutura de RI (toda
automatizada)
33 O Modelo TR+ de Gonzalez
O modelo TR+ eacute considerado um modelo para RI que utiliza duas fases para o
desenvolvimento de sua estrutura fase de indexaccedilatildeo e fase de busca
18 XVIEW ldquoeacute um sistema de janela orientado a objeto que permite ao programador criar e utilizar objetos tais como janelas textos paineacuteis iacutecones entre outros para construir uma aplicaccedilatildeo Seus objetos satildeo predefinidos e satildeo ricos em funcionalidade o que permite que o coacutedigo necessaacuterio para manipular essas janelas seja pequeno simples e muito faacutecil de se compreenderrdquo (ABRAHAtildeO 1997 p 86) 19 Realizou um trabalho individual no doutorado denominado ldquoO Leacutexico Gerativo de Pustejovsky sob o enfoque da Recuperaccedilatildeo de Informaccedilotildeesrdquo de 2000a
46
Indexaccedilatildeo de textos segundo Baeza-Yates e Ribeiro-Neto (1999) e Gonzalez (2005)
eacute o processo que estipula descritores20 dos conteuacutedos dos textos de uma coleccedilatildeo de
documentos com objetivo de busca e classificaccedilatildeo dos mesmos para atender consultas em
sistemas de RI Descritores podem descrever conceitos atocircmicos sendo lsquotermosrsquo ou conceitos
complexos sendo lsquorelacionamentosrsquo O conjunto de descritores concebido na indexaccedilatildeo
favorece uma visatildeo loacutegica dos documentos com o propoacutesito de unir esses descritores termos
e relacionamentos a conceitos presentes nos textos dos documentos
Para os relacionamentos este autor classifica trecircs tipos explicando-os atraveacutes do
exemplo ldquo tecircm preocupado os pesquisadoresrdquo O primeiro tipo eacute o par modificado-
modificador como lsquopesquisador-preocupadorsquo O segundo eacute o bigrama (preocupado
pesquisador) e o terceiro eacute o Sintagma Nominal que para ele significa lsquopesquisador
preocupadorsquo e que para a pesquisa de Gonzalez ficaria na sua forma natural lsquopreocupado os
pesquisadoresrsquo O autor ainda cita que haacute outros formatos de relacionamentos como a
expressatildeo ternaacuteria (preocupaccedilatildeo-de-pesquisador) e a relaccedilatildeo binaacuteria
(preocupaccedilatildeopesquisador)
Gonzalez (2005) aponta dois tipos de relacionamentos como problemas os bigramas
por natildeo poderem descrever o conceito (ldquoferro sopardquo para ldquopanela de ferro com sopardquo) e os
termos com palavras comuns mas coadjuvantes importantes (ldquosentar bancordquo e ldquodepositar
bancordquo) os sintagmas nominais que para o autor representam tanto o conceito atocircmico quanto
o complexo (ldquonoiterdquo e ldquoboca da noiterdquo) Eacute importante perceber que a partir dessas
caracteriacutesticas e aspectos acima definidos Gonzalez (2005) propocircs um novo modelo de
espaccedilo de descritores (uniatildeo do conjunto de termos com o conjunto de relacionamentos) Este
novo modelo surgiu a partir de outros cinco modelos de descritores jaacute existentes
1 Unigrama conjunto de termos natildeo relacionados
2 N-grama (NG) conjunto de relacionamentos estatiacutesticos
3 Termo-Termo (TT) conjunto de termos relacionados estatiacutestica ou
sintaticamente
4 Termo-Relacionamento (TR) conjunto de termos e relacionamentos sintaacuteticos
20 A palavra descritores eacute usada para se tratar dos termos e relacionamentos enquanto os iacutendices se referem apenas aos termos O descritor lsquotermorsquo significa uma unidade lexical formada por uma uacutenica palavra ou por mais de uma denominada de lsquotermo compostorsquo E o descritor lsquorelacionamentorsquo ocorre entre termos ou seja satildeo relaccedilotildees de construccedilotildees sintaticamente diferentes que tecircm o mesmo significado (semacircntica) Exemplo lsquodefesa eficientersquo eacute igual a lsquodefender eficientementersquo e lsquofeira de domingorsquo eacute igual a lsquofeira dominicalrsquo Alguns autores como Baeza-Yates e Ribeiro-Neto (1999) utilizam a palavra lsquoiacutendicersquo ao inveacutes de descritores contudo Gonzalez ressalta que esta palavra refere-se apenas aos lsquotermosrsquo natildeo dando conta da semacircntica que envolve os lsquorelacionamentosrsquo
47
5 Relacionamento-Termo (RT) conjunto de relacionamentos sintaacuteticos e seus
componentes ldquoOs Sintagmas Nominais constituem os principais descritores neste
casordquo (GONZALEZ 2005 p41)
O modelo TR+ proposto por este autor combina aspectos dos modelos TR e RT
A Figura 18 daacute uma visatildeo geral do modelo TR+ de Gonzalez (2005) na fase de
indexaccedilatildeo com suas etapas essenciais e na fase de busca para a classificaccedilatildeo por relevacircncia
dos documentos em relaccedilatildeo agrave consulta
g
f
e
da a
b b
c
Figura 18 Visatildeo Geral do modelo TR+ Fonte Gonzalez 2005
O espaccedilo de descritores do modelo TR+ construiacutedo na fase de indexaccedilatildeo eacute com
de quatro processos principais
a) Preacute-processamento (toquenizaccedilatildeo e etiquetagem)
b) Nominalizaccedilatildeo
c) Captura de RLBs
d) Termos e RLBs
Na etapa ldquoardquo de preacute-processamento ocorrem duas accedilotildees fundamentais Toquen
e Etiquetagem A toquenizaccedilatildeo eacute a identificaccedilatildeo de cada item lexical (palavra e pontu
Na etiquetagem existe um etiquetador gramatical (part-of-speech tagger - parser
identifica atraveacutes de uma etiqueta (tag) a categoria gramatical de cada palavra do
(adjetivo substantivo verbo entre outras) Geralmente eacute morfoloacutegico (identifica som
c
posto
izaccedilatildeo
accedilatildeo)
) que
texto
ente a
48
categoria morfoloacutegica) ou morfossintaacutetico (identifica tambeacutem as funccedilotildees sintaacuteticas) Estes
processos satildeo realizados de forma automatizada21
Antes da nominalizaccedilatildeo eacute realizada a geraccedilatildeo de espaccedilo dos descritores que se
constitui na seleccedilatildeo e normalizaccedilatildeo dos descritores e ainda a contagem de frequumlecircncia de
ocorrecircncia dos descritores - termos (para o caacutelculo de seus pesos) que seraacute usada na etapa
ldquodrdquo
Faz parte do processo de seleccedilatildeo de descritores a eliminaccedilatildeo de stopwords22 que
podem ser descartadas na fase de indexaccedilatildeo e na consulta Essa exclusatildeo justifica-se segundo
o autor porque as stopwords satildeo consideradas palavras com pouca representatividade A
seleccedilatildeo dos descritores a quantidade dos mesmos e o peso de cada um podem ser afetados
pela normalizaccedilatildeo linguumliacutestica
A normalizaccedilatildeo segundo Gonzalez (2005) apresenta trecircs tipos conhecidos como
bull Sintaacutetica - que transforma frases semanticamente equivalentes mas
sintaticamente diferentes (ldquoeficiente processo raacutepidordquo e ldquoprocesso raacutepido
eficienterdquo)
bull Leacutexico-semacircntico ndash que utiliza relacionamentos semacircnticos (como a sinoniacutemia)
para substituir palavras morfologicamente distintas por uma uacutenica forma que
representa o conceito evidenciado
bull Morfoloacutegica ndash reduz as formas flexionais de uma palavra por meio da
conflaccedilatildeo23
No modelo TR+ foi utilizada a normalizaccedilatildeo lexical para o processo de
nominalizaccedilatildeo Este processo de nominalizaccedilatildeo constitui a etapa ldquobrdquo e significa a
transformaccedilatildeo de uma palavra (adveacuterbio adjetivo ou verbo) existente no texto em um
substantivo semanticamente equivalente constituiacutedo com regras vaacutelidas de formaccedilatildeo de
palavras (GONZALEZ 2005)
A tabela abaixo mostra exemplos de termos nominalizados Nesta etapa de
nominalizaccedilatildeo eacute utilizada a ferramenta CHAMA24
21 A ferramenta FORMA (Toquenizaccedilatildeo e Etiquetagem Morfoloacutegica) foi utilizada por Gonzalez O autor cita o nome desta ferramenta no seu site httpwwwinfpucrsbr~gonzaleztr+ Acesso em 14 de fevereiro de 2006 22 Stopwords satildeo palavras como preposiccedilotildees artigos e conjunccedilotildees 23 Conflaccedilatildeo satildeo processos realizados por algoritmos que combinam a representaccedilatildeo de duas ou mais palavras em um uacutenico termo Haacute dois meacutetodos mais comuns stemming que reduz a palavra para a parte fundamental semelhante ao radical e lematizaccedilatildeo que reduz a palavra variaacutevel agrave correspondente forma ldquocanocircnicardquo 24 A ferramenta CHAMA (nominalizaccedilatildeo de adjetivos verbos e adveacuterbios) foi desenvolvida por Marco Antonio Insaurriaga Gonzalez (doutor em Ciecircncia da Computaccedilatildeo pela UFRGS) Em sua tese de doutorado intitulada ldquoTermos e Relacionamentos em Evidecircncia na Recuperaccedilatildeo de Informaccedilatildeordquo 2005
49
Tabela 1 Exemplos de nominalizaccedilatildeo Fonte Gonzalez 2005
Devido agraves diferentes variaccedilotildees que a nossa Liacutengua Portuguesa apresenta este autor
trabalha em seu modelo com palavras sem acentuaccedilatildeo e em letras minuacutesculas ocorrendo um
comprometimento do significado das palavras como por exemplo eacute citado por ele puacuteblica e
publica
A etapa ldquocrdquo de captura de Relaccedilotildees Lexicais Binaacuterias (RLBs) eacute segundo Gonzalez
(2005) o relacionamento entre termos nominalizados ou seja sintaticamente diferentes mas
semanticamente iguais25 Uma RLB pode ser classificada tambeacutem quanto agrave nominalizaccedilatildeo de
seus componentes Este autor sistematiza e classifica esta questatildeo conforme aparece em seus
exemplos abaixo (2005 p 47)
bull Original onde o termo natildeo recebeu o processo de nominalizaccedilatildeo
bull Derivada onde um dos termos pelo menos resulta do processo de
nominalizaccedilatildeo
Uma RLB de acordo com Gonzalez (2005) apresenta a seguinte aparecircncia
25 Gonzalez desenvolveu o software RELLEX para o reconhecimento de relaccedilotildees lexicais binaacuterias em sua tese de doutorado 2005
50
id (t1t2) onde
id significa o identificador de relaccedilatildeo e
t1 e t2 satildeo os termos nominalizados
Este autor aponta os trecircs tipos de RLBs quanto ao identificador id
bull Classificaccedilatildeo onde id eacute especificado com um sinal de igual (=) t1 representa
uma subclasse ou uma instacircncia de t2 e t2 representa uma classe
Exemplos =(caoanimal)
=(PET garrafa) Exemplo desenvolvido nesta dissertaccedilatildeo
bull Restriccedilatildeo onde id eacute uma preposiccedilatildeo t1 representa um elemento modificado e t2
representa um elemento modificador
Exemplos de(equipeatletismo)
com(supervisorexperiencia)
por(orientacaoministro)
bull Associaccedilatildeo onde id representa um evento t1 eacute um sujeito e t2 eacute um objeto
(direto ou indireto) ou um adjunto
Exemplos superacao(alunodificuldade)
interessea(propostanegociante)
moradiaem(presidentebrasilia)
As Relaccedilotildees Lexicais Binaacuterias conforme Gonzalez (2005) satildeo inseridas no espaccedilo
de descritores para ampliar o seu universo As RLBs descrevem relaccedilotildees semacircnticas lexicais
como as que satildeo apresentadas na estrutura de Qualia da teoria do Leacutexico Gerativo de
Pustejovsky (GONZALEZ 2000 PUSTEJOVSKY 1991) O estudo desta teoria motivou o
Gonzalez a desenvolver a proposta das RLBs como parte integrante de seu trabalho como um
modo de adequaacute-la a aplicaccedilotildees na aacuterea de RI
Como jaacute foi descrita na seccedilatildeo 32 a Estrutura de Qualia da teoria do Leacutexico
Gerativo descreve um item lexical atraveacutes de quatro papeacuteis formal constitutivo agentivo e
teacutelico O papel formal distingue um item lexical em um domiacutenio maior Em uma RLB
segundo Gonzalez (2005) do tipo classificaccedilatildeo como ldquo=(computadormaquina)rdquo por
exemplo o computador seria distinguido como uma maacutequina ou em ldquo=(ipmftributo)rdquo o ipmf
seria um tributo Portanto a RLB do tipo classificaccedilatildeo corresponde ao papel formal da
estrutura de Qualia
51
O papel constitutivo estabelece a relaccedilatildeo entre um item lexical X e suas partes
constituintes Em uma RLB do tipo restriccedilatildeo como ldquode(mesamadeira)rdquo por exemplo haveria
a indicaccedilatildeo de que a mesa eacute feita de madeira ou em ldquocom(massaalho)rdquo de que haacute alho na
massa O papel agentivo especifica os fatores envolvidos na origem ou causa de um item
lexical Em uma RLB para este autor do tipo restriccedilatildeo como ldquopor(publicacaoautor)rdquo por
exemplo seria especificado que a publicaccedilatildeo se deve ao autor ou em ldquopor(impedimentolei)rdquo
que a lei eacute a razatildeo do impedimento
O papel teacutelico explica qual a funccedilatildeo ou finalidade do item lexical Em uma RLB do
tipo associaccedilatildeo como ldquoconserto(encanadorvazamento)rdquo por exemplo explica que a funccedilatildeo
do encanador eacute o conserto do vazamento ou em uma RLB do tipo restriccedilatildeo como
ldquopara(leituraaprendizado)rdquo que a finalidade da leitura eacute o aprendizado (GONZALEZ 2005)
Este autor salienta que natildeo se quer que as RLBs ldquointerpretemrdquo o texto com
distinccedilotildees indicaccedilotildees especificaccedilotildees ou explicaccedilotildees dos tipos apresentados O propoacutesito eacute de
que as RLBs sejam descritores de tais fatos mas sem classificaccedilatildeo (etiquetas) Por isto os
identificadores de relaccedilatildeo natildeo satildeo rotulados com os papeacuteis descritos A uacutenica exceccedilatildeo eacute o
identificador das RLBs do tipo classificaccedilatildeo O indicador ldquo=rdquo eacute o roacutetulo inevitaacutevel para o
claacutessico ldquoeacute umrdquo porque natildeo haacute outro papel possiacutevel nesse tipo de relaccedilatildeo
No modelo TR+ estaacute envolvido aleacutem da coleccedilatildeo de documentos constituiacuteda por
descritores (termos e relacionamentos) tambeacutem os seus respectivos pesos que dependem de
uma formulaccedilatildeo matemaacutetica denominada de lsquocaacutelculo de representatividadersquo dos descritores
em cada documento que eacute um diferencial deste modelo e estaacute na fase ldquodrdquo onde os termos e
RLBs seratildeo armazenados
Para ocorrer o caacutelculo do peso dos descritores eacute aplicado o conceito de evidecircncia26
Este conceito natildeo depende apenas da frequumlecircncia de ocorrecircncia de um descritor mas de um
outro mecanismo ldquoa representatividade de um descritor depende aleacutem de sua frequumlecircncia de
ocorrecircncia no texto da ocorrecircncia de mecanismos de coesatildeo fraacutesicardquo (GONZALEZ 2005
p48) A coesatildeo fraacutesica determina uma junccedilatildeo significativa entre os componentes de uma
frase27 Esta junccedilatildeo aliada com a frequumlecircncia de ocorrecircncia constitui o conceito de evidecircncia
como um dos aspectos essenciais da Tese de Gonzalez (2005)
A evidecircncia dos termos eacute realizada de forma direta com a frequumlecircncia e a coesatildeo
fraacutesica mas a evidecircncia de um relacionamento natildeo pois esta eacute dependente primeiramente das
26 Evidecircncia significa qualidade daquilo que eacute evidente que eacute incontestaacutevel que todos vecircem ou podem ver e verificar (Dicionaacuterio Eletrocircnico Michaelis) Como descreve Gonzalez (2005) ldquoeacute aquilo natildeo oferece ou natildeo daacute margem agrave duacutevidardquo 27 Site httpacdufrjbr~peadtema09coesaogramaticalhtml
52
evidecircncias de seus termos Este conceito estaacute inserido no caacutelculo de representatividade de um
descritor
O caacutelculo da representatividade eacute um caacutelculo de relevacircncia do termo ou
relacionamento que varia de acordo com as abordagens (booleana vetorial e probabiliacutestica) e
pode ser realizado apenas com a frequumlecircncia da palavra no documento ou ainda com a
frequumlecircncia vinculada com a sua informaccedilatildeo morfoloacutegica ou sintaacutetica (GONZALEZ 2005)
Para realizar o caacutelculo da representatividade dos descritores haacute duas estrateacutegias de
determinaccedilatildeo que satildeo os modelos com unigramas que tratam os termos de forma
independente (abordagens vetorial e probabiliacutestica) e os modelos com dependecircncia entre
termos Estas dependecircncias envolvem conjuntos diferentes de conhecimentos que satildeo os
estatiacutesticos e os linguumliacutesticos28 Os conhecimentos linguumliacutesticos satildeo ldquoleacutexico morfoloacutegico
fonoloacutegico sintaacutetico semacircntico e pragmaacuteticordquo (ABRAHAtildeO 1997 p11)
Estes dois modelos descritos acima satildeo apresentados como mais significativos
poreacutem ainda utilizam a abordagem booleana Isto porque Gonzalez (2005) define como o
caminho mais promissor a combinaccedilatildeo da abordagem booleana (individualmente limitadora)
com a uniatildeo dos conhecimentos estatiacutesticos e linguumliacutesticos entre si que permitem mais
interaccedilatildeo com o usuaacuterio
O caacutelculo da representatividade ao mesmo tempo que eacute uma propriedade baacutesica de
um descritor apresenta diferentes formas de acordo com as abordagens vetorial e
probabiliacutestica (capiacutetulo 2) e gera diversas interpretaccedilotildees Por isto Gonzalez (2005) propotildee um
novo caacutelculo que compreenda a importacircncia do contexto nas foacutermulas inseridas no seu modelo
TR+
O outro momento de seu modelo (Figura 18) compreende a lsquofase de buscarsquo que inclui
Preacute-Processamento (toquenizaccedilatildeo e etiquetagem) Nominalizaccedilatildeo e Captura de RLBs Estas
etapas ocorrem da mesma maneira que na fase de indexaccedilatildeo Inclui tambeacutem as etapas
Formulaccedilatildeo de consulta booleana Busca e Classificaccedilatildeo
Na etapa ldquoerdquo (Formulaccedilatildeo de Consulta Booleana) Gonzalez (2005) explica que se a
consulta q em linguagem natural formulada pelo usuaacuterio for por exemplo ldquopintura
restauradardquo entatildeo seraacute formulada no formato Booleano conforme o modelo TR+ a seguinte
consulta qb
28 Estes conhecimentos envolvem niacuteveis leacutexico-morfoloacutegico e sintaacutetico sintagmas nominais (sujeito objeto direto e indireto e adjunto adnominal) A vantagem destes eacute a capacidade de identificar relacionamentos entre palavras natildeo adjacentes como ldquoalgoritmosrdquo e ldquoconcorrentesrdquo em ldquoalgoritmos sequumlenciais e concorrentesrdquo
53
r1 OU r2 OU ( (n1 (p1) OU n2(p1) ) E (n1 (p2) OU n2(p2) ) ) onde
r1 = de(restauracaopintura)
r2 = r1rsquo = diferente_de(restauracaopintura)
n1(p1) = (elemento vazio)
n2(p1) = pintura
n1(p2) = restauracao
n2(p2) = restaurador
p1 = pintura e
p2 = restaurada
Tabela 2 Exemplo de uma consulta qb Fonte Gonzalez 2005 p 51
Na fase de busca a etapa ldquofrdquo ocorre uma relaccedilatildeo entre a etapa ldquoerdquo e a etapa ldquodrdquo Esta
uacuteltima acontece ainda na fase de indexaccedilatildeo visto que ldquoestando os termos e as RLBs definidas
e calculados os pesos a classificaccedilatildeo dos documentos depende do valor de relevacircncia dos
mesmos e da formulaccedilatildeo Booleana da consultardquo (GONZALEZ 2005 p 50)
A etapa ldquogrdquo (Classificaccedilatildeo) eacute resultado de um caacutelculo sobre os dados obtidos no
procedimento anterior que identifica o valor de relevacircncia de cada documento recuperado-os
em ordem decrescente Um exemplo de classificaccedilatildeo eacute indicado por Gonzalez (2005) atraveacutes
da foacutermula de uma consulta denominada q Nesta consulta encontram-se os termos t1 e t2 e a
RLB r e se estes dois termos estatildeo relacionados atraveacutes de r em um documento d estes teratildeo
dupla contribuiccedilatildeo no caacutelculo do valor de relevacircncia de d poreacutem se t1 e t2 ocorrem em d mas
natildeo estatildeo relacionados atraveacutes de r o autor considera que esta contribuiccedilatildeo seraacute simples e
assim d tende a perder posiccedilotildees na classificaccedilatildeo por relevacircncia a q
Os documentos recuperados classificam-se em dois grupos (a) grupo superior de maior relevacircncia documentos que atendem agraves condiccedilotildees estabelecidas na consulta Booleana ou seja possuem pelo menos uma das RLBs da consulta ou na falta de todas elas possuem obrigatoriamente todos os termos conforme especificado (b) grupo inferior de menor relevacircncia documentos que natildeo atendem a todas as condiccedilotildees estabelecidas na consulta Booleana mas possuem pelo menos um dos termos da consulta Os documentos satildeo classificados em ordem decrescente do valor de relevacircncia tanto nos grupos superior como inferior (GONZALEZ 2005 p 51)
Eacute importante ressaltar que toda a proposta de Gonzalez (Modelo TR+) foi
automatizada testada e aprovada Foi utilizado o software FORMA para a etapa de preacute-
processamento e os demais softwares como CHAMA (nominalizaccedilatildeo) e RELLEX (regras de
54
identificaccedilatildeo de RLBs) foram desenvolvidos pelo autor Diversos algoritmos juntamente com
abordagens de RI (booleana probabiliacutestica e vetorial) foram desenvolvidos para as fases
posteriores do seu trabalho como o caacutelculo do peso dos descritores a busca e a classificaccedilatildeo
de documentos
As experimentaccedilotildees desenvolvidas por Gonzalez (2005) em seu trabalho lograram
comprovar que o processo de nominalizaccedilatildeo como processo de normalizaccedilatildeo lexical
proporciona melhores resultados de recuperaccedilatildeo que os produzidos pelos processos
tradicionais (lematizaccedilatildeo e stemming) a identificaccedilatildeo de RLBs (obtenccedilatildeo de informaccedilatildeo
linguumliacutestica) contribui de forma positiva para a descriccedilatildeo de dependecircncias de termos
ampliando o espaccedilo de descritores o caacutelculo da representatividade dos descritores baseado em
evidecircncia melhora a classificaccedilatildeo de relevacircncia dos documentos com vantagem sobre o
caacutelculo baseado em frequumlecircncia de ocorrecircncia o uso de consultas com operadores Booleanos
trata-se de uma forma eficaz de complementar a especificaccedilatildeo de dependecircncias de termos e
tambeacutem a inclusatildeo de conhecimento linguumliacutestico como a realizada no modelo proposto pelo
autor apresenta relaccedilatildeo custobenefiacutecio viaacutevel dentro do atual estaacutegio de desenvolvimento da
pesquisa em RI
O proacuteximo capiacutetulo descreve o novo modelo proposto para esta dissertaccedilatildeo baseado
na identificaccedilatildeo das possibilidades de ampliaccedilatildeo de siacutentese e de sistematizaccedilatildeo do modelo de
Kuramoto com a estrutura de Gonzalez Pode ser considerada uma soluccedilatildeo hiacutebrida de um
modelo de RI que une trecircs teorias Sintagmas Nominais de Kuramoto Leacutexico Gerativo de
Pustejovsky e Modelo TR+ de Gonzalez Apresentar-se-aacute os paracircmetros gerais norteadores e
justificadores do modelo a descriccedilatildeo narrativa da sua funcionalidade os resultados dos testes
e a descriccedilatildeo formal UML do modelo
55
4 APRESENTACcedilAtildeO E DISCUSSAtildeO DO MODELO PROPOSTO
A proposta desta dissertaccedilatildeo eacute de integrar a aplicaccedilatildeo praacutetica do projeto dos
Sintagmas Nominais de Kuramoto sistematizando e associando com o modelo TR+ de
Gonzalez (2005)
Na descriccedilatildeo do modelo do sistema proposto foi utilizado o meacutetodo denominado de
Processo Unificado (UP) que envolve as fases de concepccedilatildeo elaboraccedilatildeo construccedilatildeo e
transiccedilatildeo e utilizou-se a Linguagem de Modelagem Unificada (UML) que eacute fortemente
relacionada com a metodologia utilizada segundo Wazlawick (2004)
Neste capiacutetulo desenvolve-se o modelo conceitual da aplicaccedilatildeo proposta para a qual
foram realizadas as etapas de levantamento e anaacutelise de requisitos representada pelo
diagrama e pela descriccedilatildeo dos casos de uso e de construccedilatildeo dos diagramas de classes e de
sequumlecircncia relacionados
41 Procedimentos desenvolvidos utilizando o modelo de SN de Kuramoto e a proposta
Gonzalez - ldquoEstrutura SINTR+rdquo
Esta dissertaccedilatildeo optou por realizar uma relaccedilatildeo entre propostas diferenciadas utilizar
o modelo de SN de Kuramoto para a organizaccedilatildeo dos conceitos mais significativos dos
documentos e a proposta de Gonzalez para a busca dessas informaccedilotildees que estaratildeo
estruturadas atraveacutes da dependecircncia entre termos Esta relaccedilatildeo foi desenvolvida na criaccedilatildeo da
ldquoEstrutura SINTR+rdquo que tem como especificidade a busca nos documentos a partir do banco
de dados dos Sintagmas Nominais Esta escolha de unir em uma estrutura proacutepria os SN e o
Modelo TR+ pautou-se pelo intuito de orientar mais objetivamente o usuaacuterio na definiccedilatildeo da
sua query de busca atraveacutes de uma navegaccedilatildeo sobre a estrutura de SN presentes no
documento e de posterior apresentaccedilatildeo de lista de documentos efetivamente relevantes
O objetivo eacute trabalhar com os Sintagmas Nominais evidenciando e potencializando
uma uniatildeo com o modelo TR+ de Gonzalez (2005) O modelo abaixo (Figura 19) apresenta
uma nova proposta pautada na junccedilatildeo sistematizada e analiacutetica da extraccedilatildeo dos SN na
Estrutura de Kuramoto (1999) com o Modelo TR+ de Gonzalez (2005) ldquoEstrutura SINTR+rdquo
56
Documentos
Extraccedilatildeo de SN
Preacute-processamento
Nominalizaccedilatildeo
4
Captura de RLBs
Referecircncia aos
documentos classificados
Classificaccedilatildeo
Lista de SN de Niacutevel Requerido
Lista dos demais Preacute-
3
2
85
3
2
1
Consulta em
LN
7
6
(Fase d
O mo
extraccedilatildeo de tod
o preacute-processam
de acontecer co
de forma mais
foco de anaacutelise
subsequumlentes
Antes
descritores con
frequumlecircncia de o
Etapa 5
Em se
mudanccedila de um
concreto eou a
Te
R
e indexaccedilatildeo)
Figura
delo propost
os os seus Si
ento onde o
m todas as p
objetiva e raacute
somente so
do processo d
stituiacuteda na s
correcircncia dos
guida ocorre
a palavra (ad
bstrato Na E
rmos e
LBs
Busca
Formulaccedilatildeo de consulta Booleana
11
(Fase
19 Visatildeo Geral do Modelo Proposto ldquoEstr
o se inicia a partir dos document
ntagmas Nominais (Etapa 1) Extra
correm a Toquenizaccedilatildeo e a Etiquet
alavras do documento como ocorr
pida apenas diretamente sobre os
bre os termos inclusos nos SN pe
e nominalizaccedilatildeo na Etapa 3 eacute exec
eleccedilatildeo e normalizaccedilatildeo dos descrit
descritores - termos (para o caacutelculo
o processo de nominalizaccedilatildeo que c
veacuterbio adjetivo ou verbo) existen
tapa 4 ocorre a identificaccedilatildeo das
niacuteveis de SN processamento
Nomin
Captura
9
de busca)
utura SINTR+rdquo
os a serem inse
iacutedos os SN na E
agem que Essa e
e no modelo TR
termos constant
rmanece para to
utada a geraccedilatildeo
ores e ainda na
de seus pesos)
onstitui a Etapa
te nos SN em u
RLBs nos SN q
alizaccedilatildeo
de RLBs 0
ridos com a
tapa 2 eacute feito
tapa ao inveacutes
+ eacute realizada
es nos SN O
das as etapas
de espaccedilo dos
contagem da
a ser usada na
3 e significa a
m substantivo
ue significa o
1
1
1
57
relacionamento entre termos nominalizados Estas etapas acima satildeo constituiacutedas para a
geraccedilatildeo do espaccedilo de descritores (termos e RLBs) referentes agrave Etapa 5
Na lsquofase de buscarsquo primeiramente o usuaacuterio digita uma palavra por exemplo
ldquoplaacutesticosrdquo A resposta para o usuaacuterio ocorreraacute pois internamente foi feita uma programaccedilatildeo
(a ser implementada) para identificar o niacutevel do SN solicitado pelo usuaacuterio para que
posteriormente apareccedila para este a lista de todos os SN do niacutevel apresentado contendo a query
solicitada
No caso do exemplo ldquoplaacutesticosrdquo o processo avanccedila na Etapa 6 listando todos os
sintagmas nominais de primeiro niacutevel (SN1) dos documentos (uma vez que a solicitaccedilatildeo
referia-se ao niacutevel 1) Nesta etapa o usuaacuterio poderaacute escolher um dos sintagmas de primeiro
niacutevel ou confirmar a sua escolha (query) inicial O processo continua com a escolha de uma
dentre as opccedilotildees de i) ver a lista de documentos relacionados ao SN1 definido ou ii) solicitar
a relaccedilatildeo de sintagmas de seu segundo niacutevel A visualizaccedilatildeo da lista de sintagmas de niacutevel
superior permitiria ao usuaacuterio filtrar mais a sua consulta Para a determinaccedilatildeo da lista de SN
de segundo niacutevel como por exemplo ldquoa reciclagem de plaacutesticosrdquo ldquoa induacutestria de plaacutesticosrdquo
(Figura 20) tambeacutem foi feita uma programaccedilatildeo especiacutefica que seraacute descrita posteriormente
Na continuidade do processo o usuaacuterio pode prosseguir o refinamento da sua busca
atraveacutes da seleccedilatildeo de SN de maior niacutevel ou pode dar-se por satisfeito com o resultado (Etapa
7) solicitando diretamente a lista dos documentos associados ao SN definidos Nesse caso a
lista eacute apresentada na ordem de classificaccedilatildeo oportunizada pela Estrutura TR+ conforme o
descrito nas proacuteximas etapas
O processamento proposto para a determinaccedilatildeo da relaccedilatildeo dos sintagmas de um
determinado niacutevel foi pensado com vista a gerar economia de espaccedilo de memoacuteria utilizada
uma vez que seratildeo armazenados na base de dados os documentos e seus SN de uacuteltimos niacuteveis
e manipulados apenas os uacuteltimos niacuteveis da estrutura de SN Os niacuteveis anteriores relativos ao
SN seratildeo determinados na programaccedilatildeo desenvolvida a partir da identificaccedilatildeo do nuacutemero de
preposiccedilotildees que o SN apresenta Nesta programaccedilatildeo se houver apenas um termo (ou mesmo
apenas um termo composto) o SN eacute considerado um SN de 1ordm niacutevel A presenccedila de um termo
composto com mais uma preposiccedilatildeo indica a existecircncia de um SN de 2ordm niacutevel Jaacute trecircs termos
com duas preposiccedilotildees vatildeo indicar a presenccedila de um SN de 3ordm niacutevel e finalizando quatro ou
mais termos com 3 (ou mais) preposiccedilotildees remetem ao SN de 4ordm niacutevel
Ao optar pela apresentaccedilatildeo da lista de documentos seratildeo desenvolvidas
(internamente) na programaccedilatildeo conforme o proposto pela Estrutura TR+ de Gonzalez as
etapas de Preacute-processamento (toquenizaccedilatildeo e etiquetagem ndash Etapa 8) Nominalizaccedilatildeo (Etapa
58
9) Captura de RLBs (Etapa 10) Formulaccedilatildeo de consulta Booleana (Etapa 11) Busca (Etapa
12) e por fim Classificaccedilatildeo (Etapa 13)
Na Etapa 11 eacute trabalhado no formato Booleano uma consulta formulada pelo usuaacuterio
conforme o modelo TR+ A Etapa 12 ocorre uma relaccedilatildeo entre a Etapa 11 e a Etapa 5 (esta
etapa ocorre ainda na fase de indexaccedilatildeo) A Etapa 13 eacute a uacuteltima e resulta do caacutelculo que
identifica o valor de relevacircncia de cada documento recuperando-os em ordem decrescente
Eacute importante reforccedilar que o sistema iraacute verificar o preacute-processamento nominalizaccedilatildeo
e a captura de RLBs jaacute realizadas na fase de indexaccedilatildeo comparando-as Apoacutes esta
identificaccedilatildeo o sistema usa a formulaccedilatildeo de consulta Booleana para a busca chegando agrave
classificaccedilatildeo dos documentos de acordo com o peso dos descritores (termos e RLBs)
formulados na fase de indexaccedilatildeo e definidos na fase de busca (de acordo com o termo
escolhido e a coleccedilatildeo dos documentos)
Exemplificando o paraacutegrafo acima a Figura 20 mostra o funcionamento inicial desta
estrutura no que se refere aos Sintagmas Nominais
Pesquisa
Usuaacuterio escolha uma opccedilatildeo (Sintagma Nominal) que mais se identifique com a sua consulta Logo em seguida escolha se deseja ir para o Proacuteximo Niacutevel de Sintagma Nominal ou Estrutura TR+
Buscar (SN) Plaacutesticos
SN1 Os plaacutesticos
Proacuteximo niacutevel SN Estrutura TR+
SN2 A reciclagem de plaacutesticos A separaccedilatildeo de plaacutesticos A induacutestria de plaacutesticos
Proacuteximo niacutevel SN Estrutura TR+
SN3 A induacutestria de reciclagem de plaacutesticos
Estrutura TR+ Proacuteximo niacutevel SN
SN4 -----
Estrutura TR+
Figura 20 Descriccedilatildeo inicial do modelo proposto
59
Buscando analisar as vantagens que a proposta do modelo SINTR+ apresenta vale
lembrar que o modelo TR+ de Gonzalez jaacute apresenta benefiacutecios como
bull O processo de nominalizaccedilatildeo propicia melhores resultados de recuperaccedilatildeo do que
os produzidos pelos processos tradicionais (lematizaccedilatildeo e stemming)
bull A identificaccedilatildeo de RLBs colabora para a descriccedilatildeo de dependecircncia de termos que
ampliam o espaccedilo de descritores
bull O caacutelculo da representatividade dos descritores baseado em evidecircncia melhora a
classificaccedilatildeo da relevacircncia de documentos em relaccedilatildeo agravequela obtida atraveacutes da
extraccedilatildeo e do caacutelculo por frequumlecircncia de ocorrecircncia
bull O uso de consultas com operadores Booleanos oferece uma forma eficaz de
complementar a especificaccedilatildeo de co-dependecircncia semacircntica entre termos
As vantagens antevistas na elaboraccedilatildeo da proposta SINTR+ expandem as jaacute obtidas
pelo modelo de Gonzalez29 pois une a elas a vantagem do modelo de hierarquia de niacuteveis de
SN de Kuramoto Estas vantagens satildeo a ldquoEstrutura SINTR+rdquo executa em um menor tempo na
fase de indexaccedilatildeo dos documentos a ldquoEstrutura SINTR+rdquo conteacutem um tamanho menor de
arquivos de iacutendice e a ldquoEstrutura SINTR+rdquo proporciona facilidade na fase de nominalizaccedilatildeo
visto que os SN satildeo o nuacutecleo de maior significaccedilatildeo de um texto30
Os documentos (textos) usados como campo empiacuterico desta dissertaccedilatildeo foram artigos
retirados da Internet sobre o tema ldquoLixordquo Neste contexto fazem parte da coleccedilatildeo de
documentos temas como ldquoCuidados com o Lixordquo ldquoLixo Industrialrdquo ldquoO destino do lixo
quiacutemicordquo entre outros Como ainda natildeo havia disponiacuteveis extratores automaacuteticos de SN por
hierarquia em niacuteveis foi feita uma leitura dos textos dos quais se retirou manualmente seus
sintagmas Os SN significativos com o tema ldquoLixordquo foram extraiacutedos de dois (2) documentos
(que estatildeo nos ANEXOS A e B) e satildeo apresentados no Anexo C
Apoacutes esta etapa foram extraiacutedos todos os sintagmas nominais (somente do
documento1 - ANEXO A) que estatildeo sublinhados no texto independentes do tema para
exemplificar a extraccedilatildeo da consulta
Para avaliar preliminarmente a extensatildeo com que as vantagens antevistas no modelo
proposto realmente se verificariam foi realizado um teste com o documento1 (ANEXO A)
composto de 9 paraacutegrafos e 1006 palavras (Figura 21)
29 Este modelo foi testado e aprovado na sua proposta de doutorado que estaacute inserida no contexto do grupo de pesquisa da PUCRS no qual o autor participa de estudos na aacuterea haacute mais de uma deacutecada 30 Isto pode ser observado do Anexo A (Documento1) em que os SN satildeo destacados no texto
60
Figura 21 Nuacutemero de palavras do Documento1
O documento1 (ANEXO A) foi o escolhido para dimensionar a reduccedilatildeo no total de
palavrastermos a serem incluiacutedos na base de dados demonstrando a importacircncia do modelo
apresentado conforme tabela abaixo
Categorias Texto Total SNs Total de palavrastermos 1006 640
Substantivos 369 334 Adveacuterbios 41 04
Verbos 133 Ausecircncia de verbos Adjetivos 73 55
Figura 22 Tabela comparativa Texto Total e SNs
O texto possui um total de 1006 palavrastermos sendo destes 369 substantivos 41
adveacuterbios 133 verbos e 73 adjetivos (Figura 22) Do texto todo foi extraiacutedo um total de 139
sintagmas nominais E destes o nuacutemero total de palavrastermos eacute de 640 sendo 334
substantivos 04 adveacuterbios e 55 adjetivos
61
Documento1 - Cresce a induacutestria de reciclagem de plaacutesticos
369
41
133
7355
nordm de substantivos
nordm de adveacuterbios
nordm de verbos
nordm de adjetivos
nordm de adjetivosinseridos nos SN
Figura 22 Nuacutemero de substantivos adveacuterbios verbos e adjetivos do Documento1
Relacionando o nuacutemero de adjetivos do texto todo e os adjetivos inseridos nos SN
pode-se notar um ganho expressivo pois se tem uma reduccedilatildeo de 18 adjetivos Destes dados
133 verbos foram descartados (novamente afirma-se da importacircncia dos SN que representam a
unidade significativa do texto) Tambeacutem se observa que 37 adveacuterbios natildeo foram incluiacutedos
diminuindo assim o nuacutemero de descritores
Estes dados apontam aspectos positivos que consolidam a importacircncia da utilizaccedilatildeo
dos SN na diminuiccedilatildeo de descritores com consequumlente reduccedilatildeo do uso de memoacuteria e ainda
melhora na fase de busca pelo tempo de resposta
A Figura 23 apresenta o comparativo entre o percentual do nuacutemero de palavras do
texto com o percentual do nuacutemero de palavras dos Sintagmas Nominais Isto mostra que o
percentual de SN de 64 tem um valor reduzido colaborando para um nuacutemero menor de
descritores desta forma restringe-se tambeacutem o uso de memoacuteria (neste caso ocupado na fase
de indexaccedilatildeo) reduzem-se os descritores e diminui-se o tempo de resposta na fase de busca
Estes dados natildeo satildeo somente relevantes frente a um modelo de RI mas corroboram para a
manutenccedilatildeo do seu funcionamento
62
Dados Comparativos - Nordm de palavras restantes e dos SNs
64
36 Nordm de palavras dossintagmas nominaisNordm de palavras restantes
100 - nordm total de palavras
Figura 23 Nuacutemero de palavras restantes x Sintagmas Nominais
A Figura 24 mostra que existe um percentual de 28 de adjetivos inseridos nos
Sintagmas Nominais Esses adjetivos durante o processo de nominalizaccedilatildeo conforme
Gonzalez (2005) satildeo transformados em substantivos concretos eou abstratos (se houver) Isto
aponta um nuacutemero bem inferior comparado a um texto inteiro o que promove uma diminuiccedilatildeo
de substituiccedilotildees de um adjetivo por um substantivo concreto eou abstrato que pode inferir
no significado do documento e a reduccedilatildeo destas substituiccedilotildees evita possiacuteveis erros de
interpretaccedilatildeo
Dados Comparativos - Sintagmas Nominais e adjetivos
72
28nordm de sintagmas nominais
nordm de adjetivos inseridosnos SN
Figura 24 Sintagmas Nominais e adjetivos inseridos nos SN
A extraccedilatildeo dos Sintagmas Nominais corresponde agrave primeira etapa Depois desta
extraccedilatildeo manual se agrupou os SN em quatro niacuteveis 1 2 3 e 4 (ANEXO C)
Para o desenvolvimento das demais etapas (toquenizaccedilatildeo etiquetagem morfoloacutegica
nominalizaccedilatildeo e as relaccedilotildees lexicais binaacuterias) foi escolhido o paraacutegrafo 6 do documento1
(ANEXO A)
63
A induacutestria da reciclagem do plaacutestico no Brasil tem crescido bastante em funccedilatildeo do reaproveitamento do PET que eacute usado no segmento de monofilamentos em artigos como vassouras e na induacutestria tecircxtil Conforme Ana Flores a reciclagem gera 250 mil empregos no Paiacutes dos quais 70 satildeo informais Poreacutem a maior parte do potencial de mercado ainda estaacute sendo desperdiccedilada avalia ldquoCerca de 15 do total de plaacutestico que eacute industrializado no Paiacutes eacute reciclado Em dez anos poderiacuteamos chegar a 60 como nos Estados Unidos desde que fosse implementado um conjunto de medidas incentivando essa praacuteticardquo assegura
Tabela 3 Paraacutegrafo 6 do documento1
Na etapa de toquenizaccedilatildeo e etiquetagem satildeo identificadas classes de palavras como
substantivos adjetivos adveacuterbios preposiccedilotildees artigos conjunccedilotildees e inclusive ponto No
Anexo D eacute possiacutevel visualizar essas informaccedilotildees em duas ferramentas de extraccedilatildeo
disponiacuteveis nos sites do Projeto de Linguumliacutestica Computacional Hermes da Fundaccedilatildeo
Universidade Federal do Rio Grande (FURGBrasil) e do Programa de LAEL da PUC-SP -
Programa de Estudos Poacutes-Graduados em Linguumliacutestica Aplicada e Estudos da Linguagem da
Pontifiacutecia Universidade Catoacutelica de Satildeo Paulo31
A partir desta identificaccedilatildeo adjetivos adveacuterbios e verbos satildeo transformados em
substantivos (concreto eou abstrato) quando for possiacutevel Ou ateacute mesmo o adjetivo seja o
mesmo nome (grafia) para substantivos Esse processo de nominalizaccedilatildeo no trabalho de
Gonzalez (2005) foi realizado atraveacutes da ferramenta CHAMA desenvolvida por ele mesmo
Apoacutes o processo de nominalizaccedilatildeo satildeo identificadas as RLBs (Relaccedilotildees Lexicais
Binaacuterias) conforme descrito nesta seccedilatildeo Gonzalez (2005) desenvolveu tambeacutem a ferramenta
RELLEX para identificaccedilatildeo das RLBs Para o caso do teste optou-se por fazer manualmente32
(ANEXO E) devido agrave indisponibilidade destas duas ferramentas Esta etapa tem uma
importacircncia muito grande onde satildeo reconhecidos os relacionamentos das palavras no texto
atraveacutes de identificadores A tabela 4 mostra as RLBs identificadas do paraacutegrafo 6 do
documento1 (ANEXO A) de forma manual
RLBs classificaccedilatildeo =(textil industria)
RLBS restriccedilotildees
de (industria reciclagem) de (reciclagem plastico)
de (reaproveitamento PET) de (segmento monofilamento) de (mercado potencialidade)
de (plastico totalidade) de (conjunto medida)
Tabela 4 RLBs identificadas no paraacutegrafo 6 do documento1
31 As paacuteginas disponiacuteveis satildeo hermessourceforgenethermeswebhtml e httpwww2laelpucspbrcorporaetiquetagemindexhtml32 Dicionaacuterios consultados MICHAELIS Dicionaacuterio Eletrocircnico Acesso em mar de 2006 e FERREIRA Aureacutelio Buarque de Holanda Novo Aureacutelio Seacuteculo XXI o dicionaacuterio da liacutengua portuguesa 1999
64
42 Descriccedilatildeo Formal do Modelo Proposto SINTR+
Os Sintagmas Nominais de Kuramoto em conjunto com as abordagens utilizadas no
modelo TR+ de Gonzalez promovem a utilizaccedilatildeo de conceitos orientados a objetos (OO)
porque eacute considerada a melhor metodologia para projeto de software permite uma
organizaccedilatildeo aprimorada do coacutedigo tem uma proximidade com a UML (Linguagem de
Modelagem Unificada) proporciona uma facilidade de manutenccedilatildeo do coacutedigo apresenta
menor grau de replicaccedilatildeo do coacutedigo e possibilita uma aplicaccedilatildeo em camadas o MVC33 um
padratildeo de projeto atraveacutes da Linguagem Orientada a Objetos Para compreender estes
conceitos e o desenvolvimento da modelagem proposta ressaltaram-se alguns aspectos baacutesicos
de seus fundamentos
A Linguagem UML segundo Larman (2000) expressa a modelagem de sistemas e
utiliza os conceitos orientados a objetos Como na aplicaccedilatildeo proposta trabalhar-se-aacute
especificamente apenas nas etapas de anaacutelise e projeto considera-se importante o uso da
linguagem UML por ser esta uma linguagem poderosa para expressar de modo claro e preciso
o processo de geraccedilatildeo de projetos de software Para Wazlawick (2004) esta linguagem daacute
suporte a que esse processo gere uma estrutura faacutecil de ser compreendida Para o autor isto
ocorre quando se utiliza um software autodocumentado e de faacutecil entendimento tanto em niacutevel
macro quanto em detalhes
Este autor define que o Processo Unificado (UP) estaacute associado agrave notaccedilatildeo UML e
indica que suas fases satildeo concepccedilatildeo elaboraccedilatildeo construccedilatildeo e transiccedilatildeo Conforme
Wazlawick (2004) eacute na primeira fase que se faz o levantamento dos principais requisitos e
compreende-se o sistema de forma abrangente A fase de elaboraccedilatildeo eacute constituiacuteda de anaacutelise e
projeto e a fase de construccedilatildeo corresponde agrave implementaccedilatildeo e testes
A anaacutelise de requisitos ainda segundo este autor (2004 p 24) ldquoestaacute associada ao
processo de descobrir quais satildeo as operaccedilotildees que o sistema deve realizar e quais satildeo as
restriccedilotildees que existem sobre elasrdquo Jaacute a anaacutelise de domiacutenio ldquoestaacute relacionada agrave descoberta das
informaccedilotildees gerenciadas pelo sistema ou seja agrave representaccedilatildeo e transformaccedilatildeo da
informaccedilatildeordquo (2004 p 26)
No caso de um sistema de informaccedilotildees sobre uma instituiccedilatildeo de ensino (Moacutedulo
controle de alunos) por exemplo possivelmente a anaacutelise de requisitos permitiria descobrir
que o sistema deveria controlar a data o curso e a turma em que o aluno foi matriculado o
iniacutecio e teacutermino do curso calcular automaticamente os pagamentos gerar relatoacuterios de
65
contrato especificando as claacuteusulas legais de direito e dever do aluno na Instituiccedilatildeo etc Essas
operaccedilotildees satildeo chamadas de ldquorequisitos funcionaisrdquo
Haacute tambeacutem relacionados a um sistema em construccedilatildeo os requisitos natildeo funcionais
que dizem respeito agrave operaccedilatildeo e agrave usabilidade do sistema Um exemplo de requisito natildeo-
funcional seria a necessidade de fazer a matriacutecula via Internet Essa eacute uma restriccedilatildeo de
operaccedilatildeo Um outro exemplo seria uma central de acidentes de tracircnsito onde o registro de um
dado acidente devesse ser feito em no maacuteximo 10 segundos o que demandaria um
processamento e uma interface bastante eficiente constituindo-se esse em um requisito de
usabilidade
Para as etapas de levantamento e anaacutelise de requisitos costuma ser utilizado o
diagrama de casos de uso Segundo Guedes (2004) esse diagrama possibilita a compreensatildeo
do comportamento externo do sistema por qualquer pessoa Entendem-se aqui casos de uso
segundo Larman (2000) como um documento narrativo que descreve a sequumlecircncia de eventos
(accedilotildees) de um ator (um agente externo) que usa um sistema para completar um processo e
descreve tambeacutem as respostas do sistema Pode se dizer que caso de uso eacute um cenaacuterio com
atores e ambientes Criam-se as cenas e as narrativas das mesmas ajudando a entender o que
se quer do sistema O interessante dos casos de uso eacute que os mesmos permitem que o projeto
seja construiacutedo de forma participativa por um grupo de pessoas uma vez que sua descriccedilatildeo se
daacute em uma linguagem textual e diagramaacutetica
A partir dos casos de uso eacute possiacutevel construir o modelo conceitual Conforme Larman
(2000 p 99) ldquoo modelo conceitual ilustra os conceitos significativos em um domiacutenio de
problemardquo Para Wazlawick (2004 p 102) ldquoo modelo conceitual deve descrever a
informaccedilatildeo que o sistema vai gerenciar trata-se de um artefato do domiacutenio do problema e
natildeo do domiacutenio da soluccedilatildeordquo
Eacute importante ressaltar que o modelo conceitual representa somente o aspecto estaacutetico
da informaccedilatildeo Os elementos que representam informaccedilatildeo satildeo conceitos (representados por
classes) atributos (informaccedilotildees alfanumeacutericas ligadas diretamente aos conceitos) e
associaccedilotildees (tipo de informaccedilatildeo que liga diferentes conceitos entre si)
O diagrama de casos de uso do sistema proposto foi desenvolvido no software JUDE
Community Ferramenta de Modelagem UML Um software freeware muito utilizado para a
criaccedilatildeo deste tipo de diagramas Neste software podem tambeacutem ser desenvolvidos os outros
tipos de diagramas do UML tais como de classes sequumlecircncia colaboraccedilatildeo graacuteficos de
estados
33 A sigla significa Model View e Controller
66
Os casos de uso identificados para esta aplicaccedilatildeo foram descritos em duas situaccedilotildees
A primeira eacute referente agrave pesquisa do usuaacuterio e a segunda ao gerenciamento e operaccedilatildeo do
banco de dados (BD) no niacutevel de administrador Para descobrir estes casos de uso foi
necessaacuterio primeiramente identificar os atores envolvidos com o sistema (usuaacuterio e
administrador) E na sequumlecircncia a cada grande processo reconhecido correspondeu a um caso
de uso do sistema
As Figuras 25 e 26 satildeo diagramas na UML que representam casos de uso e seus
atores As elipses significam casos de uso e os bonecos representam atores Para cada uma das
situaccedilotildees (pesquisa e gerenciamento de operaccedilatildeo do BD no niacutevel de administrador) foram
identificados os seguintes casos de uso
Figura 25 Diagrama de casos de uso da UML do sistema proposto ndash Pesquisa do Usuaacuterio
67
Figura 26 Diagrama de casos de uso da UML do sistema proposto ndash Gerenciamento e Operaccedilatildeo do BD no
niacutevel de administrador
Deve-se lembrar que na proposta deste trabalho para economia de espaccedilo de
memoacuteria foram sistematizados dois momentos o 1ordm em um armazenamento na base de dados
do documento apenas para a lista final do usuaacuterio e outro com os Sintagmas Nominais que
seratildeo armazenados na base de dados no 4ordm ou no uacuteltimo niacutevel apresentado (Figura 19) Os
niacuteveis anteriores relativos ao SN seratildeo procurados por uma programaccedilatildeo desenvolvida
relacionada diretamente com os Sintagmas Com isto natildeo haveraacute necessidade de acesso agrave
memoacuteria da base de documentos em todas as accedilotildees e esta serviraacute somente na uacuteltima escolha
do usuaacuterio tendo um ganho significativo quanto agrave rapidez de acesso aos dados da base e a natildeo
existecircncia de duplicaccedilatildeo de dados
Os casos de uso costumam ser documentados conforme Guedes (2004) por meio de
uma linguagem bastante simples fornecendo a funccedilatildeo em linhas gerais dos casos de uso
quais atores interagem com os mesmos quais etapas devem ser executadas pelo ator e pelo
sistema quais paracircmetros devem ser fornecidos e quais restriccedilotildees o caso de uso deve possuir
As Tabelas abaixo (5 a 15) apresentam as descriccedilotildees dos casos de uso do sistema proposto
referente ao gerenciamento e operaccedilatildeo do BD no niacutevel de administrador
68
Nome do Caso de Uso Inserir novo documento Caso de Uso Geral natildeo possui Ator Principal Administrador Atores secundaacuterios natildeo possui Resumo Permite ao administrador do sistema inserir arquivos na base de dados de documentos iniciando o processo de alimentaccedilatildeo de todas as demais bases de dados Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema 1) Anexar um documento 2) Verificar se documento jaacute natildeo existe na base de dados 3) Inserir o documento Restriccedilotildeesvalidaccedilotildees Apenas documentos vaacutelidos34 deveratildeo ser aceitos
Tabela 5 Descriccedilatildeo do caso de uso ndash Inserir novo documento Nome do Caso de Uso Alimentar base de dados (Documentos) Caso de Uso Geral natildeo possui Ator Principal natildeo possui Atores secundaacuterios natildeo possui Resumo Armazenar em meio fiacutesico e com seguranccedila os documentos inseridos pelo Administrador atraveacutes do sistema Preacute-condiccedilotildees Administrador anexa um documento vaacutelido Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema 1) Armazenar em base de dados os documentos anexados Restriccedilotildeesvalidaccedilotildees natildeo possui
Tabela 6 Descriccedilatildeo do caso de uso ndash Alimentar base de dados (Documentos) Nome do Caso de Uso Extrair SN de 4ordm ou uacuteltimo niacutevel Caso de Uso Geral natildeo possui Ator Principal natildeo possui Atores secundaacuterios natildeo possui Resumo Extrair do documento inserido na base de dados todos os sintagmas nominais de 4ordm ou uacuteltimo niacutevel
Preacute-condiccedilotildees o documento estar devidamente validado e inserido na base de dados Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema
1) realizar a anaacutelise do documento inserido extraindo todos os sintagmas nominais de 4ordm ou uacuteltimo niacutevel enviando informaccedilotildees para alimentaccedilatildeo de base de dados de sintagmas
Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 7 Descriccedilatildeo do caso de uso ndash Extrair SN de 4ordm ou uacuteltimo niacutevel
34 Documentos vaacutelidos satildeo considerados aqui apenas os documentos em formato de texto (como doc txt)
69
As accedilotildees do sistema da tabela 7 seguem as regras estabelecidas na seccedilatildeo 41 da paacutegina 66 Nome do Caso de Uso Tratar regras verbais Caso de Uso Geral natildeo possui Ator Principal natildeo possui Atores secundaacuterios natildeo possui Resumo Realizar o tratamento de regras verbais dos sintagmas nominais de 4ordm ou uacuteltimo niacutevel extraiacutedos do documento Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema
1) aplicar rotinas de tratamento de regras verbais e palavras no infinitivo
Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 8 Descriccedilatildeo do caso de uso ndash Tratar regras verbais
Nome do Caso de Uso Extrair SN de niacuteveis 3 2 e 1 (niacuteveis anteriores) Caso de Uso Geral natildeo possui Ator Principal natildeo possui Atores secundaacuterios natildeo possui Resumo Aplicar regras de extraccedilatildeo de sintagmas de niacuteveis 3 2 e 1 (niacuteveis anteriores) Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema
1) Definir o niacutevel apropriado de cada sintagma a partir do 4ordm ou uacuteltimo niacutevel enviando informaccedilatildeo para o usuaacuterio
Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 9 Descriccedilatildeo do caso de uso ndash Extrair SN de niacuteveis 3 2 e 1 (niacuteveis anteriores)
A tabela 9 segue a mesma regra da tabela 7
Nome do Caso de Uso Alimentar base de dados (Sintagmas) Caso de Uso Geral natildeo possui Ator Principal natildeo possui Atores secundaacuterios natildeo possui Resumo Persistir as informaccedilotildees extraiacutedas nos casos de uso ldquoExtrair SN de 4ordm ou uacuteltimo niacutevelrdquo Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema
1) Armazenar na base de dados o 4ordm ou uacuteltimo niacutevel de sintagma extraiacutedo do documento inserido
Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 10 Descriccedilatildeo do caso de uso ndash Alimentar base de dados (Sintagmas)
70
Nome do Caso de Uso Toquenizar e etiquetar Caso de Uso Geral natildeo possui Ator Principal Software Forma Atores secundaacuterios natildeo possui Resumo Submeter os sintagmas extraiacutedos ao software Forma Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema
1) Aplicar o conceito de Toquenizaccedilatildeo e Etiquetagem dos sintagmas extraiacutedos e armazenados em base de dados
Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 11 Descriccedilatildeo do caso de uso ndash Toquenizar e etiquetar
Nome do Caso de Uso Nominalizar Caso de Uso Geral natildeo possui Ator Principal Software Chama Atores secundaacuterios natildeo possui Resumo Submeter as informaccedilotildees resultantes do processo de Toquenizaccedilatildeo e Etiquetagem ao software Chama Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema
1) Aplicar o conceito de Nominalizaccedilatildeo das informaccedilotildees do documento
Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 12 Descriccedilatildeo do caso de uso ndash Nominalizar
Nome do Caso de Uso Capturar RLBs Caso de Uso Geral natildeo possui Ator Principal Software Rellex Atores secundaacuterios natildeo possui Resumo Submeter as informaccedilotildees resultantes do processo de Nominalizaccedilatildeo ao software Rellex Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema
1) Realizar o processo de captura de RLBs a partir das informaccedilotildees extraiacutedas do documento
Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 13 Descriccedilatildeo do caso de uso ndash Capturar RLBs
71
Nome do Caso de Uso Calcular peso dos descritores Caso de Uso Geral natildeo possui Ator Principal Software Peso dos Descritores Atores secundaacuterios natildeo possui Resumo Submeter as informaccedilotildees resultantes do processo de Captura de RLBs ao software Peso de Descritores Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema
1) Calcular o peso dos descritores ao resultado obtido atraveacutes da captura de RLBs do documento
Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 14 Descriccedilatildeo do caso de uso ndash Calcular peso dos descritores
Nome do Caso de Uso Alimentar base de dados (Termos e RLBs) Caso de Uso Geral natildeo possui Ator Principal natildeo possui Atores secundaacuterios natildeo possui Resumo Persistir as informaccedilotildees obtidas nos casos de uso ldquoNominalizarrdquo ldquoCapturar RLBsrdquo e ldquoCalcular peso dos descritoresrdquo na base de dados de Termos e RLBs Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema
1) Armazenar as informaccedilotildees relativas aos Termos e RLBs extraiacutedos do documento em base de dados
Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 15 Descriccedilatildeo do caso de uso ndash Alimentar base de dados (Termos e RLBs)
Apoacutes a identificaccedilatildeo dos casos de uso e suas descriccedilotildees partiu-se para o modelo
conceitual da aplicaccedilatildeo proposta
72
Figura 27 Modelo Conceitual do sistema proposto
O diagrama de classes segundo Guedes (2004) eacute considerado o mais importante e o
mais utilizado diagrama da UML Eacute o diagrama de classes que permite a visualizaccedilatildeo das
classes que iratildeo compor o sistema com os seus respectivos atributos e meacutetodos Demonstra
como as classes se relacionam complementam e transmitem informaccedilotildees entre si Pode-se
dizer que esse diagrama serve ainda como base para a construccedilatildeo de outros diagramas da
linguagem UML
A Figura 28 apresenta o diagrama de classes do modelo proposto referente agrave Pesquisa
do usuaacuterio
Foi construiacutedo um diagrama de classes (Pesquisa de Usuaacuterio) seguindo estas
definiccedilotildeesaccedilotildees
Paacutegina de Consulta refere-se a uma paacutegina HTML de pesquisa (ou seja uma
linguagem para Web) ou tambeacutem a uma interface graacutefica (GUI) para computador
desktop (cliente)
Controlador da Paacutegina conteacutem a loacutegica de negoacutecio da aplicaccedilatildeo
Classe Sintagma bean responsaacutevel por instanciar e classificar sintagmas de
diferentes niacuteveis usa o meacutetodo setSintagma para receber informaccedilotildees vindas da
paacutegina passando pelo controlador
Classe ListaSintagma cria instacircncia de array de Sintagma associando-os a
instacircncias de Documento Realiza a busca e classificaccedilatildeo destes retornando ao
controlador e posteriormente agrave paacutegina atraveacutes do meacutetodo getDocumentos
73
Classe Documento instacircncia de Documento armazenado em base de dados de
documentos
Figura 28 Diagrama de classes do sistema proposto ndash Pesquisa de Usuaacuterio
A Figura 29 apresenta o diagrama de classes do modelo proposto referente ao
Gerenciamento e Operaccedilatildeo do BD no niacutevel de administrador
Foi construiacutedo um segundo diagrama de classes seguindo estas definiccedilotildeesaccedilotildees
Paacutegina de Consulta refere-se a uma paacutegina HTML de inclusatildeo de documentos
Controlador da Paacutegina conteacutem a loacutegica de negoacutecio da aplicaccedilatildeo
Classe DocumentoBase bean responsaacutevel por instanciar um objeto que iraacute conter
o documento a inserir bem como realizar os processos de toquenizaccedilatildeo e
etiquetagem (trocando mensagens com o software FORMA) nominalizaccedilatildeo
(trocando mensagens com o software CHAMA) gerando termos e RLBs
(trocando mensagens com o software RELLEX) e por fim inserindo as
informaccedilotildees nas bases de dados
Classes Termo e RLB indicam as instacircncias de objetos termos e RLBs e deveratildeo
ser modeladas conforme especificaccedilatildeo do software RELLEX
74
Figura 29 Diagrama de classes do sistema proposto ndash Gerenciamento e Operaccedilatildeo do BD no niacutevel de
administrador
O diagrama de sequumlecircncia segundo Guedes (2004) procura determinar a sequumlecircncia de
eventos que ocorrem em um determinado processo isto eacute quais meacutetodos devem ser disparados
entre os objetos envolvidos quais condiccedilotildees devem ser satisfeitas e em que ordem durante o
processo especiacutefico Foram construiacutedos os diagramas de sequumlecircncia abaixo (Figuras 30 e 31) da
aplicaccedilatildeo proposta
75
Figura 30 Diagrama de Sequumlecircncia do sistema proposto ndash Pesquisa de Usuaacuterio
76
Figura 31 Diagrama de Sequumlecircncia do sistema proposto ndash Gerenciamento e Operaccedilatildeo do BD no niacutevel de administrador
Na elaboraccedilatildeo dos diagramas e descriccedilotildees dos casos de uso e dos diagramas de
classes e de sequumlecircncia observou-se a importacircncia do modelo conceitual porque permitiu
orientar as etapas de desenvolvimento do modelo proposto Visto que no modelo conceitual
foram criados conceitos atributos e associaccedilotildees referentes agrave particularidade da pesquisa que
puderam ser utilizados para a construccedilatildeo das etapas dos diagramas
77
5 CONCLUSAtildeO
Neste capiacutetulo apresentam-se as consideraccedilotildees finais incluindo os aspectos relativos
agraves dificuldades aos progressos e limitaccedilotildees encontradas durante o desenvolvimento da
pesquisa bem como as sugestotildees para a continuidade deste trabalho
O objetivo geral que norteou este trabalho levou ao estudo dos modelos de busca e ao
desenvolvimento de uma proposta para a melhoria dos processos de recuperaccedilatildeo de
informaccedilotildees
Centrando-se no tema Recuperaccedilatildeo de Informaccedilatildeo foram analisados os modelos de
Kuramoto (1999) e posteriormente de Gonzalez (2005) O modelo de Kuramoto baseado
em uma estrutura hieraacuterquica de sintagmas nominais possibilita ao usuaacuterio definir melhor a
sua query de busca A Estrutura de Qualia do Leacutexico Gerativo de Pustejovsky contribuiu para
o entendimento das relaccedilotildees e da estrutura de construccedilatildeo de significado entre as palavras
permitindo o tratamento de questotildees semacircnticas como a polissemia loacutegica A proposta de
Gonzalez apropriando-se dos resultados de Pustejovsky evidencia caracteriacutesticas
morfoloacutegicas e relaccedilotildees de coesatildeo importantes na descriccedilatildeo de conceitos presentes em um
texto propiciando que um texto possa computacionalmente significar mais do que uma
sequumlecircncia de palavras
Buscou-se uma siacutentese dessas propostas identificando as possibilidades de ampliaccedilatildeo
do modelo de Kuramoto pela junccedilatildeo da teoria do Leacutexico Gerativo de Pustejovsky utilizadas
nesta dissertaccedilatildeo a partir do modelo de Gonzalez que se manteve adequado devido ao fato de
que o autor apresenta processos para as fases de indexaccedilatildeo busca e classificaccedilatildeo de RI Os
termos e relacionamentos inseridos na base de dados do modelo TR+ de Gonzalez estatildeo
implicitamente relacionados com a Estrutura de Qualia do LG
O novo modelo SINTR+ aleacutem do suporte ao usuaacuterio envolve a anaacutelise a
sistematizaccedilatildeo e a ampliaccedilatildeo do modelo de Kuramoto com a utilizaccedilatildeo da estrutura TR+ de
Gonzalez (2005) para a melhoria e a otimizaccedilatildeo do processo de seleccedilatildeo dos documentos
recuperados em uma busca
O estudo e a descriccedilatildeo do modelo em UML permitiu por ser uma linguagem
poderosa expressar de modo mais claro e preciso o modelo SINTR+ Foi construiacuteda a anaacutelise
de domiacutenio do sistema desejado incluindo o desenvolvimento de diagramas de casos de uso
bem como suas descriccedilotildees do modelo conceitual de diagramas de classes e de sequumlecircncia As
78
fases de anaacutelise e projeto desenvolvidas para a aplicaccedilatildeo proposta datildeo suporte agrave continuidade
do seu desenvolvimento
O novo modelo desenvolvido foi projetado como um sistema de recuperaccedilatildeo de
informaccedilatildeo (SRI) aplicaacutevel a bases de dados natildeo distribuiacutedas abrangendo a um determinado
domiacutenio de aplicaccedilatildeo a sua adequaccedilatildeo e expansatildeo para uso na Web constitui-se em uma
importante linha de continuidade de pesquisa
A principal contribuiccedilatildeo deste trabalho estaacute na sistematizaccedilatildeo e siacutentese das teorias de
Kuramoto com Gonzalez indicando o uso dessas teorias como uma nova alternativa para a
melhoria da busca de recuperaccedilatildeo de informaccedilotildees Os modelos de recuperaccedilatildeo simplesmente
buscavam as informaccedilotildees solicitadas pelo usuaacuterio O novo modelo proposto SINTR+ baseia-
se na interaccedilatildeo entre o usuaacuterio e a maacutequina atraveacutes de Sintagmas Nominais por niacuteveis e
tambeacutem nas relaccedilotildees das palavras conforme o modelo de Gonzalez
Com este trabalho natildeo se pretendeu desenvolver uma implementaccedilatildeo completa do
modelo construiacutedo Mas o trabalho conseguiu mostrar a exequumlibilidade desta implementaccedilatildeo
computacional descrevendo os diagramas e as descriccedilotildees dos casos de uso e a sua modelagem
conceitual culminando com a construccedilatildeo dos diagramas de classes e de sequumlecircncia A proacutexima
etapa que permitiria detalhar as potencialidades e limitaccedilotildees do modelo de forma ampla
poderia se constituir em amplos estudos de casos onde se determinaria a complexidade
computacional da implementaccedilatildeo requerida
Os dados apresentados no capiacutetulo 4 jaacute indicam aspectos positivos que consolidam a
importacircncia da utilizaccedilatildeo dos Sintagmas Nominais na diminuiccedilatildeo de descritores para
manipulaccedilatildeo com um ganho bastante significativo porque os iacutendices possuem informaccedilotildees
relevantes dos documentos (conceitos significativos de uma sentenccedila) e com isto agiliza-se a
pesquisa na base de dados Quer-se crer aqui e um estudo mais amplo poderia determinar que
essa reduccedilatildeo de descritores natildeo deve ter nenhum impacto na qualidade da busca realizada
Outro aspecto significativo eacute a reduccedilatildeo do uso de memoacuteria tanto na fase de indexaccedilatildeo
como na de busca tornando mais raacutepido o processo interno
Outro aspecto positivo se refere agrave melhoria de desempenho como um todo pois
quanto menor o traacutefego em uma rede menos informaccedilotildees o servidor vai processar e estaraacute
mais disponiacutevel E quanto melhor for o processo de indexaccedilatildeo menos memoacuteria o servidor vai
utilizar E com isto o tempo de resposta na fase de busca diminui e o resultado qualitativo da
pesquisa se amplia
79
Uma outra vantagem eacute que no modelo SINTR+ seratildeo armazenados na base de dados
os documentos e seus SN de uacuteltimos niacuteveis e manipulados apenas os uacuteltimos niacuteveis da
estrutura de SN Seraacute soacute atraveacutes de uma programaccedilatildeo que seratildeo classificados por niacuteveis
diminuindo assim o volume duplicado de dados na manipulaccedilatildeo
Os diagramas construiacutedos referentes ao gerenciamento e operaccedilatildeo do BD no niacutevel do
administrador satildeo fundamentais para o entendimento do funcionamento e da manutenccedilatildeo do
banco de dados facilitando processos como a inserccedilatildeo de novos documentos e outras accedilotildees
contribuindo tambeacutem para o diferencial deste trabalho
80
6 REFEREcircNCIAS BIBLIOGRAacuteFICAS
ABRAHAtildeO Paulo Ricardo Carneiro Modelagem e Implementaccedilatildeo de um Leacutexico Semacircntico para o Portuguecircs Dissertaccedilatildeo (Mestrado) Porto Alegre PUCRS 1997
ABREU Sandra C GOULART Rodrigo VIEIRA Renata (2004) Identificaccedilatildeo de Expressotildees Anafoacutericas e Natildeo Anafoacutericas com Base na Estrutura do Sintagma 2ordm Workshop em Tecnologia da Informaccedilatildeo e da Linguagem Humana (TIL 2004) - SalvadorBA - 05 e 06 de agosto de 2004 Disponiacutevel em httpwwwinfunisinosbr~renatalaboratoriopublicacoestilsandra04pdf Acesso em nov de 2004
BAEZA-YATES Ricardo RIBEIRO-NETO Berthier Modern Information Retrieval New York Addison-Wesley 1999
CARDOSO Olinda N P Recuperaccedilatildeo de Informaccedilotildees In Infocomp-Journal of Computer Science vol 2 n 1 Lavras MG 2000 p33-38 Disponiacutevel em httpwwwdccuflabrinfocompartigosv21olindapdf Acesso em mar de 2004
CHISHMAN Rove et al Extraccedilatildeo de Sintagmas Nominais para o Processamento de Co-Referecircncia In V Encontro para o processamento computacional do Portuguecircs escrito e falado (PROPOR 2000) Atibaia - Satildeo Paulo Anais do V Encontro para o processamento computacional do Portuguecircs escrito e falado Satildeo Carlos ICMCUSP 2000 Disponiacutevel em httpwwwinfunisinosbr~renatalaboratoriopublicacoespropor00pdf Acesso em jan de 2005
FERNEDA Edberto Recuperaccedilatildeo de Informaccedilatildeo anaacutelise sobre a contribuiccedilatildeo da ciecircncia da computaccedilatildeo para a ciecircncia da informaccedilatildeo Tese (Doutorado) Satildeo Paulo USP Escola de Comunicaccedilatildeo e Artes 2003 Disponiacutevel em httpwwwtesesuspbrtesesdisponiveis2727143tde-15032004-130230 Acesso em set de 2004
FERREIRA Aureacutelio Buarque de Holanda Novo Aureacutelio Seacuteculo XXI o dicionaacuterio da liacutengua portuguesa 3ed Rio de Janeiro Nova Fronteira 1999
GASPERIN C GOULART R VIEIRA R Uma ferramenta para Resoluccedilatildeo Automaacutetica de Co-referecircncia Anais do Encontro Nacional de Inteligecircncia Artificial (ENIA) Campinas SP 2003 Disponiacutevel em httpwwwexatecunisinosbr~renatalaboratoriopublicacoesart1pdf Acesso em set de 2004
81
GONZALEZ Marco Antocircnio Insaurriaga Representaccedilatildeo Semacircntica de Sentenccedilas em Linguagem Natural e sua aplicaccedilatildeo na Recuperaccedilatildeo de Informaccedilatildeo Trabalho Individual 2 Doutorado Porto Alegre PPCC da PUCRS 2000
________ O Leacutexico Gerativo de Pustejovsky sob o enfoque da Recuperaccedilatildeo de Informaccedilotildees Trabalho Individual 1 Doutorado Porto Alegre PPCC da PUCRS 2000a
________ Termos e Relacionamentos em Evidecircncia na Recuperaccedilatildeo de Informaccedilatildeo Tese (Doutorado) Porto Alegre PPGC da UFRGS 2005
GUEDES Gilleanes T A UML uma abordagem praacutetica Satildeo Paulo Novatec 2004
HILL Brad Pesquisa na Internet Rio de Janeiro Campus 1999
KURAMOTO Heacutelio Proposition drsquoum Systegraveme de Recherche drsquoInformation Assisteacutee par Ordinateur Tese (Doutorado) LrsquoUniversiteacute Lumiegravere ndash Lyon - Franccedila 1999
________ Uma abordagem alternativa para o tratamento e a recuperaccedilatildeo de informaccedilatildeo textual os sintagmas nominais Ciecircncia da Informaccedilatildeo (Brasiacutelia) v25 n2 1995 Disponiacutevel em httpdiciibictbrarchive0000016901Ci[1]Inf-2004-476pdf Acesso em mar de 2004
________ Sintagmas Nominais uma nova proposta para a recuperaccedilatildeo de informaccedilatildeo DataGramaZero Revista de Ciecircncia da Informaccedilatildeo v3 n1 fev 2002 Disponiacutevel em httpwwwdgzeroorgfev02Art_03htm Acesso em mar de 2004
LARMAN Craig Utilizando UML e Padrotildees uma introduccedilatildeo agrave anaacutelise e ao projeto orientado a objetos Porto Alegre Bookman 2000
MARTINS Dileta Silveira ZILBERKNOP Luacutebia Scliar Portuguecircs Instrumental 20ordf ed Porto Alegre Sagra Luzzatto 1999
MOURA Heronides M de M A determinaccedilatildeo de sentidos lexicais no contexto Cadernos de Estudos Linguumliacutesticos v 41 Campinas SP 2001 NETO Magdiel Medeiros Aragatildeo A polissemia em palavras designativas de objetos fiacutesicos e eventos 2003 Disponiacutevel em httpwwwabralinorgbranaishtm Acesso em mai de 2004
________A Polissemia de acordo com a Teoria do Leacutexico Gerativo Satildeo Miguel do Oeste SC Revista do Centro de Ciecircncias da Comunicaccedilatildeo e Artes n6 maiago 2003a
82
PUSTEJOVSKY James The Generative Lexicon Association for Computational Linguistics Computer Science Department Brandeis University Cambridge MA The MIT Press 1991 Disponiacutevel em httpportalacmorgcitationcfmid=176324 Acesso em set de 2004
ROSSI Albertina Palavras Polissecircmicas entre evento e informaccedilatildeo e seu tratamento nos dicionaacuterios Aureacutelio e Houaiss Tese (Doutorado) Florianoacutepolis USFC Centro de Comunicaccedilatildeo e Expressatildeo - Programa de Poacutes-Graduaccedilatildeo em LetrasLinguumliacutestica 2003
SILVA Edna Luacutecia da Metodologia da pesquisa e elaboraccedilatildeo de dissertaccedilatildeo Edna Luacutecia da Silva Estera Muszkat Menezes ndash 2a ed revndash Florianoacutepolis Laboratoacuterio de Ensino a Distacircncia da UFSC 2001 Disponiacutevel em httpprojetosinfufscbrarquivosMetodologia20da20Pesquisa203a20edicaopdf Acesso em mai de 2005
SILVA Maria C de S KOCH Ingedore V Linguumliacutestica aplicada ao portuguecircs sintaxe 5ed Satildeo Paulo Cortez 1993
WAZLAWICK Raul Sidnei Anaacutelise e Projeto de Sistemas de Informaccedilatildeo Orientados a Objetos Rio de Janeiro Elsevier 2004
61 Bibliografia Consultada
BRAumlSCHER Marisa A Ambiguumlidade na Recuperaccedilatildeo da Informaccedilatildeo Revista Ciecircncia da Informaccedilatildeo (Brasiacutelia) v3 n1 2002 Disponiacutevel em httpwwwdgzorgbrfev02Art_05htm Acesso em abr de 2004
CARVALHO Niacutevea M de Melo Recuperaccedilatildeo da informaccedilatildeo implementaccedilatildeo e avaliaccedilatildeo de sistema de recuperaccedilatildeo de informaccedilatildeo utilizando o modelo vetorial Dissertaccedilatildeo (Mestrado) Amazonas Universidade Federal do Amazonas Programa de Poacutes-Graduaccedilatildeo em Informaacutetica 2002 Disponiacutevel em httpposfacomufubr~reneacervosriRI-ModeloVetorial-NiveaCarvalhopdf Acesso em Ago de 2004
FODOR Jerry LEPORE Ernie The emptiness of the Lexicon Critical Reflections on J Pustejovskyrsquos The Generative Lexicon Rutgers University Center for Cognitive Science
83
GOMES Andreacuteia de Faacutetima R O singular nu e a sentenccedila geneacuterica no portuguecircs brasileiro Dissertaccedilatildeo (Mestrado) Florianoacutepolis UFSC Programa de Poacutes-Graduaccedilatildeo em Linguumliacutestica 2001
GONZALEZ Marco LIMA Vera L S de Sintagma Nominal em Estrutura Hieraacuterquica Temaacutetica na Recuperaccedilatildeo de Informaccedilatildeo Anais ENIA 2001 Fortaleza 2001 Disponiacutevel em httpwwwinfpucrsbr~gonzalezdocssnehtpdf Acesso em dez 2005
________ T-Lex Thesaurus com Estruturaccedilatildeo Semacircntica e Operaccedilotildees Gerativas XXVII Conferencia Latinoamericana de Informatica (CLEI2001) Ciudad de Meacuterida Venezuela 2001 Disponiacutevel em httpwwwinfpucrsbr~gonzalezdocsartigotlexpdf Acesso em jan de 2006 (httpwwwinfpucrsbr~gonzalezpesqqhtm)
________ Recuperaccedilatildeo de Informaccedilatildeo e Processamento da Linguagem Natural XXIII Congresso da Sociedade Brasileira de Computaccedilatildeo Campinas 2003 Anais do III Jornada de Mini-Cursos de Inteligecircncia Artificial Disponiacutevel em httpwwwinfpucrsbr~gonzalezdocsminicurso-jaia2003pdf Acesso em jan de 2006
HEIDE Ann Guia do Professor para a Internet completo e faacutecil 2ed Porto Alegre Artes Meacutedicas Sul 2000
MOURA Heronides M de M Linguagem e cogniccedilatildeo na interpretaccedilatildeo de metaacuteforas Universidade Federal de Juiz de Fora Editora UFJF 2003 Disponiacutevel em httpwwwrevistaveredasufjfbrvolumesv6n1cap11pdf Acesso em jan de 2006
PARREIRAS Fernando O uso de sintagmas nominais como fonte de descritores para textos de perioacutedicos cientiacuteficos Escola de Ciecircncia da Informaccedilatildeo Belo Horizonte 2003 Disponiacutevel em httpwwwfernandoparreirasnombrpublicacoessnpdf Acesso em set de 2004
PEacuteREZ Claacuteudia C C GASPERIN Caroline VIEIRA Renata Extraccedilatildeo Semi-Automaacutetica de Conhecimento a partir de Textos 2003 Disponiacutevel em httpwwwinfunisinosbr~renatalaboratorio publicacoesenia2003-submittedpdf Acesso em ago de 2005
PIZZATO Luiz A Estrutura Multitesauro para Recuperaccedilatildeo de Informaccedilotildees Dissertaccedilatildeo (Mestrado) Porto Alegre PUCRS Faculdade de Informaacutetica - Poacutes-Graduaccedilatildeo em Ciecircncia da Computaccedilatildeo 2003 Disponiacutevel em httpwwwpucrsbrunipoainfoposdissertacoesarquivospizzatopdf Acesso em ago de 2004
84
PUSTEJOVSKY James Type Construction and the logic of concepts Disponiacutevel em httpwwwcsbrandeisedu~jamesparticlesindexhtml Acesso em set de 2004
________ The Metaphysics of Words in Context (2000) Disponiacutevel em httpwwwcsbrandeisedu~jamesparticlesindexhtml Acesso em set de 2004
________ The Semantics of Agentive Nominals Disponiacutevel em httpwwwcsbrandeisedu~jamesparticlesindexhtml Acesso em set de 2004
WORDNET a lexical database for the English language Cognitive Science Laboratory Princeton University Disponiacutevel em httpwordnetprincetonedu Acesso em jan de 2006
85
ANEXOS
86
ANEXO A - DOCUMENTO1
Endereccedilo na Web http wwwreciclaveiscombranamghtm
Segunda-feira 28 de agosto de 2000 - Nuacutemero 599 Cresce a induacutestria de reciclagem de plaacutesticos Poreacutem potencial do lixo domeacutestico ainda eacute pouco aproveitado no estado A induacutestria de reciclagem foi a que mais cresceu no setor plaacutestico de Santa Catarina nos uacuteltimos cinco anos No periacuteodo o volume reprocessado no estado cresceu 1664 ao ano atingindo 169 mil toneladas em 1999 Isso equivale a 37 do total transformado pelo setor em Santa Catarina Os dados fazem parte de estudo elaborado pela empresa de consultoria MaxiQuim de Porto Alegre para o Sindicato da Induacutestria de Material Plaacutestico no Estado de Santa Catarina (Simpesc) Contudo esse crescimento reflete mais o reaproveitamento de resiacuteduos gerados em processos industriais do que a reciclagem de lixo domeacutestico como embalagens e garrafas o chamado plaacutestico ldquopoacutes-consumordquo Este segmento cresce de maneira menos acelerada devido a problemas como a necessidade de escala de produccedilatildeo falta de linhas de financiamento e ausecircncia de legislaccedilatildeo que estimule a atividade ldquoEmbora a reciclagem do material poacutes-consumo como sacos embalagens e garrafas esteja aumentando em Santa Catarina a maior parte do crescimento verificado entre 1995 e 1999 refere-se a empresas que utilizam resiacuteduos industriais como mateacuteria-primardquo explica o diretor da MaxiQuim Joatildeo Luiz Zuntildeeda Normalmente chamadas de aparas esses resiacuteduos incluem tambeacutem as peccedilas que natildeo atingiram a qualidade necessaacuteria para ir ao mercado As oito empresas catarinenses de reciclagem de plaacutestico tecircm 383 empregados sem considerar o pessoal que trabalha na coleta de lixo atividade que geralmente eacute informal O valor da produccedilatildeo atingiu R$ 4249 milhotildees em 1999 com crescimento meacutedio de 1526 ao ano nos uacuteltimos cinco anos jaacute descontando a inflaccedilatildeo As empresas de transformaccedilatildeo de plaacutestico estatildeo cada vez mais preocupadas em recuperar o material que antes era perdido devido ao alto custo da resina virgem diz Nelson Pradella proprietaacuterio da empresa Recicle-Ville ldquoIsso eacute fundamental para que elas sejam competitivas pois vendendo os resiacuteduos do processo industrial como sucata as empresas obtecircm menos de 20 do valor da resina virgemrdquo Cobrando 30 do preccedilo da resina virgem a Recicle-Ville devolve para a induacutestria seus resiacuteduos em condiccedilotildees de serem utilizados normalmente no processo produtivordquo explica A empresa de Joinville foi uma das firmas que ajudou a elevar os iacutendices desta induacutestria no estado Ateacute agora ela estava trabalhando apenas com mateacuteria-prima gerada nos processos industriais mas isso deve mudar a partir desta semana Criada haacute um ano a empresa reprocessa cerca de 220 toneladas de plaacutestico por mecircs e estaacute aumentando a sua capacidade para 310 toneladas Ela ainda opera basicamente como terceirizada de empresas de processamento de plaacutesticos reprocessando para elas os resiacuteduos que geram e devolvendo essa mateacuteria em forma granular mesmo estado da resina virgem Como a mateacuteria prima reciclada seraacute utilizada para fazer o mesmo produto que originou a
4
3
2
1
87
apara a qualidade final natildeo eacute afetada Mas a Recicle-Ville estaacute ingressando tambeacutem no segmento de reciclagem do plaacutestico poacutes-consumo A partir desta semana a empresa coloca em funcionamento um sistema de coleta junto a escolas do municiacutepio para recolher materiais plaacutesticos como sacos garrafas e tampinhas apostando principalmente no PET Com isso ela tem a vantagem de receber material mais limpo A contaminaccedilatildeo do plaacutestico pelo lixo orgacircnico eacute justamente um dos principais problemas para o crescimento da induacutestria da reciclagem do lixo domeacutestico A simples separaccedilatildeo do lixo orgacircnico do seco jaacute traria um impulso importante para o setor diz Ana Flores diretora do departamento de meio ambiente e desenvolvimento sustentado da Federaccedilatildeo das Induacutestrias do Estado de Satildeo Paulo (Fiesp) e autora do livro ldquoO dinheiro estaacute no lixo ndash recicle essa ideacuteiardquo ldquoDeveriam ser criados mecanismos de estiacutemulo para a reciclagem Na Holanda por exemplo uma Coca-Cola custa US$ 220 Devolvendo a garrafa acontece o reembolso de US$ 1 Vocecirc acha que algueacutem vai jogaacute-la no lixordquo diz A induacutestria da reciclagem do plaacutestico no Brasil tem crescido bastante em funccedilatildeo do reaproveitamento do PET que eacute usado no segmento de monofilamentos em artigos como vassouras e na induacutestria tecircxtil Conforme Ana Flores a reciclagem gera 250 mil empregos no Paiacutes dos quais 70 satildeo informais Poreacutem a maior parte do potencial de mercado ainda estaacute sendo desperdiccedilado avalia ldquoCerca de 15 do total de plaacutestico que eacute industrializado no Paiacutes eacute reciclado Em dez anos poderiacuteamos chegar a 60 como nos Estados Unidos desde que fosse implementado um conjunto de medidas incentivando essa praacuteticardquo assegura Para a diretora da Fiesc os principais entraves satildeo o aspecto cultural a tributaccedilatildeo incidente na reciclagem do plaacutestico a falta de linhas de financiamento e a ausecircncia de uma legislaccedilatildeo ambiental mais rigorosa ldquoHaacute um contra-senso ecoloacutegico que forccedila a clandestinidade no Brasil onde para fabricar garrafa PET virgem paga-se IPI de 10 e para a reciclagem 12rdquo critica Ana afirma que essa tributaccedilatildeo decorre do interesse governamental em incentivar a induacutestria quiacutemica Outro problema apontado eacute que ao contraacuterio da induacutestria do alumiacutenio que eacute concentrada o predomiacutenio das pequenas empresas na transformaccedilatildeo do plaacutestico dificulta que sejam criadas grandes empresas para reprocessar o lixo Para Flores o sucesso brasileiro na reciclagem do alumiacutenio (o iacutendice eacute de 65 um dos mais altos do mundo) decorre da existecircncia de poucas grandes empresas capitalizadas ldquoAs pequenas empresas natildeo tecircm acesso agraves linhas de creacutedito e isso dificulta a abertura de novas recicladorasrdquo diz Flores Mas haacute quem aponte outros desafios a superar ldquoEmbora seja um mercado que deve crescer muito a reciclagem de plaacutestico natildeo eacute tatildeo simples como normalmente aparece na televisatildeo O volume miacutenimo para que a atividade seja economicamente viaacutevel atendendo a todas as exigecircncias legais eacute de 100 toneladas mecircsrdquo diz Ronaldo Cerri soacutecio da Moinhos Rone de Satildeo Paulo que fabrica equipamentos utilizados na moagem do plaacutestico uma das primeiras etapas da reciclagem Aleacutem disso explica a coleta do plaacutestico eacute mais complicada porque ao contraacuterio das latas de alumiacutenio - que podem ser amassadas o volume fiacutesico eacute maior ldquoHoje entre 70 e 80 dos moinhos que vendemos satildeo para reciclagem de resiacuteduos industriaisrdquo informa (Elmar Meurer de Joinville)
copy GAZETA MERCANTIL
9
8
7
6
5
88
ANEXO B - DOCUMENTO2
Cuidados com o Lixo
Endereccedilo na Web httpwwwpoupetempocombrambientelixohtm
Todos os seres vivos quando morrem apodrecem plantas e animais se decompotildeem e satildeo destruiacutedos por larvas bacteacuterias e fungos e reabsorvidos pela terra pela aacutegua pelo ar Eacute o ciclo da natureza morte decomposiccedilatildeo nova vida e crescimento Tudo o que eacute fabricado pelo homem acaba virando lixo Muito desse lixo natildeo se decompotildee facilmente como a mateacuteria orgacircnica e passa a ser um problema Plaacutesticos latas e vidros demoram muitos anos para se decompor e poluem o meio-ambiente Por isso a importacircncia da reciclagem do lixo fabricado pelo ser humano O lixo eacute formado por resiacuteduos soacutelidos natildeo biodegradaacuteveis e que demoram para se decompor Restos de alimentos folhas e frutas satildeo chamados lixo orgacircnico Existem tambeacutem aleacutem do lixo domiciliar o lixo industrial o de vias puacuteblicas e o hospitalar que necessitam de tratamentos especiais pois oferece perigo agrave sauacutede das pessoas Devido ao aumento da populaccedilatildeo das grandes cidades e com o aumento do consumo de produtos a quantidade de lixo tambeacutem tem aumentado O acuacutemulo de lixo eacute um dos principais problemas nas grandes cidades Muitos materiais que vatildeo para o lixo natildeo podem ser desperdiccedilados podendo ser reaproveitados e reutilizados Material orgacircnico Tudo o que eacute resto de comida de animais de plantas e frutas eacute considerado lixo propriamente dito Ou seja vocecirc deve acondicionaacute-los num uacutenico recipiente Essa material eacute recolhido pela prefeitura e levado para aterros sanitaacuterios onde vatildeo sofrer a decomposiccedilatildeo natural Material reciclaacutevel Eacute praticamente tudo o que eacute fabricado pelo homem material plaacutestico latas de alumiacutenio e ferro garrafas de refrigerante de vidro e PET caixas de papel e papelatildeo jornais revistas livros aparas de papel etc Se vocecirc mora em casa reuacutena-se com sua famiacutelia e com seus funcionaacuterios para estabelecer um meacutetodo de separaccedilatildeo desse material Dependendo do seu volume diaacuterio de lixo escolha 4 recipientes coloridos para acondicionaacute-los azul para papel vermelho para plaacutestico verde para vidro e amarelo para metal ou nomeie cada um deles conforme sua classificaccedilatildeo Se vocecirc mora em condomiacutenio faccedila esse mesmo trabalho reunindo os moradores estabelecendo regras e instruindo os empregados Observaccedilatildeo o lixo orgacircnico deve estar separado daquilo que eacute reciclaacutevel Exemplos Providencie uma caixa resistente ou sacolas e fixe nelas um papel com a identificaccedilatildeo do tipo de lixo vidro e nela vaacute acumulando as garrafas Retire aneacuteis e roacutetulos e lave as garrafas para natildeo acumular insetos Na outra caixa vaacute juntando o lixo papel aparas embalagens de papelatildeo as perdas da impressora jornais e revistas velhas etc Latas de conserva satildeo de ferro e as de refrigerante satildeo de alumiacutenio Elas devem ser acumuladas limpas sem roacutetulo e em caixas separadas As de alumiacutenio podem ser amassadas como uma sanfoninha o que economizaraacute espaccedilo Quando as caixas estiverem cheias elas devem ser encaminhadas para entidades que trabalham com material reciclaacutevel ou simplesmente recolhida pela empresa de sua cidade responsaacutevel pela coleta seletiva Consulte a prefeitura local
89
A destinaccedilatildeo do material para reciclagem pode ser feita de vaacuterias formas Uma famiacutelia mais pobre pode utilizar esse material vendendo para cooperativas e empresas especializadas e conseguir um dinheiro extra Os condomiacutenios de melhor padratildeo econocircmico podem utilizar o resultado da separaccedilatildeo do lixo para reciclagem em benefiacutecio de seus funcionaacuterios propiciando a eles um ganho extra na ajuda da triagem desse material Uma outra forma eacute simplesmente entregar todo o material para as prefeituras que jaacute possuem o meacutetodo de coleta seletiva Ajude a melhorar o meio-ambiente Eacute simples pense antes de comprar Metade do que noacutes compramos eacute lixo Satildeo embalagens que quase sempre natildeo servem para nada e vatildeo direto para o lixo Evite embalagens plaacutesticas elas satildeo pouco reciclaacuteveis enquanto o vidro eacute totalmente reciclaacutevel e muito mais uacutetil no seu reaproveitamento Algumas informaccedilotildees sobre materiais produzidos pelo homem TEMPO DE DECOMPOSICcedilAtildeO DE ALGUNS MATERIAIS
Lenccedilo de papel 3 meses Palito de foacutesforo 6 meses Caroccedilo de maccedilatilde 6 a 12 meses Ponta de cigarro 1 a 2 anos Chiclete 5 anos Lata de accedilo 10 anos Garrafa de plaacutestico 100 anos Garrafa de vidro Mais de 1000 anos Lata de alumiacutenio Natildeo se corroacutei nunca
Plaacutestico riacutegido Leve resistente e praacutetico eacute o material que compotildee cerca de 60 das embalagens plaacutesticas como garrafas de refrigerantes recipientes para produtos de limpeza e higiene e potes de alimentos eacute tambeacutem mateacuteria-prima baacutesica de bombonas fibras tecircxteis tubos e conexotildees calccedilados eletrodomeacutesticos aleacutem de baldes utensiacutelios domeacutesticos e outros produtos Ele pode ser reprocessado gerando novos artefatos plaacutesticos e energia Papel ondulado eacute usado em caixas para transporte de produtos para faacutebricas depoacutesitos escritoacuterios e residecircncias Normalmente chamado de papelatildeo este material tem uma camada intermediaacuteria de papel entre suas partes exteriores disposta em ondulaccedilotildees na forma de uma sanfona O material eacute de faacutecil coleta em grandes volumes comerciais sendo facilmente identificadas quando misturadas com outros tipos de papel por isso seu susto de processamento eacute relativamente baixo Embalagens longa vida satildeo compostas de vaacuterias camadas de material dupleacutex polietileno e alumiacutenio As embalagens cartonadas precisam ser lavadas apoacutes o consumo porque os restos de alimentos contidos nelas dificultam o reprocessamento do material Para aproveitar melhor o espaccedilo as embalagens podem ser amassadas O papel existente nas embalagens cartonadas pode ser compostado para a produccedilatildeo de huacutemus utilizado em hortas e jardins Pneus a borracha e sua reciclagem eacute capaz de devolver ao processo de produccedilatildeo insumo regenerado por menos da metade do custo da borracha natural ou sinteacutetica aleacutem disso economiza energia e poupa petroacuteleo usado como mateacuteria-prima virgem e ateacute melhora as propriedades de materiais feitos com borracha Latas de alumiacutenio aleacutem de reduzir o lixo que vai para os aterros a reciclagem desse material proporciona significativo ganho energeacutetico Para reciclar uma tonelada de latas gasta-se 5 da
90
energia necessaacuteria para produzir a mesma quantidade de alumiacutenio pelo processo primaacuterio Isto significa que cada latinha reciclada equivale ao consumo de um aparelho de TV durante 3 horas A reciclagem evita a extraccedilatildeo da bauxita o mineral beneficiado para a fabricaccedilatildeo da alumina que eacute transformada em liga de alumiacutenio Vidro a metade dos recipientes de vidro eacute fabricados no Paiacutes eacute retornaacutevel Aleacutem disso o material eacute de faacutecil reciclagem pode voltar a produccedilatildeo de novas embalagens substituindo o produto virgem sem perda da qualidade Pet (polietileno tereftalato) as garrafas recicladas satildeo transformadas em cordas e fios de costura carpetes bandejas de frutas e ateacute mesmo novas garrafas Sua reciclagem aleacutem de desviar lixo plaacutestico dos aterros utiliza apenas 30 da energia necessaacuteria para a produccedilatildeo da resina virgem e tem a vantagem de poder ser reciclado vaacuterias vezes sem prejudicar a qualidade do produto final Latas de accedilo Quando reciclado o accedilo volta ao mercado em forma de automoacuteveis ferramentas vigas para construccedilatildeo civil arames vergalhotildees utensiacutelios domeacutesticos e inclusive novas latas Plaacutestico filme eacute uma peliacutecula plaacutestica normalmente usada como sacolas de supermercados sacos de lixo embalagens de leite lonas agriacutecolas e proteccedilatildeo de alimentos na geladeira ou microondas Cerca de 44 eacute papel e 4 eacute folha de alumiacutenio Ajude a melhorar o meio-ambiente
bull Reaproveite sobras e natildeo jogue fora o que puder aproveitar bull Doe roupas que possam ser reformadas ou consertadas bull Doe livros para bibliotecas ou instituiccedilotildees beneficentes bull Use produtos biodegradaacuteveis ou reciclaacuteveis bull Deixe o oacuteleo usado do motor no posto para ser reciclado bull Leve pneus sem uso para os borracheiros bull Evite jogar lixo na rua Jogue o lixo na lixeira bull Embale o lixo corretamente sempre que possiacutevel encaminhe plaacutesticos vidros e papel
para a reciclagem
91
ANEXO C - EXTRACcedilAtildeO MANUAL DE SN DOS DOCUMENTOS
DOCUMENTO1 Linha Sintagma Nominal Niacutevel
1 Plaacutesticos 1 1 Reciclagem de plaacutesticos 2 1 Induacutestria de reciclagem de plaacutesticos 3 2 Lixo 1 2 Lixo domeacutestico 1 2 Potencial do lixo domeacutestico 2 3 Reciclagem 1 3 Induacutestria de reciclagem 2 3 Plaacutestico 1 3 Setor Plaacutestico 1 3 Setor Plaacutestico de Santa Catarina 2 7 Plaacutestico 1 7 Material Plaacutestico 1 7 Induacutestria de Material Plaacutestico 2 7 Sindicato da Induacutestria de Material Plaacutestico 3 7 Sindicato da Induacutestria de Material Plaacutestico no Estado de Santa Catarina 4 8 Resiacuteduos 1 8 Reaproveitamento de resiacuteduos 2 9 Lixo 1 9 Lixo domeacutestico 1 9 Reciclagem do lixo domeacutestico 2 10 Embalagens 1 10 Garrafas 1 10 Embalagens e garrafas 2 10 Plaacutestico 1 10 Plaacutestico poacutes-consumo 1 13 Reciclagem 1 13 Reciclagem de material 2 13 Reciclagem de material poacutes-consumo 2 13 Sacos 1 13 Embalagens 1 13 Garrafas 1 13 Sacos embalagens e garrafas 2 15 Resiacuteduos 1
92
15 Resiacuteduos industriais 1 15 Resiacuteduos industriais como mateacuteria-prima 2 18 Reciclagem 1 18 Reciclagem de plaacutesticos 2 18 Empresas catarinenses de reciclagem de plaacutesticos 3 19 Lixo 1 19 Coleta de lixo 2 22 Plaacutestico 1 22 Transformaccedilatildeo de plaacutestico 2 22 As empresas de transformaccedilatildeo de plaacutestico 3 27 Resiacuteduos 1 32 Plaacutestico 1 34 Plaacutesticos 1 34 Processamento de plaacutesticos 2 34 Empresas de processamento de plaacutesticos 3 34 Terceirizada de empresas de processamento de plaacutesticos 4 34 Os resiacuteduos 1 36 Reciclada 1 36 Mateacuteria-prima reciclada 1 38 Reciclagem 1 38 Reciclagem de plaacutestico 2 38 Reciclagem de plaacutestico poacutes-consumo 2 38 Segmento de reciclagem de plaacutestico poacutes-consumo 3 39 Coleta 1 39 Coleta junto a escolas do municiacutepio 2 39 Um sistema de coleta junto a escolas do municiacutepio 3 40 Plaacutesticos 1 40 Materiais plaacutesticos 1 40 Materiais plaacutesticos como sacos garrafas e tampinhas 2 41 PET 1 43 Lixo 1 43 Lixo orgacircnico 1 43 A contaminaccedilatildeo do plaacutestico 2 43 A contaminaccedilatildeo do plaacutestico pelo lixo orgacircnico 3 44 Lixo 1
93
44 Lixo domeacutestico 1 44 Reciclagem de lixo domeacutestico 2 44 Induacutestria da reciclagem do lixo domeacutestico 3 44 O crescimento da induacutestria da reciclagem do lixo domeacutestico 4 44 Lixo 1 44 Lixo orgacircnico 1 44 A simples separaccedilatildeo do lixo orgacircnico 2 44 A simples separaccedilatildeo do lixo orgacircnico do seco 3 49 A garrafa 1 50 Lixo 1 51 Reciclagem 1 51 Reciclagem do plaacutestico 2 51 A induacutestria da reciclagem do plaacutestico 3 51 A induacutestria da reciclagem do plaacutestico no Brasil 4 52 Reaproveitamento 1 52 Reaproveitamento do PET 2 53 A reciclagem 1 55 Plaacutestico 1 56 Reciclado 1 58 Reciclagem 1 58 Reciclagem do plaacutestico 2 58 Tributaccedilatildeo incidente na reciclagem do plaacutestico 3 61 Garrafa 1 61 Garrafa PET 1 61 Reciclagem 1 63 Induacutestria Quiacutemica 1 64 Alumiacutenio 1 64 Induacutestria do alumiacutenio 2 65 Plaacutestico 1 65 Transformaccedilatildeo do plaacutestico 2 65 Empresas na transformaccedilatildeo do plaacutestico 3 65 Predomiacutenio das pequenas empresas na transformaccedilatildeo do plaacutestico 4 66 Lixo 1 69 Recicladoras 1 69 A abertura de novas recicladoras 2
94
71 Reciclagem 1 71 Reciclagem de Plaacutestico 2 74 Plaacutestico 1 74 Moagem do plaacutestico 2 74 Reciclagem 1 74 Primeiras etapas da reciclagem 2 75 Coleta 1 75 A coleta do plaacutestico 2 77 Reciclagem 1 77 Reciclagem de resiacuteduos 2 77 Reciclagem de resiacuteduos industriais 3
DOCUMENTO2
Linha Sintagma Nominal Niacutevel1 Lixo 1 1 Cuidados com o lixo 2 5 Lixo 1 5 Lixo 1 6 Mateacuteria Orgacircnica 1 6 Plaacutesticos latas e vidros 2 7 Lixo 1 7 Reciclagem do lixo 2 7 A importacircncia da reciclagem do lixo 3 9 O lixo 1 9 Resiacuteduos 1 9 Resiacuteduos soacutelidos 1 9 Resiacuteduos soacutelidos natildeo-biodegradaacuteveis 1 9 Restos de alimentos folhas e frutas 2 10 Lixo 1 10 Lixo orgacircnico 1 11 Lixo 1 11 Lixo domiciliar lixo industrial o de vias puacuteblicas e o hospitalar 3 13 Lixo 1 13 A quantidade de lixo 2
95
15 Lixo 1 15 O acuacutemulo de lixo 2 15 O lixo 1 17 Material orgacircnico 1 18 Restos de comida de animais de plantas e frutas 4 18 Lixo 1 20 Aterro sanitaacuterio 1 20 A decomposiccedilatildeo 1 20 A decomposiccedilatildeo natural 1 21 Reciclaacutevel 1 21 Material reciclaacutevel 1 22 Material plaacutestico latas de alumiacutenio e ferro garrafas de refrigerante de
vidro e PET caixas de papel e papelatildeo jornais revistas livros aparas de papel
4
24 Lixo 1 24 Volume diaacuterio de lixo 2 31 O lixo 1 31 O lixo orgacircnico 1 31 Reciclaacutevel 1 33 Lixo 1 33 Tipo de lixo 2 33 vidro 1 34 As garrafas 1 35 As garrafas 1 36 O lixo 1 36 O lixo papel aparas embalagens de papelatildeo as perdas da impressora
jornais e revistas velhas 3
38 Ferro 1 38 Alumiacutenio 1 42 Reciclaacutevel 1 42 Material reciclaacutevel 1 42 Coleta 1 42 Coleta seletiva 1 44 Reciclagem 1 44 Material para reciclagem 2 44 A destinaccedilatildeo do material para reciclagem 3
96
47 Lixo 1 47 Separaccedilatildeo do lixo 2 47 Separaccedilatildeo do lixo para reciclagem 3 47 O resultado da separaccedilatildeo do lixo para reciclagem 4 50 Coleta 1 50 Coleta seletiva 1 50 O meacutetodo de coleta seletiva 2 53 Lixo 1 53 Embalagens 1 53 O lixo 1 54 Embalagens plaacutesticas 1 54 Pouco reciclaacuteveis 1 54 O vidro 1 57 Decomposiccedilatildeo 1 57 Decomposiccedilatildeo de alguns materiais 2 57 Tempo de decomposiccedilatildeo de alguns materiais 3 67 Plaacutestico 1 67 Plaacutestico riacutegido 1 67 Embalagens plaacutesticas 1 67 Embalagens plaacutesticas como garrafas de refrigerantes recipientes para
produtos de limpeza e higiene e potes de alimentos 4
72 Papel ondulado 1 74 Coleta 1 74 Coleta em grandes volumes comerciais 2 74 Faacutecil coleta em grandes volumes comerciais 2 76 Processamento 1 76 Custo de processamento 2 77 Embalagens 1 77 Embalagens longa vida 1 79 reprocessamento 1 79 Reprocessamento do material 2 82 Hortas e jardins 2 83 Pneus 1 83 Reciclagem 1 83 A borracha e sua reciclagem 2
97
84 Borracha 1 84 Borracha natural ou sinteacutetica 1 84 O custo da borracha natural ou sinteacutetica 2 86 Latas de alumiacutenio 1 86 O lixo 1 86 A reciclagem 1 88 Reciclada 1 88 Latinha reciclada 1 89 A reciclagem 1 91 vidro 1 91 Vidro 1 91 Recipiente de vidro 2 91 Faacutecil reciclagem 1 94 PET 1 94 Recicladas 1 94 Garrafas recicladas 1 95 Reciclagem 1 95 Lixo 1 95 Lixo plaacutestico 1 95 Lixo plaacutestico dos aterros 2 97 Reciclado 1 97 Reciclado vaacuterias vezes 1 98 Latas de accedilo 2 98 Automoacuteveis ferramentas vigas para construccedilatildeo civil arames
vergalhotildees utensiacutelios domeacutesticos e inclusive novas latas 3
100 Plaacutestico filme 1 100 Sacolas de supermercado sacos de lixo embalagens de leite lonas
agriacutecolas e proteccedilatildeo de alimentos na geladeira ou microondas 3
102 Folha de alumiacutenio 2 107 Reciclaacuteveis 1 107 Produtos biodegradaacuteveis ou reciclaacuteveis 1 110 Lixo 1 110 Lixo na rua 2 110 O lixo 1 110 O lixo na lixeira 2
98
111 O lixo 111 Reciclagem 1 111 Plaacutesticos vidros e papel para reciclagem 3
99
ANEXO D - FERRAMENTA1 DE TOQUENIZACcedilAtildeO E ETIQUETAGEM
Endereccedilo na Web hermessourceforgenethermeswebhtml
Texto processado (Paraacutegrafo 6 do Documento1)
A induacutestria da reciclagem do plaacutestico no Brasil tem crescido bastante em funccedilatildeo do reaproveitamento do PET que eacute usado no segmento de monofilamentos em artigos como vassouras e na induacutestria tecircxtil Conforme Ana Flores a reciclagem gera 250 mil empregos no Paiacutes dos quais 70 satildeo informais Poreacutem a maior parte do potencial de mercado ainda estaacute sendo desperdiccedilado avalia ldquoCerca de 15 do total de plaacutestico que eacute industrializado no Paiacutes eacute reciclado Em dez anos poderiacuteamos chegar a 60 como nos Estados Unidos desde que fosse implementado um conjunto de medidas incentivando essa praacuteticardquo assegura
Resultado
A_ART induacutestria_N da_PREP+ART reciclagem_N do_PREP+ART plaacutestico_N no_PREP+ART Brasil_NP tem_VTD crescido_ADJ bastante_ADV em_PREP funccedilatildeo_N do_PREP+ART reaproveitamento_N do_PREP+ART PET_N _ que_PR eacute_VLIG usado_ADJ no_PREP+ART segmento_N de_PREP monofilamentos_N _ em_PREP artigos_N
100
como_CONJSUB vassouras_ADJ e_CONJCOORD na_PREP+ART induacutestria_N tecircxtil_NP _ Conforme_CONJSUB Ana_NP Flores_N _ a_ART reciclagem_N gera_N 250_NC mil_NC empregos_N no_PREP+ART Paiacutes_N _ dos_PREP+ART quais_PR 70_NC satildeo_VLIG informais_ADJ _ Poreacutem_VTD _ a_ART maior_ADJ parte_N do_PREP+ART potencial_N de_PREP mercado_N ainda_ADV estaacute_VLIG sendo_VLIG desperdiccedilado_VTD _ avalia_N _ Cerca_N de_PREP 15_NC do_PREP+ART total_ADJ de_PREP plaacutestico_N que_PR eacute_VLIG
101
industrializado_VTD no_PREP+ART Paiacutes_N eacute_VLIG reciclado_VTD _ Em_PREP dez_NC anos_N poderiacuteamos_VTD chegar_VTI a_ART 60_NC _ como_CONJSUB nos_PREP+ART Estados_NP Unidos_NP _ desde_PREP que_PR fosse_VLIG implementado_ADJ um_ART conjunto_N de_PREP medidas_N incentivando_VTD essa_PD praacutetica_N _ assegura_VTD _
102
ANEXO D - FERRAMENTA2 DE TOQUENIZACcedilAtildeO E ETIQUETAGEM
Endereccedilo na Web httplaelpucspbrcorporaetiquetagem
A ARTD induacutestria N da CPR reciclagem N do CPR plaacutestico N no CPR Brasil N tem V crescido PART bastante ADV em PRP funccedilatildeo N do CPR reaproveitamento N do CPR PET N PT que PRN eacute V usado PART no CPR segmento N de PRP monofilamentos N PT em PRP artigos N como ADV vassouras N e CJ na CPR induacutestria N tecircxtil ADJ PT Conforme ADJ Ana N Flores N PT a ARTD reciclagem N gera V 250 NUM mil N
103
empregos N no CPR Paiacutes N PT dos CPR quais PRN 70 NUM PT satildeo V informais ADJ PT Poreacutem CJ PT a ARTD maior ADJ parte N do CPR potencial N de PRP mercado N ainda ADV estaacute V sendo V desperdiccedilado PART PT avalia V PT ldquoCerca PRP de PRP 15 NUM PT do CPR total N de PRP plaacutestico N que PRN eacute V industrializado PART no CPR Paiacutes N eacute V reciclado PART PT Em PRP dez NUM anos N poderiacuteamos V chegar V a ARTD 60 NUM PT
104
PT como ADV nos CPR Estados N Unidos N PT desde PRP que PRN fosse V implementado PART um ARTI conjunto N de PRP medidas N incentivando V essa PRN praacuteticardquo N PT assegura V PT
105
ANEXO E - PROCESSO DE NOMINALIZACcedilAtildeO Palavra Original Classe Substantivo Abstrato Substantivo Concretotem Verbo E E crescido Verbo no particiacutepio crescimento E bastante Adveacuterbio E E eacute Verbo E E usado Verbo no particiacutepio uso usador tecircxtil Adjetivo E tecido informal Adjetivo informalidade E maior Adjetivo maioridade E potencial Adjetivo potencialidade E ainda Adveacuterbio E E estaacute Verbo E E sendo Verbo E E desperdiccedilado Verbo no particiacutepio desperdiacutecio desperdiccedilador total Adjetivo totalidade totalizador industrializado Verbo no particiacutepio industrial induacutestria reciclado Verbo no particiacutepio E reciclagem poderiacuteamos Verbo E E chegar Verbo E chegada fosse Verbo E E implementado Verbo no particiacutepio implemento implementador incentivando Verbo Incentivo incentivador
E = ausecircncia de nominalizaccedilatildeo