View
175
Download
1
Embed Size (px)
DESCRIPTION
Biblioteca Digital Brasileira de Teses e Dissertações: ações para melhoria na qualidade dos dados - Diego Macedo, Milton Shintaku, Tainá Assis, Washington Ribeiro, Ronnie Brito
Citation preview
BIBLIOTECA DIGITAL BRASILEIRA DE TESES E DISSERTAÇÕES: AÇÕES PARA MELHORIA NA QUALIDADE DOS DADOS
DIEGO JOSÉ MACEDOINSTITUTO BRASILEIRO DE INFORMAÇÃO EM CIÊNCIA E TECNOLOGIA (IBICT)
MILTON SHINTAKUINSTITUTO BRASILEIRO DE INFORMAÇÃO EM CIÊNCIA E TECNOLOGIA (IBICT)
TAINÁ BATISTA DE ASSISINSTITUTO BRASILEIRO DE INFORMAÇÃO EM CIÊNCIA E TECNOLOGIA (IBICT)
WASHINGTON L. R. DE CARVALHO SEGUNDOINSTITUTO BRASILEIRO DE INFORMAÇÃO EM CIÊNCIA E TECNOLOGIA (IBICT)
RONNIE FAGUNDES DE BRITOINSTITUTO BRASILEIRO DE INFORMAÇÃO EM CIÊNCIA E TECNOLOGIA (IBICT)
2
INTRODUÇÃO
Biblioteca Digital Brasileira de Teses e Dissertações (BDTD)
Integra, em um só portal de acesso aberto, os sistemas de informação de teses e dissertações existentes nas instituições de ensino e pesquisa brasileiras e por brasileiros que defenderam no exterior.
3
BIBLIOTECA DIGITAL BRASILEIRA DE TESES E DISSERTAÇÕES (BDTD)
A BDTD utiliza as tecnologias Open Archives Initiative (OAi) e adota o modelo baseado em padrões de interoperabilidade.
Processo de funcionamento da BDTD há dois atores principais:
- provedores de dados: administra o depósito e a publicação expondo os metadados para a coleta automática (harvesting).
- provedores de serviços: fornece serviços de informação com base nos metadados coletados junto aos provedores de dados.
4
PROBLEMAS
provedores de dados: sistemas heterogêneos que operam
com diversos formatos de metadados;
Falta de normalização no preenchimento de campos nos
metadados;
Falta de preenchimento de campos requeridos.
5
OBJETIVOS
Apresentar os resultados de avaliação dos metadados
descritivos da BDTD passíveis de normalização;
Apresentar algoritmos desenvolvidos para melhoria da
qualidade dos dados agregados.
6
METODOLOGIA
Coleta de metadados provenientes de diversos tipos de
sistemas de gestão de teses e dissertações, via protocolo
Open Archives Initiative - Protocol Metadata Harvesting
(OAI-PMH).
Utilização de feramentas e técnicas para aplicação de
filtros para determinar variações, erros de preenchimento
e normalização de campos.
7
ESTRUTURA
COLETADOR/ AGREGADOR
REPOX
CrosswalksMapeamentos
– Filtros –Normalização
XSTL
MTD2- BR
DC
DIM
MARCXML
Outros
Harvesting
8
MTD2- BR
DC
DIM
MARCXML
Outros
COLETADOR/ AGREGADOR
REPOXHarvesting
CrosswalkMapeamentos
– Filtros –Normalização
XSTL
Portal de Busca
Consolidada
Metadados normalizados
Provedores de Serviços –
NDLTDRCAAP
LA ReferenciaPrimo Central
Metadados DC e ETD-MS normalizados
ESTRUTURA
9
EXEMPLO MAPEAMENTO DE DC.TYPE
<dc:type>Mestre
</ dc:type >
< dc:type >Mestrado
</dc:type >
<dc:type >Dissertação</dc:type ><dc:type>
master</dc:type>
<dc.type>masterThesis
</dc.type >
XSLT
Diretrizes DRIVER
10
EXEMPLO MAPEAMENTO DE DC.LANGUAGE<dc:language>
pt_BR</dc:language>
<dc:language>Português
</dc:language>
<dc:language>PT
</dc:language><dc:language>
por</dc:language>
<dc.language>por
</dc:language>
Diretrizes DRIVER - ISO 639-3
XSLT
11
EXEMPLO DE MAPEAMENTO
dc.publisher.program
dc.publisher.departament
dc.type
Alguns casos, o campo dc.type não está preenchido.
12
EXEMPLO DE MAPEAMENTO
dc.publisher.programdc.type
dc.publisher.cnpq
XSLT
13
RESULTADO(S) E DISCUSSÃO
104 provedores de dados desenvolvidos com tecnologias
diversas. Destaca-se
SISTEMA QUANTIDADE
TEDE 84
DSpace 15
OPAC 1
Outros 4
14
RESULTADO(S) E DISCUSSÃO
Interoperabilidade: sistema de coleta de diversos
esquemas de metadados
ESQUEMA DE METADADOS
QUANTIDADE
MTD(2)-BR 92
DIM 6
RDF 5
MARCXML 1
15
RESULTADO(S) E DISCUSSÃO
Provedores de dados são analisados separadamente;
Registros coletados são convertidos automaticamente
para o padrão adotado pela BDTD;
Aplicação de Crosswalks;
XSLT (Extensible Stylesheet Language Transformations);
Viabiliza-se maior flexibilidade à rede;
16
RESULTADO(S) E DISCUSSÃO Mapeadores e filtros – algoritmos de normalização:
• Padronização de campos como: idioma, tipo do documento, grau e instituição de defesa.
• Filtragem e tratamento de campos com variação como: Grau, tal como: Mestre, mestrado, mestrado em <nome do programa>.
• Instituição de defesa; • Campos como tipo de documento e idioma também sofreram
transformações de conteúdo para que se alinhassem às orientações das diretrizes DRIVER.
17
RESULTADO(S) E DISCUSSÃO
Desenvolvimento de ferramentas que ajustaram os dados
coletados;
O processo permitiu uma melhor acurácia dos dados
coletados;
Assim, completou todo ciclo que visa alcançar
refinamento da qualidade dos dados na base consolidada.
18
CONCLUSÕES
Necessidade de processamento para melhoria da
qualidade de dados em redes heterogêneas, composta
por sistemas que operam com formatos de metadados
diferentes.
O processo adotado na presente pesquisa encontra apoio
no estudo de Stupmf e McDonnell (2004), que indica como
possível solução para problemas de acurácia de
metadados o uso de ferramentas automatizadas.
19
CONCLUSÕES
Infraestrutura, possibilitando uma maior
flexibilização aos provedores de dados, mas
também o tratamento da informação.
Com isso, torna-se mais eficaz a melhoria da
disseminação da informação.