MANUAL DE USO DO VANTAGEPOINT€¦ · Manual de uso do VantagePoint – v.1 – Outubro 2014 Página 8 dados abstratos" que realmente não contêm o texto integral dos documentos,

MANUAL DE USO DO VANTAGEPOINT

Versão 1

São Paulo Outubro

2014

Manual de uso do VantagePoint – v.1 – Outubro 2014 Página 1

TRADUÇÃO ADAPTADA DO VANTAGEPOINT HELP (Search Technology, Inc.) ELISABETH ADRIANA DUDZIAK – DT/SIBi SIBELE FAUSTO – DT/SIBi RUBENILDO OLIVEIRA DA COSTA – FO

UNIVERSIDADE DE SÃO PAULO Reitor: Prof. Dr. Marco Antonio Zago Vice-Reitor: Prof. Dr. Vahan Agopyan SISTEMA INTEGRADO DE BIBLIOTECAS DA USP DEPARTAMENTO TÉCNICO Mariza Leal de Meirelles Do Coutto GRUPO DE ESTUDOS BIBLIOMÉTRICOS APLICADOS DO SIBiUSP ELISABETH ADRIANA DUDZIAK – DT/SIBi - (Coordenação) SIBELE FAUSTO – DT/SIBi ROSELI MATSUDA – DT/SIBi EIDI RAQUEL FRANCO ABDALLA – FM STELA DO NASCIMENTO MADRUGA - FMVZ RUBENILDO OLIVEIRA DA COSTA – FO GIRLEI APARECIDO DE LIMA - FZEA IRENE LUCINDA – ICMC GRACIELLI PEPE – IFSC DANIEL JORGE CAETANO - DT/SIBi RICARDO AMARAL DE FARIA – DT/SIBi TARCISIO PEREIRA – DT/SIBi


SUMÁRIO

1 INTRODUÇÃO.............................................................................................................. 3 2 ACESSO REMOTO AO COMPUTADOR VANTAGEPOINT.............................................. 4 3 MINERAÇÃO DE DADOS.............................................................................................. 5 3.1 Obtenção de dados de pesquisa................................................................................. 5 4 VANTAGEPOINT: ESTRUTURA E FUNCIONALIDADES.................................................. 7 4.1 Conhecendo o VantagePoint...................................................................................... 10 4.2 Importando dados...................................................................................................... 19 5 TRATAMENTO DE DADOS........................................................................................... 30 5.1 Definições................................................................................................................... 30 5.2 Tratamento de dados: organização (Listas, Grupos e Matrizes)................................ 39 5.2.1 Criação de Listas......................................................................................................... 39 5.2.2 Criação de Grupos e Matrizes..................................................................................... 41 5.3 Limpeza de dados....................................................................................................... 47 5.3.1 Aplicação da List Cleanup........................................................................................... 47 5.3.2 Aplicação do Thesaurus.............................................................................................. 63 REFERÊNCIAS........................................................................................................................... 64


1 INTRODUÇÃO

O software VantagePoint (VP) é uma importante ferramenta de mineração e análise de

dados que agora está disponível aos bibliotecários e técnicos do Sistema de Bibliotecas

da USP (SIBiUSP) por meio de acesso remoto a computadores virtuais especialmente

preparados para utilização desse aplicativo. Por meio dele, será possível realizar

análises e estudos relacionados à produção científica da USP, produção docente,

produção de teses e dissertações, análise de coleções, análises temáticas, bem como

análises de tendências de pesquisa. Desta forma, as equipes do SIBiUSP podem

contribuir para a gestão das atividades e dos produtos de pesquisa da Universidade de

São Paulo.

Este Manual de Uso do VantagePoint é um instrumento de apoio às equipes do

SIBiUSP elaborado pelo Grupo de Estudos Bibliométricos Aplicados, apresentando o

passo a passo para operar o Software VP, que está disponível para facilitadores de

todas as bibliotecas do sistema USP através de acesso remoto mediante senha. Aqui

são explicitados os procedimentos para o Acesso remoto ao computador

VantagePoint e a conduta para se operar o software. O fluxo de operação do

VantagePoint segue basicamente 3 etapas: Mineração de dados, Tratamento de

dados e Análise de dados. A Mineração de dados, ou prospecção de dados (Data

Mining) constitui-se de procedimentos para a exploração e descoberta de informações

relevantes em grandes conjuntos de dados, através da atribuição de padrões para sua

recuperação, agregando os dados recuperados em conjuntos (Clustering) para sua

posterior verificação e validação. O Tratamento de dados é etapa indispensável para a

validação do conjunto de dados recuperados, constituindo-se de procedimentos

detalhados para a limpeza e certificação desses dados, excluindo-se as anomalias e

redundâncias e mantendo os dados relevantes que atendam às necessidades

informacionais que se apresentam para a análise. Por fim, a Análise de dados é a etapa

que permite a descoberta de conhecimento sobre os dados recuperados, explicitando

os resultados da análise através de recursos visuais: tabelas, gráficos, mapeamentos,

etc. Este Manual trata da Mineração de Dados e do Tratamento de Dados. A Análise de

dados é abordada através de aplicações em casos reais das bibliotecas do sistema,

sendo documentada em tutoriais na Plataforma Wiki criada para o VantagePoint,

também disponível a todas as bibliotecas da USP.

Esclarecemos ainda que este Manual de Uso do VantagePoint é um guia geral,

elaborado para consulta rápida aos tópicos básicos para operar o software

VantagePoint, com o objetivo de ser útil às equipes do SIBiUSP em suas análises e

estudos sobre a produção científica da Universidade. Para descrições mais detalhadas

relacionadas ao uso do aplicativo em bases de dados específicas, a consulta deve se

reportar aos tutoriais disponibilizados pelo Grupo de Estudos Bibliométricos Aplicados

do SIBiUSP na Plataforma Wiki do VantagePoint e ao guia do VantagePoint original

disponível no aplicativo, na aba Help.


2 ACESSO REMOTO À MÁQUINA VIRTUAL - VANTAGEPOINT

Passo a passo para realizar a conexão Na tela inicial do seu computador:

a) Clique em Iniciar

b) Clique em Todos os Programas

c) Clique em Acessórios

d) Clique em Conexão de Área de Trabalho Remota

e) Uma caixa de conexão remota será aberta. Digite o número do IP de sua

máquina. Ex: 123.456.122.222:12990

f) Digite seus dados de usuário. Ex: vdi.sibi.usp.br\123456

g) Outra caixa se abrirá. Digite seu número USP. Ex: 123456

g) Conectar

i) Uma tela aparecerá solicitando confirmação de conexão. Aceitar.

Na máquina virtual estão disponíveis os Diretórios M e N.

O Diretório M é uma área comum a todos que contém os arquivos de dados das Bases 03 e 04

do Dedalus e o filtro xml MARC.

O Diretório N é a área de cada usuário.


3 MINERAÇÃO DE DADOS

A mineração de dados é um processo de duas etapas:

3.1) Obtenção de dados de pesquisa

3.2) Importação de dados – é descrita na seção 4 desse Manual (VantagePoint:

estrutura e funcionalidades)

3.1 Obtenção de dados de pesquisa

Para realizar a obtenção de dados, o pesquisador deve ter clareza sobre seus objetivos

e sobre o universo em que a análise será realizada. A descrição precisa de sua

estratégia de busca definirá o foco de sua pesquisa e diminuirá o risco de serem

gerados ruídos (anomalias e redundâncias) nos dados.

O primeiro passo para uma eficiente obtenção de dados consiste na definição dos

conceitos a serem recuperados. Em seguida, ocorre a seleção da base de dados ou

bases de dados que possuem as informações relevantes à pesquisa.

Selecionada a base de dados, a estratégia de busca deve ser definida a partir do

Diagrama de Venn (intersecção de círculos), que está embasado na lógica booleana

(OR, NOT, e AND), que é utilizada na maioria dos motores de busca. Use o operador OR

para ampliar uma pesquisa e trazer novos conceitos. Use o operador NOT para excluir

conceitos irrelevantes. Use o operador AND para restringir uma pesquisa por meio da

intersecção de dois ou mais temas.

A maioria das bases de dados textuais adota motores de busca que utilizam lógica

booleana e sintaxe especial. A pesquisa avançada permite restringir a busca de modo a

estabelecer um foco mais preciso.

A execução de uma pesquisa por dados eficaz inclui:

Fase 1: Descrição do(s) objetivo(s) de sua pesquisa

Fase 2: Conceitos e delimitações:

Defina os conceitos que a busca deve cobrir.


a. Comece com as palavras-chave que descrevem os conceitos. Observe que as

bases de dados em geral adotam o idioma inglês. Considere também que as

palavras-chave podem ser frases.

b. Pense em possíveis sinônimos e/ou grafias diferentes.

Escolha uma ou mais bases de dados para empreender as buscas.

Pense em outros delimitadores que possam ser necessários:

a. Qual é o período de pesquisa que se quer cobrir? Datas?

b. Quais tipos de publicação você quer delimitar? Artigos? Teses?

c. Em quais idiomas os artigos devem estar? Inglês? Português? Francês?

Fase 3: Obtenha os registros e salve-os em formato compatível com o VantagePoint.

(Ex: .txt, .xml, etc ).

Finalmente, após realizar a pesquisa em determinada base de dados, os registros

recuperados devem ser salvos no computador.


4. VANTAGEPOINT – ESTRUTURA E FUNCIONALIDADES

Nessa seção descrevemos a estrutura e as funcionalidades do software VantagePoint.

O VantagePoint é projetado para uso em campos com texto delimitado

Campos – Fields - toda base de dados se organiza a partir de campos delimitados, o

que significa que a informação é organizada a partir de campos como autor, título e

palavras-chave.

É importante entender os diferentes tipos de informações com os quais as bases de

dados normalmente trabalham. Tais campos podem ser divididos em campos de

conteúdo, campos de identidade, campos de edição, campos de descritor e campos

administrativos.

Campo delimitado – Delimited Fields: delimitado significa que cada campo tem um

marcador que indica onde começa e onde termina. Nem todos os campos de texto são

delimitados. Por exemplo, quando vemos um endereço, implicitamente sabemos que

as linhas representam um nome, endereço, e cidade/estado. No entanto, não há nada

que identifique explicitamente cada parte do endereço. O VantagePoint precisa de

delimitadores para identificar corretamente a informação e ler cada campo.

Texto: o VantagePoint funciona melhor em texto simples (.txt). Isso é importante

porque muitos formatos de arquivos contêm dados de não-texto. Por exemplo, uma

imagem incorporada em um documento não pode ser vista com um editor de texto.

Da mesma forma, o tipo de letra e informações de margem na maioria dos formatos

de documento aparece como jargão no bloco de notas. O VantagePoint às vezes pode

extrair objetos vinculados, como fotos, mas o formato de texto simples continua a ser

o formato de arquivo preferencial para análise pelo aplicativo.

Campos de conteúdo

Os campos de conteúdo são o cerne de um registro. Esta é a informação, geralmente

escrita em frases, do que o autor está tentando transmitir. Uma vez que são escritos

especificamente para as pessoas, os computadores geralmente têm mais dificuldade

com estes campos e devem recorrer ao processamento de linguagem natural (NLP), a

partir de algoritmos, para dar sentido a ela.

Título (Title) – este campo apresenta a descrição de uma linha do conteúdo. Sua

utilidade varia de acordo com a complexidade do tema e a habilidade do autor.

Resumo (Abstract) – geralmente elaborado em um único parágrafo. A maioria

dos bancos de dados de patentes e de literatura que usamos são "bancos de


dados abstratos" que realmente não contêm o texto integral dos documentos,

apenas um resumo e talvez um link para o texto completo.

Corpo do texto – o conteúdo intelectual do registro. Geralmente escrito em

parágrafos e, por vezes, intercalado com tabelas e figuras, o texto pode conter

uma grande quantidade de informações tangenciais, não diretamente relevantes.

Campos de Identidade

Estes campos se referem à identidade do autor. Partindo-se da premissa de que a

atividade de publicar indica perícia, esses campos podem lhe dar uma ideia de quem

são e onde estão os especialistas.

Autor/Inventor (Author/Inventor) – os nomes do autor ou autores. A maioria das

pesquisas terá vários autores, mas o nome do investigador principal geralmente

é o primeiro da lista.

Afiliação/Cessionária da Patente (Affiliation/Patent Assignee) – a instituição

primária associada à pesquisa. Alguns bancos de dados listarão múltiplas

afiliações (para autores de várias origens institucionais), mas a maioria apresenta

apenas uma afiliação.

Campos de Publicação

Estes campos descrevem onde a pesquisa foi originalmente publicada. Enquanto

patentes e relatórios de defesa (teses e dissertações) são obtidas diretamente do

banco de dados, a maioria dos bancos de dados que usamos apresentam registros

publicados em periódicos ou apresentados em congressos.

Periódico/Título da Conferência (Journal/Conference title) – o nome da revista

ou conferência na qual a pesquisa foi publicada originalmente.

Informação de Prioridade (Priority Information) – onde e quando a obra foi

originalmente elaborada. Mais comum em patentes.

País de Publicação (Country Publication) – Na literatura aponta a

internacionalização e em patentes aponta onde a empresa está buscando a

proteção de patentes.

Data da Publicação (Publication date) – Este campo pode ser usado para separar

o que é recente e detectar as tendências ao longo do tempo.

Tipo de Documento (Document type) – registro da tipologia documental: artigos

de periódico, trabalhos de evento, teses, ou outros tipos de publicação.


Campos de descritor

Estes campos descrevem a pesquisa utilizando termos ou taxonomias descritivas.

A maioria dos registros terá vários descritores.

Palavras-chave (keywords) – os campos de palavras-chave ou de frases-chave são

utilizados para descrever o tema da pesquisa. Os termos podem ser controlados

ou não controlados. Termos controlados, como aparecem no campo de descritor,

são geralmente atribuídos por indexadores profissionais que trabalham para o

provedor do banco de dados (MEDLINE, DeCS, INSPEC, Pascal, etc.). Eles são

geralmente consistentes, tanto em relação ao significado, quanto à aparência

(ortografia, as abreviações, plurais, etc.). Termos não controlados, quando

aparecem no campo identificador, são fornecidos pelo autor da pesquisa. Muitas

vezes são altamente técnicos e específicos para a investigação, em vez de

descrever um tópico mais amplo. Esteja ciente de que termos não controlados

podem ser muito inconsistentes no modo como são apresentados.

Campos de PLN (NLP fields) – o VantagePoint pode usar o PLN (Processamento

de Linguagem Natural) para extrair palavras e frases, criando listas a partir de um

campo de conteúdo. Uma vez extraídas, estas listas podem ser usadas como

descritores adicionais. Como a lista é de termos quase completamente

descontrolados, não pode ser usada para obter uma ideia rápida sobre um

conjunto de dados. No entanto, uma vez que se tem uma ideia dos descritores

que se procura, as palavras e frases de PLN podem ser pesquisadas por termos

semelhantes. Isso permite encontrar registros que podem estar relacionados a

um termo, mesmo que o termo não tenha sido usado como um descritor formal.

Códigos de Classificação (Classification Codes) – Muitos provedores de banco de

dados desenvolveram taxonomias para classificar e agrupar seus registros. O

número de categorias e subcategorias depende da amplitude de temas incluídos

no banco de dados. Por exemplo, o sistema de código de classe do INSPEC é

relativamente pequeno, uma vez que abrange apenas física, eletrônica e

computação. O sistema de Classificação Internacional de Patentes (IPC) é enorme

porque classifica uma ampla gama de tecnologias.

Código de Tratamento de Dados (Treatment Code) – Alguns bancos de dados da

literatura atribuem um código de tratamento indicando se um registro se refere

a uma pesquisa prática, experimental ou teórica.


Campos de Admin

Finalmente, a maioria dos bancos de dados tem alguns campos que se relacionam com

a administração do recurso e não com o conteúdo do registro.

Copyright – Este campo informa o detentor dos direitos da propriedade

intelectual contida no registro. Por vezes, o distribuidor de dados acrescenta o

seu próprio direito de autor, para além do fornecedor de dados.

Números de adesão (Accession numbers) – Este é um número ou código único

para cada registro em um banco de dados. Como os direitos de autor, o registro

pode ter o seu próprio número único (um número de patentes, por exemplo) e

outro atribuído pelo fornecedor de banco de dados.

4.1 Conhecendo o VantagePoint

Ao abrir o VantagePoint, será exibida a tela principal, com o grupo de guias e

comandos na parte superior, chamado Faixa de Opções, e uma Área de Trabalho

central, que exibe uma caixa de diálogo, a partir da qual é possível escolher qual

método de importação ou tipo de arquivo de dados se deseja utilizar (Fig. 1). Antes de

iniciar a importação de dados, você deve conhecer mais detalhes sobre esse layout.

Fig. 1 – Tela principal e área de trabalho do VantagePoint

Cancele a Caixa de diálogo e utilize a Faixa de Opções superior, a partir das Guias. Na

parte superior (Faixa de Opções), existe uma série de guias, semelhantes a uma “aba

de fichário”. Para acessar uma guia, basta mover o cursor do mouse sobre a opção e

dar um clique nela. São exibidas dez guias básicas: File, Edit, View, Sheets, Fields,

Groups, Tools, Scripts, Window e Help. A partir delas, é possível acessar diferentes

grupos e comandos que o programa oferece. Cada guia apresentará um tipo de

atividade ou orientação que pode ser aplicada ao seu trabalho.


Abaixo das Guias, são apresentados botões de comando relacionados às atividades. Os

comandos são ferramentas que modificam o conteúdo existente em seu trabalho. São

utilizados para inserir informações ou abrir um menu com mais comandos.

Fig. 2 – Guias e Comandos do VantagePoint

Abrindo um arquivo

Quando houver necessidade de importar ou utilizar dados e tabelas, clique em File na

Faixa de Opções. Você também pode abrir um arquivo de dados a partir da caixa de

diálogo exibida na abertura do programa.

Fig. 3 – Guia File: exibe as opções de importação de arquivos de dados

Quando o usuário inicia a utilização do VantagePoint a partir de um arquivo

importado, a Guia Edit fica desabilitada.

Fig. 4 – Guia Edit: exibe as opções de edição

Guias Comandos


Fig. 5 – Guia View: exibe os modos e janelas de exibição

Descrição das funcionalidades da guia View:

Toolbar – exibe as opções da barra de comandos

Status bar – apresenta o status do programa

Workbook – permite visualizar o conteúdo da janela central de trabalho

Analyst’s Guide – permite visualizar no canto inferior esquerdo a janela do guia do

analista do VantagePoint

Title Window – permite visualizar no canto superior esquerdo a janela que exibe a lista

de títulos de arquivos de dados

My keywords – permite visualizar no canto direito a janela que exibe as palavras-chave

Detail Windows – fornecem detalhes dos registros selecionados em determinada linha

da janela central Summary - Sumário de dados, com todos os registros e campos

importados

Add Detail Window – permite adicionar janelas de detalhes

Reset to Default – restabelece o modo de exibição original do software


Fig. 6 – Guia Sheets: exibe as opções de cruzamento de dados e listas de dados

Fig. 7 – Guia Fields: exibe as opções relativas aos campos dos registros


Fig. 8 – Guia Tools – Exibe ferramentas de edição e customização

Descrição das funcionalidades da guia Tools:

Data Fusion- permite a fusão de dados

Record Fusion – permite a fusão de registros importados de diferentes bases de dados

Combine Duplicate Records – permite a combinação de registros duplicados

Remove Duplicate Records – permite a remoção de registros duplicados

Record Classifications – classificação de registros

Import Filter Editor – ferramenta de edição de filtros

Thesaurus Editor – ferramenta de edição de listas limpas consolidadas

Fuzzy Editor – ferramenta de edição de dados

Options – permite customizar exibição de dados

Customize Toolbar – permite customizar a barra de ferramentas

Edit Keyboard Shortcuts – ferramenta para atalhos

Detail Window Colors – permite editar as cores dos gráficos gerados


Fig. 9 – Guia Scripts – exibe opções de geração de gráficos e exportação de dados

Opções principais da guia Scripts:

Aduna Cluster Map – permite criar, a partir de cruzamento de dados, visualização de

resultados na forma de mapa de agrupamentos (Fig. 8).

Fig. 10 – Exemplo de Aduna Cluster Map de patentes


Buble Chart – permite criar, a partir de cruzamento de dados, visualização de

resultados na forma de gráfico de bolhas (Fig. 11)

Fig. 11 – Exemplo de gráfico de bolhas relacionando afiliação e data de publicação

Company Activity Gantt – Gráfico de atividades das companhias

Fig. 12 – Exemplo de Diagrama de Gantt que ilustra o avanço de patentes atribuídas em determinado

período de tempo

Company Profile Scatter – Diagrama de dispersão ou de espalhamento por empresas.

Também pode ser utilizado em outras demonstrações para análise de dados (Fig. 13).


Fig. 13 – Exemplo de Gráfico de dispersão ou espalhamento

World Map – exibe o mapa-múndi com destaque para dados filtrados (Fig. 14)

Fig. 14 – Exemplo de World Map de acordo com prioridade de patentes por país

A guia Help fornece auxílio para uso e funções do VantagePoint


Fig. 15 – Obtenha informações sobre o VantagePoint na guia Help

Utilize a tecla F1 para obter ajuda quanto ao uso e as funções do VantagePoint (Fig.16).

Fig.16 – Help do VantagePoint (clique em F1)


4.2 Importando dados

É possível importar três tipos de arquivos de dados:

a) Opção 1 - arquivo contendo dados brutos (.txt, .xml, etc.) com uso de filtro de

importação

b) Opção 2 - arquivo de tabelas (excel, access, etc)

c) Opção 3 - arquivo de dados em xml

Nota: Caso a caixa "Não perguntar novamente" (Don’t show this dialog box again)

esteja marcada, qualquer que seja o método escolhido torna-se o padrão para futuras

importações de dados.

a) Opção 1 - Importar arquivo de dados brutos (uso de filtro de importação)

Fig.17 – A opção de importação de dados brutos com uso de filtro – Import Raw Data File (Use Import Filter) - foi selecionada. Clicar em OK.


Outra forma de importar dados é clicar em File, na opção desejada (Fig. 18)

Fig. 18 – Opção na guia File para seleção de dados a serem importados

Ao selecionar essa opção, automaticamente inicia-se a Etapa 1 do Assistente de Importação. No canto superior esquerdo da tela, uma caixa de diálogo será aberta solicitando a escolha do arquivo a ser importado (Select Files), conforme Fig. 19.

Fig. 19 – Etapa 1 – início da importação de dados – caixa de diálogo para seleção de arquivo

Ao clicar em Select Files, outra caixa de diálogo será aberta para que se selecione o arquivo a ser carregado de seu computador.


A seguir são apresentados dois exemplos de importação de dados

No exemplo 1, foi utilizado um arquivo de dados obtido da base Web of Science (WoS), conforme a Fig. 20.

Fig. 20 - Seleção do arquivo obtido a partir de pesquisa realizada na Web of Science (WoS)

Caso necessite “baixar” uma sequência de arquivos, selecione todos e clique em Abrir (Fig. 21)

Fig. 21 - Seleção de vários arquivos obtidos a partir de pesquisa realizada na Web of Science (WoS)


Ao clicar em Abrir, o arquivo será selecionado e a caixa de diálogo do VantagePoint exibirá parcialmente o formato dos dados na janela (Fig. 22).

Fig. 22 - Exibição do arquivo selecionado da Web of Science com formato parcial de campos exibido no quadrante inferior

Basta seguir a sequência clicando em Next. Na Etapa 2 serão apresentadas as opções de filtros de importação de dados instalados. Escolha a opção de filtro ISI–WOS (Fig. 23).

Fig. 23 – Seleção do filtro de importação adequado à leitura dos registros da Web of Science (ISI-WoS)


Para prosseguir, clique em Next. A Etapa 3 exibe os campos dos registros a serem importados (Fig. 24). É possível assinalar a opção de importar todos os campos (Show all fields).

Fig. 24 - Etapa 3 - Lista de campos a serem importados

Para finalizar a importação de dados, clique em Finish. Neste momento será exibida no canto superior direito uma figura de carregamento de dados, abaixo da qual será possível visualizar a barra de porcentagem de carregamento (Fig.25) abaixo.

Fig. 25 – Processo de carregamento de dados importados


Após o carregamento de dados, será exibido o Summary - Sumário de dados da pesquisa realizada na WOS, com todos os registros e campos importados (Fig. 26).

Fig. 26 - O sumário de dados é exibido na parte central da tela

No exemplo 2, foi utilizado um arquivo de dados obtido no Dedalus.

Fig. 27 – Seleção do arquivo obtido a partir de pesquisa no Dedalus a ser carregado para o VantagePoint


Ao selecionar o arquivo e clicar em abrir, a caixa de diálogo do VantagePoint exibirá parcialmente o formato dos dados (Fig.28).

Fig. 28 – Exibição do arquivo selecionado com formato parcial de campos exibidos no quadrante inferior da caixa de diálogo

Basta seguir a sequência clicando em Next. Na Etapa 2 serão apresentadas as opções de filtros de importação de dados disponíveis. Tendo importado o filtro MARC, o mesmo aparecerá automaticamente na lista de opções de filtro.

Caso tais opções de filtros não atendam aos requisitos do arquivo carregado, clique na opção Select New Filter Directory.

Fig. 29 – Exibição das opções de filtro disponíveis e escolha pela opção Select New Filter Directory

Ao clicar nesta opção, o sistema abrirá uma caixa de diálogo a partir da qual será possível importar um filtro armazenado em seu computador.


b) Opção 2 – Importar dados de uma Tabela (Excel, Access, etc)

Fig. 30 – Opção de importação de Tabela foi selecionada

Se você escolher a opção Importar Tabela de banco de dados, uma caixa de diálogo permitirá escolher a fonte de dados (pelo nome do arquivo ou por procura do local. Quando o arquivo é localizado e selecionado, clicar em Abrir ou clique duas vezes no nome do arquivo).

Se há mais um arquivo a ser importado, será exibida a caixa "Selecione Informações para Importar". Faça as seleções e pressione OK. Um Resumo aparecerá. Continue com a Etapa 5 (veja Importar Tabela do banco de dados no guia do VantagePoint para obter mais detalhes e informações importantes sobre esta função).

Fig. 31 – Selecione o arquivo em Excel a ser importado para o VantagePoint


Fig. 32 – Após seleção, clique em OK para baixar o arquivo Excel

Fig. 33 - Janela para importação de Planilha específica


Fig. 34 - Janela para importação de Planilha específica – clique em OK

Após a importação dos dados da Tabela Excel, será exibido o Sumário de dados (Summary) na janela central do VP (Fig. 35).

Fig. 35 – Sumário de dados obtidos de tabela Excel


c) Opção 3 – Importar dados em xml

Fig. 36 - Janela para seleção de importação de arquivo em xml

A importação de dados de arquivos em xml segue o mesmo procedimento dos

arquivos em tabelas excel descrito anteriormente.


5. TRATAMENTO DE DADOS

Para proceder ao tratamento de dados com o VantagePoint, é necessário definir

alguns conceitos.

5.1 Definições

O que é um Arquivo (File) ou Conjunto de dados (Data Set)

Um arquivo VantagePoint (.vpt) contém todos os requisitos para um dado conjunto de

documentos. A criação e uso de um arquivo VantagePoint é ilustrado no diagrama a

seguir (Fig. 37):

Fig. 37. Diagrama da criação e uso de um arquivo VP

O usuário consulta uma base de dados bibliográficos e recebe dados bibliográficos

brutos, sem tratamento. Quando um arquivo de dados bibliográficos brutos é

importado para o VantagePoint, o pré-processador analisa o texto da seguinte

maneira:

a. Primeiro, o texto é dividido em registros individuais. Um registro é o maior

segmento individual de informações no arquivo. Um arquivo de dados brutos é

composto por vários (dezenas, centenas, ou talvez milhares) registros, cada um dos

quais tem uma estrutura similar.

b. Então, o pré-processador divide cada registro em campos. Para a maior parte, cada

registro contém a mesma estrutura de campo (por exemplo, título, autores, palavras-

chave, resumo, etc.). Em raras ocasiões, um registro pode estar sem algum campo

específico.

c. Em seguida, o pré-processador divide os campos de texto (por exemplo, o resumo e

o título) em palavras ou frases, e cria um novo campo para cada um deles (por

exemplo, palavras do título, palavras do resumo e frases do resumo).


d. Finalmente, o pré-processador cria uma base de dados sobre todos os conteúdos

dos campos para todos os registos. Por exemplo, se a palavra "química" é encontrada

em pelo menos um registro, então a palavra "química" é inserida no banco de dados,

ligando essa palavra a todos os registros que contém "química".

O que são registros ou campos?

A forma mais básica de dados brutos no VantagePoint é um registro bibliográfico. Em

bases de dados bibliográficos, um registro consiste em um único resumo de um artigo

científico ou documento técnico, juntamente com a informação associada (por

exemplo, o título, os nomes dos autores, a afiliação do autor principal, a data de

publicação, etc.). Cada tipo de informação no registro é um campo. A Figura 38 mostra

uma ilustração de um único registro bibliográfico, onde os campos são: autores

[Arthor(s) AU], afiliação institucional [Affiliation AF], título [Title TI], revista [Journal

JN], data [Date DA], etc. Em muitos casos, os campos entregues pelo motor de busca

bibliográfica contêm mais do que um "pedaço" de dados. Na figura abaixo, as áreas

destacadas no texto ilustram como o VantagePoint analisa alguns dos campos do

registro para um maior nível de detalhe:

Fig. 38. Destaques em um texto mostrando como o VP analisa os campos do registro


A seguir são mostradas algumas funcionalidades do VP relacionadas ao gerenciamento

dos Arquivos (Files), bem como seu desdobramento em Listas (Lists) e Grupos (Groups)

Arquivos (Files)

Importando campos adicionais

1. Na guia do menu principal, selecione Campos (Fields) e no menu dropdown, selecione

Importar Mais Campos (Import More Fields)

2. Na janela do lado direito da caixa de diálogo Choose Database and Fields (Escolha

Banco de Dados e Campos), selecione os campos que deseja importar e clique em OK

(Se nenhum campo for mostrado, marque a caixa "Show All Fields").

Fig. 39. Escolha de conjunto de registros e campos

Nota: O software VantagePoint (versão 3.0 e posteriores) contêm as definições prévias

de bases de dados, aplicando-as quando um arquivo de dados brutos é originalmente

importado através do filtro para uma base de dados específica (ex: WoS, PubMed).

Cada registro no arquivo .vpt é associado a uma dessas definições originais da base de


dados, elencando seus campos e mostrado-os na janela do lado esquerdo – que é

desativada durante a função Importação (Import). O VP usa o arquivo de definições

internas do banco de dados associado a cada registro, a fim de analisar os campos

desse registro.

Caixas de verificação (checkboxes) da importação de campos adicionais de uma

determinada base de dados:

- Importação de nota editável (Import from Editable Note): Use o texto das "Notas

sobre este registro" - Notes about this Record (ver em Exibição de Registro – Record

Display) como entrada para a importação de um campo adicional (ao invés da

importação do registro bruto).

- Importação de campo existente (Import from Existing Camp): Use o texto de um

campo existente como entrada para importação como campo adicional (ao invés da

importação do registro bruto).

Nota: Tanto para Importação de nota editável (Import from Editable Note) e

Importação de um campo existente (Import from Existing Camp), o filtro de

importação incorporado no VantagePoint deve conter os comandos de análise para o

novo campo.

Propriedades do Conjunto de dados (Dataset Properties)

As Propriedades do Conjunto de Dados (Dataset Properties) são acessadas a partir do

menu principal: Arquivo (File) e Propriedades do Conjunto de Dados (Dataset

Properties)

Fig. 40. Propriedades do arquivo de registros


Há duas guias nessa caixa de diálogo: Propriedades do Conjunto de Dados (Dataset

Properties), que descreve as características do conjunto de dados, e as Dependências

Externas (External Dependencies), que lista os arquivos externos que o conjunto de

dados utiliza nas planilhas de browser do VP.

Na guia Propriedades do Conjunto de Dados (Dataset Properties) é possível:

- Definir o Idioma da Base de Dados (Database Language), selecionando o idioma de

escolha na caixa Linguagem da Base de Dados (Database Language)

- Visualizar o Título de Campo (Title View Field): Selecionando o campo a ser usado

para preencher a janela de Visualização do Título (Title View). Este atributo é

normalmente definido no momento da importação. Pode-se selecionar qualquer

campo como o título Ver Campo (View Field); no entanto é recomendado usar apenas

os campos com valor único (ou seja, campos para o qual cada registro tem um e

somente um valor).

- Caminho para dados do tipo "Link": Os campos com dados do tipo "Links" contém os

nomes de arquivos associados a um registro. Os dados do campo são links para

páginas da web (URL) ou nomes de arquivos com o caminho do arquivo. Quando o

usuário clica no item de dados na Visualização de Registro em Campo (Fielded Record

View), o VP lança a aplicação associada ao nome do arquivo no link. Exemplos desse

tipo de arquivo: links da Internet (por exemplo, .htm, .html), Imagens (por exemplo,

.jpg, .bmp), Documentos (por exemplo, .pdf, .doc), Planilhas (por exemplo, .xls), e links

de intranet (por exemplo, .ndl).

Alterar Filtro de Importação (Change Import Filter) - Clique nesse botão para:

- Alterar os filtros de importação (também conhecidos como configurações da base de

dados - database configurations) que estão salvos nos arquivos .vpt importados pelo

VantagePoint (versão 3.0 e posteriores).

Para saber mais, consulte Alterar as Configurações de Banco de Dados (Changing

Database Configurations in a VantagePoint file no guia do VantagePoint).

- Mudar a Visualização de um registro (Field Order for Record View ): Clique neste

botão para mudar a forma como os registros são exibidos na Visualização de Registro

em Campo (Fielded Record View). Isso leva à seguinte caixa de diálogo (dados

mostrados apenas ilustrativos - qualquer nome de campo do conjunto de dados pode

ser mostrado):


Fig. 41. Alterando a ordem dos campos nos registros

Para incluir um campo na Visualização de um registro (Field Order for Record View),

clique em On na caixa de seleção ao lado do nome do campo, ou clique em Off para

não mostrar o campo desejado. Para alterar a ordem em que os campos são

apresentados em Field Order for Record View (Visualização de um registro), clique no

nome do campo e use as setas para cima e para baixo para mover os nomes dos

campos (ou clique e arraste o nome do campo). Clique em OK para salvar as alterações

e retornar à caixa de diálogo Dataset Properties (Propriedades do Conjunto de Dados).

- Search Strategy (Estratégia de Pesquisa): Muitos provedores de dados colocam sua

estratégia de busca no início do conjunto de dados brutos. O VP salva a parte do

conjunto de dados brutos que ocorre antes do primeiro registro na janela de Search

Strategy das Propriedades do Conjunto de Dados (Dataset Properties). É possível editar

o conteúdo da janela Search Strategy para manter outras anotações sobre o conjunto

de dados brutos, como por exemplo a data da pesquisa.

- Comments: Dataset Properties (Comentários: Propriedades do Conjunto de Dados): é

uma seção de comentários onde pode-se digitar qualquer informação adicional que se

deseje manter com o arquivo (por exemplo, história do processamento ou tesauro

criado e utilizado a partir do conjunto de dados).


External Dependencies (Guia Dependências externas)

A partir da versão 6.0 do VP, os arquivos de dependência externa usados pelo browser

do VP podem ser automaticamente incorporados ao arquivo de dados .vpt. Incorporar

esses arquivos de dependência elimina a necessidade de agrupar o arquivo externo

.jpg ou .png ao compartilhar o arquivo .vpt com outros usuários do VP ou no

VantagePoint Reader.

Uma vez que os arquivos de dependência externa são incorporados no arquivo .vpt, o

arquivo externo permanecerá no disco de origem até que seja apagado.

Na guia External Dependencies é possível:

- Verificar o status de arquivos selecionados (Check Status for Selected File) / de todos

os arquivos (Check Status for All Files ): ao clicar estes botões o VP faz a verificação da

presença dos arquivos externos que o conjunto de dados utiliza no browser do VP.

- Localizar um arquivo selecionado (Localize Selected File): leva à caixa de diálogo

Localizar arquivos (Localize Files) que permite reestabelecer a relação na planilha do

browser do VP.

- Incorporar arquivos selecionados (Embed Selected Files): Incorpora o arquivo de

dependência selecionado no arquivo de dados .vpt. Se a operação for bem sucedida, o

"status" do arquivo mudará de "OK" para "incorporado".

- Copiar da lista de arquivos para a área de transferência (Copy File List to Clipboard):

Copia a lista de arquivos de dependência para a área de transferência para que possa

ser colado em outro aplicativo (por exemplo, no bloco de notas ou no Excel).

- Remover dependência selecionada (Remove Selected Dependency): Remove a

dependência do browser no arquivo. Isso só deve ser usado se há certeza que o

browser não precisa do arquivo. Uma caixa de diálogo de confirmação aparece antes

de remover a dependência.


Fig. 42. Guia de dependências externas nas propriedades do conjunto de dados

Criando um subconjunto de dados (Sub-dataset):

Pode-se extrair uma parte de um conjunto de dados aberto para um novo conjunto de

dados, menor. O novo conjunto de dados pode ser extraído usando grupos ou itens

selecionados de uma lista, e irá conter todos os registros com qualquer um dos itens

selecionados de uma lista (ou qualquer um do grupo selecionado).

1. Na tela principal de trabalho (Main Workspace), selecione a guia da planilha para a

lista ou matriz a ser usada para criar o novo conjunto de dados. Se um grupo estiver

definido para a extração, vá para a etapa 2. Caso nenhum grupo esteja definido, crie

uma seleção, destacando os itens da lista (linhas, colunas ou células) para ser usado

para criar o novo conjunto de dados. Se os itens da lista são consecutivos, você pode

"clicar e arrastar" para destacar todos os itens a serem usados. Caso contrário, use a

tecla Ctrl e clique em vários itens.

2. No menu principal (Main Menu), selecione File e Create sub-Dataset (Criar Sub-

conjunto de dados), ou pressione Ctrl + N no teclado.


Fig. 43. Criação de sub-conjunto de dados

3. A caixa de diálogo Create Sub-dataset é exibida.

4. Crie o novo conjunto de dados a partir de um Grupo (Group - se o conjunto de dados

contém grupos), de uma Seleção (Selection), ou de todos os registros (All Records).

5. Se você selecionar Grupo, selecione o grupo que você deseja usar como base para

extrair o subconjunto de dados. Você pode navegar a estrutura hierárquica dos grupos

clicando duas vezes sobre os tipos de lista para expandir ou recolher os nomes de

grupo (Para mais informações sobre grupos, consulte a seção de Grupos no guia do

VantagePoint).

Selecione Normal ou Complementar. Resultados "Normais" na criação de um

subconjunto de dados são compostos pelos registros ou grupo selecionado.

"Complemento" exclui o grupo ou registros selecionados e cria um subconjunto de

dados usando todos os outros registros.

Se o conjunto de dados contém registros marcados por omissão (veja Gravar Display),

eles serão omitidos do subconjunto de dados se esta caixa permanece marcada.


O número de registros que serão criados no subconjunto de dados é exibido acima da

janela onde os nomes do grupo aparecem.

Clique em OK para iniciar o processo de extração.

Dependendo do tamanho do conjunto de dados, a extração pode demorar alguns

instantes. Sabe-se que o processo está completo quando um Resume View (Ver

Resumo) do novo conjunto de dados é exibido no Main Workspace (janela central de

trabalho).

5.2 Tratamento de dados: organização (Listas, Grupos e Matrizes)

5.2.1 Criação de Listas

Após a importação do arquivo de registros bibliográficos, o VP apresenta o Summary

(Fig. 44), localizado na janela central de trabalho (Main Workplace), que exibe

informações indispensáveis para criação de listas.

Fig. 44. Informações no Summary

As principais informações exibidas são:

1. No cabeçalho (destacado em vermelho na figura acima): o campo Number of Records

exibe a quantidade de registros importados. Além disso, o campo Source File exibe a

localização do arquivo armazenado no computador. Sugere-se nominar tal arquivo

com informações definidas na estratégia de busca, por exemplo:

“4.802_WoS_art_USP_2012_20140326”, que significa o resultado de 4.802 registros

Cabeçalho

do do

Summary


da base de dados Web of Science a partir dos delimitadores Tipo de publicação (artigo

científico), Instituição (USP), ano (2012) e data da busca (26/03/2014).

2. Nas colunas abaixo do cabeçalho: a primeira apresenta os nomes dos campos dos

registros. Como exemplo, o campo Countries (Author...) foi selecionado na figura

acima, que exibe na segunda coluna Number of Itens o total de diferentes itens

existentes naquele campo (=110), enquanto que a coluna % Coverage apresenta a

porcentagem de cobertura, isto é, todos os 4.802 registros possuem itens no campo

Countries (Author...), 100%.

Depois de entender a abrangência dos campos e registros do arquivo, inicia-se então a

criação de listas, bastando apenas clicar duas vezes no campo do Summary que deseja

listar ou no Comando .

A lista apresenta todos os itens de um campo em ordem de ocorrência decrescente,

conforme figura abaixo.

Fig. 45. Exemplo de Lista e suas Detail Windows

Na figura acima, uma lista a partir do campo Countries (Author...) é apresentada. Nela,

identifica-se o item USA na segunda linha com 694 ocorrências, de acordo com a

coluna # Records (número de registros que contém determinado item). Na coluna

seguinte # Instances, exibe a frequência do item, ou seja, quantas vezes o item aparece

no conjunto de registros. Nesse caso, o item USA aparece 6.944 vezes no conjunto de

4.802 registros.

Detail Windows

Title V

iew


Por outro lado, no momento que a linha é selecionada, aparecerão as Detail Windows -

janelas do lado direito da janela central de trabalho, conforme indicado na figura

acima.

As Detail Windows fornecem detalhes dos registros selecionados em determinada

linha da janela central, no caso da figura acima, informações dos campos Journal e

Research Area da linha 2, item USA. Ou seja, listam todos os periódicos e áreas de

pesquisa dos 694 registros com afiliação USA.

As Detail Windows fornecem informações não só em formato de lista, como

exemplificado da figura, mas também em formato de gráfico. Para isso, é necessário

clicar com o botão direito do mouse na frente da Detail Window, depois em Show

Chart para escolher o tipo de gráfico. Esse também é o mesmo processo para criar

novas Detail Windows com campos diferentes.

Além disso, o VP apresenta outra janela do lado oposto das Detail Windows,

denominada Title View, conforme destacado em vermelho na figura acima, à E. A Title

View exibe os títulos dos registros da linha selecionada na janela central.

A partir da Title View é possível selecionar vários registros usando Ctrl-clique e Shift-

clique e botão direito do mouse em determinado(s) título(s) da lista; um menu será

exibido com as seguintes opções:

- View Records: Exibe o registro do título selecionado.

- Copy Title Names: Copia a seleção para a área de transferência.

- Select All: Seleciona todos os títulos.

- Create Sub-Dataset from Selection: Cria um sub-arquivo de registros.

- Omit Selected Records From New Dataset: Marca registro(s) para a omissão na

criação de um novo arquivo de registros.

- Don’t Omit Selected Records From New Datasets: Remove a marcação de um registro

previamente marcado para omissão.

- Classify Records: Permite que o usuário atribua uma classificação para um registo ou

registos.

5.2.2 Criação de Grupos e Matrizes

Os itens de uma lista podem ser marcados como membros de um grupo. Os grupos são

úteis na criação de matrizes de co-ocorrência e de um novo arquivo de registros, como

demonstrados a seguir.


A criação de grupos começa a partir de uma lista. Na figura abaixo, a lista do campo

“Countries” é apresentada como exemplo para criação de grupos.

Fig. 46. Criando Grupos

Após seguir a seguinte sequência na Guia: Group > Edit Groups > Add, surgirá a caixa

de diálogo Create Group, como demonstrado no centro da figura acima. Digite o nome

do grupo e clique em OK. Logo após, clique em Add para criar os demais grupos; ao

finalizar, clique em Close.

Os grupos podem ser visualizados em forma de colunas, conforme figura abaixo.

Fig. 47. Identificando Itens em Grupos

Grupos


Como demonstrado na figura acima, foram criados os seguintes grupos: USA, América

Latina, BRICS e Outros. Com isso, é possível identificar os Países que pertencem a tais

grupos. Cada país deverá ser adicionado ao grupo a qual pertence, clicando na coluna

do grupo. Como observado no exemplo acima, existem três marcações no grupo

América Latina, que são os países Argentina, Chile e México.

Nesse momento, já é possível criar a matriz de co-ocorrência (Co-occurrence matrix),

clicando na Guia Sheets, depois em Add Matrix ou o Comando .

Fig. 48. Criando Matriz de co-ocorrência a partir de Grupos

Na caixa de diálogo Create Matrix, selecione no campo Countries All Items para

determinar as linhas (Rows) da Matriz e em Select Groups/Show Groups para

determinar suas colunas (Columns), e clique em OK.

Após essa função, a matriz de países e seus grupos aparecerá, conforme figura abaixo.


Fig. 49. Exemplo de Matriz de co-ocorrência

É possível obter 2 entendimentos principais a partir da Matriz, como por exemplo:

1- Na primeira linha (Brasil), percebe-se que das 4.790 publicações (coluna Records), o

Brasil publicou 683 com os EUA, 318 com a América Latina e 248 com os BRICS (Grupo

político de cooperação, formado por os países Brasil, Rússia, Índia, China e África do

Sul).

2- Na terceira linha, percebe-se que o Brasil publicou 200 trabalhos com a França e EUA,

142 com a França e América Latina, e 168 com a França e os BRICS. Essa análise pode

ser realizada com os demais países da lista.

Outros entendimentos também podem ser obtidos ao selecionar qualquer linha ou

célula da Matriz e observando as Detail Windows, conforme figura abaixo.


Fig. 50. Exemplos de análises a partir das Detail Windows

Na figura acima, foi selecionado a linha 15 da Matriz, correspondente ao país Rússia

com 171 publicações em colaboração com o Brasil. Além disso, destacaram-se três

Detail Windows: Countries, Number of Countries e Research Area.

1- Countries: países com publicação em colaboração com o Brasil e Rússia - a França com

147, os EUA com 146, e no final, a Itália com 128. Isso demonstra que existe uma forte

colaboração na produção científica desses países, pois existe pouca diferença na

quantidade de publicações de cada país.

2- Number of Countries: número de países com colaboração em cada publicação. No

gráfico, percebe-se a maior coluna com mais de 60 artigos nos quais estão envolvidos

39 países, ou seja, 39 países publicaram, juntos, mais de 60 artigos. Isso evidencia

novamente uma forte colaboração, pois 60 artigos representam aproximadamente 1/3

do total de publicações, 147.

3- Research Area: apresenta, por fim, qual é a área de pesquisa dominante na forte

colaboração científica evidenciada nas análises anteriores. No caso, a área de Física

lidera com 153 publicações do total.

Por fim, é preciso informar ainda que a Matriz de co-ocorrência pode ser criada

também a partir de somente um campo, sem o uso de grupos. Porém, essa ação pode

gerar uma Matriz com um grande número de células, linhas e colunas, dificultando a

compreensão da mesma.

De qualquer forma, exemplificamos abaixo o processo de criação de uma Matriz criada

a partir de um único campo (Research Area).

Countries

N. of Countries

Research Area


Fig. 51. Criando matriz de co-ocorrência a partir de campos

Ao clicar em OK, a Matriz de co-ocorrência a partir de um único campo é criada,

conforme figura abaixo.

Fig. 52. Exemplo de matriz de co-ocorrência a partir de campo

Conforme mencionado anteriormente, a Matriz criada a partir de um único campo

gerou um excesso de informações com 138 linhas e colunas. No exemplo, as células

tracejadas que cortam transversalmente a Matriz são desconsideradas, pois tratam-se

do mesmo termo já que a análise é de um único campo.

Contudo, ainda é possível extrair alguma informação dessa Matriz utilizando os

recursos das Detail Windows.

Ao selecionar a célula que cruza os termos Psychiatry e Neurosciencies/Neurology

(linha 18 com a coluna 8), conforme destacado na Figura acima, verificamos nas Detail

Tal processo é praticamente o mesmo

apresentado anteriormente, mas com

uma única diferença: seleciona-se

igualmente o campo Research Area em

Rows e Columns, como destacado na

Figura ao lado.


Windows o comportamento de produção científica dessas áreas, nas quais o Brasil não

tem preferência por publicar somente com um país (Countries); na maioria das vezes,

publica sozinho (Number of Countries); e que quando publica nessas áreas, costuma

incluir também a área de Pharmacology/Pharmacy (Research Area).

Tendo em mente que o VP trabalha com dados brutos extraídos de bases de dados (os

arquivos – files, ou conjunto de dados – data set), separando os dados obtidos em

registros em campos específicos, a etapa seguinte é a limpeza desses dados.

5.3 Limpeza de dados

5.3.1 Aplicação da List Cleanup

A função List Cleanup do VantagePoint reduz e/ou limpa uma lista. Usar o List Cleanup

não afeta a lista original, pois o VP cria uma nova lista de cada vez.

O VP limpa uma lista tentando identificar os itens que podem ser equivalentes. Por

exemplo, os termos “interação humano-computador" e "Interação Humano

Computador" aparecerão como itens separados em uma lista (por causa do hífen entre

"humano" e "computador" em um dos termos). Os algoritmos da List Cleanup

selecionam este termo, bem como plurais e erros de ortografia simples. Além disso, o

VP pode identificar equivalentes tais como J. Smith, James Smith e Smith, J.,

apresentando essas possíveis equivalências para sua confirmação.

1. Para limpar uma lista, abrir a caixa de diálogo List Cleanup (Main Menu Field e List

Cleanup).

Fig. 53. Limpeza de dados a partir da função List Cleanup


2. As listas (ou campos) em seu conjunto de dados são mostradas na parte superior

esquerda da caixa de diálogo List Cleanup. Selecione a lista que deseja limpar.

3. No lado direito da caixa de diálogo, encontrar o módulo de limpeza que você deseja

usar. Os módulos de limpeza geralmente estão localizados em uma pasta chamada

"fuzzy" na pasta de instalação VantagePoint (por exemplo, C:\Arquivos de programas\

VantagePoint\Fuzzy). O módulo de limpeza "fuzzy" especifica regras e parâmetros que

norteiam o processo de correspondência de um termo para outro. Quando você clica

em um arquivo .fuz , uma descrição do módulo Fuzz aparece na janela na parte inferior

da caixa de diálogo.

4. Na caixa New Field, o VP atribui um nome para a nova lista que será criada, mas é

possível digitar outro nome, se desejar.

5. Usando a opção Confirm Changes (Confirmar alterações), é possível confirmar as

mudanças sugeridas pelo List Cleanup ou permitir que as mudanças ocorram sem

confirmação. A operação padrão é marcar na caixa de seleção (marcar para confirmar

as alterações). Para grandes listas a criação da caixa de diálogo Confirm Cleanup pode

levar mais tempo (veja abaixo).

6. Selecione Verify Matches/another Field (Verificar itens/outro campo), se você quiser

definir uma condição tal que os termos são considerados itens e são combinados

somente quando o conjunto de registros com cada termo contém dados

correspondentes em outro campo (escolhido pelo usuário). Clique em Setup

Verification button (botão de verificação de configuração), se você marcou esta caixa e

a caixa de diálogo Choose Field (Escolher Campo) aparecerá.


Fig 54. Escolha do campo para verificação (no exemplo acima, selecionou-se o campo Corporate Source)

Na caixa de diálogo Choose Field (Escolher campo), escolha o campo que você deseja

usar para verificar os itens mostrados pela List Cleanup. Ao clicar na caixa Use Fuzzy

Match, você pode verificar se os itens estão em concordância com outros itens de

verificação. Clique em OK e volte para a caixa de diálogo List Cleanup (Figura 53 acima–

etapa 1).

7. Se a sua lista original tem grupos, escolha como você gostaria de preservar esses

grupos na nova lista, pois a limpeza de uma lista combina dois ou mais itens da lista

original em um único item na nova lista gerada. Se as associações de grupo dos itens

das listas (original e nova lista) discordarem, é preciso escolher quais item deverão ser

mantidos na nova lista.

8. Em Resolving Indeterminate Group Tags (Resolvendo um grupo Indeterminado de

tags)

- Mark neutral: deixará a associação de grupo (ou exclusão) do novo item da lista

gerada em branco, se houver qualquer divergência entre os itens da lista original e da

nova lista gerada.


- Based on record count (Baseado na contagem de registros): decide a inclusão no

grupo (ou exclusão) com base em um "voto" do número de registros incluídos (ou

excluídos) usando os itens da lista original.

- Mark include (Marcar incluir): incluirá (através da marcação check) o novo item da

lista no grupo se algum dos itens da lista original estão incluídos nesse grupo.

9. Clique em Use para limpar a lista.

O VP pode demorar alguns instantes na procura de itens da lista e sugerir

equivalentes. Quando concluído, se você marcou a caixa Confirm Changes (Confirmar

alterações), aparece a caixa de diálogo Confirm Cleanup (Confirmar Limpeza. Veja o

tópico Confirmação de Limpeza de Lista (Confirm List Cleanup) para as próximas

etapas. Se a caixa Confirm Changes não for marcada, aparecerá a List Cleanup – a lista

já limpa.

Confirmação de limpeza de Lista (List Cleanup Confirmation)

Esta é a caixa de diálogo para confirmar as operações de limpeza da lista (List Cleanup).

Aqui você pode aceitar, alterar ou excluir as operações de limpeza da lista sugeridas

pelo VP. Nenhuma operação está realmente executada na lista até que você clique no

botão Accept (Aceitar). A qualquer momento, antes de aceitar, você pode salvar a

sessão e retomar mais tarde. Veja salvar a sessão de limpeza (Saving the Cleanup

Session) no guia do VantagePoint para mais detalhes.

Fig. 55. Confirmação de limpeza da lista


A maior parte da caixa de diálogo mostra potenciais equivalências encontradas pelos

algoritmos do VP. Existem dois níveis de itens de lista mostrados aqui - os nomes de

grupo/conjuntos ou outras formas de nomeação [sinônimos] (ao lado dos sinais "+" ou

"-") e os itens da lista fonte potencialmente equivalentes, que aparecem abaixo de

cada nome em outra forma quando o agrupamento é expandido.

Os nomes de grupo/conjuntos podem ser classificados em ordem alfabética, clicando

no cabeçalho Item Name (Nome do item). Alternativamente, os grupos/conjuntos

podem ser classificados por número de registros, clicando no cabeçalho Number of

Records (N. de Registros). Para uma ordem de classificação reversa, é só clicar no

cabeçalho novamente.

O número de registros (Number of Records) é o total de cada agrupamento. A

contagem de registros de cada item da lista-fonte no agrupamento acrescenta-se ao

grupo/conjunto total.

Expanding/Collapsing groups (Expandir/Colapsar grupos): clicando no sinal de "+" na

caixa à esquerda de um item da lista, pode-se expandir o grupo/conjunto de

equivalências sugeridas. Para recolher o agrupamento, basta clicar no sinal "-".

É possível clicar e arrastar um item de um grupo para outro.

Quando se clica com o botão direito do mouse sobre um item da lista, aparece um

menu pop-up. Alguns dos itens do menu serão desativados ao longo do tempo, porque

eles não são apropriados para certas operações. O menu pop-up tem as seguintes

seleções:

- Find (Localizar): Exibe a caixa de diálogo Find (Localizar). Também através do atalho

Ctrl + F.

- Select All (Selecionar tudo): Seleciona todos os itens apresentados. Também através

do atalho Ctrl + A.

- Create New Grouping (Criar Novo Agrupamento): Cria um novo grupo/conjunto,

começando com o item destacado (ungrouped - não agrupado) da lista. Esta ação é

ativada se todos os itens da lista estão exibidos (consulte Display All Items - Exibir

todos os itens, abaixo) e clicando com o botão direito do mouse em um item da lista

não agrupada (sem um "+" ou "-"). Também através da tecla Insert (Inserir).

- Remove Term from Grouping (Remover Termo de Agrupamento): Remove o item

destacado da lista fonte do agrupamento. O item da lista fonte é removido do grupo e

muda-se para o nível principal. Também pode ser removido usando a tecla Delete

(Deletar).

- Rename Term (Renomeie Termo): Abre o nome do grupo/conjunto para edição.

Também através do atalho Ctrl + R.


- Make this item the Group Name (Faça este item o nome do grupo): Faz com que o

item destacado da lista fonte seja o nome do grupo/conjunto. Também através do

atalho Ctrl + N.

- Delete Grouping (Excluir Agrupamento): Apaga o agrupamento. Os itens da lista de

fonte são movidos para o nível principal. Também pode ser apagados com a tecla

Delete.

- Cut (Corte): Corta o grupo/conjunto destacado da árvore da lista. Quando utilizado

em combinação com Paste (Cole - ver abaixo), é uma maneira conveniente para alterar

itens da lista-fonte. Depois de cortar um agrupamento ou item, o texto aparece como

cinza e permanece em seu lugar até que seja colado em outro lugar. Se você aceitar a

limpeza de lista antes de colar, o item permanece em seu local (ou seja, a List Cleanup

faz um "Uncut" – sem cortes, antes de completar a limpeza de lista). Também através

do atalho Ctrl + X.

- Uncut (Sem cortes): Após uma operação de Cut (Corte), isso restaura o agrupamento

ou a lista de itens de origem para a posição de antes do corte. Também através do

atalho Ctrl + Z.

- Paste (Colar): Após uma operação de Cut, coloca o grupo/conjunto lista de itens de

origem cortado para o grupo/conjunto em destaque. Também através do atalho Ctrl +

V.

- Collapse All Items (Recolher todos os itens): Altera a exibição para ocultar todos os

itens da lista de origem e mostrar apenas os nomes de grupo/conjunto.

- Expand All Items (Expandir todos os itens): Altera a exibição para expandir os grupos

e mostrar os itens da lista de fonte dentro de cada grupo/conjunto.

- Add Item(s) to Custom Set (Adicionar Item (s) no conjunto personalizado): Cria um

"conjunto personalizado de itens" com o item(s) selecionado no display.

- Remove Item(s) from Custom Set (Remover Item(s) do conjunto personalizado):

Remove o(s) item(s) selecionado(s) do conjunto personalizado de itens.

- Remove All Items from Custom Set (Remover todos os itens do conjunto

personalizado): Remove todos os itens do conjunto personalizado de itens.

- Sort (ordenar):

All Itens (Todos os itens): Classifica todos os itens de nível superior (Top-Level

Items) e itens dependentes pelo nome (Siblings – irmãos), ou pelo número de

registros.

Top-Level Items (itens de nível superior): Classifica somente todos os itens de

nível superior, nome ou por número de registros.


- Children of Selected Item (Filhotes do item selecionado): Ordena os itens-filho

dos Top itens por nome ou por número de registros. (Nota: "Children” – filhos,

mudam para “Siblings” (irmãos) ao clique com o botão direito em um item

dentro de um grupo).

- Under Display (Em Exibição): Há três seleções que determinam o que é mostrado na

exibição dos itens:

All itens (Todos os itens): Mostra todos os itens da lista, agrupados e não

agrupados.

Combined Itens – default (Itens combinados - padrão): Mostra apenas os

grupos e itens da lista-fonte que devem ser alterados.

Custom Set of Items (Conjunto de Itens personalizado): Mostra apenas um

conjunto de itens menor, personalizado para limpeza manual ou confirmação

de limpeza.

Under Custom Set of Items (Conjunto personalizado de itens): Há vários controles úteis

para adicionar ou remover itens do conjunto personalizado:

Find Close Matches (%) (Encontre Opções Próximas (%)): Adiciona itens que

correspondem ao item selecionado(s) dentro do percentual de corte

selecionado. A percentagem controla o grau de similaridade necessário para

combinar os itens. Quanto mais baixa a percentagem é, menor o limite de

correspondência. O percentual é alterado usando as setas para cima/para baixo

à direita do botão.

Quando se exibe All Items (Todos os itens) or Combined Items (Itens

combinados), ao clicar em Find Close Matches (Localizar Próxima Opção) reduz-

se os itens exibidos para um conjunto personalizado de itens que

correspondem ao(s) item(s) selecionado(s) dentro do percentual de corte

especificado.

A Figura 56 abaixo mostra um exemplo no modo de exibição Combined Items (Itens

Combinados), onde selecionou-se Maps (Mapas) e a seguir clicou-se em Find Close

Matches (Localizar Próxima Opção). Neste exemplo, o VP mostra que as opções

disponíveis estão em 50%.


Fig. 56. Modo de exibição Combined Items do List Cleanup

No exemplo acima, a exibição muda para um conjunto (sub-set) personalizado de itens

criados como resultado, conforme mostrado na Figura 57 abaixo:

Fig. 57. Confirmando sub-itens da List Cleanup (no exemplo acima, o sub-set criado é denominado Maps)


Quando um conjunto personalizado de itens (Custom Set of Items) é exibido, ao clicar-

se em Add Close Matches (Adicionar Opções Próximas) acrescenta-se itens ocultos do

conjunto que coincidem com o item selecionado(s) dentro do percentual de corte

disponível. No exemplo acima, foi selecionado um item em um conjunto personalizado

e a seguir clica-se Add Close Matches (Adicionar Opções Próximas), conforme abaixo:

Fig. 58. Confirmando itens ocultos

Então, quando se clica em Add Close Matches (Adicionar Opções Próximas), novos

itens ocultos são adicionados ao conjunto personalizado, como mostrado abaixo:

Fig. 59. Exibição de itens ocultos confirmados


Remove All (Remover tudo): Limpa o conjunto personalizado de itens da exibição.

Invert Set (Inverter Conjunto): Oculta os itens exibidos e mostra todos os itens

escondidos.

Find (Procurar): Busca por um termo. Pode-se usar expressões regulares, marcadas na

caixa de diálogo, como na Figura 60 a seguir. Os resultados da busca são exibidos

(pressionando-se Add - adicionar):

Fig. 60. Confirmando sub-itens

Add (Adicionar): Adiciona itens ocultos do conjunto que coincidem com a busca (termo

ou expressão regular) feita no Find.

Remove (Remover): Remove itens do conjunto mostrado que coincidam com a busca

(termo ou expressão regular) feita no Find.

LEMBRETE: A operação de limpeza não é aplicada à lista atual até que se clique em

Accept (Aceitar). A qualquer momento, antes de aceitar, pode-se salvar a sessão e

retomar mais tarde. Veja See Saving the Cleanup Session (Salvar a sessão de limpeza)

no guia do VantagePoint para mais detalhes.

Save as Thesaurus (Salvar como Thesaurus): salva a operação de limpeza como um

dicionário de sinônimos (.the). Isso permite salvar as recomendações e suas operações

de limpeza manual automaticamente, para que se possa usá-los novamente mais tarde

Consulte Applying a thesaurus to a list (Aplicação de um thesaurus a uma lista) na

seção 5.3.2 adiante.


Accept (Aceitar): Quando as alterações/modificações/operações de limpeza estão

prontas , basta clicar em Accept (Aceitar) para mudar o nome de todos os itens da lista

de origem criando uma nova lista.

Cancel (Cancelar): Cancela a operação da List Cleanup. Quaisquer alterações feitas na

caixa de diálogo Cleanup Confirm (Confirmação de Limpeza) serão perdidas (a menos

que a sessão tenha sido salva).

Os itens do menu Cleanup Confirm (Confirmar Limpeza) são mostrados e descritos a

seguir:

Em Cleanup (Limpeza):

Fig. 61. Confirmando limpeza de dados

Save Session to Finish Later (Salve sessão para terminar mais tarde): salva a sessão

para que a mesma possa ser retomada mais tarde. Veja o item Salvando a Sessão de

Limpeza (Saving the Cleanup Session).

Load Saved Session (carrega uma sessão salva anteriormente). Veja Salvando a sessão

de Limpeza (Saving the Cleanup Session).

Save as Thesaurus (Salvar como Thesaurus): salva a operação de limpeza como um

dicionário de sinônimos (.the). Isso permite que você salve as recomendações de

limpeza automática e suas operações de limpeza manual para que você possa usá-los

mais tarde (ver à frente – Aplicação do Thesaurus). Após clicar em Save as Thesaurus, a

caixa de diálogo Save as (Salvar como) lhe permitirá nomear o arquivo .the e colocá-lo

em uma pasta apropriada. Você pode criar um novo arquivo de dicionário de

sinônimos, ou pode mesclar as entradas do dicionário de sinônimos em um arquivo de

dicionário de sinônimos existente. Consulte Managing Multiple Matches in a Thesaurus

(Gerenciamento de várias correspondências em um Thesaurus). Quando terminar de

trabalhar com o dicionário de sinônimos, você é direcionado à caixa de diálogo

Cleanup Confirm para completar (ou cancelar) a operação de limpeza na lista atual.


Em Sets (Conjuntos):

Fig. 62. Selecionando um novo nome

Select New Name Using... (Selecione novo nome usando...):

Most Frequent Name (Nome mais frequente): Atribui o nome ao conjunto/

agrupamento de acordo com a entrada com o maior número de registros.

Longest Name (Nome mais longo): Atribui o nome ao conjunto/agrupamento

de acordo com a entrada com o maior nome.

Shortest Name (Nome mais curto): Atribui o nome ao conjunto/agrupamento

de acordo com a entrada com o menor nome.

Rename sets as I work (Renomeie conjuntos como eu trabalho) - Com base na

seleção Definir Nome (Set Name), renomeia conjuntos tal como o trabalho é

realizado em cada conjunto.

Rename Set Current (Renomeie o conjunto atual): Muda o nome do conjunto

atual com base na seleção Set Name.

Rename all sets (Renomeie todos os Conjuntos): Renomeia todos os conjuntos

com base na seleção Set Name.

Você pode exibir uma Detail Window para o item(s) selecionado(s). Certifique-se de

marcar Show Detail Window (Mostrar Janela Detalhada) e, em seguida, selecione Add

New Detail Window (Adicionar uma nova janela detalhada).

Fig. 63. Mostrar Detail Window

Detail Windows (Janelas Detalhadas): são úteis para verificar manualmente os

resultados de limpeza, pois o analista pode utilizar os dados de co-ocorrência de

outros campos do registro para decidir se uma correspondência apropriada foi feita


(ou se um item não correspondente deve ser adicionado a um grupo, como ilustrado

abaixo).

Qualquer número de Detail Windows pode ser adicionado ao escolher Add New Detail

Window (Adicionar uma nova Janela Detalhada) no menu Detail Windows.

Fig. 64. Conferência a partir das Detail Windows

Salvando a Sessão de Limpeza (Saving The Cleanup Session)

Se não for possível finalizar a limpeza da lista e você deseja retomar a sessão em um

momento posterior, selecione Cleanup (Limpeza) do menu Cleanup Confirm (Confirmar

Limpeza) e Save Session to Finish Later (Salvar Sessão para Terminar Mais Tarde).

Lembrete: Se foi criado um conjunto personalizado de itens, ele não é salvo com a Cleanup Session (Sessão de Limpeza).

Fig. 65. Salvando o List Cleanup


Em seguida, será solicitado a digitar um nome de sessão que você pode recuperar em

um momento posterior e retomar de onde parou.

Fig. 66. Digite o nome para salvar

Clique em OK. Uma caixa de diálogo de confirmação será exibida informando a sua

sessão de limpeza foi salva.

Fig. 67. Clique em OK

Clique em OK. Agora você pode clicar em Cancel na caixa de diálogo Confirm Cleanup e

responda Yes para confirmar - a sessão será guardada para recuperação em um

momento posterior.

Fig. 68. Clique em Cancel

Uma vez que uma sessão está salva, você pode selecionar Resume Saved List Cleanup

(Resumo da Lista Salva) no Main Menu (Menu Principal), item Fields (Campos).


Fig. 69. Resumo da List Cleanup

Você é apresentado com uma lista para escolher a sessão que deseja que seja

retomada. São exibidas as sessões de limpeza criadas com o atual conjunto de dados.

Verificando Show All Sessions (Mostre todas as Sessões), serão exibidas todas as

sessões de limpeza, incluindo aquelas criadas usando outros conjuntos de dados.

Fig. 70. Selecione a seção de limpeza salva

Selecione a sessão e clique em OK. Em seguida, será apresentado à caixa de o diálogo

Confirm Cleanup (Confirmar Limpeza).


Nota: Quando uma sessão de limpeza é retomada e a limpeza é realizada, a sessão não

fica mais disponível para recuperação. Se você quiser usar a sessão no futuro, deverá

salvá-la novamente antes de aceitar a limpeza.

5.3.2 Aplicação do Thesaurus a uma lista (Applying a thesaurus to a list)

Outra função de limpeza de campos (ou Listas) é o Thesaurus, que complementa a List

Cleanup na redução de listas. Um Thesaurus nada mais é do que um dicionário de

sinônimos criado pelo usuário para aplicar a uma lista. Assim como a List Cleanup, a

aplicação do Thesaurus não afeta a lista original, pois é criada uma nova lista.

1 – A partir da tela principal do VP escolha a aba Fields e depois Thesaurus

2 – Os campos são apresentados da parte superior esquerda da caixa de diálogo

Thesaurus. No exemplo abaixo, foi selecionado o campo Countries.

Fig. 71. Aplicando o Thesaurus na redução de lista

3 - No lado direito da caixa de diálogo, selecione o Thesaurus correspondente, no caso

o Country.the.

4 - Os arquivos Thesaurus têm sempre a terminação .the e estão localizados em uma

subpasta chamada "Thesaurus" na pasta de instalação VP:

(C:\ProgramFiles\VantagePoint\Thesaurus).


5 – Logo abaixo na caixa New Field, insira um nome para o novo campo a ser criado.

6 - Marque a caixa Include Unmatched Group Tags para incluir os itens identificados

em um novo campo.

7 – Clique Use para aplicar o Thesaurus. Uma vez que a ação for concluída, uma visão

da nova lista é criada e exibida.

Opções do Thesaurus

Require Exact Match (Exigir correspondência exata): Permite que se especifique o grau

de correspondência em seu novo dicionário de sinônimos. Se optar por Require Exact

Match, então todas as entradas do dicionário de sinônimos que são adicionados serão

codificados para exigir que um item coincida exatamente com a entrada a ser

correspondida (incluindo os espaços em branco à esquerda ou à direita). Se não se

optar por nada, as entradas do dicionário de sinônimos serão codificados para

simplesmente combinar com qualquer item que contenha a entrada do dicionário. Por

exemplo, sem a necessidade de uma correspondência exata, uma entrada do

Thesaurus como "Terra, R." encontraria também a palavra "Auckland, R.".

Prompt to Save before Accepting (Avisar para salvar antes de aceitar): Quando esta

opção for marcada, será solicitado o salvamento da limpeza como um Thesaurus

quando você clicar em Aceitar.

Cancel Cleanup (Cancelar Limpeza): Cancela o processo de limpeza.

Accept Cleanup (Aceitar Limpeza): Executa o processo de limpeza.

Lembrete: A operação de limpeza não é aplicada à lista atual até que você clique em

Aceitar (Accept). A qualquer momento, antes de aceitar, você pode salvar a sessão e

retomar mais tarde. Veja Saving the Cleanup Session para mais detalhes.


REFERÊNCIAS

PORTER, A.; PALOP, F. Mineração de textos para decisões de gestão de pesquisa e

tecnologia - tech mining com a ajuda de software VantagePoint. In: ENCONTRO

BRASILEIRO DE BIBLIOMETRIA E CIENTOMETRIA, 3., Gramado, RS. Anais... Gramado:

UFRGS, 2012. Disponível em: http://www.ufrgs.br/ebbc2012/arquivos/workshop-2

VANTAGEPOINT GUIDE. Norcross, Georgia: Search Technology, 2014.

http://www.ufrgs.br/ebbc2012/arquivos/workshop-2

Documents

MANUAL DE USO DO VANTAGEPOINT€¦ · Manual de uso do VantagePoint – v.1 – Outubro 2014 Página 8 dados abstratos" que realmente não contêm o texto integral dos documentos,