View
223
Download
0
Embed Size (px)
Citation preview
Open RefineGestão da Informação / UFG
Contatos:
Link: marcelferrante.com.br/openrefine.pdf
Adaptado de Training the Trainers for Linked Data
Seth van Hooland, Ruben Verborgh
http://dcevents.dublincore.org/IntConf/dc-2015/paper/view/403/435
Workshop
Tratamento e manipulação
de dados
Open Refine
Gestão da Informação
UFG
{
}Gestão da Informação / UFG
O que é e para que serve?
• OpenRefine (anteriormente Google Refine) é uma
ferramenta poderosa para trabalhar com dados
desorganizados
• Serve para:
• Limpar, corrigir, clusterizar, filtrar, navegar pelo dados
• Transformar em um formato para outro
• Estender os dados com serviços de web
• Relacionar com bases de dados como Freebase
{
}Gestão da Informação / UFG
Historia
• Foi lançado em 2010
• É fruto da aquisição da empresa Metaweb que tinha o
software Freebase Gridworks que foi renomeado
• Posteriormente foi transformado em um software livre e
renomeado para
{
}Gestão da Informação / UFG
Instalação
Baixar o software:
http://openrefine.org/download.html
Descompacte e clique para rodar
{
}Gestão da Informação / UFG
Alocação de memória para maior
desempenho
Windows : open openrefine.l4j.ini file, find the line that starts with -
Xmx and override the default allocated memory of 1024M with for
example 2048 M
Mac : close Refine, hold control and click on its icon, selecting Show
package contents from the pop-up menu. Open the info. plist file
from the Contents folder. Navigate to the Java settings and edit the
value of VMOptions. Look for the part that starts with -Xmx and
change its default value of 1024 M to the desired amount of memory
Linux: instead of starting OpenRefine with ./refine as you usually
would do, just type in ./refine -m 2048M
APOS ALTERAR FECHE E REINICIE
{
}Gestão da Informação / UFG
Importar dataset
Conjuntos de dados:
http://book.freeyourmetadata.org/chapters/3/powerhouse-
museum.tsv
http://book.freeyourmetadata.org/chapters/4/british-library.csv
{
}Gestão da Informação / UFG
Importar dataset
{
}Gestão da Informação / UFG
Criar Projeto
{
}Gestão da Informação / UFG
Criar Projeto
{
}Gestão da Informação / UFG
Descrição da Interface
{
}Gestão da Informação / UFG
Filtros
Permite que você digite algo para buscar os registros
que contem aquela string naquele campo
{
}Gestão da Informação / UFG
Facetas
Voce seleciona uma faixa de valores em Numeric Facet
{
}Gestão da Informação / UFG
Facetas
Voce seleciona uma opção em Text Facet para filtrar
{
}Gestão da Informação / UFG
Facetas
Clique para ordenar por
count
Isso permite que você
descuba quais são as
opções mais usadas
Pode ser para fazer algumas
inferências
{
}Gestão da Informação / UFG
Campos com multipos valores Veja que a faceta de Categorias não está fazendo muito sentido (parece
embaralhada). Isso é porque é um campo com múltiplos valores.
Campos com multipos valores (geralmente separados por um delimitado
como virgulas) que podem ser desmebrados com o recurso abaixo.
{
}Gestão da Informação / UFG
Campos com multipos valores
Existem campos com multipos valores (geralmente separados por um delimitado
como virgulas) que podem ser desmebrados com o recurso abaixo
Note que a quantidade de registros duplicou e que linha em branco foram
adicionada: esse é a forma com que é tratado registro com múltiplos valores
{
}Gestão da Informação / UFG
Modo records
Para continuar vendo os registros, clique em ver no Modo records. O numero de
registro deve ser o mesmo do que estava anteriormente
{
}Gestão da Informação / UFG
Limpando os dados
Carregue phm-collection.tsv, crie um novo projeto e depois
uma faceta numérica
Veja que tem 118 registros em branco
{
}Gestão da Informação / UFG
Limpando os dados
Remova todos os registros em branco
{
}Gestão da Informação / UFG
Limpando os dados
Remova todos os registros em branco
{
}Gestão da Informação / UFG
Facetas customizadas
Um exemplo é a faceta de tamanho do texto.
{
}Gestão da Informação / UFG
Limpando os dados
Removendo registros com error
{
}Gestão da Informação / UFG
Limpando os dados
Removendo registros com error
{
}Gestão da Informação / UFG
Contraindo as colunas
{
}Gestão da Informação / UFG
Clusterizando
Mescle categorias com variações na escrita
{
}Gestão da Informação / UFG
Reconciliação dos dados
Reconciliação dos dados permite que vincular e
validar as categorias com uma outra fonte que
pode ser:
uma fonte externa
um arquivo
{
}Gestão da Informação / UFG
RDF Refine
Baixar extensão: http://refine.deri.ie/
Certifique-se de "extensões" existe pasta no seu Google Refine
Baixe a extensão
Extraia o arquivo zip baixado para a pasta "extensões"
Reinicie o Google Refine
{
}Gestão da Informação / UFG
Reconciliação dos dados
{
}Gestão da Informação / UFG
Reconciliação dos dados
{
}Gestão da Informação / UFG
Reconciliação dos dados
{
}Gestão da Informação / UFG
Reconciliação dos dados
{
}Gestão da Informação / UFG
Reconciliação dos dados
{
}Gestão da Informação / UFG
Importar dataset em CSV
Conjuntos de dados:
http://book.freeyourmetadata.org/chapters/3/powerhouse-
museum.tsv
http://book.freeyourmetadata.org/chapters/4/british-library.csv
{
}Gestão da Informação / UFG
Importar dataset em CSV
{
}Gestão da Informação / UFG
Importar dataset em CSV
{
}Gestão da Informação / UFG
Carregar em uma biblioteca digital
Após o tratamento dos dados, o objetivo é usar
os metadados em um biblioteca digital
Será o utilizado o tainacan para exemplificar o
processo
Acessar tainacan.gi.fic.ufg.br
Criar uma coleção, facetas e importar o arquivo
{
}Gestão da Informação / UFG
Importar
CSV
{
}Gestão da Informação / UFG
Importar
CSV
{
}Gestão da Informação / UFG
Importar
CSV
{
}Gestão da Informação / UFG
Importar
CSV