Workshop sobre algumas funcionalidades do Open Refine

Preview:

Citation preview

Open RefineGestão da Informação / UFG

Contatos:

marcelf@gmail.com

Link: marcelferrante.com.br/openrefine.pdf

Adaptado de Training the Trainers for Linked Data

Seth van Hooland, Ruben Verborgh

http://dcevents.dublincore.org/IntConf/dc-2015/paper/view/403/435

Workshop

Tratamento e manipulação

de dados

Open Refine

Gestão da Informação

UFG

{

}Gestão da Informação / UFG

O que é e para que serve?

• OpenRefine (anteriormente Google Refine) é uma

ferramenta poderosa para trabalhar com dados

desorganizados

• Serve para:

• Limpar, corrigir, clusterizar, filtrar, navegar pelo dados

• Transformar em um formato para outro

• Estender os dados com serviços de web

• Relacionar com bases de dados como Freebase

{

}Gestão da Informação / UFG

Historia

• Foi lançado em 2010

• É fruto da aquisição da empresa Metaweb que tinha o

software Freebase Gridworks que foi renomeado

• Posteriormente foi transformado em um software livre e

renomeado para

{

}Gestão da Informação / UFG

Instalação

Baixar o software:

http://openrefine.org/download.html

Descompacte e clique para rodar

{

}Gestão da Informação / UFG

Alocação de memória para maior

desempenho

Windows : open openrefine.l4j.ini file, find the line that starts with -

Xmx and override the default allocated memory of 1024M with for

example 2048 M

Mac : close Refine, hold control and click on its icon, selecting Show

package contents from the pop-up menu. Open the info. plist file

from the Contents folder. Navigate to the Java settings and edit the

value of VMOptions. Look for the part that starts with -Xmx and

change its default value of 1024 M to the desired amount of memory

Linux: instead of starting OpenRefine with ./refine as you usually

would do, just type in ./refine -m 2048M

APOS ALTERAR FECHE E REINICIE

{

}Gestão da Informação / UFG

Importar dataset

Conjuntos de dados:

http://book.freeyourmetadata.org/chapters/3/powerhouse-

museum.tsv

http://book.freeyourmetadata.org/chapters/4/british-library.csv

{

}Gestão da Informação / UFG

Importar dataset

{

}Gestão da Informação / UFG

Criar Projeto

{

}Gestão da Informação / UFG

Criar Projeto

{

}Gestão da Informação / UFG

Descrição da Interface

{

}Gestão da Informação / UFG

Filtros

Permite que você digite algo para buscar os registros

que contem aquela string naquele campo

{

}Gestão da Informação / UFG

Facetas

Voce seleciona uma faixa de valores em Numeric Facet

{

}Gestão da Informação / UFG

Facetas

Voce seleciona uma opção em Text Facet para filtrar

{

}Gestão da Informação / UFG

Facetas

Clique para ordenar por

count

Isso permite que você

descuba quais são as

opções mais usadas

Pode ser para fazer algumas

inferências

{

}Gestão da Informação / UFG

Campos com multipos valores Veja que a faceta de Categorias não está fazendo muito sentido (parece

embaralhada). Isso é porque é um campo com múltiplos valores.

Campos com multipos valores (geralmente separados por um delimitado

como virgulas) que podem ser desmebrados com o recurso abaixo.

{

}Gestão da Informação / UFG

Campos com multipos valores

Existem campos com multipos valores (geralmente separados por um delimitado

como virgulas) que podem ser desmebrados com o recurso abaixo

Note que a quantidade de registros duplicou e que linha em branco foram

adicionada: esse é a forma com que é tratado registro com múltiplos valores

{

}Gestão da Informação / UFG

Modo records

Para continuar vendo os registros, clique em ver no Modo records. O numero de

registro deve ser o mesmo do que estava anteriormente

{

}Gestão da Informação / UFG

Limpando os dados

Carregue phm-collection.tsv, crie um novo projeto e depois

uma faceta numérica

Veja que tem 118 registros em branco

{

}Gestão da Informação / UFG

Limpando os dados

Remova todos os registros em branco

{

}Gestão da Informação / UFG

Limpando os dados

Remova todos os registros em branco

{

}Gestão da Informação / UFG

Facetas customizadas

Um exemplo é a faceta de tamanho do texto.

{

}Gestão da Informação / UFG

Limpando os dados

Removendo registros com error

{

}Gestão da Informação / UFG

Limpando os dados

Removendo registros com error

{

}Gestão da Informação / UFG

Contraindo as colunas

{

}Gestão da Informação / UFG

Clusterizando

Mescle categorias com variações na escrita

{

}Gestão da Informação / UFG

Reconciliação dos dados

Reconciliação dos dados permite que vincular e

validar as categorias com uma outra fonte que

pode ser:

uma fonte externa

um arquivo

{

}Gestão da Informação / UFG

RDF Refine

Baixar extensão: http://refine.deri.ie/

Certifique-se de "extensões" existe pasta no seu Google Refine

Baixe a extensão

Extraia o arquivo zip baixado para a pasta "extensões"

Reinicie o Google Refine

{

}Gestão da Informação / UFG

Reconciliação dos dados

{

}Gestão da Informação / UFG

Reconciliação dos dados

{

}Gestão da Informação / UFG

Reconciliação dos dados

{

}Gestão da Informação / UFG

Reconciliação dos dados

{

}Gestão da Informação / UFG

Reconciliação dos dados

{

}Gestão da Informação / UFG

Importar dataset em CSV

Conjuntos de dados:

http://book.freeyourmetadata.org/chapters/3/powerhouse-

museum.tsv

http://book.freeyourmetadata.org/chapters/4/british-library.csv

{

}Gestão da Informação / UFG

Importar dataset em CSV

{

}Gestão da Informação / UFG

Importar dataset em CSV

{

}Gestão da Informação / UFG

Carregar em uma biblioteca digital

Após o tratamento dos dados, o objetivo é usar

os metadados em um biblioteca digital

Será o utilizado o tainacan para exemplificar o

processo

Acessar tainacan.gi.fic.ufg.br

Criar uma coleção, facetas e importar o arquivo

{

}Gestão da Informação / UFG

Importar

CSV

{

}Gestão da Informação / UFG

Importar

CSV

{

}Gestão da Informação / UFG

Importar

CSV

{

}Gestão da Informação / UFG

Importar

CSV