41
Open Refine Gestão da Informação / UFG Contatos: [email protected] Link: marcelferrante.com.br/openrefine.pdf Adaptado de Training the Trainers for Linked Data Seth van Hooland, Ruben Verborgh http://dcevents.dublincore.org/IntConf/dc-2015/paper/view/403/435

Workshop sobre algumas funcionalidades do Open Refine

Embed Size (px)

Citation preview

Page 1: Workshop sobre algumas funcionalidades do Open Refine

Open RefineGestão da Informação / UFG

Contatos:

[email protected]

Link: marcelferrante.com.br/openrefine.pdf

Adaptado de Training the Trainers for Linked Data

Seth van Hooland, Ruben Verborgh

http://dcevents.dublincore.org/IntConf/dc-2015/paper/view/403/435

Page 2: Workshop sobre algumas funcionalidades do Open Refine

Workshop

Tratamento e manipulação

de dados

Open Refine

Gestão da Informação

UFG

Page 3: Workshop sobre algumas funcionalidades do Open Refine

{

}Gestão da Informação / UFG

O que é e para que serve?

• OpenRefine (anteriormente Google Refine) é uma

ferramenta poderosa para trabalhar com dados

desorganizados

• Serve para:

• Limpar, corrigir, clusterizar, filtrar, navegar pelo dados

• Transformar em um formato para outro

• Estender os dados com serviços de web

• Relacionar com bases de dados como Freebase

Page 4: Workshop sobre algumas funcionalidades do Open Refine

{

}Gestão da Informação / UFG

Historia

• Foi lançado em 2010

• É fruto da aquisição da empresa Metaweb que tinha o

software Freebase Gridworks que foi renomeado

• Posteriormente foi transformado em um software livre e

renomeado para

Page 5: Workshop sobre algumas funcionalidades do Open Refine

{

}Gestão da Informação / UFG

Instalação

Baixar o software:

http://openrefine.org/download.html

Descompacte e clique para rodar

Page 6: Workshop sobre algumas funcionalidades do Open Refine

{

}Gestão da Informação / UFG

Alocação de memória para maior

desempenho

Windows : open openrefine.l4j.ini file, find the line that starts with -

Xmx and override the default allocated memory of 1024M with for

example 2048 M

Mac : close Refine, hold control and click on its icon, selecting Show

package contents from the pop-up menu. Open the info. plist file

from the Contents folder. Navigate to the Java settings and edit the

value of VMOptions. Look for the part that starts with -Xmx and

change its default value of 1024 M to the desired amount of memory

Linux: instead of starting OpenRefine with ./refine as you usually

would do, just type in ./refine -m 2048M

APOS ALTERAR FECHE E REINICIE

Page 7: Workshop sobre algumas funcionalidades do Open Refine

{

}Gestão da Informação / UFG

Importar dataset

Conjuntos de dados:

http://book.freeyourmetadata.org/chapters/3/powerhouse-

museum.tsv

http://book.freeyourmetadata.org/chapters/4/british-library.csv

Page 8: Workshop sobre algumas funcionalidades do Open Refine

{

}Gestão da Informação / UFG

Importar dataset

Page 9: Workshop sobre algumas funcionalidades do Open Refine

{

}Gestão da Informação / UFG

Criar Projeto

Page 10: Workshop sobre algumas funcionalidades do Open Refine

{

}Gestão da Informação / UFG

Criar Projeto

Page 11: Workshop sobre algumas funcionalidades do Open Refine

{

}Gestão da Informação / UFG

Descrição da Interface

Page 12: Workshop sobre algumas funcionalidades do Open Refine

{

}Gestão da Informação / UFG

Filtros

Permite que você digite algo para buscar os registros

que contem aquela string naquele campo

Page 13: Workshop sobre algumas funcionalidades do Open Refine

{

}Gestão da Informação / UFG

Facetas

Voce seleciona uma faixa de valores em Numeric Facet

Page 14: Workshop sobre algumas funcionalidades do Open Refine

{

}Gestão da Informação / UFG

Facetas

Voce seleciona uma opção em Text Facet para filtrar

Page 15: Workshop sobre algumas funcionalidades do Open Refine

{

}Gestão da Informação / UFG

Facetas

Clique para ordenar por

count

Isso permite que você

descuba quais são as

opções mais usadas

Pode ser para fazer algumas

inferências

Page 16: Workshop sobre algumas funcionalidades do Open Refine

{

}Gestão da Informação / UFG

Campos com multipos valores Veja que a faceta de Categorias não está fazendo muito sentido (parece

embaralhada). Isso é porque é um campo com múltiplos valores.

Campos com multipos valores (geralmente separados por um delimitado

como virgulas) que podem ser desmebrados com o recurso abaixo.

Page 17: Workshop sobre algumas funcionalidades do Open Refine

{

}Gestão da Informação / UFG

Campos com multipos valores

Existem campos com multipos valores (geralmente separados por um delimitado

como virgulas) que podem ser desmebrados com o recurso abaixo

Note que a quantidade de registros duplicou e que linha em branco foram

adicionada: esse é a forma com que é tratado registro com múltiplos valores

Page 18: Workshop sobre algumas funcionalidades do Open Refine

{

}Gestão da Informação / UFG

Modo records

Para continuar vendo os registros, clique em ver no Modo records. O numero de

registro deve ser o mesmo do que estava anteriormente

Page 19: Workshop sobre algumas funcionalidades do Open Refine

{

}Gestão da Informação / UFG

Limpando os dados

Carregue phm-collection.tsv, crie um novo projeto e depois

uma faceta numérica

Veja que tem 118 registros em branco

Page 20: Workshop sobre algumas funcionalidades do Open Refine

{

}Gestão da Informação / UFG

Limpando os dados

Remova todos os registros em branco

Page 21: Workshop sobre algumas funcionalidades do Open Refine

{

}Gestão da Informação / UFG

Limpando os dados

Remova todos os registros em branco

Page 22: Workshop sobre algumas funcionalidades do Open Refine

{

}Gestão da Informação / UFG

Facetas customizadas

Um exemplo é a faceta de tamanho do texto.

Page 23: Workshop sobre algumas funcionalidades do Open Refine

{

}Gestão da Informação / UFG

Limpando os dados

Removendo registros com error

Page 24: Workshop sobre algumas funcionalidades do Open Refine

{

}Gestão da Informação / UFG

Limpando os dados

Removendo registros com error

Page 25: Workshop sobre algumas funcionalidades do Open Refine

{

}Gestão da Informação / UFG

Contraindo as colunas

Page 26: Workshop sobre algumas funcionalidades do Open Refine

{

}Gestão da Informação / UFG

Clusterizando

Mescle categorias com variações na escrita

Page 27: Workshop sobre algumas funcionalidades do Open Refine

{

}Gestão da Informação / UFG

Reconciliação dos dados

Reconciliação dos dados permite que vincular e

validar as categorias com uma outra fonte que

pode ser:

uma fonte externa

um arquivo

Page 28: Workshop sobre algumas funcionalidades do Open Refine

{

}Gestão da Informação / UFG

RDF Refine

Baixar extensão: http://refine.deri.ie/

Certifique-se de "extensões" existe pasta no seu Google Refine

Baixe a extensão

Extraia o arquivo zip baixado para a pasta "extensões"

Reinicie o Google Refine

Page 29: Workshop sobre algumas funcionalidades do Open Refine

{

}Gestão da Informação / UFG

Reconciliação dos dados

Page 30: Workshop sobre algumas funcionalidades do Open Refine

{

}Gestão da Informação / UFG

Reconciliação dos dados

Page 31: Workshop sobre algumas funcionalidades do Open Refine

{

}Gestão da Informação / UFG

Reconciliação dos dados

Page 32: Workshop sobre algumas funcionalidades do Open Refine

{

}Gestão da Informação / UFG

Reconciliação dos dados

Page 33: Workshop sobre algumas funcionalidades do Open Refine

{

}Gestão da Informação / UFG

Reconciliação dos dados

Page 34: Workshop sobre algumas funcionalidades do Open Refine

{

}Gestão da Informação / UFG

Importar dataset em CSV

Conjuntos de dados:

http://book.freeyourmetadata.org/chapters/3/powerhouse-

museum.tsv

http://book.freeyourmetadata.org/chapters/4/british-library.csv

Page 35: Workshop sobre algumas funcionalidades do Open Refine

{

}Gestão da Informação / UFG

Importar dataset em CSV

Page 36: Workshop sobre algumas funcionalidades do Open Refine

{

}Gestão da Informação / UFG

Importar dataset em CSV

Page 37: Workshop sobre algumas funcionalidades do Open Refine

{

}Gestão da Informação / UFG

Carregar em uma biblioteca digital

Após o tratamento dos dados, o objetivo é usar

os metadados em um biblioteca digital

Será o utilizado o tainacan para exemplificar o

processo

Acessar tainacan.gi.fic.ufg.br

Criar uma coleção, facetas e importar o arquivo

Page 38: Workshop sobre algumas funcionalidades do Open Refine

{

}Gestão da Informação / UFG

Importar

CSV

Page 39: Workshop sobre algumas funcionalidades do Open Refine

{

}Gestão da Informação / UFG

Importar

CSV

Page 40: Workshop sobre algumas funcionalidades do Open Refine

{

}Gestão da Informação / UFG

Importar

CSV

Page 41: Workshop sobre algumas funcionalidades do Open Refine

{

}Gestão da Informação / UFG

Importar

CSV