13
ASSINAR Datasets, o que são e como utilizá-los Publicado por Aquarela Analytics em Abril 23, 2018 Os datasets (ou conjuntos de dados) são o principal insumo dos processos de análise de dados. Eles são representados por dados tabulares em formato de planilha onde as linhas são os registros dos acontecimentos e as colunas são as características desses acontecimentos. Para que um dataset seja analisado por sistemas de análise é obrigatório que este tenha um formato retangular ou quadrado, não permitindo que haja valores em outras partes da planilha. Também não são aceitos valores em planilhas em sub-abas. Neste artigo detalhamos, com base em nossa experiência prática com análise de dados e em nossos cursos de capacitação no Brasil, nossa visão sobre o conceito de datasets e sua posição pivotal no processo de Data Analytics (https://aquare.la/o- que-e-data-analytics/) e no processo de transformação digital rumo a gestão da indústria 4.0 (https://aquare.la/industria-4-0-web-3-0-e-transformacao-digital/). Abaixo seguem mais detalhes importantes sobre o conceito. O que vou encontrar neste artigo? 1 Porque dataset e não conjunto de dados? 2 Formatos mais comuns para salvar Datasets 3 Codicação de caracteres (encoding) 4 Como recortar ou gerar um amostragem? 5 Como enriquecer datasets? 6 Quais ferramentas existem para lidar com datasets? 7 A qualidade de datasets 8 Onde encontrar datasets para análise? 9 Formação de datasets recorrentes. 10 Uso do conceito dataset para decisões colegiadas (Extra)

Datasets, o que são e como utiliz á-los · 11 Conclusões e recomendações Porque dataset e não conjunto de dados? Os datasets formam a base de qualquer análise de dados de alto

Embed Size (px)

Citation preview

ASSINAR

Datasets, o que são e como utilizá-losPublicado por Aquarela Analytics em Abril 23, 2018

Os datasets (ou conjuntos de dados) são o principal insumo dos processos de

análise de dados. Eles são representados por dados tabulares em formato de

planilha onde as linhas são os registros dos acontecimentos e as colunas são as

características desses acontecimentos. Para que um dataset seja analisado por

sistemas de análise é obrigatório que este tenha um formato retangular ou

quadrado, não permitindo que haja valores em outras partes da planilha. Também

não são aceitos valores em planilhas em sub-abas.

Neste artigo detalhamos, com base em nossa experiência prática com análise de

dados e em nossos cursos de capacitação no Brasil, nossa visão sobre o conceito de

datasets e sua posição pivotal no processo de Data Analytics (https://aquare.la/o-

que-e-data-analytics/) e no processo de transformação digital rumo a gestão da

indústria 4.0 (https://aquare.la/industria-4-0-web-3-0-e-transformacao-digital/).

Abaixo seguem mais detalhes importantes sobre o conceito.

O que vou encontrar neste artigo?

1 Porque dataset e não conjunto de dados?

2 Formatos mais comuns para salvar Datasets

3 Codi�cação de caracteres (encoding)

4 Como recortar ou gerar um amostragem?

5 Como enriquecer datasets?

6 Quais ferramentas existem para lidar com datasets?

7 A qualidade de datasets

8 Onde encontrar datasets para análise?

9 Formação de datasets recorrentes.

10 Uso do conceito dataset para decisões colegiadas (Extra)

11 Conclusões e recomendações

Porque dataset e não conjunto de dados?Os datasets formam a base de qualquer análise de dados de alto nível. No Brasil o

termo mais utilizado para ele é “conjunto de dados”, porém este conceito pode

gerar dúvidas porque é mais abrangente do que a ideia de dataset para analytics. Se

por um lado um conjunto de dados pode ser representado por diversas planilhas,

 bancos de dados e assim por diante, o dataset é mais especí�co, auto-contido

(todas as informações já estão presentes na tabela única, em contraste aos bancos

de dados relacionais), não possui formatações nos dados e deve ter o formato

retangular e possuem um cabeçalho com os nomes bem de�nidos para cada

coluna.  

Outros termos usados no dia a dia de análise, são:

Planilha integrada;

Flat�le (termo técnico antigo);

Tabelão;

Data Warehouse (sistema);

Dados tabulados;

Planilha de dados ou “Planilhona”

É muito comum ouvir os times negociando a exportação da planilha mais ou

menos da seguinte forma.

“Avisa o pessoal da informática para montar esse planilhão e nos encaminhar

depois? “

Exemplos de conjuntos de dados não organizados em formato de Dataset.

Exemplo de Análise de Equilíbrio – os dados estão organizados, mas não em forma de dataset

 

Exemplo de Relatório Financeiro Anual – os dados estão organizados, mas não em forma de

dataset

Agora mostramos os mesmos conjuntos, mas formatados para serem um dataset:

Exemplo de Análise de Equilíbrio – formatado para ser um dataset

 

Exemplo de Relatório Financeiro Anual – Formatado para ser um dataset

Formatos mais comuns para salvar DatasetsOs datasets devem ser salvos de alguma forma e abaixo relacionamos os tipos de

arquivos mais comuns:

Documentos Excel (https://aquare.la/13-dicas-para-melhorar-tabelas-no-

excel/) com extensão .XLS que permite um máximo 65 mil linhas e o formato

mais novo .XLSX que vai até milhão de linhas. Mais detalhes sobre este tipo

de arquivo em aqui (https://support.o�ce.com/pt-br/article/especi�cações-e-

limites-do-microso�-excel-1672b34d-7043-467e-8e27-269d656771c3) 

Documentos em formato .CSV  . O CSV é a sigla do inglês (comma separated

values) valores separados por vírgula é o principal tipo de arquivo para salvar

datasets por ser um dos formatos mais comuns de exportação de sistemas

transacionais como ERPs, CRMs e SCMs. Um dos pontos mais importantes é

que não possui uma limitação especí�ca para o número máximo de linhas

dependendo então da capacidade de memória e disco do computador. Este

tipo de arquivo não salva ou transfere as formatações ou cálculos nas células,

somente os dados brutos de forma tabular ou tabelada. Pode ser importado e

exportado por praticamente todos os sistemas analíticos de mercado. No

Brasil, o padrão con�ita com a vírgula decimal por isso é comum que sejam

salvos com a separação por “ponto e vírgula”.

Arquivo .TSV, segue praticamente todas as características do .csv porém ao

invés de utilizar a vírgula como separador entre os valores, ele utiliza o TAB.

Abaixo um exemplo. Duas vantagens em relação ao formato .CSV é a

diminuição dos riscos de importação no idioma português que utiliza a

vírgula como separador decimal dos números e também tem uma

legibilidade mais amigável quando aberto em um simples editor de texto.

Codificação de caracteres (encoding)A codi�cação de caracteres, o dialeto de comunicação entre os computadores, é um

problema bastante recorrente, percebido após a importação quando se lê palavras

com acentos. Quem nunca viu caracteres estranhos como estes?

O padrão mais aceito entre os sistemas é o UTF-8. Este aceita praticamente todos

os acentos de diversas línguas e é um dos mais usados no mundo de sistemas livre,

open source e o qual nós recomendamos adotar como padrão. Caso a base dos

sistemas da organização Microso�, pode existir diversos padrões como o ISO-

8859-1. 

Abaixo está a con�guração do dialeto do dataset ao abrir um arquivo formato .csv

com o sistema de planilha LibreO�ce. A função de pré-visualização serve como

guia para veri�car se os formatos estão corretos.

Veja como �cam o texto “unidade de Saúde Maria Ortiz” quando se utiliza o

encoding ISO-8859-1.

exemplo de encoding ISO-8859-1

exemplo 2 de encoding ISO-8859-1

 

Independente de qual seja o padrão de encoding adotado pela organização, é

fundamental que os times de analistas sejam capazes de fazer os devidos

tratamentos de enconding para evitar erros graves de análise como por exemplo

calcular o número de pacientes de São Paulo separadamente dos pacientes onde o

nome do município �cou sem acento ou com caracteres estranhos.

Como recortar ou gerar um amostragem?Na formação dos datasets, uma dúvida comum e que faz parte do cotidiano de

cientistas de dados é a decisão pelas formas de se reduzir o dataset para acelerar ou

dar foco para a análise. Neste artigo – Amostragem ou recorte de dados

(http://aquare.la/qual-diferenca-entre-tecnicas-de-amostragem-de-dados-e-

recorte-importante-saber/) , explicamos com mais detalhes e tentamos reduzir a

ambiguidade desta tarefa.

Como enriquecer datasets?Para que os datasets sejam enriquecidos com o cruzamento de dados de outros

datasets, é necessário de�nir qual coluna terá as informações de identi�cação das

linhas.

Exemplo: Para adicionar a temperatura do dia de uma cidade, precisamos da

coluna da data nos dois datasets, para que então a temperatura da outra base seja

anexada. A questão de enriquecimento de datasets é extensa e vamos falar disso em

breve.

Quais ferramentas existem para lidar comdatasets?Esta lista não pretende ser exaustiva, porém mostra algumas ferramentas bastante

úteis no trato dos dados. O mais importante é utilizar a ferramenta mais adequada

para cada contexto:

Microso� Excel (https://www.microso�.com/pt-br/store/b/excel-2016?

invsrc=search&cl_vend=google&cl_ch=sem&cl_camp=1017728639&cl_adg=49721468066&cl_crtv=240041646

297595807383&cl_pltr=&cl_dim0=WTSdWAAAAvMa-

iEF:20180423152129:s&OCID=AID695748_SEM_WTSdWAAAAvMa-

iEF:20180423152129:s&s_kwcid=AL!4249!3!240041646132!b!!g!!%2Bmicroso�%20%2Bexcel&ef_id=WTSdWAA

iEF:20180423152129:s)– É o sistema mais disseminado no mercado.

LibreO�ce (https://pt-br.libreo�ce.org/descubra/libreo�ce/) – É equivalente

ao Excel porém gratuito e tem uma vantagem de ser mais fácil de con�gurar

importações e exportações em formato .CSV.

Openre�ne (http://openre�ne.org/) – Sistema feito para higienização de

datasets.

Linguagens de programação:R (https://www.r-project.org/), Python

(https://www.python.org/), Scala (https://www.scala-lang.org/), Apach Spark

(https://spark.apache.org/) , Java

(https://pt.wikipedia.org/wiki/Java_(linguagem_de_programa%C3%A7%C3%A3o))

e outras.

Bancos de dados podem fazer diversas operações robustas, mas demandam

conhecimentos técnicos avançados.  

Sistemas estatísticos e econométricos comerciais: SPSS

(http://dmss.com.br/produtos/statistics/statistics1.html?

gclid=CjwKCAjwiPbWBRBtEiwAJakcpKrLg1yArzn7ZnB0VqZf7Wj0EYJ6eUOKJBjaZB0biFCj2RmS-

XvEPxoCE1cQAvD_BwE) (IBM), Minitab (http://www.minitab.com/pt-br/),

Matlab (https://la.mathworks.com/products/matlab.html), Stata

(https://www.stata.com/), Eviews (http://www.eviews.com/home.html).

Na �gura abaixo, �zemos um grá�co empírico para de�nir algumas destas

ferramentas, de acordo com a facilidade de utilização e capacidade de

processamento dos dados. Esta noção é fundamental para a estruturação da

arquitetura de sistemas de informação voltada para análise.

Ferramentas para processamento de dados

Salvo as diversas vantagens ou limitações técnicas e comerciais de cada uma delas.

A melhor ferramenta é a que traz os melhores resultados práticos. Nossa

experiência com R foi relatada aqui  – Saindo do limitado excel para r ou python.

Além disso, nesta outra publicação falamos sobre os sistemas operacionais e

máquinas recomendadas para fazer análise de dados ( máquinas para análise de

dados).

A qualidade de datasetsA conformação de bons datasets é um trabalho difícil, tanto do ponto de vista

técnico (na escolha da melhor ferramenta) como também no ponto de vista

conceitual para responder a seguinte pergunta – Quais dados vou adicionar? Quais

respostas estes dados tabelados podem me trazer?

Datasets muito raramente (muito mesmo) são iguais, tanto que na prática ocorrem

uma ou mais análises para cada dataset. No que tange a qualidade, isso depende da

natureza dos dados e dos questionamentos atrelados a eles, contudo em linhas

gerais bons datasets se caracterizam por uma boa proporção de variáveis

 numéricas, categóricas, sem valores faltantes. Além disso, bons datasets devem:

Estar associados aos dicionários (veja um exemplo aqui (http://aquare.la/o-

que-e-um-dicionario-de-dados-de-data-analytics/)) de dados que explicam

detalhes de negócio e da natureza das informações(saiba mais aqui

(http://aquare.la/o-genesis-das-analises-de-dados-entenda-natureza-dos-seus-

dados/)).

Nomes na colunas autoexplicativos, curtos, sem acentos e sem espaços ajudam

muito tanto do ponto de vista de comunicação com o time como reduz

drasticamente problemas incompatibilidade de padrões.  

Onde encontrar datasets para análise?Existem diversas fontes de datasets para estudo e análise, mas como elencado neste

artigo, cada um possui um padrão e demandam abordagens relativamente

diferentes e até ferramentas diferentes.

Fontes de Datasets

Na tabela abaixo estão algumas sugestões de fontes úteis de datasets. Caso tenham

mais sugestões, deixe um comentário para ampliarmos.

Fonte Descrição

Dados Abertos (http://dados.gov.br/)Diversos Datasets em vários formatoscom informações públicas em diversosníveis.

Data Viva (http://www.dataviva.info/pt/data/)

O DataViva é uma plataforma devisualização de dados que confere valoraos dados públicos, com o objetivoprincipal de apoiar o planejamentoeconômico e social, bem como a buscapor estratégias de diversi�cação daeconomia de determinada região. Dadosda RAIS – Salários e Empregos,Comércio exterior (SECEX), ensinosuperior e ensino médio. O sistemaoferece várias formas de visualização eaté de download dos dados.

FRED (https://fred.stlouisfed.org/)Base do Federal Reserve Economic Data.Dados públicos sobre a economia dediversos países do mundo.

Banco Central Brasil (http://www.bcb.gov.br/?serietemp)

Indicadores macroeconômicos

SEF – fazenda estadual(http://www.sef.sc.gov.br/transparencia/relatorios)

Apresenta uma série de datasetrelevantes para pesquisas, porém comgrande variação de formatos e sériestemporais limitadas. – Empresas comCNPJ, endereço, situação �scal, certidãonegativa de débito.

Receita federal(http://idg.receita.fazenda.gov.br/dados)

Diversos conjuntos de dados ligados àarrecadação dos municípios.

FipeZap (http://�pezap.zapimoveis.com.br/)

É uma parceria da Fipe com o portalZap imóveis. Eles criaram um indicadorde valorização dos imóveis mensal. Sãoreferência nacional.

Google Finance(https://�nance.google.com/�nance?q=IFIX)

ETF de fundos imobiliários no Brasil.

Quandl (https://www.quandl.com/)Indicadores econômicos, dados bancocentral do Brasil, agrega informaçõesIPCA, variação cambial e outros..

Google analytics do cliente(http://analytics.google.com/)

Análise do per�l dos visitas do site dasua própria empresa. Grande variedadede indicadores. Necessita dealinhamento e um acompanhamentoconstante do time de marketing.

Cadastro CEPs do Brasil com geolocalização(https://www.mapacep.com.br/)

CEPs, Cidades do Brasil, Código IBGEdos Municípios, População Estimadados Municípios, Endereços por CEP,Latitude e Longitude aproximada porCEP

InMet(http://www.inmet.gov.br/portal/index.php?r=estacoes/estacoesautomaticas)

Busca por dados do tempo na região aolongo do tempo. Máximo de 365 diasanteriores ao dia da consulta. Atende amaioria dos municípios do Brasil.

Formação de datasets recorrentes.Para que existam análises recorrentes, também é necessário que os datasets sejam

atualizados constantemente. Como isso é possível materializar o conceito de BI

de�nido neste artigo Diferenças entre BI. (http://aquare.la/7-caracteristicas-

importantes-para-diferenciar-bi-data-mining-e-big-data/)

Para que as análises possam ser recorrentes algumas destas perguntas devem ser

feitas:

Qual o grão mínimo em que o dado será coletado? Ou seja, o que representará

cada linha do dataset? Será uma consulta de cada paciente ou serão os

resultados de uma operação a cada mês?

Quais são os padrões das fontes de dados?

Qual a frequência de coleta dos dados?

Quais as permissões de acesso às fontes?

Uso do conceito dataset para decisõescolegiadas (Extra)A estruturação de dados em forma tabular dataset é muito poderosa e se mostra

extremamente útil para estruturar processos decisórios complexos onde diversas

alternativas precisam ser analisadas de forma colaborativa.

Neste sentido o coordenador da reunião pode desenhar em um quadro branco o

cabeçalho (com o nome das colunas) e os fatores de comparação nas linhas. E as

opções de decisão sendo preenchidas pelos participantes de forma colaborativa.

Desta maneira pode haver um nível maior de alinhamento entre os participantes e

até descobrir informações não previstas anteriormente com impacto direto na

estratégia. A limitação deste modelo de dataset é o número de linhas e colunas, já

que a complexidade da informação vai de encontro aos limites inerentes ao

processo decisório da cognição humana.

Conclusões e recomendaçõesAqui nesta publicação, buscamos trazer uma visão bastante prática sobre o

conceito de Dataset e o seu papel no ambiente de análises básicas e avançadas de

dados. No mercado e na própria academia estas informações existem, mas de

forma dispersa.

Em resumo:

Bons datasets possuem seus dicionário de dados (Conceito já descrito e

disponível para download aqui (http://aquare.la/o-que-e-um-dicionario-de-

dados-de-data-analytics/))

Os datasets necessitam ser autocontidos, ou seja, todas as informações

necessárias para responder questões de análise devem estar presentes na

tabela única.

Conjuntos de dados não são necessariamente datasets, assim como planilhas

tradicionais de excel (com grá�cos e formatações) também não.

Dataset é um conceito útil também para a gestão, permitindo assim alinhar

decisões de grande complexidade e impacto de forma colegiada. A utilização

desta forma de olhar para os dados (estratégia) vai ao encontro da construção

dos pilares da indústria 4.0, conceito que já abordamos neste artigo (indústria

4.0 (http://aquare.la/industria-4-0-web-3-0-e-transformacao-digital/)).

Existem diversas ferramentas gratuitas para o tratamento e análise de datasets,

em diversos níveis de di�culdade e complexidade.

Datasets de boa qualidade são os pilares para o aumento dos níveis de

maturidade das organizações. (Falamos sobre isso aqui

(http://aquare.la/dcim/))

Recomendações:

Procure padronizar os formatos entre todos os participantes das análises.

Veri�que se o formato está de acordo com os sistemas. A falta de

padronização gera muito trabalho extra não analítico e exige atenção.

Continue Lendo

Veri�que sempre o encoding do arquivo antes de qualquer importação, uma

vez que estes dados tiverem sido importados errados, diversos problemas

inesperados podem ocorrer e se tornam irreversíveis no desenrolar do

projeto.

Para aqueles que buscam resolver problemas especí�cos de análises como

estes citados em (14 setores e dados para análise de dados (https://aquare.la/14-

setores-para-aplicacao-de-data-analytics/)). Recomendamos pesquisas pelos

termos “microdados” associados a área de interesse.

Utilize estratégias de gestão de conhecimento, para assim garantir a

provenança (Provenança ou Proveniência de dados é a estrutura de sistemas

que fornece um registro histórico dos dados e suas origens, respondendo

questões como Onde os dados foram coletados, quando foram, por qual

motivo, como foram transformados e para quem serão entregues.)

Não deixem de nos seguir, pois há muito mais pela frente. Fiquem a vontade para

comentar, compartilhar, adicionar mais informações ao tema.  

Bons estudos e ótimas análises pessoal!

Autores:

Joni Hoppen

Fundador  da  Aquarela  Advanced  Analytics,  professor  e  palestrante  na

área  de  Ciência  de  Dados,  mestre  em  Sistemas  de  Informação  pela

universidade  de  Twente  na  Holanda,  focado  em  processos  de  rápida

prototipação  de  Big  Data  Analytics  e  cultura  de  dados.  Linkedin

(https://br.linkedin.com/in/joniarroba)

(https://aquare.la/7-livros-descomplicados-sobre-data-science/) 7 livros descomplicados sobre Data Science (https://aquare.la/7-livros-descomplicados-sobre-data-science/)

(https://aquare.la/o-que-e-inteligencia-artificial/) O que é inteligência artificial (IA), tipos e suas aplicações de negócio (https://aquare.la/o-que-e-inteligencia-artificial/)

Otimizando a gestão de pessoas com Advanced Analytics2 COMENTÁRIOS • há 8 meses

Joni Santos — Oi Thiago, obrigado pelo comentário. Atualmente o mundo real (onosso) há de fato um grande problema com relação aos dados tanto do problemametodológico da …

5 Filmes para você pensar sobre Inteligência Artificial.2 COMENTÁRIOS • há 2 meses

Carlos Eduardo — Muito obrigado pelas indicações, são ótimas. Delas só nãoassisti Sunspring e Her.O que mais me impressionou foi AlphaGo, com relação aotrabalho que há por …

Inteligência artificial aplicada sobre as obras do Estado de SantaCatarina6 COMENTÁRIOS • há 7 meses

Joni Santos — Obrigado Rodrigo, estamos sempre acompanhando os posts domineirando dados ;) Um dos mais didáticos do Brasil. Um abraço de Floripa!

O que é Data Analytics?2 COMENTÁRIOS • há 2 meses

Silvio Lima — Os dados não mentem, mas se cada um interpretar de uma formadiferente, o resultado da análise pode ser totalmente errada.Legal a história daenfermeira.

TAMBÉM NO AQUARE.LA

0 COMENTÁRIOS aquare.la Iniciar sessão1

Partilhar⤤ Mostrar primeiro os mais votados

INICIE SESSÃO COM O OU REGISTE-SE NO DISQUS

Nome

Escreva o seu comentário...

?

Seja o primeiro a comentar!

Subscrever✉ Acerca do DisqusAdicionar o DisqusAdicionard Privacidade�

Recomendar

Assine nossa Newsletter

(https://aquare.la/o-design-como-ferramenta-transformadora-na-industria-4-0/) O Design como ferramenta transformadora na indústria 4.0(https://aquare.la/o-design-como-ferramenta-transformadora-na-industria-4-0/)

Nome:   Email:

Assinar

 (https://www.linkedin.com/company-beta/2853296/)    (https://www.facebook.com/aquarela.innovation/)    (https://twitter.com/aquare_la)

Na Aquarela empregamos métodos e ferramentas próprias para acelerar descoberta de insights, ampliando aperformance de organizações de médio e grande porte.

Copyright © 2018 Aquarela Inovação do Brasil S.A. - Todos os direitos reservados