View
212
Download
0
Category
Preview:
Citation preview
ASSINAR
Datasets, o que são e como utilizá-losPublicado por Aquarela Analytics em Abril 23, 2018
Os datasets (ou conjuntos de dados) são o principal insumo dos processos de
análise de dados. Eles são representados por dados tabulares em formato de
planilha onde as linhas são os registros dos acontecimentos e as colunas são as
características desses acontecimentos. Para que um dataset seja analisado por
sistemas de análise é obrigatório que este tenha um formato retangular ou
quadrado, não permitindo que haja valores em outras partes da planilha. Também
não são aceitos valores em planilhas em sub-abas.
Neste artigo detalhamos, com base em nossa experiência prática com análise de
dados e em nossos cursos de capacitação no Brasil, nossa visão sobre o conceito de
datasets e sua posição pivotal no processo de Data Analytics (https://aquare.la/o-
que-e-data-analytics/) e no processo de transformação digital rumo a gestão da
indústria 4.0 (https://aquare.la/industria-4-0-web-3-0-e-transformacao-digital/).
Abaixo seguem mais detalhes importantes sobre o conceito.
O que vou encontrar neste artigo?
1 Porque dataset e não conjunto de dados?
2 Formatos mais comuns para salvar Datasets
3 Codi�cação de caracteres (encoding)
4 Como recortar ou gerar um amostragem?
5 Como enriquecer datasets?
6 Quais ferramentas existem para lidar com datasets?
7 A qualidade de datasets
8 Onde encontrar datasets para análise?
9 Formação de datasets recorrentes.
10 Uso do conceito dataset para decisões colegiadas (Extra)
11 Conclusões e recomendações
Porque dataset e não conjunto de dados?Os datasets formam a base de qualquer análise de dados de alto nível. No Brasil o
termo mais utilizado para ele é “conjunto de dados”, porém este conceito pode
gerar dúvidas porque é mais abrangente do que a ideia de dataset para analytics. Se
por um lado um conjunto de dados pode ser representado por diversas planilhas,
bancos de dados e assim por diante, o dataset é mais especí�co, auto-contido
(todas as informações já estão presentes na tabela única, em contraste aos bancos
de dados relacionais), não possui formatações nos dados e deve ter o formato
retangular e possuem um cabeçalho com os nomes bem de�nidos para cada
coluna.
Outros termos usados no dia a dia de análise, são:
Planilha integrada;
Flat�le (termo técnico antigo);
Tabelão;
Data Warehouse (sistema);
Dados tabulados;
Planilha de dados ou “Planilhona”
É muito comum ouvir os times negociando a exportação da planilha mais ou
menos da seguinte forma.
“Avisa o pessoal da informática para montar esse planilhão e nos encaminhar
depois? “
Exemplos de conjuntos de dados não organizados em formato de Dataset.
Exemplo de Análise de Equilíbrio – os dados estão organizados, mas não em forma de dataset
Exemplo de Relatório Financeiro Anual – os dados estão organizados, mas não em forma de
dataset
Agora mostramos os mesmos conjuntos, mas formatados para serem um dataset:
Exemplo de Análise de Equilíbrio – formatado para ser um dataset
Exemplo de Relatório Financeiro Anual – Formatado para ser um dataset
Formatos mais comuns para salvar DatasetsOs datasets devem ser salvos de alguma forma e abaixo relacionamos os tipos de
arquivos mais comuns:
Documentos Excel (https://aquare.la/13-dicas-para-melhorar-tabelas-no-
excel/) com extensão .XLS que permite um máximo 65 mil linhas e o formato
mais novo .XLSX que vai até milhão de linhas. Mais detalhes sobre este tipo
de arquivo em aqui (https://support.o�ce.com/pt-br/article/especi�cações-e-
limites-do-microso�-excel-1672b34d-7043-467e-8e27-269d656771c3)
Documentos em formato .CSV . O CSV é a sigla do inglês (comma separated
values) valores separados por vírgula é o principal tipo de arquivo para salvar
datasets por ser um dos formatos mais comuns de exportação de sistemas
transacionais como ERPs, CRMs e SCMs. Um dos pontos mais importantes é
que não possui uma limitação especí�ca para o número máximo de linhas
dependendo então da capacidade de memória e disco do computador. Este
tipo de arquivo não salva ou transfere as formatações ou cálculos nas células,
somente os dados brutos de forma tabular ou tabelada. Pode ser importado e
exportado por praticamente todos os sistemas analíticos de mercado. No
Brasil, o padrão con�ita com a vírgula decimal por isso é comum que sejam
salvos com a separação por “ponto e vírgula”.
Arquivo .TSV, segue praticamente todas as características do .csv porém ao
invés de utilizar a vírgula como separador entre os valores, ele utiliza o TAB.
Abaixo um exemplo. Duas vantagens em relação ao formato .CSV é a
diminuição dos riscos de importação no idioma português que utiliza a
vírgula como separador decimal dos números e também tem uma
legibilidade mais amigável quando aberto em um simples editor de texto.
Codificação de caracteres (encoding)A codi�cação de caracteres, o dialeto de comunicação entre os computadores, é um
problema bastante recorrente, percebido após a importação quando se lê palavras
com acentos. Quem nunca viu caracteres estranhos como estes?
O padrão mais aceito entre os sistemas é o UTF-8. Este aceita praticamente todos
os acentos de diversas línguas e é um dos mais usados no mundo de sistemas livre,
open source e o qual nós recomendamos adotar como padrão. Caso a base dos
sistemas da organização Microso�, pode existir diversos padrões como o ISO-
8859-1.
Abaixo está a con�guração do dialeto do dataset ao abrir um arquivo formato .csv
com o sistema de planilha LibreO�ce. A função de pré-visualização serve como
guia para veri�car se os formatos estão corretos.
Veja como �cam o texto “unidade de Saúde Maria Ortiz” quando se utiliza o
encoding ISO-8859-1.
exemplo de encoding ISO-8859-1
exemplo 2 de encoding ISO-8859-1
Independente de qual seja o padrão de encoding adotado pela organização, é
fundamental que os times de analistas sejam capazes de fazer os devidos
tratamentos de enconding para evitar erros graves de análise como por exemplo
calcular o número de pacientes de São Paulo separadamente dos pacientes onde o
nome do município �cou sem acento ou com caracteres estranhos.
Como recortar ou gerar um amostragem?Na formação dos datasets, uma dúvida comum e que faz parte do cotidiano de
cientistas de dados é a decisão pelas formas de se reduzir o dataset para acelerar ou
dar foco para a análise. Neste artigo – Amostragem ou recorte de dados
(http://aquare.la/qual-diferenca-entre-tecnicas-de-amostragem-de-dados-e-
recorte-importante-saber/) , explicamos com mais detalhes e tentamos reduzir a
ambiguidade desta tarefa.
Como enriquecer datasets?Para que os datasets sejam enriquecidos com o cruzamento de dados de outros
datasets, é necessário de�nir qual coluna terá as informações de identi�cação das
linhas.
Exemplo: Para adicionar a temperatura do dia de uma cidade, precisamos da
coluna da data nos dois datasets, para que então a temperatura da outra base seja
anexada. A questão de enriquecimento de datasets é extensa e vamos falar disso em
breve.
Quais ferramentas existem para lidar comdatasets?Esta lista não pretende ser exaustiva, porém mostra algumas ferramentas bastante
úteis no trato dos dados. O mais importante é utilizar a ferramenta mais adequada
para cada contexto:
Microso� Excel (https://www.microso�.com/pt-br/store/b/excel-2016?
invsrc=search&cl_vend=google&cl_ch=sem&cl_camp=1017728639&cl_adg=49721468066&cl_crtv=240041646
297595807383&cl_pltr=&cl_dim0=WTSdWAAAAvMa-
iEF:20180423152129:s&OCID=AID695748_SEM_WTSdWAAAAvMa-
iEF:20180423152129:s&s_kwcid=AL!4249!3!240041646132!b!!g!!%2Bmicroso�%20%2Bexcel&ef_id=WTSdWAA
iEF:20180423152129:s)– É o sistema mais disseminado no mercado.
LibreO�ce (https://pt-br.libreo�ce.org/descubra/libreo�ce/) – É equivalente
ao Excel porém gratuito e tem uma vantagem de ser mais fácil de con�gurar
importações e exportações em formato .CSV.
Openre�ne (http://openre�ne.org/) – Sistema feito para higienização de
datasets.
Linguagens de programação:R (https://www.r-project.org/), Python
(https://www.python.org/), Scala (https://www.scala-lang.org/), Apach Spark
(https://spark.apache.org/) , Java
(https://pt.wikipedia.org/wiki/Java_(linguagem_de_programa%C3%A7%C3%A3o))
e outras.
Bancos de dados podem fazer diversas operações robustas, mas demandam
conhecimentos técnicos avançados.
Sistemas estatísticos e econométricos comerciais: SPSS
(http://dmss.com.br/produtos/statistics/statistics1.html?
gclid=CjwKCAjwiPbWBRBtEiwAJakcpKrLg1yArzn7ZnB0VqZf7Wj0EYJ6eUOKJBjaZB0biFCj2RmS-
XvEPxoCE1cQAvD_BwE) (IBM), Minitab (http://www.minitab.com/pt-br/),
Matlab (https://la.mathworks.com/products/matlab.html), Stata
(https://www.stata.com/), Eviews (http://www.eviews.com/home.html).
Na �gura abaixo, �zemos um grá�co empírico para de�nir algumas destas
ferramentas, de acordo com a facilidade de utilização e capacidade de
processamento dos dados. Esta noção é fundamental para a estruturação da
arquitetura de sistemas de informação voltada para análise.
Ferramentas para processamento de dados
Salvo as diversas vantagens ou limitações técnicas e comerciais de cada uma delas.
A melhor ferramenta é a que traz os melhores resultados práticos. Nossa
experiência com R foi relatada aqui – Saindo do limitado excel para r ou python.
Além disso, nesta outra publicação falamos sobre os sistemas operacionais e
máquinas recomendadas para fazer análise de dados ( máquinas para análise de
dados).
A qualidade de datasetsA conformação de bons datasets é um trabalho difícil, tanto do ponto de vista
técnico (na escolha da melhor ferramenta) como também no ponto de vista
conceitual para responder a seguinte pergunta – Quais dados vou adicionar? Quais
respostas estes dados tabelados podem me trazer?
Datasets muito raramente (muito mesmo) são iguais, tanto que na prática ocorrem
uma ou mais análises para cada dataset. No que tange a qualidade, isso depende da
natureza dos dados e dos questionamentos atrelados a eles, contudo em linhas
gerais bons datasets se caracterizam por uma boa proporção de variáveis
numéricas, categóricas, sem valores faltantes. Além disso, bons datasets devem:
Estar associados aos dicionários (veja um exemplo aqui (http://aquare.la/o-
que-e-um-dicionario-de-dados-de-data-analytics/)) de dados que explicam
detalhes de negócio e da natureza das informações(saiba mais aqui
(http://aquare.la/o-genesis-das-analises-de-dados-entenda-natureza-dos-seus-
dados/)).
Nomes na colunas autoexplicativos, curtos, sem acentos e sem espaços ajudam
muito tanto do ponto de vista de comunicação com o time como reduz
drasticamente problemas incompatibilidade de padrões.
Onde encontrar datasets para análise?Existem diversas fontes de datasets para estudo e análise, mas como elencado neste
artigo, cada um possui um padrão e demandam abordagens relativamente
diferentes e até ferramentas diferentes.
Fontes de Datasets
Na tabela abaixo estão algumas sugestões de fontes úteis de datasets. Caso tenham
mais sugestões, deixe um comentário para ampliarmos.
Fonte Descrição
Dados Abertos (http://dados.gov.br/)Diversos Datasets em vários formatoscom informações públicas em diversosníveis.
Data Viva (http://www.dataviva.info/pt/data/)
O DataViva é uma plataforma devisualização de dados que confere valoraos dados públicos, com o objetivoprincipal de apoiar o planejamentoeconômico e social, bem como a buscapor estratégias de diversi�cação daeconomia de determinada região. Dadosda RAIS – Salários e Empregos,Comércio exterior (SECEX), ensinosuperior e ensino médio. O sistemaoferece várias formas de visualização eaté de download dos dados.
FRED (https://fred.stlouisfed.org/)Base do Federal Reserve Economic Data.Dados públicos sobre a economia dediversos países do mundo.
Banco Central Brasil (http://www.bcb.gov.br/?serietemp)
Indicadores macroeconômicos
SEF – fazenda estadual(http://www.sef.sc.gov.br/transparencia/relatorios)
Apresenta uma série de datasetrelevantes para pesquisas, porém comgrande variação de formatos e sériestemporais limitadas. – Empresas comCNPJ, endereço, situação �scal, certidãonegativa de débito.
Receita federal(http://idg.receita.fazenda.gov.br/dados)
Diversos conjuntos de dados ligados àarrecadação dos municípios.
FipeZap (http://�pezap.zapimoveis.com.br/)
É uma parceria da Fipe com o portalZap imóveis. Eles criaram um indicadorde valorização dos imóveis mensal. Sãoreferência nacional.
Google Finance(https://�nance.google.com/�nance?q=IFIX)
ETF de fundos imobiliários no Brasil.
Quandl (https://www.quandl.com/)Indicadores econômicos, dados bancocentral do Brasil, agrega informaçõesIPCA, variação cambial e outros..
Google analytics do cliente(http://analytics.google.com/)
Análise do per�l dos visitas do site dasua própria empresa. Grande variedadede indicadores. Necessita dealinhamento e um acompanhamentoconstante do time de marketing.
Cadastro CEPs do Brasil com geolocalização(https://www.mapacep.com.br/)
CEPs, Cidades do Brasil, Código IBGEdos Municípios, População Estimadados Municípios, Endereços por CEP,Latitude e Longitude aproximada porCEP
InMet(http://www.inmet.gov.br/portal/index.php?r=estacoes/estacoesautomaticas)
Busca por dados do tempo na região aolongo do tempo. Máximo de 365 diasanteriores ao dia da consulta. Atende amaioria dos municípios do Brasil.
Formação de datasets recorrentes.Para que existam análises recorrentes, também é necessário que os datasets sejam
atualizados constantemente. Como isso é possível materializar o conceito de BI
de�nido neste artigo Diferenças entre BI. (http://aquare.la/7-caracteristicas-
importantes-para-diferenciar-bi-data-mining-e-big-data/)
Para que as análises possam ser recorrentes algumas destas perguntas devem ser
feitas:
Qual o grão mínimo em que o dado será coletado? Ou seja, o que representará
cada linha do dataset? Será uma consulta de cada paciente ou serão os
resultados de uma operação a cada mês?
Quais são os padrões das fontes de dados?
Qual a frequência de coleta dos dados?
Quais as permissões de acesso às fontes?
Uso do conceito dataset para decisõescolegiadas (Extra)A estruturação de dados em forma tabular dataset é muito poderosa e se mostra
extremamente útil para estruturar processos decisórios complexos onde diversas
alternativas precisam ser analisadas de forma colaborativa.
Neste sentido o coordenador da reunião pode desenhar em um quadro branco o
cabeçalho (com o nome das colunas) e os fatores de comparação nas linhas. E as
opções de decisão sendo preenchidas pelos participantes de forma colaborativa.
Desta maneira pode haver um nível maior de alinhamento entre os participantes e
até descobrir informações não previstas anteriormente com impacto direto na
estratégia. A limitação deste modelo de dataset é o número de linhas e colunas, já
que a complexidade da informação vai de encontro aos limites inerentes ao
processo decisório da cognição humana.
Conclusões e recomendaçõesAqui nesta publicação, buscamos trazer uma visão bastante prática sobre o
conceito de Dataset e o seu papel no ambiente de análises básicas e avançadas de
dados. No mercado e na própria academia estas informações existem, mas de
forma dispersa.
Em resumo:
Bons datasets possuem seus dicionário de dados (Conceito já descrito e
disponível para download aqui (http://aquare.la/o-que-e-um-dicionario-de-
dados-de-data-analytics/))
Os datasets necessitam ser autocontidos, ou seja, todas as informações
necessárias para responder questões de análise devem estar presentes na
tabela única.
Conjuntos de dados não são necessariamente datasets, assim como planilhas
tradicionais de excel (com grá�cos e formatações) também não.
Dataset é um conceito útil também para a gestão, permitindo assim alinhar
decisões de grande complexidade e impacto de forma colegiada. A utilização
desta forma de olhar para os dados (estratégia) vai ao encontro da construção
dos pilares da indústria 4.0, conceito que já abordamos neste artigo (indústria
4.0 (http://aquare.la/industria-4-0-web-3-0-e-transformacao-digital/)).
Existem diversas ferramentas gratuitas para o tratamento e análise de datasets,
em diversos níveis de di�culdade e complexidade.
Datasets de boa qualidade são os pilares para o aumento dos níveis de
maturidade das organizações. (Falamos sobre isso aqui
(http://aquare.la/dcim/))
Recomendações:
Procure padronizar os formatos entre todos os participantes das análises.
Veri�que se o formato está de acordo com os sistemas. A falta de
padronização gera muito trabalho extra não analítico e exige atenção.
Continue Lendo
Veri�que sempre o encoding do arquivo antes de qualquer importação, uma
vez que estes dados tiverem sido importados errados, diversos problemas
inesperados podem ocorrer e se tornam irreversíveis no desenrolar do
projeto.
Para aqueles que buscam resolver problemas especí�cos de análises como
estes citados em (14 setores e dados para análise de dados (https://aquare.la/14-
setores-para-aplicacao-de-data-analytics/)). Recomendamos pesquisas pelos
termos “microdados” associados a área de interesse.
Utilize estratégias de gestão de conhecimento, para assim garantir a
provenança (Provenança ou Proveniência de dados é a estrutura de sistemas
que fornece um registro histórico dos dados e suas origens, respondendo
questões como Onde os dados foram coletados, quando foram, por qual
motivo, como foram transformados e para quem serão entregues.)
Não deixem de nos seguir, pois há muito mais pela frente. Fiquem a vontade para
comentar, compartilhar, adicionar mais informações ao tema.
Bons estudos e ótimas análises pessoal!
Autores:
Joni Hoppen
Fundador da Aquarela Advanced Analytics, professor e palestrante na
área de Ciência de Dados, mestre em Sistemas de Informação pela
universidade de Twente na Holanda, focado em processos de rápida
prototipação de Big Data Analytics e cultura de dados. Linkedin
(https://br.linkedin.com/in/joniarroba)
(https://aquare.la/7-livros-descomplicados-sobre-data-science/) 7 livros descomplicados sobre Data Science (https://aquare.la/7-livros-descomplicados-sobre-data-science/)
(https://aquare.la/o-que-e-inteligencia-artificial/) O que é inteligência artificial (IA), tipos e suas aplicações de negócio (https://aquare.la/o-que-e-inteligencia-artificial/)
Otimizando a gestão de pessoas com Advanced Analytics2 COMENTÁRIOS • há 8 meses
Joni Santos — Oi Thiago, obrigado pelo comentário. Atualmente o mundo real (onosso) há de fato um grande problema com relação aos dados tanto do problemametodológico da …
5 Filmes para você pensar sobre Inteligência Artificial.2 COMENTÁRIOS • há 2 meses
Carlos Eduardo — Muito obrigado pelas indicações, são ótimas. Delas só nãoassisti Sunspring e Her.O que mais me impressionou foi AlphaGo, com relação aotrabalho que há por …
Inteligência artificial aplicada sobre as obras do Estado de SantaCatarina6 COMENTÁRIOS • há 7 meses
Joni Santos — Obrigado Rodrigo, estamos sempre acompanhando os posts domineirando dados ;) Um dos mais didáticos do Brasil. Um abraço de Floripa!
O que é Data Analytics?2 COMENTÁRIOS • há 2 meses
Silvio Lima — Os dados não mentem, mas se cada um interpretar de uma formadiferente, o resultado da análise pode ser totalmente errada.Legal a história daenfermeira.
TAMBÉM NO AQUARE.LA
0 COMENTÁRIOS aquare.la Iniciar sessão1
Partilhar⤤ Mostrar primeiro os mais votados
INICIE SESSÃO COM O OU REGISTE-SE NO DISQUS
Nome
Escreva o seu comentário...
?
Seja o primeiro a comentar!
Subscrever✉ Acerca do DisqusAdicionar o DisqusAdicionard Privacidade�
Recomendar
Assine nossa Newsletter
(https://aquare.la/o-design-como-ferramenta-transformadora-na-industria-4-0/) O Design como ferramenta transformadora na indústria 4.0(https://aquare.la/o-design-como-ferramenta-transformadora-na-industria-4-0/)
Nome: Email:
Assinar
(https://www.linkedin.com/company-beta/2853296/) (https://www.facebook.com/aquarela.innovation/) (https://twitter.com/aquare_la)
Na Aquarela empregamos métodos e ferramentas próprias para acelerar descoberta de insights, ampliando aperformance de organizações de médio e grande porte.
Copyright © 2018 Aquarela Inovação do Brasil S.A. - Todos os direitos reservados
Recommended