folhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação proteção dos dados
Publicação de dados de biodiversidade através do GBIF
Qualidade e limpeza de dados - I
Porto | MHNC-UP
2019
Ricardo Jorge Lopes Publicação de dados - GBIF | Qualidade e limpeza 26 Junho 2019 1 / 23
folhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação proteção dos dados
a necessidade de formaçãono uso de folhas de cálculo
I para prevenir mais e remediar menosI para minimizar a necessidade de
verificar e alterar os dados a posteriori
BETTERSAFE THANSORRY
Ricardo Jorge Lopes Publicação de dados - GBIF | Qualidade e limpeza 26 Junho 2019 2 / 23
folhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação proteção dos dados
porque razões os dados podem perderqualidade numa folha de cálculo?
I erros por não obedecer aos principiosde tidy data
I erros devido à liberdade de introduçãode dados em qualquer lugar da tabela
I erros devido a mudanças automáticasdos dados
I obrigam à limpeza de dados a posterioriOpenRefine ou Tidyverse (R)
The life-changing magicof tidying upyour data
The art and scienceof making data
organized and useable
Ricardo Jorge Lopes Publicação de dados - GBIF | Qualidade e limpeza 26 Junho 2019 3 / 23
folhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação proteção dos dados
porque razões os dados podem perderqualidade numa folha de cálculo?
I erros por não obedecer aos principiosde tidy data
I erros devido à liberdade de introduçãode dados em qualquer lugar da tabela
I erros devido a mudanças automáticasdos dados
I obrigam à limpeza de dados a posterioriOpenRefine ou Tidyverse (R)
The life-changing magicof tidying upyour data
The art and scienceof making data
organized and useable
Ricardo Jorge Lopes Publicação de dados - GBIF | Qualidade e limpeza 26 Junho 2019 3 / 23
folhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação proteção dos dados
porque razões os dados podem perderqualidade numa folha de cálculo?
I erros por não obedecer aos principiosde tidy data
I erros devido à liberdade de introduçãode dados em qualquer lugar da tabela
I erros devido a mudanças automáticasdos dados
I obrigam à limpeza de dados a posterioriOpenRefine ou Tidyverse (R)
Ricardo Jorge Lopes Publicação de dados - GBIF | Qualidade e limpeza 26 Junho 2019 3 / 23
folhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação proteção dos dados
conhecer as suas limitações
I idealmente os dados deveriam serexclusivamente manuseados em basesde dados e ferramentas bioinformáticas
I no entanto, mais tarde ou mais cedo,folhas de cálculo são usadas por todosnós
I em várias fases (coleção dos dados,armazenamento ou preparação dosdados finais)
Ricardo Jorge Lopes Publicação de dados - GBIF | Qualidade e limpeza 26 Junho 2019 4 / 23
folhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação proteção dos dados
conhecer as suas limitações
I idealmente os dados deveriam serexclusivamente manuseados em basesde dados e ferramentas bioinformáticas
I no entanto, mais tarde ou mais cedo,folhas de cálculo são usadas por todosnós
I em várias fases (coleção dos dados,armazenamento ou preparação dosdados finais)
Ricardo Jorge Lopes Publicação de dados - GBIF | Qualidade e limpeza 26 Junho 2019 4 / 23
folhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação proteção dos dados
conhecer as suas limitações
I idealmente os dados deveriam serexclusivamente manuseados em basesde dados e ferramentas bioinformáticas
I no entanto, mais tarde ou mais cedo,folhas de cálculo são usadas por todosnós
I em várias fases (coleção dos dados,armazenamento ou preparação dosdados finais)
Ricardo Jorge Lopes Publicação de dados - GBIF | Qualidade e limpeza 26 Junho 2019 4 / 23
folhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação proteção dos dados
conhecer as suas limitações
I idealmente os dados deveriam serexclusivamente manuseados em basesde dados e ferramentas bioinformáticas
I no entanto, mais tarde ou mais cedo,folhas de cálculo são usadas por todosnós
I em várias fases (coleção dos dados,armazenamento ou preparação dosdados finais)
Ricardo Jorge Lopes Publicação de dados - GBIF | Qualidade e limpeza 26 Junho 2019 4 / 23
folhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação proteção dos dados
Origens
I versões em papel utilizadas emcontabilidade
I primeiros programas nos anos 70I monopólio do Microsoft ExcelI versões
"open source""online"
Ricardo Jorge Lopes Publicação de dados - GBIF | Qualidade e limpeza 26 Junho 2019 5 / 23
folhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação proteção dos dados
Origens
I versões em papel utilizadas emcontabilidade
I primeiros programas nos anos 70I monopólio do Microsoft ExcelI versões
"open source""online"
Ricardo Jorge Lopes Publicação de dados - GBIF | Qualidade e limpeza 26 Junho 2019 5 / 23
folhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação proteção dos dados
Origens
I versões em papel utilizadas emcontabilidade
I primeiros programas nos anos 70I monopólio do Microsoft ExcelI versões
"open source""online"
Ricardo Jorge Lopes Publicação de dados - GBIF | Qualidade e limpeza 26 Junho 2019 5 / 23
folhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação proteção dos dados
Origens
I versões em papel utilizadas emcontabilidade
I primeiros programas nos anos 70I monopólio do Microsoft ExcelI versões
"open source""online"
Ricardo Jorge Lopes Publicação de dados - GBIF | Qualidade e limpeza 26 Junho 2019 5 / 23
folhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação proteção dos dados
O que são?
I para organização, análise,apresentação de dados
I dados em células de tabelas (colunas +linhas)
I dados podem ser alfanuméricos ou oresultado de uma fórmula
1
2
3
4
5
AA
colunas
linhas
B C D E
célula
Ricardo Jorge Lopes Publicação de dados - GBIF | Qualidade e limpeza 26 Junho 2019 6 / 23
folhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação proteção dos dados
O que são?
I para organização, análise,apresentação de dados
I dados em células de tabelas (colunas +linhas)
I dados podem ser alfanuméricos ou oresultado de uma fórmula
1
2
3
4
5
AA
colunas
linhas
B C D E
célula
Ricardo Jorge Lopes Publicação de dados - GBIF | Qualidade e limpeza 26 Junho 2019 6 / 23
folhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação proteção dos dados
O que são?
I para organização, análise,apresentação de dados
I dados em células de tabelas (colunas +linhas)
I dados podem ser alfanuméricos ou oresultado de uma fórmula
1
2
3
4
5
AA
colunas
linhas
B C D E
célula
Ricardo Jorge Lopes Publicação de dados - GBIF | Qualidade e limpeza 26 Junho 2019 6 / 23
folhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação proteção dos dados
Perfomance
I bases de dados podem ter milhares deregistos
I bases de dados podem ser editadassimultaneamente por vários utilizadores
I bases de dados são mais segurasI folhas de cálculo permitem introduzir
mais facilmente dados, mas tambémerros!
1.048.576linhas
x16.384colunas
Ricardo Jorge Lopes Publicação de dados - GBIF | Qualidade e limpeza 26 Junho 2019 7 / 23
folhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação proteção dos dados
Perfomance
I bases de dados podem ter milhares deregistos
I bases de dados podem ser editadassimultaneamente por vários utilizadores
I bases de dados são mais segurasI folhas de cálculo permitem introduzir
mais facilmente dados, mas tambémerros!
Ricardo Jorge Lopes Publicação de dados - GBIF | Qualidade e limpeza 26 Junho 2019 7 / 23
folhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação proteção dos dados
Perfomance
I bases de dados podem ter milhares deregistos
I bases de dados podem ser editadassimultaneamente por vários utilizadores
I bases de dados são mais segurasI folhas de cálculo permitem introduzir
mais facilmente dados, mas tambémerros!
Ricardo Jorge Lopes Publicação de dados - GBIF | Qualidade e limpeza 26 Junho 2019 7 / 23
folhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação proteção dos dados
Perfomance
I bases de dados podem ter milhares deregistos
I bases de dados podem ser editadassimultaneamente por vários utilizadores
I bases de dados são mais segurasI folhas de cálculo permitem introduzir
mais facilmente dados, mas tambémerros!
Ricardo Jorge Lopes Publicação de dados - GBIF | Qualidade e limpeza 26 Junho 2019 7 / 23
folhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação proteção dos dados
Talvez a maior diferença na perspectivado utilizador
I numa base de dados cada registo podeter muitos campos de dados
I numa folha de cálculo cada célula éindependente da linha onde está
I muito mais fácil de misturar dados dediferentes registos, inadvertidamente
1
2
3
4
5
AA B C D Eid 1 date 1 species 1 measure 1 sex 1
id 2 date 2 species 2 measure 2 sex 2
Ricardo Jorge Lopes Publicação de dados - GBIF | Qualidade e limpeza 26 Junho 2019 8 / 23
folhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação proteção dos dados
Talvez a maior diferença na perspectivado utilizador
I numa base de dados cada registo podeter muitos campos de dados
I numa folha de cálculo cada célula éindependente da linha onde está
I muito mais fácil de misturar dados dediferentes registos, inadvertidamente
1
2
3
4
5
AA B C D Eid 1 date 1 species 1 measure 1 sex 1
id 2 date 2 species 2 measure 2 sex 2
Ricardo Jorge Lopes Publicação de dados - GBIF | Qualidade e limpeza 26 Junho 2019 8 / 23
folhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação proteção dos dados
Talvez a maior diferença na perspectivado utilizador
I numa base de dados cada registo podeter muitos campos de dados
I numa folha de cálculo cada célula éindependente da linha onde está
I muito mais fácil de misturar dados dediferentes registos, inadvertidamente
1
2
3
4
5
AA B C D Eid 1 date 2 species 2 measure 1 sex 1
id 2 date 1 species 1 measure 2 sex 2
Ricardo Jorge Lopes Publicação de dados - GBIF | Qualidade e limpeza 26 Junho 2019 8 / 23
folhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação proteção dos dados
correcta estrutura de dados - tidy data
I os conjuntos de dados "limpos"vs"sujos"
I cada variável é uma colunaI cada observação forma uma linhaI dados = célulaI cada tipo de unidade observacional
forma uma tabela
"Tidy datasets are all alike,but every messy datasetis messy in its own way"
Hadley Wickham
Ricardo Jorge Lopes Publicação de dados - GBIF | Qualidade e limpeza 26 Junho 2019 9 / 23
folhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação proteção dos dados
correcta estrutura de dados - tidy data
I os conjuntos de dados "limpos"vs"sujos"
I cada variável é uma colunaI cada observação forma uma linhaI dados = célulaI cada tipo de unidade observacional
forma uma tabela
Ricardo Jorge Lopes Publicação de dados - GBIF | Qualidade e limpeza 26 Junho 2019 9 / 23
folhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação proteção dos dados
correcta estrutura de dados - tidy data
I os conjuntos de dados "limpos"vs"sujos"
I cada variável é uma colunaI cada observação forma uma linhaI dados = célulaI cada tipo de unidade observacional
forma uma tabela
Ricardo Jorge Lopes Publicação de dados - GBIF | Qualidade e limpeza 26 Junho 2019 9 / 23
folhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação proteção dos dados
correcta estrutura de dados - tidy data
I os conjuntos de dados "limpos"vs"sujos"
I cada variável é uma colunaI cada observação forma uma linhaI dados = célulaI cada tipo de unidade observacional
forma uma tabela
Ricardo Jorge Lopes Publicação de dados - GBIF | Qualidade e limpeza 26 Junho 2019 9 / 23
folhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação proteção dos dados
correcta estrutura de dados - tidy data
I os conjuntos de dados "limpos"vs"sujos"
I cada variável é uma colunaI cada observação forma uma linhaI dados = célulaI cada tipo de unidade observacional
forma uma tabela
Ricardo Jorge Lopes Publicação de dados - GBIF | Qualidade e limpeza 26 Junho 2019 9 / 23
folhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação proteção dos dados
erros mais comuns
I várias tabelas numa folhaI tabelas separadas em várias folhasI cabeçalhos das colunas com valores,
não nomes de variáveisI muitas variáveis em uma colunaI variáveis armazenadas em colunas e
linhasI vários tipos de unidades observacionais
na mesma tabela
Ricardo Jorge Lopes Publicação de dados - GBIF | Qualidade e limpeza 26 Junho 2019 10 / 23
folhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação proteção dos dados
erros mais comuns
I várias tabelas numa folhaI tabelas separadas em várias folhasI cabeçalhos das colunas com valores,
não nomes de variáveisI muitas variáveis em uma colunaI variáveis armazenadas em colunas e
linhasI vários tipos de unidades observacionais
na mesma tabela
Ricardo Jorge Lopes Publicação de dados - GBIF | Qualidade e limpeza 26 Junho 2019 10 / 23
folhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação proteção dos dados
erros mais comuns
I várias tabelas numa folhaI tabelas separadas em várias folhasI cabeçalhos das colunas com valores,
não nomes de variáveisI muitas variáveis em uma colunaI variáveis armazenadas em colunas e
linhasI vários tipos de unidades observacionais
na mesma tabela
Ricardo Jorge Lopes Publicação de dados - GBIF | Qualidade e limpeza 26 Junho 2019 10 / 23
folhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação proteção dos dados
erros mais comuns
I várias tabelas numa folhaI tabelas separadas em várias folhasI cabeçalhos das colunas com valores,
não nomes de variáveisI muitas variáveis em uma colunaI variáveis armazenadas em colunas e
linhasI vários tipos de unidades observacionais
na mesma tabela
Ricardo Jorge Lopes Publicação de dados - GBIF | Qualidade e limpeza 26 Junho 2019 10 / 23
folhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação proteção dos dados
erros mais comuns
I várias tabelas numa folhaI tabelas separadas em várias folhasI cabeçalhos das colunas com valores,
não nomes de variáveisI muitas variáveis em uma colunaI variáveis armazenadas em colunas e
linhasI vários tipos de unidades observacionais
na mesma tabela
A B C D E F
1 country year m014 m1524 f014 m1524
2 AD 2000 0 0 3 0
3 AE 2000 2 0 9 13
4 AF 2000 228 124 172 89
5 AG 2000 0 2 5 0
6 AL 2000 186 231 36 95
7 AM 2000 - 4 - 45
8 AN 2000 - - - -
9 AO 2000 89 23 16 64
Ricardo Jorge Lopes Publicação de dados - GBIF | Qualidade e limpeza 26 Junho 2019 10 / 23
folhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação proteção dos dados
erros mais comuns
I várias tabelas numa folhaI tabelas separadas em várias folhasI cabeçalhos das colunas com valores,
não nomes de variáveisI muitas variáveis em uma colunaI variáveis armazenadas em colunas e
linhasI vários tipos de unidades observacionais
na mesma tabela
A B C D E F G
1 year artist time track date week rank
2 1988 Pixies 4:22 Gigantic 1999 1 87
3 1988 Pixies 4:22 Gigantic 1999 2 82
4 1988 Pixies 4:22 Gigantic 1999 3 72
5 1988 Pixies 4:22 Gigantic 1999 4 87
6 1988 The Smiths 3:07 Panic 1999 1 23
7 1988 The Smiths 3:07 Panic 1999 2 45
8 1988 The Smiths 3:07 Panic 1999 3 48
9 1988 The Smiths 3:07 Panic 1999 4 62
Ricardo Jorge Lopes Publicação de dados - GBIF | Qualidade e limpeza 26 Junho 2019 10 / 23
folhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação proteção dos dados
erros mais comuns
I diferenças entre zeros e umacélula em branco
I deixar em branco célulassemelhantes
I fazer "merge"de colunasI inserir unidades numa célula
A B C D E F
1 country year m014 m1524 f014 m1524
2 AD 2000 0 0 3 0
3 AE 2000 2 0 9 13
4 AF 2000 228 124 172 89
5 AG 2000 0 2 5 0
6 AL 2000 186 231 36 95
7 AM 2000 - 4 - 45
8 AN 2000 - - - -
9 AO 2000 89 23 16 64
Ricardo Jorge Lopes Publicação de dados - GBIF | Qualidade e limpeza 26 Junho 2019 11 / 23
folhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação proteção dos dados
erros mais comuns
I diferenças entre zeros e umacélula em branco
I deixar em branco célulassemelhantes
I fazer "merge"de colunasI inserir unidades numa célula
1
2
3
4
5
AA B Cid date glucose
101 2015-06-14 149.3
102 95.3
103 2015-06-18 97.5
104 117.0
Ricardo Jorge Lopes Publicação de dados - GBIF | Qualidade e limpeza 26 Junho 2019 11 / 23
folhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação proteção dos dados
erros mais comuns
I diferenças entre zeros e umacélula em branco
I deixar em branco célulassemelhantes
I fazer "merge"de colunasI inserir unidades numa célula
A B C D E
1 1 min 5 min
2 strain wild type toxic
3 A 145 134 167 212
4 B 123 154 243 143
Ricardo Jorge Lopes Publicação de dados - GBIF | Qualidade e limpeza 26 Junho 2019 11 / 23
folhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação proteção dos dados
erros mais comuns
I diferenças entre zeros e umacélula em branco
I deixar em branco célulassemelhantes
I fazer "merge"de colunasI inserir unidades numa célula
A
1 Area
2 10 km_square
3 100 m_square
4 1 km_square
A B
1 AreaValue AreaUnit
2 10 km_square
3 100 m_square
4 1 km_square
Ricardo Jorge Lopes Publicação de dados - GBIF | Qualidade e limpeza 26 Junho 2019 11 / 23
folhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação proteção dos dados
recomendações
I bons nomes de variáveisI evitar caracteres que possam
causar problemasI adicionar metadadosI utilizar um standard para
valores nulos
good name good alternative avoid
Max_temp_C MaxTemp Maximum Temp (ºC)
Precipitation_mm Precipitation precmm
Mean_year_growth MeanYearGrowth Mean growth/year
sex sex M/F
weight weight W.
cell_type CellType Cell type
Observation_01 first_observation 1st Obs.
Ricardo Jorge Lopes Publicação de dados - GBIF | Qualidade e limpeza 26 Junho 2019 12 / 23
folhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação proteção dos dados
recomendações
I bons nomes de variáveisI evitar caracteres que possam
causar problemasI adicionar metadadosI utilizar um standard para
valores nulos
$ @
% # &
* ( )
! / -
Ricardo Jorge Lopes Publicação de dados - GBIF | Qualidade e limpeza 26 Junho 2019 12 / 23
folhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação proteção dos dados
recomendações
I bons nomes de variáveisI evitar caracteres que possam
causar problemasI adicionar metadadosI utilizar um standard para
valores nulos
Ricardo Jorge Lopes Publicação de dados - GBIF | Qualidade e limpeza 26 Junho 2019 12 / 23
folhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação proteção dos dados
recomendações
I bons nomes de variáveisI evitar caracteres que possam
causar problemasI adicionar metadadosI utilizar um standard para
valores nulos
Null values Problems Compatibility Recommendation
0 Indistinguishable from a true zero Never use
BlankHard to distinguish values that are missing from thoseoverlooked on entry. Hard to distinguish blanks fromspaces, which behave differently.
R, Python, SQL Best option
-999, 999 Not recognized as null by many programs without userinput. Can be inadvertently entered into calculations. Avoid
NA, na
Can also be an abbreviation (e.g., North America), cancause problems with data type (turn a numerical columninto a text column). NA is more commonly recognizedthan na.
R Good option
N/A An alternate form of NA, but often not compatible withsoftware Avoid
NULL Can cause problems with data type SQL Good option
None Uncommon. Can cause problems with data type Python Avoid
No data Uncommon. Can cause problems with data type,contains a space Avoid
Missing Uncommon. Can cause problems with data type
-,+,. Uncommon. Can cause problems with data type Avoid
Ricardo Jorge Lopes Publicação de dados - GBIF | Qualidade e limpeza 26 Junho 2019 12 / 23
folhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação proteção dos dados
erros mais comuns
I espaços antes ou depois dotexto
I texto com erros ortográficosI texto auto-convertidosI texto convertido em formula
A
1 species mistake
2 Calidris alpina correct
3 Calidris alpina one space before
4 calidris alpina no capitals
5 Calidris aplina Wrong spelling
6 Calidris alpina One space after
7 Calidris alpine automatic “correction”
Ricardo Jorge Lopes Publicação de dados - GBIF | Qualidade e limpeza 26 Junho 2019 13 / 23
folhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação proteção dos dados
erros mais comuns
I espaços antes ou depois dotexto
I texto com erros ortográficosI texto auto-convertidosI texto convertido em formula
A
1 species mistake
2 Calidris alpina correct
3 Calidris alpina one space before
4 calidris alpina no capitals
5 Calidris aplina Wrong spelling
6 Calidris alpina One space after
7 Calidris alpine automatic “correction”
Ricardo Jorge Lopes Publicação de dados - GBIF | Qualidade e limpeza 26 Junho 2019 13 / 23
folhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação proteção dos dados
erros mais comuns
I espaços antes ou depois dotexto
I texto com erros ortográficosI texto auto-convertidosI texto convertido em formula
A
1 species mistake
2 Calidris alpina correct
3 Calidris alpina one space before
4 calidris alpina no capitals
5 Calidris aplina Wrong spelling
6 Calidris alpina One space after
7 Calidris alpine automatic “correction”
Ricardo Jorge Lopes Publicação de dados - GBIF | Qualidade e limpeza 26 Junho 2019 13 / 23
folhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação proteção dos dados
erros mais comuns
I espaços antes ou depois dotexto
I texto com erros ortográficosI texto auto-convertidosI texto convertido em formula
Dec01
01 December 2001
Ricardo Jorge Lopes Publicação de dados - GBIF | Qualidade e limpeza 26 Junho 2019 13 / 23
folhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação proteção dos dados
recomendações
I utilizar tabelas de validaçãoI evitar inserir duas vezes a
mesma informaçãoI utilizar fórmulas de ligação de
tabelas (e.g., VLOOKUP)
Ricardo Jorge Lopes Publicação de dados - GBIF | Qualidade e limpeza 26 Junho 2019 14 / 23
folhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação proteção dos dados
recomendações
I utilizar tabelas de validaçãoI evitar inserir duas vezes a
mesma informaçãoI utilizar fórmulas de ligação de
tabelas (e.g., VLOOKUP)
A B C D E F G
1 year artist time track date week rank
2 1988 Pixies 4:22 Gigantic 1999 1 87
3 1988 Pixies 4:22 Gigantic 1999 2 82
4 1988 Pixies 4:22 Gigantic 1999 3 72
5 1988 Pixies 4:22 Gigantic 1999 4 87
6 1988 The Smiths 3:07 Panic 1999 1 23
7 1988 The Smiths 3:07 Panic 1999 2 45
8 1988 The Smiths 3:07 Panic 1999 3 48
9 1988 The Smiths 3:07 Panic 1999 4 62
Ricardo Jorge Lopes Publicação de dados - GBIF | Qualidade e limpeza 26 Junho 2019 14 / 23
folhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação proteção dos dados
recomendações
I utilizar tabelas de validaçãoI evitar inserir duas vezes a
mesma informaçãoI utilizar fórmulas de ligação de
tabelas (e.g., VLOOKUP)
A B C
1 species_id species count
2 CAL_ALP Calidris alpina 3
3 POR_POR Porphyrio porphyrio 43
4 POR_POR Porphyrio porphyrio
A B C
1 species_id species family
2 CAL_ALP Calidris alpina Scolopacidae
3 POR_POR Porphyrio porphyrio Rallidae
4 LAR_FUS Larus fuscus Laridae
Ricardo Jorge Lopes Publicação de dados - GBIF | Qualidade e limpeza 26 Junho 2019 14 / 23
folhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação proteção dos dados
Problemas
I formatação automáticaI transformar texto em datas
(e.g., DEC1)I datas menores que 1899 não
existemI internamente, datas são
armazenadas como integrais
Dec01
01 December 2001
Ricardo Jorge Lopes Publicação de dados - GBIF | Qualidade e limpeza 26 Junho 2019 15 / 23
folhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação proteção dos dados
Diferentes sistemas - Windows vs OSX
I 1900 sistema de datas - WindowsI 1904 sistema de datas - OSXI diferença de 1.462 diasI e.g., 5 de Julho, 1998 pode ser dois
números diferentes35981 (sistema 1900) e 34519 (sistema1904)
Ricardo Jorge Lopes Publicação de dados - GBIF | Qualidade e limpeza 26 Junho 2019 16 / 23
folhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação proteção dos dados
Diferentes sistemas - Windows vs OSX
I 1900 sistema de datas - WindowsI 1904 sistema de datas - OSXI diferença de 1.462 diasI e.g., 5 de Julho, 1998 pode ser dois
números diferentes35981 (sistema 1900) e 34519 (sistema1904)
1998-07-05
35.981windows mac
34.519
Ricardo Jorge Lopes Publicação de dados - GBIF | Qualidade e limpeza 26 Junho 2019 16 / 23
folhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação proteção dos dados
datas - YYYY-MM-DD
I "ISO 8601” padrãoI YYYY-MM-DD, como 2013-02-27I colunas para ano, mês, dia, formatadas
como textoI ou como uma linha (YYYYMMDD)
Ricardo Jorge Lopes Publicação de dados - GBIF | Qualidade e limpeza 26 Junho 2019 17 / 23
folhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação proteção dos dados
datas - YYYY-MM-DD
I "ISO 8601” padrãoI YYYY-MM-DD, como 2013-02-27I colunas para ano, mês, dia, formatadas
como textoI ou como uma linha (YYYYMMDD)
2019-06-26year month day
Ricardo Jorge Lopes Publicação de dados - GBIF | Qualidade e limpeza 26 Junho 2019 17 / 23
folhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação proteção dos dados
datas - YYYY-MM-DD
I "ISO 8601” padrãoI YYYY-MM-DD, como 2013-02-27I colunas para ano, mês, dia, formatadas
como textoI ou como uma linha (YYYYMMDD)
2019-06-262019 06 26
20190626
Ricardo Jorge Lopes Publicação de dados - GBIF | Qualidade e limpeza 26 Junho 2019 17 / 23
folhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação proteção dos dados
datas - YYYY-MM-DD
I "ISO 8601” padrãoI YYYY-MM-DD, como 2013-02-27I colunas para ano, mês, dia, formatadas
como textoI ou como uma linha (YYYYMMDD)
2019-06-262019 06 26
20190626
Ricardo Jorge Lopes Publicação de dados - GBIF | Qualidade e limpeza 26 Junho 2019 17 / 23
folhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação proteção dos dados
formatação como informação
I a cor da fonte ou do fundo dacélula
I tamanho, formas e versões defontes
I difícil de usar como filtroI difícil de atribuir um significado
Ricardo Jorge Lopes Publicação de dados - GBIF | Qualidade e limpeza 26 Junho 2019 18 / 23
folhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação proteção dos dados
recomendações
I inserir novas colunasI se ajudar a ler a informação,
utilizar a formataçãocondicional
I utilizar fontes mono-espaçadasI não utilizar comentários para
caracterizar uma coluna, émelhor usar a folha dedescrição dos campos
Ricardo Jorge Lopes Publicação de dados - GBIF | Qualidade e limpeza 26 Junho 2019 19 / 23
folhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação proteção dos dados
recomendações
I inserir novas colunasI se ajudar a ler a informação,
utilizar a formataçãocondicional
I utilizar fontes mono-espaçadasI não utilizar comentários para
caracterizar uma coluna, émelhor usar a folha dedescrição dos campos
Ricardo Jorge Lopes Publicação de dados - GBIF | Qualidade e limpeza 26 Junho 2019 19 / 23
folhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação proteção dos dados
segurança
I bases de dados têm rotinasinexistentes nas folhas decálculo
I não há controle de versõesI não há registo de alterações
no ficheiroI não há sistemas de
redundância
Ricardo Jorge Lopes Publicação de dados - GBIF | Qualidade e limpeza 26 Junho 2019 20 / 23
folhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação proteção dos dados
recomendações
I salvar versões do ficheiro, com umsistema coerente (1.1, 1.1, 2.0 ou data)
I aumentar redundância com cópias desegurança em locais espaciaisdiferentes
I sistemas de backup incremental,"cloning"ou sincronização
I salvar num formato intermédio baseadoem ficheiros de texto (e.g., commaseparated values - csv)
I não mexer nos dados originais
Ricardo Jorge Lopes Publicação de dados - GBIF | Qualidade e limpeza 26 Junho 2019 21 / 23
folhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação proteção dos dados
recomendações
I salvar versões do ficheiro, com umsistema coerente (1.1, 1.1, 2.0 ou data)
I aumentar redundância com cópias desegurança em locais espaciaisdiferentes
I sistemas de backup incremental,"cloning"ou sincronização
I salvar num formato intermédio baseadoem ficheiros de texto (e.g., commaseparated values - csv)
I não mexer nos dados originais
Ricardo Jorge Lopes Publicação de dados - GBIF | Qualidade e limpeza 26 Junho 2019 21 / 23
folhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação proteção dos dados
recomendações
I salvar versões do ficheiro, com umsistema coerente (1.1, 1.1, 2.0 ou data)
I aumentar redundância com cópias desegurança em locais espaciaisdiferentes
I sistemas de backup incremental,"cloning"ou sincronização
I salvar num formato intermédio baseadoem ficheiros de texto (e.g., commaseparated values - csv)
I não mexer nos dados originais
Ricardo Jorge Lopes Publicação de dados - GBIF | Qualidade e limpeza 26 Junho 2019 21 / 23
folhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação proteção dos dados
recomendações
I salvar versões do ficheiro, com umsistema coerente (1.1, 1.1, 2.0 ou data)
I aumentar redundância com cópias desegurança em locais espaciaisdiferentes
I sistemas de backup incremental,"cloning"ou sincronização
I salvar num formato intermédio baseadoem ficheiros de texto (e.g., commaseparated values - csv)
I não mexer nos dados originais
Ricardo Jorge Lopes Publicação de dados - GBIF | Qualidade e limpeza 26 Junho 2019 21 / 23
folhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação proteção dos dados
para ler
I Introduz o conceito de Tidy DataHickham, 2014
I Conselhos para disponibilização de dadosWhite, 2013
I Boas prácticas de uso de folhas de cálculoBroman and Woo, 2018
Ricardo Jorge Lopes Publicação de dados - GBIF | Qualidade e limpeza 26 Junho 2019 22 / 23
folhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação proteção dos dados
Ricardo Jorge [email protected]
Investigador CIBIO-UPCentro de Investigação emBiodiversidade e Recursos Genéticos
Curador MHNC-UPMuseu de História Natural edas Ciências da Universidade do Porto
Este conteúdo é disponibilizado sob licença em acessoaberto https://creativecommons.org/licenses/by-sa/4.0/
Ricardo Jorge Lopes Publicação de dados - GBIF | Qualidade e limpeza 26 Junho 2019 23 / 23