Upload
jose-roberto-motta-garcia
View
35
Download
1
Embed Size (px)
Citation preview
José Roberto Motta [email protected]/2016
Fases da análise de dados – Tratamento de dados
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
Aviso
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
ATENÇÃO
Fechar e reabrir o RStudio(para ensinamento de conceito)
• Executam operações sobre um conjunto de dados (matrix, list, vector, data.frame, …)
• Muito poderosas e compactadoras de código
Funções ?apply: apply()
apply: Aplica função em TABELA (vector, matrix, data.frame, data.table, ...) e retorna a TABELA modificada pela função.
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
Funções ?apply: lapply() e sapply()
lapply: Aplica função em List e retorna um Listsapply: Aplica função em List e retorna um vector ou matrix (obedece retorno da função)
OUTRASmapply()rapply()tapply()vapply()
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
Normalização de dados – Conceito
Várias técnicas de aprendizado de máquina requerem que os dados estejam numa mesma escala, ou seja, mesmo range de valores, sob pena de: lentidão, imprecisão e attribuição errônea de relevância.
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
Normalização de dados – Execução e resultados
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
Dados faltantes: preparando o DSIris dataset (incluído no R)
• 3 Espécies de íris: versicolor, setosa e virginica
• Medições das pétalas e sépalas: largura e altura
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
Dados faltantes: verificando existência
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
Dados faltantes: produzindo “na mão”
Exemplo de geração de
númerosaleatórios
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
Dados faltantes: produzindo via pacote
Valores diferentes?Por quê?
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
Reprodutibilidade
Setar “semente” antes do comando que
usa num. aleatórios
Função prodNA() usa aleatoriedade(no slide anterior)
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
Dados faltantes: conhecendo
10 10 6 4
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
Dados faltantes: eliminando
Decidir se quantidade
de dados vai prejudicar
análise
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
Dados faltantes: preenchendo e analisando visualmente
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
Versões
Dados faltantes: analisando numericamente o preenchimento
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
Tratamento de dados: reshaping
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
WIDELONG
. funções de sumarização
. mineração de dados
. base plot
. funções de análise
. ggplot
. lattice plots
Shape do dataset: conceito
DATA PREC TMIN TMAX2016-09-21 5 10 212016-09-22 0 11 252016-09-23 2 14 29
DATA VARIAVEL
VALOR
2016-09-21 PREC 52016-09-21 TMIN 102016-09-21 TMAX 212016-09-22 PREC 02016-09-22 TMIN 112016-09-22 TMAX 252016-09-23 PREC 22016-09-23 TMIN 142016-09-23 TMAX 29
WIDELONG
• Cada valor das colunas de dados no WIDE se torna uma linha no LONG, para cada chave (que é a DATA)
• Para mudar o shape dcast() e reshape()
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R