20
José Roberto Motta Garcia [email protected] Nov/2016

Curso Intro à Ciência de Dados com R - 1.2 - Tratamento de dados

Embed Size (px)

Citation preview

José Roberto Motta [email protected]/2016

Fases da análise de dados – Tratamento de dados

José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R

Aviso

José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R

ATENÇÃO

Fechar e reabrir o RStudio(para ensinamento de conceito)

• Executam operações sobre um conjunto de dados (matrix, list, vector, data.frame, …)

• Muito poderosas e compactadoras de código

Funções ?apply: apply()

apply: Aplica função em TABELA (vector, matrix, data.frame, data.table, ...) e retorna a TABELA modificada pela função.

José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R

Funções ?apply: lapply() e sapply()

lapply: Aplica função em List e retorna um Listsapply: Aplica função em List e retorna um vector ou matrix (obedece retorno da função)

OUTRASmapply()rapply()tapply()vapply()

José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R

Normalização de dados – Conceito

Várias técnicas de aprendizado de máquina requerem que os dados estejam numa mesma escala, ou seja, mesmo range de valores, sob pena de: lentidão, imprecisão e attribuição errônea de relevância.

José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R

Normalização de dados – Execução e resultados

José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R

Dados faltantes: preparando o DSIris dataset (incluído no R)

• 3 Espécies de íris: versicolor, setosa e virginica

• Medições das pétalas e sépalas: largura e altura

José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R

Dados faltantes: verificando existência

José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R

Dados faltantes: produzindo “na mão”

Exemplo de geração de

númerosaleatórios

José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R

Dados faltantes: produzindo via pacote

Valores diferentes?Por quê?

José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R

Reprodutibilidade

Setar “semente” antes do comando que

usa num. aleatórios

Função prodNA() usa aleatoriedade(no slide anterior)

José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R

Dados faltantes: conhecendo

10 10 6 4

José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R

Dados faltantes: eliminando

Decidir se quantidade

de dados vai prejudicar

análise

José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R

Dados faltantes: preenchendo e analisando visualmente

José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R

Versões

Dados faltantes: analisando numericamente o preenchimento

José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R

Tratamento de dados diversos

José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R

Tratamento de dados: reshaping

José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R

WIDELONG

. funções de sumarização

. mineração de dados

. base plot

. funções de análise

. ggplot

. lattice plots

Shape do dataset: conceito

DATA PREC TMIN TMAX2016-09-21 5 10 212016-09-22 0 11 252016-09-23 2 14 29

DATA VARIAVEL

VALOR

2016-09-21 PREC 52016-09-21 TMIN 102016-09-21 TMAX 212016-09-22 PREC 02016-09-22 TMIN 112016-09-22 TMAX 252016-09-23 PREC 22016-09-23 TMIN 142016-09-23 TMAX 29

WIDELONG

• Cada valor das colunas de dados no WIDE se torna uma linha no LONG, para cada chave (que é a DATA)

• Para mudar o shape dcast() e reshape()

José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R

José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R

Conceito: processamento iterativo x vetorizado

+VOTE

SVOTES_F

RTESTE

2

VOTES

VOTES_FR

TESTE1+

++++++

=======

=