23
TRANSFORMAÇÃO DE DADOS Alexandre Duarte - http://alexandre.ci.ufpb.br/ensino/iad

Transformação de Dados

Embed Size (px)

DESCRIPTION

Transformação de Dados

Citation preview

Page 1: Transformação de Dados

TRANSFORMAÇÃO DE DADOSAlexandre Duarte - http://alexandre.ci.ufpb.br/ensino/iad

Page 2: Transformação de Dados

TRANSFORMAÇÃO DE DADOS

• Quando tiramos uma foto muitas vezes o resultado não é o esperado

• As cores podem estar muito escuras ou muito claras

• O foco pode estar errado

• Objetos podem estar muito pequenos

• Nestes casos, utilizamos ferramentas para aplicar filtros e transformar a foto em algo mais próximo do que desejamos

• Muitas vezes o mesmo ocorrer com os dados

Page 3: Transformação de Dados

TRANSFORMAÇÃO DE DADOS

• Muitas vezes obtemos um conjunto de dados que quando visualizado apresenta imperfeições ou objetivos difíceis de ver

• Além disso, se você pretende analisar estatisticamente seus dados provavelmente precisar considerar a forma como os dados estão distribuídos

• Transformações são utilizadas para tratar destes dois problemas

Page 4: Transformação de Dados

TRANSFORMAÇÃO DE DADOS

• Transformações são conjuntos de procedimentos de manipulação que podem revelar fatos não observáveis em sua forma original.

• Podemos, por exemplo, ajustar a distribuição dos dados para torná-los mais fáceis de exibir e adequadas para certos testes estatísticos

Page 5: Transformação de Dados

ALERTA

• Jamais realize operações de transformação em seus dados originais!

• Você deve criar uma nova coluna para armazenar os novos valores para as variáveis sendo transformadas ou criar uma cópia inteira do seu conjunto de dados!

Page 6: Transformação de Dados

DISTRIBUIÇÃO NORMAL• Uma das suposições mais frequentemente utilizadas nos testes

estatísticos é que os dados são normalmente distribuídos

• Os dados se distribuem de foram simétrica ao redor de um valor central

• “Curva do sino”

• Alguns dados que são geralmente geralmente distribuídos de forma normal são medições humanas como altura, peso, expectativa de vida e resultados em testes de QI

Page 7: Transformação de Dados

DISTRIBUIÇÃO NORMAL

Page 8: Transformação de Dados

DISTRIBUIÇÃO NORMAL

Page 9: Transformação de Dados

OBLIQUIDADE

• Dados oblíquos, diferentemente de dados normais, não se distribuem de forma simétrica em relação a um valor central.

• Estes conjuntos tendem a ter mais observações à direita ou à esquerda deste valor

• Se você observar que seus dados apresentam esta característica talvez seja necessário realizar algum tipo de transformação

Page 10: Transformação de Dados

OBLIQUIDADE À ESQUERDA

Page 11: Transformação de Dados

OBLIQUIDADE À DIREITA

Page 12: Transformação de Dados

EXEMPLO

Page 13: Transformação de Dados

DISTRIBUIÇÃO DA POPULAÇÃO POR ESTADO BRASILEIRO

Freq

uênc

ia

0

4

8

12

16

População (milhões de habitantes)

Até 5 6 a 10 11 a 15 16 a 20 21 a 25 26 a 30 31 a 35 36 a 40 41 a 45

Page 14: Transformação de Dados

POPULAÇÃO POR ÁREA URBANIZADA

Popu

lação

(milh

ões d

e ha

bita

ntes

)

0

12.5

25

37.5

50

Área urbanizada (centenas de Km2)

0 12.5 25 37.5 50

Page 15: Transformação de Dados

TRANSFORMAÇÃO LOGARÍTMICA

Page 16: Transformação de Dados

DISTRIBUIÇÃO DA POPULAÇÃO POR ESTADO BRASILEIRO

Freq

uênc

ia

0

3.5

7

10.5

14

Log da população (milhões de habitantes)

Até 6.0 De 6.1 a 6.5 De 6.6 a 7.0 De 7.1 a 7.5 De 7.6 a 8

Page 17: Transformação de Dados

POPULAÇÃO POR ÁREA URBANIZADA

Log

da P

opula

ção

(milh

ões d

e ha

bita

ntes

)

1

2.75

4.5

6.25

8

Log da Área urbanizada (Km2)

1 1.75 2.5 3.25 4

Page 18: Transformação de Dados

TRANSFORMAÇÃO PELA RAÍZ QUADRADA

Page 19: Transformação de Dados

DISTRIBUIÇÃO DA POPULAÇÃO POR ESTADO BRASILEIRO

Freq

uênc

ia

0

3

6

9

12

Raiz quadrada da população (milhões de habitantes)

Até 1000 1001 a 2000 2001 a 3000 3001 a 4000 4001 a 5000 Acima de 5000

Page 20: Transformação de Dados

POPULAÇÃO POR ÁREA URBANIZADA

Raiz

Qua

drad

a da

Pop

ulaçã

o (m

ilhõe

s de

habi

tant

es)

1

1750.75

3500.5

5250.25

7000

Raiz Quadrada da Área urbanizada (Km2)

1 20.75 40.5 60.25 80

Page 21: Transformação de Dados

ESCOLHENDO A TRANSFORMAÇÃO CORRETA

• A medida que você começa a entender melhor os efeitos de diferentes transformações começará a se perguntar como escolher a transformação adequada

• Não é simples responder esta pergunta!

• Apesar de existirem métodos estatísticos para essa escolha, a resposta geralmente envolve tentativa e erro

• Uma estratégia geral é aplicar algumas das transformações mais utilizadas, observar os resultados e escolher a mais adequada

Page 22: Transformação de Dados

TRANSFORMAÇÕES COMUNSMétodo Operação

MatemáticaIndicações Contra-

indicações

Log ln(x) log(x)

Obliquidade à direita

Valores nulos Valores negativos

Raiz Quadrada x Obliquidade à direita Valores negativos

Quadrado x Obliquidade à esquerda Valores negativos

Raíz Cúbica xObliquidade à

direita Valores Negativos

Menos efetiva que o log na

normalização

Recíproco 1/xDiminuir valores

grandes e aumentar valores

pequenos

Valores nulos Valores negativos

Page 23: Transformação de Dados

ARMADILHAS• Uma vez que os métodos de transformação envolvem a

aplicação de uma função matemática aos dados, você precisa tomar cuidado na hora de interpretar e apresentar os resultados por conta da mudança na unidade

• Por exemplo, ao apresentar a transformação logarítmica nos exemplos passamos a tratar do log da população e não mais da população.

• Isso precisa ficar bem claro nos gráficos