30
1 FONTES DE ERRO, HIPÓTESES, ANÁLISE EXPLORATÓRIA DE DADOS – 1ª PARTE

New Análise Exploratória de Dados 1a parte - CPGCCmarcelo.menezes.reis/Aula02CPGCC2017.pdf · 2017. 3. 8. · Tabela de frequências e histograma para dados não agrupados. CONTÍNUA:

  • Upload
    others

  • View
    3

  • Download
    0

Embed Size (px)

Citation preview

Page 1: New Análise Exploratória de Dados 1a parte - CPGCCmarcelo.menezes.reis/Aula02CPGCC2017.pdf · 2017. 3. 8. · Tabela de frequências e histograma para dados não agrupados. CONTÍNUA:

1

FONTES DE ERRO, HIPÓTESES, ANÁLISE EXPLORATÓRIA DE

DADOS – 1ª PARTE

Page 2: New Análise Exploratória de Dados 1a parte - CPGCCmarcelo.menezes.reis/Aula02CPGCC2017.pdf · 2017. 3. 8. · Tabela de frequências e histograma para dados não agrupados. CONTÍNUA:

Fontes de erro

2

Mesmos dados

População

incorreta

Page 3: New Análise Exploratória de Dados 1a parte - CPGCCmarcelo.menezes.reis/Aula02CPGCC2017.pdf · 2017. 3. 8. · Tabela de frequências e histograma para dados não agrupados. CONTÍNUA:

“Prescrição”

3

Listar fontes

de variação

Definir

população

Objetivos:

1º passo

Formular

hipóteses

ANTES

Page 4: New Análise Exploratória de Dados 1a parte - CPGCCmarcelo.menezes.reis/Aula02CPGCC2017.pdf · 2017. 3. 8. · Tabela de frequências e histograma para dados não agrupados. CONTÍNUA:

Hipóteses de Pesquisa

“Para homens acima de 40 anos com hipertensão crônica, uma dose diária de 100 mg desta nova droga reduzirá em 10 mm de mercúrio (em média) a pressão sanguínea diastólica “.

“Para homens acima de 40 anos com hipertensão crônica, uma dose diária de 100 mg desta nova droga reduzirá em 10 mm de mercúrio (em média) a pressão sanguínea diastólica comparada a uma dose equivalente de metropolol“.

“Esta nova variedade de tijolo refratário apresentará um ponto de fusão 200º C maior (em média) do que a variedade atualmente usada”.

4

Page 5: New Análise Exploratória de Dados 1a parte - CPGCCmarcelo.menezes.reis/Aula02CPGCC2017.pdf · 2017. 3. 8. · Tabela de frequências e histograma para dados não agrupados. CONTÍNUA:

5

AED - Conceito

Necessário organizá-los!

Necessário resumi-los!

Interpretação e tomada

de decisões.

Page 6: New Análise Exploratória de Dados 1a parte - CPGCCmarcelo.menezes.reis/Aula02CPGCC2017.pdf · 2017. 3. 8. · Tabela de frequências e histograma para dados não agrupados. CONTÍNUA:

6

Objetivo

Estudar comportamento INDIVIDUAL das variáveis.

Estudar RELACIONAMENTO entre as variáveis.

Page 7: New Análise Exploratória de Dados 1a parte - CPGCCmarcelo.menezes.reis/Aula02CPGCC2017.pdf · 2017. 3. 8. · Tabela de frequências e histograma para dados não agrupados. CONTÍNUA:

7

Escolha das técnicas de AED

Nível de mensuração das variáveis.

Objetivo da análise:

Comportamento individual da variável.

Comportamento da variável em função de uma ou mais variáveis (ferramentas múltiplas).

Número de variáveis envolvidas.

Tamanho do conjunto de dados.

Tempo disponível para a apresentação dos resultados.

Grau de conhecimento estatístico do público alvo.

Page 8: New Análise Exploratória de Dados 1a parte - CPGCCmarcelo.menezes.reis/Aula02CPGCC2017.pdf · 2017. 3. 8. · Tabela de frequências e histograma para dados não agrupados. CONTÍNUA:

8

Nível de mensuração

Qualitativas

Tabelas de freqüência ou percentuais

Gráficos (colunas, setores, linhas)

Quantitativas

Tabelas de freqüência ou percentuais

Gráficos (diagrama de pontos, histograma,

diagrama em caixas, linhas)

Medidas de síntese: média, mediana,

desvio padrão

Page 9: New Análise Exploratória de Dados 1a parte - CPGCCmarcelo.menezes.reis/Aula02CPGCC2017.pdf · 2017. 3. 8. · Tabela de frequências e histograma para dados não agrupados. CONTÍNUA:

9

Nível de mensuração

Variáveis QUANTITATIVAS: Discretas - lista finita (geralmente, números inteiros).

Exemplo: quantidade de máquinas ligadas.

Contínuas - infinitos resultados possíveis (um intervalo dos números reais).

Exemplo: tempo de resposta (em segundos).

Page 10: New Análise Exploratória de Dados 1a parte - CPGCCmarcelo.menezes.reis/Aula02CPGCC2017.pdf · 2017. 3. 8. · Tabela de frequências e histograma para dados não agrupados. CONTÍNUA:

10

Mensuração de variáveis

Como medir satisfação com o trabalho?

classificar: “satisfeito” / “não satisfeito”

grau de satisfação: escala de 0 a 10

grau de satisfação: escala de 1 a 5 associada a adjetivos

grau de satisfação: escala construída com vários itens de um questionário

Page 11: New Análise Exploratória de Dados 1a parte - CPGCCmarcelo.menezes.reis/Aula02CPGCC2017.pdf · 2017. 3. 8. · Tabela de frequências e histograma para dados não agrupados. CONTÍNUA:

Mensuração de variáveis

Como medir qualidade de um algoritmo?

Medir tempo de processamento (comparando com algoritmos existentes).

Registrar percentual de “acertos” (comparando com algoritmos existentes).

Como definir/medir “acertos”.

11

Page 12: New Análise Exploratória de Dados 1a parte - CPGCCmarcelo.menezes.reis/Aula02CPGCC2017.pdf · 2017. 3. 8. · Tabela de frequências e histograma para dados não agrupados. CONTÍNUA:

Variáveis intervenientes

Refletir sobre quais variáveis podem influenciar a variável de resposta.

“Pressão arterial diastólica” pode ser influenciada por...

Sexo do paciente?

Idade do paciente?

Hábitos alimentares?

Hábitos de atividade física?

Outras condições médicas pré-existentes? 12

Page 13: New Análise Exploratória de Dados 1a parte - CPGCCmarcelo.menezes.reis/Aula02CPGCC2017.pdf · 2017. 3. 8. · Tabela de frequências e histograma para dados não agrupados. CONTÍNUA:

13

Pré-análise dos dados

Dados perdidos: não foram registrados para um ou mais dos integrantes do conjunto.

Até 5% aceitável.

Erros de registro: problemas de ortografia, digitação (facilmente identificáveis), valores discrepantes (quando resultante de erros).

Inconsistências: sua identificação já faz parte da análise dos dados.

Importante para mineração de dados.

Page 14: New Análise Exploratória de Dados 1a parte - CPGCCmarcelo.menezes.reis/Aula02CPGCC2017.pdf · 2017. 3. 8. · Tabela de frequências e histograma para dados não agrupados. CONTÍNUA:

14

Recodificação e Transformação

Criar novas variáveis usando condições fixadas.

Recodificação:

Qualitativa para qualitativa.

Quantitativa para qualitativa (categorização).

Quantitativa contínua para classes (agrupamento em classes)

Transformação:

Quantitativa para quantitativa (operação matemática).

Page 15: New Análise Exploratória de Dados 1a parte - CPGCCmarcelo.menezes.reis/Aula02CPGCC2017.pdf · 2017. 3. 8. · Tabela de frequências e histograma para dados não agrupados. CONTÍNUA:

Distribuição de frequências

15

Valores possíveis

da variável Número de ocorrências

de cada valor

Page 16: New Análise Exploratória de Dados 1a parte - CPGCCmarcelo.menezes.reis/Aula02CPGCC2017.pdf · 2017. 3. 8. · Tabela de frequências e histograma para dados não agrupados. CONTÍNUA:

16

Distribuição de frequências - variáveis qualitativas

Tipo de seguro contratado em 5000 sinistros

Fonte: hipotética

Page 17: New Análise Exploratória de Dados 1a parte - CPGCCmarcelo.menezes.reis/Aula02CPGCC2017.pdf · 2017. 3. 8. · Tabela de frequências e histograma para dados não agrupados. CONTÍNUA:

17

Gráfico de colunas

600

800

1000

1200

1400

1600

1800

2000

2200

2400

2600

Simples Terceiros Total

Tipo de seguro contratado

Page 18: New Análise Exploratória de Dados 1a parte - CPGCCmarcelo.menezes.reis/Aula02CPGCC2017.pdf · 2017. 3. 8. · Tabela de frequências e histograma para dados não agrupados. CONTÍNUA:

18

Gráfico de colunas

0200400600800

100012001400160018002000220024002600

Simples Terceiros Total

Tipo de seguro contratado

Page 19: New Análise Exploratória de Dados 1a parte - CPGCCmarcelo.menezes.reis/Aula02CPGCC2017.pdf · 2017. 3. 8. · Tabela de frequências e histograma para dados não agrupados. CONTÍNUA:

19

Gráfico em setores (circular ou pizza)

49,34%

30,36%

20,30%

Tipo de seguro contratado

Simples

Terceiros

Total

Page 20: New Análise Exploratória de Dados 1a parte - CPGCCmarcelo.menezes.reis/Aula02CPGCC2017.pdf · 2017. 3. 8. · Tabela de frequências e histograma para dados não agrupados. CONTÍNUA:

20

Distribuição de frequências - variáveis quantitativas

Nível de mensuração da variável quantitativa:

DISCRETA: semelhante às variáveis qualitativas.

Tabela de frequências e histograma para dados não agrupados.

CONTÍNUA: necessário agrupar os dados para possibilitar o resumo do conjunto e melhor visualização.

Tabelas de frequências e histograma para dados agrupados, diagramas em caixa.

Page 21: New Análise Exploratória de Dados 1a parte - CPGCCmarcelo.menezes.reis/Aula02CPGCC2017.pdf · 2017. 3. 8. · Tabela de frequências e histograma para dados não agrupados. CONTÍNUA:

21

Tabela de frequências - dados não agrupados

Semelhante às qualitativas: registrar os valores possíveis e contar o número de ocorrências de cada um.

Numa rede de computadores, a quantidade de máquinas que costumam estar ligadas, por dia

20 26 21 21 20 21 23 22 24 22

22 22 23 23 23 22 23 22 24 21

Page 22: New Análise Exploratória de Dados 1a parte - CPGCCmarcelo.menezes.reis/Aula02CPGCC2017.pdf · 2017. 3. 8. · Tabela de frequências e histograma para dados não agrupados. CONTÍNUA:

22

Distribuição de Frequências

Máquinas

em uso

20

21

22

23

24

25

26

Total

Frequência

(absoluta)

2

4

6

5

2

0

1

20

Proporção

0,10 (10%)

0,20 (20%)

0,30 (30%)

0,25 (25%)

0,10 (10%)

0

0,05 ( 5%)

1 (100%)

Page 23: New Análise Exploratória de Dados 1a parte - CPGCCmarcelo.menezes.reis/Aula02CPGCC2017.pdf · 2017. 3. 8. · Tabela de frequências e histograma para dados não agrupados. CONTÍNUA:

23

Histograma

20 21 22 23 24 25 26

0,10

0,20

0,30

0,25

0,10

0,05

Máquinas em uso

Page 24: New Análise Exploratória de Dados 1a parte - CPGCCmarcelo.menezes.reis/Aula02CPGCC2017.pdf · 2017. 3. 8. · Tabela de frequências e histograma para dados não agrupados. CONTÍNUA:

24

Tabela de frequências para dados agrupados

Recomendável para grande conjuntos de variáveis QUANTITATIVAS.

PERDE-SE informação sobre o conjunto original para obter sua compactação.

Page 25: New Análise Exploratória de Dados 1a parte - CPGCCmarcelo.menezes.reis/Aula02CPGCC2017.pdf · 2017. 3. 8. · Tabela de frequências e histograma para dados não agrupados. CONTÍNUA:

25

Tabela de frequências para dados agrupados

Passos para construção:

Determinar o intervalo do conjunto.

Dividir o intervalo em k classes: k = 5 × log10 n (para n > 100)

Obter limites das classes.

Contar frequências dentro das classes.

Renda de uma amostra de clientes de uma seguradora (5000 observações):

k = 5 × log 10 5000 = 18,49485 => k = 18

Mínimo = 3 salários mínimos; Máximo = 47,88 salários mínimos

Amplitude classes = (47,88 – 3)/2,49333 => 2,50

Page 26: New Análise Exploratória de Dados 1a parte - CPGCCmarcelo.menezes.reis/Aula02CPGCC2017.pdf · 2017. 3. 8. · Tabela de frequências e histograma para dados não agrupados. CONTÍNUA:

26

Limite Inferior Limite superior Frequência % Freq. Acumulada % acumulado

3 5,50 2723 54,50% 2723 54,50% 5,50 8,00 1601 32,05% 4324 86,55% 8,00 10,50 318 6,37% 4642 92,91%

10,50 13,00 160 3,20% 4802 96,12% 13,00 15,50 82 1,64% 4884 97,76% 15,50 18,00 51 1,02% 4935 98,78% 18,00 20,50 28 0,56% 4963 99,34% 20,50 23,00 15 0,30% 4978 99,64% 23,00 25,50 11 0,22% 4989 99,86% 25,50 28,00 3 0,06% 4992 99,92% 28,00 30,50 2 0,04% 4994 99,96% 30,50 33,00 0 0,00% 4994 99,96% 33,00 35,50 1 0,02% 4995 99,98% 35,50 38,00 0 0,00% 4995 99,98% 38,00 40,50 0 0,00% 4995 99,98% 40,50 43,00 0 0,00% 4995 99,98% 43,00 45,50 0 0,00% 4995 99,98% 45,50 48,00 1 0,02% 4996 100%

Total 4996 100% - -

Renda dos clientes de uma seguradora (salários mínimos)

Page 27: New Análise Exploratória de Dados 1a parte - CPGCCmarcelo.menezes.reis/Aula02CPGCC2017.pdf · 2017. 3. 8. · Tabela de frequências e histograma para dados não agrupados. CONTÍNUA:

27

0

250

500

750

1000

1250

1500

1750

2000

2250

2500

2750

5,50 8,00 10,50 13,00 15,50 18,00 20,50 23,00 25,50 28,00 30,50 33,00 35,50 38,00 40,50 43,00 45,50 48,00

3 5,50 8,00 10,50 13,00 15,50 18,00 20,50 23,00 25,50 28,00 30,50 33,00 35,50 38,00 40,50 43,00 45,50

Fre

qu

ên

cia

Renda (salários mínimos)

Renda dos clientes de uma seguradora

Page 28: New Análise Exploratória de Dados 1a parte - CPGCCmarcelo.menezes.reis/Aula02CPGCC2017.pdf · 2017. 3. 8. · Tabela de frequências e histograma para dados não agrupados. CONTÍNUA:

28

Diagrama de pontos Distribution for variable: Falhas

4 6 8 10 12 14 16 18 20

Falhas

0,0

0,5

1,0

1,5

2,0

2,5

3,0

3,5

4,0

4,5

Page 29: New Análise Exploratória de Dados 1a parte - CPGCCmarcelo.menezes.reis/Aula02CPGCC2017.pdf · 2017. 3. 8. · Tabela de frequências e histograma para dados não agrupados. CONTÍNUA:

29

Gráfico de linhas Companhia aérea

Meses

me

ro d

e p

assa

ge

iro

s

0

100

200

300

400

500

600

700

0

100

200

300

400

500

600

700

0 10 20 30 40 50 60 70 80 90 100 110 120 130 140 150

Page 30: New Análise Exploratória de Dados 1a parte - CPGCCmarcelo.menezes.reis/Aula02CPGCC2017.pdf · 2017. 3. 8. · Tabela de frequências e histograma para dados não agrupados. CONTÍNUA:

30

Diagrama de Dispersão

y = 0,1846x + 2101,8R² = 0,8715

y = -0,00000263x2 + 0,31968319x + 865,73037153R² = 0,90050669

0

2000

4000

6000

8000

10000

12000

14000

0 10000 20000 30000 40000 50000 60000

Gas

tos

com

alim

en

taçã

o (

R$

)

Gastos totais (R$)

Gastos com alimentação x Gastos totais