35
Descrição e Apresentação de Dados • Tabelas: Univariadas Bivariadas • Gráficos Colunas Barras Setores Linha Histogramas Polígono de frequências Ogivas

Descrição e Apresentação de Dados Tabelas: Univariadas Bivariadas Gráficos Colunas Barras Setores Linha Histogramas Polígono de frequências Ogivas

Embed Size (px)

Citation preview

Page 1: Descrição e Apresentação de Dados Tabelas: Univariadas Bivariadas Gráficos Colunas Barras Setores Linha Histogramas Polígono de frequências Ogivas

Descrição e Apresentação de Dados

• Tabelas: Univariadas Bivariadas

• GráficosColunasBarrasSetoresLinhaHistogramasPolígono de frequênciasOgivas

Page 2: Descrição e Apresentação de Dados Tabelas: Univariadas Bivariadas Gráficos Colunas Barras Setores Linha Histogramas Polígono de frequências Ogivas

Distribuição de frequências:

Variáveis qualitativas nominais: a distribuição de frequências é, simplesmente,

uma lista das categorias ou valores que uma ou mais variáveis apresentam em

conjunto com a quantidade de ocorrências (número) de cada valor ou categoria.

Esta quantidade é denominada de frequência absoluta (No.). Também, podemos

calcular a frequência percentual de cada categoria (%).

Tabela univariada: resume todos os valores ou categorias de uma variável.

Tabela 1: Alunos segundo sexoSexo No. %Feminino 20 69%Masculino 9 31%

Total 29 100%

Apresentação de Dados Qualitativos

Page 3: Descrição e Apresentação de Dados Tabelas: Univariadas Bivariadas Gráficos Colunas Barras Setores Linha Histogramas Polígono de frequências Ogivas

20

9

0 5 10 15 20

Feminino

Masculino

Distribuição de alunos segundo o sexo

Feminino69%

Masculino31%

• Gráficos para variáveis Nominais:

Tabela 1: Alunos segundo sexoSexo No. %Feminino 20 69%Masculino 9 31%

Total 29 100%

Apresentação de Dados Qualitativos

Page 4: Descrição e Apresentação de Dados Tabelas: Univariadas Bivariadas Gráficos Colunas Barras Setores Linha Histogramas Polígono de frequências Ogivas

Apresentação de dados qualitativos

Idade Feminino Masculino Total

17|---19 2 0 2

10% 0% 7%

19|---21 11 5 16

55% 56% 55%

21|---23 4 2 6

20% 22% 21%

> =23 3 2 5

15% 22% 17%

TOTAL 20 9 29

100% 100% 100%

Sexo

Tabela bi-variada: resume todos os valores ou categorias de duas variáveis.

Tabela 2: Alunos segundo sexo e idade

Page 5: Descrição e Apresentação de Dados Tabelas: Univariadas Bivariadas Gráficos Colunas Barras Setores Linha Histogramas Polígono de frequências Ogivas

Tabela bi-variada: resume todos os valores ou categorias de duas variáveis.

Usa o computador?

Sexo

Feminino Masculino TotalSim 55% 21% 76%Não 14% 10% 24%Total 69% 31% 100%

Apresentação de dados qualitativos

Tabela 3: Distribuição de alunos segundo o usa do computador por sexo

Page 6: Descrição e Apresentação de Dados Tabelas: Univariadas Bivariadas Gráficos Colunas Barras Setores Linha Histogramas Polígono de frequências Ogivas

Perspectiva dos Funcionários

0%

5%

10%

15%

20%25%

30%

35%

40%

45%

1 2 3 4 5 6 7 8 9 10Perspectiva inicial Perspectiva f inal

Tabela 4: Perspectiva inicial e atual dos funcionários

 Escala

Perspectiva Inicial Perspectiva Final

No. % No. %

1 0 0% 0 0%

2 0 0% 0 0%

3 0 0% 0 0%

4 0 0% 0 0%

5 1 3% 0 0%

6 3 10% 1 3%

7 6 20% 4 13%

8 10 33% 5 17%

9 5 17% 8 27%

10 5 17% 12 40%

Total 30 100% 30 100%

•Variáveis Ordinais

Apresentação de dados qualitativos

Page 7: Descrição e Apresentação de Dados Tabelas: Univariadas Bivariadas Gráficos Colunas Barras Setores Linha Histogramas Polígono de frequências Ogivas

Distribuição de frequências - dados agrupados - Geralmente trabalhamos com

conjuntos de centenas ou milhares de observações, onde uma análise razoável

torna-se impraticável. Taxa de desistência de

cartões de crédito

CREDICARD

Ponto médioxi

Freq. Absoluta

Freq. Cumulada Crescente

0,0 ├ 10,0 5 1 1

10,0 ├ 20,0 15 10 11

20,0 ├ 30,0 25 15 26

30,0 ├ 40,0 35 7 33

40,0 ├ 50,0 45 0 33

50,0 ├ 60,0 55 0 33

60,0├ 70,0 65 1 34

Total   34  

Nestes casos, podemos

construir distribuições de

frequências, agrupando

resultados em classes pré

estabelecidas. As classes

são pequenos intervalos

mutuamente exclusivos.

Apresentação de dados quantitativos

Page 8: Descrição e Apresentação de Dados Tabelas: Univariadas Bivariadas Gráficos Colunas Barras Setores Linha Histogramas Polígono de frequências Ogivas

Distribuição da taxa de desistência de cartões de crédito

0

2

4

6

8

10

12

14

16

0 5 15 25 35 45 55 65

Distribuição da taxa de desistência de cartões de crédito

0

2

4

6

8

10

12

14

16

0 5 15 25 35 45 55 65

Curva da distribuição percentual acumulada da taxa de desistência de cartões de crédito

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

0 5 15 25 35 45 55

Ogiva

Polígono de Freqüências Histograma de Freqüências

Page 9: Descrição e Apresentação de Dados Tabelas: Univariadas Bivariadas Gráficos Colunas Barras Setores Linha Histogramas Polígono de frequências Ogivas

Estatísticas Descritivas

•Medidas de tendência central

• Medidas de dispersão

• Medidas separatrizes

Page 10: Descrição e Apresentação de Dados Tabelas: Univariadas Bivariadas Gráficos Colunas Barras Setores Linha Histogramas Polígono de frequências Ogivas

Medidas de tendência central:

• Moda

• Mediana

• Média aritmética

?Xt

Page 11: Descrição e Apresentação de Dados Tabelas: Univariadas Bivariadas Gráficos Colunas Barras Setores Linha Histogramas Polígono de frequências Ogivas

Idade Freq. absoluta

18 4 19 8 20 9 21 6 22 3 23 6 25 3 26 1 27 1 30 1 38 2 44 1

Total 45

Maior freqüência

Moda = 20

• A moda é o valor que ocorre mais freqüentemente nos dados.

No exemplo abaixo, observamos que a moda é 20. Esta é a idade mais freqüente no grupo de 45 pessoas.

Page 12: Descrição e Apresentação de Dados Tabelas: Univariadas Bivariadas Gráficos Colunas Barras Setores Linha Histogramas Polígono de frequências Ogivas

Muitas vezes a moda pode não ser uma boa medida descritiva, dado que para calcular a moda não são usadas todas as observações;

A moda pode não ser um único valor, isto é, as observações podem apresentar mais de uma moda;

Não podemos combinar modas para calcular uma média modal de duas modas separadas na distribuição;

A moda é uma medida volátil, sensível a pequenas mudanças nas observações;

A moda não é afetada por valores extremos (outliers).

As propriedades da moda podem ser resumidas como segue:

Page 13: Descrição e Apresentação de Dados Tabelas: Univariadas Bivariadas Gráficos Colunas Barras Setores Linha Histogramas Polígono de frequências Ogivas

  A mediana é o valor médio central após ordenarmos os dados em forma ascendente.

(50%) (50%)

Page 14: Descrição e Apresentação de Dados Tabelas: Univariadas Bivariadas Gráficos Colunas Barras Setores Linha Histogramas Polígono de frequências Ogivas

Para calcular a mediana devemos realizar os seguintes passos:

• ordenar as observações em forma ascendente;

• identificar o meio ou centro das observações;

• o valor médio central das observações é a mediana.

Algebricamente, a mediana é o valor que ocupa a posição .

Caso a razão não seja um número inteiro, toma-se como

mediana a média dos dois valores de posições mais próximas a

. 2

)1( n

2

)1( n2

)1( n

Page 15: Descrição e Apresentação de Dados Tabelas: Univariadas Bivariadas Gráficos Colunas Barras Setores Linha Histogramas Polígono de frequências Ogivas

Na tabela de distribuição de freqüências do exemplo, observamos que o centro das observações está na posição (45+1)/2 = 23,

Idade Freq. absoluta

Freq. Acumulada

18 4 4 19 8 12 20 9 21 21 6 27 22 3 30 23 6 36 25 3 39 26 1 40 27 1 41 30 1 42 38 2 44 44 1 45

Total 45

Observações nas posições 22, 23, 24, ... 27.

Mediana = 21

Page 16: Descrição e Apresentação de Dados Tabelas: Univariadas Bivariadas Gráficos Colunas Barras Setores Linha Histogramas Polígono de frequências Ogivas

É possível determinar graficamente a mediana da distribuição de freqüências, usando a curva da freqüência acumulada (ogiva). Para o exemplo, a curva da distribuição percentual acumulada da distribuição de idades é mostrada na figura abaixo

Como no eixo vertical está marcada

a freqüência percentual,localizamos

o valor 50%. Deste ponto puxamos

uma linha na horizontal até a ogiva,

e uma linha vertical até a interseção

com o eixo dos x’s.Assim, a mediana

corresponde à idade de 20 anos.

Page 17: Descrição e Apresentação de Dados Tabelas: Univariadas Bivariadas Gráficos Colunas Barras Setores Linha Histogramas Polígono de frequências Ogivas

   A mediana não é volátil como a moda.

  A mediana, da mesma forma que a moda, não é particularmente sensível a valores extremos.

   A mediana toma sempre um único valor.

  A mediana é igual a um valor observado se o número de observações (n) é um número ímpar.

  A mediana pode ser determinada graficamente.

As propriedades da mediana podem ser resumidas como segue:

Page 18: Descrição e Apresentação de Dados Tabelas: Univariadas Bivariadas Gráficos Colunas Barras Setores Linha Histogramas Polígono de frequências Ogivas

Média aritmética

O conceito da média aritmética, ou simplesmente média, é bastante familiar.

 Para calcular a média, soma-se todas as observações e divide-se

pelo número de valores somados. Matematicamente, se as n

observações são representadas como: X1, X2, ... Xn, a média

aritmética pode ser escrita como:

que pode ser representada numa forma mais sucinta

n

XXXX n

21

n

XX

Page 19: Descrição e Apresentação de Dados Tabelas: Univariadas Bivariadas Gráficos Colunas Barras Setores Linha Histogramas Polígono de frequências Ogivas

5,2245

1012X

No exemplo 2, a idade média é calculada como:

Idade Xi

Freq. Absoluta fi

Xi fi

18 4 72 19 8 152 20 9 180 21 6 126 22 3 66 23 6 138 25 3 75 26 1 26 27 1 27 30 1 30 38 2 76 44 1 44

Total 45 1012

X1f1 = 18 x 4 = 72

X1f1+ X2f2+ ... + X12f12 = 1012

Page 20: Descrição e Apresentação de Dados Tabelas: Univariadas Bivariadas Gráficos Colunas Barras Setores Linha Histogramas Polígono de frequências Ogivas

if Xxi 2

Xxi ii fXx2

Taxa de desistencia de

cartões de crédito

CREDICARD

Ponto médioxi

Freq. Absoluta

(desvio) = (desvio)2 =  

0,0 ├ 10,0 5 1 -19,7 388,09 388,09

10,0 ├20,0 15 10 125,3 15700,09 157000,9

20,0 ├30,0 25 15 350,3 122710,1 1840651

30,0 ├40,0 35 7 220,3 48532,09 339724,6

40,0 ├50,0 45 0 -24,7 610,09 0

50,0 ├60,0 55 0 -24,7 610,09 0

60,0├70,0 65 1 40,3 1624,09 1624,09

Total   34     2339389

34

2339389

11

2

2

n

fXxS

n

iii

68805,5588 e S = 262,3081.

Desvio padrão para dados em intervalos de classe

Page 21: Descrição e Apresentação de Dados Tabelas: Univariadas Bivariadas Gráficos Colunas Barras Setores Linha Histogramas Polígono de frequências Ogivas

As propriedades da média aritmética podem ser resumidas como

segue:

•· Para calcular a média usa-se todas as observações disponíveis.

•·  A média é afetada por valores extremos.

•· A média é uma medida estável a pequenas mudanças das

observações.

•· A média não necessariamente será igual a um dos valores

observados.

•·  A média não pode ser determinada graficamente.

Page 22: Descrição e Apresentação de Dados Tabelas: Univariadas Bivariadas Gráficos Colunas Barras Setores Linha Histogramas Polígono de frequências Ogivas

Medidas de tendência central

Tipo de variávelNominal Ordinal Quantitativo

sModa sim sim simMediana não sim simMédia não não sim

A escolha das medidas de tendência central

Page 23: Descrição e Apresentação de Dados Tabelas: Univariadas Bivariadas Gráficos Colunas Barras Setores Linha Histogramas Polígono de frequências Ogivas

Comparação entre as medidas de tendência central:

Posições relativas da média, mediana e moda

(a) Distribuição simétrica Media

Mediana Moda

Média Moda Mediana (c) Distribuições assimétricas negativas

Moda Média Mediana (b) Distribuições assimétricas positivas

Page 24: Descrição e Apresentação de Dados Tabelas: Univariadas Bivariadas Gráficos Colunas Barras Setores Linha Histogramas Polígono de frequências Ogivas

Medidas de Dispersão

• Amplitude total dos dados (AT)

AT = Xmax - Xmin.

Esta medida depende apenas do menor e do maior valor

do conjunto de dados. Em geral não é tão boa quanto as

outras medidas de variação que levam em conta todos os

valores.

Page 25: Descrição e Apresentação de Dados Tabelas: Univariadas Bivariadas Gráficos Colunas Barras Setores Linha Histogramas Polígono de frequências Ogivas

• Desvio Médio (DM)

O desvio pela diferença

di = (Xi – média)

mede o quão longe o dado está da média. Entretanto, a soma

desses desvios sempre é igual a zero. Assim, uma medida de

dispersão pode ser definida como o módulo dos desvios:

n

XX

n

dDM

ii

Page 26: Descrição e Apresentação de Dados Tabelas: Univariadas Bivariadas Gráficos Colunas Barras Setores Linha Histogramas Polígono de frequências Ogivas

• Variância (2, S2)

• Desvio Padrão (, S)

N

XX i

2

2

)(

Outra medida de dispersão é definida como o desvio quadrático (desvio)2.

2SS

1

)( 2

2

n

XX

Si

2

Page 27: Descrição e Apresentação de Dados Tabelas: Univariadas Bivariadas Gráficos Colunas Barras Setores Linha Histogramas Polígono de frequências Ogivas

Para Entender o Desvio-Padrão

• Devemos ter em mente que o desvio padrão mede a variação entre

valores.

• Valores próximos uns dos outros originam desvios-padrão menores,

enquanto valores muito afastados uns dos outros dão um desvio-padrão

maior.

• Uma regra prática que utiliza a amplitude para obter uma estimativa

bastante rudimentar do desvio padrão é:

Uma regra prática: Desvio padrão

4

amplitude

Page 28: Descrição e Apresentação de Dados Tabelas: Univariadas Bivariadas Gráficos Colunas Barras Setores Linha Histogramas Polígono de frequências Ogivas

Regra empírica: aplicável somente a conjuntos de dados com distribuição aproximadamente simétrica (forma de sino).

68%

95%

99%

3X2X3X 2X XX X

Page 29: Descrição e Apresentação de Dados Tabelas: Univariadas Bivariadas Gráficos Colunas Barras Setores Linha Histogramas Polígono de frequências Ogivas

•Coeficiente de Variação (CV)

N

XX i

2

2

)(

n

XX

Onde:

é a média aritmética e

e a variância.

%100

CV %100

X

SCV

1

)( 2

2

n

XX

Si

Page 30: Descrição e Apresentação de Dados Tabelas: Univariadas Bivariadas Gráficos Colunas Barras Setores Linha Histogramas Polígono de frequências Ogivas

Outras Medidas de Posição:

• Quartis: Divide a distribuição em 4 partes iguais. Há três quartis denotados por Q1, Q2 e Q3 ,que dividem os dados ordenados em 4

grupos com 25% das observações em cada grupo;

• Decis: Divide a distribuição em 10 partes iguais. Há nove decis, denotados por D1, D2, ... D9 , que dividem os dados em 10 grupos

com cerca de 10% das observações em cada grupo.

• Percentis: Divide a distribuição em 100 partes iguais. Há 99 percentis, que dividem os dados em 100 grupos com cerca de 1% das observações em cada grupo.

Page 31: Descrição e Apresentação de Dados Tabelas: Univariadas Bivariadas Gráficos Colunas Barras Setores Linha Histogramas Polígono de frequências Ogivas

700000600000500000400000300000200000C E E

Diagrama em caixas – Box-Plot

Pontos discrepantes

Page 32: Descrição e Apresentação de Dados Tabelas: Univariadas Bivariadas Gráficos Colunas Barras Setores Linha Histogramas Polígono de frequências Ogivas

700000600000500000400000300000200000C E E

Diagrama em caixas – Box-Plot

Valores maiores do que Q3 + 1,5(Q3 - Q1) ou menores do que

Q1 - 1,5(Q3 - Q1) são considerado atípicos.

Atípicos

Atípicos

Q1 Q2 Q3

Q3 + 1,5(Q3 - Q1)

Q1 - 1,5(Q3 - Q1)

Page 33: Descrição e Apresentação de Dados Tabelas: Univariadas Bivariadas Gráficos Colunas Barras Setores Linha Histogramas Polígono de frequências Ogivas

Valores maiores do que Q3 + 3(Q3 - Q1) ou menores do que

Q1 - 3(Q3 - Q1) são considerados outliers.

700000600000500000400000300000200000C E E

Q1 Q2 Q3

Q3 + 3(Q3 - Q1)

Q1 - 3(Q3 - Q1)

Outliers Outliers

Page 34: Descrição e Apresentação de Dados Tabelas: Univariadas Bivariadas Gráficos Colunas Barras Setores Linha Histogramas Polígono de frequências Ogivas

Medidas de Assimetria

Primeiro Coeficiente de Pearson:

Segundo Coeficiente de Pearson:

S

MXAou

MXA o

so

s

13

213 2

QQ

QQQAs

Se As < 0 a distribuição é assimétrica negativa;

As = 0 a distribuição é simétrica;

As > 0 a distribuição é assimétrica positiva.

Page 35: Descrição e Apresentação de Dados Tabelas: Univariadas Bivariadas Gráficos Colunas Barras Setores Linha Histogramas Polígono de frequências Ogivas

Medidas de CurtoseCurtose é o grau de achatamento de uma distribuição que pode ser medido utilizando o seguinte coeficiente:

Onde: Q1 e Q3 são os quartis, P90 e P10 são os percentis.

1090

13

2 PP

QQK

K < 0,263 a distribuição de freqüências é leptocúrtica.

Se K > 0,263 a distribuição

de freqüências é platicúrtica;

K = 0,263 a distribuição de

freqüências é mesocúrtica;