Transcript
Page 1: 3. ANÁLISE DESCRITIVA DE DADOS 3.1. Conceitos: … · 3. ANÁLISE DESCRITIVA DE DADOS 3.1. Conceitos: Parâmetro Populacional: normalmente denotado por , é uma característica populacional

3. ANÁLISE DESCRITIVA DE DADOS

3.1. Conceitos:

Parâmetro Populacional: normalmente denotado por , é uma

característica populacional de interesse, que pode ser expressa

através de uma quantidade numérica. Normalmente é desconhecido

e fixo.

Estatística: é uma medida numérica, que descreve uma

característica da amostra.

A Estatística é uma função da amostra: S = f(X1, X2, . . . , Xn)

X1, X2, . . . , Xn representam as n observações da amostra

Exemplos de estatísticas média amostral:

n

XX

n

ii

1

variância amostral:

1

1

2

2

n

XX

s

n

ii

min = valor mínimo da amostra

denotado por X(1)

max = valor máximo da amostra

denotado por X(n)

PARÂMETROS E ESTATÍSTICAS

Nome ESTATÍSTICA

(Amostra)

PARÂMETRO

(População)

Média X

Variância s2

2

Correlação rX,Y X,Y

Proporção p̂ p

Page 2: 3. ANÁLISE DESCRITIVA DE DADOS 3.1. Conceitos: … · 3. ANÁLISE DESCRITIVA DE DADOS 3.1. Conceitos: Parâmetro Populacional: normalmente denotado por , é uma característica populacional

Variável: característica desconhecida, que pode variar de um

indivíduo para outro da população e que, ao ser observada ou

mensurada, gera uma única resposta.

Tipos de variáveis:

a) Variáveis qualitativas: variáveis cujos possíveis resultados são

atributos ou qualidades. São NÃO NUMÉRICAS.

Podem ser classificadas em:

i) ORDINAIS, quando obedecem a uma ordem natural ou

ii) NOMINAIS, quando não obedecem nenhuma ordem.

b) Variáveis quantitativas: variáveis cujos possíveis resultados

são valores numéricos resultantes de mensuração ou contagem.

Podem ser classificadas em:

i) DISCRETAS, quando assumem valores inteiros, ou

ii) CONTÍNUAS, quando assumem valores reais.

Page 3: 3. ANÁLISE DESCRITIVA DE DADOS 3.1. Conceitos: … · 3. ANÁLISE DESCRITIVA DE DADOS 3.1. Conceitos: Parâmetro Populacional: normalmente denotado por , é uma característica populacional

3.2. Representação de variáveis quantitativas em tabelas e

gráficos

O gráfico de pontos é a primeira representação da amostra,

fornecendo um aspecto visual da concentração e distribuição dos

pontos na nossa escala de medidas.

No exemplo abaixo, percebemos o conjunto de dados

concentrado na primeira metade da escala, com uma grande

concentração entre os valores 2,5 e 7,5, e uma dispersão mais

acentuada no lado superior (direito) da distribuição, com valores

chegando a 17,5. Esta dispersão indica uma forte assimetria na

cauda superior da distribuição (assimetria à direita).

Figura 1: Gráfico de pontos.

Page 4: 3. ANÁLISE DESCRITIVA DE DADOS 3.1. Conceitos: … · 3. ANÁLISE DESCRITIVA DE DADOS 3.1. Conceitos: Parâmetro Populacional: normalmente denotado por , é uma característica populacional

Uma forma prática de representação gráfica para dados

quantitativos (em especial dados contínuos) é dada pelo

histograma, no qual, representamos as frequências de uma tabela

por barras adjacentes em intervalos de classes.

Tabela 1: Tabela de frequências com k = 7 classes:

Classe – (Xi) ni fi

0,0 |--- 2,5 34 0,136

2.5 |--- 5,0 74 0,296

5,0 |--- 7,5 86 0,344

7,5 |--- 10,0 30 0,120

10,0 |--- 12,5 16 0,064

12,5 |--- 15,0 5 0,020

15,0 |--- 17,5 5 0,020

Total 250 1,000

Figura 2: Histograma sobre o gráfico de pontos.

Page 5: 3. ANÁLISE DESCRITIVA DE DADOS 3.1. Conceitos: … · 3. ANÁLISE DESCRITIVA DE DADOS 3.1. Conceitos: Parâmetro Populacional: normalmente denotado por , é uma característica populacional

O Polígono de Frequências

Marcando o ponto médio de cada retângulo do histograma na sua

na parte superior e ligando esses pontos, teremos uma figura que

chamaremos de Polígono de Frequências (Figura 3).

Figura 3: Polígono de frequências.

As linhas retas que compõem o polígono de frequências são

uma aproximação rudimentar para uma curva que representa uma

Distribuição de Frequências. Essa distribuição é descrita por uma

função f(x), contínua e diferenciável, definida num intervalo dos

reais, a qual será denotada por função distribuição de

probabilidades ou fdp (Figura 4).

Page 6: 3. ANÁLISE DESCRITIVA DE DADOS 3.1. Conceitos: … · 3. ANÁLISE DESCRITIVA DE DADOS 3.1. Conceitos: Parâmetro Populacional: normalmente denotado por , é uma característica populacional

Figura 4: Função de distribuição de probabilidades sobre o histograma.

Page 7: 3. ANÁLISE DESCRITIVA DE DADOS 3.1. Conceitos: … · 3. ANÁLISE DESCRITIVA DE DADOS 3.1. Conceitos: Parâmetro Populacional: normalmente denotado por , é uma característica populacional

3.2.1. Tabelas de frequências de variáveis quantitativas

Para a representação de dados quantitativos em tabelas utiliza-se a

mesma notação usada para dados qualitativos, porém, nesse caso os

dados são agrupados em intervalos de classes:

n = tamanho da amostra ou frequência absoluta total;

k = número de classes;

ni = frequência absoluta da i-ésima classe, i = 1, 2, ..., k;

nnk

ii

1

fi = frequência relativa da i-ésima classe, i = 1, 2, ..., k;

n

nf ii , tal que: 1

11

k

i

ik

ii

n

nf

Representação das frequências das categorias da variável

qualitativa numa tabela com as frequências absolutas e relativas.

Classes Freq. absolutas Freq. relativas

Classe 1 n1 f1 = n1 / n

⁞ ⁞ ⁞

Classe i ni fi = ni / n

⁞ ⁞ ⁞

Classe k nk fk = nk / n

Totais n 1

Um fato importante agora é a determinação do número de classes

k, que deve ser feita levando-se em conta a quantidade total de

informação ou frequência absoluta n.

Page 8: 3. ANÁLISE DESCRITIVA DE DADOS 3.1. Conceitos: … · 3. ANÁLISE DESCRITIVA DE DADOS 3.1. Conceitos: Parâmetro Populacional: normalmente denotado por , é uma característica populacional

i) Regras para o número de classes k

Diversos autores indicam regras diferentes para a determinação

do número de classes para uma distribuição de frequências e,

consequentemente, o histograma. Na tabela abaixo, são

apresentados as principais regras encontradas na literatura que

levem em conta apenas o tamanho da amostra n.

Tabela 2: Regras para o número de classes de uma distribuição

de frequências.

Regra Propriedades

Raiz quadrada de n

nk

Apropriado como valor inicial, fornece

valores baixos para n pequeno (n < 50).

Pode ser indicado para valores de n entre

80 e 120.

Raiz quadrada de 2n

nk 2

Apropriado para valores baixos de n,

cresce muito rápido para valores

moderados (n > 50).

Não é indicado para n > 80.

Regra do Logaritmo natural

nk ln3

Muito parecido com o método de Sturges,

fornece valores ligeiramente maiores para

n pequeno, porém a situação se inverte

para n >120.

Indicado para valores elevados de n.

Sturges

nk 10log32.31

O método mais consagrado fornece valores

baixos para n pequeno, e cresce muito

devagar.

Indicado para valores elevados de n.

Page 9: 3. ANÁLISE DESCRITIVA DE DADOS 3.1. Conceitos: … · 3. ANÁLISE DESCRITIVA DE DADOS 3.1. Conceitos: Parâmetro Populacional: normalmente denotado por , é uma característica populacional

De maneira geral, é indicado “bom senso” na determinação do

número de classes de um histograma.

O número de classes deve ser moderado.

Como há um agrupamento de valores nas classes, há perda de

informação.

Se o número de classes for muito grande ocorre uma perda

menor de informação, mas a eficiência do resumo fica

prejudicada;

Um número muito pequeno de classes resume demais e ocorre

perda excessiva de informação.

Tabela 3: Número indicado de classes num histograma.

n classes

até 50 5 a 10

50 a 100 8 a 16

100 a 200 10 a 20

200 a 300 12 a 24

300 a 500 15 a 30

500 ou mais 20 a 40 Fonte: Sistema Galileu, ESALQ/USP

Page 10: 3. ANÁLISE DESCRITIVA DE DADOS 3.1. Conceitos: … · 3. ANÁLISE DESCRITIVA DE DADOS 3.1. Conceitos: Parâmetro Populacional: normalmente denotado por , é uma característica populacional

3.2.2. Histograma para dados Contínuos

Exemplo 1: Altura (em metros) dos alunos da turma B de

Bioestatística no primeiro semestre de 2015.

X = altura dos alunos (em metros).

1,62 1,60 1,60 1,65 1,60 1,73 1,78 1,72 1,62 1,58 1,65

1,81 1,62 1,63 1,67 1,65 1,80 1,75 1,80 1,70 1,65 1,80

1,76 1,60 1,57 1,65 1,70 1,73 1,75 1,65 1,70 1,66 1,74

1,51 1,63 1,55 1,58 1,56 1,80 1,75 1,67 1,58 1,77

Dados ordenados 1,51 1,55 1,56 1,57 1,58 1,58 1,58 1,60 1,60 1,60 1,60

1,62 1,62 1,62 1,63 1,63 1,65 1,65 1,65 1,65 1,65 1,65

1,66 1,67 1,67 1,70 1,70 1,70 1,72 1,73 1,73 1,74 1,75

1,75 1,75 1,76 1,77 1,78 1,80 1,80 1,80 1,80 1,81

Construindo a tabela de frequências:

a) Número de classes (fórmula de Sturges):

k = 1 + 3,32log10(n)

k = 1 + 3,32log10(43) = 6,43 = 7 classes (6 ou 7)

b) Amplitude da classe:

A = 1,51 – 1,81 = 0,30 0428,07

30,0h

Podemos arredondar h para 0,043 ou para um valor mais

apropriado, no caso 0,05.

Page 11: 3. ANÁLISE DESCRITIVA DE DADOS 3.1. Conceitos: … · 3. ANÁLISE DESCRITIVA DE DADOS 3.1. Conceitos: Parâmetro Populacional: normalmente denotado por , é uma característica populacional

c) Tabela de frequências:

Classe (m) ni fi Fac

1,50 [--- 1,55 1 0,0233 1

1,55 [--- 1,60 6 0,1395 7

1,60 [--- 1,65 9 0,2093 16

1,65 [--- 1,70 9 0,2093 25

1,70 [--- 1,75 7 0,1628 32

1,75 [--- 1,80 6 0,1395 38

1,80 [--- 1,85 5 0,1163 43

Total 43 1,0000 -

Figura 5: Histograma feito no Excel

Page 12: 3. ANÁLISE DESCRITIVA DE DADOS 3.1. Conceitos: … · 3. ANÁLISE DESCRITIVA DE DADOS 3.1. Conceitos: Parâmetro Populacional: normalmente denotado por , é uma característica populacional

Histograma feito no R.

Comandos do R para histograma:

# inserindo os dados

altura <- c(1.51,1.55,1.56,1.57,1.58,1.58,1.58,1.60,

1.60,1.60,1.60,1.62,1.62,1.62,1.63,1.63,1.65,1.65,

1.65,1.65,1.65,1.65,1.66,1.67,1.67,1.70,1.70,1.70,

1.72,1.73,1.73,1.74,1.75,1.75,1.75,1.76,1.77,1.78,

1.80,1.80,1.80,1.80,1.81)

# construindo o histograma com diferentes formatações

nclass.Sturges(altura)

hist(altura, col="bisque", right=F)

hist(altura, breaks="Sturges", col="bisque", right=F)

hist(altura, breaks="Sturges", right=F, plot=F)

# construindo o histograma com diferentes critérios

# para o número de classes

nclass.scott(altura)

hist(altura, breaks="Scott", right=F, col="bisque")

nclass.FD(altura)

hist(altura, breaks="FD", right=F, col="bisque")

Page 13: 3. ANÁLISE DESCRITIVA DE DADOS 3.1. Conceitos: … · 3. ANÁLISE DESCRITIVA DE DADOS 3.1. Conceitos: Parâmetro Populacional: normalmente denotado por , é uma característica populacional

# definindo os intervalos para o histograma

# 1º. Caso:

h1 <- seq(1.50, 1.85, by=0.05)

hist(altura, breaks=h1, right=F, col="bisque")

hist(altura, breaks=h1, right=F, plot=F)

# 2º. Caso:

h2 <- seq(1.51,1.81, by=0.05)

hist(altura, breaks=h2, right=F, col="bisque")

hist(altura, breaks=h2, right=F, plot=F)

Page 14: 3. ANÁLISE DESCRITIVA DE DADOS 3.1. Conceitos: … · 3. ANÁLISE DESCRITIVA DE DADOS 3.1. Conceitos: Parâmetro Populacional: normalmente denotado por , é uma característica populacional

Exemplo 2: Medidas do pH em precipitação pluviométrica durante

o período de 20/12/1973 a 23/05/1974 no nordeste dos Estados

Unidos.

X = medida do pH em amostras de chuva.

Dados ordenados 4,12 4,12 4,26 4,26 4,29 4,30 4,31 4,39 4,39 4,40

4,41 4,45 4,52 4,56 4,57 4,60 4,63 4,64 4,73 4,82

5,08 5,29 5,51 5,62 5,67 5,78

a) Número de classes (fórmula de Sturges):

k = 1 + 3,322log10(26) = 5,70 = 6 classes (5 ou 6)

b) Amplitude da classe:

A = 5,78 – 4,12 = 1,66 28,06

66,1h

c) Tabela de frequências:

Classe - pH ni fi Fac

4,12 [--- 4,40 9 0,346 0,346

4,40 [--- 4,68 9 0,346 0,692

4,68 [--- 4,96 2 0,077 0,769

4,96 [--- 5,24 1 0,038 0,807

5,24 [--- 5,52 2 0,077 0,884

5,52 [--- 5,80 3 0,115 0,999

Total 26 0,999 * -

* o valor 0.999 ocorreu devido ao arredondamento na precisão considerada (3 casas).

Page 15: 3. ANÁLISE DESCRITIVA DE DADOS 3.1. Conceitos: … · 3. ANÁLISE DESCRITIVA DE DADOS 3.1. Conceitos: Parâmetro Populacional: normalmente denotado por , é uma característica populacional

5.805.525.244.964.684.404.12

9

8

7

6

5

4

3

2

1

0

pH

Fre

qu

en

cia

Histograma do pH da chuva

Comandos do R para histograma:

# inserindo os dados

ph <- c(4.57,5.62,4.12,5.29,4.64,4.31,4.30,4.39,

4.45,5.67,4.39,4.52,4.26,4.26,4.40,5.78,4.73,

4.56,5.08,4.41,4.12,5.51,4.82,4.63,4.29,4.60)

# construindo o histograma

hist(ph, breaks="Sturges", right=F, col="bisque")

hist(ph, breaks="Sturges", right=F, plot=F)

# definindo os intervalos para o histograma

# 1º. Caso:

h1 <- seq(4.12, 5.80, by=0.28)

hist(ph, breaks=h1, right=F, col="bisque")

hist(ph, breaks=h1, right=F, plot=F)

# 2º. Caso:

h2 <- seq(4.10, 5.80, by=0.34)

hist(ph, breaks=h2, right=F, col="bisque")

hist(ph, breaks=h2, right=F, plot=F)

Page 16: 3. ANÁLISE DESCRITIVA DE DADOS 3.1. Conceitos: … · 3. ANÁLISE DESCRITIVA DE DADOS 3.1. Conceitos: Parâmetro Populacional: normalmente denotado por , é uma característica populacional

Exemplo 3: Notas de teste verbal aplicado em 87 alunos da rede

pública americana.

X = nota do aluno

2,5 2,8 2,8 3,2 3,5 3,6 3,7 3,8 3,9 4,0

4,1 4,1 4,1 4,1 4,2 4,5 4,6 4,7 4,7 4,7

4,7 4,8 4,8 4,9 4,9 5,0 5,0 5,1 5,1 5,1

5,2 5,2 5,2 5,2 5,2 5,3 5,3 5,3 5,3 5,4

5,4 5,4 5,4 5,5 5,5 5,5 5,6 5,7 5,7 5,8

5,9 5,9 5,9 5,9 6,0 6,1 6,1 6,1 6,1 6,2

6,2 6,2 6,3 6,4 6,4 6,4 6,4 6,5 6,5 6,5

6,5 6,5 6,6 6,6 6,7 6,7 6,7 6,7 6,8 6,9

6,9 7,0 7,0 7,1 7,2 7,3 7,5

k = 1 + 3,322log1087 = 7,44 = 8 classes

A = 7,5 – 2,5 = 5 h = 5/7 = 0,714 0,72

Distribuição de frequências com k = 8 classes:

Xi (nota) ni fi Fac

2,50 |--- 3,15 3 0,034 0,034

3,15 |--- 3,80 4 0,046 0,080

3,80 |--- 4,45 8 0,092 0,172

4,45 |--- 5,10 12 0,138 0,310

5,10 |--- 5,75 22 0,253 0,563

5,75 |--- 6,40 14 0,161 0,724

6,40 |--- 7,05 20 0,230 0,954

7,05 |--- 7,70 4 0,046 1,000

Total 87 1,000 -

Page 17: 3. ANÁLISE DESCRITIVA DE DADOS 3.1. Conceitos: … · 3. ANÁLISE DESCRITIVA DE DADOS 3.1. Conceitos: Parâmetro Populacional: normalmente denotado por , é uma característica populacional

Histograma feito no Excel

Histograma feito no R

Page 18: 3. ANÁLISE DESCRITIVA DE DADOS 3.1. Conceitos: … · 3. ANÁLISE DESCRITIVA DE DADOS 3.1. Conceitos: Parâmetro Populacional: normalmente denotado por , é uma característica populacional

Comandos do R para o histograma:

# inserindo os dados

verbal <- c(2.5,2.8,2.8,3.2,3.5,3.6,3.7,3.8,3.9,

4.0,4.1,4.1,4.1,4.1,4.2,4.5,4.6,4.7,4.7,4.7,

4.7,4.8,4.8,4.9,4.9,5.0,5.0,5.1,5.1,5.1,5.2,

5.2,5.2,5.2,5.2,5.3,5.3,5.3,5.3,5.4,5.4,5.4,

5.4,5.5,5.5,5.5,5.6,5.7,5.7,5.8,5.9,5.9,5.9,

5.9,6.0,6.1,6.1,6.1,6.1,6.2,6.2,6.2,6.3,6.4,

6.4,6.4,6.4,6.5,6.5,6.5,6.5,6.5,6.6,6.6,6.7,

6.7,6.7,6.7,6.8,6.9,6.9,7.0,7.0,7.1,7.2,7.3,

7.5)

# construindo o histograma com a regra de Sturges

hist(verbal, col="bisque", right=F)

# definindo os intervalos (k = 8)

h <- seq(2.5,7.7, by=0.65) hist(verbal, breaks=h, col="bisque", right=F,ylim=c(0,22))

# definindo os intervalos (k = 7)

h <- seq(2.50,7.54, by=0.72) hist(verbal, breaks=h, col="bisque", right=F,ylim=c(0,25))

Gráfico de frequências acumuladas

Page 19: 3. ANÁLISE DESCRITIVA DE DADOS 3.1. Conceitos: … · 3. ANÁLISE DESCRITIVA DE DADOS 3.1. Conceitos: Parâmetro Populacional: normalmente denotado por , é uma característica populacional

3.2.3. Tabela de frequência e histograma para dados discretos

Exemplo 4: Em um hospital foi contabilizado o número de pessoas

com diabetes em 20 grupos de 1000 pessoas cada.

X = casos de diabete por grupo de 1000 pessoas

Neste caso, foram obtidos os seguintes dados:

10, 12, 9, 11, 10, 8, 9, 10, 7, 10, 8, 9, 9, 10, 10, 11, 9, 11, 10, 10

Tabela de frequências

X (casos/10000 pessoas) ni fi Fac %

7 1 0,05 0,05 5

8 2 0,10 0,15 10

9 5 0,25 0,40 25

10 8 0,40 0,80 40

11 3 0,15 0,95 15

12 1 0,05 1,00 5

Total 20 1.00 - 100

Gráfico de frequências de uma variável discreta

Gráfico de frequências, feito no Excel

Page 20: 3. ANÁLISE DESCRITIVA DE DADOS 3.1. Conceitos: … · 3. ANÁLISE DESCRITIVA DE DADOS 3.1. Conceitos: Parâmetro Populacional: normalmente denotado por , é uma característica populacional

Histograma: de preferência deve ser construído de forma que os

valores da tabela sejam os pontos médios das classes.

Histograma feito no R

diabetes <- c(10, 12, 9, 11, 10, 8, 9, 10, 7, 10,

8, 9, 9, 10, 10, 11, 9, 11, 10, 10)

h1 <- seq(6.5,12.5)

hist(diabetes, breaks=h1, col="bisque")

Page 21: 3. ANÁLISE DESCRITIVA DE DADOS 3.1. Conceitos: … · 3. ANÁLISE DESCRITIVA DE DADOS 3.1. Conceitos: Parâmetro Populacional: normalmente denotado por , é uma característica populacional

Exemplo 5: Número de dias/semana que os alunos da disciplina

Estatística 1 (do curso de Estatística) praticam atividade física.

X = dias/semana de atividade física.

Dados ordenados: 1, 2, 2, 2, 2, 3, 3, 3, 3, 3, 4, 4, 4, 4, 4, 5, 5, 7

Tabela de frequências X (casos) ni fi Fac

1 1 0,056 0,056

2 4 0,222 0,278

3 5 0,278 0,556

4 5 0,278 0,834

5 2 0,111 0,945

6 0 0,000 0,945

7 1 0,056 1,001

Total 18 1,001 -

Histograma feito no R

dias <- c(1, 2, 2, 2, 2, 3, 3, 3, 3, 3, 4, 4,

4, 4, 4, 5, 5, 7)

h1 <- seq(0.5,7.5)

hist(dias, breaks=h1, col="bisque")

Page 22: 3. ANÁLISE DESCRITIVA DE DADOS 3.1. Conceitos: … · 3. ANÁLISE DESCRITIVA DE DADOS 3.1. Conceitos: Parâmetro Populacional: normalmente denotado por , é uma característica populacional

3.2.4. Dados discretos agrupados

Exemplo 6: Um produtor caixas registrou o número de caixas de

morango produzidas por canteiro.

X = caixas de morango/canteiro.

Dados ordenados: 22 23 24 26 27 27 29 29 29 30

31 31 32 32 33 34 34 34 34 35

35 36 37 38 38 39 39 40 40 40

42 42 43 43 44 44 45 45 46 48

Com k = 6 classes

A = 48 – 22 = 26 h = 30/6 = 5

Distribuição de frequências com k = 6 classes:

Xi ni fi Fac

20 |--- 25 3 0,075 0,075

25 |--- 30 6 0,150 0,225

30 |--- 35 10 0,250 0,475

35 |--- 40 8 0,200 0,675

40 |--- 45 9 0,225 0,900

45 |--- 50 4 0,100 1,000

Total 40 1,000 -

Page 23: 3. ANÁLISE DESCRITIVA DE DADOS 3.1. Conceitos: … · 3. ANÁLISE DESCRITIVA DE DADOS 3.1. Conceitos: Parâmetro Populacional: normalmente denotado por , é uma característica populacional

Histograma feito no R

> X <- c(22,23,24,26,27,27,29,29,29,30,31,31,32,

32,33,34,34,34,34,35,35,36,37,38,38,39,39,

40,40,40,42,42,43,43,44,44,45,45,46,48)

> h1 <- seq(20, 50, by=5)

> hist(X, breaks=h1, right=F, col="bisque",

main="Caixas de morango/canteiro")

Obs: para dados discretos, a tabela pode ser construída

considerando apenas os valores inteiros como limites, conforme

mostrado abaixo.

Distribuição de frequências com k = 6 classes:

Xi ni fi Fac

20 a 24 3 0,075 0,075

25 a 29 6 0,150 0,225

30 a 34 10 0,250 0,475

35 a 39 8 0,200 0,675

40 a 44 9 0,225 0,900

45 a 49 4 0,100 1,000

Total 40 1,000 -

Page 24: 3. ANÁLISE DESCRITIVA DE DADOS 3.1. Conceitos: … · 3. ANÁLISE DESCRITIVA DE DADOS 3.1. Conceitos: Parâmetro Populacional: normalmente denotado por , é uma característica populacional

Caso especial: Dados discretizados

Muitas vezes, apesar da variável ser contínua, os dados são

apresentados por valores inteiros. Nestes casos, os dados podem ser

considerados como discretos, num processo chamado de

discretização.

Esta situação, na maioria das vezes, ocorre com a variável tempo

de vida, que é apresentada por valores inteiros da unidade de

medida (anos, meses, semanas, dias, etc…)

Exemplo 7: Uma grande companhia está preocupada com o tempo

que seus e ficam em manutenção na assistência técnica. Sendo

assim, fez um levantamento do tempo de manutenção (dias) de 50

equipamentos para um estudo mais detalhado.

X = dias em manutenção de equipamentos.

15 13 21 9 5 5 10 6 2 2

9 10 3 4 2 13 12 16 7 6

4 11 8 6 6 10 17 13 9 5

2 5 9 14 15 3 6 18 3 4

5 7 8 3 10 5 5 4 5 2

Dados Ordenados:

2 2 2 2 2 3 3 3 3 4

4 4 4 5 5 5 5 5 5 5

5 6 6 6 6 6 7 7 8 8

9 9 9 9 10 10 10 10 11 12

3 13 13 14 15 15 16 17 18 21

Tabela de frequências:

k = 1 + 3,322log1050 = 6,64 = 7 classes

A = 21 – 2 = 19 h = 19/6 = 3,16 3,2

Page 25: 3. ANÁLISE DESCRITIVA DE DADOS 3.1. Conceitos: … · 3. ANÁLISE DESCRITIVA DE DADOS 3.1. Conceitos: Parâmetro Populacional: normalmente denotado por , é uma característica populacional

Distribuição de frequências com k = 7 classes: Xi (dias) ni fi Fac

2 a 4 13 0,26 0,26

5 a 7 15 0,30 0,56

8 a 10 10 0,20 0,76

11 a 13 5 0,10 0,86

14 a 16 4 0,08 0,94

17 a 19 2 0,04 0,98

20 a 22 1 0,02 1,00

Total 50 1,00 -

Histograma feito no Excel

Page 26: 3. ANÁLISE DESCRITIVA DE DADOS 3.1. Conceitos: … · 3. ANÁLISE DESCRITIVA DE DADOS 3.1. Conceitos: Parâmetro Populacional: normalmente denotado por , é uma característica populacional

Gráfico de frequências acumuladas, feito no Excel

Page 27: 3. ANÁLISE DESCRITIVA DE DADOS 3.1. Conceitos: … · 3. ANÁLISE DESCRITIVA DE DADOS 3.1. Conceitos: Parâmetro Populacional: normalmente denotado por , é uma característica populacional

Distribuição de frequências com k = 6 classes: Xi (dias) ni fi Fac

0 a 3 9 0,18 0,18

4 a 7 19 0,38 0,56

8 a 11 11 0,22 0,78

12 a 15 7 0,14 0,92

16 a 19 3 0,06 0,98

20 a 23 1 0,02 1,00

Total 50 1,00 -

Histograma feito no Excel

Page 28: 3. ANÁLISE DESCRITIVA DE DADOS 3.1. Conceitos: … · 3. ANÁLISE DESCRITIVA DE DADOS 3.1. Conceitos: Parâmetro Populacional: normalmente denotado por , é uma característica populacional

Comandos do R para o histograma: manuten <-c(15,13,21, 9, 5, 5,10, 6, 2, 2, 9,10,

3, 4, 2,13,12,16, 7, 6, 4,11, 8, 6, 6,10,17,13,

9, 5, 2, 5, 9,14,15, 3, 6,18, 3, 4, 5, 7, 8, 3,

10, 5, 5, 4, 5, 2)

nclass.Sturges(manuten)

hist(manuten, col="bisque")

hist(manuten, breaks="Sturges", col="bisque")

nclass.scott(manuten)

hist(manuten, breaks="Scott", col="bisque")

nclass.FD(manuten)

hist(manuten, breaks="FD", col="bisque")

hist(manuten, breaks=7, col="bisque")

hist(manuten, breaks=8, col="bisque")

# definindo os intervalos

#########################

h1 <- c(0.5,4.5,8.5,12.5,16.5,20.5,24.5)

hist(manuten, breaks=h1, col="bisque")

h2 <- c(1.5,4.5,7.5,10.5,13.5,16.5,18.5,22.5)

hist(manuten, breaks=h2, col="bisque")

Page 29: 3. ANÁLISE DESCRITIVA DE DADOS 3.1. Conceitos: … · 3. ANÁLISE DESCRITIVA DE DADOS 3.1. Conceitos: Parâmetro Populacional: normalmente denotado por , é uma característica populacional

Anexos:

A.1: Taxas de octanagem de combustível de várias misturas de

gasolina (dados retirados da revista Technometrics (Vol. 19, 1977,

p. 425):

88.5 87.7 83.4 86.7 87.5 91.5 88.6 100.3 96.5 93.3 94.7

91.1 91.0 94.2 87.8 89.9 88.2 90.8 88.3 98.8 94.2 92.7

93.2 91.0 90.1 93.4 88.5 90.1 89.2 88.3 85.3 87.9 88.6

90.9 89.0 96.1 93.3 91.8 88.3 87.6 84.3 86.7 84.3 86.7

92.3 90.4 90.1 93.0 88.7 89.9 89.8 89.6 87.4 88.4 88.9

91.2 89.3 94.4 92.7 91.8 91.6 90.4 91.1 92.6 89.8 90.6

91.1 90.4 89.3 89.7 90.3 91.6 90.5 93.7 92.7 92.2 92.2

91.2 91.0 92.2 90.0 90.7

Figura A.1.1: Gráfico de pontos da variável octanagem de gasolina.

Page 30: 3. ANÁLISE DESCRITIVA DE DADOS 3.1. Conceitos: … · 3. ANÁLISE DESCRITIVA DE DADOS 3.1. Conceitos: Parâmetro Populacional: normalmente denotado por , é uma característica populacional

A.2: Dados Estudantil, variável tempo semanal gasto assistindo

TV (horas TV).

Tabela A.2.1: Tabela de frequências e horas TV. Classe (h) Bloco Frequência

00 |--- 05 4 7

05 |--- 10 9 13

10 |--- 15 14 20

15 |--- 20 19 3

20 |--- 25 24 3

25 |---| 30 29 3

3020100

horas

Gráfico de pontos para horas de TV

Figura A.2.1: Gráfico de pontos de horas TV feito no MINITAB.

Page 31: 3. ANÁLISE DESCRITIVA DE DADOS 3.1. Conceitos: … · 3. ANÁLISE DESCRITIVA DE DADOS 3.1. Conceitos: Parâmetro Populacional: normalmente denotado por , é uma característica populacional

0 6 12 18 24 30

0

10

20

horas

Fre

ên

cia

Histograma de horas de TV

Figura A.2.2: Histograma de horas TV feito no MINITAB.

0.0 5.5 11.0 16.5 22.0 27.5 33.0

0

5

10

15

horas

Fre

ên

cia

Histograma de horas de TV

Figura A.2.3: Histograma de horas TV feito no MINITAB,

com outros limites de classes.

Page 32: 3. ANÁLISE DESCRITIVA DE DADOS 3.1. Conceitos: … · 3. ANÁLISE DESCRITIVA DE DADOS 3.1. Conceitos: Parâmetro Populacional: normalmente denotado por , é uma característica populacional

Figura A.2.4: Histograma de horas TV feito no Excel

(sem formatação)

Page 33: 3. ANÁLISE DESCRITIVA DE DADOS 3.1. Conceitos: … · 3. ANÁLISE DESCRITIVA DE DADOS 3.1. Conceitos: Parâmetro Populacional: normalmente denotado por , é uma característica populacional

A.3: Dados discretos não agrupados:

X = variável representando o número de vezes que um sistema

travou, por período de execução, na sua carga máxima de

processamento.

4 4 1 6 3 2 3 3 4 3 4 2 4

5 2 5 1 2 5 4 6 3 1 2 3

Tabela de Frequências:

X ni fi Fac

1 3 0,12 0,12

2 5 0,20 0,32

3 6 0,24 0,56

4 6 0,24 0,80

5 3 0,12 0,92

6 2 0,08 1,00

Total 25 1,00

Page 34: 3. ANÁLISE DESCRITIVA DE DADOS 3.1. Conceitos: … · 3. ANÁLISE DESCRITIVA DE DADOS 3.1. Conceitos: Parâmetro Populacional: normalmente denotado por , é uma característica populacional

A.4: Dados contínuos

Em 1798 o cientista Henry Cavendish mediu a densidade do

glogo terrestre em 29 ensaios. Os dados foram obtidos do Annals

os Statistics, 1977.

X = densidade do globo terrestre (g/cm3).

5,50 5,61 4,88 5,07 5,26 5,55 5,36 5,29 5,58 5,65

5,57 5,53 5,62 5,29 5,44 5,34 5,79 5,10 5,27 5,39

5,42 5,47 5,63 5,34 5,46 5,30 5,75 5,68 5,85

Dados ordenados

4,88 5,07 5,10 5,26 5,27 5,29 5,29 5,30 5,34 5,34

5,36 5,39 5,42 5,44 5,46 5,47 5,50 5,53 5,55 5,57

5,58 5,61 5,62 5,63 5,65 5,68 5,75 5,79 5,85

99,157x e 09,8622x

Page 35: 3. ANÁLISE DESCRITIVA DE DADOS 3.1. Conceitos: … · 3. ANÁLISE DESCRITIVA DE DADOS 3.1. Conceitos: Parâmetro Populacional: normalmente denotado por , é uma característica populacional

A.5.: Tabelas de frequências e histogramas no Excel

A.5.2.: Construção da tabela de frequência e histogramas no Excel

i) > Dados > Análise de Dados > Histograma > OK

ii) Marcar as opções:

Intervalo de entrada => conjunto de dados para a tabela

Intervalo do bloco => coluna com os limites das classes da tabela

Intervalo de saída => local onde a tabela será colocada

marcar Porcentagem cumulativa para a frequência acumulada Fac

marcar Resultado do gráfico para obter o Histograma

A.5.2.: Construção de histogramas no Excel

i) marcar os dados;

ii) selecionar > Inserir > Gráficos > Colunas

iii) acertar as configurações para melhor visualização do gráfico:

título (tipo de fonte e tamanho)

eixos (fontes e espaçamentos)

linhas de grade

espaçamento (clicar numa das colunas do gráfico e selecionar:

> Formatar > Largura do Espaçamento

definir a largura no máximo: Intervalo Grande

A.5.3.: Construção de tabelas dinâmicas no Excel

i) marcar os dados

ii) selecionar: > Inserir > Tabela Dinâmica

iii) arrastar X para a margem esquerda e centro da tabela

iv) clicar com o botão direito sobre a coluna Total;

selecionar > Resumir Dados por;

marcar a opção Contagem;

v) inserir as colunas e concluir a tabela, atentando para que os cálculos

sejam feitos corretamente.


Recommended